JP-TL-Bench：日英双方向翻訳のためのアンカー付きペアワイズLLM評価

ノート

This post is also available in English.

日英翻訳品質を反復的に改善するために作ってきたオープンベンチマーク JP-TL-Bench を、正式に公開しました。JP-TL-Benchは、今年開発していた Shisa V2、Shisa V2 405B、Shisa V2.1 の「秘密兵器」のひとつでした（というか、忙しすぎて記事にできなかっただけですが）。今回、コードとあわせて論文（フルペーパー）も公開しています。

ここ数年、ありがたいことに私たちの仕事を引用してくださる方々も増えてきました。これまではモデルとプロダクトのリリースに集中してきましたが、そろそろ研究のほうにも本腰を入れる頃合いです。というわけで、2025年の締めくくりに、Shisa.AI初の研究論文（フルペーパー）を公開します。

TL;DR

JP-TL-Benchは、翻訳モデルがどちらも「すでにかなり良い」状態になった後でも、「結局どちらが上か？」を見分けるのに役立ちます。良いモデルが上位で横並びになりがちな従来指標と違い、JP-TL-Benchはモデル間の差が見えるようにスコアを広げます。

Code: github.com/shisa-ai/jp-tl-bench
Paper: arXiv:2601.00223
Paper (PDF): GitHub

問題：「ぱっと見よさそうですね、ボス」

Shisa V2系のモデルを開発していたとき、私たちが重視するユースケースのいくつかでは、既存ベンチマークが「結局どのモデルが本当に良いのか？」を見分けるのにあまり役立たないことが分かりました。翻訳（機械翻訳、略してMT）もその代表例です。

新しいLLMを学習して、標準的なMT評価にかけたらスコアが0.89だったとします。いいですね！そして次に「出力をちゃんと読んだら明らかに良くなってる」新モデルを学習して、同じ評価にかけたらスコアが……また0.89。こういうこと、よくあります。

日本語MTでよく使われる指標は、明らかな破綻や訳ミスを見つけるのは得意です。ところが、モデルがすでに良い翻訳を出せるようになると、スコアが上位で密集してしまいます。結果として、「意味は合っているけどぎこちない訳」と「自然で流れるような文章」の差が、スコア上ではほとんど付かなくなります。

特に日本語↔︎英語の翻訳では深刻です。日本語は敬語・丁寧さの層が文法に組み込まれていて、主語や目的語がしばしば省略され（推論が必要で）、文化的参照もそのままでは直訳できません。「良い翻訳」と「まあ十分（good enough）」の差は、自動指標が見落としがちな細かな表現の違いに表れます。

解決策：戦わせよう

各翻訳に絶対スコアを付けるのではなく、よくある手法である ペアワイズ比較（pairwise comparison） を使います。問いはシンプルです。どっちが良い？

Shisa.AIはAIオタクなので、JP-TL-Benchでは LLMジャッジに同じ原文の2つの翻訳を見せて、勝者を選ばせます。これを十分な回数繰り返せば、安定して意味のあるランキングが得られます。

チェスの Eloレーティング や Chatbot Arena に馴染みがある人なら、この発想はピンと来ると思います。ただし私たちにはひとつ工夫があります。鍵になるイノベーションは アンカー付き比較（anchored comparison） です。

すべてのモデルを総当たりで比較すると、すぐにコストが爆発します。そこでJP-TL-Benchでは、新しいモデルを評価するときに「強いものから弱いものまで幅広い」固定の 20個のアンカーモデル とだけ比較します。つまり：

スコアが安定：今日のスコアと半年前のスコアが同じ意味を持つ
安い：モデル評価1回あたり約$7、所要10〜30分
差がつく：BLEUやCOMETでは同じに見えるモデルもきれいに分離できる

JP-TL-Benchが測るもの

このベンチマークには 70個の翻訳プロンプトがあり、以下をカバーします：

双方向：英→日と日→英
Easy/Hard：易しいものから、かなり歯ごたえのあるテキストまで
長さの幅：短文から、1,000語超の長文まで

Hard（高難度）プロンプトにはたとえば：

文化的参照を含むビデオゲームの会話文
翻訳が難しいことで有名な文学の一節
行間を読まないと訳せない文章

20個のアンカーモデルのスコアは次のとおりです（世界トップ級からかなり苦戦するものまで）：

#	モデル	勝率（WR%）	LT
1	google/gemini-2.5-pro	96.15	9.94
2	google/gemini-2.5-flash	92.93	9.89
3	Qwen/Qwen3-30B-A3B-Instruct-2507	84.37	9.63
4	shisa-ai/shisa-v2-llama3.1-405b	81.46	9.49
5	openai/gpt-4o	76.04	9.12
6	shisa-ai/shisa-v2-unphi4-14b	72.82	8.83
7	tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5	62.14	7.42
8	nvidia/NVIDIA-Nemotron-Nano-12B-v2	59.94	7.05
9	meta-llama/Llama-3.3-70B-Instruct	58.05	6.72
10	microsoft/phi-4	49.80	5.12
11	cyberagent/Mistral-Nemo-Japanese-Instruct-2408	47.60	4.67
12	Qwen/Qwen3-4B	44.78	4.10
13	LiquidAI/LFM2-2.6B	43.83	3.91
14	meta-llama/Llama-3.1-8B-Instruct	38.81	2.94
15	microsoft/Phi-4-mini-instruct	24.98	0.99
16	augmxnt/shisa-7b-v1	21.44	0.68
17	meta-llama/Llama-3.2-3B-Instruct	19.24	0.54
18	Rakuten/RakutenAI-2.0-mini-instruct	14.23	0.29
19	LiquidAI/LFM2-350M	8.88	0.14
20	SakanaAI/TinySwallow-1.5B	2.51	0.04

もちろんShisaモデルも入っていますが、主目的はアンカーセット全体の勝率が上から下までなるべく均等に並ぶように選ぶことでした。

なぜ従来の指標では足りないのか

問題を絵で見ると分かりやすいです。同じモデルに対して COMET 評価も実行してみました：

20個のアンカーモデル全体におけるスコア推移。JP-TL-Bench（緑）はレンジ全体にモデルを広げる一方、COMET各種（他の色）は良いモデルを上側の狭い帯に押し込める。

COMETのラインが上のほうで平坦になっていくのが見えますよね？これは「上位モデルが同じくらい良い」という意味ではなく、翻訳がある程度しっかりしてくると COMET側の解像度が足りなくなるということです。

赤い領域は、JP-TL-Benchでは別スコアのモデルが、COMET値では同一に潰れてしまう領域を示す。

散布図も同じ話をしています。赤くハイライトした領域は、COMETが「ほぼ同じ」と判断してしまうモデル群ですが、JP-TL-Benchではそこにちゃんと品質差が出ています。

面白い発見

JP-TL-Benchで分かったことのひとつは、多くのモデルが「どちらの方向に翻訳するのが得意か」に驚くほど偏りがある、という点です。

方向別のJP-TL-Benchスコア。青が日→英、赤が英→日。ローソク足はEasy〜Hardのレンジを示す。

いくつかの例：

Llama 3.1 8Bは日→英が4.52なのに、逆方向（英→日）は1.40しかない —— 大きなギャップ
Swallow v0.5 8Bはその逆：英→日が8.80、日→英が5.96（EN→JA寄りに最適化されている）
予想通り、HardプロンプトはEasyでは見えにくい小型モデルの脆さを露呈させる

こうした方向別の分析は、集計指標だけでは見えません。でも、特定のユースケースにモデルを導入するなら非常に重要です。

ペアワイズ比較の魔法

「1〜10で評価して」よりも「どっちが良い？」と聞くほうが優れている理由を示す、現実世界の例を見てみましょう。

原文（日本語）：

華やかでおしゃれな街が多く、自然にも恵まれた兵庫県。県内には41の市町があり、県庁所在地の神戸市は中央区や東灘区など9つの行政区に分かれています。それぞれの市町や区には、その土地ならではの魅力がありますよね

Mistral 7B（大先輩に敬意）：

The prefecture of Hyogo is known for its vibrant, fashionable cities that are abundantly blessed by nature. There are 41 cities, towns within the prefecture, with Kobe City as its capital being divided into nine administrative districts such as Chuou Ward and Higashinada Ward. Each city, town, or district has unique charms specific to their land, don’t they?

Shisa Chotto（話題の新人）：

Hyogo Prefecture boasts many vibrant and stylish cities as well as abundant natural beauty. The prefecture consists of 41 cities and towns, with its capital, Kobe City, divided into nine administrative wards such as Chuo Ward and Higashinada Ward. Each city, town, and ward has its own unique charm, doesn’t it?

どちらも同じ情報を伝えていて、意味もちゃんと合っています。ただ、Mistralのほうは、たとえばカンマによる不自然な接続（comma splice; “cities, towns”）、ぎこちない表現（“abundantly blessed by nature”）、直訳寄りの硬い言い回し（“unique charms specific to their land”）が残っています。

じゃあ、カンマによる不自然な接続は何点減点？ “abundantly blessed”は-2点？ -5点？こういう採点を評価者間で一貫させるのはほぼ不可能です。でも「どっちが良い？」と聞けば、評価者は驚くほどすぐに一致します。Shisa Chottoです。

これを何百回と積み重ねれば、人間が気にする品質差をちゃんと反映したランキングが得られます。

もっと知りたい？

今年の大半は、JP-TL-Bench（旧名shisa-jp-tl-bench）を回し続けて改良してきました（忙しかった！）。でも、そろそろコミュニティに公開する時期です。公開されている他の日本語翻訳評価と比べても大きな前進だと思いますし、ライセンスは Apache 2.0。GitHubで公開しています：

https://github.com/shisa-ai/jp-tl-bench

ホリデー休暇中には、初の「論文っぽい」テクニカルペーパーも書きました。長くて、細かくて、専門用語も多めで、評価システムの仕組みを形式的に説明する数式も入っています（スコアリングでのちょっとした落とし穴もいくつか見つけました）。細部まで知りたい方は、20ページ超のフルペーパーへどうぞ。要するに、この記事で書いた内容を「容赦なくテクニカル」にしたものです……［MORE TECHNICAL］。

ここまで読んだけど「全部読むほどでは……」という方のために、最後にアブストラクトだけ載せて終わります。読むかどうかは、それを見て決めてください。

（注）フルペーパー本文は現時点では英語のみです。以下に、アブストラクトの英語原文を載せます。

Abstract

We introduce JP-TL-Bench, a lightweight, open benchmark designed to guide the iterative development of Japanese↔︎English translation systems. In this context, the challenge is often “which of these two good translations is better?” rather than “is this translation acceptable?” This distinction matters for Japanese↔︎English, where subtle choices in politeness, implicature, ellipsis, and register strongly affect perceived naturalness. JP-TL-Bench uses a protocol built to make LLM judging both reliable and affordable: it evaluates a candidate model via reference-free, pairwise LLM comparisons against a fixed, versioned anchor set. Pairwise results are aggregated with a Bradley–Terry model and reported as win rates plus a normalized 0–10 “LT” score derived from a logistic transform of fitted log-strengths. Because each candidate is scored against the same frozen anchor set, scores are structurally stable given the same base set, judge, and aggregation code. »

Citation

@misc{jp-tl-bench,
  title={JP-TL-Bench: Anchored Pairwise LLM Evaluation
         for Bidirectional Japanese-English Translation},
  author={Lin, Leonard and Lensenmayer, Adam},
  year={2025},
  eprint={2601.00223},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}