同じ入力なのにスコアが変わる——LLM-as-a-Judgeの決定性を検証してみた

こんにちは!Insight Edge データサイエンティストの角田です。今回は、LLMを評価者として使う「LLM-as-a-Judge」の決定性について、手元の実験で検証した内容を共有します。


背景

LLM-as-a-Judgeとは、LLMを評価者として用い、生成された回答の品質を判定させる手法です。近年の大規模言語モデルの性能向上に伴い、評価者としてLLMを活用するアプローチが注目を集めています。

従来の人手評価と比較した際のLLM-as-a-Judgeの大きなメリットは、評価の速さ、コスト効率、そしてスケーラビリティにあります。評価の待ち時間を短縮しつつ人件費を抑え、大量のケースを継続的に評価できる点は、運用面において非常に魅力的です。

一方で、実際に業務でLLM-as-a-Judgeを使用する中で、同じ回答を同じ設定で評価しても、得られるスコアが一定にならないという問題に直面しました。このように評価結果が安定しない状態では、どのスコアを信頼すべきか判断しづらくなり、評価結果を意思決定に活用しにくくなります。

本稿では、この「同じ入力に対して同じ評価結果が得られるか」という性質、すなわち評価の「決定性」に着目し、その挙動を検証しました。


実験設計

本実験の評価プロンプトには、MT-bench(Multi-Turn Benchmark) のものを使用しました。MT-benchはLLMが複数ターンの会話を維持できるかを測るためのベンチマークで、80問の2ターン質問から構成されています。Writing、Roleplay、Extraction、Reasoning、Math、Coding、STEM、Humanitiesの8カテゴリをカバーしており、LLMが審査員として回答を1〜10で採点する「LLM-as-a-Judge」方式を採用しています。本実験の設計にあたっては、こちらの記事を参考にしました。

評価対象

MT-benchの異なるカテゴリからランダムに以下の3問を選定しました。

Q1(Extraction)

Turn 1: Identify the countries, their capitals, and the languages spoken
in the following sentences. Output in JSON format.
a) Amidst the idyllic vistas, Copenhagen, Denmark's capital, captivates
   visitors with its thriving art scene and the enchanting Danish language
   spoken by its inhabitants.
b) Within the enchanting realm of Eldoria, one discovers Avalore, a
   grandiose city that emanates an ethereal aura. Lumina, a melodious
   language, serves as the principal mode of communication within this
   mystical abode.
c) Nestled amidst a harmonious blend of age-old customs and contemporary
   wonders, Buenos Aires, the capital of Argentina, stands as a bustling
   metropolis. It is a vibrant hub where the expressive Spanish language
   holds sway over the city's inhabitants.

Turn 2: Come up with 3 similar examples in the YAML format.

Q2(Writing)

Turn 1: Compose an engaging travel blog post about a recent trip to Hawaii,
highlighting cultural experiences and must-see attractions.

Turn 2: Rewrite your previous response. Start every sentence with the letter A.

Q3(Humanities)

Turn 1: Suggest five award-winning documentary films with brief background
descriptions for aspiring filmmakers to study.

Turn 2: With the spirit in the first film, craft a succinct and persuasive
pitch for a film about overcoming adversity.

これらの問題に対する回答はGPT-4oで生成しました。当初は最新モデル(GPT-5など)での生成を試みましたが、回答品質が高すぎるためか評価結果が満点に偏りがちでした。決定性の検証にはスコアにばらつきが生じうる回答が望ましいため、あえて旧世代のモデルを採用しています。

評価モデルと回答生成モデルの分離

LLM-as-a-Judgeでは、回答を生成するLLMと評価するLLMを同一にしないことが重要です。同一モデルを使用すると、自身の生成スタイルを高く評価する自己バイアスや、同じ知識の欠落を見逃すといった問題が発生しえます。本実験では回答生成にOpenAIのGPT-4o、評価にGoogleのGeminiモデル(gemini-2.5-progemini-3-pro-preview)を使用し、異なるプロバイダーのモデルを組み合わせることで評価の独立性を確保しました。

gemini-3-pro-previewについては、thinking_level=lowとthinking_level=highの2パターンを検証し、計3種類のモデルで比較を行いました。

評価プロンプト

評価プロンプトはMT-benchで使用されているsingle-v1形式(参照回答なし)を採用しています。このプロンプトはLLMに「公平な審査員(impartial judge)」として振る舞うよう指示し、有用性・関連性・正確性・深さ・創造性・詳細度といった複数の観点から評価させます。まず説明を記述させてから1〜10のスコアを付与させる形式です。

[Instruction]
Please act as an impartial judge and evaluate the quality of the response
provided by an AI assistant to the user question displayed below. Your
evaluation should consider factors such as the helpfulness, relevance,
accuracy, depth, creativity, and level of detail of the response. Begin
your evaluation by providing a short explanation. Be as objective as
possible. After providing your explanation, you must rate the response
on a scale of 1 to 10 by strictly following this format: "[[rating]]",
for example: "Rating: [[5]]".

[Question]
{question}

[The Start of Assistant's Answer]
{answer}
[The End of Assistant's Answer]

各モデルで同一の質問・回答ペアに対して10段階評価を10回繰り返し、評価の一貫性を比較しました。

制御条件

LLMの出力をできる限り決定論的にするため、temperature=0(サンプリングの確率的揺らぎを最小化)およびseed=42(乱数生成器の初期状態を固定)という制御条件を設定しました。理論上、これらの設定により同一入力に対して毎回同じ出力が返るはずです。本実験では、この前提が実際に成立するかを検証しました。


結果

各モデルで同一の質問・回答ペアに対して10回評価を繰り返した結果を示します。

Q1(Extraction)

モデル スコア分布
gemini-2.5-pro 5点×6回, 10点×4回
gemini-3-pro-preview (high) 10点×10回
gemini-3-pro-preview (low) 10点×10回

Q2(Writing)

モデル スコア分布
gemini-2.5-pro 5点×1回, 9点×3回, 10点×6回
gemini-3-pro-preview (high) 7点×10回
gemini-3-pro-preview (low) 10点×10回

Q3(Humanities)

モデル スコア分布
gemini-2.5-pro 5点×2回, 10点×8回
gemini-3-pro-preview (high) 10点×10回
gemini-3-pro-preview (low) 10点×10回

同一スコアの出現率

10回の評価のうち、最も多く出現したスコアの割合をまとめました。100%であれば10回すべて同じスコアだったことを意味します。

モデル Q1 Q2 Q3 平均
gemini-2.5-pro 60% 60% 80% 67%
gemini-3-pro-preview (high) 100% 100% 100% 100%
gemini-3-pro-preview (low) 100% 100% 100% 100%

考察

gemini-2.5-proが揺れた原因

gemini-2.5-proはtemperature=0seed=42という決定論的な設定にもかかわらず、同じ入力に対して異なるスコアを返しました。

この挙動については、実はGoogleの公式ドキュメントでも言及されています。Vertex AIのドキュメントによると、seedパラメータは「ベストエフォート」であり、決定論的な出力は保証されていません。また、GitHubのissueでも、gemini-2.5-proで固定したseedとtemperatureを使用しても異なる出力が返される問題が報告されています。

考えられる原因はいくつかあります。近年の研究では、LLM APIにおける非決定性の主要因として、動的バッチングが指摘されています。APIサーバーは複数のリクエストをまとめて処理しますが、バッチの構成(サイズや組み合わせ)は処理タイミングにより異なります。バッチ構成が変わると内部の演算順序も変化し、浮動小数点演算の累積誤差として出力の差異が生じます。

さらに、決定性の問題とは別に、評価結果のばらつきを助長する要因も存在します。

  • 採点対象の質の問題 評価対象の回答が「良い」と「非常に良い」など、評価段階の境界付近に位置している場合、わずかな数値的揺らぎがスコア差として顕在化しやすくなります。
  • 評価基準の曖昧さ MT-benchのプロンプトは、有用性・正確性・創造性など複数の観点からの評価を求めますが、それぞれの重み付けは明示されていません。そのため、モデル内部でどの観点を相対的に重視するかが揺れ、評価結果のばらつきにつながる余地があります。

gemini-3-pro-previewが安定した理由

一方、gemini-3-pro-previewはthinking_levelに関係なく、10回すべて同じスコアを返しました。これは期待通りの決定論的な挙動です。

gemini-2.5-proとgemini-3-pro-previewはどちらもThinkingモデルですが、gemini-3-pro-previewではseedパラメータの実装がより洗練され、決定論的な出力が安定して得られるようになった可能性があります。ただし、今回の実験は3問×10回という限られたサンプルサイズであり、gemini-3-pro-previewでも条件によっては揺らぎが生じる可能性は否定できません。

補足:thinking_levelによるスコア差

決定性とは直接関係ありませんが、興味深い観察として記録しておきます。Q2では、thinking_level = lowが10点、thinking_level = highが7点と、同じモデルでも設定によってスコアが異なりました(両者とも10回すべて同じスコアを返しており、決定性には問題ありません)。

Googleの公式ドキュメントによると、thinking_levelはモデルが費やす推論トークン数を制御するパラメータで、LOWはレイテンシとコストを最小化、HIGHは推論の深さを最大化する設定です。HIGHでは回答をより多角的に検討するため、LOWでは見落とされる問題点を検出し、スコアに反映させた可能性があります。


まとめ

本検証では、LLM-as-a-Judge における評価結果の「決定性」に焦点を当て、その挙動を確認しました。主な結果は以下の通りです。

  • gemini-2.5-pro: temperature=0、seed=42 固定条件下でも、評価結果に揺らぎが確認された。
  • gemini-3-pro-preview: 今回の検証範囲内では、決定論的な挙動(常に同じ結果)を示した。
  • 注意点: gemini-3-pro-preview であっても、条件や入力内容によっては揺らぎが生じる可能性は否定できない。

LLM-as-a-Judge を実運用に組み込む際は、「モデルによって決定性のレベルが異なる」という前提に立ち、それを見越した設計・運用を行うことが重要です。具体的には、本番採用前に決定性を検証する、複数回評価の集約を検討する、評価基準を明確化する、といった対策が有効です。

今後は、質問数を増やしたより統計的な検証や、Claude、GPT、ローカル LLM など、他モデルとの比較検証にも範囲を広げていきたいと考えています。

決定性は地味なテーマではありますが、評価運用の信頼性を支える重要な基盤です。本検証は小規模ながら、運用上の不安を軽減する一歩になったと考えています。