LLMで日本企業の「来期の利益は増える？」をアウトオブサンプル検証

こんにちは！データサイエンティストの白井です。
今日は、私が第35回人工知能学会金融情報学研究会(SIG-FIN)で発表した LLMs による利益予測の分析とアウトオブサンプル評価について紹介します。
本記事は、Insight Edge Advent Calendar 2025 の9日目の記事となっております。
またAdvent Calendarの7日目には、35回SIG-FINの包括的なレポート記事もありますので、ご興味があれば覗いてみてください！

はじめに
EDINETについて
- 有価証券報告書の紹介
- データについて
EDINET-BENCHについて
- EDINET-BENCHでの予測方法
LLMでの未来予測の検証における注意点
LLMを用いたアウトオブサンプル評価
おわりに

はじめに

今回は、「LLMを用いた、企業の1年後利益の増減予測」に関する、LLMのナレッジカットオフ以前と以降の精度を確認する内容です。
LLMを用いた未来の予測は、企業の利益だけでなく、色々な場面での活用余地があるかと思いますので、何かのご参考になれば幸いです。
記事全体の流れは以下です。

EDINETについて
EDINET-BENCHについて
LLMを用いた未来予測における注意点
アウトオブサンプル評価について

EDINETについて

EDINETとは、金融庁が運営する有価証券報告書等の提出・閲覧システムです。
有価証券報告書は、上場企業などが金融庁（EDINET）を通じて提出する、事業内容や財務状況などを報告するための書類です。

有価証券報告書の紹介

有価証券報告書の例は以下です。

※1

利益や売上、従業員数などのデータが、直近5年などでまとめられている形式が多いです。
各企業がどんな売上や利益の推移をしているかなどが、確認できるようになっています。

また、有価証券報告書は、上記のような財務指標だけでなく、事業リスクのような数値で表せないテキスト情報も含まれています。

※1

データについて

EDINETは、上記の有価証券報告書等を保管しており、そのデータはAPI Keyを登録することで、無料で取得できます。
XBRLという形式で保管されており、これを理解するのはなかなかハードルが高いのですが、2024年4月以降はCSV形式でダウンロードできるようになり、かなり扱いやすくなっています。

CSVファイルは、以下のような形式です。

※1

値の意味や対象時期、連結か単体か、などが整理されて格納されており、APIで取得できるためシステム連携もしやすくなっています。

また、数値データだけでなく、テキスト情報も格納されています。

※1

このように、企業の活動内容が、数値とテキストの両方で確認できるデータとなっています。

EDINET-BENCHについて

EDINET-BENCH は、Sakana AIが2025年6月9日に発表した、EDINETを用いた金融向けのベンチマークデータセットです。
EDINET-BENCHは、上記で説明したEDINETのデータと、3種類のラベル（不正会計・利益増減・業種）で作られています。

※2

これらのラベルを予測するモデルを複数作り、どのモデルが良いかを横並びで比較できるベンチマークとなっています。
EDINET-BENCH内では、ロジスティック回帰や複数のLLMでの精度評価をしており、LLMにテキストデータも含めて予測させると、予測精度が上がったことが報告されています。

※2

EDINET-BENCHでの予測方法

タスクの一つ、企業の利益増減予測を対象にした、LLMでの予測は、以下のプロンプトテンプレートで実行します。

Please predict whether the "親会社株主に帰属する当期純利益" (Net income attributable to owners of the parent) in the next fiscal year's securities report will increase compared to the current fiscal year, based on the information available in the current year's securities report. 
- The input is extracted from a Japanese company's securities report. 
- Some information may be missing and represented as "-" due to parsing errors. 
- Some attributes are missing and the total does not equal the sum of the parts. 

Respond in the following format: JSON: 
`json` { 
    "prob": float (between 0 and 1, probability that the profit will increase), 
    "prediction": int (0: Decrease, 1: Increase), 
    "reasoning": "string", 
 

The current year's extracted securities report is as follows: 
{report_values}

来年の当期純利益が増加するか減少するかを、JSON形式で確率(0〜1)・予測結果(1:増加、0:減少)、理由を返すというプロンプトになっています。
コンテキストに{report_values}を渡せるようになっていて、これは具体的には以下のような形式です。

bs: {"現金及び預金": {"Prior1Year": "2090173000", "CurrentYear": "2045720000"}, "現金及び現金同等物": {"Prior2Year": "1330697000", "Prior1Year": "2090173000", "CurrentYear": "2045720000"}, 
cf: {"当期利益": {"Prior1Year": "217213000", "CurrentYear": "285490000"}, "税引前当期純利益": {"Prior1Year": "330891000", "CurrentYear": "399227000"}, "減価償却費及び償却費": {"Prior1Year": "9126000", "CurrentYear": "9933000"}, "
pl: {"売上高": {"Prior1Year": "6146959000", "CurrentYear": "6233729000"}, "売上原価": {"Prior1Year": "4806251000", "CurrentYear": "4844096000"}, "売上総利益又は売上総損失（△)": {"Prior1Year": "1340708000", "CurrentYear": "1389632000"}, 
text: {“沿革”: “xxxxxxxxxxx”, “事業リスク”: “yyyyyyy”, "...": "....."}

EDINET-BENCH内で指定した、PL(損益計算書)・BS(貸借対照表)・CF(キャッシュフロー計算書)・text(テキスト項目)を、それぞれキーが項目名、値が値のJSON形式で入力します。

これを実行すると、以下のようなresponseが得られます。

{
  "prob": 0.65, 
  "prediction": 1, 
  "reasoning": "To predict future profit trends, I'll analyze several key factors from the financial data:\n\n1. Revenue and profit trends:...
}

このprobやpredictionと、実際の増減のラベルを使うことで、ROC-AUCやAccuracyが計算できるようになっています。

LLMでの未来予測の検証における注意点

LLMを用いた予測を実施する際、注意すべき観点があります。
それは、「LLMにとって、既知な内容であるかもしれない」ということです。

LLMの学習では、Web上のテキストや電子書籍、ニュース記事など膨大なテキストを利用しています。
そのため、予測する内容によっては、LLMにとって既知であることがあり得ます。

例えば、EDINET-BENCHの利益増減予測で最高精度が確認されたClaude 3.7 Sonnetに、2022年のトヨタの利益は前年に比べて増加したか?を聞いてみましょう。

Q: トヨタの2022年の利益は前年に比べて増加しましたか？
A: トヨタ自動車の2022年3月期（2021年4月〜2022年3月）の決算情報によると、
   営業利益は前年比36.3%増の3兆円、純利益は26.9%増の2.85兆円となり、
   前年と比較して増加しました。

今度は、2025年に変えて聞いてみます。

Q: トヨタの2025年の利益は前年に比べて増加しましたか？
A: 申し訳ありませんが、2025年のトヨタの利益に関する情報は現時点では持っていません。
   2025年はまだ到来していないため、その年の財務結果はまだ発表されていません。
   トヨタの最新の財務情報や将来の予測については、トヨタの公式ウェブサイト、投資家向け情報、
   または信頼できる経済ニュースソースで確認されることをお勧めします。

2022年に対しては「増加した」と回答しており、2025年に対しては「分からない」と回答しています。
これは、LLMの学習データの最終日付（ナレッジカットオフ日）が影響していると考えられます。

Claude-3.7-sonnetのナレッジカットオフ日は2024/10/31で、この日までにwebなどで公開されたテキストはLLM自体の学習に利用されていると考えられます。
よって、2022年の利益の増減は学習データに入っているため、LLMにとっては既知の内容で、回答ができます。
一方、2025年の利益の増減は学習データに入っていないため、LLMにとっては未知の内容で、回答ができないということです。

LLMを用いた未来の予測は、本来は知り得ない内容を予測したいのですが、バックテストでは上記の点を考慮しないと本当に計測したい精度が確認できない可能性があります。
これが、LLMを用いた未来の予測における注意点です。

LLMを用いたアウトオブサンプル評価

EDINET-BENCHは日本企業を対象とした、金融向けベンチマークとしてとても貴重な内容です。
しかし、目的はベンチマークの構築で、ナレッジカットオフを考慮した評価は報告されておりません。
そこで、EDINET-BENCHの利益増減予測をアウトオブサンプルで評価するとどうなるかを確認してみます。

以下が、アウトオブサンプル評価のイメージです。

利用するモデルは、Claude 3.7 Sonnetを用います。
ナレッジカットオフ日は2024/10/31です。
この日以前に公開された情報に対する予測をインサンプル評価、2025/6/1〜2025/8/31に公開された情報に対する予測をアウトオブサンプル評価とします。
そして、この2つの精度を比較することで、予測精度の汎化性能を確認しました。
インサンプルはEDINET-BENCHのテストデータで予測ができた447件、アウトオブサンプルは対象期間で予測ができた2212件です。

結果は以下です。

アウトオブサンプルにおいても、大幅な精度劣化は見られないという結果となりました。
予想に反し、アウトオブサンプルにて精度が上がっています。

ただし、こちらの比較は、以下の点であまり良い比較ができていないと思っております。

評価の対象数が5倍ほど異なる。
評価の対象年度がインサンプルは2020年〜2024年と幅があるが、アウトオブサンプルは2025年6月〜2025年8月の3ヶ月間のみ。
LLMの予測結果はブレがあり（完全再現せず）、本来は何回か実行してその平均を取るのが良いのですが、今回は予測実行は1度のみ。

これらのことから、精度が上がったというよりも、「大幅な精度劣化が見られなかった」という程度で受け止めています。

また、2024/10/31がカットオフ日であることも、厳密なアウトオブサンプル評価となっておりません。
例えば、2025年3月期決算の会社は、2024年9月に半期の結果なども公開しており、ここに通期予測などが比較的確度の高い情報として記載されているはずです。

これらのことから、今後は以下を考慮した評価をしたいと思っています。

インサンプルとアウトオブサンプルの期間/件数の統一
半期報告書などが提出されていない、本当の意味で1年後が未知な状態での比較

おわりに

今回は、LLMを用いた1年後の利益増減予測のアウトオブサンプル評価を紹介しました。
LLMでの未来予測は、様々な利用シーンが考えられます。
その際に、予測精度を検証する場合は、ナレッジカットオフに注意しないと検証時と運用時で異なる精度となってしまうことが想定されます。
本記事が、誰かの参考になると幸いです。

出典

※1 :金融庁EDINET
※2 :Sakana AI「EDINET-BENCH」