Nexaflow
サービス導入事例ブログ勉強会会社情報
資料請求お問い合わせ

Nexaflow

社会を支える人々と伴に、
未来の希望を創る

サービス

  • プライシング戦略支援
  • Nexalog
  • AIトランスフォーメーション

会社情報

  • 会社概要
  • ミッション
  • メンバー

リソース

  • ブログ
  • 導入事例
  • お知らせ
  • 資料ダウンロード

© 2026 Nexaflow Inc. All rights reserved.

利用規約プライバシーポリシー
ホーム/論文解説/【論文解説】Chain-of-Thought: LLMの推論を段階的に引き出すプロンプト技法
論文解説

【論文解説】Chain-of-Thought: LLMの推論を段階的に引き出すプロンプト技法

10分で読める|2026/04/15|
AIパフォーマンス向上プロンプトエンジニアリング論文解説

この記事の要約

Chain-of-Thought(CoT)は、答えだけでなく途中の推論ステップを例示・出力させることで、複数ステップの算術や論理問題を解きやすくするプロンプト技法です。2022年の論文で報告されたGSM8Kの17.9%→58.1%という改善を起点に、Few-shot / Zero-shotの違い、モデルサイズ依存、忠実性とコストの注意点を整理します。

AI・DX活用について相談する

最適なプランをご提案します。

お問い合わせ資料ダウンロード

よく読まれている記事

  1. 1【完全解説】Claude Coworkとは?非エンジニア向けAIエージェントの使い方・活用例
  2. 2Ada徹底解説:ARR成長率108%、ノーコードAIエージェントの先駆者を完全分析
  3. 3Clay(クレイ)とは?評価額31億ドルのGTMオートメーションを完全解説
  4. 4a16z(エーシックスティーンゼット)とは?読み方・投資先・特徴を解説
  5. 5イーロン・マスクが語る2026年AGI実現とユニバーサル高所得の未来

この記事をシェア

B!

大規模言語モデルは、短い事実確認や文章生成だけでなく、算数の文章題や論理問題にも使われます。しかし、複数の計算や条件整理が必要になると、いきなり答えを出すだけのプロンプトでは間違えやすくなります。

2022年に発表されたChain-of-Thought Prompting Elicits Reasoning in Large Language Modelsは、この問題に対して非常にシンプルな方法を示しました。答えだけを例示するのではなく、途中の推論ステップも一緒に見せる、という方法です。

GSM8K(小学生レベルの算数問題)
PaLM 540B + 標準プロンプト: 17.9%
PaLM 540B + Chain-of-Thought: 58.1%

論文の実験では、PaLM 540BのGSM8K精度が標準プロンプトの17.9%から、CoTプロンプトで58.1%まで改善しました。ここで重要なのは、「プロンプトだけで何でも解ける」という話ではありません。複数ステップの推論が必要なタスクでは、途中過程を明示する設計がモデルの出力を安定させることがある、という実務上の示唆です。

本記事の表記について

  • 下線付きの用語にカーソルを合わせると解説が表示されます

本記事では、2022年にGoogle Researchの著者らが発表したChain-of-Thought(CoT)プロンプティングの論文を解説します。論文で確認できる実験結果、Few-shot / Zero-shotの違い、そして実務で使うときの限界を整理します。

🏠

シリーズ記事一覧 AIエージェント論文おすすめ11選


この記事でわかること

  1. CoTの基本原理: 答えだけでなく推論ステップを例示・出力させる考え方
  2. 実験結果: GSM8Kで17.9%→58.1%に改善した論文中の具体的なデータ
  3. 限界と注意点: モデルサイズ依存、忠実性、コスト、タスク適性
  4. 実践方法: CoTプロンプトの使いどころとReActとの関係

基本情報

項目内容
トピックChain-of-Thought Prompting
カテゴリ論文解説
難易度初級〜中級
発表NeurIPS 2022(Google)
arXiv2201.11903

💡 この先の展開

まずはCoTの仕組みを見てみよう。原理はシンプルだが、使いどころを間違えるとコストだけが増える。

Chain-of-Thoughtの仕組みを図解で理解

CoTの核心は非常にシンプルです。「答えを出す前に、考える過程を出力させる」というだけです。しかし、このシンプルなアイデアがLLMの推論能力を大きく引き出しました。

Chain-of-Thoughtの概念図Chain-of-Thoughtの概念図

従来のプロンプト(Standard Prompting)

Q: カフェでコーヒーを3杯とケーキを2個買いました。
   コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか?

A: 2200円

LLMはいきなり答えを出そうとします。単純な問題なら正解できますが、複雑になると間違いやすくなります。

Chain-of-Thoughtプロンプト

Q: カフェでコーヒーを3杯とケーキを2個買いました。
   コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか?

A: まず、コーヒーの合計を計算します。
   コーヒー3杯 × 400円 = 1200円

   次に、ケーキの合計を計算します。
   ケーキ2個 × 500円 = 1000円

   最後に、全体の合計を計算します。
   1200円 + 1000円 = 2200円

   答え: 2200円

途中の計算過程を明示的に出力させることで、次のステップが直前の結果を参照しやすくなります。常に正しくなるわけではありませんが、複数ステップの問題では、いきなり答えを出すよりもミスを見つけやすくなります。

Standard PromptingとChain-of-Thoughtの比較Standard PromptingとChain-of-Thoughtの比較

2つのCoTアプローチ

1. Few-shot CoT(元論文のアプローチ)

Few-shot CoTは、推論過程を含む例を数個提示してからタスクを与える方法です。

[例1]
Q: ロジャーはテニスボールを5個持っています。
   テニスボールが3缶入ったパックを2つ買いました。
   各缶には3個のボールが入っています。彼は今何個のボールを持っていますか?

A: ロジャーは最初に5個のボールを持っていました。
   各缶には3個のボールが入っていて、2缶買ったので、
   3 × 2 = 6個のボールを追加で手に入れました。
   5 + 6 = 11個
   答え: 11個

[例2]
Q: (別の例題と推論過程)

[本題]
Q: あなたが解きたい問題...

2. Zero-shot CoT(後続研究)

「Let's think step by step」と一言添えるだけで、Few-shotの例なしでもCoTが発動する発見です(Kojima et al., 2022)。

Q: カフェでコーヒーを3杯とケーキを2個買いました。
   コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか?

Let's think step by step.

これだけでLLMは自動的に段階的な推論を始めます。

Few-shot vs Zero-shot

観点Few-shot CoTZero-shot CoT
準備コスト例題の作成が必要一言添えるだけ
精度より高いやや劣る
適用範囲特定タスクに最適化汎用的
推奨場面重要なタスクプロトタイプ・軽量な用途

💡 この先の展開

では、具体的にどれくらい性能が上がるのか。論文中の数値に絞って確認する。

実験結果:どれくらい性能が上がるのか

論文では、複数の算術・推論ベンチマークで検証が行われました。

GSM8K(小学校レベルの算数文章題)

手法精度
Standard Prompting17.9%
Chain-of-Thought58.1%
改善幅+40.2ポイント

MultiArith(複数ステップの算術問題)

手法精度
Standard Prompting17.7%
Chain-of-Thought93.0%
改善幅+75.3ポイント

SVAMP(代数文章題)

手法精度
Standard Prompting63.1%
Chain-of-Thought79.0%
改善幅+15.9ポイント

モデルサイズの影響

興味深いことに、CoTの効果はモデルサイズが大きいほど顕著になります。

モデルサイズStandardCoT改善幅
8B4.5%5.3%+0.8%
62B12.3%33.0%+20.7%
540B (PaLM)17.9%58.1%+40.2%

この表から読めるのは、CoTが「どのモデルでも同じように効く」技法ではないという点です。小さなモデルでは効果がほとんど出ない場合があり、大規模モデルで初めて大きな改善が見られます。これは、論文が扱う創発的能力(Emergent Ability)の議論ともつながります。

つまり、CoTはモデルの能力を置き換える万能策ではありません。十分な基礎能力を持つモデルに対して、複数ステップの問題を扱いやすくする補助線として効きます。

モデルサイズとCoT効果の関係モデルサイズとCoT効果の関係

💡 この先の展開

大規模モデルで効果が出やすい理由を、実務で観察しやすい観点から分解する。

なぜChain-of-Thoughtは効果があるのか

1. 作業メモリの外部化

人間が複雑な計算をするとき、紙に途中式を書きます。CoTはこれと同じ原理です。

  • 従来: 全ての計算を「頭の中」(モデル内部)で処理 → 情報が失われる
  • CoT: 途中結果を「紙」(出力テキスト)に書き出す → 情報が保持される

LLMは生成したテキストを次のトークン予測に使えます。そのため、途中結果を「外部メモリ」として活用できます。

2. 問題の分解

複雑な問題を小さなステップに分解すると、各ステップは単純な処理になります。

Chain-of-Thought推論プロセスChain-of-Thought推論プロセス
複雑な問題: 「3杯 × 400円 + 2個 × 500円」

↓ 分解

ステップ1: 「3 × 400 = ?」 → 1200
ステップ2: 「2 × 500 = ?」 → 1000
ステップ3: 「1200 + 1000 = ?」 → 2200

3. エラー検出と修正

途中経過が可視化されることで、後続のステップや人間のレビューでエラーを見つけやすくなります。モデル自身が常に自己修正できるわけではありませんが、少なくとも誤りの位置を追いやすくなります。

ステップ1: 3 × 400 = 1200 OK
ステップ2: 2 × 500 = 100 ...あれ、計算が間違っている
          2 × 500 = 1000 OK

4. 学習データとの整合性

LLMの学習データには、教科書や解説サイトなど「段階的な説明」が多く含まれています。CoTプロンプトは、そうした学習データのパターンを引き出していると考えられます。


ReActとの関係

CoTは「推論」に特化したテクニックです。これを行動(Action)と組み合わせたのがReActです。

CoT vs ReAct

観点CoTReAct
対象推論タスク推論 + 行動タスク
外部ツール使用しない使用する
ループ一方向Thought-Action-Observation
適用例数学、論理問題検索、計算、API呼び出し

ReActにおけるCoTの役割

ReActの「Thought」部分は、まさにCoTの推論プロセスです。

[Thought] ユーザーは東京の明日の天気を知りたがっている。
         天気APIを使って情報を取得する必要がある。

[Action] weather_api(location="Tokyo", date="tomorrow")

[Observation] 明日の東京: 晴れ、最高気温15度、最低気温8度

CoTが「考える力」を与え、ReActがそれを「行動する力」と結合したと言えます。


実践:CoTを使うときの型

📖 このセクションについて

ここでは特定ベンダーのAPIではなく、プロンプト設計の型だけを扱います。SDKやモデル名は変わりやすいため、実装時は利用中の公式ドキュメントを確認してください。

まずは解くべきステップを明示する

質問: ある店で、りんご5個とみかん8個を買いました。
りんごは1個120円、みかんは1個80円です。
1000円札で払うとお釣りはいくらですか?

次の順番で考えてください。
1. りんごの合計金額を計算する
2. みかんの合計金額を計算する
3. 合計金額と支払い額を比較する
4. 最後に答えを1行で示す

「ステップバイステップで考えて」とだけ書くより、必要な分解単位を指定した方が、出力がタスクに沿いやすくなります。

出力例

ステップ1: りんごの合計金額を計算します。
りんご5個 × 120円 = 600円

ステップ2: みかんの合計金額を計算します。
みかん8個 × 80円 = 640円

ステップ3: 購入金額の合計を計算します。
600円 + 640円 = 1240円

ステップ4: お釣りを計算します。
1000円では足りないため、お釣りは出ません。
むしろ240円不足しています。

答え: 1000円札では240円不足するため、お釣りは出ません。

CoTを使うことで、「1000円では足りない」という条件にも気づきやすくなります。ただし、出力された途中過程はそのまま正解保証にはなりません。重要な業務では、計算式・参照元・最終判断を別途検証する前提で使います。


💡 この先の展開

ここまでCoTの「魔法」を見てきた。しかし、学会はこの論文をどう評価したのか?実は、意外な反応があった。

NeurIPS 2022での反響——「最優秀賞」は取れなかった

CoT論文は2022年1月にarXivで公開され、同年12月のNeurIPS 2022で発表された。

論文が示した価値

NeurIPS 2022では、13本のOutstanding Paper(最優秀論文賞)が選出されたが、CoT論文は含まれませんでした。 ただし、CoTはその後のプロンプト研究やエージェント研究で繰り返し参照される基礎概念になりました。

ここで大事なのは、受賞歴や引用数の多寡ではなく、論文が残した設計上の問いです。

  1. 答えだけを例示するより、途中過程まで例示した方がよいタスクは何か
  2. モデルサイズが小さいとき、CoTは本当に有効か
  3. 出力された推論過程は、モデル内部の処理をどこまで説明しているのか

主な後続研究

  • 2022年3月: "Self-Consistency Improves Chain of Thought Reasoning"
  • 2022年3月: "STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning"
  • 2022年5月: "Large Language Models are Zero-Shot Reasoners"(Kojima et al.)

後続研究は、CoTをそのまま使うだけでなく、複数の推論候補から多数決を取る、少数例を自動生成する、外部ツールや検索と組み合わせる、といった方向へ広がりました。


CoTを使うときの注意点

CoTは便利ですが、「モデルの本当の思考が読める」技術ではありません。実務では、次の3点を分けて扱う必要があります。

1. 推論過程は説明であって保証ではない

モデルが出力した途中式や理由づけは、後から整合的に見える説明である可能性があります。したがって、CoT出力を監査証跡や根拠資料としてそのまま扱うのは危険です。

安全に使うなら、次のように分けます。

  • 計算: 数式や表計算で再計算する
  • 事実確認: 参照元URLや文書IDを別に出す
  • 判断: 人間が承認する基準を明示する

2. 長く考えさせるほど良いとは限らない

CoTは出力トークンを増やします。単純な分類、短い要約、既知の事実確認では、長い推論過程を出させても精度が大きく上がらず、コストと待ち時間だけが増える場合があります。

使いどころは、以下のように複数ステップの依存関係があるタスクです。

向いているタスク向いていないタスク
算術文章題単純な事実検索
条件分岐の整理短い分類
論理パズル文体変換
手順設計既存文章の要約

3. 推論モデルでは指示の粒度を変える

近年の推論特化モデルは、内部で長く検討する設計を持つ場合があります。その場合、ユーザーが毎回「すべての思考を詳しく出して」と指示するより、最終回答・検証観点・必要な根拠だけを指定する方が安定します。

悪い例:
すべての思考過程を詳しく出してから答えてください。

良い例:
結論を先に示してください。
必要なら、検算に使った式と、判断を変える条件だけを箇条書きで示してください。

CoTの目的は、長い説明を出すことではありません。複雑な問題を、検証可能な単位に分けることです。

CoTの進化:プロンプトから推論モデルへCoTの進化:プロンプトから推論モデルへ

FAQ

Q1. CoTは全てのタスクで効果がある?

いいえ。CoTが効果的なのは主に以下のタスクです。

  • 複数ステップの算術問題
  • 論理的推論が必要なタスク
  • 常識推論
  • 記号操作

単純な事実の検索や創作タスクでは効果が限定的です。

Q2. 日本語でもCoTは効果がある?

はい、効果があります。「ステップバイステップで考えてください」「順番に説明してください」などのフレーズで同様の効果が得られます。

Q3. CoTを使うとコストは増える?

はい。出力トークン数が増えるため、APIコストは増加します。ただし、精度向上による再試行の減少を考えると、総合的には効率的な場合が多いです。

Q4. どのモデルで使うべき?

複数ステップの推論が苦手な汎用モデルでは、CoTプロンプトが役立つ場合があります。一方、推論特化モデルや小さなモデルでは、長いCoT指示が必ずしも改善につながるとは限りません。利用中のモデルで、標準プロンプト、短い分解指示、Few-shot CoTを小さく比較してから採用するのが安全です。

Q5. CoTと他のプロンプト技法は併用できる?

はい、併用できます。Few-shot例の提示、ロールプレイ(「あなたは数学の専門家です」)、出力フォーマット指定などと組み合わせることで、さらに精度を高められます。

Q6. CoTの出力をそのまま説明可能性として扱ってよい?

いいえ。CoTは、モデルが出力した説明であって、内部計算を完全に表すものではありません。重要な判断に使う場合は、出力された理由をそのまま信じるのではなく、参照元、計算式、反例、承認者を別に確認する必要があります。

Q7. 実務ではどう始めるのがよい?

まず、失敗しやすいタスクを1つ選び、標準プロンプトとCoTプロンプトを同じ評価セットで比較します。正解率だけでなく、出力トークン数、待ち時間、レビューしやすさも測ると、採用判断がしやすくなります。


まとめ

Chain-of-Thought(CoT)は、LLMに途中の推論ステップを例示・出力させることで、複数ステップの問題を扱いやすくする手法です。

主要ポイント

  1. 精度向上: 論文ではGSM8Kで17.9%→58.1%の改善を報告
  2. シンプルな発想: 答えだけでなく、途中の推論ステップを例示する
  3. モデルサイズ依存: 小さなモデルや単純タスクでは効果が限定的な場合がある
  4. 検証責任: 出力された推論過程は説明であって、正しさの保証ではない

実務で覚えておきたいポイント

  • Few-shot CoT は、重要な定型タスクで効きやすい
  • Zero-shot CoT は、軽く試すには便利だが、出力が冗長になりやすい
  • 推論過程の開示 は、レビュー補助にはなるが監査証跡そのものではない
  • ReAct は、CoTの推論を外部ツールや検索と組み合わせる発展形として理解しやすい

次のステップ

  • 小さく試す: 失敗しやすい業務タスクで標準プロンプトとCoTを比較する
  • ReAct論文を読む: CoTを行動と組み合わせたエージェント技術を理解する
  • 検証ルールを作る: 計算式、参照元、承認者を出力とは別に確認する

関連記事

前の論文次の論文
Transformer: AIの言語理解を変えた革命ReAct: 推論と行動を統合するAIエージェントの原点
➡️

AIエージェント論文おすすめ11選に戻る


参考リソース

  • arXiv論文: Chain-of-Thought Prompting
  • Google AI Blog
  • Zero-shot CoT論文
  • OpenAI Cookbook: CoT
  • Chain-of-Thought Is Not Explainability(Oxford)

本記事はネクサフローのAI研究シリーズの一部です。

この記事の著者

中村 知良

中村 知良

代表取締役

早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。

この記事をシェア

XFacebookはてなLinkedIn

次に読む

あわせて読みたい

【論文解説】Self-Evolving AI Agents:自己進化型エージェントの設計原則

【論文解説】Self-Evolving AI Agents:自己進化型エージェントの設計原則

Self-Evolving AI Agents は、AI エージェントを System Input / Agent System / Environment / Optimizer の4要素で捉え、何をどう更新すると「自己進化」と呼べるのかを整理したサーベイ論文です。本記事では、進化の3軸と評価・安全性の論点を中心に読み解きます。

2026/04/15
AIAIエージェント論文解説
【論文解説】A-MEM: エージェントに長期記憶を持たせる設計

【論文解説】A-MEM: エージェントに長期記憶を持たせる設計

A-MEM は、LLM エージェントが過去のやり取りを単に保存するのではなく、ノート化し、相互リンクし、後から更新できるようにする記憶システムです。論文で提案された Note Construction / Link Generation / Memory Evolution を中心に、RAG との違いと実装時の論点を整理します。

2026/01/12
AIAIエージェント
【論文解説】Epiplexityとは?AIの情報理論を再定義する新概念

【論文解説】Epiplexityとは?AIの情報理論を再定義する新概念

CMU・NYU発の新概念Epiplexityを解説。シャノンエントロピーの限界を超え、計算制約下のAI学習可能性を定量化。データ拡張・カリキュラム学習・LLM汎用能力の3つのパラドックスを統一的に解決する。

2026/01/12
AI新技術革新

まずは無料相談・資料請求

AIやDXの導入について、具体的な進め方や費用対効果など、まずはお気軽にご相談ください。貴社の状況に合わせた最適なプランをご提案します。

お問い合わせ

お気軽にご相談ください