ブログ

AI、データ活用、業務改善に関する最新情報やNexaflowの取り組みをお届けします

【論文解説】Chain-of-Thought: LLMの推論能力を覚醒させたプロンプト技法

37分で読める|2026/01/18|

AIパフォーマンス向上データ分析

AIサマリー

2022年、26歳の研究者Jason WeiがGoogle Brainで発見したChain-of-Thought（CoT）は、AI開発の常識を覆しました。PaLM 540Bでも17.9%だった算数問題の精度が、たった8個の例題追加で58.1%に跳ね上がる——数千億円の計算資源より、プロンプトの工夫が効果的だったのです。Weiはその後Google→OpenAI→Metaを5年で経験し、o1モデルでCoTを「訓練する能力」へ進化させました。スケール戦争からプロンプト戦争へ、AI研究の転換点となった論文です。

2022年1月、Google Brainのオフィス。

26歳の研究者Jason Weiは、ディスプレイに表示された数字を何度も見つめ直していた。

GSM8K（小学生レベルの算数問題）
GPT-3（175Bパラメータ）: 17.9%
PaLM（540Bパラメータ）: 17.9%

「3倍のパラメータで、精度は変わらない？」

当時のAI業界は「スケール戦争」の真っ只中だった。大きいモデルに勝つには、もっと大きいモデルが必要——誰もがそう信じていた。しかし、数千億円を投じた巨大モデルが、小学生レベルの算数で17.9%しか正解できない。

Weiは、ある仮説を試してみることにした。

「AIに『考える過程』を見せたら、どうなるだろう？」

8個の例題を作成し、それぞれに「途中の計算過程」を書き加えた。そして、PaLMに同じ問題を解かせた。

GSM8K精度
標準プロンプト: 17.9%
Chain-of-Thought: 58.1%

+40.2ポイント。約3倍の性能向上。

この瞬間、AI開発の「常識」が逆転した。大きいモデルを作るために数千億円を投じるのではなく、「プロンプトを変えるだけで勝てる」——そんな時代の始まりだった。

本記事の表記について

下線付きの用語にカーソルを合わせると解説が表示されます

本記事では、2022年にGoogleが発表したChain-of-Thought（CoT）プロンプティングの論文を解説します。なぜ「段階的に考えさせる」だけでAIの性能が3倍に向上するのか、その秘密に迫ります。

シリーズ記事一覧 AIエージェント論文おすすめ9選

この記事でわかること

CoTの基本原理: 「ステップバイステップで考えさせる」だけでLLMの推論能力が飛躍的に向上する仕組み
実験結果: GSM8Kで17.9%→58.1%（+40%以上）の精度向上を達成した具体的なデータ
実践方法: 今日から使えるCoTプロンプトの書き方とReActとの関係

基本情報

項目	内容
トピック	Chain-of-Thought Prompting
カテゴリ	論文解説
難易度	初級〜中級
発表	NeurIPS 2022（Google）
arXiv	2201.11903

💡 この先の展開

まずはCoTの「魔法」の仕組みを見てみよう。驚くほどシンプルな原理が、AIの推論能力を覚醒させた。

Chain-of-Thoughtの仕組みを図解で理解

CoTの核心は非常にシンプルです。「答えを出す前に、考える過程を出力させる」というだけです。しかし、このシンプルなアイデアがLLMの推論能力を大きく引き出しました。

Chain-of-Thoughtの概念図

従来のプロンプト（Standard Prompting）

Q: カフェでコーヒーを3杯とケーキを2個買いました。
   コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか？

A: 2200円

LLMはいきなり答えを出そうとします。単純な問題なら正解できますが、複雑になると間違いやすくなります。

Chain-of-Thoughtプロンプト

Q: カフェでコーヒーを3杯とケーキを2個買いました。
   コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか？

A: まず、コーヒーの合計を計算します。
   コーヒー3杯 × 400円 = 1200円

   次に、ケーキの合計を計算します。
   ケーキ2個 × 500円 = 1000円

   最後に、全体の合計を計算します。
   1200円 + 1000円 = 2200円

   答え: 2200円

途中の計算過程を明示的に出力させることで、LLMは各ステップを正確に実行できるようになります。

Standard PromptingとChain-of-Thoughtの比較

2つのCoTアプローチ

1. Few-shot CoT（元論文のアプローチ）

Few-shot CoTは、推論過程を含む例を数個提示してからタスクを与える方法です。

[例1]
Q: ロジャーはテニスボールを5個持っています。
   テニスボールが3缶入ったパックを2つ買いました。
   各缶には3個のボールが入っています。彼は今何個のボールを持っていますか？

A: ロジャーは最初に5個のボールを持っていました。
   各缶には3個のボールが入っていて、2缶買ったので、
   3 × 2 = 6個のボールを追加で手に入れました。
   5 + 6 = 11個
   答え: 11個

[例2]
Q: （別の例題と推論過程）

[本題]
Q: あなたが解きたい問題...

2. Zero-shot CoT（後続研究）

「Let's think step by step」と一言添えるだけで、Few-shotの例なしでもCoTが発動する発見です（Kojima et al., 2022）。

Q: カフェでコーヒーを3杯とケーキを2個買いました。
   コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか？

Let's think step by step.

これだけでLLMは自動的に段階的な推論を始めます。

Few-shot vs Zero-shot

観点	Few-shot CoT	Zero-shot CoT
準備コスト	例題の作成が必要	一言添えるだけ
精度	より高い	やや劣る
適用範囲	特定タスクに最適化	汎用的
推奨場面	重要なタスク	プロトタイプ・軽量な用途

💡 この先の展開

では、具体的にどれくらい性能が上がるのか？数字で見ると、その「魔法」の威力がよくわかる。

実験結果：どれくらい性能が上がるのか

論文では、複数の算術・推論ベンチマークで検証が行われました。

GSM8K（小学校レベルの算数文章題）

手法	精度
Standard Prompting	17.9%
Chain-of-Thought	58.1%
改善幅	+40.2%

MultiArith（複数ステップの算術問題）

手法	精度
Standard Prompting	17.7%
Chain-of-Thought	93.0%
改善幅	+75.3%

SVAMP（代数文章題）

手法	精度
Standard Prompting	63.1%
Chain-of-Thought	79.0%
改善幅	+15.9%

モデルサイズの影響——「魔法の閾値」100B

興味深いことに、CoTの効果はモデルサイズが大きいほど顕著になります。

モデルサイズ	Standard	CoT	改善幅
8B	4.5%	5.3%	+0.8%
62B	12.3%	33.0%	+20.7%
540B (PaLM)	17.9%	58.1%	+40.2%

小さなモデルではCoTの効果は限定的です。しかし、100B以上のモデルで劇的な効果が現れます。これは**創発的能力（Emergent Ability）**と呼ばれる現象の一例です。

PaLM 540B vs GPT-3 175B——パラメータ3倍の真価

CoT論文が発表された2022年当時、OpenAIのGPT-3（175B）が最強のLLMとして君臨していました。しかし、Googleが2022年4月に発表したPaLM（540B）は、パラメータ数で3倍の規模を誇ります。

しかし、標準プロンプトでは差がつかなかった。

モデル	パラメータ数	標準プロンプト	CoTプロンプト	改善幅
GPT-3	175B	17.9%	約40%台（推定）	+20%台
PaLM	540B	17.9%	58.1%	+40.2%

つまり、「大きいモデル」だけでは性能は上がらなかった。

しかし、CoTを組み合わせることで、PaLMは初めてその真価を発揮した。この事実は、AI開発の方向性に大きな問いを投げかけた。

「パラメータ数を3倍にするために数千億円を投じるより、プロンプトを工夫する方が効率的なのでは？」

この問いが、後の「プロンプトエンジニアリング」ブームの引き金となった。

モデルサイズとCoT効果の関係

💡 この先の展開

100B以上のモデルで「突然」効果が出る——この現象には名前がある。**創発的能力（Emergent Ability）**だ。なぜこんなことが起きるのか？

なぜChain-of-Thoughtは効果があるのか

1. 作業メモリの外部化

人間が複雑な計算をするとき、紙に途中式を書きます。CoTはこれと同じ原理です。

従来: 全ての計算を「頭の中」（モデル内部）で処理 → 情報が失われる
CoT: 途中結果を「紙」（出力テキスト）に書き出す → 情報が保持される

LLMは生成したテキストを次のトークン予測に使えます。そのため、途中結果を「外部メモリ」として活用できます。

2. 問題の分解

複雑な問題を小さなステップに分解すると、各ステップは単純な処理になります。

Chain-of-Thought推論プロセス

複雑な問題: 「3杯 × 400円 + 2個 × 500円」

↓ 分解

ステップ1: 「3 × 400 = ?」 → 1200
ステップ2: 「2 × 500 = ?」 → 1000
ステップ3: 「1200 + 1000 = ?」 → 2200

3. エラー検出と修正

途中経過が可視化されることで、モデル自身がエラーを発見・修正しやすくなります。

ステップ1: 3 × 400 = 1200 OK
ステップ2: 2 × 500 = 100 ...あれ、計算が間違っている
          2 × 500 = 1000 OK

4. 学習データとの整合性

LLMの学習データには、教科書や解説サイトなど「段階的な説明」が多く含まれています。CoTプロンプトは、そうした学習データのパターンを引き出していると考えられます。

ReActとの関係

CoTは「推論」に特化したテクニックです。これを行動（Action）と組み合わせたのがReActです。

CoT vs ReAct

観点	CoT	ReAct
対象	推論タスク	推論 + 行動タスク
外部ツール	使用しない	使用する
ループ	一方向	Thought-Action-Observation
適用例	数学、論理問題	検索、計算、API呼び出し

ReActにおけるCoTの役割

ReActの「Thought」部分は、まさにCoTの推論プロセスです。

[Thought] ユーザーは東京の明日の天気を知りたがっている。
         天気APIを使って情報を取得する必要がある。

[Action] weather_api(location="Tokyo", date="tomorrow")

[Observation] 明日の東京: 晴れ、最高気温15度、最低気温8度

CoTが「考える力」を与え、ReActがそれを「行動する力」と結合したと言えます。

実践：CoTを今すぐ使う方法

📖 このセクションについて

実装の詳細コードを含みます。技術的な実装に興味がない方は次のセクションまで読み飛ばしてOKです。

シンプルな実装例

やっていること: OpenAI APIに「ステップバイステップで考えて」という指示を追加するだけ

<details> <summary>💻 実装コードを見る（スキップ可・技術者向け）</summary>

import openai

def cot_prompt(question):
    prompt = f'''
質問: {question}

この問題をステップバイステップで考えてください。
各ステップで何を計算しているか説明し、最後に答えを出してください。
'''

    response = openai.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": prompt}],
        temperature=0
    )

    return response.choices[0].message.content

# 使用例
question = "ある店で、りんご5個とみかん8個を買いました。りんごは1個120円、みかんは1個80円です。1000円札で払うとお釣りはいくらですか？"
answer = cot_prompt(question)
print(answer)

</details>

出力例

ステップ1: りんごの合計金額を計算します。
りんご5個 × 120円 = 600円

ステップ2: みかんの合計金額を計算します。
みかん8個 × 80円 = 640円

ステップ3: 購入金額の合計を計算します。
600円 + 640円 = 1240円

ステップ4: お釣りを計算します。
1000円では足りないため、お釣りは出ません。
むしろ240円不足しています。

答え: 1000円札では240円不足するため、お釣りは出ません。

CoTを使うことで、「1000円では足りない」という重要な気づきも得られています。

💡 この先の展開

ここまでCoTの「魔法」を見てきた。しかし、学会はこの論文をどう評価したのか？実は、意外な反応があった。

NeurIPS 2022での反響——「最優秀賞」は取れなかった

CoT論文は2022年1月にarXivで公開され、同年12月のNeurIPS 2022で発表された。

学会の評価

NeurIPS 2022では、13本のOutstanding Paper（最優秀論文賞）が選出された。しかし、CoT論文は含まれなかった。

なぜか？当時の学会には、以下のような懐疑的な見方があったと考えられる。

1. 忠実性（Faithfulness）の問題

CoTの推論過程が、実際のモデルの内部計算を反映していない可能性が指摘された。

LLMがCoTで誤った推論を示しても、最終的には正しい答えを出すケースが多数
CoTは「本当の思考過程」ではなく、「それらしい説明」を生成している可能性
後に「Chain-of-Thought Is Not Explainability」という論文も発表される（2025年）

2. モデルサイズ依存

100億パラメータ以下のモデルでは逆効果になることが明らかだった。

小さなモデルでは「それらしい推論」を生成するが、実際には間違っており、標準プロンプトより性能が悪化
当時、多くの企業・研究機関は100B未満のモデルを使用していたため、実用性に疑問

3. 分布シフトへの脆弱性

訓練データと異なるタスクでは急激に性能が低下することが懸念された。

「表面的なパターン複製」に過ぎないという指摘
後続研究「Chain of Thoughtlessness」（2025年）では、4ブロックの積み上げ例を学習しても、20ブロック問題ではほぼ失敗することが示される

しかし、業界への影響は絶大だった

学会の評価とは裏腹に、CoT論文はAI業界に革命を起こした。

引用数の爆発的増加:

発表から4年で数千件の引用
Google Scholar、Semantic Scholarで「Highly Influential Citations」として認定

後続研究の連鎖:

2022年3月: "Self-Consistency Improves Chain of Thought Reasoning"（GSM8Kで74%達成）
2022年3月: "STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning"
2022年5月: "Large Language Models are Zero-Shot Reasoners"（Kojima et al.）
GitHubリポジトリ「Chain-of-ThoughtsPapers」が作成され、関連研究のトレンドが形成

2026年現在の評価:

最新の推論モデル（OpenAI o1など）は、CoTを「プロンプト」ではなく「訓練」で実装
Wharton Generative AI Labsのレポート（2025年）では「The Decreasing Value of Chain of Thought in Prompting」と指摘されるも、CoTの概念自体は推論AIの基盤として定着

💡 この先の展開

学会では賛否両論だった。しかし、この論文の主著者は、批判を乗り越えて次のステージへ進んだ。その「人間ドラマ」を見てみよう。

【驚きの事実】研究者Jason Weiのその後

CoT論文の主著者Jason Weiのキャリアは、AI研究の激動を象徴している。

5年で3大企業を経験——AI業界の最前線を駆け抜けた軌跡

2020年: Dartmouth College卒業

コンピュータサイエンス専攻、卒業論文は「Label Noise Reduction Without Assumptions」
Stanford大学院への進学を選ばず、Google AI Residentに応募
当時、AI研究者の王道は「有名大学院→博士号取得→企業研究所」だったが、Weiは異なる道を選んだ

2020-2023年: Google Brain研究員

AI Residentとして採用され、わずか2年でCoT論文を発表
同僚のHyung Won Chungと共に、PaLMモデルの推論能力を研究
Chungは、JAXベースの大規模訓練システム（T5X）の構築者で、PaLMモデルの訓練、Instruction Fine-tuning（Flan-PaLM、Flan-T5）を主導
CoT以外にも、「Instruction Tuning」「Emergent Abilities（創発的能力）」の研究で注目を集める

2023-2025年: OpenAI研究員

ChungとともにGoogle BrainからOpenAIに移籍
o1モデルの共同開発者として名を連ねる
2024年9月、Xでこう述べている:

"Don't do chain of thought purely via prompting, train models to do better chain of thought using RL." （プロンプトだけでCoTをやるな。強化学習でモデルに「より良いCoT」を訓練しろ）

CoTを「プロンプトの技」から「モデルの内蔵能力」へ進化させる——それがo1で実現された。自ら発見した技術を、自ら次のステージへ昇華させたのだ。

2025年-現在: Meta Superintelligence Labs研究員

2025年7月、Chungとともに再びOpenAIから移籍
Meta Superintelligence Labsで次世代推論AIの研究に従事
10年以上のパートナーとして、Google→OpenAI→Metaを共に渡り歩く
AI業界の「3大企業」を全て経験した希有な研究者

スケール戦争からプロンプト戦争へ——常識の逆転

CoT論文が発表された2022年は、AI業界が「スケール戦争」の頂点にあった時期だ。

モデル	パラメータ数	発表時期	企業
GPT-3	175B	2020年6月	OpenAI
Gopher	280B	2021年12月	DeepMind
PaLM	540B	2022年4月	Google

PaLMは、780億トークンで訓練され、6,144個のTPUチップを使用した当時最大規模のモデルだった。計算資源だけで数十億円規模の投資である。

しかし、Weiの発見は衝撃的だった。

「たった8個の例題を追加するだけで、540Bパラメータモデルの性能が3倍になる」

つまり、数千億円の計算資源を追加投入するより、プロンプトを工夫する方が効率的だったのだ。

この発見は、AI開発の方向性を大きく変えた。「大きいモデルを作る」から「既存のモデルを賢く使う」へ——プロンプトエンジニアリングの時代の幕開けである。

リベラルアーツ教育の影響——「理系×文系」の融合

Weiは名門Dartmouth College出身。リベラルアーツ教育を重視し、コンピュータサイエンス専攻でありながら、中東史など専攻外の授業も多数受講したという。

また、学部時代には医療画像解析の研究にも携わっており、**「AIをどう人間に理解させるか」**という問題意識を早くから持っていた。

「AIに考え方を教える」という発想は、こうした**「理系×文系」の融合**から生まれた可能性がある。技術だけでなく、「人間がどう学ぶか」という教育学的な視点がCoTのアイデアにつながったのかもしれない。

FAQ

Q1. CoTは全てのタスクで効果がある？

いいえ。CoTが効果的なのは主に以下のタスクです。

複数ステップの算術問題
論理的推論が必要なタスク
常識推論
記号操作

単純な事実の検索や創作タスクでは効果が限定的です。

Q2. 日本語でもCoTは効果がある？

はい、効果があります。「ステップバイステップで考えてください」「順番に説明してください」などのフレーズで同様の効果が得られます。

Q3. CoTを使うとコストは増える？

はい。出力トークン数が増えるため、APIコストは増加します。ただし、精度向上による再試行の減少を考えると、総合的には効率的な場合が多いです。

Q4. どのモデルで使うべき？

100B以上のパラメータを持つモデル（GPT-4、Claude 3、PaLM 2など）で効果が顕著です。小さなモデルでは効果が限定的です。

Q5. CoTと他のプロンプト技法は併用できる？

はい、併用できます。Few-shot例の提示、ロールプレイ（「あなたは数学の専門家です」）、出力フォーマット指定などと組み合わせることで、さらに精度を高められます。

Q6. 2026年現在でもCoTは有効？

状況によります。2025年のWharton Generative AI Labsのレポートでは、「最新の推論モデル（OpenAI o1など）では、プロンプトによるCoTの効果が限定的」と指摘されています。

理由:

o1のような推論モデルは、CoTを内部的に訓練済み
プロンプトで追加のCoTを指示しても、応答時間が増えるだけで精度向上は最小限

推奨:

非推論モデル（GPT-4o、Claude 3.5など）: CoTは依然として有効
推論モデル（o1など）: CoTプロンプトは不要、モデルに任せる
小規模モデル（100B未満）: CoTは逆効果の可能性

つまり、CoTの概念は**「プロンプト技法」から「モデルの内蔵能力」へ進化**しており、使い方が変わってきています。

まとめ

**Chain-of-Thought（CoT）**は、LLMに「考えるプロセスを出力させる」というシンプルなアイデアで、推論能力を飛躍的に向上させた画期的な手法です。

主要ポイント

精度向上: GSM8Kで17.9%→58.1%（+40%以上）の改善を達成
シンプルな実装: 「ステップバイステップで考えて」と指示するだけ
モデルサイズ依存: 100B以上のモデルで効果が顕著に現れる

人に話したくなるポイント

「Let's think step by step」の一言だけで性能3倍 — たった8個の例題追加で、数千億円の計算資源を上回る性能向上
主著者のJason Weiは5年でGoogle→OpenAI→Metaを経験 — 同僚のHyung Won Chungと10年以上パートナーとして共に渡り歩く
100億パラメータを超えると「突然」考える能力が出現 — 6Bでは1%、13Bでは8%、175Bでは80%の精度（創発的能力）
PaLM 540BがGPT-3 175Bを圧倒 — パラメータ数3倍でも標準プロンプトでは同じ17.9%、CoTで58.1%に跳ね上がる
CoTの「考える過程」は本当の思考ではないかもしれない — 2025年の論文「Chain-of-Thought Is Not Explainability」で忠実性問題が指摘される
Weiは自ら発見したCoTを、o1で「訓練する能力」へ進化 — プロンプトから強化学習へ、次のパラダイムを自ら切り開く
Stanford大学院を蹴ってGoogle AI Residentに — 王道の博士課程ではなく、実践の場を選んだ26歳の決断
リベラルアーツ教育の影響 — 中東史など専攻外の授業を多数受講、「理系×文系」の融合が発想の源？

次のステップ

今すぐ試す: ChatGPTやClaudeで「Let's think step by step」を追加する
ReAct論文を読む: CoTを行動と組み合わせたエージェント技術を理解する
自社タスクで検証: 複雑な推論が必要な業務でCoTの効果を測定する

前の論文	次の論文
Transformer: AIの言語理解を変えた革命	ReAct: 推論と行動を統合するAIエージェントの原点

AIエージェント論文おすすめ9選に戻る

参考リソース

本記事はネクサフローのAI研究シリーズの一部です。

この記事の著者

中村知良

代表取締役

早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。

この記事をシェア

X Facebook はてな LinkedIn

次に読む

【論文解説】Self-Evolving AI Agents：自己進化するAIエージェントの全貌

静的なAIエージェントから自己進化型システムへ。本論文は「システム入力」「エージェントシステム」「環境」「最適化器」の4コンポーネントで構成される統一フレームワークを提案し、継続的に改善するAIエージェントの技術体系を包括的に解説。

2026/01/16

AIAIエージェント

【論文解説】A-MEM: エージェントに長期記憶を与えるAgentic Memory

A-MEMは、LLMエージェントに人間のような長期記憶を与えるフレームワークで、記憶の保存・検索・更新を自律的に行います。従来の手法に比べ、動的な経験管理が可能で、長期タスクやパーソナライズにおいて効果を発揮します。特に、複数セッション対話での性能向上が顕著です。

2026/01/12

AI新技術革新

【論文解説】Epiplexityとは？AIの情報理論を再定義する新概念

Epiplexityは計算制約のあるAIモデルの学習可能性を定量化する新しい情報理論の尺度であり、シャノンエントロピーの限界を克服します。特に、データ拡張、カリキュラム学習、LLMの汎用能力など、従来の理論では説明できなかった現象を統一的に解決します。Epiplexityは、データセット設計や事前学習の最適化に新たな指針を提供し、今後のAI研究において重要な概念とされています。

2026/01/12

AI新技術革新

まずは無料相談・資料請求

AIやDXの導入について、具体的な進め方や費用対効果など、まずはお気軽にご相談ください。貴社の状況に合わせた最適なプランをご提案します。

お問い合わせ

お気軽にご相談ください

ブログ

AI、データ活用、業務改善に関する最新情報やNexaflowの取り組みをお届けします

【論文解説】Chain-of-Thought: LLMの推論能力を覚醒させたプロンプト技法

37分で読める|2026/01/18|

AIパフォーマンス向上データ分析

AIサマリー

2022年1月、Google Brainのオフィス。

26歳の研究者Jason Weiは、ディスプレイに表示された数字を何度も見つめ直していた。

GSM8K（小学生レベルの算数問題）
GPT-3（175Bパラメータ）: 17.9%
PaLM（540Bパラメータ）: 17.9%

「3倍のパラメータで、精度は変わらない？」

Weiは、ある仮説を試してみることにした。

「AIに『考える過程』を見せたら、どうなるだろう？」

8個の例題を作成し、それぞれに「途中の計算過程」を書き加えた。そして、PaLMに同じ問題を解かせた。

GSM8K精度
標準プロンプト: 17.9%
Chain-of-Thought: 58.1%

+40.2ポイント。約3倍の性能向上。

本記事の表記について

下線付きの用語にカーソルを合わせると解説が表示されます

シリーズ記事一覧 AIエージェント論文おすすめ9選

この記事でわかること

CoTの基本原理: 「ステップバイステップで考えさせる」だけでLLMの推論能力が飛躍的に向上する仕組み
実験結果: GSM8Kで17.9%→58.1%（+40%以上）の精度向上を達成した具体的なデータ
実践方法: 今日から使えるCoTプロンプトの書き方とReActとの関係

基本情報

項目	内容
トピック	Chain-of-Thought Prompting
カテゴリ	論文解説
難易度	初級〜中級
発表	NeurIPS 2022（Google）
arXiv	2201.11903

💡 この先の展開

まずはCoTの「魔法」の仕組みを見てみよう。驚くほどシンプルな原理が、AIの推論能力を覚醒させた。

Chain-of-Thoughtの仕組みを図解で理解

Chain-of-Thoughtの概念図

従来のプロンプト（Standard Prompting）

Q: カフェでコーヒーを3杯とケーキを2個買いました。
   コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか？

A: 2200円

LLMはいきなり答えを出そうとします。単純な問題なら正解できますが、複雑になると間違いやすくなります。

Chain-of-Thoughtプロンプト

Q: カフェでコーヒーを3杯とケーキを2個買いました。
   コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか？

A: まず、コーヒーの合計を計算します。
   コーヒー3杯 × 400円 = 1200円

   次に、ケーキの合計を計算します。
   ケーキ2個 × 500円 = 1000円

   最後に、全体の合計を計算します。
   1200円 + 1000円 = 2200円

   答え: 2200円

途中の計算過程を明示的に出力させることで、LLMは各ステップを正確に実行できるようになります。

Standard PromptingとChain-of-Thoughtの比較

2つのCoTアプローチ

1. Few-shot CoT（元論文のアプローチ）

Few-shot CoTは、推論過程を含む例を数個提示してからタスクを与える方法です。

[例1]
Q: ロジャーはテニスボールを5個持っています。
   テニスボールが3缶入ったパックを2つ買いました。
   各缶には3個のボールが入っています。彼は今何個のボールを持っていますか？

A: ロジャーは最初に5個のボールを持っていました。
   各缶には3個のボールが入っていて、2缶買ったので、
   3 × 2 = 6個のボールを追加で手に入れました。
   5 + 6 = 11個
   答え: 11個

[例2]
Q: （別の例題と推論過程）

[本題]
Q: あなたが解きたい問題...

2. Zero-shot CoT（後続研究）

「Let's think step by step」と一言添えるだけで、Few-shotの例なしでもCoTが発動する発見です（Kojima et al., 2022）。

Q: カフェでコーヒーを3杯とケーキを2個買いました。
   コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか？

Let's think step by step.

これだけでLLMは自動的に段階的な推論を始めます。

Few-shot vs Zero-shot

観点	Few-shot CoT	Zero-shot CoT
準備コスト	例題の作成が必要	一言添えるだけ
精度	より高い	やや劣る
適用範囲	特定タスクに最適化	汎用的
推奨場面	重要なタスク	プロトタイプ・軽量な用途

💡 この先の展開

では、具体的にどれくらい性能が上がるのか？数字で見ると、その「魔法」の威力がよくわかる。

実験結果：どれくらい性能が上がるのか

論文では、複数の算術・推論ベンチマークで検証が行われました。

GSM8K（小学校レベルの算数文章題）

手法	精度
Standard Prompting	17.9%
Chain-of-Thought	58.1%
改善幅	+40.2%

MultiArith（複数ステップの算術問題）

手法	精度
Standard Prompting	17.7%
Chain-of-Thought	93.0%
改善幅	+75.3%

SVAMP（代数文章題）

手法	精度
Standard Prompting	63.1%
Chain-of-Thought	79.0%
改善幅	+15.9%

モデルサイズの影響——「魔法の閾値」100B

興味深いことに、CoTの効果はモデルサイズが大きいほど顕著になります。

モデルサイズ	Standard	CoT	改善幅
8B	4.5%	5.3%	+0.8%
62B	12.3%	33.0%	+20.7%
540B (PaLM)	17.9%	58.1%	+40.2%

PaLM 540B vs GPT-3 175B——パラメータ3倍の真価

しかし、標準プロンプトでは差がつかなかった。

モデル	パラメータ数	標準プロンプト	CoTプロンプト	改善幅
GPT-3	175B	17.9%	約40%台（推定）	+20%台
PaLM	540B	17.9%	58.1%	+40.2%

つまり、「大きいモデル」だけでは性能は上がらなかった。

しかし、CoTを組み合わせることで、PaLMは初めてその真価を発揮した。この事実は、AI開発の方向性に大きな問いを投げかけた。

「パラメータ数を3倍にするために数千億円を投じるより、プロンプトを工夫する方が効率的なのでは？」

この問いが、後の「プロンプトエンジニアリング」ブームの引き金となった。

モデルサイズとCoT効果の関係

💡 この先の展開

100B以上のモデルで「突然」効果が出る——この現象には名前がある。**創発的能力（Emergent Ability）**だ。なぜこんなことが起きるのか？

なぜChain-of-Thoughtは効果があるのか

1. 作業メモリの外部化

人間が複雑な計算をするとき、紙に途中式を書きます。CoTはこれと同じ原理です。

従来: 全ての計算を「頭の中」（モデル内部）で処理 → 情報が失われる
CoT: 途中結果を「紙」（出力テキスト）に書き出す → 情報が保持される

LLMは生成したテキストを次のトークン予測に使えます。そのため、途中結果を「外部メモリ」として活用できます。

2. 問題の分解

複雑な問題を小さなステップに分解すると、各ステップは単純な処理になります。

Chain-of-Thought推論プロセス

複雑な問題: 「3杯 × 400円 + 2個 × 500円」

↓ 分解

ステップ1: 「3 × 400 = ?」 → 1200
ステップ2: 「2 × 500 = ?」 → 1000
ステップ3: 「1200 + 1000 = ?」 → 2200

3. エラー検出と修正

途中経過が可視化されることで、モデル自身がエラーを発見・修正しやすくなります。

ステップ1: 3 × 400 = 1200 OK
ステップ2: 2 × 500 = 100 ...あれ、計算が間違っている
          2 × 500 = 1000 OK

4. 学習データとの整合性

ReActとの関係

CoTは「推論」に特化したテクニックです。これを行動（Action）と組み合わせたのがReActです。

CoT vs ReAct

観点	CoT	ReAct
対象	推論タスク	推論 + 行動タスク
外部ツール	使用しない	使用する
ループ	一方向	Thought-Action-Observation
適用例	数学、論理問題	検索、計算、API呼び出し

ReActにおけるCoTの役割

ReActの「Thought」部分は、まさにCoTの推論プロセスです。

[Thought] ユーザーは東京の明日の天気を知りたがっている。
         天気APIを使って情報を取得する必要がある。

[Action] weather_api(location="Tokyo", date="tomorrow")

[Observation] 明日の東京: 晴れ、最高気温15度、最低気温8度

CoTが「考える力」を与え、ReActがそれを「行動する力」と結合したと言えます。

実践：CoTを今すぐ使う方法

📖 このセクションについて

実装の詳細コードを含みます。技術的な実装に興味がない方は次のセクションまで読み飛ばしてOKです。

シンプルな実装例

やっていること: OpenAI APIに「ステップバイステップで考えて」という指示を追加するだけ

<details> <summary>💻 実装コードを見る（スキップ可・技術者向け）</summary>

import openai

def cot_prompt(question):
    prompt = f'''
質問: {question}

この問題をステップバイステップで考えてください。
各ステップで何を計算しているか説明し、最後に答えを出してください。
'''

    response = openai.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": prompt}],
        temperature=0
    )

    return response.choices[0].message.content

# 使用例
question = "ある店で、りんご5個とみかん8個を買いました。りんごは1個120円、みかんは1個80円です。1000円札で払うとお釣りはいくらですか？"
answer = cot_prompt(question)
print(answer)

</details>

出力例

ステップ1: りんごの合計金額を計算します。
りんご5個 × 120円 = 600円

ステップ2: みかんの合計金額を計算します。
みかん8個 × 80円 = 640円

ステップ3: 購入金額の合計を計算します。
600円 + 640円 = 1240円

ステップ4: お釣りを計算します。
1000円では足りないため、お釣りは出ません。
むしろ240円不足しています。

答え: 1000円札では240円不足するため、お釣りは出ません。

CoTを使うことで、「1000円では足りない」という重要な気づきも得られています。

💡 この先の展開

ここまでCoTの「魔法」を見てきた。しかし、学会はこの論文をどう評価したのか？実は、意外な反応があった。

NeurIPS 2022での反響——「最優秀賞」は取れなかった

CoT論文は2022年1月にarXivで公開され、同年12月のNeurIPS 2022で発表された。

学会の評価

NeurIPS 2022では、13本のOutstanding Paper（最優秀論文賞）が選出された。しかし、CoT論文は含まれなかった。

なぜか？当時の学会には、以下のような懐疑的な見方があったと考えられる。

1. 忠実性（Faithfulness）の問題

CoTの推論過程が、実際のモデルの内部計算を反映していない可能性が指摘された。

LLMがCoTで誤った推論を示しても、最終的には正しい答えを出すケースが多数
CoTは「本当の思考過程」ではなく、「それらしい説明」を生成している可能性
後に「Chain-of-Thought Is Not Explainability」という論文も発表される（2025年）

2. モデルサイズ依存

100億パラメータ以下のモデルでは逆効果になることが明らかだった。

小さなモデルでは「それらしい推論」を生成するが、実際には間違っており、標準プロンプトより性能が悪化
当時、多くの企業・研究機関は100B未満のモデルを使用していたため、実用性に疑問

3. 分布シフトへの脆弱性

訓練データと異なるタスクでは急激に性能が低下することが懸念された。

「表面的なパターン複製」に過ぎないという指摘
後続研究「Chain of Thoughtlessness」（2025年）では、4ブロックの積み上げ例を学習しても、20ブロック問題ではほぼ失敗することが示される

しかし、業界への影響は絶大だった

学会の評価とは裏腹に、CoT論文はAI業界に革命を起こした。

引用数の爆発的増加:

発表から4年で数千件の引用
Google Scholar、Semantic Scholarで「Highly Influential Citations」として認定

後続研究の連鎖:

2022年3月: "Self-Consistency Improves Chain of Thought Reasoning"（GSM8Kで74%達成）
2022年3月: "STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning"
2022年5月: "Large Language Models are Zero-Shot Reasoners"（Kojima et al.）
GitHubリポジトリ「Chain-of-ThoughtsPapers」が作成され、関連研究のトレンドが形成

2026年現在の評価:

最新の推論モデル（OpenAI o1など）は、CoTを「プロンプト」ではなく「訓練」で実装
Wharton Generative AI Labsのレポート（2025年）では「The Decreasing Value of Chain of Thought in Prompting」と指摘されるも、CoTの概念自体は推論AIの基盤として定着

💡 この先の展開

学会では賛否両論だった。しかし、この論文の主著者は、批判を乗り越えて次のステージへ進んだ。その「人間ドラマ」を見てみよう。

【驚きの事実】研究者Jason Weiのその後

CoT論文の主著者Jason Weiのキャリアは、AI研究の激動を象徴している。

5年で3大企業を経験——AI業界の最前線を駆け抜けた軌跡

2020年: Dartmouth College卒業

コンピュータサイエンス専攻、卒業論文は「Label Noise Reduction Without Assumptions」
Stanford大学院への進学を選ばず、Google AI Residentに応募
当時、AI研究者の王道は「有名大学院→博士号取得→企業研究所」だったが、Weiは異なる道を選んだ

2020-2023年: Google Brain研究員

AI Residentとして採用され、わずか2年でCoT論文を発表
同僚のHyung Won Chungと共に、PaLMモデルの推論能力を研究
Chungは、JAXベースの大規模訓練システム（T5X）の構築者で、PaLMモデルの訓練、Instruction Fine-tuning（Flan-PaLM、Flan-T5）を主導
CoT以外にも、「Instruction Tuning」「Emergent Abilities（創発的能力）」の研究で注目を集める

2023-2025年: OpenAI研究員

ChungとともにGoogle BrainからOpenAIに移籍
o1モデルの共同開発者として名を連ねる
2024年9月、Xでこう述べている:

"Don't do chain of thought purely via prompting, train models to do better chain of thought using RL." （プロンプトだけでCoTをやるな。強化学習でモデルに「より良いCoT」を訓練しろ）

2025年-現在: Meta Superintelligence Labs研究員

2025年7月、Chungとともに再びOpenAIから移籍
Meta Superintelligence Labsで次世代推論AIの研究に従事
10年以上のパートナーとして、Google→OpenAI→Metaを共に渡り歩く
AI業界の「3大企業」を全て経験した希有な研究者

スケール戦争からプロンプト戦争へ——常識の逆転

CoT論文が発表された2022年は、AI業界が「スケール戦争」の頂点にあった時期だ。

モデル	パラメータ数	発表時期	企業
GPT-3	175B	2020年6月	OpenAI
Gopher	280B	2021年12月	DeepMind
PaLM	540B	2022年4月	Google

PaLMは、780億トークンで訓練され、6,144個のTPUチップを使用した当時最大規模のモデルだった。計算資源だけで数十億円規模の投資である。

しかし、Weiの発見は衝撃的だった。

「たった8個の例題を追加するだけで、540Bパラメータモデルの性能が3倍になる」

つまり、数千億円の計算資源を追加投入するより、プロンプトを工夫する方が効率的だったのだ。

リベラルアーツ教育の影響——「理系×文系」の融合

また、学部時代には医療画像解析の研究にも携わっており、**「AIをどう人間に理解させるか」**という問題意識を早くから持っていた。

FAQ

Q1. CoTは全てのタスクで効果がある？

いいえ。CoTが効果的なのは主に以下のタスクです。

複数ステップの算術問題
論理的推論が必要なタスク
常識推論
記号操作

単純な事実の検索や創作タスクでは効果が限定的です。

Q2. 日本語でもCoTは効果がある？

はい、効果があります。「ステップバイステップで考えてください」「順番に説明してください」などのフレーズで同様の効果が得られます。

Q3. CoTを使うとコストは増える？

Q4. どのモデルで使うべき？

100B以上のパラメータを持つモデル（GPT-4、Claude 3、PaLM 2など）で効果が顕著です。小さなモデルでは効果が限定的です。

Q5. CoTと他のプロンプト技法は併用できる？

Q6. 2026年現在でもCoTは有効？

理由:

o1のような推論モデルは、CoTを内部的に訓練済み
プロンプトで追加のCoTを指示しても、応答時間が増えるだけで精度向上は最小限

推奨:

非推論モデル（GPT-4o、Claude 3.5など）: CoTは依然として有効
推論モデル（o1など）: CoTプロンプトは不要、モデルに任せる
小規模モデル（100B未満）: CoTは逆効果の可能性

つまり、CoTの概念は**「プロンプト技法」から「モデルの内蔵能力」へ進化**しており、使い方が変わってきています。

まとめ

**Chain-of-Thought（CoT）**は、LLMに「考えるプロセスを出力させる」というシンプルなアイデアで、推論能力を飛躍的に向上させた画期的な手法です。

主要ポイント

精度向上: GSM8Kで17.9%→58.1%（+40%以上）の改善を達成
シンプルな実装: 「ステップバイステップで考えて」と指示するだけ
モデルサイズ依存: 100B以上のモデルで効果が顕著に現れる

人に話したくなるポイント

「Let's think step by step」の一言だけで性能3倍 — たった8個の例題追加で、数千億円の計算資源を上回る性能向上
主著者のJason Weiは5年でGoogle→OpenAI→Metaを経験 — 同僚のHyung Won Chungと10年以上パートナーとして共に渡り歩く
100億パラメータを超えると「突然」考える能力が出現 — 6Bでは1%、13Bでは8%、175Bでは80%の精度（創発的能力）
PaLM 540BがGPT-3 175Bを圧倒 — パラメータ数3倍でも標準プロンプトでは同じ17.9%、CoTで58.1%に跳ね上がる
CoTの「考える過程」は本当の思考ではないかもしれない — 2025年の論文「Chain-of-Thought Is Not Explainability」で忠実性問題が指摘される
Weiは自ら発見したCoTを、o1で「訓練する能力」へ進化 — プロンプトから強化学習へ、次のパラダイムを自ら切り開く
Stanford大学院を蹴ってGoogle AI Residentに — 王道の博士課程ではなく、実践の場を選んだ26歳の決断
リベラルアーツ教育の影響 — 中東史など専攻外の授業を多数受講、「理系×文系」の融合が発想の源？

次のステップ

今すぐ試す: ChatGPTやClaudeで「Let's think step by step」を追加する
ReAct論文を読む: CoTを行動と組み合わせたエージェント技術を理解する
自社タスクで検証: 複雑な推論が必要な業務でCoTの効果を測定する

前の論文	次の論文
Transformer: AIの言語理解を変えた革命	ReAct: 推論と行動を統合するAIエージェントの原点

AIエージェント論文おすすめ9選に戻る

参考リソース

本記事はネクサフローのAI研究シリーズの一部です。

この記事の著者

中村知良

代表取締役

この記事をシェア

X Facebook はてな LinkedIn

次に読む

まずは無料相談・資料請求

AIやDXの導入について、具体的な進め方や費用対効果など、まずはお気軽にご相談ください。貴社の状況に合わせた最適なプランをご提案します。

お問い合わせ

お気軽にご相談ください

ブログ

この記事でわかること

基本情報

Chain-of-Thoughtの仕組みを図解で理解

従来のプロンプト（Standard Prompting）

Chain-of-Thoughtプロンプト

2つのCoTアプローチ

1. Few-shot CoT（元論文のアプローチ）

2. Zero-shot CoT（後続研究）

Few-shot vs Zero-shot

実験結果：どれくらい性能が上がるのか

GSM8K（小学校レベルの算数文章題）

MultiArith（複数ステップの算術問題）

SVAMP（代数文章題）

モデルサイズの影響——「魔法の閾値」100B

PaLM 540B vs GPT-3 175B——パラメータ3倍の真価

なぜChain-of-Thoughtは効果があるのか

1. 作業メモリの外部化

2. 問題の分解

3. エラー検出と修正

4. 学習データとの整合性

ReActとの関係

CoT vs ReAct

ReActにおけるCoTの役割

実践：CoTを今すぐ使う方法

シンプルな実装例

出力例

NeurIPS 2022での反響——「最優秀賞」は取れなかった

学会の評価

しかし、業界への影響は絶大だった

【驚きの事実】研究者Jason Weiのその後

5年で3大企業を経験——AI業界の最前線を駆け抜けた軌跡

スケール戦争からプロンプト戦争へ——常識の逆転

リベラルアーツ教育の影響——「理系×文系」の融合

FAQ

Q1. CoTは全てのタスクで効果がある？

Q2. 日本語でもCoTは効果がある？

Q3. CoTを使うとコストは増える？

Q4. どのモデルで使うべき？

Q5. CoTと他のプロンプト技法は併用できる？

Q6. 2026年現在でもCoTは有効？

まとめ

主要ポイント

人に話したくなるポイント

次のステップ

関連記事

参考リソース

中村 知良

この記事をシェア

関連記事

【論文解説】Self-Evolving AI Agents：自己進化するAIエージェントの全貌

【論文解説】A-MEM: エージェントに長期記憶を与えるAgentic Memory

【論文解説】Epiplexityとは？AIの情報理論を再定義する新概念

まずは無料相談・資料請求

ブログ

この記事でわかること

基本情報

Chain-of-Thoughtの仕組みを図解で理解

従来のプロンプト（Standard Prompting）

Chain-of-Thoughtプロンプト

2つのCoTアプローチ

1. Few-shot CoT（元論文のアプローチ）

2. Zero-shot CoT（後続研究）

Few-shot vs Zero-shot

実験結果：どれくらい性能が上がるのか

GSM8K（小学校レベルの算数文章題）

MultiArith（複数ステップの算術問題）

SVAMP（代数文章題）

モデルサイズの影響——「魔法の閾値」100B

PaLM 540B vs GPT-3 175B——パラメータ3倍の真価

なぜChain-of-Thoughtは効果があるのか

1. 作業メモリの外部化

2. 問題の分解

3. エラー検出と修正

4. 学習データとの整合性

ReActとの関係

CoT vs ReAct

ReActにおけるCoTの役割

実践：CoTを今すぐ使う方法

シンプルな実装例

中村知良

中村知良