AI、データ活用、業務改善に関する最新情報やNexaflowの取り組みをお届けします

AIサマリー
ReActは推論と行動を統合するAIエージェントのフレームワークで、従来の手法の課題を克服し、HotPotQAで+6%、ALFWorldで+34%の性能向上を達成。Thought-Action-Observationのループを用いて複雑なタスクを段階的に解決し、実際のビジネスシナリオでの自動化に高い実用性を示す。具体的なユースケースとして、競合価格調査や見積もり支援が成功率100%で実施された。
2022年夏、Princeton大学の研究室。
一人の博士課程学生が、イヤホンでEminemの「Lose Yourself」を聴きながらコードを書いていた。Shunyu Yao(姚顺宇)、当時26歳。彼は清華大学でラップクラブを創設していた異色の研究者だった。
その日、彼が投稿したarXiv論文は、AI業界の常識を覆すことになる。
わずか2個の例を見せただけで、10万個のデータで訓練された従来手法を34%上回る——そんな常識外れの結果を示していた。
彼が生み出した「ReAct」は、その後LangChain、AutoGPT、そして無数のAIエージェントの設計図となった。「AIはデータ量で勝負する」という常識を、彼は**「パターンで勝負する」**へと塗り替えた。
関連記事: 本記事は「AIエージェント論文おすすめ9選」の詳細解説記事です。他の論文も合わせてご覧ください。
本記事の表記について
- 金額の日本円換算は1ドル=150円で計算しています
- 下線付きの用語にカーソルを合わせると解説が表示されます
本記事では、ICLR 2023で**Notable Top 5%**に選出され、5,250件以上の引用を獲得したReAct論文を解説します。
| 項目 | 内容 |
|---|---|
| トピック | ReAct(Reasoning + Acting) |
| カテゴリ | 論文解説 |
| 難易度 | 中級 |
| 発表 | ICLR 2023 |
| arXiv | 2210.03629 |
💡 この先の展開
一体どんな「魔法」を使ったのか?実は、そのアイデアは驚くほどシンプルだった——「考えながら行動する」、ただそれだけ。
Shunyu Yaoが挑んだのは、当時のAI研究が抱えていた2つの陣営の対立だった。
2022年、Chain-of-Thought(CoT) という手法が流行していた。LLMに「段階的に考えさせる」だけで、複雑な数学問題を解ける——しかし、致命的な弱点があった。
ハルシネーション(幻覚)。AIが外部情報を確認せず、内部知識だけで自信満々に嘘をつくのだ。
一方、強化学習などの「行動だけ」に特化した手法もあった。試行錯誤でタスクをこなすが、「なぜその行動を取ったか」説明できない。計画性が欠如し、場当たり的な行動で非効率だった。
| 手法 | 性能(ALFWorld) | 訓練データ量 | 弱点 |
|---|---|---|---|
| Chain-of-Thought(考えるだけ) | 低 | ゼロ | ハルシネーション |
| Action-only(動くだけ) | 37% | 105,000エピソード | 計画性不足、説明不可能 |
| ReAct(考えながら動く) | 71% | 2個の例のみ | 推論と行動を統合 |
Yaoは気づいた——「考える」と「動く」を分けること自体が間違いだと。
人間は問題を解くとき、頭の中で考えるだけでなく、Googleで調べたり、計算機を使ったりする。思考と行動を往復するのだ。
この「当たり前」をAIに実装したのがReActだった。
ReActの核心は、Thought-Action-Observationの3ステップを繰り返すループ構造です。
ReActのThought-Action-ObservationループLLM(大規模言語モデル) が現在の状況を分析し、次のアクションを決定します。従来のCoT(Chain-of-Thought:段階的思考) と同様の推論プロセスですが、ReActでは行動を前提とした推論を行う点が異なります。
[Thought] ユーザーは消費税込み価格から税抜き価格を求めている。
計算ツールを使って 1000 / 1.1 を計算する必要がある。
推論結果に基づいて、適切なツールを選択・実行します。
[Action] calculator(1000 / 1.1)
ツールの実行結果を受け取り、次のThoughtに活用します。
[Observation] 計算結果: 1000 / 1.1 = 909.09
このループを繰り返すことで、複雑なタスクを段階的に解決していきます。
💡 この先の展開
では、このシンプルなアイデアがどれほどの効果を発揮したのか?論文の実験結果を見てみよう。
論文では、3つのベンチマークで検証が行われました。
| ベンチマーク | タスク内容 | 性能向上 |
|---|---|---|
| HotPotQA | 複数文書からの質問応答 | +6% |
| ALFWorld | テキストベースのゲーム | +34% |
| WebShop | Web操作によるショッピング | +10% |
特に**ALFWorldでの+34%**は驚異的です。これは、推論だけでなく「行動して結果を確認する」ことの重要性を示しています。
LangChain(エージェント開発フレームワーク) とLangGraph(ワークフロー構築ライブラリ) を使えば、数十行のコードでReActエージェントを構築できます。
📖 このセクションについて
実装の詳細コードを含みます。技術的な実装に興味がない方は次のセクションまで読み飛ばしてOKです。
やっていること: AIに「ツールを定義→エージェント作成→実行」の3ステップで「考えながら行動する」能力を与える
from langchain_openai import ChatOpenAI
from langchain_core.tools import tool
from langgraph.prebuilt import create_react_agent
# ツールの定義
@tool
def calculator(expression: str) -> str:
"""数学的な計算を行う"""
result = eval(expression)
return f"{expression} = {result}"
@tool
def search_knowledge(query: str) -> str:
"""情報を検索する"""
# 検索ロジック
return search_result
# エージェント作成
llm = ChatOpenAI(model="gpt-4o", temperature=0)
agent = create_react_agent(llm, [calculator, search_knowledge])
# 実行
result = agent.invoke({"messages": [("user", "100 × 5 を計算して")]})
💡 この先の展開
論文の数字だけでは実感が湧かない。実際にReActエージェントを構築して、ビジネスシナリオで検証してみた。
実行環境: Claude Code + LangGraph + gpt-4o
ユースケース: プライシング業務での競合SaaS価格調査
AIチャットボットSaaS(Intercom、Zendesk、Tidio、Drift)の価格を自動調査し、比較レポートを生成するエージェントを構築しました。
使用ツール:
実行結果:
[行動] web_search({'query': 'Intercom pricing 2025'}...)
[行動] web_search({'query': 'Zendesk pricing 2025'}...)
[観察] snippet: Intercom pricing starts at $39/month...
[行動] calculator({'expression': '468 / 12'}) # 年額→月額変換
[観察] 計算結果: 468 / 12 = 39.00
| 処理時間 | 成功 | 実用性評価 |
|---|---|---|
| 8.41秒 | ✓ | ★★★★☆ |
月額5万円以下のサービスとしてTidio、Driftを推奨する比較レポートを自動生成しました。
ユースケース: DX支援案件の概算見積もり作成
ECサイトリニューアル案件(商品数500点、決済機能、会員機能、在庫連携)の見積もりを自動作成するエージェントです。
使用ツール:
実行結果:
[行動] analyze_requirements({'requirements': '商品数: 約500点, 決済機能...'})
[観察] 抽出された開発項目: フロントエンド開発、バックエンド開発、インフラ構築、テスト
[行動] calculate_man_hours({'item': 'フロントエンド開発', 'complexity': 'medium'})
[観察] 「フロントエンド開発」の想定工数: 40人日
[行動] calculator({'expression': '40 + 60 + 10 + 20'})
[観察] 計算結果: 40 + 60 + 10 + 20 = 130
[行動] generate_estimate({'project_name': '中小企業向けECサイトリニューアル', ...})
生成された見積書:
| 項目 | 数量 | 単価 | 金額 |
|---|---|---|---|
| 開発工数 | 130人日 | 50,000円 | 6,500,000円 |
| 消費税(10%) | - | - | 650,000円 |
| 合計 | - | - | 7,150,000円 |
| 処理時間 | 成功 | 実用性評価 |
|---|---|---|
| 8.15秒 | ✓ | ★★★★☆ |
ユースケース: クライアントへの技術提案準備
AIエージェントフレームワーク(LangChain、LlamaIndex、CrewAI)を調査し、社内ナレッジと組み合わせて比較レポートを生成します。
使用ツール:
実行結果:
[行動] web_search({'query': 'LangChain AI framework 2025 updates'})
[行動] knowledge_db({'topic': 'LangChain'})
[観察] 【LangChain 社内評価】導入実績: 5案件、評価: ★★★★☆
[行動] generate_comparison_table({'items': 'LangChain, LlamaIndex, CrewAI'})
生成された比較表:
| 観点 | LangChain | LlamaIndex | CrewAI |
|---|---|---|---|
| 主要機能 | エージェント開発、RAG構築 | 知識アシスタント、データ接続 | マルチエージェント協調 |
| 学習コスト | 高 | 中 | 低 |
| 社内実績 | 5案件 | 3案件 | 1案件(PoC) |
| 総合評価 | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
推奨: 複雑なエージェント開発にはLangChainを推奨
| 処理時間 | 成功 | 実用性評価 |
|---|---|---|
| 18.66秒 | ✓ | ★★★★★ |
| シナリオ | タスク | 成功 | 処理時間 | 実用性 |
|---|---|---|---|---|
| 競合価格調査 | SaaS価格比較 | ✓ | 8.41秒 | ★★★★☆ |
| 見積もり支援 | 開発見積もり作成 | ✓ | 8.15秒 | ★★★★☆ |
| 技術リサーチ | フレームワーク比較 | ✓ | 18.66秒 | ★★★★★ |
全シナリオ成功率: 3/3(100%)
| 項目 | 数値 |
|---|---|
| 使用モデル | gpt-4o |
| 平均処理時間 | 8〜19秒/タスク |
| 推定API費用 | 約$0.01〜0.05/タスク(約1.5〜7.5円) |
上記の検証で示したように、ReActは実際のビジネスシナリオで高い実用性を発揮します。
「AIで業務を自動化したいが、単純な質問応答だけでは不十分」
ReActは「調べながら考える」ができるため、より複雑なタスクに対応可能です。
ReActの弱点を克服する手法も登場しています。
| 手法 | 特徴 |
|---|---|
| Reflexion | 失敗から学習して改善 |
| LATS | 木探索で複数の選択肢を評価 |
| Tree of Thoughts(思考の木) | 分岐する推論パス |
💡 この先の展開
技術の話はここまで。でも、この論文には「人間ドラマ」がある。若き研究者の波乱万丈なキャリアを見てみよう。
ReAct論文の主著者Shunyu Yaoのキャリアは、AIエージェント研究の激動を象徴している。
Shunyu Yaoは、中国の大学入試「高考」で704点を獲得し、Anhui省で3位として清華大学に入学した。しかし、彼が選んだのは普通のコンピュータサイエンス学科ではなかった。
清華大学「姚班(Yao Class)」——ノーベル賞級の科学者**Andrew Chi-Chih Yao(姚期智)**が創設した超エリート実験プログラム。情報学オリンピック金メダリストや天才プログラマーが集う場所だった。
しかし、Yaoには意外な一面があった。彼は清華大学でラップクラブ「Rap Club」を共同創設し、EminemやMC HotDogを愛聴していた。研究室で論文を書きながら、ヘッドフォンでラップを聴く——この「AI版freestyle」とも言える即興性が、後のReAct研究につながっていく。
| 経歴 | 内容 |
|---|---|
| 出身 | 清華大学「姚班(Yao Class)」(2019年卒業) |
| 特技 | ラップクラブの共同創設者(Eminem、MC HotDog、J. Cole愛聴) |
| 博士号 | Princeton大学(2024年)、指導教官: Karthik Narasimhan |
| 博士論文 | "Language Agents: From Next-Token Prediction to Digital Automation" |
| 受賞 | MIT Technology Review「35 Under 35」最年少選出(27歳) |
Yaoの博士号取得後のキャリアは、AI業界の激動そのものだった。
Princeton大学で博士号を取得した直後、YaoはOpenAIに入社した。当時、OpenAIはChatGPTの成功で世界的な注目を集めており、若き研究者にとって最高峰の舞台だった。
しかし、わずか数ヶ月後、YaoはOpenAIを退職したとの報道が流れた。一時はAnthropicへの移籍が噂されたが、後に否定された。業界内では「Yaoは何か大きなことを準備している」と囁かれた。
そして2025年、驚きのニュースが飛び込んできた。TencentがYaoをChief AI Scientistとして招聘したのだ。
| 項目 | 内容 |
|---|---|
| 役職 | Chief AI Scientist |
| 配属 | CEO/President's Office |
| 担当 | AI Infra部門・LLM部門のトップを兼任 |
| 契約金 | $14M(約21億円) との報道(未確認) |
| 年齢 | 27歳 |
中国のテック業界では、Yaoの参加は**「Tencent AI 2.0時代の幕開け」**と評された。ByteDance(TikTok親会社)やBaiduとのAI競争が激化する中、Tencentは若き天才研究者に未来を託した。
Yaoは、ReActを発表した翌年、Tree of Thoughts(思考の木)(NeurIPS 2023)を発表した。
ReActの「1本道推論」には限界があった。間違った推論ステップを取ると、後戻りできずにエラーが蓄積する。
Tree of Thoughtsは、この問題を「木構造探索」で解決した。AIが複数の推論パスを並列に探索し、最適な解を見つけられるようにしたのだ。
| 手法 | 推論構造 | 特徴 |
|---|---|---|
| Chain-of-Thought | 1本道 | 推論のみ、外部情報なし |
| ReAct | 1本道 | 推論+行動、外部情報あり |
| Tree of Thoughts | 木構造 | 複数パスを探索、最適解を発見 |
27歳にして、自ら発見した技術を自ら進化させ続ける——Yaoは、AI研究界のスーパースターとなった。
Eminemの歌詞に「You only get one shot, do not miss your chance to blow」(チャンスは一度きり、逃すな)というフレーズがある。
Yaoは、そのチャンスを逃さなかった。Princeton研究室で「考えながら動く」というシンプルなアイデアを実装し、それをReActとして世界に示した。
そして、LangChain、AutoGPT、無数のAIエージェントがReActの「設計図」を引き継いだ。AI研究における「freestyle」の精神——即興性、柔軟性、適応性——は、今も生き続けている。
CoT(Chain-of-Thought:段階的思考) は推論のみで、外部ツールは使いません。一方、ReActは推論と行動を組み合わせ、ツールを使って外部情報を取得します。
ReActとCoTの比較はい、可能です。論文自体はMITライセンスで公開されています。実装に使用するLangChain/LangGraphもMITライセンスで商用利用可能です。
Thought-Action-Observationの各ステップをログ出力することで、どこで問題が発生しているか特定できます。LangSmith(LangChainのトレーシングツール) などを併用すると効率的です。
以下の方法があります:
ReActは、LLMに「考えながら行動する」能力を与えた画期的なフレームワークです。
本記事の検証はすべてClaude Codeで実施しました。
こちらの記事も参考にしてください

AIエージェント開発に役立つ9本の論文を厳選し、実装検証結果を交えて解説。論文を読むことで正確な情報、設計思想の理解、限界の把握が可能になる。基礎から応用までの論文を紹介し、効率的な読み方や実践的な活用例も提供。初心者向けや実装重視の読み順も提案されている。

2022年、26歳の研究者Jason WeiがGoogle Brainで発見したChain-of-Thought(CoT)は、AI開発の常識を覆しました。PaLM 540Bでも17.9%だった算数問題の精度が、たった8個の例題追加で58.1%に跳ね上がる——数千億円の計算資源より、プロンプトの工夫が効果的だったのです。Weiはその後Google→OpenAI→Metaを5年で経験し、o1モデルでCoTを「訓練する能力」へ進化させました。スケール戦争からプロンプト戦争へ、AI研究の転換点となった論文です。

AIがPCを操作する新技術「Computer Use」は、スクリーンショットを基にマウスやキーボード操作を行う。成功率はOS環境で14.9%、Webブラウザで32%を達成。主なユースケースにはGUI自動化やレガシーシステムとの連携があり、精度向上や速度改善が期待される。セキュリティリスクや処理速度の制限も考慮する必要がある。