この記事の要約
AIエージェント開発を理解するために参照したい一次文献11本を厳選。Transformer、CoT、ReAct などの基礎論文に加え、Computer Use、Swarm、MCP、A2A といった公式実装・仕様も含めて、設計・評価・運用の観点から読み方を整理します。
AIエージェント開発を深く理解したいなら、二次解説より先に一次文献へ戻るのが近道です。本記事では、古典的な基礎論文に加えて、いま実装判断に直結しやすい公式仕様・公式ドキュメントも含めた11本を整理します。
本記事でいう「一次文献」
AIエージェント分野では、論文だけでなく仕様や公式 docs 自体が実装上の正本になるため、この記事ではそれらも同列に扱います。
| 項目 | 内容 |
|---|---|
| トピック | AIエージェントの一次文献ガイド |
| カテゴリ | 技術解説 |
| 文献数 | 11本(基礎3本・実装4本・評価/標準4本) |
| 想定読者 | エージェントを設計・実装・評価したい人 |
AIエージェント領域は変化が速く、解説記事だけを追うと「その時点の言い切り」に引っ張られがちです。一次文献を押さえる価値は、主に次の3つです。
論文は著者の主張、仕様書は設計者の前提、公式 docs は現行の制約を示します。どこまでが確認済みで、どこからが解説者の解釈かを切り分けやすくなります。
ベータ機能の前提、セキュリティ上の注意、評価ベンチマークの限界などは、一次文献に最も明確に書かれています。導入判断で外せない情報です。
「マルチエージェント」「メモリ」「標準化」といった言葉は広く使われますが、中身は文献ごとに異なります。原典に当たると、どの抽象が本当に有効かを見極めやすくなります。
11本は、単に有名だからではなく、エージェント設計で再利用しやすい観点から選んでいます。
AIエージェント推薦文献の概念図| 基準 | 説明 |
|---|---|
| 原理性 | 現在のエージェント設計でも参照価値がある抽象を示している |
| 実装接続性 | 実際の agent loop、tool use、評価設計に落とし込みやすい |
| 継続性 | 年次の話題性より、数か月後も参照しやすい内容である |
| 追跡可能性 | 著者・仕様策定者・公式実装のいずれかへ一次リンクで遡れる |
AIエージェント文献カテゴリマップ| 項目 | 内容 |
|---|---|
| 種別 | 研究論文 |
| 著者 | Vaswani et al. |
| 発表 | NeurIPS 2017 |
3行で要約
なぜ読むべきか
AIエージェントは LLM の上に構築されるため、モデルの得意不得意を理解しないまま loop 設計だけを議論しても限界があります。Transformer の前提を知っておくと、長コンテキスト設計や retrieval の必要性を説明しやすくなります。
| 項目 | 内容 |
|---|---|
| 種別 | 研究論文 |
| 著者 | Wei et al. |
| 発表 | NeurIPS 2022 |
3行で要約
なぜ読むべきか
この論文は、なぜ task decomposition や中間生成が agent 設計で繰り返し出てくるのかを理解する助けになります。現行製品が内部で何をしているかを断定するためではなく、段階的推論を外部設計へ落とす発想を学ぶために読む価値があります。
| 項目 | 内容 |
|---|---|
| 種別 | 研究論文 |
| 著者 | Yao et al. |
| 発表 | ICLR 2023 |
3行で要約
Thought -> Action -> Observation の基本ループを提示しました。なぜ読むべきか
ReAct は「どのツールを呼ぶか」より前に、「観測結果をどう次の判断へ戻すか」を考えさせてくれます。エージェントの stop 条件、ログ設計、tool result の整形など、運用上の論点を整理する出発点になります。
| 項目 | 内容 |
|---|---|
| 種別 | 公式ドキュメント |
| 提供元 | Anthropic |
| 主題 | GUI 操作、sandbox、agent loop、安全対策 |
3行で要約
なぜ読むべきか
GUI 系エージェントは、理論よりも実装条件の差分で壊れやすい領域です。Anthropic の docs は、安全確認、Docker ベースの reference implementation、スクリーンショット処理、データ保持の前提まで含めて確認できるので、噂ベースの比較より優先して読むべき文書です。
| 項目 | 内容 |
|---|---|
| 種別 | 研究論文 |
| 著者 | Yang, Jimenez, Wettig, Lieret, Yao et al. |
| 発表 | 2024 |
3行で要約
なぜ読むべきか
coding agent を作るときに重要なのは、賢いモデル名よりも、探索・編集・検証の流れをどう道具立てするかです。SWE-Agent は、CLI や IDE を人間向けのまま使わせる限界と、専用インターフェースの利点を具体的に理解させてくれます。
| 項目 | 内容 |
|---|---|
| 種別 | 公式実装 README |
| 提供元 | OpenAI |
| 公開 | 2024 |
3行で要約
Agent と handoff を最小単位にした軽量な multi-agent orchestration の実験実装です。なぜ読むべきか
Swarm を読む価値は、「そのまま採用すること」より「どこまでを軽量抽象で表現できるか」を掴むことにあります。multi-agent を必要以上に複雑化しないための視点を得られます。
| 項目 | 内容 |
|---|---|
| 種別 | 研究論文 |
| 著者 | Hong et al. |
| 発表 | 2023 |
3行で要約
なぜ読むべきか
複数エージェントを導入しても、中間成果物の形式が曖昧だと品質は安定しません。MetaGPT は、役割名を増やすより、どの artifact を誰が作り、誰が消費するかを定義する重要性を示します。
| 項目 | 内容 |
|---|---|
| 種別 | 研究論文 |
| 著者 | Wang et al. |
| 発表 | 2023 |
3行で要約
なぜ読むべきか
「学習するエージェント」を語るとき、単に会話履歴を保存するだけでは足りません。Voyager は、経験をスキル化して再利用する発想を具体的に示しており、長期運用の設計ヒントになります。
| 項目 | 内容 |
|---|---|
| 種別 | 研究論文 |
| 著者 | Xu et al. |
| 発表 | 2025 |
3行で要約
なぜ読むべきか
メモリ機構は便利そうに見えて、書き込み過多や古い記憶の混入で壊れやすい領域です。A-MEM を読むと、メモリは保存量ではなく整理・検索・更新方針の問題だとわかります。
| 項目 | 内容 |
|---|---|
| 種別 | 研究論文 |
| 著者 | Liu et al. |
| 発表 | ICLR 2024 |
3行で要約
なぜ読むべきか
本番の agent で事故が起きるのは、1回答の質よりも、長い手順の途中で判断を誤るときです。AgentBench は、評価設計を single-turn prompt test から scenario test へ広げる必要性を理解させてくれます。
| 項目 | 内容 |
|---|---|
| 種別 | 公式仕様 |
| 提供元 | MCP community / A2A project |
| 主題 | tool 接続、context 共有、agent 間協調 |
3行で要約
なぜ読むべきか
エージェント実装が進むほど、問題はモデル性能より接続境界に移ります。MCP は tool 接続の境界、A2A は agent 間協調の境界を整理するのに有効です。特にベンダー横断で構成するなら、ブログ比較より仕様の語彙を直接読むほうが早いです。
全部を順番に読む必要はありません。目的ごとに読み順を変えた方が早いです。
| 目的 | 推奨読み順 |
|---|---|
| まず agent loop を作りたい | ReAct → Computer Use docs → SWE-Agent |
| coding agent を設計したい | ReAct → SWE-Agent → AgentBench |
| multi-agent を整理したい | Swarm → MetaGPT → A2A |
| tool 接続を標準化したい | ReAct → MCP → A2A |
| 長期運用と memory を考えたい | Voyager → A-MEM → AgentBench |
AIエージェント文献の読み順フロー実務では、次の3点に絞って読むと再利用しやすくなります。
ReAct なら observation loop、SWE-Agent なら ACI、MCP なら host / client / server です。固有名詞ではなく、再利用できる抽象を抜き出します。
Computer Use なら beta header や sandbox、AgentBench なら評価環境の前提です。失敗条件がどこにあるかを先に確認します。
MetaGPT や A-MEM は、最終回答よりも中間 artifact の設計が重要です。multi-agent や memory を使うときほど、この観点が効きます。
AIエージェントを理解するうえで、読むべき一次文献は「論文だけ」ではありません。基礎論文で原理を押さえ、公式 docs や仕様で現在の実装条件を確認し、benchmark で評価の目線を持つ。この3層を揃えると、流行語ではなく設計判断としてエージェントを扱えるようになります。
AIエージェント選択の階層図読めます。Abstract、Conclusion、図、表だけでも十分に価値があります。仕様書は論文より短く、制約条件が箇条書きで書かれていることも多いです。
必要ありません。まずは基礎1本、実装1本、評価/標準1本の計3本で十分です。必要に応じて周辺文献へ広げてください。
LLM の癖を理解したいなら Attention Is All You Need、agent loop を理解したいなら ReAct、すぐ実装したいなら SWE-Agent か Computer Use docs がおすすめです。
論文の結論をそのまま再現しようとせず、loop、memory、handoff、evaluation のどの論点に効く文献なのかを先に決めると読みやすくなります。
論文は arXiv、仕様は各プロジェクトの specification / GitHub、実装の変化は公式 docs と release notes を追うのが最短です。特にベータ機能や標準仕様は、数か月で前提が変わることがあります。
本記事は 2026-04-15 時点の一次情報で全文見直し済みです。
この記事の著者

代表取締役
早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。
次に読む

Y Combinator の対談で語られたBCIの考え方を、用途分類、脳の学習、感覚回復の設計、長期研究の読み方という4つの観点で整理します。

Sequoiaの「Services: The New Software」を、個別スタートアップの資金調達や市場規模の実況ではなく、AI企業がツールを売るのか、仕事の成果を売るのかを決めるための事業設計フレームとして読み直します。

a16zの週刊チャートが示す3つの構造転換を徹底解説。ホルムズ海峡危機で原油45%急騰、SaaS株1兆ドル消失の「SaaSpocalypse」、ライドシェア手数料33%増の搾取構造。日本市場への影響と対策を独自分析。