AI、データ活用、業務改善に関する最新情報やNexaflowの取り組みをお届けします

AIサマリー
Goldman Sachs導入、PRマージ率67%、評価額$10.2B。競技プログラマーScott Wuが率いるCognition Labsの自律型AIエンジニアDevinの技術・実績・限界を徹底解説。
Goldman Sachsが「最初の従業員」として導入し、PRマージ率67%を記録する自律型AIエンジニアDevin。競技プログラマー出身のScott Wuが率いるCognition Labsは、わずか18ヶ月で評価額$10.2Bに到達しました。
| 項目 | 内容 |
|---|---|
| 企業名 | Cognition Labs |
| 創業者 | Scott Wu(IOI 3年連続金メダリスト) |
| 設立年 | 2023年 |
| 評価額 | $10.2B(2025年9月) |
| 主要顧客 | Goldman Sachs、Citi、Santander、Nubank、Dell |
概念図Devinは、計画→実装→テスト→デプロイの全プロセスを自律的に実行する「完全自律型AIソフトウェアエンジニア」です。GitHub CopilotやCursorが「補完」や「対話型支援」に留まるのに対し、Devinはタスク全体を人間の介入なしで完了します。
AI IDEとの違い:
| 特徴 | Devin(自律型) | Cursor / Copilot(補完型) |
|---|---|---|
| 動作範囲 | タスク全体 | 現在のファイル |
| 実行環境 | 独自サンドボックス | IDE内 |
| 人間の役割 | タスクを委任し、監督する | 常にコードを書く |
| 応答時間 | 12-15分 | 数秒 |
エンタープライズ企業では、以下のタスクが開発チームを圧迫していました:
これらは「ジュニアエンジニアが4-8時間で完了する定型タスク」ですが、人的リソース不足で滞留していました。
Scott Wuは1997年、ルイジアナ州の中国系移民家庭に生まれました。9歳でプログラミングを始め、「アイデアを現実に変える能力」に魅了されました。
"I first learned to program when I was nine years old and fell in love with the ability to turn my ideas into reality."
「9歳でプログラミングを学び、アイデアを現実に変える能力に魅了されました」
— Scott Wu
Scott Wuの競技プログラミング実績は驚異的です:
| 年 | 大会 | 結果 |
|---|---|---|
| 2012年 | IOI(国際情報オリンピック) | 金メダル |
| 2013年 | IOI | 金メダル |
| 2014年 | IOI | 金メダル(満点600点、総合1位) |
| 2016年 | ICPC | 金メダル(総合3位) |
| 2021年 | Google Code Jam | 3位 |
競技プログラミング的思考:
"A lot of my kind of framing has always been rooted in terms of math... even when we're going and doing a sale or something or when we're figuring out product strategy, like in my head it all actually maps to just doing math questions."
「私の思考の枠組みは常に数学に根ざしています...セールスや製品戦略を考えるときでさえ、頭の中では数学の問題を解くようにマッピングしています」
— Scott Wu
この「すべてを数学の問題として捉える」思考が、Devinの設計思想に反映されています。
ハーバード大学経済学部在学中の2017年、Scott WuはAI技術を活用したプロフェッショナル向けネットワーキングプラットフォーム「Lunchclub」をCTOとして共同創業しました。
成果:
Lunchclub退職後、Scott Wuは「何年も頭の中で考えてきたゲーム」をAIで実現するチャンスを見出しました。
"It's almost like this game that we've all been playing in our minds for years, and now there's this chance to code it into an AI system."
「まるで何年も頭の中でプレイしてきたゲームを、今AIシステムにコード化するチャンスが訪れたようなものです」
— Scott Wu
兄のNeal Wu(同じくIOI金メダリスト、Google Code Jam 2位)もCognitionに参加し、「Human Engineer」として開発に携わっています。
Devinは、OpenAI GPT-4スケールのモデルをベースに、以下の技術を組み合わせています:
Devinのアーキテクチャは、以下の3層構造で構成されています:
Devinは以下のツールを統合したサンドボックス環境で動作します:
| ツール | 機能 |
|---|---|
| Code Editor | コード生成に特化したファインチューニングされたLLMを使用 |
| Shell | プロジェクト作成、ライブラリインストール、テスト実行 |
| Web Browser | 未知の技術の学習、ドキュメント参照、問題解決方法の検索 |
| Planner | タスクを分解し、自然言語の指示を連続的なステップに変換する |
Devinの自律性の核心は、このループにあります:
このループにより、Devinは人間の介入なしで自己修正しながらタスクを進めます。
技術アーキテクチャDevinは、セキュアなサンドボックス環境で動作し、以下の2つのチェックポイントで人間の承認を求めます:
これにより、本番環境への影響を最小限に抑えます。
基本的なマルチエージェント:
MultiDevin(エンタープライズ向け):
2025年4月にリリースされたDevin 2.0では、以下の機能が追加されました:
Cognitionは2025年のパフォーマンスレビューで、PRマージ率67%を公表しました。これは昨年の34%から約2倍の改善です。ただし、タスクの種類によって大きく異なる点に注意が必要です。
Devinが最も高いパフォーマンスを発揮するのは、以下の条件を満たすタスクです:
PRマージ率67%の内訳Goldman Sachsは、Devinを「Employee #1」(最初の従業員)として導入し、数百のインスタンスを展開しています。
導入規模:
効果:
CIO Marco Argentiのビジョン:
"It's really about people and AIs working side by side. Engineers are going to be expected to have the ability to really describe problems in a coherent way and turn it into prompts... and then be able to supervise the work of those agents."
「人間とAIが協力して働くこと。エンジニアは問題を一貫した方法で説明し、プロンプトに変え、エージェントの作業を監督する能力が求められます」
— Marco Argenti, Goldman Sachs CIO
セキュリティ修正では、特に劇的な効果が報告されています:
| 指標 | 人間開発者 | Devin | 効率向上 |
|---|---|---|---|
| 修正時間 | 30分/脆弱性 | 1.5分/脆弱性 | 20倍 |
| 開発者時間節約 | - | 5-10% | - |
セキュリティ修正時間の比較Devinは18ヶ月の運用で、以下の改善を達成しています:
| 指標 | 昨年 | 今年 | 改善率 |
|---|---|---|---|
| 問題解決速度 | - | - | 4倍 |
| リソース消費効率 | - | - | 2倍 |
| PRマージ率 | 34% | 67% | 約2倍 |
Cognitionは、Devinのスキルを以下のように評価しています:
| スキル | レベル |
|---|---|
| コードベース理解 | シニアレベル |
| 実行能力 | ジュニアレベル |
| キャパシティ | 無制限(24時間稼働、並列実行可能) |
| ソフトスキル | 苦手(ステークホルダー管理、メンタリング不可) |
AIリサーチ企業Answer.AIは、2025年1月に1ヶ月間のDevin使用経験を公開しました。3人のデータサイエンティストが20の実世界コーディング課題でテストした結果は以下の通りです:
| 結果 | タスク数 |
|---|---|
| 成功 | 3 |
| 失敗 | 14 |
| 結論なし | 3 |
1. 予測不可能なパフォーマンス
"More concerning was our inability to predict which tasks would succeed. Even tasks similar to our early wins would fail in complex, time-consuming ways."
「より懸念されるのは、どのタスクが成功するか予測できないことでした。初期の成功と似たタスクでさえ、複雑で時間のかかる方法で失敗しました」
— Answer.AI
2. 制御の欠如
3. 内部ツールとの統合の難しさ
4. ハルシネーション問題
5. ジュニア開発者レベルの扱いが必要
Answer.AIは、Cognitionのプロモーション動画について以下のように批判しています:
"Cognition overpromises with Devin, refuses to touch upon critical limitations of the systems, and relies on demos that feel very bait and switch-y."
「Cognitionはプロモーションで過剰な約束をし、システムの重要な限界に触れず、チェリーピッキングされたデモに依存している」
— Answer.AI
プロモーション動画では:
Answer.AIは、Devinを「ジュニアエンジニアとして扱う」ことを推奨しています:
正しく活用すれば、定型タスクの自動化で大きな効果を発揮します。
Windsurfは、2021年にMITの友人Varun MohanとDouglas Chenが「Exafunction」として設立したAIコーディングプラットフォームです。その後「Codeium」を経て、2024年4月に「Windsurf」へリブランドしました。
2025年5月、BloombergがOpenAIが$3Bで買収に合意したと報道しました。しかし、Microsoftとの関係上、WindsurfのIPへのアクセスが問題となり、オファー期限切れ後に頓挫しました。
OpenAI取引失敗の数時間後、Googleが$2.4Bの「逆アクイハイヤー」を発表:
250人の従業員の大部分は残留し、これは従来の買収規制審査を回避する戦略的マヌーバーでした。
Google取引が公開された直後の週末に成立した、驚異的なスピードの買収でした。
Cognition社長Russell Kaplan:
"金曜日の午後5時以降に最初の電話、月曜日の朝に合意に署名"
| 項目 | 内容 |
|---|---|
| 買収額 | 推定$250M(非公開) |
| ARR | $82M(四半期ごとに倍増) |
| 顧客 | 350以上のエンタープライズ顧客 |
| ユーザー | 数十万人のデイリーアクティブユーザー |
| IP | Windsurf IDE、製品、商標、ブランド |
ただし、買収後3週間で約30人の元Windsurf従業員を解雇、約200人にバイアウトを提示(Cognitionの主な関心は技術と顧客契約にあった可能性)
Windsurf買収タイムラインCognitionは、DevinをWindsurf IDEに直接統合することで、開発体験を革新しました:
これにより、「ツールを切り替える」ことなく、自律型エージェントと対話型IDEのメリットを両立できます。
買収後、Cognitionは急成長を遂げました:
| 指標 | 成果 |
|---|---|
| 資金調達 | $400M(買収後2ヶ月) |
| 評価額 | $10.2B |
| ARR | 2倍以上に増加 |
| エンタープライズARR | 買収後30%以上増加 |
| 顧客重複 | 買収前5%未満(顧客基盤が拡大) |
| 観点 | Devin | Cursor |
|---|---|---|
| 哲学 | 完全自律型開発 | 強化されたインタラクティブ支援 |
| 統合方式 | GitHub/Slack経由 | IDE内蔵(VS Code互換) |
| 操作感 | 「人と働いている」感覚 | 「ツールを使っている」感覚 |
| 自律性 | タスク全体を自律的に完了 | リアルタイムのインライン提案 |
| 応答時間 | 12-15分の間隔 | 数秒 |
| 価格 | $500/月〜 | $20/月〜 |
| 開発者コントロール | 低(委任型) | 高(対話型) |
| コード品質 | 不要なパッケージを含む傾向 | クリーンでフォーカスされた傾向 |
| 観点 | Devin | GitHub Copilot |
|---|---|---|
| アプローチ | 自律型AIソフトウェアエンジニア | リアルタイムIDE内支援 |
| 動作環境 | 独自のサンドボックス環境 | IDE内(VS Code, IntelliJ等) |
| タスク範囲 | 計画→コード→テスト→デプロイ | 即時のインライン補完 |
| デバッグ | コード実行→エラー確認→検索→修正→再実行 | コンテキストベースの提案 |
| 価格 | $500/月(約60時間) | $10/月/ユーザー |
| 最適な用途 | 自己完結型の機能開発 | タイピング速度とフローの向上 |
Goldman Sachsの事例では、GitHub Copilotの20%効率向上に対し、Devinは3-4倍の生産性向上を報告しています。
| 観点 | Devin | Amazon Q Developer |
|---|---|---|
| フォーカス | 汎用ソフトウェアエンジニアリング | AWSネイティブ開発 |
| 最適なチーム | 自律的コーディングタスク | クラウドファーストAWSチーム |
| 強み | エンドツーエンドの自動化 | AWSサービスとの直接統合 |
| 価格 | $2.25/ACU または $500/月 | 無料枠あり + 有料プラン |
| SWE-Bench | 13.86% | 最高スコア |
| 観点 | Devin | Salesforce Agentforce |
|---|---|---|
| フォーカス | ソフトウェア開発 | Salesforce/CRMエコシステム |
| 最適なユーザー | 開発者 | Salesforce開発者/管理者 |
| アーキテクチャ | LLM + 強化学習 | Atlas Reasoning Engine |
| 統合 | GitHub, GitLab, Slack等 | Data Cloud, MuleSoft |
"Salesforce Agentforceが本質的にSalesforce全般のマルチツールであるのに対し、Devinはソフトウェア開発のためのネイルガンです。"
| ラウンド | 時期 | 金額 | 主要投資家 | 評価額 |
|---|---|---|---|---|
| Series A | 2024年3月 | $21M | Founders Fund(Peter Thiel) | - |
| Series B | 2024年夏 | 非公開 | - | $2B |
| Series C | 2025年9月 | $400M | Founders Fund, Lux Capital, 8VC, Neo, Bain Capital Ventures, D1 Capital | $10.2B |
Cognitionは、わずか10ヶ月でARR 73倍成長を達成しました:
| 時期 | ARR | 備考 |
|---|---|---|
| 2024年9月 | $1M | - |
| 2025年6月 | $73M | Windsurf買収前 |
| 2025年7月 | $155M | Windsurf買収後(Sacra推計) |
ARR成長曲線Cognitionは、以下の点で「効率的な成長」を実現しています:
マルチエージェントオーケストレーション:
Goldman Sachs CIO Marco Argentiは、以下のビジョンを提示しています:
"It's really about people and AIs working side by side. Engineers are going to be expected to have the ability to really describe problems in a coherent way and turn it into prompts... and then be able to supervise the work of those agents."
「人間とAIが協力して働くこと。エンジニアは問題を一貫した方法で説明し、プロンプトに変え、エージェントの作業を監督する能力が求められます」
— Marco Argenti, Goldman Sachs CIO
エンジニアの役割は、「コードを書く」から「タスクを定義し、AIの作業を監督する」へシフトしていく可能性があります。
日本企業がDevinを導入する際の考慮点:
Devinはエンタープライズ向けで、料金は非公開(カスタム見積もり)です。個人向けプランは現在未提供で、月額$500/月〜が目安と推定されています。
個人開発者がエージェント的機能を使いたい場合は、Replit AgentやLovableがおすすめです。
Devinは「完全自律型」でタスク全体(計画→実装→テスト→デプロイ)を完了します。Cursorは「インタラクティブ支援」で開発者と対話しながらコード生成します。
用途別の使い分け:
価格も大きく異なります(Devin $500/月〜、Cursor $20/月〜)。
PRマージ率67%は2025年のCognition公式発表の数値です。ただし、タスクの種類によって大きく異なります。
得意なタスク(マージ率高):
苦手なタスク(マージ率低):
Answer.AIの独立テストでは20タスク中3成功、14失敗という結果も出ており、「ジュニアエンジニアレベルの扱いが必要」と評価されています。
Scott Wuは1997年生まれの競技プログラマー出身の起業家です。
主な経歴:
Devin開発の動機:
"まるで何年も頭の中でプレイしてきたゲームを、今AIシステムにコード化するチャンスが訪れたようなもの"
競技プログラミングで培った「すべてを数学の問題として捉える」思考を、AI開発に応用しています。
2025年7月、GoogleがWindsurf CEOを$2.4Bで引き抜いた直後、Cognitionが週末に買収交渉を成立させました。
タイムライン:
成立の理由:
Goldman Sachsは数百のDevinインスタンスを導入し、「Employee #1」(最初の従業員)として扱っています。
導入の背景:
CIO Marco Argentiのビジョン:
"人間とAIが協力して働くこと。エンジニアは問題を一貫した方法で説明し、プロンプトに変え、エージェントの作業を監督する能力が求められます"
「ハイブリッドワークフォース」として、人間とAIの役割分担を明確化しています。
Devinは強化学習(RL) を活用した「Reason → Act → Observe → Correct ループ」で自律性を実現しています。
技術的な強み:
GitHub Copilotは「補完」、Cursorは「対話型支援」ですが、Devinは「タスク全体を自律的に完了」する点で差別化されています。
Answer.AIの独立テストでは、20タスク中14タスクで失敗しました。
主な限界:
正しい活用方法:
「シニアエンジニアの代替」ではなく、「ジュニアエンジニアレベルの自律的な作業者」として扱うべきです。
評価額$10.2B、ARR $150M+で、評価額/ARR倍率は約68倍です。
成長性の根拠:
比較:
市場全体が$80B規模に成長する中、Devinの「完全自律型」というポジションは独自性があり、今後の成長が期待されています。
エンタープライズ向けで、以下の条件に当てはまる場合は導入を検討する価値があります。
導入を検討すべき企業:
注意点:
代替案: 個人開発者やスタートアップには、Cursor($20/月〜)やLovable(非エンジニア向け)が現実的です。
競技プログラマー出身のCEO Scott Wu: IOI 3年連続金メダル、満点総合1位。「すべてを数学の問題として捉える」思考でDevinを開発
完全自律型AIエンジニア: Reason → Act → Observe → Correctループで、計画→実装→テスト→デプロイを自律的に完了
PRマージ率67%の実績: ただし、得意なタスク(ドキュメント、QE、小規模反復)と苦手なタスク(曖昧なスコープ、要件変更)で大きく差
エンタープライズ導入加速: Goldman Sachs(3-4倍効率向上)、Gumroad(1,583 PRマージ)、Nubank(8倍効率改善)
批判的評価も存在: Answer.AIテストで20タスク中14失敗。「ジュニアエンジニアレベルの扱いが必要」
Windsurf買収で統合プラットフォーム化: 72時間で$250M買収成立、IDE + エージェントの融合
評価額$10.2B、ARR $150M+: 9ヶ月でARR 73倍成長。Cursorに次ぐ業界2位のユニコーン
本記事はネクサフローのAI研究シリーズの一部です。
こちらの記事も参考にしてください

2025年、AIコーディング市場は急成長中。評価額$29BのCursorから自律型エージェントDevinまで、注目スタートアップ5社のプロダクト・創業者・資金調達を徹底解説。

Chain-of-Thought(CoT)は、AIに考えるプロセスを与えることで推論能力を大幅に向上させる手法で、従来の方法では複雑な問題で失敗していたLLMが、ステップバイステップで考えることで精度を大きく改善。GSM8Kでの精度が17.9%から58.1%に向上し、MultiArithでは17.7%から93.0%に達した。CoTは特に100B以上のモデルで効果が顕著であり、ReActなどの後続手法の基盤ともなっている。