Nexaflow
サービス導入事例ブログ勉強会会社情報
資料請求お問い合わせ

Nexaflow

社会を支える人々と伴に、
未来の希望を創る

サービス

  • プライシング戦略支援
  • Nexalog
  • AIトランスフォーメーション

会社情報

  • 会社概要
  • ミッション
  • メンバー

リソース

  • ブログ
  • 導入事例
  • お知らせ
  • 資料ダウンロード

© 2026 Nexaflow Inc. All rights reserved.

利用規約プライバシーポリシー

ブログ

AI、データ活用、業務改善に関する最新情報やNexaflowの取り組みをお届けします

ホーム/スタートアップ分析/Devin AIとは?月額$20〜の料金・使い方・Cursor比較を解説【2026年版】

Devin AIとは?月額$20〜の料金・使い方・Cursor比較を解説【2026年版】

72分で読める|2026/02/05|
AIエンジニアDevinコーディングAI開発ツール

AIサマリー

Devin(デビン)とは、Cognition Labs開発の自律型AIソフトウェアエンジニア。月額$20から利用可能。Goldman Sachsが12,000人のチームに導入。本記事では、Devinの使い方(Session/Slackbot/API)、料金プラン、Cursorとの違いを解説。

目次

  • この記事でわかること
  • 基本情報
  • Devinとは?自律型AIソフトウェアエンジニアの全貌
  • Devinの基本コンセプト
  • 誰が、何に困っていたのか
  • Devinが解決する3つの課題
  • 料金プラン(2025年4月更新)
  • Devinの使い方:3つの利用方法
  • Scott Wu:天才プログラマーの頭の中
  • 9歳の少年が見つけた「魔法」
  • 14歳で世界1位——「すべては数学の問題」
  • Lunchclubでの「予行演習」
  • 「何年も頭の中でプレイしてきたゲーム」
  • Devinの技術アーキテクチャ
  • コアとなるLLM基盤
  • 3つの基本コンポーネント
  • 開発者ツールキット
  • Reason → Act → Observe → Correct ループ
  • サンドボックス環境と人間承認
  • マルチエージェント機能
  • Devin 2.0(2025年4月)の新機能
  • SWE-1.5:Cognition独自の高速コーディングモデル(2025年10月)
  • Windsurf Codemaps(2025年11月)
  • 実際の性能と導入効果
  • PRマージ率67%の内訳
  • エンタープライズ導入事例
  • パフォーマンス改善の推移
  • Devinのスキルプロファイル
  • 批判的評価と限界
  • 期待と現実——Answer.AIの1ヶ月
  • 20タスク中、成功はわずか3つ
  • 「どのタスクが成功するか、予測できない」
  • 「存在しない機能」を1日かけて探し続ける
  • Cognitionへの辛辣な批判
  • それでもDevinを使う意味はあるのか?
  • Windsurf買収と統合戦略
  • 三つ巴の争奪戦
  • 統合戦略:IDE + エージェントの融合
  • 財務的成果
  • 競合との差別化
  • Devin vs Cursor 徹底比較
  • Devin vs GitHub Copilot
  • Devin vs Amazon Q Developer
  • Devin vs Salesforce Agentforce
  • Devinの4つの差別化ポイント
  • 資金調達と評価額推移
  • ラウンド別の詳細
  • ARRの急成長
  • 効率的な成長
  • 今後のロードマップと展望
  • 短期目標(2025年末)
  • 予想される開発
  • ハイブリッドワークフォースのビジョン
  • 日本市場への示唆
  • よくある質問(FAQ)
  • まとめ:Devinは「本物」なのか?
  • Devinの本質
  • 主要ポイント
  • 次のステップ
  • 関連記事
  • 参考リソース
  • Cognition Labs公式
  • テックメディア報道
  • 独立評価
  • Scott Wu関連

次に読む

【2025年版】AIコーディング革命:Cursor・Devin等5社を徹底解説

【2025年版】AIコーディング革命:Cursor・Devin等5社を徹底解説

Devin(デビン)とは、Cognition Labsが開発した「自律型AIソフトウェアエンジニア」です。 Slackでタスクを受け取り、計画→コード実装→テスト→プルリクエスト作成までを人間の介入なしで完了します。月額$20から利用可能で、Goldman Sachsが12,000人のエンジニアチームに「Employee #1」として導入したことで注目を集めています。


2024年3月、1本のデモ動画がソフトウェア業界を震撼させました。

AIがSlackでタスクを受け取り、自分でコードを書き、テストし、プルリクエストを作成する。人間の介入は一切なし。

「フェイクだ」「チェリーピッキングされたデモだ」——批判が殺到しました。

しかし1年後、Goldman Sachsはこの「AI」を12,000人のエンジニアチームに加え、「Employee #1(最初の従業員)」 と呼び始めます。評価額は$10.2B(約1.5兆円)に到達。

本記事は、その「Devin」と、それを作った天才プログラマーの物語です。

本記事の表記について

  • 金額の日本円換算は1ドル=150円で計算しています
  • 下線付きの用語にカーソルを合わせると解説が表示されます

この記事でわかること

  1. Scott Wuの思想と技術: IOI(国際情報オリンピック) 3年連続金メダル、満点総合1位の天才プログラマーがDevinに込めたビジョン
  2. 技術アーキテクチャの全貌: 強化学習と「Reason → Act → Observe → Correct」ループの仕組み
  3. 実績と限界の両面: PRマージ率67%の内訳とAnswer.AIによる批判的評価

基本情報

項目内容
企業名Cognition Labs
創業者Scott Wu(IOI 3年連続金メダリスト)
設立年2023年
評価額$10.2B(約1.5兆円、2025年9月)
ARR$155M(約233億円、2025年7月・Windsurf買収後)
主要顧客Goldman Sachs、Citi、Dell、Cisco、Ramp、Palantir、Nubank、Mercado Libre
概念図概念図

Devinとは?自律型AIソフトウェアエンジニアの全貌

Devinの基本コンセプト

Devinは、計画→実装→テスト→デプロイの全プロセスを自律的に実行する「完全自律型AIソフトウェアエンジニア」です。

GitHub CopilotやCursorが「補完」や「対話型支援」に留まるのに対し、Devinはタスク全体を人間の介入なしで完了します。

AI IDEとの違い:

特徴Devin(自律型)Cursor / Copilot(補完型)
動作範囲タスク全体現在のファイル
実行環境独自サンドボックスIDE内
人間の役割タスクを委任し、監督する常にコードを書く
応答時間12-15分数秒

誰が、何に困っていたのか

エンタープライズ企業では、以下のタスクが開発チームを圧迫していました:

  • セキュリティ修正: 脆弱性対応に月100時間以上
  • ドキュメンテーション: 40万以上のリポジトリにわたる記述更新
  • コードマイグレーション: レガシーシステム(SAS、COBOL)の移行
  • テスト作成: カバレッジ向上のための反復作業

これらは「ジュニアエンジニアが4-8時間で完了する定型タスク」ですが、人的リソース不足で滞留していました。

Devinが解決する3つの課題

  1. 人的リソース不足: 12,000人のエンジニアチームでも追いつかないタスクをDevinが処理
  2. 24時間稼働の必要性: 人間の勤務時間外でもDevinは動作し続ける
  3. スケーラビリティ: 複数のDevinインスタンスを並列で起動可能

料金プラン(2025年4月更新)

Devin 2.0のリリースにより、料金体系が大幅に刷新されました。当初の月額$500から96%値下げされ、$20から利用可能になりました。

プラン月額ACU特徴
Core$20〜(約3,000円〜)従量課金個人開発者向け、1ACU=$2.25
Team$500(約75,000円)250 ACU含むチーム向け、1ACU=$2.00、API連携可能
EnterpriseカスタムカスタムVPCデプロイメント、SSO、カスタムDevin対応

ACU(Agent Compute Unit) は、Devinが行う作業を測定する独自の単位です。仮想マシン時間、モデル推論、ネットワーク帯域などの計算リソースを正規化して計測します。

ACUが消費されるケース:

  • タスク実行時(計画立案、コード実行など)
  • ブラウザ操作時
  • コンテキスト収集時

ACUが消費されないケース:

  • ユーザーの応答待ち時
  • テスト実行待ち時
  • リポジトリのセットアップとクローン時
  • アイドル時(自動的にスリープモードになる)

Devinの使い方:3つの利用方法

Devinは以下の3つの方法で利用できます。用途に応じて使い分けることで、開発効率を最大化できます。

1. Session(Webインターフェース)

最も基本的な利用方法です。devin.aiにログインし、チャット形式でタスクを依頼します。

使い方:

  1. devin.aiにログイン
  2. 新しいSessionを開始
  3. 自然言語でタスクを記述(例:「このリポジトリのREADMEを更新して」)
  4. Devinが計画を提示 → 承認後、実行開始
  5. 完了後、PRを確認・マージ

向いているケース: 初めてDevinを試す場合、単発のタスク依頼

2. Slackbot連携

チームでの利用に最適な方法です。SlackチャンネルでDevinをメンションするだけでタスクを依頼できます。

使い方:

  1. DevinアプリをSlackワークスペースにインストール
  2. チャンネルで @Devin このバグを修正して [GitHub Issue URL] とメンション
  3. Devinがスレッドで進捗を報告
  4. PR完成時に通知を受け取り、レビュー・マージ

向いているケース: チーム開発、非同期でのタスク依頼、進捗の可視化

3. API連携

CI/CDパイプラインや自社ツールとの統合に使用します。Teamプラン以上で利用可能。

使い方:

curl -X POST https://api.devin.ai/v1/sessions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"task": "Fix security vulnerability in auth module", "repo": "org/repo"}'

向いているケース: 自動化されたワークフロー、セキュリティ修正の自動実行、大量タスクの一括処理

利用方法対象ユーザープラン特徴
Session個人開発者Core〜すぐに試せる、UI操作
SlackbotチームTeam〜非同期、進捗可視化
APIエンタープライズTeam〜自動化、CI/CD統合

ここまでがDevinの概要です。しかし、なぜこのような「自律型AI」が生まれたのか? その答えは、創業者Scott Wuの異常な経歴にあります。


Scott Wu:天才プログラマーの頭の中

9歳の少年が見つけた「魔法」

1997年、ルイジアナ州。中国系移民の家庭に、一人の少年が生まれました。

Scott Wuがプログラミングに出会ったのは9歳のとき。彼はそこに「魔法」を見ました。

“

"I first learned to program when I was nine years old and fell in love with the ability to turn my ideas into reality."

「9歳でプログラミングを学び、アイデアを現実に変える能力に魅了されました」

— Scott Wu

頭の中にあるものが、コードを書くだけで動き出す。この体験が、後のDevinに繋がる原点でした。

14歳で世界1位——「すべては数学の問題」

Scott Wuの才能は、競技プログラミングで開花します。

IOI(国際情報オリンピック) は、世界中の高校生プログラマーが競う最高峰の大会。Scott Wuはここで3年連続金メダルを獲得しました。

年大会結果
2012年IOI金メダル(15歳)
2013年IOI金メダル(16歳)
2014年IOI金メダル・満点600点・総合1位(17歳)

2014年は満点で総合1位。世界中の天才プログラマーの頂点に立ちました。

その後もICPC(国際大学対抗プログラミングコンテスト)で金メダル、Google Code Jamで3位と、彼の才能は衰えることを知りません。

そして、この経験がScott Wuの思考を形作りました。

“

"A lot of my kind of framing has always been rooted in terms of math... even when we're going and doing a sale or something or when we're figuring out product strategy, like in my head it all actually maps to just doing math questions."

「私の思考の枠組みは常に数学に根ざしています。セールスや製品戦略を考えるときでさえ、頭の中では数学の問題を解くようにマッピングしています」

— Scott Wu

すべてを数学の問題として捉える——この思考が、Devinの「Reason → Act → Observe → Correct」ループの設計に直結しています。

Lunchclubでの「予行演習」

ハーバード大学在学中の2017年、Scott WuはAIマッチングアプリ「Lunchclub」を共同創業します。

$55.9M(約84億円)を調達し、Forbes 30 Under 30に選出。成功でした。

しかし彼の頭の中には、もっと大きな「ゲーム」がありました。

「何年も頭の中でプレイしてきたゲーム」

Lunchclub退職後、Scott Wuはある確信を持ちました。

“

"It's almost like this game that we've all been playing in our minds for years, and now there's this chance to code it into an AI system."

「まるで何年も頭の中でプレイしてきたゲームを、今AIシステムにコード化するチャンスが訪れたようなものです」

— Scott Wu

競技プログラミングで培った「問題を分解し、最適解を見つける」能力。それをAIに教え込めば、AIがプログラミングできるようになるのではないか?

Cognition Labsは、この仮説を検証するために生まれました。

兄のNeal Wu(同じくIOI金メダリスト、Google Code Jam 2位)も参加。「金メダリスト兄弟」が、AIエンジニアの開発に挑みます。

競技プログラミングで培った「すべてを数学の問題として捉える」思考。これがDevinの設計思想に、どう反映されているのでしょうか?


Devinの技術アーキテクチャ

コアとなるLLM基盤

Devinは、OpenAI GPT-4スケールのモデルをベースに、以下の技術を組み合わせています:

  • 強化学習(RL: Reinforcement Learning): 試行錯誤を通じて最適なアプローチを学習
  • コーディングと自然言語のデータセット: 事前学習で幅広いタスクに対応
  • 逐次的意思決定アプローチ: コード→コンパイル→テスト→エラーチェックのサイクル

3つの基本コンポーネント

Devinのアーキテクチャは、以下の3層構造で構成されています:

  1. Perception(知覚): テキスト入力、音声認識、画像・動画処理など外部環境から情報を収集
  2. Brain(脳): 意思決定と計画を担当。タスクを分解し、開発パス全体をマッピング
  3. Action(行動): 実際の操作を実行(コードエディタ、シェル、ウェブブラウザ)

開発者ツールキット

Devinは以下のツールを統合したサンドボックス環境で動作します:

ツール機能
Code Editorコード生成に特化したファインチューニングされたLLMを使用
Shellプロジェクト作成、ライブラリインストール、テスト実行
Web Browser未知の技術の学習、ドキュメント参照、問題解決方法の検索
Plannerタスクを分解し、自然言語の指示を連続的なステップに変換する

Reason → Act → Observe → Correct ループ

Devinの自律性の核心は、このループにあります:

  1. Reason(推論): 目標、計画、コンテキストに基づいて次のアクションを決定
  2. Act(行動): コードを書く、コマンドを実行、ファイルを修正
  3. Observe(観察): ログ、エラーメッセージ、テスト結果を監視
  4. Correct(修正): エラーが発生した場合、自動的にアプローチを調整

このループにより、Devinは人間の介入なしで自己修正しながらタスクを進めます。

技術アーキテクチャ技術アーキテクチャ

サンドボックス環境と人間承認

Devinは、セキュアなサンドボックス環境で動作し、以下の2つのチェックポイントで人間の承認を求めます:

  1. Planning Checkpoint(計画チェックポイント): タスク分解後、実行前に承認を取得
  2. PR Checkpoint(プルリクエストチェックポイント): コード完成後、マージ前に承認を取得

これにより、本番環境への影響を最小限に抑えます。

マルチエージェント機能

基本的なマルチエージェント:

  • 1つのAIエージェントが他のAIエージェントにタスクを割り当て
  • 自己評価による信頼度評価機能

MultiDevin(エンタープライズ向け):

  • 1つの「マネージャー」Devinが最大10の「ワーカー」Devinを調整
  • 各ワーカーDevinは小さく分離されたサブタスクを並列で実行
  • 成功した出力は自動的に単一のコードベースにマージ

Devin 2.0(2025年4月)の新機能

2025年4月にリリースされたDevin 2.0では、以下の機能が追加されました:

  • 複数の並列Devinインスタンス: クラウドベースの開発環境で同時起動可能
  • Interactive Planning: ユーザーがタスク計画を編集・承認可能
  • Devin Search: コードベースに直接クエリを投げ、引用付きの回答を取得
  • Devin Wiki: 数時間ごとにリポジトリを自動インデックス化し、アーキテクチャ図付きの詳細なWikiを生成

SWE-1.5:Cognition独自の高速コーディングモデル(2025年10月)

2025年10月、CognitionはSWE-1.5をリリースしました。数百億パラメータのフロンティアサイズモデルで、速度と性能の両立を実現しています。

指標SWE-1.5Claude Sonnet 4.5比較
推論速度950 tok/s69 tok/s13.7倍高速
SWE-Bench Pro40.08%43.60%同等レベル
インフラ提携Cerebras--

技術的な特徴:

  • Cerebrasとの提携: Wafer Scale Engineチップ(900,000 AIコア)で推論を高速化
  • GB200 NVL72での訓練: NVIDIA最新世代ハードウェアでのRL訓練
  • SWE-grep / SWE-grep-mini: 並列コード検索に特化したサブエージェント。従来のエージェントは最初のターンの60%以上をコンテキスト取得に費やしていたが、これを大幅に短縮

SWE-1.5はWindsurf IDEで利用可能です。

Windsurf Codemaps(2025年11月)

Windsurf買収後、CognitionはWindsurf Codemapsをリリースしました。SWE-1.5とClaude Sonnet 4.5を活用したAI注釈付きのコードベース構造マップです。

  • 視覚的なノードグラフ: コードベース全体の構造を視覚化
  • 正確な行番号への参照: ナビゲーションを特定の行に直接リンク
  • オンボーディング高速化: 新規メンバーのコードベース理解を支援
  • デバッグ効率化: 問題箇所の特定を迅速化

技術的には申し分ない。では、実際に使うとどうなるのか? Goldman Sachsが「3-4倍の生産性向上」と言っているのは本当なのでしょうか。


実際の性能と導入効果

PRマージ率67%の内訳

Cognitionは2025年のパフォーマンスレビューで、PRマージ率67%を公表しました。

これは昨年の34%から約2倍の改善です。ただし、タスクの種類によって大きく異なる点に注意が必要です。

得意な4つのタスク

  1. ドキュメンテーション: ある銀行が40万以上のリポジトリにわたるドキュメント生成で、エンジニアリングチームを新機能開発に再配置
  2. 品質エンジニアリング(QE、SRE、DevOps): QEテスター、SRE、DevOpsスペシャリストとしての機能
  3. 小規模で反復的なタスク: コードマイグレーション、フレームワークアップグレード、プロトタイプ構築
  4. バグ修正、設定変更、バージョンアップグレード: 定型的な修正作業

理想的なタスクプロファイル

Devinが最も高いパフォーマンスを発揮するのは、以下の条件を満たすタスクです:

  • 明確で事前に定義された要件
  • 検証可能な結果(テストで合否が判定できる)
  • ジュニアエンジニアが4-8時間で完了する作業量

苦手な4つのケース

  1. 曖昧なスコーピング: 要件が不明確なタスク
  2. タスク中途での要件変更: 進行中の仕様変更に弱い
  3. 視覚デザイン: コンポーネント構造、カラーコード、スペーシング値などの具体的な指定が必要
  4. 反復的な「ラストマイル」の洗練: PRの10%で作業を放棄
PRマージ率67%の内訳PRマージ率67%の内訳

エンタープライズ導入事例

Goldman Sachs——「12,001人目のエンジニア」

Goldman Sachsがなぜ「Employee #1」と呼んだのか。その理由を理解するには、彼らの課題を知る必要があります。

Goldman Sachsには12,000人のエンジニアがいます。しかし、それでもタスクが追いつかない。

セキュリティ修正、ドキュメント更新、テスト作成——「ジュニアエンジニアが4-8時間で完了する」タスクが、山積みになっていました。

GitHub Copilotは導入済み。20%の効率向上を実現していました。しかし、それでは足りなかった。

そこでDevinを導入。結果は3-4倍の生産性向上。

“

「もしDevinが20%生産性を向上させれば、12,000人の技術者が14,400人のように働ける」

CIO Marco Argentiは、これを「ハイブリッドワークフォース」と呼びます。

“

"It's really about people and AIs working side by side. Engineers are going to be expected to have the ability to really describe problems in a coherent way and turn it into prompts... and then be able to supervise the work of those agents."

「人間とAIが協力して働くこと。エンジニアは問題を一貫した方法で説明し、プロンプトに変え、エージェントの作業を監督する能力が求められます」

— Marco Argenti, Goldman Sachs CIO

人間がタスクを定義し、AIが実行し、人間が監督する。これがGoldman Sachsが見出した「Devinの正しい使い方」でした。

Gumroad——4ヶ月で1,583 PR

スタートアップのGumroadは、Devinを「チームメンバー」として使い倒しました。

  • 4ヶ月で1,583のPRマージ
  • マージ率85%以上

バグ修正、設定変更、バージョンアップグレード——定型タスクをDevinに任せ、人間は新機能開発に集中しました。

Nubank——8倍の効率改善

ブラジル最大のデジタルバンクNubankは、モノリシックコードベースの大規模リファクタリングという難題を抱えていました。

人間だけでは何年もかかる作業。Devinを投入した結果:

  • エンジニアリング効率8倍改善
  • コスト削減20倍

セキュリティ修正——20倍高速化

特に劇的な効果が出たのは、セキュリティ脆弱性の修正です。

指標人間開発者Devin効率向上
修正時間30分/脆弱性1.5分/脆弱性20倍

人間なら30分かかる脆弱性修正を、Devinは1.5分で完了。20倍の高速化です。

セキュリティ修正時間の比較セキュリティ修正時間の比較

パフォーマンス改善の推移

Devinは18ヶ月の運用で、以下の改善を達成しています:

指標昨年今年改善率
問題解決速度--4倍
リソース消費効率--2倍
PRマージ率34%67%約2倍

Devinのスキルプロファイル

Cognitionは、Devinのスキルを以下のように評価しています:

スキルレベル
コードベース理解シニアレベル
実行能力ジュニアレベル
キャパシティ無制限(24時間稼働、並列実行可能)
ソフトスキル苦手(ステークホルダー管理、メンタリング不可)

ここまで読むと、Devinは万能のように見えます。しかし、すべてがうまくいっているわけではありません。


批判的評価と限界

期待と現実——Answer.AIの1ヶ月

Goldman Sachsの成功事例。Gumroadの1,583 PRマージ。華々しい数字が並びます。

しかし2025年1月、AIリサーチ企業Answer.AIが冷水を浴びせるレポートを公開しました。

「実際に1ヶ月使ってみた」——その結論は、業界の期待を裏切るものでした。

20タスク中、成功はわずか3つ

Answer.AIのチームは、3人のデータサイエンティストで20の実世界コーディング課題をDevinに与えました。

結果は以下の通りです:

結果タスク数割合
成功315%
失敗1470%
結論なし315%

成功率15%。Goldman Sachsの華々しい報告とは、あまりにもかけ離れた数字でした。

「どのタスクが成功するか、予測できない」

最も深刻だったのは、パフォーマンスの予測不可能性です。

“

"More concerning was our inability to predict which tasks would succeed. Even tasks similar to our early wins would fail in complex, time-consuming ways."

「より懸念されるのは、どのタスクが成功するか予測できないことでした。初期の成功と似たタスクでさえ、複雑で時間のかかる方法で失敗しました」

— Answer.AI

同じようなタスクでも、成功するときと失敗するときがある。なぜ失敗したのか分からない。これでは、業務に組み込むことができません。

「存在しない機能」を1日かけて探し続ける

さらに衝撃的だったのは、ハルシネーション(幻覚)問題です。

あるタスクで、DevinはRailway(クラウドプラットフォーム)に単一デプロイメントで複数アプリケーションをデプロイしようとしました。

問題は、Railwayにそんな機能は存在しないということ。

Devinは存在しない機能を「幻覚」しながら、1日以上かけて様々なアプローチを試行し続けました。人間なら10分で「これは無理だ」と気づくことに、丸1日を費やしたのです。

Cognitionへの辛辣な批判

Answer.AIは、Cognitionのマーケティングについても厳しく批判しました。

“

"Cognition overpromises with Devin, refuses to touch upon critical limitations of the systems, and relies on demos that feel very bait and switch-y."

「Cognitionは過剰な約束をし、システムの重要な限界に触れず、チェリーピッキングされたデモに依存している」

— Answer.AI

デモ動画では成功するタスクだけが選ばれ、失敗するタスクは見せない——これは「bait and switch(おとり商法)」だという指摘です。

それでもDevinを使う意味はあるのか?

Answer.AIの結論は、「使い方次第」 というものでした。

Devinはシニアエンジニアの代替ではありません。「ジュニアエンジニア」として扱う必要があります:

  • 明確な指示が必要(曖昧な指示は失敗の元)
  • 監督が必要(放置すると1日かけて無駄なことをする)
  • 適切なタスク選定が必要(得意/不得意を見極める)

正しく使えば、定型タスクの自動化で大きな効果を発揮する。しかし、「AIエンジニアに丸投げ」はできない——これがAnswer.AIの結論でした。

批判にさらされる中、Cognitionは次の一手を打ちます。それは、72時間で成立した、業界史上最速の買収劇でした。


Windsurf買収と統合戦略

三つ巴の争奪戦

2025年、AIコーディングツール市場で最もドラマチックな買収劇が繰り広げられました。主役は3社——OpenAI、Google、そしてCognition。

第1幕:OpenAIの$3B買収提案(2025年5月)

Windsurfは、2021年にMITの友人Varun MohanとDouglas Chenが設立したAIコーディングプラットフォームです。「Exafunction」から「Codeium」を経て「Windsurf」へ。急成長を遂げていました。

2025年5月、BloombergがOpenAIの$3B(約4,500億円)買収合意を報道。しかし、Microsoftとの関係が障害となり、オファー期限切れで頓挫します。

第2幕:Googleの$2.4B人材引き抜き(2025年7月)

OpenAI取引失敗の数時間後、Googleが動きました。$2.4B(約3,600億円)の「逆アクイハイヤー」——買収ではなく、経営陣の引き抜きです:

  • CEO Varun Mohan
  • 共同創業者 Douglas Chen
  • リサーチリーダーたち

250人の従業員の大部分は残留。経営陣を失ったWindsurfは、宙に浮いた状態になります。

第3幕:Cognitionの72時間買収(2025年7月14日)

ここでScott Wuが動きます。

Google取引が公開されたその週末、Cognitionは電光石火の交渉を開始しました。

“

"金曜日の午後5時以降に最初の電話、月曜日の朝に合意に署名"

— Russell Kaplan, Cognition社長

72時間。業界史上最速の買収でした。

買収額と取得資産

項目内容
買収額推定$250M(約375億円)(非公開)
ARR$82M(約123億円)(四半期ごとに倍増)
顧客350以上のエンタープライズ顧客
ユーザー数十万人のデイリーアクティブユーザー
IPWindsurf IDE、製品、商標、ブランド

※日本円換算は1ドル=150円で計算

従業員への対応

  • 100%のWindsurf従業員が財務的に参加
  • すべてのベスティングクリフを免除
  • これまでの仕事に対する完全な加速ベスティング

ただし、買収後3週間で約30人の元Windsurf従業員を解雇し、約200人にバイアウトを提示しました。Cognitionの主な関心は技術と顧客契約にあった可能性があります。

Windsurf買収タイムラインWindsurf買収タイムライン

統合戦略:IDE + エージェントの融合

Cognitionは、DevinをWindsurf IDEに直接統合することで、開発体験を革新しました:

  • 開発者は並列で複数のDevinエージェントに反復作業を委任
  • 重要なアーキテクチャ決定は開発者がコントロール
  • WindsurfのTab機能とCascade機能で最も難しい部分を自分で処理
  • 同一環境内ですべての作業を統合

これにより、「ツールを切り替える」ことなく、自律型エージェントと対話型IDEのメリットを両立できます。

財務的成果

買収後、Cognitionは急成長を遂げました:

指標成果
資金調達$400M(約600億円、買収後2ヶ月)
評価額$10.2B(約1.5兆円)
ARR2倍以上に増加
エンタープライズARR買収後30%以上増加
顧客重複買収前5%未満(顧客基盤が拡大)

※日本円換算は1ドル=150円で計算

Windsurf買収により、CognitionはIDE市場にも参入しました。では、CursorやGitHub Copilotとどう違うのか? 競合との比較を見てみましょう。


競合との差別化

Devin vs Cursor 徹底比較

「Devin と Cursor、どちらを使うべき?」という質問に答えます。結論から言うと、両者は競合ではなく、補完関係にあります。

機能・料金・特徴の比較表

比較項目DevinCursor
開発元Cognition LabsAnysphere
料金$20/月〜(Core)、$500/月(Team)$20/月(Pro)、$40/月(Business)
動作方式完全自律型(タスク全体を完了)インタラクティブ支援(対話しながら開発)
応答時間12-15分(タスク完了まで)数秒(即座に提案)
統合方式GitHub/Slack/Windsurf IDEVS Code互換IDE
操作感「人と働いている」感覚「ツールを使っている」感覚
開発者コントロール低(委任型)高(対話型)
コード品質不要なパッケージを含む傾向クリーンでフォーカスされた傾向
得意なタスク複数ファイル変更、PR作成、定型作業現在のファイル編集、即座のコード生成
日本語対応対応(プロンプト入力可)対応(UI・プロンプト両方)

向いている人

Devinが向いている人:

  • 定型タスク(テスト作成、ドキュメント更新、バグ修正)を自動化したい
  • 複数ファイルにまたがる変更をAIに任せたい
  • チームでSlack経由でタスクを依頼したい
  • セキュリティ修正やコード移行を大量に処理したい

Cursorが向いている人:

  • リアルタイムでAIと対話しながらコードを書きたい
  • 日常的なコーディングの効率を上げたい
  • コードの細部まで自分でコントロールしたい
  • 低コストでAIコーディングを始めたい

組み合わせ使用のベストプラクティス

多くの開発者は、両方を併用しています:

  • 日常のコーディング: Cursor(タイピング速度とフロー向上)
  • 定型タスクの自動化: Devin(自己完結型機能や反復的リファクタリング)

Goldman Sachsの事例では、GitHub Copilotの20%効率向上に対し、Devinは3-4倍の生産性向上を報告しています。

Devin vs GitHub Copilot

観点DevinGitHub Copilot
アプローチ自律型AIソフトウェアエンジニアリアルタイムIDE内支援
動作環境独自サンドボックス / Windsurf IDEIDE内(VS Code, IntelliJ等)
タスク範囲計画→コード→テスト→デプロイ即時のインライン補完
デバッグコード実行→エラー確認→検索→修正→再実行コンテキストベースの提案
価格$20/月〜(Core)$10/月/ユーザー
最適な用途自己完結型の機能開発タイピング速度とフローの向上

組み合わせ使用

  • Copilot: 日常のドライバー(タイピング速度とフロー向上)
  • Devin: スペシャリスト(自己完結型機能や反復的リファクタリング)

Goldman Sachsの事例では、GitHub Copilotの20%効率向上に対し、Devinは3-4倍の生産性向上を報告しています。

Devin vs Amazon Q Developer

観点DevinAmazon Q Developer
フォーカス汎用ソフトウェアエンジニアリングAWSネイティブ開発
最適なチーム自律的コーディングタスククラウドファーストAWSチーム
強みエンドツーエンドの自動化AWSサービスとの直接統合
価格$20/月〜(Core)無料枠あり + 有料プラン
SWE-Bench ProSWE-1.5: 40.08%-

ACU: AI Compute Unit(AIの計算単位) SWE-Bench: ソフトウェアエンジニアリングベンチマーク(コーディング能力の評価指標)

Devin vs Salesforce Agentforce

観点DevinSalesforce Agentforce
フォーカスソフトウェア開発Salesforce/CRMエコシステム
最適なユーザー開発者Salesforce開発者/管理者
アーキテクチャLLM + 強化学習Atlas Reasoning Engine
統合GitHub, GitLab, Slack等Data Cloud, MuleSoft
“

"Salesforce Agentforceが本質的にSalesforce全般のマルチツールであるのに対し、Devinはソフトウェア開発のためのネイルガンです。"

Devinの4つの差別化ポイント

  1. 完全自律型: タスク全体を計画から完了まで自律的に実行
  2. マルチエージェント: 複数のDevinを並列で実行し、複雑なプロジェクトを分担
  3. エンタープライズ対応: VPCデプロイメント、大規模組織向けセキュリティ
  4. Windsurf統合: IDE + エージェントの統合プラットフォーム

これだけの差別化ポイントがあるからこそ、Cognitionはわずか18ヶ月で評価額$10.2Bに到達しました。その成長の軌跡を見てみましょう。


資金調達と評価額推移

ラウンド別の詳細

ラウンド時期金額主要投資家評価額
Series A2024年3月$21M(約32億円)Founders Fund(Peter Thiel)-
Series B2024年夏非公開-$2B(約3,000億円)
Series C2025年9月$400M(約600億円)Founders Fund, Lux Capital, 8VC, Neo, Bain Capital Ventures, D1 Capital$10.2B(約1.5兆円)

※日本円換算は1ドル=150円で計算

ARRの急成長

Cognitionは、わずか10ヶ月でARR(年間経常収益)73倍成長を達成しました:

時期ARR備考
2024年9月$1M(約1.5億円)-
2025年6月$73M(約110億円)Windsurf買収前
2025年7月$155M(約233億円)Windsurf買収後(Sacra推計)

※日本円換算は1ドル=150円で計算

ARR成長曲線ARR成長曲線

効率的な成長

Cognitionは、以下の点で「効率的な成長」を実現しています:

  • 創業以来の累計純損失: $20M(約30億円)未満
  • マーケティング費用: ほぼゼロ(口コミとデモで顧客獲得)
  • 評価額/ARR倍率: 約68倍(Cursor: 59倍、Lovable: 33倍と比較)

急成長を遂げたCognition。では、次に何を目指しているのか? Scott Wuが描く未来を見てみましょう。


今後のロードマップと展望

短期目標(2025年末)

  • 社内PRの50%をDevinが生成(現在25%)
  • ルーティンタスクから複雑なアーキテクチャ決定へ
  • システム全体のリファクタリングへの対応

予想される開発

マルチエージェントオーケストレーション:

  • フロントエンド、バックエンド、DevOps専門の異なるDevinが同期された「スクワッド」として連携
  • 人間のコード入力なしでプラットフォーム全体を構築

ハイブリッドワークフォースのビジョン

Goldman Sachs CIO Marco Argentiは、以下のビジョンを提示しています:

“

"It's really about people and AIs working side by side. Engineers are going to be expected to have the ability to really describe problems in a coherent way and turn it into prompts... and then be able to supervise the work of those agents."

「人間とAIが協力して働くこと。エンジニアは問題を一貫した方法で説明し、プロンプトに変え、エージェントの作業を監督する能力が求められます」

— Marco Argenti, Goldman Sachs CIO

エンジニアの役割は、「コードを書く」から「タスクを定義し、AIの作業を監督する」へシフトしていく可能性があります。

日本市場への示唆

日本企業がDevinを導入する際の考慮点:

  1. エンタープライズでの導入可能性: Goldman Sachsのような大手金融機関での実績があり、日本の金融機関・大企業でも導入が進む可能性
  2. エンジニア不足問題への対応: ジュニアエンジニアレベルのタスクを自動化し、シニアエンジニアを戦略的な開発に集中させる
  3. 文化的な「AIとの協働」への適応: 「AIに任せる」という意思決定の文化が必要

ここまで読んで、まだ疑問が残っていませんか?よくある質問をまとめました。


よくある質問(FAQ)

検索でよく調べられている質問に回答します。


Q: Devinの料金は?

A: 月額$20(約3,000円)から利用可能です。2025年4月のDevin 2.0リリースで96%値下げされました。

プラン月額特徴
Core$20〜(約3,000円〜)個人開発者向け、従量課金(1ACU=$2.25)
Team$500(約75,000円)250 ACU含む、Slack/API連携可能
EnterpriseカスタムVPCデプロイ、SSO、カスタムDevin対応

Coreプランでは$20で2〜3タスク程度を試せます。


Q: Devinは日本語対応している?

A: はい、対応しています。プロンプト(タスク指示)は日本語で入力可能です。ただし、UIは英語のみです。

日本語でのタスク依頼例:

  • 「このリポジトリのREADMEを日本語に翻訳して」
  • 「認証モジュールのバグを修正して」
  • 「テストカバレッジを80%に上げて」

コード生成やコミットメッセージは英語が推奨されますが、日本語でのやり取りは問題なく機能します。


Q: CursorとDevinどちらがいい?

A: 用途によって使い分けるのがベストです。両者は競合ではなく補完関係にあります。

比較DevinCursor
料金$20/月〜$20/月〜
動作自律型(タスク全体を完了)対話型(リアルタイム支援)
応答12-15分数秒
向いている人定型タスクを自動化したいコーディング効率を上げたい

結論: 日常コーディングはCursor、定型タスクの自動化はDevin。多くの開発者は両方を併用しています。


Q: Devinの使い方は?

A: 3つの方法があります。

  1. Session(Web): devin.aiにログインし、チャット形式でタスクを依頼
  2. Slackbot: チャンネルで @Devin タスク内容 とメンション
  3. API: CI/CDパイプラインとの統合(Teamプラン以上)

初めての方はSessionから試すのがおすすめです。


Q: Devinの実際の性能は?PRマージ率67%は信用できる?

A: PRマージ率67%はCognition公式発表の数値ですが、タスクの種類によって大きく異なります。

得意なタスク(マージ率高):

  • ドキュメンテーション
  • テスト作成、バグ修正
  • 小規模で反復的なタスク

苦手なタスク(マージ率低):

  • 曖昧な要件のタスク
  • 視覚デザイン
  • 要件変更が多いタスク

Answer.AIの独立テストでは20タスク中3成功・14失敗という結果も出ており、「ジュニアエンジニアレベルの扱いが必要」と評価されています。


Q: Scott Wuはどんな人?

A: 1997年生まれの競技プログラマー出身の起業家です。IOI(国際情報オリンピック)3年連続金メダル、2014年は満点600点で世界1位。ハーバード大学卒業後、Lunchclub共同創業($55.9M調達)を経て、2023年にCognition Labsを創業しました。


Q: Goldman SachsはなぜDevinを導入した?

A: 12,000人のエンジニアを抱えるGoldman Sachsでも、定型タスク(セキュリティ修正、ドキュメント更新)が滞留していました。GitHub Copilotの20%効率向上では不十分だったため、Devinを導入。結果、3-4倍の生産性向上を報告しています。「Employee #1」として数百のDevinインスタンスを運用中です。


Q: Devinの限界は?

A: Answer.AIの独立テストで明らかになった主な限界:

  1. 予測不可能なパフォーマンス: どのタスクが成功するか予測できない
  2. ハルシネーション: 存在しない機能を「幻覚」し、1日かけて無駄な試行をすることがある
  3. 監督が必要: シニアエンジニアの代替ではなく、ジュニアレベルの扱いが必要

正しい活用には「明確な要件」「検証可能な結果」「人間による監督」が必須です。


Q: 日本企業はDevinを導入すべき?

A: 以下の条件に当てはまるエンタープライズ企業には検討価値があります:

  • エンジニア不足で定型タスクが滞留している
  • セキュリティ修正、テスト作成、コード移行に人的リソースを割けない
  • 24時間稼働・並列実行可能な開発リソースが必要

個人開発者やスタートアップには、Cursor($20/月〜)が現実的な選択肢です。


まとめ:Devinは「本物」なのか?

冒頭の問いに戻りましょう。

「フェイクだ」「チェリーピッキングされたデモだ」——2024年3月の批判は、正しかったのでしょうか?

答えは、「半分正しく、半分間違い」 です。

正しかった点:Devinは万能ではありません。Answer.AIのテストが示したように、20タスク中14タスクで失敗します。曖昧な指示には弱く、「ジュニアエンジニアレベルの扱い」が必要です。

間違っていた点:Devinは「フェイク」ではありませんでした。Goldman Sachsは12,000人のエンジニアと並べて導入し、3-4倍の生産性向上を報告しています。Gumroadは4ヶ月で1,583のPRをマージしました。

Devinの本質

Devinは「AIがエンジニアを置き換える」未来ではありません。

「人間とAIが協働する」未来の、最初の一歩です。

エンジニアの役割は「コードを書く」から「タスクを定義し、AIの作業を監督する」へ。Scott Wuが9歳で魅了された「アイデアを現実に変える能力」は、AIによってさらに加速されようとしています。

主要ポイント

項目内容
創業者Scott Wu(IOI 3年連続金メダル、14歳で世界1位)
技術Reason→Act→Observe→Correctループによる自律実行
実績PRマージ率67%、Goldman Sachs導入、ARR $155M
限界Answer.AIテストで20タスク中14失敗、ジュニアレベルの扱いが必要
評価額$10.2B(約1.5兆円)、18ヶ月で達成
料金$20/月〜(Core)、$500/月(Team)

次のステップ

  1. エンタープライズCTO: Cognition公式サイトでデモを依頼、自社のユースケースに適合するか検証
  2. 個人開発者: CursorやLovableを試し、「自律型エージェント」の概念を体験
  3. AI技術者: LangChainでマルチエージェント開発を学び、Devinのような自律型システムの構築を研究

関連記事

➡️

【2025年版】AIコーディング革命:Cursor・Devin等5社を徹底解説

➡️

Chain of Thought:LLMの推論能力を引き出すプロンプト技術


参考リソース

Cognition Labs公式

  • Cognition公式サイト
  • Devin紹介記事
  • Devin 2.0発表
  • Devin 2025 Performance Review
  • Windsurf買収発表
  • SWE-1.5発表
  • Devin料金ページ

テックメディア報道

  • TechCrunch - Cognition acquires Windsurf
  • CNBC - Goldman Sachs testing Devin
  • VentureBeat - Cognition emerges from stealth

独立評価

  • Answer.AI - Thoughts On A Month With Devin
  • The Register - First AI software engineer is bad at its job

Scott Wu関連

  • Scott Wu - Wikipedia
  • Lenny's Newsletter - Inside Devin
  • Analytics India Magazine - Meet the Creator of Devin

本記事はネクサフローのAI研究シリーズの一部です。

この記事の著者

中村 知良

中村 知良

代表取締役

早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。

この記事をシェア

XFacebookはてなLinkedIn

次に読む

関連記事

【2025年版】AIコーディング革命:Cursor・Devin等5社を徹底解説

【2025年版】AIコーディング革命:Cursor・Devin等5社を徹底解説

2025年、AIコーディング市場は急成長中。評価額$29BのCursorから自律型エージェントDevinまで、注目スタートアップ5社のプロダクト・創業者・資金調達を徹底解説。

2026/01/17
AIスタートアップ
【論文解説】Chain-of-Thought: LLMの推論能力を覚醒させたプロンプト技法

【論文解説】Chain-of-Thought: LLMの推論能力を覚醒させたプロンプト技法

2022年、26歳の研究者Jason WeiがGoogle Brainで発見したChain-of-Thought(CoT)は、AI開発の常識を覆しました。PaLM 540Bでも17.9%だった算数問題の精度が、たった8個の例題追加で58.1%に跳ね上がる——数千億円の計算資源より、プロンプトの工夫が効果的だったのです。Weiはその後Google→OpenAI→Metaを5年で経験し、o1モデルでCoTを「訓練する能力」へ進化させました。スケール戦争からプロンプト戦争へ、AI研究の転換点となった論文です。

2026/01/12
AIパフォーマンス向上

まずは無料相談・資料請求

AIやDXの導入について、具体的な進め方や費用対効果など、まずはお気軽にご相談ください。貴社の状況に合わせた最適なプランをご提案します。

お問い合わせ

お気軽にご相談ください