Nexaflow
サービス導入事例ブログ勉強会会社情報
資料請求お問い合わせ

Nexaflow

社会を支える人々と伴に、
未来の希望を創る

サービス

  • プライシング戦略支援
  • Nexalog
  • AIトランスフォーメーション

会社情報

  • 会社概要
  • ミッション
  • メンバー

リソース

  • ブログ
  • 導入事例
  • お知らせ
  • 資料ダウンロード

© 2026 Nexaflow Inc. All rights reserved.

利用規約プライバシーポリシー

ブログ

AI、データ活用、業務改善に関する最新情報やNexaflowの取り組みをお届けします

ホーム/スタートアップ分析/Devin AIとは?月額$20〜の料金・使い方・Cursor比較を解説【2026年版】
Devin AIとは?月額$20〜の料金・使い方・Cursor比較を解説【2026年版】

Devin AIとは?月額$20〜の料金・使い方・Cursor比較を解説【2026年版】

72分で読める|2026/02/05|
AIエンジニアDevinコーディングAI開発ツール

AIサマリー

Devin(デビン)とは、Cognition Labs開発の自律型AIソフトウェアエンジニア。月額$20から利用可能。Goldman Sachsが12,000人のチームに導入。本記事では、Devinの使い方(Session/Slackbot/API)、料金プラン、Cursorとの違いを解説。

Devin(デビン)とは、Cognition Labsが開発した「自律型AIソフトウェアエンジニア」です。 Slackでタスクを受け取り、計画→コード実装→テスト→プルリクエスト作成までを人間の介入なしで完了します。月額$20から利用可能で、Goldman Sachsが12,000人のエンジニアチームに「Employee #1」として導入したことで注目を集めています。


2024年3月、1本のデモ動画がソフトウェア業界を震撼させました。

AIがSlackでタスクを受け取り、自分でコードを書き、テストし、プルリクエストを作成する。人間の介入は一切なし。

「フェイクだ」「チェリーピッキングされたデモだ」——批判が殺到しました。

しかし1年後、Goldman Sachsはこの「AI」を12,000人のエンジニアチームに加え、「Employee #1(最初の従業員)」 と呼び始めます。評価額は$10.2B(約1.5兆円)に到達。

本記事は、その「Devin」と、それを作った天才プログラマーの物語です。

本記事の表記について

  • 金額の日本円換算は1ドル=150円で計算しています
  • 下線付きの用語にカーソルを合わせると解説が表示されます

この記事でわかること

  1. Scott Wuの思想と技術: IOI(国際情報オリンピック) 3年連続金メダル、満点総合1位の天才プログラマーがDevinに込めたビジョン
  2. 技術アーキテクチャの全貌: 強化学習と「Reason → Act → Observe → Correct」ループの仕組み
  3. 実績と限界の両面: PRマージ率67%の内訳とAnswer.AIによる批判的評価

基本情報

項目内容
企業名Cognition Labs
創業者Scott Wu(IOI 3年連続金メダリスト)
設立年2023年
評価額$10.2B(約1.5兆円、2025年9月)
ARR$155M(約233億円、2025年7月・Windsurf買収後)
主要顧客Goldman Sachs、Citi、Dell、Cisco、Ramp、Palantir、Nubank、Mercado Libre
概念図概念図

Devinとは?自律型AIソフトウェアエンジニアの全貌

Devinの基本コンセプト

Devinは、計画→実装→テスト→デプロイの全プロセスを自律的に実行する「完全自律型AIソフトウェアエンジニア」です。

GitHub CopilotやCursorが「補完」や「対話型支援」に留まるのに対し、Devinはタスク全体を人間の介入なしで完了します。

AI IDEとの違い:

特徴Devin(自律型)Cursor / Copilot(補完型)
動作範囲タスク全体現在のファイル
実行環境独自サンドボックスIDE内
人間の役割タスクを委任し、監督する常にコードを書く
応答時間12-15分数秒

誰が、何に困っていたのか

エンタープライズ企業では、以下のタスクが開発チームを圧迫していました:

  • セキュリティ修正: 脆弱性対応に月100時間以上
  • ドキュメンテーション: 40万以上のリポジトリにわたる記述更新
  • コードマイグレーション: レガシーシステム(SAS、COBOL)の移行
  • テスト作成: カバレッジ向上のための反復作業

これらは「ジュニアエンジニアが4-8時間で完了する定型タスク」ですが、人的リソース不足で滞留していました。

Devinが解決する3つの課題

  1. 人的リソース不足: 12,000人のエンジニアチームでも追いつかないタスクをDevinが処理
  2. 24時間稼働の必要性: 人間の勤務時間外でもDevinは動作し続ける
  3. スケーラビリティ: 複数のDevinインスタンスを並列で起動可能

料金プラン(2025年4月更新)

Devin 2.0のリリースにより、料金体系が大幅に刷新されました。当初の月額$500から96%値下げされ、$20から利用可能になりました。

プラン月額ACU特徴
Core$20〜(約3,000円〜)従量課金個人開発者向け、1ACU=$2.25
Team$500(約75,000円)250 ACU含むチーム向け、1ACU=$2.00、API連携可能
EnterpriseカスタムカスタムVPCデプロイメント、SSO、カスタムDevin対応

ACU(Agent Compute Unit) は、Devinが行う作業を測定する独自の単位です。仮想マシン時間、モデル推論、ネットワーク帯域などの計算リソースを正規化して計測します。

ACUが消費されるケース:

  • タスク実行時(計画立案、コード実行など)
  • ブラウザ操作時
  • コンテキスト収集時

ACUが消費されないケース:

  • ユーザーの応答待ち時
  • テスト実行待ち時
  • リポジトリのセットアップとクローン時
  • アイドル時(自動的にスリープモードになる)

Devinの使い方:3つの利用方法

Devinは以下の3つの方法で利用できます。用途に応じて使い分けることで、開発効率を最大化できます。

1. Session(Webインターフェース)

最も基本的な利用方法です。devin.aiにログインし、チャット形式でタスクを依頼します。

使い方:

  1. devin.aiにログイン
  2. 新しいSessionを開始
  3. 自然言語でタスクを記述(例:「このリポジトリのREADMEを更新して」)
  4. Devinが計画を提示 → 承認後、実行開始
  5. 完了後、PRを確認・マージ

向いているケース: 初めてDevinを試す場合、単発のタスク依頼

2. Slackbot連携

チームでの利用に最適な方法です。SlackチャンネルでDevinをメンションするだけでタスクを依頼できます。

使い方:

  1. DevinアプリをSlackワークスペースにインストール
  2. チャンネルで @Devin このバグを修正して [GitHub Issue URL] とメンション
  3. Devinがスレッドで進捗を報告
  4. PR完成時に通知を受け取り、レビュー・マージ

向いているケース: チーム開発、非同期でのタスク依頼、進捗の可視化

3. API連携

CI/CDパイプラインや自社ツールとの統合に使用します。Teamプラン以上で利用可能。

使い方:

curl -X POST https://api.devin.ai/v1/sessions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"task": "Fix security vulnerability in auth module", "repo": "org/repo"}'

向いているケース: 自動化されたワークフロー、セキュリティ修正の自動実行、大量タスクの一括処理

利用方法対象ユーザープラン特徴
Session個人開発者Core〜すぐに試せる、UI操作
SlackbotチームTeam〜非同期、進捗可視化
APIエンタープライズTeam〜自動化、CI/CD統合

ここまでがDevinの概要です。しかし、なぜこのような「自律型AI」が生まれたのか? その答えは、創業者Scott Wuの異常な経歴にあります。


Scott Wu:天才プログラマーの頭の中

9歳の少年が見つけた「魔法」

1997年、ルイジアナ州。中国系移民の家庭に、一人の少年が生まれました。

Scott Wuがプログラミングに出会ったのは9歳のとき。彼はそこに「魔法」を見ました。

"I first learned to program when I was nine years old and fell in love with the ability to turn my ideas into reality."

「9歳でプログラミングを学び、アイデアを現実に変える能力に魅了されました」

— Scott Wu

頭の中にあるものが、コードを書くだけで動き出す。この体験が、後のDevinに繋がる原点でした。

14歳で世界1位——「すべては数学の問題」

Scott Wuの才能は、競技プログラミングで開花します。

IOI(国際情報オリンピック) は、世界中の高校生プログラマーが競う最高峰の大会。Scott Wuはここで3年連続金メダルを獲得しました。

年大会結果
2012年IOI金メダル(15歳)
2013年IOI金メダル(16歳)
2014年IOI金メダル・満点600点・総合1位(17歳)

2014年は満点で総合1位。世界中の天才プログラマーの頂点に立ちました。

その後もICPC(国際大学対抗プログラミングコンテスト)で金メダル、Google Code Jamで3位と、彼の才能は衰えることを知りません。

そして、この経験がScott Wuの思考を形作りました。

"A lot of my kind of framing has always been rooted in terms of math... even when we're going and doing a sale or something or when we're figuring out product strategy, like in my head it all actually maps to just doing math questions."

「私の思考の枠組みは常に数学に根ざしています。セールスや製品戦略を考えるときでさえ、頭の中では数学の問題を解くようにマッピングしています」

— Scott Wu

すべてを数学の問題として捉える——この思考が、Devinの「Reason → Act → Observe → Correct」ループの設計に直結しています。

Lunchclubでの「予行演習」

ハーバード大学在学中の2017年、Scott WuはAIマッチングアプリ「Lunchclub」を共同創業します。

$55.9M(約84億円)を調達し、Forbes 30 Under 30に選出。成功でした。

しかし彼の頭の中には、もっと大きな「ゲーム」がありました。

「何年も頭の中でプレイしてきたゲーム」

Lunchclub退職後、Scott Wuはある確信を持ちました。

"It's almost like this game that we've all been playing in our minds for years, and now there's this chance to code it into an AI system."

「まるで何年も頭の中でプレイしてきたゲームを、今AIシステムにコード化するチャンスが訪れたようなものです」

— Scott Wu

競技プログラミングで培った「問題を分解し、最適解を見つける」能力。それをAIに教え込めば、AIがプログラミングできるようになるのではないか?

Cognition Labsは、この仮説を検証するために生まれました。

兄のNeal Wu(同じくIOI金メダリスト、Google Code Jam 2位)も参加。「金メダリスト兄弟」が、AIエンジニアの開発に挑みます。

競技プログラミングで培った「すべてを数学の問題として捉える」思考。これがDevinの設計思想に、どう反映されているのでしょうか?


Devinの技術アーキテクチャ

コアとなるLLM基盤

Devinは、OpenAI GPT-4スケールのモデルをベースに、以下の技術を組み合わせています:

  • 強化学習(RL: Reinforcement Learning): 試行錯誤を通じて最適なアプローチを学習
  • コーディングと自然言語のデータセット: 事前学習で幅広いタスクに対応
  • 逐次的意思決定アプローチ: コード→コンパイル→テスト→エラーチェックのサイクル

3つの基本コンポーネント

Devinのアーキテクチャは、以下の3層構造で構成されています:

  1. Perception(知覚): テキスト入力、音声認識、画像・動画処理など外部環境から情報を収集
  2. Brain(脳): 意思決定と計画を担当。タスクを分解し、開発パス全体をマッピング
  3. Action(行動): 実際の操作を実行(コードエディタ、シェル、ウェブブラウザ)

開発者ツールキット

Devinは以下のツールを統合したサンドボックス環境で動作します:

ツール機能
Code Editorコード生成に特化したファインチューニングされたLLMを使用
Shellプロジェクト作成、ライブラリインストール、テスト実行
Web Browser未知の技術の学習、ドキュメント参照、問題解決方法の検索
Plannerタスクを分解し、自然言語の指示を連続的なステップに変換する

Reason → Act → Observe → Correct ループ

Devinの自律性の核心は、このループにあります:

  1. Reason(推論): 目標、計画、コンテキストに基づいて次のアクションを決定
  2. Act(行動): コードを書く、コマンドを実行、ファイルを修正
  3. Observe(観察): ログ、エラーメッセージ、テスト結果を監視
  4. Correct(修正): エラーが発生した場合、自動的にアプローチを調整

このループにより、Devinは人間の介入なしで自己修正しながらタスクを進めます。

技術アーキテクチャ技術アーキテクチャ

サンドボックス環境と人間承認

Devinは、セキュアなサンドボックス環境で動作し、以下の2つのチェックポイントで人間の承認を求めます:

  1. Planning Checkpoint(計画チェックポイント): タスク分解後、実行前に承認を取得
  2. PR Checkpoint(プルリクエストチェックポイント): コード完成後、マージ前に承認を取得

これにより、本番環境への影響を最小限に抑えます。

マルチエージェント機能

基本的なマルチエージェント:

  • 1つのAIエージェントが他のAIエージェントにタスクを割り当て
  • 自己評価による信頼度評価機能

MultiDevin(エンタープライズ向け):

  • 1つの「マネージャー」Devinが最大10の「ワーカー」Devinを調整
  • 各ワーカーDevinは小さく分離されたサブタスクを並列で実行
  • 成功した出力は自動的に単一のコードベースにマージ

Devin 2.0(2025年4月)の新機能

2025年4月にリリースされたDevin 2.0では、以下の機能が追加されました:

  • 複数の並列Devinインスタンス: クラウドベースの開発環境で同時起動可能
  • Interactive Planning: ユーザーがタスク計画を編集・承認可能
  • Devin Search: コードベースに直接クエリを投げ、引用付きの回答を取得
  • Devin Wiki: 数時間ごとにリポジトリを自動インデックス化し、アーキテクチャ図付きの詳細なWikiを生成

SWE-1.5:Cognition独自の高速コーディングモデル(2025年10月)

2025年10月、CognitionはSWE-1.5をリリースしました。数百億パラメータのフロンティアサイズモデルで、速度と性能の両立を実現しています。

指標SWE-1.5Claude Sonnet 4.5比較
推論速度950 tok/s69 tok/s13.7倍高速
SWE-Bench Pro40.08%43.60%同等レベル
インフラ提携Cerebras--

技術的な特徴:

  • Cerebrasとの提携: Wafer Scale Engineチップ(900,000 AIコア)で推論を高速化
  • GB200 NVL72での訓練: NVIDIA最新世代ハードウェアでのRL訓練
  • SWE-grep / SWE-grep-mini: 並列コード検索に特化したサブエージェント。従来のエージェントは最初のターンの60%以上をコンテキスト取得に費やしていたが、これを大幅に短縮

SWE-1.5はWindsurf IDEで利用可能です。

Windsurf Codemaps(2025年11月)

Windsurf買収後、CognitionはWindsurf Codemapsをリリースしました。SWE-1.5とClaude Sonnet 4.5を活用したAI注釈付きのコードベース構造マップです。

  • 視覚的なノードグラフ: コードベース全体の構造を視覚化
  • 正確な行番号への参照: ナビゲーションを特定の行に直接リンク
  • オンボーディング高速化: 新規メンバーのコードベース理解を支援
  • デバッグ効率化: 問題箇所の特定を迅速化

技術的には申し分ない。では、実際に使うとどうなるのか? Goldman Sachsが「3-4倍の生産性向上」と言っているのは本当なのでしょうか。


実際の性能と導入効果

PRマージ率67%の内訳

Cognitionは2025年のパフォーマンスレビューで、PRマージ率67%を公表しました。

これは昨年の34%から約2倍の改善です。ただし、タスクの種類によって大きく異なる点に注意が必要です。

得意な4つのタスク

  1. ドキュメンテーション: ある銀行が40万以上のリポジトリにわたるドキュメント生成で、エンジニアリングチームを新機能開発に再配置
  2. 品質エンジニアリング(QE、SRE、DevOps): QEテスター、SRE、DevOpsスペシャリストとしての機能
  3. 小規模で反復的なタスク: コードマイグレーション、フレームワークアップグレード、プロトタイプ構築
  4. バグ修正、設定変更、バージョンアップグレード: 定型的な修正作業

理想的なタスクプロファイル

Devinが最も高いパフォーマンスを発揮するのは、以下の条件を満たすタスクです:

  • 明確で事前に定義された要件
  • 検証可能な結果(テストで合否が判定できる)
  • ジュニアエンジニアが4-8時間で完了する作業量

苦手な4つのケース

  1. 曖昧なスコーピング: 要件が不明確なタスク
  2. タスク中途での要件変更: 進行中の仕様変更に弱い
  3. 視覚デザイン: コンポーネント構造、カラーコード、スペーシング値などの具体的な指定が必要
  4. 反復的な「ラストマイル」の洗練: PRの10%で作業を放棄
PRマージ率67%の内訳PRマージ率67%の内訳

エンタープライズ導入事例

Goldman Sachs——「12,001人目のエンジニア」

Goldman Sachsがなぜ「Employee #1」と呼んだのか。その理由を理解するには、彼らの課題を知る必要があります。

Goldman Sachsには12,000人のエンジニアがいます。しかし、それでもタスクが追いつかない。

セキュリティ修正、ドキュメント更新、テスト作成——「ジュニアエンジニアが4-8時間で完了する」タスクが、山積みになっていました。

GitHub Copilotは導入済み。20%の効率向上を実現していました。しかし、それでは足りなかった。

そこでDevinを導入。結果は3-4倍の生産性向上。

「もしDevinが20%生産性を向上させれば、12,000人の技術者が14,400人のように働ける」

CIO Marco Argentiは、これを「ハイブリッドワークフォース」と呼びます。

"It's really about people and AIs working side by side. Engineers are going to be expected to have the ability to really describe problems in a coherent way and turn it into prompts... and then be able to supervise the work of those agents."

「人間とAIが協力して働くこと。エンジニアは問題を一貫した方法で説明し、プロンプトに変え、エージェントの作業を監督する能力が求められます」

— Marco Argenti, Goldman Sachs CIO

人間がタスクを定義し、AIが実行し、人間が監督する。これがGoldman Sachsが見出した「Devinの正しい使い方」でした。

Gumroad——4ヶ月で1,583 PR

スタートアップのGumroadは、Devinを「チームメンバー」として使い倒しました。

  • 4ヶ月で1,583のPRマージ
  • マージ率85%以上

バグ修正、設定変更、バージョンアップグレード——定型タスクをDevinに任せ、人間は新機能開発に集中しました。

Nubank——8倍の効率改善

ブラジル最大のデジタルバンクNubankは、モノリシックコードベースの大規模リファクタリングという難題を抱えていました。

人間だけでは何年もかかる作業。Devinを投入した結果:

  • エンジニアリング効率8倍改善
  • コスト削減20倍

セキュリティ修正——20倍高速化

特に劇的な効果が出たのは、セキュリティ脆弱性の修正です。

指標人間開発者Devin効率向上
修正時間30分/脆弱性1.5分/脆弱性20倍

人間なら30分かかる脆弱性修正を、Devinは1.5分で完了。20倍の高速化です。

セキュリティ修正時間の比較セキュリティ修正時間の比較

パフォーマンス改善の推移

Devinは18ヶ月の運用で、以下の改善を達成しています:

指標昨年今年改善率
問題解決速度--4倍
リソース消費効率--2倍
PRマージ率34%67%約2倍

Devinのスキルプロファイル

Cognitionは、Devinのスキルを以下のように評価しています:

スキルレベル
コードベース理解シニアレベル
実行能力ジュニアレベル
キャパシティ無制限(24時間稼働、並列実行可能)
ソフトスキル苦手(ステークホルダー管理、メンタリング不可)

ここまで読むと、Devinは万能のように見えます。しかし、すべてがうまくいっているわけではありません。


批判的評価と限界

期待と現実——Answer.AIの1ヶ月

Goldman Sachsの成功事例。Gumroadの1,583 PRマージ。華々しい数字が並びます。

しかし2025年1月、AIリサーチ企業Answer.AIが冷水を浴びせるレポートを公開しました。

「実際に1ヶ月使ってみた」——その結論は、業界の期待を裏切るものでした。

20タスク中、成功はわずか3つ

Answer.AIのチームは、3人のデータサイエンティストで20の実世界コーディング課題をDevinに与えました。

結果は以下の通りです:

結果タスク数割合
成功315%
失敗1470%
結論なし315%

成功率15%。Goldman Sachsの華々しい報告とは、あまりにもかけ離れた数字でした。

「どのタスクが成功するか、予測できない」

最も深刻だったのは、パフォーマンスの予測不可能性です。

"More concerning was our inability to predict which tasks would succeed. Even tasks similar to our early wins would fail in complex, time-consuming ways."

「より懸念されるのは、どのタスクが成功するか予測できないことでした。初期の成功と似たタスクでさえ、複雑で時間のかかる方法で失敗しました」

— Answer.AI

同じようなタスクでも、成功するときと失敗するときがある。なぜ失敗したのか分からない。これでは、業務に組み込むことができません。

「存在しない機能」を1日かけて探し続ける

さらに衝撃的だったのは、ハルシネーション(幻覚)問題です。

あるタスクで、DevinはRailway(クラウドプラットフォーム)に単一デプロイメントで複数アプリケーションをデプロイしようとしました。

問題は、Railwayにそんな機能は存在しないということ。

Devinは存在しない機能を「幻覚」しながら、1日以上かけて様々なアプローチを試行し続けました。人間なら10分で「これは無理だ」と気づくことに、丸1日を費やしたのです。

Cognitionへの辛辣な批判

Answer.AIは、Cognitionのマーケティングについても厳しく批判しました。

"Cognition overpromises with Devin, refuses to touch upon critical limitations of the systems, and relies on demos that feel very bait and switch-y."

「Cognitionは過剰な約束をし、システムの重要な限界に触れず、チェリーピッキングされたデモに依存している」

— Answer.AI

デモ動画では成功するタスクだけが選ばれ、失敗するタスクは見せない——これは「bait and switch(おとり商法)」だという指摘です。

それでもDevinを使う意味はあるのか?

Answer.AIの結論は、「使い方次第」 というものでした。

Devinはシニアエンジニアの代替ではありません。「ジュニアエンジニア」として扱う必要があります:

  • 明確な指示が必要(曖昧な指示は失敗の元)
  • 監督が必要(放置すると1日かけて無駄なことをする)
  • 適切なタスク選定が必要(得意/不得意を見極める)

正しく使えば、定型タスクの自動化で大きな効果を発揮する。しかし、「AIエンジニアに丸投げ」はできない——これがAnswer.AIの結論でした。

批判にさらされる中、Cognitionは次の一手を打ちます。それは、72時間で成立した、業界史上最速の買収劇でした。


Windsurf買収と統合戦略

三つ巴の争奪戦

2025年、AIコーディングツール市場で最もドラマチックな買収劇が繰り広げられました。主役は3社——OpenAI、Google、そしてCognition。

第1幕:OpenAIの$3B買収提案(2025年5月)

Windsurfは、2021年にMITの友人Varun MohanとDouglas Chenが設立したAIコーディングプラットフォームです。「Exafunction」から「Codeium」を経て「Windsurf」へ。急成長を遂げていました。

2025年5月、BloombergがOpenAIの$3B(約4,500億円)買収合意を報道。しかし、Microsoftとの関係が障害となり、オファー期限切れで頓挫します。

第2幕:Googleの$2.4B人材引き抜き(2025年7月)

OpenAI取引失敗の数時間後、Googleが動きました。$2.4B(約3,600億円)の「逆アクイハイヤー」——買収ではなく、経営陣の引き抜きです:

  • CEO Varun Mohan
  • 共同創業者 Douglas Chen
  • リサーチリーダーたち

250人の従業員の大部分は残留。経営陣を失ったWindsurfは、宙に浮いた状態になります。

第3幕:Cognitionの72時間買収(2025年7月14日)

ここでScott Wuが動きます。

Google取引が公開されたその週末、Cognitionは電光石火の交渉を開始しました。

"金曜日の午後5時以降に最初の電話、月曜日の朝に合意に署名"

— Russell Kaplan, Cognition社長

72時間。業界史上最速の買収でした。

買収額と取得資産

項目内容
買収額推定$250M(約375億円)(非公開)
ARR$82M(約123億円)(四半期ごとに倍増)
顧客350以上のエンタープライズ顧客
ユーザー数十万人のデイリーアクティブユーザー
IPWindsurf IDE、製品、商標、ブランド

※日本円換算は1ドル=150円で計算

従業員への対応

  • 100%のWindsurf従業員が財務的に参加
  • すべてのベスティングクリフを免除
  • これまでの仕事に対する完全な加速ベスティング

ただし、買収後3週間で約30人の元Windsurf従業員を解雇し、約200人にバイアウトを提示しました。Cognitionの主な関心は技術と顧客契約にあった可能性があります。

Windsurf買収タイムラインWindsurf買収タイムライン

統合戦略:IDE + エージェントの融合

Cognitionは、DevinをWindsurf IDEに直接統合することで、開発体験を革新しました:

  • 開発者は並列で複数のDevinエージェントに反復作業を委任
  • 重要なアーキテクチャ決定は開発者がコントロール
  • WindsurfのTab機能とCascade機能で最も難しい部分を自分で処理
  • 同一環境内ですべての作業を統合

これにより、「ツールを切り替える」ことなく、自律型エージェントと対話型IDEのメリットを両立できます。

財務的成果

買収後、Cognitionは急成長を遂げました:

指標成果
資金調達$400M(約600億円、買収後2ヶ月)
評価額$10.2B(約1.5兆円)
ARR2倍以上に増加
エンタープライズARR買収後30%以上増加
顧客重複買収前5%未満(顧客基盤が拡大)

※日本円換算は1ドル=150円で計算

Windsurf買収により、CognitionはIDE市場にも参入しました。では、CursorやGitHub Copilotとどう違うのか? 競合との比較を見てみましょう。


競合との差別化

Devin vs Cursor 徹底比較

「Devin と Cursor、どちらを使うべき?」という質問に答えます。結論から言うと、両者は競合ではなく、補完関係にあります。

機能・料金・特徴の比較表

比較項目DevinCursor
開発元Cognition LabsAnysphere
料金$20/月〜(Core)、$500/月(Team)$20/月(Pro)、$40/月(Business)
動作方式完全自律型(タスク全体を完了)インタラクティブ支援(対話しながら開発)
応答時間12-15分(タスク完了まで)数秒(即座に提案)
統合方式GitHub/Slack/Windsurf IDEVS Code互換IDE
操作感「人と働いている」感覚「ツールを使っている」感覚
開発者コントロール低(委任型)高(対話型)
コード品質不要なパッケージを含む傾向クリーンでフォーカスされた傾向
得意なタスク複数ファイル変更、PR作成、定型作業現在のファイル編集、即座のコード生成
日本語対応対応(プロンプト入力可)対応(UI・プロンプト両方)

向いている人

Devinが向いている人:

  • 定型タスク(テスト作成、ドキュメント更新、バグ修正)を自動化したい
  • 複数ファイルにまたがる変更をAIに任せたい
  • チームでSlack経由でタスクを依頼したい
  • セキュリティ修正やコード移行を大量に処理したい

Cursorが向いている人:

  • リアルタイムでAIと対話しながらコードを書きたい
  • 日常的なコーディングの効率を上げたい
  • コードの細部まで自分でコントロールしたい
  • 低コストでAIコーディングを始めたい

組み合わせ使用のベストプラクティス

多くの開発者は、両方を併用しています:

  • 日常のコーディング: Cursor(タイピング速度とフロー向上)
  • 定型タスクの自動化: Devin(自己完結型機能や反復的リファクタリング)

Goldman Sachsの事例では、GitHub Copilotの20%効率向上に対し、Devinは3-4倍の生産性向上を報告しています。

Devin vs GitHub Copilot

観点DevinGitHub Copilot
アプローチ自律型AIソフトウェアエンジニアリアルタイムIDE内支援
動作環境独自サンドボックス / Windsurf IDEIDE内(VS Code, IntelliJ等)
タスク範囲計画→コード→テスト→デプロイ即時のインライン補完
デバッグコード実行→エラー確認→検索→修正→再実行コンテキストベースの提案
価格$20/月〜(Core)$10/月/ユーザー
最適な用途自己完結型の機能開発タイピング速度とフローの向上

組み合わせ使用

  • Copilot: 日常のドライバー(タイピング速度とフロー向上)
  • Devin: スペシャリスト(自己完結型機能や反復的リファクタリング)

Goldman Sachsの事例では、GitHub Copilotの20%効率向上に対し、Devinは3-4倍の生産性向上を報告しています。

Devin vs Amazon Q Developer

観点DevinAmazon Q Developer
フォーカス汎用ソフトウェアエンジニアリングAWSネイティブ開発
最適なチーム自律的コーディングタスククラウドファーストAWSチーム
強みエンドツーエンドの自動化AWSサービスとの直接統合
価格$20/月〜(Core)無料枠あり + 有料プラン
SWE-Bench ProSWE-1.5: 40.08%-

ACU: AI Compute Unit(AIの計算単位) SWE-Bench: ソフトウェアエンジニアリングベンチマーク(コーディング能力の評価指標)

Devin vs Salesforce Agentforce

観点DevinSalesforce Agentforce
フォーカスソフトウェア開発Salesforce/CRMエコシステム
最適なユーザー開発者Salesforce開発者/管理者
アーキテクチャLLM + 強化学習Atlas Reasoning Engine
統合GitHub, GitLab, Slack等Data Cloud, MuleSoft

"Salesforce Agentforceが本質的にSalesforce全般のマルチツールであるのに対し、Devinはソフトウェア開発のためのネイルガンです。"

Devinの4つの差別化ポイント

  1. 完全自律型: タスク全体を計画から完了まで自律的に実行
  2. マルチエージェント: 複数のDevinを並列で実行し、複雑なプロジェクトを分担
  3. エンタープライズ対応: VPCデプロイメント、大規模組織向けセキュリティ
  4. Windsurf統合: IDE + エージェントの統合プラットフォーム

これだけの差別化ポイントがあるからこそ、Cognitionはわずか18ヶ月で評価額$10.2Bに到達しました。その成長の軌跡を見てみましょう。


資金調達と評価額推移

ラウンド別の詳細

ラウンド時期金額主要投資家評価額
Series A2024年3月$21M(約32億円)Founders Fund(Peter Thiel)-
Series B2024年夏非公開-$2B(約3,000億円)
Series C2025年9月$400M(約600億円)Founders Fund, Lux Capital, 8VC, Neo, Bain Capital Ventures, D1 Capital$10.2B(約1.5兆円)

※日本円換算は1ドル=150円で計算

ARRの急成長

Cognitionは、わずか10ヶ月でARR(年間経常収益)73倍成長を達成しました:

時期ARR備考
2024年9月$1M(約1.5億円)-
2025年6月$73M(約110億円)Windsurf買収前
2025年7月$155M(約233億円)Windsurf買収後(Sacra推計)

※日本円換算は1ドル=150円で計算

ARR成長曲線ARR成長曲線

効率的な成長

Cognitionは、以下の点で「効率的な成長」を実現しています:

  • 創業以来の累計純損失: $20M(約30億円)未満
  • マーケティング費用: ほぼゼロ(口コミとデモで顧客獲得)
  • 評価額/ARR倍率: 約68倍(Cursor: 59倍、Lovable: 33倍と比較)

急成長を遂げたCognition。では、次に何を目指しているのか? Scott Wuが描く未来を見てみましょう。


今後のロードマップと展望

短期目標(2025年末)

  • 社内PRの50%をDevinが生成(現在25%)
  • ルーティンタスクから複雑なアーキテクチャ決定へ
  • システム全体のリファクタリングへの対応

予想される開発

マルチエージェントオーケストレーション:

  • フロントエンド、バックエンド、DevOps専門の異なるDevinが同期された「スクワッド」として連携
  • 人間のコード入力なしでプラットフォーム全体を構築

ハイブリッドワークフォースのビジョン

Goldman Sachs CIO Marco Argentiは、以下のビジョンを提示しています:

"It's really about people and AIs working side by side. Engineers are going to be expected to have the ability to really describe problems in a coherent way and turn it into prompts... and then be able to supervise the work of those agents."

「人間とAIが協力して働くこと。エンジニアは問題を一貫した方法で説明し、プロンプトに変え、エージェントの作業を監督する能力が求められます」

— Marco Argenti, Goldman Sachs CIO

エンジニアの役割は、「コードを書く」から「タスクを定義し、AIの作業を監督する」へシフトしていく可能性があります。

日本市場への示唆

日本企業がDevinを導入する際の考慮点:

  1. エンタープライズでの導入可能性: Goldman Sachsのような大手金融機関での実績があり、日本の金融機関・大企業でも導入が進む可能性
  2. エンジニア不足問題への対応: ジュニアエンジニアレベルのタスクを自動化し、シニアエンジニアを戦略的な開発に集中させる
  3. 文化的な「AIとの協働」への適応: 「AIに任せる」という意思決定の文化が必要

ここまで読んで、まだ疑問が残っていませんか?よくある質問をまとめました。


よくある質問(FAQ)

検索でよく調べられている質問に回答します。


Q: Devinの料金は?

A: 月額$20(約3,000円)から利用可能です。2025年4月のDevin 2.0リリースで96%値下げされました。

プラン月額特徴
Core$20〜(約3,000円〜)個人開発者向け、従量課金(1ACU=$2.25)
Team$500(約75,000円)250 ACU含む、Slack/API連携可能
EnterpriseカスタムVPCデプロイ、SSO、カスタムDevin対応

Coreプランでは$20で2〜3タスク程度を試せます。


Q: Devinは日本語対応している?

A: はい、対応しています。プロンプト(タスク指示)は日本語で入力可能です。ただし、UIは英語のみです。

日本語でのタスク依頼例:

  • 「このリポジトリのREADMEを日本語に翻訳して」
  • 「認証モジュールのバグを修正して」
  • 「テストカバレッジを80%に上げて」

コード生成やコミットメッセージは英語が推奨されますが、日本語でのやり取りは問題なく機能します。


Q: CursorとDevinどちらがいい?

A: 用途によって使い分けるのがベストです。両者は競合ではなく補完関係にあります。

比較DevinCursor
料金$20/月〜$20/月〜
動作自律型(タスク全体を完了)対話型(リアルタイム支援)
応答12-15分数秒
向いている人定型タスクを自動化したいコーディング効率を上げたい

結論: 日常コーディングはCursor、定型タスクの自動化はDevin。多くの開発者は両方を併用しています。


Q: Devinの使い方は?

A: 3つの方法があります。

  1. Session(Web): devin.aiにログインし、チャット形式でタスクを依頼
  2. Slackbot: チャンネルで @Devin タスク内容 とメンション
  3. API: CI/CDパイプラインとの統合(Teamプラン以上)

初めての方はSessionから試すのがおすすめです。


Q: Devinの実際の性能は?PRマージ率67%は信用できる?

A: PRマージ率67%はCognition公式発表の数値ですが、タスクの種類によって大きく異なります。

得意なタスク(マージ率高):

  • ドキュメンテーション
  • テスト作成、バグ修正
  • 小規模で反復的なタスク

苦手なタスク(マージ率低):

  • 曖昧な要件のタスク
  • 視覚デザイン
  • 要件変更が多いタスク

Answer.AIの独立テストでは20タスク中3成功・14失敗という結果も出ており、「ジュニアエンジニアレベルの扱いが必要」と評価されています。


Q: Scott Wuはどんな人?

A: 1997年生まれの競技プログラマー出身の起業家です。IOI(国際情報オリンピック)3年連続金メダル、2014年は満点600点で世界1位。ハーバード大学卒業後、Lunchclub共同創業($55.9M調達)を経て、2023年にCognition Labsを創業しました。


Q: Goldman SachsはなぜDevinを導入した?

A: 12,000人のエンジニアを抱えるGoldman Sachsでも、定型タスク(セキュリティ修正、ドキュメント更新)が滞留していました。GitHub Copilotの20%効率向上では不十分だったため、Devinを導入。結果、3-4倍の生産性向上を報告しています。「Employee #1」として数百のDevinインスタンスを運用中です。


Q: Devinの限界は?

A: Answer.AIの独立テストで明らかになった主な限界:

  1. 予測不可能なパフォーマンス: どのタスクが成功するか予測できない
  2. ハルシネーション: 存在しない機能を「幻覚」し、1日かけて無駄な試行をすることがある
  3. 監督が必要: シニアエンジニアの代替ではなく、ジュニアレベルの扱いが必要

正しい活用には「明確な要件」「検証可能な結果」「人間による監督」が必須です。


Q: 日本企業はDevinを導入すべき?

A: 以下の条件に当てはまるエンタープライズ企業には検討価値があります:

  • エンジニア不足で定型タスクが滞留している
  • セキュリティ修正、テスト作成、コード移行に人的リソースを割けない
  • 24時間稼働・並列実行可能な開発リソースが必要

個人開発者やスタートアップには、Cursor($20/月〜)が現実的な選択肢です。


まとめ:Devinは「本物」なのか?

冒頭の問いに戻りましょう。

「フェイクだ」「チェリーピッキングされたデモだ」——2024年3月の批判は、正しかったのでしょうか?

答えは、「半分正しく、半分間違い」 です。

正しかった点:Devinは万能ではありません。Answer.AIのテストが示したように、20タスク中14タスクで失敗します。曖昧な指示には弱く、「ジュニアエンジニアレベルの扱い」が必要です。

間違っていた点:Devinは「フェイク」ではありませんでした。Goldman Sachsは12,000人のエンジニアと並べて導入し、3-4倍の生産性向上を報告しています。Gumroadは4ヶ月で1,583のPRをマージしました。

Devinの本質

Devinは「AIがエンジニアを置き換える」未来ではありません。

「人間とAIが協働する」未来の、最初の一歩です。

エンジニアの役割は「コードを書く」から「タスクを定義し、AIの作業を監督する」へ。Scott Wuが9歳で魅了された「アイデアを現実に変える能力」は、AIによってさらに加速されようとしています。

主要ポイント

項目内容
創業者Scott Wu(IOI 3年連続金メダル、14歳で世界1位)
技術Reason→Act→Observe→Correctループによる自律実行
実績PRマージ率67%、Goldman Sachs導入、ARR $155M
限界Answer.AIテストで20タスク中14失敗、ジュニアレベルの扱いが必要
評価額$10.2B(約1.5兆円)、18ヶ月で達成
料金$20/月〜(Core)、$500/月(Team)

次のステップ

  1. エンタープライズCTO: Cognition公式サイトでデモを依頼、自社のユースケースに適合するか検証
  2. 個人開発者: CursorやLovableを試し、「自律型エージェント」の概念を体験
  3. AI技術者: LangChainでマルチエージェント開発を学び、Devinのような自律型システムの構築を研究

関連記事

➡️

【2025年版】AIコーディング革命:Cursor・Devin等5社を徹底解説

➡️

Chain of Thought:LLMの推論能力を引き出すプロンプト技術


参考リソース

Cognition Labs公式

  • Cognition公式サイト
  • Devin紹介記事
  • Devin 2.0発表
  • Devin 2025 Performance Review
  • Windsurf買収発表
  • SWE-1.5発表
  • Devin料金ページ

テックメディア報道

  • TechCrunch - Cognition acquires Windsurf
  • CNBC - Goldman Sachs testing Devin
  • VentureBeat - Cognition emerges from stealth

独立評価

  • Answer.AI - Thoughts On A Month With Devin
  • The Register - First AI software engineer is bad at its job

Scott Wu関連

  • Scott Wu - Wikipedia
  • Lenny's Newsletter - Inside Devin
  • Analytics India Magazine - Meet the Creator of Devin

本記事はネクサフローのAI研究シリーズの一部です。

この記事の著者

中村 知良

中村 知良

代表取締役

早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。

この記事をシェア

XFacebookはてなLinkedIn

目次

  • この記事でわかること
  • 基本情報
  • Devinとは?自律型AIソフトウェアエンジニアの全貌
  • Devinの基本コンセプト
  • 誰が、何に困っていたのか
  • Devinが解決する3つの課題
  • 料金プラン(2025年4月更新)
  • Devinの使い方:3つの利用方法
  • Scott Wu:天才プログラマーの頭の中
  • 9歳の少年が見つけた「魔法」
  • 14歳で世界1位——「すべては数学の問題」
  • Lunchclubでの「予行演習」
  • 「何年も頭の中でプレイしてきたゲーム」
  • Devinの技術アーキテクチャ
  • コアとなるLLM基盤
  • 3つの基本コンポーネント
  • 開発者ツールキット
  • Reason → Act → Observe → Correct ループ
  • サンドボックス環境と人間承認
  • マルチエージェント機能
  • Devin 2.0(2025年4月)の新機能
  • SWE-1.5:Cognition独自の高速コーディングモデル(2025年10月)
  • Windsurf Codemaps(2025年11月)
  • 実際の性能と導入効果
  • PRマージ率67%の内訳
  • エンタープライズ導入事例
  • パフォーマンス改善の推移
  • Devinのスキルプロファイル
  • 批判的評価と限界
  • 期待と現実——Answer.AIの1ヶ月
  • 20タスク中、成功はわずか3つ
  • 「どのタスクが成功するか、予測できない」
  • 「存在しない機能」を1日かけて探し続ける
  • Cognitionへの辛辣な批判
  • それでもDevinを使う意味はあるのか?
  • Windsurf買収と統合戦略
  • 三つ巴の争奪戦
  • 統合戦略:IDE + エージェントの融合
  • 財務的成果
  • 競合との差別化
  • Devin vs Cursor 徹底比較
  • Devin vs GitHub Copilot
  • Devin vs Amazon Q Developer
  • Devin vs Salesforce Agentforce
  • Devinの4つの差別化ポイント
  • 資金調達と評価額推移
  • ラウンド別の詳細
  • ARRの急成長
  • 効率的な成長
  • 今後のロードマップと展望
  • 短期目標(2025年末)
  • 予想される開発
  • ハイブリッドワークフォースのビジョン
  • 日本市場への示唆
  • よくある質問(FAQ)
  • まとめ:Devinは「本物」なのか?
  • Devinの本質
  • 主要ポイント
  • 次のステップ
  • 関連記事
  • 参考リソース
  • Cognition Labs公式
  • テックメディア報道
  • 独立評価
  • Scott Wu関連

シェア

B!

次に読む

【2025年版】AIコーディング革命:Cursor・Devin等5社を徹底解説

【2025年版】AIコーディング革命:Cursor・Devin等5社を徹底解説

次に読む

関連記事

【2025年版】AIコーディング革命:Cursor・Devin等5社を徹底解説

【2025年版】AIコーディング革命:Cursor・Devin等5社を徹底解説

2025年、AIコーディング市場は急成長中。評価額$29BのCursorから自律型エージェントDevinまで、注目スタートアップ5社のプロダクト・創業者・資金調達を徹底解説。

2026/01/17
AIスタートアップ
【論文解説】Chain-of-Thought: LLMの推論能力を覚醒させたプロンプト技法

【論文解説】Chain-of-Thought: LLMの推論能力を覚醒させたプロンプト技法

2022年、26歳の研究者Jason WeiがGoogle Brainで発見したChain-of-Thought(CoT)は、AI開発の常識を覆しました。PaLM 540Bでも17.9%だった算数問題の精度が、たった8個の例題追加で58.1%に跳ね上がる——数千億円の計算資源より、プロンプトの工夫が効果的だったのです。Weiはその後Google→OpenAI→Metaを5年で経験し、o1モデルでCoTを「訓練する能力」へ進化させました。スケール戦争からプロンプト戦争へ、AI研究の転換点となった論文です。

2026/01/12
AIパフォーマンス向上

まずは無料相談・資料請求

AIやDXの導入について、具体的な進め方や費用対効果など、まずはお気軽にご相談ください。貴社の状況に合わせた最適なプランをご提案します。

お問い合わせ

お気軽にご相談ください