この記事の要約
Vibe Coding で出会うAIエージェントOSSは、同じ土俵の競合ではありません。multi-agent framework、eval/red team、design skill、context DB、simulation sandbox、model training harness、safety-bypass research tool という7カテゴリで整理し、導入前に見るべき論点をまとめます。
Vibe Coding 周辺では「今追うべき AI エージェント OSS 7 選」のような記事が増えています。ただ、実務で重要なのはどの repo が一番バズっているかではなく、その OSS が何の責務を持ち、どこまで production flow に入れてよいかです。
TheAgency、promptfoo、Impeccable、OpenViking、nanochat、Heretic のようなプロジェクトは、同じ「AI エージェントツール」という箱に入っていても役割がまったく違います。さらに、social simulation のように research 寄りで、日常開発の中心には置きにくいカテゴリもあります。
本記事では、Fireship の動画で話題になった周辺プロジェクト群を、そのまま「2026 年最新ランキング」として消費するのではなく、7 つのカテゴリに分けて整理します。各カテゴリについて、公式 README や docs で確認できる範囲の役割と、導入前に見るべき論点をまとめます。
この記事の前提
AI コーディング領域全体の product surface を見たい場合は、AIコーディングツール5カテゴリ比較 も参照してください。
| 項目 | 内容 |
|---|---|
| トピック | Vibe Coding 周辺の AI エージェント OSS |
| カテゴリ | トレンド / 技術解説 |
| 対象読者 | エンジニアリング責任者、AI 導入を検討する CTO、platform team |
| 読み方 | 「最新ツール紹介」ではなく、導入前の切り分け表として読む |
最初に押さえたいのは、ここで扱う 7 カテゴリが同じ problem を解いているわけではないという点です。
| カテゴリ | 代表例 | README / docs で確認しやすい役割 | 導入前に見るべきこと |
|---|---|---|---|
| Multi-agent development framework | TheAgency | Claude Code 上で複数 agent、workstreams、knowledge、quality gate を運用する枠組み | repo 規約、handoff、human approval、作業分担 |
| Eval / red team | promptfoo | LLM app の評価、比較、red teaming、CI/CD 連携 | 評価データ、security review、CI への組み込み |
| Design skill / anti-pattern guard | Impeccable | frontend design 用の skill bundle と design anti-pattern の検出 | 既存 design system との相性、導入先ツール、レビュー責任 |
| Context database | OpenViking | memory / resources / skills を filesystem 的に扱う context 管理 | storage 設計、retrieval 可観測性、provider 依存、運用負荷 |
| Simulation sandbox | social simulation 系プロジェクト | 複数 agent に外部シグナルを渡して議論させる実験環境 | データ provenance、評価方法、言語対応、production との距離 |
| Model training harness | nanochat | tokenization から pretraining、finetuning、evaluation、chat UI までを含む実験基盤 | GPU 予算、学習データ、再現性、研究体制 |
| Safety-bypass research tool | Heretic | safety alignment / censorship removal を自動化する研究ツール | 組織ポリシー、法務、隔離環境、用途制限 |
この表からわかるように、TheAgency vs promptfoo や OpenViking vs nanochat は、置き換え関係ではありません。比較する前に、自分が欲しいのは orchestration なのか、evaluation なのか、memory なのか、research sandbox なのかを分ける必要があります。
ツール名より先に、次の 5 問に答えると判断がぶれにくくなります。
| 問い | 向きやすいカテゴリ |
|---|---|
| 複数の agent に役割分担させたい | TheAgency のような multi-agent framework |
| AI 出力を評価し、脆弱性を見つけたい | promptfoo のような eval / red team |
| 生成 UI の質を上げたい | Impeccable のような design skill |
| 長期記憶や context を整理したい | OpenViking のような context database |
| 独自モデルを育てたい | nanochat のような training harness |
特に TheAgency や OpenViking のようなツールは、agent が何を参照し、何を学習済みの前提にするかをファイルや階層として管理します。ここが曖昧だと、agent 数を増やしても再現性が出ません。
この線引きは早めに決めるべきです。
導入の成否は「賢さ」より誰が承認するかで決まりやすいです。
特に red team、guardrail removal、独自モデル学習は、技術判断だけでは終わりません。
ここでは、比較的 production flow に近づけやすい 4 カテゴリを見ます。
TheAgency の README は、Claude Code 上で複数 agent を動かし、agent knowledge、workstreams、principals、quality gates を持つconvention-over-configuration な multi-agent frameworkとして整理しています。
ここで重要なのは、「agent を増やせること」よりも、knowledge をどこに蓄積し、handoff をどう記録し、人間がどこで承認するかが先に定義されている点です。
| 論点 | 見るべきこと |
|---|---|
| 役割分割 | 何人分の agent を置くかではなく、どの責務で切るか |
| handoff | 依頼・成果物・次 action をどこへ残すか |
| 品質 gate | tests / lint / review を agent 任せにしすぎないか |
| 人間の承認点 | commit、push、PR、deploy のどこで止めるか |
promptfoo の README では、LLM evals & red teaming を主目的にした CLI / library として整理されており、モデル比較、vulnerability scanning、CI/CD integration まで含めて運用できるようになっています。現在は OpenAI の一部ですが、README と company update では open source / MIT license は維持すると明記されています。
| 論点 | 見るべきこと |
|---|---|
| 評価軸 | 何を良い出力とみなすかが先に定義されているか |
| 失敗時の運用 | eval failure を誰が直すか |
| provider 差分 | model ごとに同じ prompt をそのまま比較してよいか |
| security scope | red team の対象をどこまで広げるか |
Impeccable は README 上で、frontend design に特化した skill bundle と anti-pattern detector として説明されています。18 個の command と、typography / color / motion / responsive design などの reference を持つ構成です。
つまり Impeccable は runtime の agent platform ではなく、生成済みの UI をどの観点で直すかを AI に教える design skillと見るのが正確です。
| 論点 | 見るべきこと |
|---|---|
| 正本 | Figma / design tokens / 実装済み CSS のどれを source of truth にするか |
| 対象ツール | Cursor、Claude Code、Codex などどこで使うか |
| 人手レビュー | 見た目の一貫性を誰が最終判断するか |
| 過剰修飾 | polish 系 command を production 要件より優先しすぎないか |
OpenViking の README は、memory / resources / skills を viking:// の filesystem paradigm で扱う context database として整理しています。tiered context loading、recursive retrieval、visualized retrieval trajectory、automatic session management が中心概念です。
従来の「vector DB に全部入れる」より、agent が扱う context を階層化し、何をどの粒度で読み込んだかを追跡したいときに意味が出ます。
| 論点 | 見るべきこと |
|---|---|
| 導入コスト | provider、storage、server 運用を許容できるか |
| 境界 | 既存 RAG / vector DB とどう共存させるか |
| 可観測性 | retrieval log を誰が見るか |
| 長期運用 | session memory をどこまで自動で昇格させるか |
ここからは、production の中心より研究や検証で隔離して扱う方が安全なカテゴリです。
このカテゴリは、外部データやニュース、イベントを複数 agent に渡して、議論や予測をさせるタイプの実験環境です。動画で取り上げられた例のように見た目は派手ですが、実務で必要なのは「賢そうに議論すること」ではなく、その出力をどう評価し、どこまで意思決定に使えるかです。
nanochat の README では、single GPU node で tokenization、pretraining、finetuning、evaluation、inference、chat UI まで扱える experimental harness として説明されています。これは「すぐ使える coding agent」というより、小型 LLM を自前で育てる研究基盤です。
| 論点 | 見るべきこと |
|---|---|
| GPU 予算 | README の例は一例で、実コストは環境依存 |
| 学習データ | rights と quality を自分たちで持てるか |
| 再現性 | 研究メモと run 管理をどこまで残すか |
| 期待値 | hosted frontier model の代替ではなく、実験用ハーネスとして見るか |
Heretic の README は、language model の censorship や safety alignment を automatic に除去する研究ツールとして書かれています。abliteration / directional ablation の最適化を自動化するもので、README 自体も research feature として位置づけています。
このカテゴリは「強い agent を作る近道」ではありません。むしろ、production に安易に入れてはいけないカテゴリです。
ランキングで消費するより、次の順で考えると失敗しにくくなります。
repo、rules、knowledge file、PR review をどう回すかを決める段階です。ここでは TheAgency のような multi-agent framework の考え方が役立ちます。
agent の autonomy を増やす前に、promptfoo のような評価基盤を先に入れた方が事故を減らせます。生成品質と安全性を測れないまま自動化だけ進めると、後で回収コストが跳ねます。
どちらも便利ですが、最初から全部載せる必要はありません。
nanochat や Heretic、social simulation 系は、実験として価値があっても production の主線とは別です。repo、権限、予算、レビュー責任を分けて運用した方が安全です。
公式 README と company update では、OpenAI の一部になった後も open source / MIT license は維持すると案内されています。ただし、機能や商用プランの位置づけは変わりうるため、導入前に current docs を確認してください。
完全な置き換えというより、agent が使う context を memory / resources / skills として整理する別レイヤーと見る方が正確です。既存 RAG と共存させる設計もあり得ます。
小型モデル研究の入口としては有力ですが、安い = 運用が簡単ではありません。GPU、データ、評価、再現性まで含めて回せる体制が必要です。
一般的なプロダクト開発では推奨しません。研究用途でも、ポリシー、法務、隔離環境、ログ管理を前提に扱うカテゴリです。
多くのチームでは、repo 規約の明文化と eval / red team の整備から始めるのが現実的です。その後、必要に応じて design skill や context database を足すのが堅実です。
Vibe Coding 周辺の OSS は、1 枚のランキング表に押し込むと判断を誤ります。TheAgency は orchestration、promptfoo は evaluation、Impeccable は design guard、OpenViking は context、nanochat は training、Heretic は research です。まずは何を自動化したいか、どこまで production に入れるかを分けて考えるべきです。
とくに durable な順で言えば、source of truth の整備 → eval / red team → 必要に応じた design / context 補強 → research の隔離という順で見ると、流行語に振り回されにくくなります。
本記事はネクサフローのAIトレンドシリーズの一部です。
この記事の著者

代表取締役
早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。
次に読む

Y Combinator の対談で語られたBCIの考え方を、用途分類、脳の学習、感覚回復の設計、長期研究の読み方という4つの観点で整理します。

Sequoiaの「Services: The New Software」を、個別スタートアップの資金調達や市場規模の実況ではなく、AI企業がツールを売るのか、仕事の成果を売るのかを決めるための事業設計フレームとして読み直します。

a16zの週刊チャートが示す3つの構造転換を徹底解説。ホルムズ海峡危機で原油45%急騰、SaaS株1兆ドル消失の「SaaSpocalypse」、ライドシェア手数料33%増の搾取構造。日本市場への影響と対策を独自分析。