NVIDIA基調講演から読むAIインフラ設計の論点

この記事の要約

Jensen HuangのGTC keynoteをもとに、AIインフラ競争を読むときの判断軸を整理します。需要の積み上がり方、推論フローの分離、ソフトウェア層の役割、ロードマップの見方を講演ベースで読み解きます。

この記事は NVIDIA GTC keynote on YouTube の内容を基に作成しています。

このkeynoteをそのまま将来の読み筋や個社アップデートのまとめとして読むと、時間が経つにつれて古くなる要素が多くなります。いっぽうで、AIインフラをどう評価するかという観点では、需要がどこに集まるか、推論をどう分けるか、ソフトウェア層をどこまで持つか、ロードマップをどう調達判断へ引き直すかという論点が繰り返し現れます。

本記事では、講演内の強い数字や印象的なフレーズをそのまま再演するのではなく、長く使える判断軸として読み直します。AI基盤を扱うチームが、自社の設計や投資判断に引き寄せて見るためのメモとして使える構成にしました。

本記事の読み方

講演内の数値例や将来時期の表現は変わりうるため、導入判断では元動画と公式資料で最終確認してください
下線付きの用語にカーソルを合わせると解説が表示されます
NVIDIAはAI向け計算基盤とソフトウェアスタックを提供する半導体企業です
GTCはNVIDIAが開発者とインフラ担当者向けに開催する技術カンファレンスです

この記事でわかること

需要の読み筋より先に見るべき点: どこに遅延、電力、運用負荷が集まるか
Dynamoの読みどころ: モデル性能だけでなく推論の流し方をどう差別化するか
垂直統合と水平開放の見方: NVIDIAがどの層まで責任を持とうとしているか
ロードマップとデモの扱い方: 派手な発表を調達・設計判断にどう戻すか

基本情報

項目	内容
講演者	Jensen Huang（NVIDIA CEO）
ソース	NVIDIA keynote / YouTube
カテゴリ	keynote読解・AIインフラ
想定読者	基盤チーム、プロダクト責任者、技術リーダー
読み方	exact number より判断軸を優先する

この講演を読むときの4つの視点

このkeynoteを面白くしているのは、単一の大きな数字ではなく、AI基盤の競争がどの層へ移っているかを一つの物語として並べている点です。実務で見返すなら、次の4つに分けて読むと使いやすくなります。

視点	何を見るか	実務での使いどころ
需要の集まり方	どの工程で計算量、遅延、待ち時間が膨らむか	capacity planning、推論基盤の見積もり
推論の流し方	前処理と生成処理をどう分け、どう振り分けるか	inference stack、運用設計
層の持ち方	チップだけでなく、どこまでソフトウェアを持つか	platform strategy、vendor評価
roadmapの使い方	派手なデモを、いつ何を検証するかに戻せるか	調達計画、検証順序、社内説明

以下では、この4点に沿って講演の内容を整理します。

1. 需要の大きさより、どこで処理が詰まるかを見る

講演内の強い需要の主張は、そのまま将来の読み筋として受け取るより、どの部分がボトルネックになるかを示す材料として読む方が有益です。長い文脈、推論ステップの増加、複数ツールをまたぐ自動化が広がるほど、単純なGPU枚数よりも、遅延、メモリ、キュー制御、電力効率の差が重要になります。

ここで確認したいこと

バッチ系処理とリアルタイム処理が同じ基盤で競合していないか
コストをGPU単価だけでなく、処理完了までの待ち時間で見られているか
人の確認が残る工程と、完全自動化したい工程が切り分けられているか

2. NVIDIAが押し出しているのは、チップ単体より運用レイヤー

この講演で繰り返し出てくるのは、GPUそのものの性能だけでは差別化が足りず、推論をどう流し、どう監督し、どう工場のように回すかが重要になるという視点です。ここでDynamoのようなレイヤーが前面に出てくる理由も理解しやすくなります。

運用レイヤーで見るべき項目

高スループット処理と低遅延処理を分けて設計できるか
ソフトウェアが異なる計算資源を前提に最適化されているか
指標が「モデルの賢さ」だけでなく、処理効率や稼働率まで広がっているか

Dynamo 1.0：AIファクトリーの「OS」

トークン/ワットという工場KPI

NVIDIAはデータセンターを「AIファクトリー」と再定義した。工場にはOSが必要だ。それがDynamo。

19世紀のダイナモ（発電機）がシーメンスの水力を電力に変えたように、NVIDIAのDynamoはデータを知能に変える。オープンソース。

prefill/decode分離

Dynamoの核心技術はprefill（入力処理）とdecode（生成処理）の分離だ。

処理	最適なハードウェア	特性
Prefill	Vera Rubin GPU	高スループット
Decode	Groq 3 LPU	超低遅延

高スループットと超低遅延は本質的に対立する。Dynamoがこの2種のプロセッサをワークロードに応じて自動振り分けする。結果としてBlackwell上での推論性能を単体で7倍向上。

Vera Rubin + Groq統合：35倍性能向上

7チップ・5ラック・1スーパーコンピュータ

GTC 2026で発表された「7つの新チップ、5つのラックスケールシステム」は全て生産中。

チップ	役割
Vera Rubin GPU	メイン計算（Blackwell後継、電力効率10倍）
Groq 3 LPU	推論特化プロセッサ（Samsung製造、$200億買収）
BlueField	ストレージ処理
ネットワーク	NVLink 72（3.6エクサフロップス）
CPU	汎用処理

Vera RubinとGroq 3をDynamo経由で統合すると、メガワットあたりの推論スループットが35倍向上。

「サンドバッグだと言われた。彼は間違っていない」

昨年のGTCでHuangは「Blackwellは前世代比35倍のperf per watt」と宣言した。すると半導体アナリストのDylan Patel（SemiAnalysis）が指摘した──「実際は50倍。Jensenはサンドバッグだ」。

"He accused me of sandbagging. It's actually 50 times. And he's not wrong."

「彼は私がサンドバッグだと言った。実際は50倍だと。彼は間違っていない」

NVIDIAの性能向上が想定を上回り続けている現実を、Huang自身がユーモアで認めた瞬間だ。

「間違ったアーキテクチャは無料でも安くない」

"If you have the wrong architecture, even if it's free, it's not cheap enough. You still have to build a gigawatt data center. That gigawatt factory for 15 years is about $40 billion."

「間違ったアーキテクチャは、たとえ無料でも十分に安くない。1ギガワットのデータセンターを15年間運用するコストは約400億ドルだ」

GPU価格差は工場全体の10-20%。スループットの差がトークン単価の差を決める。

Vera Rubinの発表シーン（45）

トークン経済の誕生：価格ティア設計

"Tokens are the new commodity."

「トークンは新しいコモディティだ」

Huangはトークン市場を原油・電気と同じコモディティ市場として設計した。

ティア	用途	価格帯
無料	基本的なチャット	$0
低速・高スループット	バッチ処理、バックグラウンド	$3-6/M tokens
標準	日常的なAI利用	$15-45/M tokens
高速・低遅延	リアルタイムエージェント、研究	$150/M tokens

「研究者が1日5,000万トークンを使っても、100万トークンあたり150ドル。大した額ではない」

「全SaaS企業はGaaS企業になる」

OpenClaw：「Linuxが30年でやったことを数週間で超えた」

"OpenClaw is the most popular open source project in the history of humanity and it did so in just a few weeks. It exceeded what Linux did in 30 years."

NVIDIAはOpenClawの公式サポートを発表し、企業向けセキュリティ層「NemoClaw」（OpenShellポリシーエンジン+プライバシールーター付き）をリリース。

SaaS → GaaS（Agentic as a Service）

"Every single SaaS company will become a GaaS company—an Agentic as a Service company."

「全てのSaaS企業はGaaS企業になる──Agentic as a Service企業に」

"What's your OpenClaw strategy? Just as we needed a Linux strategy... every company in the world today needs to have an OpenClaw strategy."

「あなたのOpenClaw戦略は何か？LinuxやKubernetesがそうだったように、今や全企業にOpenClaw戦略が必要だ」

Neotron Coalition

NVIDIAが主導するNeotron Coalitionには、Cursor、Mistral、Perplexity、Black Forest Labs等が参加。Nemotron 4モデルの共同開発連合として機能する。

エンジニアのトークン年間予算

GTC 2026でHuangは、NVIDIAの全エンジニアに年収の50%相当のトークン予算を支給すると宣言した。

"I could totally imagine in the future every single engineer in our company will need an annual token budget... How many tokens comes along with my job?"

「将来、全エンジニアに年間トークン予算が必要になる。このジョブには何トークンついてきますか？──それが採用の決め手になる」

NVIDIAはエンジニアへのトークン支出に20億ドル（約3,000億円）を投じる計画だ。Huangのビジョンでは、今後10年でNVIDIAは人間社員7.5万人とAIエージェント750万体で構成される企業になる。

「垂直統合・水平開放」というNVIDIAの定義

"NVIDIA is the world's first vertically integrated but horizontally open company."

「NVIDIAは世界初の垂直統合・水平開放型企業だ」

チップからOS（Dynamo）、フレームワーク（CUDA）、アプリケーション（NemoClaw）まで垂直統合。だが全レイヤーがオープンで、全クラウドプロバイダーに展開される。「Appleのように垂直統合しつつ、Androidのようにオープン」──この二律背反の両立がNVIDIAの競争優位だ。

ハードウェアロードマップをどう読むか

講演で示されるロードマップは、そのまま固定仕様として扱うより、NVIDIAがどの順番でボトルネックを潰そうとしているかを見る材料として読む方が実務向きです。出荷時期や詳細仕様は、後続の公式発表と照らして確認する前提で捉えるのが安全です。

時期	アーキテクチャ	主な特徴
2024-2025	Blackwell	現行世代、推論35倍（Hopper比）
2026	Vera Rubin	電力効率10倍、100%液冷、NVLink 72
2026 Q3	Groq 3	LPU統合、Samsung製造、Dynamo連携
2027	Rubin Ultra / Kyber	CPO（コパッケージ光学）スケールアップ
2028	Feynman	TSMC A16（1.6nm）、3D積層ダイ、LP40（新LPU）

Feynman世代では新GPU + 新LPU（LP40、Groqチームと共同開発）+ 新CPU（Rosa/Roslin）+ BlueField 5 + CX10が揃う。

DLSS 5：ニューラルレンダリングの夜明け

「AIが照明・皮膚の透過散乱・布/髪の素材感をフレーム単位で注入する」

DLSS 5はフォトリアルなグラフィックスをAIで生成する技術。2026年秋リリース予定。Bethesda、CAPCOM、Ubisoft、Tencent等が開発参加。

現時点のデモはRTX 5090を2台使用（1台でゲーム、1台でDLSS 5専用）。製品版では1GPU動作を目指す。

物理AI：自動運転とロボティクス

Alpamo（推論型自動運転AI）

GTC 2026で発表されたAlpamoは「世界初の推論型自動運転AI」。Mercedesとの実走デモが行われた。

自動車メーカーの大量参加

BYD、Hyundai、Nissan、Geelyが新たにNVIDIAプラットフォームに参加。Uberとの提携も発表。

ディズニーOlafロボット

基調講演の締めに、ディズニーのOlaf（『アナと雪の女王』のキャラクター）のロボットがステージに登場。NVIDIAのNewton物理エンジンとWarpシミュレーションで制御。

物理AIとロードマップの議論（70）

よくある質問（FAQ）

Q1. 大きな需要の主張はどう扱うべきですか？

精密な将来の読み筋として使うより、「どの工程に計算需要が集まると見ているか」を示す経営メッセージとして扱うのが無難です。社内で使う場合も、調達量の断定ではなく、どの前提に依存している主張なのかを分解して読む方が安全です。

Q2. Dynamoの見どころは何ですか？

モデル単体の性能ではなく、推論フローの分離と振り分けを差別化要素として押し出している点です。高スループット処理と低遅延処理を同じ器で無理に回すのではなく、運用レイヤーで最適化する発想が中心にあります。

Q3. この講演でいう垂直統合・水平開放は何を見ればよいですか？

チップ、ネットワーク、ソフトウェア、開発者向け導線までを一体で設計しつつ、特定の利用先に閉じない構えを取っている点です。重要なのはスローガンそのものより、どの層を自前で持ち、どの層を外部と接続するかです。

Q4. ロードマップはどのように使うべきですか？

未来の仕様表としてそのまま受け取るより、「どの課題を次に潰しにいくのか」という優先順位の表明として読む方が使いやすいです。社内では、検証順序、電力計画、移行タイミングの議論に落とし込むのが実践的です。

Q5. ゲームやロボティクスのデモはどう見るべきですか？

派手な映像や印象的な実演は、技術成熟度の最終証明ではなく、「NVIDIAがどの市場を次の成長先として重視しているか」を示すシグナルとして見るのが妥当です。実導入の判断では、後続の製品発表、対応範囲、運用条件を別途確認してください。

まとめ

主要ポイント

このkeynoteは数字当てより判断軸の整理として読むと残りやすい: 需要の大きさそのものより、どこに遅延、電力、待ち行列が集まるかを見る
差別化の中心はチップ単体から運用レイヤーへ広がっている: 推論フローの分離、オーケストレーション、工場KPIの設計が前面に出ている
ロードマップとデモは優先順位の表明として読む: 何を次のボトルネックとみなし、どの市場へ資源を振るかを把握する材料になる

次のステップ

自社の推論基盤で、遅延重視とスループット重視の処理がどう混在しているか棚卸しする
チップではなく、オーケストレーションと運用指標の差で競争力を説明できるか確認する
keynoteで気になった項目は、元動画と後続の公式資料で現行仕様を別途確認する

Jensen Huang × All-In Podcast：推論1万倍、物理AI、放射線科医の逆説

参考動画

この記事は以下の動画を参考に作成しました：

NVIDIA GTC Keynote 2026 - NVIDIA

本記事はネクサフローのAI研究シリーズの一部です。

この記事の著者

中村知良

代表取締役

早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。

この記事をシェア

X Facebook はてな LinkedIn