この記事の要約
CMU・NYU発の新概念Epiplexityを解説。シャノンエントロピーの限界を超え、計算制約下のAI学習可能性を定量化。データ拡張・カリキュラム学習・LLM汎用能力の3つのパラドックスを統一的に解決する。
なぜ画像を回転させるだけでAIモデルの精度が上がるのか?なぜ「簡単なデータから学ぶ」と性能が向上するのか?——シャノンの情報理論では、これらの現象を説明できません。
2026年、CMUとNYUの研究チームが発表した「Epiplexity(エピプレキシティ)」は、この矛盾に答えを出しました。計算資源が有限なAIモデルにとって「何が学習可能か」を測る、新しい情報理論の尺度です。
本記事では、この論文の核心を解説します。Transformerの仕組みやChain-of-Thought推論を理解している方であれば、AIの学習メカニズムへの理解がさらに深まるはずです。
本記事の表記について
| 項目 | 内容 |
|---|---|
| トピック | Epiplexity(情報理論) |
| カテゴリ | 論文解説 |
| 難易度 | 上級 |
| 発表 | arXiv 2026年1月(CMU, NYU) |
| arXiv | 2601.03220 |
クロード・シャノンが1948年に提唱した情報理論は、理想的な符号化に基づいています。
H(X) = -Σ p(x) log p(x)
この数式は「データ X を完全に記述するために必要な最小ビット数」を表します(符号長と呼ばれます)。
しかし、シャノンエントロピーには重大な前提があります:
実際のAIモデル(GPT、BERT、ResNetなど)には厳しい計算制約があります。
| 理論の仮定 | 現実のAIモデル |
|---|---|
| 無限の計算資源 | 有限のパラメータ数 |
| 最適な符号化 | 勾配降下法(段階的な最適化)による近似 |
| 分布は既知 | データから学習(分布は未知) |
この乖離が、従来の情報理論では説明できない現象を生み出しています。


Data Augmentation(データ拡張) は、画像を回転・反転・ノイズ付加することでモデルの精度を向上させる技術です。
元画像 → 回転・反転・ノイズ付加 → 拡張データ → モデル精度向上
決定論的変換では情報量は変化しません(むしろ減少)。数式では H(f(X)) ≤ H(X) となります。
Data Augmentationでモデル性能が大幅に向上します。
変換によって「計算制約のあるモデルが学習可能な側面」が増加します。同じ情報量でも、モデルが利用しやすい形式に変換されているためです。
Curriculum Learning(カリキュラム学習) は、簡単なデータから難しいデータへと学習順序を工夫する技術です。
簡単 → 普通 → 難しい → 高効率な学習
データ集合の情報量は順序に依存しません。
学習順序によって最終的なモデル性能が大きく変わります。
SGD(確率的勾配降下法) を使うモデルにとって、データの順序は「いつ・どの情報を吸収できるか」に影響します。Epiplexityはこの順序依存性を捉えます。
LLMの事前学習は、次のトークンを予測する(尤度を最大化する)だけです。しかし、分類・生成・推論など多様なタスクで高性能を発揮します。
事前学習(尤度最大化) → 分類/生成/推論など複数の下流タスクで高性能
尤度モデリングは単に学習データの分布を再現しているだけです。
LLMは学習データに含まれない新しいタスクも解けます(ゼロショット能力)。
モデルは単なる分布マッチングではなく、構造的なパターンを学習しています。Epiplexityは、この「構造化された学習」を正しく評価します。
Epiplexityの中核はPrequential Coding(予測的逐次符号化) という符号化方式です。これは、データをオンラインで圧縮しながら学習する手法です。
def prequential_codelength(data, model, learning_algorithm):
"""
データをオンラインで圧縮しながら学習する
"""
total_codelength = 0
for i, x_i in enumerate(data):
# 現在のモデルでx_iを予測
prob = model.predict_probability(x_i)
codelength = -log(prob)
total_codelength += codelength
# モデルを更新
model = learning_algorithm.update(model, x_i)
return total_codelength
この符号長の期待値がEpiplexityです。
データ分布 P、モデルアーキテクチャ M、学習アルゴリズム A に対して、Epiplexityは次のように定義されます:
Epiplexity(P | M, A) = E[Σ -log p_θ_t(x_{t+1})]
ここで θ_t は、データ x_1, ..., x_t を学習した後のモデルパラメータです。
| 尺度 | 何を測るか | 計算資源の仮定 |
|---|---|---|
| エントロピー | 理論的な最小符号長 | 無限 |
| Epiplexity | 特定のモデルが達成できる符号長 | 有限(現実的) |
重要な性質:Epiplexity ≥ Entropy
どんなモデル・アルゴリズムを使っても、シャノンエントロピー以下にはなりません。
論文では、Epiplexityを使ったデータ選択が下流タスクの性能と強く相関することを示しています。
実験設定:
結果:
Epiplexityが低い(効率的に学習できる)データセットほど、下流タスクでの性能が高い傾向が確認されました。
EpiplexityはOOD汎化(Out-of-Distribution汎化) とも関連します。OOD汎化とは、学習時に見たことがないデータ分布に対しても高い性能を発揮する能力です。
以下のメカニズムが働きます:
Epiplexityの観点から、良いデータセットは以下の特徴を持ちます:
LLMの事前学習において、Epiplexityは以下の最適化に活用できます:
以下の研究テーマが期待されています:
はい、Prequential Codingに基づいて計算可能です。
ただし、大規模なデータセット・モデルでは計算コストが高くなります。論文では効率的な近似手法も提案されています。
いいえ、エントロピーは依然として重要です。
エントロピーは理論的下限を与える基礎的な指標です。Epiplexityは「実用的な学習可能性」を評価する補完的な指標として使うのが適切です。
理論的には可能です。
変換前後のEpiplexityを比較することで、その変換がモデルの学習にどう影響するかを予測できる可能性があります。
はい、適用可能です。
Epiplexityは言語に依存しない一般的な枠組みです。日本語データセットの評価にも使えます。
論文では、同じモデルで複数のデータセットを評価しています。
Epiplexityが低い(効率的に学習できる)データセットほど、下流タスクの性能が高くなることが示されています。事前学習データの選定や、ファインチューニングデータの品質評価に応用できます。
Epiplexityは、計算制約のあるAIモデルにとって何が学習可能かを定量化する新しい情報理論の尺度です。
本記事の内容を活用するための具体的なアクションです:
本記事はネクサフローのAI研究シリーズの一部です。
この記事の著者

代表取締役
早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。
次に読む

Transformerアーキテクチャは、全ての現代の大規模言語モデル(LLM)の基盤であり、Self-Attentionにより並列処理を実現し、長距離依存を直接モデリングすることで性能を向上させました。機械翻訳タスクでのSOTA達成や、GPT、BERT、Claudeなどのモデルへの影響を通じて、AI分野に革命をもたらしました。理解することで、適切なモデル選択や限界の把握が可能になります。

Chain-of-Thought(CoT)は、答えだけでなく途中の推論ステップを例示・出力させることで、複数ステップの算術や論理問題を解きやすくするプロンプト技法です。2022年の論文で報告されたGSM8Kの17.9%→58.1%という改善を起点に、Few-shot / Zero-shotの違い、モデルサイズ依存、忠実性とコストの注意点を整理します。

AIエージェント開発を理解するために参照したい一次文献11本を厳選。Transformer、CoT、ReAct などの基礎論文に加え、Computer Use、Swarm、MCP、A2A といった公式実装・仕様も含めて、設計・評価・運用の観点から読み方を整理します。