ブログ

AI、データ活用、業務改善に関する最新情報やNexaflowの取り組みをお届けします

【論文解説】Transformer: 全てのLLMの原点「Attention Is All You Need」

24分で読める|

AI新技術革新データ分析

AIサマリー

Transformerアーキテクチャは、全ての現代の大規模言語モデル（LLM）の基盤であり、Self-Attentionにより並列処理を実現し、長距離依存を直接モデリングすることで性能を向上させました。機械翻訳タスクでのSOTA達成や、GPT、BERT、Claudeなどのモデルへの影響を通じて、AI分野に革命をもたらしました。理解することで、適切なモデル選択や限界の把握が可能になります。

「それは無理だ」

著名な計算言語学者Hans Uszkoreitは、息子Jakobの仮説を一蹴しました。「再帰なしで翻訳？ Attentionだけで十分？そんなはずがない」

2017年当時、自然言語処理の世界ではRNN（再帰型ニューラルネットワーク）が絶対的な存在でした。言語を理解するには「順番に処理する」しかない——これが常識だったのです。

しかしJakobは諦めませんでした。Google Brainの7人の仲間と共に、常識に挑戦する論文を書き上げました。タイトルは「Attention Is All You Need」——ビートルズの「All You Need Is Love」のパロディです。

学会は懐疑的でした。しかし実験結果は衝撃的でした。翻訳性能は従来記録を更新し、学習時間はわずか3.5日。そして何より——全ての単語を並列処理できる。GPUの性能を最大限に引き出せるのです。

それから9年。この論文は6万回以上引用され、ChatGPT、GPT-4、Claude、Gemini——現代AIの「ほぼ全て」の基盤となりました。

そして驚くべきことに、8人の著者全員がGoogleを退社。7人がスタートアップを創業し、1人はOpenAIへ。生み出した価値は合計約1.2兆円。父親の懐疑は、息子の確信に変わりました。

本記事では、このAI革命の原点となった技術の全貌に迫ります。

本記事の表記について

下線付きの用語にカーソルを合わせると解説が表示されます

関連記事: 本記事は「AIエージェント論文おすすめ9選」の詳細解説記事です。他の論文も合わせてご覧ください。

本記事でわかること

Self-Attentionの仕組み: 全ての単語を同時に参照し、並列処理を実現するメカニズム
RNN/LSTMを超えた理由: 逐次処理の制約を克服し、長距離依存を直接モデリング
現代AIへの影響: GPT、BERT、Claudeなど全てのLLMの基盤となった革新的アーキテクチャ

基本情報

項目	内容
トピック	Transformer（Attention Is All You Need）
カテゴリ	論文解説
難易度	中級
発表	NeurIPS 2017（Google）
arXiv	1706.03762

Transformerの仕組みを図解で理解

Transformerの核心は、Self-Attentionメカニズムです。従来のRNNが「順番に処理する」のに対し、Transformerは「全体を一度に見る」ことができます。

Transformerアーキテクチャの全体像

Self-Attention：全ての単語が全ての単語を参照

Self-Attention は、入力文の各単語が他の全ての単語との関連性を計算する仕組みです。

入力: "猫がマットの上に座った"

[猫] → [猫, が, マット, の, 上, に, 座った] との関連度を計算
[が] → [猫, が, マット, の, 上, に, 座った] との関連度を計算
...

計算式:

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V

Q (Query): 「何を探しているか」を表すベクトル
K (Key): 「何を持っているか」を表すベクトル
V (Value): 実際の情報を持つベクトル

Multi-Head Attention：複数の視点で同時に注目

1つのAttentionだけでは、1つの観点からしか関係性を捉えられません。Multi-Head Attention は、複数のAttentionを並列実行することで、様々な観点からの関係性を同時に学習します。

Head 1: 文法的な関係（主語-動詞）
Head 2: 意味的な関係（猫-座る）
Head 3: 位置的な関係（近くの単語）
...

論文では8つのHeadを使用しています。

Positional Encoding：単語の位置情報を付与

Self-Attentionは全ての単語を同時に処理するため、単語の順序情報が失われます。これを補うのがPositional Encoding（位置エンコーディング） です。

PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

三角関数を使うことで、以下のメリットがあります。

どんな長さの文でも対応可能
相対的な位置関係を学習しやすい
学習パラメータが不要

Encoder-Decoder構造

Transformerは、**Encoder（入力を理解）とDecoder（出力を生成）**の2つの部分から構成されます。

Encoder（6層）:

Self-Attention層
Feed Forward層
各層の後にLayer Normalization

Decoder（6層）:

Masked Self-Attention層（未来の情報を見せない）
Encoder-Decoder Attention層
Feed Forward層

ここまでのポイント: Transformerの仕組みは理解できました。では、なぜこれほど「革命的」だったのでしょうか？ 当時の常識を知ると、その革新性が見えてきます。

なぜTransformerは革新的だったのか

従来のRNN/LSTM vs Transformer比較

RNN/LSTMの問題点

問題	内容
逐次処理	単語を1つずつ処理するため、並列化ができない
長距離依存	文が長くなると、最初の情報が失われる（勾配消失）
学習の遅さ	GPUの並列性能を活かせない

CNNの問題点

問題	内容
限定的な受容野	一度に見れる範囲が限られる
長距離依存	遠くの単語を参照するには多層化が必要

Transformerが解決したこと

並列処理: 全ての単語を同時に処理でき、学習が高速化
長距離依存: Self-Attentionで任意の2単語間の関係を直接計算
スケーラビリティ: パラメータを増やすほど性能が向上

ここまでのポイント: RNN/LSTMの限界は理解できました。Transformerが「理論的には」優れていることも分かりました。では、実際にどれほどの性能差が出たのでしょうか？

実験結果：どれくらい性能が出たのか

機械翻訳タスク

ベンチマーク	従来SOTA	Transformer	改善
WMT 2014 英独翻訳	25.8 BLEU	28.4 BLEU	+2.6
WMT 2014 英仏翻訳	40.4 BLEU	41.0 BLEU	+0.6

BLEU: 機械翻訳の精度を測る指標。数値が高いほど優れた翻訳を意味します。

学習効率

指標	内容
学習時間	3.5日（8 GPU）
パラメータ数	65M（base）/ 213M（big）
学習コスト	従来手法の1/4以下

特筆すべきは、SOTA（最高性能）を達成しながら学習コストが大幅に削減された点です。

ここまでのポイント: 性能向上と効率化を同時に達成——これだけでも十分に革新的です。しかし、Transformerの影響はここから始まりました。わずか1年後、AI業界は劇的に変わります。

後続への影響：現代AIの基盤

Encoder系モデル

モデル	年	特徴
BERT	2018	双方向理解、穴埋めタスク
RoBERTa	2019	BERTの最適化版
ALBERT	2019	軽量化BERT

Decoder系モデル

モデル	年	特徴
GPT	2018	生成特化、自己回帰
GPT-2	2019	大規模化（1.5B）
GPT-3	2020	Few-shot学習（175B）
GPT-4	2023	マルチモーダル

Encoder-Decoder系モデル

モデル	年	特徴
T5	2019	テキストtoテキスト統一
BART	2019	ノイズ除去事前学習

現在のLLM

モデル	開発元	ベース
Claude	Anthropic	Transformer
GPT-4o	OpenAI	Transformer
Gemini	Google	Transformer
Llama	Meta	Transformer

全ての現代LLMがTransformerを基盤としているという事実が、この論文の影響力を物語っています。

ここまでのポイント: 技術的影響は計り知れません。しかし、Transformerが生み出したのは技術だけではありませんでした。8人の著者は、全員が驚くべき道を歩みます。

【驚きの事実】著者8人のその後

論文の8人の著者は、全員がGoogleを退社しました。その後の活躍は驚異的です。

8人の「その後」一覧

著者	退社年	創業・参加先	評価額/調達額
Illia Polosukhin	2017	NEAR Protocol	5億ドル調達
Aidan N. Gomez	2019	Cohere	評価額55億ドル
Jakob Uszkoreit	2021	Inceptive	1.2億ドル調達
Noam Shazeer	2021	Character.AI→Google復帰	25億ドルで買収
Niki Parmar	2021	Essential AI→Anthropic	Claude 3.7開発
Łukasz Kaiser	2021	OpenAI	GPT-4、o1、o3開発
Ashish Vaswani	2023	Essential AI	6,500万ドル調達
Llion Jones	2023	Sakana AI	日本発AIスタートアップ

合計創出価値: 約80億ドル超（約1.2兆円）

「へー」となるエピソード

20歳のインターンがCEOに: Aidan N. Gomezは論文執筆時、Google Brainのインターン（20歳）でした。現在はCohere CEO、評価額55億ドル企業を率いています。TIME100 AI（2023年）にも選出されました。

辞めて27億ドルで買い戻された男: Noam Shazeerは2021年、「Googleが保守的すぎる」と退社してCharacter.AIを創業。2024年、Googleが25億ドルで彼を「買い戻し」ました。

父親の懐疑を覆した息子: Jakob Uszkoreitの「Attentionだけで十分」という仮説は、著名な計算言語学者である父Hans Uszkoreitですら懐疑的でした。現在、JakobはAIでRNA医薬品を設計するInceptiveを経営しています。

FAQ

Q1. なぜ「Attention Is All You Need」というタイトルなのか？

ビートルズの名曲「All You Need Is Love」（1967年）のパロディです。従来、RNNやCNNが必須とされていた自然言語処理において、「Attentionだけで十分」という挑発的なメッセージを込めています。

技術的な主張（RNN/CNNを使わずAttentionのみでSOTA達成）と、ポップカルチャーへのオマージュを兼ねた絶妙なタイトルです。このキャッチーさも、論文が広く知られるようになった一因かもしれません。

Q2. Self-AttentionとAttentionの違いは？

Attention（従来）: Encoder-Decoder間など、異なる系列間の関係を計算

Self-Attention: 同じ系列内での単語間の関係を計算

Self-Attentionにより、入力文の内部構造を理解できるようになりました。

Q3. なぜTransformerは長い文脈が苦手なのか？

Attentionの計算量がO(n^2)（nは系列長）のため、文が長くなると計算コストが急増します。

例えば、1000トークンなら100万回、10000トークンなら1億回の計算が必要です。この問題を解決するため、Sparse Attention、Longformer、BigBirdなどの改良手法が研究されています。

Q4. TransformerとBERT/GPTの関係は？

BERT: TransformerのEncoder部分のみを使用
GPT: TransformerのDecoder部分のみを使用
T5: TransformerのEncoder-Decoder両方を使用

つまり、BERT/GPTはTransformerの「派生モデル」です。

Q5. 商用利用は可能？

論文自体はApache 2.0ライセンスです。Transformerアーキテクチャを使用したモデル（GPT、Claude等）は各社のライセンスに従います。

基本的にAPIを通じた商用利用は可能です。

まとめ

2017年、「Attentionだけで十分」という常識に反する仮説から始まったTransformerは、AI分野に革命をもたらしました。

主要ポイント

技術的革新: Self-Attentionで並列処理を実現し、RNN/LSTMの限界を克服
圧倒的な影響力: 6万回以上の引用、GPT・BERT・Claude・Geminiなど全LLMの基盤
人材輩出: 8人の著者全員がGoogle退社、合計約1.2兆円の価値を創出

「人に話したくなる」ポイント

タイトルはビートルズ「All You Need Is Love」のパロディ
著者の1人（Aidan）は論文執筆時、20歳のインターン → 現在は55億ドル企業のCEO
「常識を覆す」仮説は、著者の父親（著名な計算言語学者）ですら懐疑的だった

次のステップ

Self-Attentionの計算式を手を動かして理解する
Encoder系（BERT）とDecoder系（GPT）の違いを学ぶ
Chain-of-Thought論文を読み、Transformerベースの推論技術を理解する

次に読むべき論文

前の論文	次の論文
-	Chain-of-Thought

→ AIエージェント論文おすすめ9選に戻る

参考リソース

本記事はネクサフローのAI研究シリーズの一部です。

この記事の著者

中村知良

代表取締役

早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。

この記事をシェア

X Facebook はてな LinkedIn

次に読む

【論文解説】Self-Evolving AI Agents：自己進化するAIエージェントの全貌

静的なAIエージェントから自己進化型システムへ。本論文は「システム入力」「エージェントシステム」「環境」「最適化器」の4コンポーネントで構成される統一フレームワークを提案し、継続的に改善するAIエージェントの技術体系を包括的に解説。

2026/01/16

AIAIエージェント

【論文解説】A-MEM: エージェントに長期記憶を与えるAgentic Memory

A-MEMは、LLMエージェントに人間のような長期記憶を与えるフレームワークで、記憶の保存・検索・更新を自律的に行います。従来の手法に比べ、動的な経験管理が可能で、長期タスクやパーソナライズにおいて効果を発揮します。特に、複数セッション対話での性能向上が顕著です。

2026/01/12

AI新技術革新

【論文解説】Chain-of-Thought: LLMの推論能力を覚醒させたプロンプト技法

2022年、26歳の研究者Jason WeiがGoogle Brainで発見したChain-of-Thought（CoT）は、AI開発の常識を覆しました。PaLM 540Bでも17.9%だった算数問題の精度が、たった8個の例題追加で58.1%に跳ね上がる——数千億円の計算資源より、プロンプトの工夫が効果的だったのです。Weiはその後Google→OpenAI→Metaを5年で経験し、o1モデルでCoTを「訓練する能力」へ進化させました。スケール戦争からプロンプト戦争へ、AI研究の転換点となった論文です。

2026/01/12

AIパフォーマンス向上

まずは無料相談・資料請求

AIやDXの導入について、具体的な進め方や費用対効果など、まずはお気軽にご相談ください。貴社の状況に合わせた最適なプランをご提案します。

お問い合わせ

お気軽にご相談ください

ブログ

AI、データ活用、業務改善に関する最新情報やNexaflowの取り組みをお届けします

【論文解説】Transformer: 全てのLLMの原点「Attention Is All You Need」

24分で読める|

AI新技術革新データ分析

AIサマリー

「それは無理だ」

著名な計算言語学者Hans Uszkoreitは、息子Jakobの仮説を一蹴しました。「再帰なしで翻訳？ Attentionだけで十分？そんなはずがない」

それから9年。この論文は6万回以上引用され、ChatGPT、GPT-4、Claude、Gemini——現代AIの「ほぼ全て」の基盤となりました。

本記事では、このAI革命の原点となった技術の全貌に迫ります。

本記事の表記について

下線付きの用語にカーソルを合わせると解説が表示されます

関連記事: 本記事は「AIエージェント論文おすすめ9選」の詳細解説記事です。他の論文も合わせてご覧ください。

本記事でわかること

Self-Attentionの仕組み: 全ての単語を同時に参照し、並列処理を実現するメカニズム
RNN/LSTMを超えた理由: 逐次処理の制約を克服し、長距離依存を直接モデリング
現代AIへの影響: GPT、BERT、Claudeなど全てのLLMの基盤となった革新的アーキテクチャ

基本情報

項目	内容
トピック	Transformer（Attention Is All You Need）
カテゴリ	論文解説
難易度	中級
発表	NeurIPS 2017（Google）
arXiv	1706.03762

Transformerの仕組みを図解で理解

Transformerの核心は、Self-Attentionメカニズムです。従来のRNNが「順番に処理する」のに対し、Transformerは「全体を一度に見る」ことができます。

Transformerアーキテクチャの全体像

Self-Attention：全ての単語が全ての単語を参照

Self-Attention は、入力文の各単語が他の全ての単語との関連性を計算する仕組みです。

入力: "猫がマットの上に座った"

[猫] → [猫, が, マット, の, 上, に, 座った] との関連度を計算
[が] → [猫, が, マット, の, 上, に, 座った] との関連度を計算
...

計算式:

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V

Q (Query): 「何を探しているか」を表すベクトル
K (Key): 「何を持っているか」を表すベクトル
V (Value): 実際の情報を持つベクトル

Multi-Head Attention：複数の視点で同時に注目

Head 1: 文法的な関係（主語-動詞）
Head 2: 意味的な関係（猫-座る）
Head 3: 位置的な関係（近くの単語）
...

論文では8つのHeadを使用しています。

Positional Encoding：単語の位置情報を付与

Self-Attentionは全ての単語を同時に処理するため、単語の順序情報が失われます。これを補うのがPositional Encoding（位置エンコーディング） です。

PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

三角関数を使うことで、以下のメリットがあります。

どんな長さの文でも対応可能
相対的な位置関係を学習しやすい
学習パラメータが不要

Encoder-Decoder構造

Transformerは、**Encoder（入力を理解）とDecoder（出力を生成）**の2つの部分から構成されます。

Encoder（6層）:

Self-Attention層
Feed Forward層
各層の後にLayer Normalization

Decoder（6層）:

Masked Self-Attention層（未来の情報を見せない）
Encoder-Decoder Attention層
Feed Forward層

なぜTransformerは革新的だったのか

従来のRNN/LSTM vs Transformer比較

RNN/LSTMの問題点

問題	内容
逐次処理	単語を1つずつ処理するため、並列化ができない
長距離依存	文が長くなると、最初の情報が失われる（勾配消失）
学習の遅さ	GPUの並列性能を活かせない

CNNの問題点

問題	内容
限定的な受容野	一度に見れる範囲が限られる
長距離依存	遠くの単語を参照するには多層化が必要

Transformerが解決したこと

並列処理: 全ての単語を同時に処理でき、学習が高速化
長距離依存: Self-Attentionで任意の2単語間の関係を直接計算
スケーラビリティ: パラメータを増やすほど性能が向上

実験結果：どれくらい性能が出たのか

機械翻訳タスク

ベンチマーク	従来SOTA	Transformer	改善
WMT 2014 英独翻訳	25.8 BLEU	28.4 BLEU	+2.6
WMT 2014 英仏翻訳	40.4 BLEU	41.0 BLEU	+0.6

BLEU: 機械翻訳の精度を測る指標。数値が高いほど優れた翻訳を意味します。

学習効率

指標	内容
学習時間	3.5日（8 GPU）
パラメータ数	65M（base）/ 213M（big）
学習コスト	従来手法の1/4以下

特筆すべきは、SOTA（最高性能）を達成しながら学習コストが大幅に削減された点です。

後続への影響：現代AIの基盤

Encoder系モデル

モデル	年	特徴
BERT	2018	双方向理解、穴埋めタスク
RoBERTa	2019	BERTの最適化版
ALBERT	2019	軽量化BERT

Decoder系モデル

モデル	年	特徴
GPT	2018	生成特化、自己回帰
GPT-2	2019	大規模化（1.5B）
GPT-3	2020	Few-shot学習（175B）
GPT-4	2023	マルチモーダル

Encoder-Decoder系モデル

モデル	年	特徴
T5	2019	テキストtoテキスト統一
BART	2019	ノイズ除去事前学習

現在のLLM

モデル	開発元	ベース
Claude	Anthropic	Transformer
GPT-4o	OpenAI	Transformer
Gemini	Google	Transformer
Llama	Meta	Transformer

全ての現代LLMがTransformerを基盤としているという事実が、この論文の影響力を物語っています。

【驚きの事実】著者8人のその後

論文の8人の著者は、全員がGoogleを退社しました。その後の活躍は驚異的です。

8人の「その後」一覧

著者	退社年	創業・参加先	評価額/調達額
Illia Polosukhin	2017	NEAR Protocol	5億ドル調達
Aidan N. Gomez	2019	Cohere	評価額55億ドル
Jakob Uszkoreit	2021	Inceptive	1.2億ドル調達
Noam Shazeer	2021	Character.AI→Google復帰	25億ドルで買収
Niki Parmar	2021	Essential AI→Anthropic	Claude 3.7開発
Łukasz Kaiser	2021	OpenAI	GPT-4、o1、o3開発
Ashish Vaswani	2023	Essential AI	6,500万ドル調達
Llion Jones	2023	Sakana AI	日本発AIスタートアップ

合計創出価値: 約80億ドル超（約1.2兆円）

「へー」となるエピソード

FAQ

Q1. なぜ「Attention Is All You Need」というタイトルなのか？

Q2. Self-AttentionとAttentionの違いは？

Attention（従来）: Encoder-Decoder間など、異なる系列間の関係を計算

Self-Attention: 同じ系列内での単語間の関係を計算

Self-Attentionにより、入力文の内部構造を理解できるようになりました。

Q3. なぜTransformerは長い文脈が苦手なのか？

Attentionの計算量がO(n^2)（nは系列長）のため、文が長くなると計算コストが急増します。

Q4. TransformerとBERT/GPTの関係は？

BERT: TransformerのEncoder部分のみを使用
GPT: TransformerのDecoder部分のみを使用
T5: TransformerのEncoder-Decoder両方を使用

つまり、BERT/GPTはTransformerの「派生モデル」です。

Q5. 商用利用は可能？

論文自体はApache 2.0ライセンスです。Transformerアーキテクチャを使用したモデル（GPT、Claude等）は各社のライセンスに従います。

基本的にAPIを通じた商用利用は可能です。

まとめ

2017年、「Attentionだけで十分」という常識に反する仮説から始まったTransformerは、AI分野に革命をもたらしました。

主要ポイント

技術的革新: Self-Attentionで並列処理を実現し、RNN/LSTMの限界を克服
圧倒的な影響力: 6万回以上の引用、GPT・BERT・Claude・Geminiなど全LLMの基盤
人材輩出: 8人の著者全員がGoogle退社、合計約1.2兆円の価値を創出

「人に話したくなる」ポイント

タイトルはビートルズ「All You Need Is Love」のパロディ
著者の1人（Aidan）は論文執筆時、20歳のインターン → 現在は55億ドル企業のCEO
「常識を覆す」仮説は、著者の父親（著名な計算言語学者）ですら懐疑的だった

次のステップ

Self-Attentionの計算式を手を動かして理解する
Encoder系（BERT）とDecoder系（GPT）の違いを学ぶ
Chain-of-Thought論文を読み、Transformerベースの推論技術を理解する

次に読むべき論文

前の論文	次の論文
-	Chain-of-Thought

→ AIエージェント論文おすすめ9選に戻る

参考リソース

本記事はネクサフローのAI研究シリーズの一部です。

この記事の著者

中村知良

代表取締役

この記事をシェア

X Facebook はてな LinkedIn

次に読む

まずは無料相談・資料請求

AIやDXの導入について、具体的な進め方や費用対効果など、まずはお気軽にご相談ください。貴社の状況に合わせた最適なプランをご提案します。

お問い合わせ

お気軽にご相談ください

ブログ

本記事でわかること

基本情報

Transformerの仕組みを図解で理解

Self-Attention：全ての単語が全ての単語を参照

Multi-Head Attention：複数の視点で同時に注目

Positional Encoding：単語の位置情報を付与

Encoder-Decoder構造

なぜTransformerは革新的だったのか

RNN/LSTMの問題点

CNNの問題点

Transformerが解決したこと

実験結果：どれくらい性能が出たのか

機械翻訳タスク

学習効率

後続への影響：現代AIの基盤

Encoder系モデル

Decoder系モデル

Encoder-Decoder系モデル

現在のLLM

【驚きの事実】著者8人のその後

8人の「その後」一覧

「へー」となるエピソード

FAQ

Q1. なぜ「Attention Is All You Need」というタイトルなのか？

Q2. Self-AttentionとAttentionの違いは？

Q3. なぜTransformerは長い文脈が苦手なのか？

Q4. TransformerとBERT/GPTの関係は？

Q5. 商用利用は可能？

まとめ

主要ポイント

「人に話したくなる」ポイント

次のステップ

次に読むべき論文

参考リソース

中村 知良

この記事をシェア

関連記事

【論文解説】Self-Evolving AI Agents：自己進化するAIエージェントの全貌

【論文解説】A-MEM: エージェントに長期記憶を与えるAgentic Memory

【論文解説】Chain-of-Thought: LLMの推論能力を覚醒させたプロンプト技法

まずは無料相談・資料請求

ブログ

本記事でわかること

基本情報

Transformerの仕組みを図解で理解

Self-Attention：全ての単語が全ての単語を参照

Multi-Head Attention：複数の視点で同時に注目

Positional Encoding：単語の位置情報を付与

Encoder-Decoder構造

なぜTransformerは革新的だったのか

RNN/LSTMの問題点

CNNの問題点

Transformerが解決したこと

実験結果：どれくらい性能が出たのか

機械翻訳タスク

学習効率

後続への影響：現代AIの基盤

Encoder系モデル

Decoder系モデル

Encoder-Decoder系モデル

現在のLLM

【驚きの事実】著者8人のその後

8人の「その後」一覧

「へー」となるエピソード

FAQ

Q1. なぜ「Attention Is All You Need」というタイトルなのか？

Q2. Self-AttentionとAttentionの違いは？

Q3. なぜTransformerは長い文脈が苦手なのか？

Q4. TransformerとBERT/GPTの関係は？

Q5. 商用利用は可能？

まとめ

主要ポイント

「人に話したくなる」ポイント

次のステップ

次に読むべき論文

参考リソース

中村 知良

この記事をシェア

関連記事

中村知良

中村知良