この記事の要約
Databricksを、Lakehouseの基本設計、Lakebase・Genie・Genie Codeの位置づけ、Pricing pageの読み方、Snowflakeとの使い分け、導入時の確認ポイントから整理します。
Databricksは、データ基盤、アプリ向け Postgres、自然言語 BI、agentic workflow を一つの platform に寄せようとしている会社です。
Databricks を理解するときに先に見るべきなのは、private-company metrics や market rumor ではなく、Lakehouse / Unity Catalog / Lakebase / Genie / Genie Code がそれぞれ誰の仕事をどこまで一枚に寄せるのかです。
本記事では、公式 product page、docs、pricing、release notes、company press release を起点に、導入判断に効く論点から Databricks を整理します。
本記事の表記について
| 項目 | 内容 |
|---|---|
| 会社名 | Databricks, Inc. |
| 設立年 | 2013年 |
| 本社 | サンフランシスコ、カリフォルニア州 |
| 主要人物 | Ali Ghodsi、Matei Zaharia、Ion Stoica |
| 中核OSS | Apache Spark、Delta Lake、MLflow |
| 主なsurface | Lakehouse、Unity Catalog、Lakebase、Genie、Genie Code、Lakeflow |
| 利用クラウド | AWS、Azure、Google Cloud |
| 公式導線 | product page、docs、pricing、release notes、customer stories |
| 導入時の論点 | AI と分析を同じ platform に寄せるか、OLTP を Lakehouse に寄せるか |
| 運用時の論点 | Unity Catalog 前提の権限設計、serverless 予算管理、region 差分の確認 |
Databricksの全体像2010年代、企業のデータチームは2つの選択を迫られていました。どちらを選んでも、別の地獄が待っていました。
Data Warehouse(Snowflake等)を選ぶと:
高速なSQLクエリが可能。BIツールとの連携も簡単。しかし、構造化データしか扱えない。機械学習には向かない。そして、とにかく高い。
Data Lake(Hadoop等)を選ぶと:
非構造化データも保存可能。機械学習にも使える。コストも安い。しかし、クエリ性能が低い。データ品質の管理が困難。「データ沼」 と呼ばれるほど、混沌としていました。
結果、多くの企業は両方を併用することになります。Data WarehouseとData Lakeを別々に運用し、データを行き来させる。コストは2倍。運用の複雑さも2倍。
Databricksが提唱したLakehouse(レイクハウス) は、この問いに対する根本的な回答でした。
「Data Warehouseの性能と、Data Lakeの柔軟性を、1つのシステムで実現すればいい」
技術的には、Delta Lakeというストレージレイヤーがこれを可能にしました。
| レイヤー | 役割 |
|---|---|
| Unity Catalog | ガバナンス・メタデータ管理 |
| Delta Lake | ストレージレイヤー(ACID対応、スキーマ管理、タイムトラベル) |
| Apache Spark | 計算エンジン |
| Cloud Storage | AWS / Azure / GCP 上のオブジェクトストレージ |
Delta Lakeの3つの革新:
これは単なる技術的な改善ではありません。データアーキテクチャの哲学の転換でした。
1979年、イスラム革命がイランを揺るがしていました。その混乱の中、1977年に生まれたAli Ghodsiは幼少期を過ごします。
両親は医師でした。そして、政治的反体制派でした。
1984年、イラン・イラク戦争の最中。テヘランは空爆にさらされていました。
「街全体が暗くなり、イラクの戦闘機がテヘランを爆撃した。隣家が爆撃される光景を目撃した」
— Ali Ghodsi
5歳の少年にとって、それは理解を超えた恐怖でした。
そしてある日、イラン政府から通告が届きます。「24時間以内に国外へ出ろ」。
家族は着の身着のまま、スウェーデンへ亡命しました。
スウェーデンに逃れたGhodsi一家を待っていたのは、過酷な現実でした。
イランで医師だった両親は、スウェーデンで医師免許が認められませんでした。一家は学生寮を転々とし、福祉に頼る生活を強いられます。
"If we were upper class in Iran, we were definitely lower class in Sweden—it was welfare and all that."
「イランでは上流階級だったのに、スウェーデンでは完全に下層階級だった。福祉に頼る生活だった」
— Ali Ghodsi
ストックホルム郊外のBagarmossen(バーガモッセン)で育ったGhodsi。そこには常に「我々と彼ら」という感覚がありました。
しかし、その疎外感が、彼を駆り立てました。
"Being an outsider in Sweden gave me the drive to succeed. Of course, it's a motivator. You feel like you have to prove yourself, and you work much harder."
「スウェーデンで部外者だったことが、成功への原動力になった。もちろん、それはモチベーターだ。自分を証明しなければならないと感じ、人の何倍も努力せざるを得なかった」
— Ali Ghodsi
Ghodsiはコンピュータサイエンスに没頭しました。KTH Royal Institute of Technology(スウェーデン王立工科大学)で博士号を取得。専門は分散システム——複数のコンピュータを協調させる技術です。
なぜ分散システムだったのか?
"When I was a refugee, I learned that resilience comes from distribution. A single point of failure is dangerous—whether in life or in systems."
「難民だったとき、分散によって回復力が生まれることを学びました。単一障害点は危険です——人生でもシステムでも」
— Ali Ghodsi
24時間で祖国を追われた経験。すべてを失った経験。それが、「分散して冗長性を持つ」という技術哲学に昇華されていたのです。
2009年、GhodsiはUCバークレーのAMPLabに客員研究員として参加します。
そこで彼は、後にDatabricksを共同創業する6人の研究者と出会いました。中でもMatei Zahariaは、Apache Sparkの主要開発者でした。
Sparkは革命的でした。Hadoopの100倍高速なデータ処理。しかし、企業での導入は進みませんでした。
2009年から2012年まで、AMPLabチームはSparkを企業に売り込みました。結果は、完全な無視。
"From 2009 to 2012, none of the companies we approached paid any heed. As 'Berkeley hippies,' we were just looking for impact, but the lack of adopters created skepticism."
「2009年から2012年まで、私たちがアプローチした企業は誰も関心を示さなかった。『Berkeleyのヒッピー』として、私たちは単なる学術研究と見なされていた」
— Ali Ghodsi
しかし、Ghodsiは諦めませんでした。誰も採用しないなら、自分たちで会社を作るしかない。
「絶望からの起業」——2013年、7人はDatabricksを創業します。
Databricksの戦略で特筆すべきは、オープンソースへの徹底したコミットメントです。
Apache Spark、Delta Lake、MLflow——Databricksの中核技術はすべてオープンソース。競合も使える。なぜ、そんなことをするのか?
"Open source is not charity. It's the best way to build trust. When you give away your technology, customers know they won't be locked in. That trust becomes our competitive advantage."
「オープンソースは慈善事業ではありません。信頼を築く最良の方法です。技術を無償で提供すれば、顧客はロックインされないと分かる。その信頼が競争優位になるのです」
— Ali Ghodsi
難民として「信頼ゼロ」からスタートした経験。自分を証明しなければならないという切迫感。それが、「まず与える」というオープンソース戦略に繋がっていたのです。
Ghodsi の最近のメッセージを読むと、Databricks が次に広げたいのは 3 つの面です。
ここで重要なのは、会社の目標値そのものよりも、analytics platform から data-and-AI operating layer へ広げたいという投資順序です。直近の company press release でも、資金の使い道は Lakebase、Genie、AI research、strategic acquisition、employee liquidity に置かれていました。
| Surface | 役割 | どこで確認するか |
|---|---|---|
| Lakehouse | object storage 上で analytics と ML を回す基盤 | product page、architecture docs |
| Unity Catalog | metadata、権限、lineage、governance の中心 | governance docs |
| Lakeflow | pipeline と orchestration | release notes、data engineering docs |
| Lakebase | Lakehouse に近い位置で Postgres を扱う OLTP surface | product page、OLTP docs、release notes |
| Genie spaces | business user 向けの自然言語 BI | Genie docs、dashboard docs |
| Genie Code | notebook / SQL / jobs / file editor で使う context-aware AI | Genie Code docs、release notes |
| Knowledge Assistant | citation 付き document Q&A agent | build-agent docs、supported regions docs |
Databricks の product map は変化が速いため、keynote で聞いた名称より docs 上の現在名を優先して読む方が安全です。
Lakebase は Databricks が database layer を自社 platform に取り込むための surface です。公式 release notes を追うと、次のように段階的に広がっています。
公式 product page と docs から読み取れる Lakebase の特徴は次の通りです。
| 論点 | Databricks の説明 |
|---|---|
| 基盤 | fully managed Postgres を Lakehouse に近い位置で使う |
| 運用機能 | autoscaling、scale-to-zero、branching、point-in-time recovery |
| Lakehouse 連携 | Unity Catalog 登録、Lakehouse Federation、Delta からの sync |
| 開発用途 | Databricks Apps と組み合わせた data app、stateful AI agent、transactional app |
| 注意点 | region と rollout は段階的。workspace ごとに UI / API / availability を確認する |
重要なのは、「もう使えるらしい」ではなく、自分の workspace でどの Lakebase surface が有効かを docs と admin 権限で確認することです。
この周辺は naming change が特に速い領域です。2026年3月の release notes では、Databricks Assistant が Genie Code に改名され、Agent Bricks page は Databricks AI capabilities 全体を束ねる umbrella page に拡張されたと案内されています。
そのため、本稿では docs 上の現行 surface 名で整理します。
| Surface | 誰が使うか | 何をするか |
|---|---|---|
| Genie spaces | business user、analyst | Unity Catalog 上の data に自然言語で質問し、query と visualization を返す |
| Genie Code | data engineer、analyst、developer | chat / agent mode で multi-step task、code generation、pipeline edit、dashboard 作成を支援 |
| Knowledge Assistant | product / support / internal team | documents や vector index を元に citation 付き Q&A agent を構築する |
いま Databricks を見るなら、「Agent Bricks という単独 product がある」と理解するより、Genie spaces、Genie Code、Knowledge Assistant のような複数 surface に agentic capability が散っていると捉える方が実態に近いです。
DBRX のような model release は、当時の product strategy を読む資料としては有用ですが、現時点の best model を決める資料にはしない方がよいです。モデル選定は current docs、hosted-model availability、自前 evaluation に寄せてください。
公式 pricing page で Databricks がまず示しているのは、次の 3 点です。
加えて、公式 page では Azure Databricks の pricing は Microsoft 側が設定すると明記されています。つまり、古い blog post の DBU 単価表だけを見ても、今の見積もりにはなりません。
実務では、Databricks の月額は大きく次の束に分かれます。
実務向けの見方
競合比較Databricks と Snowflake はしばしば同じ box に入れられますが、導入判断では「どちらが勝ちか」よりも中心 workload が何かで切り分ける方が有効です。
| 観点 | Databricks | Snowflake |
|---|---|---|
| 中心 workload | data engineering、ML、agentic workflow、lakehouse | SQL analytics、consumption-heavy warehouse |
| 設計思想 | open format と Spark ecosystem を土台に広げる | curated warehouse experience を強く保つ |
| database 方向 | Lakebase で OLTP を platform に寄せる | analytics 基盤としての一貫性を優先 |
| 自然言語 surface | Genie spaces、Genie Code、agent building | BI / analytics 起点の assistant surface |
| 運用負荷 | 柔軟だが決めることが多い | analytics 用途では比較的シンプル |
両社を併用する企業も多いですが、比率や優位性の数字は時期によって変わります。ワークロードの中心を見て選ぶのが一番ぶれません。
Databricksの成長タイムラインprivate company の指標は、上場企業の四半期決算のように読むと誤解しやすいです。Databricks の company snapshot は、その時点のメッセージと投資の方向を読む材料として扱うのが適切です。
2026年2月9日の company press release では、Databricks は次の数字を掲げていました。
これらは、Databricks が「analytics company」よりも data + AI company として自己定義していることを示す数字です。一方で、監査済み quarterly filing ではないため、vendor-stated snapshot として扱う方が安全です。
Databricks の Comcast customer story は、単なる logo list ではなく、compute footprint と開発運用の負荷をどう減らしたかに焦点があります。こうした事例を見るときは、次の順で読むと有効です。
Shell の story は、散らばった operational data を統合し、AI/ML を現場寄りのユースケースへ載せる例として読むとよいです。Databricks の強みは、データ統合だけでなく、その後の ML / app / dashboard まで同じ platform の文脈で話せることにあります。
イベント登壇社名や partner award は参考になりますが、それだけで導入難易度は分かりません。日本で重要なのは、次の prerequisite です。
Databricks の bill は compute だけではありません。Lakebase、model serving、AI/BI、connector、serverless など surface ごとに費用構造が違うため、導入初期から budget owner を置く必要があります。
Agent Bricks、Knowledge Assistant、Genie Code のように、名称も UI も短期間で変わります。release notes と docs を追わずに「去年の説明資料」で導入判断するとズレやすいです。
Lakebase rollout、Knowledge Assistant の supported region、partner-powered AI の in-country routing は一律ではありません。global product page を読んだだけで判断しない方が安全です。
Databricks は強力ですが、その分 Unity Catalog、Spark、pipeline、cost の設計が必要です。analytics だけを最短で回したい team には、より狭い warehouse product の方が合う場合があります。
Databricks も競合も、自社に有利な benchmark や比較資料を出します。実運用で見るべきなのは、自社 data、team skill、governance、budget で回るかどうかです。
Databricks の IPO 時期を blog が断定的に予想しても、実務上の価値は高くありません。見るべきシグナルは次の 3 つです。
今回参照した official materials では、Databricks は private 資金を Lakebase、Genie、AI research、strategic acquisition、employee liquidity に振ると説明していました。つまり、当面は product expansion と optionality の確保 が主目的で、公開市場入りの時期自体は management choice に残していると読むのが自然です。
DatabricksアーキテクチャLakebase、Knowledge Assistant、Genie Code の agentic capability は cloud と region で差があります。日本拠点で使う場合でも、workspace をどの cloud / region に置くかで選べる surface が変わります。
2026年3月の AWS release notes では、日本を含む一部の国で、Genie Code chat / cell actions、Genie、AI-generated comments、AI/BI dashboards に対して in-country routing が案内されました。一方で、すべての AI capability が同じ条件で使えるわけではありません。
Databricks docs site 自体は日本語ナビゲーションを提供していますが、深い機能説明や notebook / API の実務は英語ドキュメント前提になりやすいです。チーム内で英語 docs を読める運用を用意した方が安全です。
Genie、Knowledge Assistant、Lakebase 連携、governance を活かすには Unity Catalog が前提になる場面が多くあります。PoC の段階から catalog、権限、lineage を意識しておかないと、後で platform の強みを出しにくくなります。
A: Databricks は、Lakehouse を核に analytics、data engineering、AI、application database、自然言語 BI を同じ platform 上で扱おうとする data + AI 企業です。
A: まず official pricing page で pay-as-you-go、committed use、cloud 別 price list を確認してください。次に calculator と usage dashboard を前提に、自社 workload の budget owner を決めるのが実務的です。
A: Databricks は engineering / ML / agentic workflow まで寄せたいときに強く、Snowflake は SQL analytics をシンプルに回したいときに強い傾向があります。優劣より workload center の違いで選ぶ方が正確です。
A: Lakebase は Databricks の Postgres surface です。Lakehouse に近い位置で transactional workload を扱えるのが特徴ですが、workspace ごとに rollout と available feature を確認してください。
A: Genie は主に business user 向けの自然言語 BI、Genie Code は notebooks / SQL / jobs / file editor で使う context-aware assistant です。さらに、documents を元に citation 付き Q&A agent を作る surface として Knowledge Assistant があります。
A: 本稿で参照した official materials では、Databricks は private funding と product investment を強調しており、public filing の具体時期は示していません。IPO の噂より public filing をシグナルとして見る方が確実です。
A: region / data residency / Unity Catalog prerequisite / docs 言語運用の 4 点を先に決めることです。特に AI surface は機能ごとに availability が異なります。
本記事はネクサフローのAI研究シリーズの一部です。
この記事の著者

代表取締役
早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。
次に読む

Databricks と Snowflake を、レイクハウス / クラウド DWH という製品説明だけでなく、チーム構成、データ所有権、周辺ツールとの組み合わせまで含めて比較します。Fivetran、dbt、Monte Carlo をどこで使い分けるかも整理します。

Snowflakeを、ストレージとコンピュートの分離、主要 product category、Cortex / Snowflake Intelligence / pricing の見方、Databricksとの使い分け、導入時の確認ポイントから整理します。

dbt Labsとdbtの基本概念を、公式docsで確かめられる製品面とチーム運用の観点から整理。SQLモデル、テスト、ドキュメント、Semantic Layer、Fusion engine、Fivetranとの統合発表をどう読むかを解説します。