こんにちは、CCCMKホールディングスAIエンジニアの三浦です。
先週一週間、アメリカのサンフランシスコに出張してきました!目的はdatabricksのData+AI Summitというイベントに参加をするためです。
今回の記事では現地の様子をいくつかご紹介をした後に、2日間に渡って行われたキーノートセッションで紹介されたdatabricksのアナウンスについてまとめていきます!
Data + AI Summit 2025
databricksが主催する年次イベントで、今年はアメリカサンフランシスコにあるMoscone Centerで6月9日~6月12日に開催されました。
イベント中はデータ, AI, 機械学習を中心としたブレークアウトセッション、databricksのアップデートが発表される2日間に渡るキーノートセッションなどが開催されました。また、会場の地下では展示会が開催されており、様々なテック企業による展示を見て回ることが出来ました。
実は一昨年もこのイベントに参加したのですが、一昨年に比べ規模がとても拡大していました。実際キーノートセッションで発表された現地参加者数は22,000人以上で、一昨年の12,000人から大幅に上昇しています。特に日本から参加されている方の人数も多く(300人弱現地参加されたそうです。)、世界中で非常に注目されているイベントであることがうかがえます。
現地の様子など
ここからは写真を交えながら現地の様子を少しでもお伝えできれば・・・と思います!
会場付近
会場は主にSouthとWestの棟に分かれていました。会場付近はこの写真のようにdatabricks一色に染まっていました。
キーノートセッション
キーノートセッションの会場はものすごく広かったです。6,000人くらい入ることが出来る広さだったようです。
街中の広告
サンフランシスコの街中を歩いていると、たびたびdatabricksの広告を見かけました。
会場で配布されていたご飯
会場の近くの広場で、朝と昼に食べ物が配られていました。
特にランチボックスがData + AI Summit仕様になっていてうれしかったです。
キッチンカーで配られていたコーヒーとドーナッツ。イラストがかわいくて気に入りました。
キーノートセッションでの新機能の発表
さて、ここからは6/11, 6/12のキーノートセッションで発表されたdatabricksの様々なアップデートまとめていきます!とても多いので全部正確に追い切れていないのですが、自分の感想を含めて書いていきます。
なおキーノートセッションの様子は動画でも公開されていますので、詳細は以下の動画をご参照ください。
Lakebase
LakebaseはPostgresをベースにしたサーバレスのトランザクションデータベースです。
- フルマネージドなPostgres
- サーバレス
- データベースのブランチ機能
特にデータベースのブランチ機能が興味深かったです。これを利用することで簡単に開発/本番環境のデータベースを切り替えることが出来そうです。また、AI Agentによる利用も想定されていて、たとえばAgent用の環境をブランチを作成して作ることが出来、そうすることで他の環境に影響を及ぼさないことが担保されたうえでAgentにデータベースを参照させることが出来るようになります。
Databricks Apps
databricks上でデータやAIに接続した安全なアプリケーションを作ることが出来るDatabricks AppsのGenerally Availableが発表されました。
- Unity Catalogで管理することで、アプリの管理や公開するユーザーの設定、認証が可能。
- アプリの開発にはStreamlitやGradioといった主要なPythonのフレームワークやNode.jsやReactも対応。
AIエンジニアチームが開発したAIやAgentを社内に展開する際に活用できそうです。
Agent Bricks
個人的にこの機能が一番衝撃を受けた機能です。
- ノーコードでAI Agentが開発できる。
- 大まかな問題を自然言語指示するだけでAgentの構築から評価、最適化までを自動的に実行。
- 運用を通じて得たフィードバックによって自動的に精度が向上。
"Agentの品質の評価はどうするのか?", "Agentの最適化のためにどのテクニックを採用したらいい?", "コストと品質のバランスはどうやってとったらいいのか?"。こういった問題からプロダクションレベルのAgentの開発はとても難しかったのですが、これらの問題を考慮したAgentを誰もが簡単に作ることが出来る機能がAgent Bricksです。
特に運用を通じて自動的に精度が向上していく、という点がすごいな、と感じました。どうやって実現しているんだろう、と色々と調べてみたのですが、おそらく先日databricksが発表した、"TAO: Using test-time compute to train efficient LLMs without labeled data"というインプットデータだけでLLMを学習できるという技術が使われているようです。
mlflow3.0
- 生成AIの時代に最適化したmlflow。
- 生成AIを使ったシステムの監視も可能。
最近機械学習モデルの開発だけでなくLLM Agentの開発にもmlflowを利用しているのですが、mlflow3.0ではさらに生成AIに特化した機能が追加されているようです。特にシステムの監視にも対応しているようで、ぜひ試してみたいと思いました。
Serverless ComputeでGPUが利用可能に
A10とH100のGPUをサーバレスで利用できるようになるようです。
MCP Server On databricks
databricks上でMCP Serverを稼働できるようになるとのこと。
databricks Free Edition
databricksの無料版で、クレジットカードの登録をしなくても利用できるとのことです。 個人の開発者や教育機関での技術取得を目的にしているようです。
Unity Catalog
Unity Catalog周りも色々なアップデートが発表されていました。
- Iceberg Managed Table
- Unity CatalogにIceberg Managed TableとしてTableを作ると他のエンジン(例:Snowflake)から直接参照・Insertが可能。
- Unity Catalog MetricのGA
- データサイエンティスト、エンジニア、ビジネスチームすべてが共通の指標を持てる仕組み。
- 指標はUnity Catalog上で管理でき、誰が閲覧できるのかなどガバナンス下に置くことが可能。
- MetricsはYAML形式で定義可能。
- Unity Catalog Discovery(Preview)
- 組織内のマーケットプレイスのように使える。
- データやダッシュボードを組織内で共有できる仕組み。
- ファイナンス、カスタマーエクスペリエンスなどのビジネスコンセプトに基づいて管理可能。
- Data intelligence Insights
- ユーザーとAIアシスタントがUnity Catalog上のデータを理解するのをサポート。
- データが認証されたものか、品質がどうか、どのユーザーによく使われているのかなど。
Apache Spark4.0
Apache Spark4.0に追加された機能が発表されました。
- Real-Time Mode
- Spark Declarative pipelines
- シンプルなSQLクエリでETLパイプラインを組むことが可能。
Lakeflow(GA)
LakeflowはSpark Declarative pipelinesをdatabricksに最適化し、さらにデータエンジニアリング全体にガバナンスを利かせる仕組みのようです。3つの機能で構成されています。
- Lakeflow Connect
- 様々なデータソースからUnity Catalogにデータを連携。
- Lakeflow Declarative Pipelines
- Spark Declarative pipelinesをdatabricksのSpark上で動かす。
- 開発環境(IDE)でPipelineを構築できる。
- Lakeflow Jobs
- Connectによるデータ入力・Pipelineによるデータ処理を有向グラフで記述して実行可能。
Lakeflow Designer
Lakeflowのpipelineを自然言語を使ってノーコードで作成出来るのがLakeflow Desingerです。特にオーディエンスの反応が大きかったように感じました。
- 様々な集計処理や結合処理がノーコードで可能。
- 集計テーブルのイメージをスクリーンショットで与えるとその通りに集計処理を作成。
デモを通じてAIを使ってどんどんETL pipelineを作っていく様子が説明されていて、すごい!と感じました。
Lakebridge
レガシーなDWHからのデータ移行をAIを使ってサポートするオープンなデータ移行ツールです。旧環境で使われていたコードをAIで変換する機能があります。単純にAIにコードを変換させるだけでなく、途中で評価処理を挟み、繰り返し生成を行うことで生成処理の最適化を行っているとのことでした。
GoogleのGeminiがdatabricksで利用可能に
GoogleのCEOGoogle CloudのCEOとのビデオ対談を通じ、Geminiがネイティブにdatabricksに対応したことが発表されていました。
AI/BI
databricksのBI機能(ダッシュボード)への様々な機能の追加が発表されていました
- 新しいグラフやページ追加などの可視化機能が追加。
- Genieと接続し、ダッシュボードのデータについて自然言語で問い合わせ可能。
- GenieのDeep Researchモードを使うことで"How can we hit our Q3 numbers?"のような質問にも回答可能。
Databricks One
ビジネスユーザー向けのdatabricksの機能とのことです。
- Databricks Oneにアクセスするとシンプルな画面が表示される
- 自身に公開されたダッシュボード, Genie Space, Appsにアクセスできる
キーノート全体を通じて
databricksが掲げている"DataとAIの民主化"がとても色濃く反映されたアップデートだと感じました。AIを利用したノーコード開発やデータ分析を通じてデータアナリシス、エンジニアリング、ビジネスの間に存在するギャップを取り除こうとしているのだと思います。最近の情勢を見ていると、databricksに限らず、この流れはどんどん加速していくんだろうな、と改めて感じました。
まとめ
ということでこの記事では先日参加したdatabricksのイベントData+AI Summit2025に参加したことについてまとめました。AIの活用という点で、最先端の企業はもうここまで進んでいるのか、と衝撃を受けることが多々ありました。今回アナウンスされたdatabricksの新しい機能をどんどん触れてみて、どんな形で使えるのかを考えていきたいと思いました。