Gemini: GoogleのマルチモーダルAIのテクニカルレポートを読んでみて感じたこと。

こんにちは、CCCMKホールディングス TECH LABの三浦です。

2023年もいよいよ終わりが近づいてきました。今年は色々ありましたが、学ぶことが多い1年だったと思います。特に"AI"がこれまで以上に身近になり、多くの人とAIをきっかけに会話をしたり、仕事をしたり出来たことがとても良かったです。来年も色々な人たちと色々なことにチャレンジ出来たらいいな、と思っています。

さて、去年の今頃どんなことを調べていたのかな、とちょっと気になり、ブログの記事を振り返ってみるとこちらが去年最後に書いた記事であることが分かりました。

techblog.cccmkhd.co.jp

当時GPT-3に興味を持っていて、その論文を読んで内容をまとめていました。2023年はGPT-3をさらに発展させたChatGPTやオープンソースの大規模言語モデル(LLMs)が多数リリースされ、特にAI/機械学習の領域には大きなインパクトを与えました。

2024年も引き続き新たなLLMsがリリースされたり、それらの能力を引き出すPrompt Engineeringのテクニックの開発が進んだり、LLMsに自律的に課題を解決させるようなAgentを構築するための研究が進むのかもしれません。そしてもう一つ欠かせないトピックとして"マルチモーダルAI"の発展があるのではないか、と考えることがあります。

そう思う大きなきっかけになったのが、Google DeepMindが先日発表した"Gemini"というマルチモーダルAIです。

deepmind.google

このページの中に"Hands-on with Gemini"という動画があるのですが、この動画を閲覧した時、こんなことまでAIで出来るようになるのか・・・とビックリしました。Geminiについての詳細な情報は、Google DeepMindが公開している"Gemini: A Family of Highly Capable Multimodal Models"というタイトルのテクニカルレポートに記されています。Geminiを支える技術はどのようなものなのか調べてみたい、と思い、このテクニカルレポートを読んでみました。今回はこのレポートを読んで知ったことや感じたことを記事にしたいと思います。

Geminiのテクニカルレポート

GeminiのテクニカルレポートはarXivを通じてダウンロードすることが出来ます。arXivでは以下の情報で登録されています。

Title: Gemini: A Family of Highly Capable Multimodal Models
Authors: Gemini Team Google
Submit: Submitted on 19 Dec 2023
arXivURL: https://arxiv.org/abs/2312.11805

レポートにはGeminiのモデルアーキテクチャの概要、学習について、使用したデータやインフラに関する工夫、様々なタスクにおける既存のソリューションとの精度比較検証、そしてモデルを公開するにあたりどのような体制でどのような検査やテストが実施されたのかについて、述べられていました。AIについてのレポートをまとめる際にどんな内容が必要なのか、読んでいてとても勉強になりました。

Geminiシリーズ

現在のGeminiのバージョンは1.0で、その中に3つの異なるモデルが含まれています。それぞれUltra, Pro, Nanoと呼ばれており、Ultraは最も高性能で大規模なモデル、Proはコストや遅延などのパフォーマンスが最適化されたモデル、Nanoは単体のデバイスで稼働し、特定のタスクに利用されることを想定した小規模なモデルになっています。NanoはさらにNano-1, Nano-2の2つのバージョンがあり、Nano-1は1.8B, Nano-2は3.5Bのサイズとのことです。LLMsの中では7Bというサイズをよく見るので、Nanoシリーズはかなりコンパクトであることが分かります。

Geminiが扱うデータ形式

Geminiへの入力データはLLMsの様にトークン化されたテキストだけでなく、同様にトークン化された画像や音声、映像の情報がテキストと一緒に入力されます。レポートに掲載されていた図が以下です。個人的にはここが一番面白くて意外だと感じたポイントでした。

Gemini: A Family of Highly Capable Multimodal Models, Gemini Team, Google, Figure 2

マルチモーダルAIの実現方法として、テキストを理解することが出来るLLMsを中心に、画像が入力された場合は別の画像キャプショニングモデルをツールとして利用させることでテキストと画像を双方扱えるようにする方法を私はこれまでイメージしていました。しかしGeminiはもっとストレートにこの問題に対応することが出来ていることが分かります。特に音声データの扱いについて、音声をテキストに変換して入力するのではなく、音声データそのものを入力できる点は重要だと思います。音声にはテキストだけでは伝わらない感情に起因する情報が含まれていると考えられるからです。

先の図の右側を見ると分かるように、Geminiの出力はテキストだけでなく画像も含まれています。そのため画像生成のタスクもこなすことが可能になっています。

TokenizerとしてはSentencePieceを用いており、学習時にTokenizerも学習対象にしているそうです。ただ具体的にどうやってテキスト・画像、音声を同一軸でtoken化するのかについて私はイメージが付かなかったため、この辺りの手法については参照論文などを参考に、今後調べてみたいと思いました。

Geminiが対応可能なタスク

Geminiはテキストだけでなく画像、音声、映像データも入力することが可能です。そのため様々なタスクに対応することが出来ます。対応することが出来るだけでなくその精度も高く、テキスト系のタスク12この中の10こ、画像に対する質問に回答するタスク9こ全て、映像に対する質問に回答するタスク6こ全て、そして音声に対する質問に回答するタスク5こ全てで既存の精度を上回ったそうです。

そしてGeminiの汎用性を最もよく表しているのが次のマルチモーダル・クロスモーダルタスクに対する回答能力の高さだと思います。

テキストと画像で構成された質問に対する回答

物理の問題に対し、ある生徒が作成した手書きの回答に対し、この回答が正しいかどうか、正しく無ければ正しい回答方法をLaTeXを使って回答してもらう、という複雑なタスクに対し、次の様にGeminiは正確に回答することが出来ています。

Gemini: A Family of Highly Capable Multimodal Models, Gemini Team, Google, Figure 1

"Step by Step"のワードを含めることで数学の問題など段階を踏んで考えなければならないタスクに対応出来るようになる点はこれまでのLLMsと同じ傾向のようです。しかし問題の内容や生徒の回答はテキストではなく画像で指示されており、画像から複雑な指示が読み取れて、かつ理解できていることが分かります。

生成画像による回答

Geminiはテキストだけでなく画像を用いて回答を生成することが可能です。そのため以下のようにテキストと生成した画像を用いて、テキストと画像で構成された質問に回答することが出来ます。

Gemini: A Family of Highly Capable Multimodal Models, Gemini Team, Google, Figure 6

生成された画像もとても自然に見えます。テキストだと伝わりにくい内容も、画像だと伝えられそうです。

画像と音声による入力

テキストを用いずに画像と音声で質問を入力することも可能です。以下の例では材料や料理中の画像と一緒に次にどうしたら良いのか音声で質問し、Geminiがテキストで回答しています。

Gemini: A Family of Highly Capable Multimodal Models, Gemini Team, Google, Table 13

これはモバイル端末で使えるとすごく応用範囲が広そうに感じました。Gemini Nanoがデバイス上で動作することを想定したモデルとのことなので、いずれモバイル端末内で動作するようになるのかもしれません。

Geminiのレポートを読んで感じたこと

Geminiのレポートを読んでいると、テキスト・画像・音声・映像を全て扱うことが出来るGeminiは深層学習の領域の最終地点にまで来てしまったかのような気持ちになりました。2023年に様々なLLMsが登場したように、2024年はGeminiのような様々なマルチモーダルAIが登場するのかもしれません。

レポートでは安定して学習を行うためにはハードウェア起因のデータ破損にまで注意しなければならなかったことなども触れられており、実際にGeminiレベルのモデルを安定して学習させるためにはかなり高い技術力とインフラが必要で、同様のモデルをすぐに作ることが出来る、というものではないことが伺えます。

しかし比較的小さなサイズのLLMsが次々とリリースされていったように、マルチモーダルAIにおいても小さなサイズで比較的小規模なリソースで学習可能なモデルが、来年の今頃にはいくつかリリースされているのかもしれない、と感じました。