こんにちは。AIエンジニアリンググループの矢澤です。
先日の記事でNeurIPS 2024の概要やバンクーバーでの生活について共有しました。 今回は具体的な内容として、イベント前半のチュートリアルで特に気になった発表について、独断で紹介させていただきます。 文量が多いため、その他のセッション(招待講演、オーラル発表、チュートリアル)の内容については、別の記事で説明したいと思います。
チュートリアル
チュートリアルでは、AIやML関連の比較的広めなテーマについて、これまでの研究の流れや技術の詳細を説明する流れとなっていました。 発表の最初の方は、専門外の人にも分かるような内容も多かったのですが、発表が進むにつれて高度な内容や最新の技術が増えて完全に理解するのは難しいと感じました。1 NeurIPSのHPからアーカイブや関連論文を確認できるので、気になった発表は改めて見返したいと思います。
当日は、以下の2つのチュートリアルを聴講しました。
- Watermarking for Large Language Models(LLMの電子透かし)
- Cross-disciplinary insights into alignment in humans and machines(人間と機械の連携に関する学際的な洞察)
一つ目の発表については、私自身がテキストの電子透かしの存在を知らなかったため、非常に勉強になりました。 ポスターセッションでも、Metaなど複数の企業が電子透かしに関する論文を発表していて、本分野に対する注目度の高さを感じました。 二つ目の発表では、進化生物学や経済学などの話も交えながら、人間とAIが連携する方法や課題などについて説明されていて、こちらも個人的にとても興味深かったです。 近年は何でもできる(とされる)AIエージェントが話題となっていますが、実際にAIやロボットが人間社会で活用されるためには技術面でも社会面でも様々な課題があり、そのような課題に対しても長らく研究が行われてきたことが分かりました。
以降では、各発表の前半部分の内容を紹介します。
※ 全体の発表は上記のリンクからアクセスして視聴できるので、気になる方は是非見てみてください。
Watermarking for Large Language Models(LLMの電子透かし)
LLMは便利ですが、AIが人間と同等のコンテンツを生成できるようになったことで、フェイクニュースやマルウェア、モデル崩壊2などの課題が増えてきています。 そのためAIが生成したデータと人間が作成したデータを判別することが求められており、実際に画像や音声の分野では以前から電子透かしの研究が行われたり、最近ではSynth IDのようなサービスが提供されたりするようになりました。 テキストの分野でも、様々な方法(AI回答に特定の文章を追加、AI回答を都度DBに格納、分類器を使用など)が考えられますが、どれもコストや精度の面で課題があり、特に分類器の使用では誤判定の可能性があります。3
そこで、より能動的な手法としてテキストの電子透かしが提案されました。 人が識別できない情報をあらかじめテキストに組み込んでおき、識別キーを持っている事業者のみが後で照合することで、AIによって生成されたデータかどうかを判別することができます。 比較的単純な方法としてGreen-Red法があり、これはあらかじめ語彙を緑と赤のグループに分けておき、緑の単語のみ出現確率を上げるというものです。 これにより、偽陽性を0%にしたまま一定の判定精度を担保することができ、さらにN-gramにすることでGPTによる言い換え後も精度低下を抑えられることが分かりました。
ただし、Fine-Tuningや蒸留によるモデルの盗用を防ぐためには、テキストだけでなくモデル(生成過程)自体に電子透かしを埋め込む必要があります。 また、理想的な電子透かしは4つの特性(生成テキストの品質、識別精度の担保:偽陽性、偽陰性の減少、頑健性の担保、セキュリティーの保証)を持つとされ、これら全てを満たす手法の実現に向けて日々研究が行われています。 上記の手法(Green-Red法)は簡単な例ですが、実際には複雑な統計的手法などを駆使しながら、より実用的なモデル透かしの方法が説明されていました。
Cross-disciplinary insights into alignment in humans and machines(人間と機械の連携に関する学際的な洞察)
本チュートリアルのゴールとして「人間社会におけるアライメントの研究(我々がどのように共存しているか)が、AIアライメントにどのように情報提供できるか」を探っていく形で、発表が進められていきました。 初めにロボット・乗り物の強化学習による意思決定や、医療分野における人種的偏見の研究を例に、報酬設計の難しさについて説明がありました。 同様の話はLLMにも当てはまり、人間のフィードバックを最大化するようにLLMを学習すると、LLMは一部のユーザーからポジティブなフィードバックを得るために嘘を付きやすくなってしまうなどの問題があります。 さらに上記の問題はAIシステム特有の問題ではなく以前からあり(「Bを期待しながらAに報酬を与える」問題)、また報酬の設計だけの問題ではないことが知られています(「ある指標が目標になったとき、それは良い指標ではなくなる」法則)。 実際に誤ったAIの影響として、代理効用が増加すると真の効用が減少するという研究もあり、このようなアライメントの失敗は最適化(測定された効用のリソース再配分+測定されていない効用のリソース抽出)によって起こります。
アライメントには様々な課題があり、それらを人間のケースを基に考えることが重要です。 例えば、ロボットが最短経路で荷物を運ぶように指示された場合、途中に壺があっても報酬設計に含まれていなければ壺に衝突しますが、人間は壺を避けて運びます。 これは、人の契約が膨大な規範的インフラに依存し、当事者間で暗黙的に合意され、組織や法律によって妥当性が保たれているためです。 一方、経済学におけるエージェントの課題解決法は数式で定義された報酬に依存し、規範や法律、文化は無視されています。
規範はどのようにして生まれるのかを人類の進化の歴史から考えると、人類が服を着るようになった10万年前頃のタブーや規範、約2万年前の集団生活での長老や族長などに遡ります。 安定した共同生活のためにグループからルールや文化的ニッチ4が生まれ、文化的学習によって人類は新しい環境に適応してきました。 ここで重要なのは、認知的ニッチ(社会的な個人学習)と文化的ニッチ(文化的学習の集団戦略)が異なり、前者では累積的な知識を説明できないということです。 模倣者(文化的継承者)と学習者の環境適応率を比較すると、模倣者は模倣回数が少ない内は学習者よりも適応率が高いですが、最終的には環境変化に対応できず学習者に追い抜かれます。 文化が累積的に環境適応するには、世代を超えて行動が持続し、個人的な報酬ではない理由で行動に従う必要があります。 すなわち、文化とは規範的なものであり、集団によって共通認識となり、組織がメンバーを承認された行動に従わせます。
規範的インフラの進化や文化的な集団選択について考えると、集団の一部としての複製、分業(専門化)、情報の保存と転送などのトピックがあります。 個人が集まることで集団が形成され、更に集団が協力(交渉による分業、食料の分配、再生産の平準化など)を行うことで新たな高次元の個人が誕生します。 人間の場合には、言語や複数レベル、規範性などが作られ、異なる規範を持った複数の集団が生まれるようになりました。 「不合理なルール」に関する研究では、ルールセット内で不合理な(実質的な利益がない)ルールの割合が高いほど集団が存続し、多くの人口を維持できることが分かっています。 集団行動を維持する要因としては、第三者による罰が影響しており、ブラジルの狩猟採集民「アワ族」による矢作りの例が挙げられます。 アライメントされた集団は集団の利益を保つために不可欠な「安定性」を維持し、相互防衛・援助や専門化・分業によって集団の秩序を保ってきました。
個人の能力の違いは認識されているよりも少なく、職業の違いは分業の結果というより原因であることが多いです。 ルールはグループ内での平均利益を高めるように集団のメンバーを統制します。 すなわち、人々は自身の利益を最大化するつもりでも、実際には意図しない目的を遂行しています(アダム・スミスの「見えざる手」)。 市場はアライメントのメカニズムであり、個人の行動を集団の目的と整合させる組織構造を実現します。 新古典派経済学は市場の集団的利益を予測する仮説であり、個々の行動に基づく集合現象の分析に注目しています。 科学的アプローチで個々の効用を比較するのは難しく、研究者は集団の利益に関する仮定を単純化しています。 厚生経済学の基本定理5から、完全な市場は前述の組織に対応するものであり、集団における「規範」や「良い行い」を形作ります。
その後、「組織とは何か」や「どのように組織が個々の行動を制限するか」、「法律とは何か」といった話があります。 また後半では、別の発表者がゲーム理論などの手法も交えながら、より具体的なアライメントの手法について説明していました。 私自身に学術的な知見が足りないこともあり、詳細は理解できない部分もありましたが、私たち人類がいかに高度な共同生活を送っているかを再認識し、AIエージェントの設計や実用化の難しさを感じました。
まとめ
本記事では、NeurIPS 2024のチュートリアルについて、私が聴講した発表の一部を紹介しました。 発表の前半部分は比較的分かりやすかったですが、途中からは専門的な話も加わり、初見では理解しきれない内容も多いと感じました。 しかし、上記のような概念や研究があること自体を知れたことは非常に有意義であり、今後の技術開発の方向性を考える際に多少なりとも役立つのではないかと思います。 特に、電子透かしのようなセキュリティ関連技術やAIエージェントの報酬設計などは、世の中の動向としてもホットなトピックだと思うので、時間がある際に改めて復習したいです。 次回は、招待講演などのセッションについてもブログで紹介したいと思います。
- 私自身が英語を十分に聞き取れず、スライドの情報や細切れに聞き取れた単語を基にしながら発表を聴いていたからというのも、理由の一つです。↩
- モデル崩壊とは、AIが生成したデータを使って生成AIを学習することを繰り返していくと、データの品質や多様性が落ちてしまうという問題です。↩
- 例えば、ある言語のネイティブではない人が書いた文章を分類器に入力すると、AI生成と誤って推定されてしまうことがあります。またテキサスA&M大学で、学生が書いたレポートをChat-GPTによる生成と誤って見なしてしまった問題などもありました。↩
- 文化的ニッチとは、特定の文化やコミュニティにおいて、特定の興味、価値観、行動パターン、またはライフスタイルに対応する独自の領域やカテゴリを指します。この概念は、生態学における「生態的ニッチ(Ecological Niche)」の概念に類似しており、特定の環境内で特定の生物が占める役割や位置を指すものです。↩
- 厚生経済学の基本定理とは、パレート効率性と競争均衡配分の関係について述べた2つの定理で、1950年代に厳密な数学的証明が与えられました。具体的には「完全な市場は、資源と商品のパレート最適化を達成することで集団の利益を最大化する」や、「パレート最適化は初期の資金の再分配によって実現できる」というものです。↩