CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

NeurIPS 2024に参加しました(招待講演編)

こんにちは。AIエンジニアリンググループの矢澤です。

先日の記事では、NeurIPS 2024のチュートリアルについて報告しました。 具体的には、私が聴講した発表(LLMの電子透かしと、人間とAIのアライメントに関するチュートリアル)の序盤部分を共有しました。 今回は同学会の招待講演について説明したいと思います。

招待講演とは

NeurIPSでは、基本的に研究者らが論文を投稿し、採択された場合に発表を行います(オーラル、ポスター発表)。 しかし上記とは別のセッションとして、学会の前半に招待講演があり、著名な研究者や専門家が業界全体の動向や関連技術などを話す場となっています。1 招待講演は、会場の中でも広めの部屋(West Exhibition Hall C, B3)が使われており、どの講演も満席近く人が集まっていました。

neurips.cc

講演内容

以下に、今回のNeurIPSでの講演者と英語タイトル、日本語タイトル(Google翻訳)を記載します。

  • Alison Gopnik: The Golem vs. Stone Soup: Understanding How Children Learn Can Help Us Understand And Improve AI(ゴーレム対石のスープ:子どもの学習方法を理解することで、AI を理解し、改善できる)
  • Sepp Hochreiter: Toward Industrial Artificial Intelligence(産業用人工知能に向けて)★
  • Fei-Fei Li: From Seeing to Doing: Ascending the Ladder of Visual Intelligence(見ることから行動することへ: 視覚的知性の階段を登る)
  • Lidong Zhou: A Match Made in Silicon: The Co-Evolution of Systems and AI(シリコンで結ばれた出会い:システムと AI の共進化)★
  • Arnaud Doucet: From Diffusion Models to Schrödinger Bridges(拡散モデルからシュレーディンガー橋まで)
  • Danica Kragic: Learning for Interaction and Interaction for Learning(インタラクションのための学習と学習のためのインタラクション)
  • Rosalind Picard: How to optimize what matters most?(最も重要なものを最適化するにはどうすればよいでしょうか?)★

本記事では、個人的に特に興味深かった発表として★の付いた講演の概要を共有します。

Sepp Hochreiter: Toward Industrial Artificial Intelligence(産業用人工知能に向けて)

Toward Industrial Artificial Intelligence(出典:NeurIPS 2024

AIが産業化されるまでの歴史の説明と、具体的な最新技術としてのxLSTMという手法の紹介がありました。


初めにAIの3つのフェーズとして、基礎開発(手法の種類は多いが規模は小さい)→スケールアップ(手法が絞り込まれつつ規模が増加)→産業化(規模が最適化されつつ手法が細分化)という流れがあります。 基礎開発については、ニューラルネットワークの誤差逆伝播法からCNNやRNNへの流れが上記に該当し、スケールアップ期ではAttentionやTransformerなどが提案されてきました。 特に近年はLLMの発展が目覚ましく、Chat-GPTでも使われているGPTモデルはバージョンごとに学習データやパラメーターが急増しています。 ここで、AI研究には「苦い教訓」という話があり、それは「人間のドメイン知識を活用してアルゴリズムを工夫した手法よりも、結局は処理能力を活用した汎用的な手法が最も有効だった」ということです。2

AIの産業化については様々な利点があると考えられ、例えばAmundiの調査では多くの地区でGDPが1.0~1.5%増加すると予想されています。 また、ニューラルネットの発展によってシミュレーションの速度が1,000~10,000倍も高速化し、実際に洪水の予測などで活用されているようです。 講演者が所属する研究機関(NXAI)では、通常のRNNの進化版であるLSTMを更に高速化させたxLSTMを開発し、実験により最新の手法(Transformerなど)を超える処理速度を実現できることが分かりました。 特定ドメインの産業分野では、単なるスケールアップではなく新しい手法やアーキテクチャが求められており、まさにxLSTMは苦い教訓を超えた産業AIのブレイクスルーといえます。3


AIの推論速度が高まることで、大量のパラメータを考慮したシミュレーションが可能になり、これにより施策の効果予測などマーケティング分野での活用も期待できると感じました。

Lidong Zhou: A Match Made in Silicon: The Co-Evolution of Systems and AI(シリコンで結ばれた出会い:システムと AI の共進化)

A Match Made in Silicon: The Co-Evolution of Systems and AI(出典:NeurIPS 2024

初めにAI・システムの発展の流れや共進化の意義に関する話があり、その後共進化に向けた具体的な技術やアイデアについて説明していました。


シンギュラリティについて、書籍「The Singularity is Near」ではコンピューターの(1秒・1ドルごとの)計算速度が指数的に増加し、2023年には人の脳力を上回り、2045年には人間全体の脳力を上回るとされていました。 AIの冬の時代である1990~2010年代に、システム分野では発展(マルチメディアやWeb、クラウドの登場や、専用並列処理からネットワークと分散システムへの進化)があり、更に2010年代~にはAIにも春が来て両者が共存するようになりました。 AIの進化にはシステム的思考が必要であり、またAIにはスケーリング則4がありますが、システムではスケーリングに関する逆の伝承「ハードウェアを投入し続けて無限にスケールすることは不可能」があります。 システムがスケールすると動作がより確率的になるためAIによる制御が重要であり、またAIが更に進歩するにはシステムの発展やシステム思考が必要なことから、両者は共に進化していくことが望まれます。

AIとシステムの共進化に向けた3つの挑戦として、「新たなレベルの効率性の実現」、「新たな信頼性の確立」、「AIによるシステム実装」が挙げられます。 効率性については、1ビットLLMによる処理効率の向上や参照テーブルによる事前処理の活用、ソフトウェアだけでなくハードウェアの進化によって、LLMのエッジ推論が実用レベルとなってきています。 信頼性は正式な検証(信ぜよ、されど確認せよ)によって強化され、具体的にはシステムにおけるTCB5のようにLLMの出力を検証したり、検証に失敗した場合にフィードバックを与えて自己修正させるというものです。 AIによるシステム実装について、GPU処理やWebRTCの輻輳制御6などの手動最適化は非常に高コストという課題があり、講演者らはAIの提案とシステムからのフィードバックを考慮したLLMベースの最適化手法OptiFlowを提案しました。


LLMの量子化や生成AIによるコード生成など、AIとシステムの関連はこれまでも多少意識していたものの、上記のような低レイヤーの話はあまり馴染みが無かったので勉強になりました。

Rosalind Picard: How to optimize what matters most?(最も重要なものを最適化するにはどうすればよいでしょうか?)

How to optimize what matters most?(出典:NeurIPS 2024

感情AIの活用や、医療現場でのAIによる人命救助、また将来人間がよりよく生きるためのAIに対する考え方などについて、講義がありました。


感情に関する知能スキルとしては、感情の表現や認識、他者の感情の管理などがあり、更に感情を理解して反応できるコンピュータシステムが開発されると、感情のコントロールや活用が必要となります。 人々はさまざまな形式のコンピュータに対して感情を表現し、例えばMITでは声に反応して表情が代わるロボット「Kiemet」が開発されました。 顔の表情は約10,000パターンあるとされており7、自閉症スペクトラムの人々は複雑な感情を判断するのに課題を感じていて、他者の意図や状況を明示的に計算する必要があります。 Affectiva社が開発した人の表情から感情を機械学習で推定する技術は、Fortune 500の26%の企業で導入され、人間と相互作用するロボットや自身の社会的・認知的スキルを教えてくれるARスマートグラスなどに活用されています。 また、人が本当に笑っているかを判断するには口角が上がっているかだけでなく目じりが下がっているかを見ると良いという話がありますが、イライラした時の笑顔も同様の顔になることが分かっており8、後者は人よりもAIの方が識別精度が高いという結果が得られました。

更に皮膚は交感神経の影響を直接受けるため、リストバンドで常に皮膚電気活動を測定することで心理状態を見ることができ、てんかんによる発作などを検出できます。 家族に発作を知らせるスマートウォッチembraceはFDAに承認され、アラートを受けた家族が駆けつけて一命を取りとめるなど、AI技術と人間の協力によって人命が救われることがあります。 現在ではウェアラブルAIの研究は、記憶・睡眠や不安感から、パーキンソン病やアルツハイマー病に至るまで様々なものがあり、現実世界でもAI搭載のスマートウォッチが使われるようになっています。 またウェアラブルデータやAIは発作などの脳のイベントを「予測」するのに使われるようになっており、特にパンデミックの影響でうつ病が増えた背景などもあり、気分の変化を分析することが近年の課題となっています。 聞き取り調査やデバイスで取得した生理現象、電話や位置情報などの時系列データを基にAI(LSTM)で翌日のストレスレベルを推定した結果、ベンチマーク手法の54%から84%まで精度が向上し、特に睡眠に関する特徴量が大きく寄与していることが分かりました。

AIの課題として、一部のAIモデルプロバイダーが学習の中身を公開しないことで優れた研究の遂行を妨げる可能性があり、これに対してはデータのリークが起きないように研究者がデータの内容を検証できるようにする必要があります。 また、大規模な営利企業だけがAIモデルを構築・テストする余裕があるため、それらの企業が良い結果のみを抽出して、その他の人々がAIのエラーによる問題を解決することに時間を使わなければならないという課題もあり、独立した実験やイノベーションに資金を提供することが重要です。 AIによる論文生成や結果の捏造、フェイクデータの生成など、一部の人々の倫理的でないAI利用によって他者の時間を奪ったり、分野の誠実性を傷つける可能性もあります。 また、業界のリーダーは「2027年にAIが仕事の半分を代替する」と話していますが、庶民にとっては「人間の価値がなくなる」と聞こえてしまい、人々はAIやロボットに対して反発するようになってきています。9 AIが素晴らしい貢献をした際には、「AIが~~を達成した」のような発表ではなく「人々がAIを使って~~を達成した」というように人間に敬意を表すことが大切です。

AIは単なる使いやすさだけでなく、人々の生活をより良くするために最適化するべきであり、特にPERMAモデル10として5つの要素が提案されています。 また上記の「人々」には、家庭から引き離された子供のような恵まれていない(または恵まれない恐れがある)人も含めることが大切です。 MITメディアラボは全ての人々とより良い将来を作ることをビジョンとして掲げており、多くの業務があるため進展は遅いですが、段々とより良い場所になりつつあります。 AGIによって全てを解決できるという話もあり、Marvin Minsky氏は「AGIによって知能の高いものを構築できるため、家庭用ペットとして飼えば幸せになれる」と発言していますが、同時に新たな問題も多く発生すると思われます。 将来の人々が家庭用ペットとして扱われることは望んでおらず、そのためには上記の「恵まれていない人々を含めること」や「全ての人々の利益になるAIを作る」ことが改めて重要だと言えます。


感情AIやウェアラブルデバイスなどは、様々な場面で活用できそうだと思いますが、同時にAIによるリスクについても常に考えていかなければいけないと再認識しました。

まとめ

本記事ではNeurIPS 2024の招待講演について、特に気になった3つの発表の内容を共有しました。 どの講演も非常に興味深く、具体的な技術だけでなくAIに対する考え方や将来像など、広い視野でAI開発を考えることに繋がる内容だと感じました。 次回以降は、オーラルセッションやワークショップについても同様に報告できればと思います。


  1. 学会後半のワークショップでもトピックごとの招待講演がありましたが、本記事ではメインセッションの招待講演のみについて説明しています。
  2. 実際に囲碁やチェス、音声認識などの分野では、大規模な探索や統計的な大規模計算を用いた手法が優れた結果を残しています。
  3. OpenAIも「推論速度が将来的に重要になる可能性がある」と発言しており、AIの精度だけでなく速度も重要な指標となります。
  4. AIでのクロスエントロピーなどの損失は、モデルやデータセットのサイズ、学習に使う計算量などに対してべき乗にスケール(減少)するという法則です。
  5. TCB(Trusted Computing Base)は、コンピューターシステムのセキュリティを確保するために必要な保護メカニズム(ハードウェア、ファームウェア、ソフトウェア、プロセス、および人々)を指します。
  6. 輻輳制御とは、通信ネットワークの混雑(輻輳)を緩和・回避するために、パケットの転送レートを調整する制御技術です。
  7. 2つの時刻間での連続した表情変化は1億パターンとなり(10,000x10,000)、チェスの初期状態のパターン数400(20x20)と比較して膨大になります。さらに、チェスでは数分で反応すれば良いのに対し、表情はミリ秒で変化します。
  8. 講演者らの研究室では、突破不可能なCAPTCHAを解いている時の顔の表情データを使って、イライラしているときの笑顔を収集しています。
  9. 実際、サンフランシスコの路上には「人間を雇うのを止めよう」という人々を煽るような広告があったり、スピルバーグの映画「AI」ではAIを嫌う人々がロボットを破壊する描写があったりします。
  10. PERMAは、「ポジティブな感情」、「エンゲージメント」、「関係性」、「意義」、「達成」の頭文字から名づけられています。