CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

NeurIPS 2024に参加しました(ワークショップ編 1)

こんにちは。AIエンジニアリンググループの矢澤です。 NeurIPS 2024の参加報告として、これまでチュートリアルや招待講演、オーラルプレゼンテーションの内容を共有しました。 今回は学会後半に行われたワークショップの中から、特に気になった発表の概要を説明したいと思います。

ワークショップについて

概要

ワークショップは、特定のテーマに基づいて独立して開催される勉強会に似たイベントで、メインセッションとは別に招待講演やオーラル発表が行われます。 当初はスキーリゾートなどの別会場で開催されていましたが、途中からメインカンファレンスと同じ会場での開催に統合される形となっています。 2024年度は、計56件のテーマで12/14, 15に開催されました。

雰囲気

実際に参加した感想としては、国内の小規模な学会のような雰囲気に近いと感じました。 メインセッションほど人が多くないので、その分研究に関する質問やコミュニケーションがしやすい環境となっています。 私自身もポスターセッションでは多少会話することができましたが、招待講演やオーラルで質問することはできなかったので、英語力を高めたり国内学会などで経験を積みたいと思いました。

参加したワークショップ

イベントは2日間にわたって終日行われ、以下の方針で参加しました。

  • 1日目:私自身が興味や多少の前提知識があるオーディオAIのワークショップに終日参加し、専門性を高める
  • 2日目:最新のトピックや専門外の技術について知るため、あえて複数のワークショップに少しずつ参加して知識の幅を広げる

以降では、1日目に聴講したワークショップの内、午前中に行われた招待講演・オーラル発表について共有したいと思います。

聴講した発表の共有

Alexis Conneau氏による招待講演「Hearing the AGI」(AGIの声を聴く)

発表内容

音はAIにとって社会的/感情的に重要な要素であり、仮想のキャラクター・先生との会話や音楽の自動生成、コミュニケーションツールでの社会的交流などが可能となります。 2024年まではカスケードモデルが主流であり、基本性能の高さやモジュール性、テキストタスクでの精度保証などのメリットがありましたが、一方で文脈を考慮しない点やレイテンシー、プロパティを組み込めないなどのデメリットもありました。 2024年以降は、GPT-4oのようなオーディオ+テキストLLMが登場し、Transformer自体に音声を入力するようになった結果、事前学習により品質がスケールしたりVQパープレキシティがスケーリング則に従うなどの利点があります。 End-to-EndのオーディオLLMが複雑になる理由として、生データの認識が必要(≒GPT-V)、時系列信号の生成が必要(≒DALL-E)、認知と生成の統合など様々なことが挙げられます。 特にベクトル量子化について、認識・生成的アプローチにはトレードオフの関係があり、認識は単語の再構成が可能だが音情報が損失、生成は単語の再構成が難しくノイズが強調されるという特徴があります。

OpenAIのマルチモーダルLLMには3つの目標があります。

  • 音によるパープレキシティの改善:実現されていない
  • テキストのパープレキシティを損なわない:事前学習の制限に適応しながら、複数のマルチモーダルモデルを実現
  • スクラッチでのマルチモーダル事後学習:蒸留用のモデルや報酬モデル、ドメイン内データなどが不在であり、事後学習用のデータを作成・発見する必要がある

GPT-4oはオーディオにおけるGPT-3であり、特徴としてEnd-to-Endモデル、リアルタイム音声モード、テキストAI(テキストパープレキシティに影響なし)などがありますが、最も重要なのはオーディオAIの登場です。 OpenAIの顕著な成果として、5-10分程度のコメディー番組を生成したり、「AIプール」という存在しない概念についての対談動画を生成するなどの実績があります。 また、新たなオーディオ機能の面白い使用例として、架空の秘書にお酒を飲ませて企業秘密を話させたり、人間のように数を1から100まで数えさせたり、Claudeのサブスクリプションを更新したいと相談したりといった例が紹介されていました。

2025年の流れとしては、オーディオLLMの計算効率向上や、感情AIが発展して人々がより楽しい体験を提供してくれるAIを選ぶようになることが予想されます。

オーディオ+テキストLLMのイメージ(出典:NeurIPS 2024

所感

音の活用は、ユーザー体験向上のために重要な要素ですが、一方でOpenAIのように高性能なLLMモデルを開発する企業では、いかにテキストの性能を下げずにマルチモーダル性を持たせるかという点が難しい課題なのだと分かりました。 発表中に見たデモはどれも興味深く、オーディオモデルの進化により、新たなサービスが数多く生まれる可能性があると感じました。

Joon Son Chung氏による招待講演「Giving voice and face to AI」(AIに声と顔を与える)

発表内容

近年、LLM(大規模言語モデル)は急速に進化し、大規模なWeb上のテキストデータを活用して学習することで1、テキスト理解タスクにおいて顕著な成果を上げています。 しかし、こうしたテキストベースの知識には、ネット上のテキストに含まれる著者の意見やバイアス、実世界の多様性を捉えきれていないという課題が存在します。また、テキストは抽象的であり、解釈にはリテラシーが必要です。幼児が読解を学ぶ前に会話や視聴を通してコミュニケーションを習得することからも、音声や画像が人間にとってより直感的な情報形式であることが分かります。

幼児は感覚や運動の経験を通じて知識を得ており、複数の感覚を融合させることで自己理解を深めています。例えば、「ライオン」という言葉を聞くことで、その響きや画像、声、文字が同じマルチモーダル空間に配置されるイメージです。このことは、同じ概念のデータに対して脳の共通領域が活性化する実験結果からも示唆されます。講演者らが音や動画に注目する理由として、我々は一般的に見ることや聞くことで世界を把握するため、音と画像がコンピューターとのコミュニケーションにおいて最も自然なモダリティであると考えられます。実世界には大量のラベルなし動画が存在し、これらのデータは音と視覚オブジェクトが自然に対応しているという特性があります。

マルチモーダル学習は、異なる感覚を組み合わせることで新たな知識を得ることができるため、意義深いものです。例えば、ある楽器の音を聞いただけでは楽器名を答えられない人も、画像を見れば容易に対応付けできることがあります。マルチモーダルモデルは、画像と音から特徴量を抽出し、埋め込み空間内でその関係性を学習します。これにより、関連のあるデータは近くに位置し、関連のないデータは遠ざかるように調整されます。さらに、複数の正例・負例データを使用した対照学習を通じて、アライメントの改善策が提案されています。このモデルにより、インタラクティブな音源同定が可能となり、例えば、複数の動物が写った画像に対して各鳴き声に対応する領域が活性化するデモが行われています。

音声から話者の画像を特定する研究も進んでおり、画像と音声の特徴量を抽出して対照学習を行うことで、同じ動画からのデータペアを正例、異なる動画からのペアを負例としてモデルを構築します。 例えばAさんが発話している動画に対して、Aさんの声と画像のペアを抽出することで正例、Aさんの声とBさんの画像のペアを作成することで負例として利用できます。 モデルで抽出した特徴量を使用することで、追加学習なしで顔・話者認識に応用できます。

リップシンク技術は、1人の人物に対して音声と発話動画の対応付けを行う技術です。 同一動画から発話画像を正例、別時間の画像を負例として効率的にデータを作成します。学習モデルは、画像と音声から個人と発音を表す特徴量を抽出し、顔認識や読唇、話者認識、会話認識に活用可能です。

AIに声と顔を与える技術としては、動画を音声に変換する技術、音声・動画からの発話分離、音声合成、発話時の顔生成が挙げられます。動画の音声変換においては、ノイズ環境や複数話者でも高精度な音声認識を可能にするため、読唇技術を活用しています。自己教師あり学習を基に、話者の特徴を画像情報として加えることで、サイレント動画からの音声生成が可能です。読唇とASRを組み合わせた結果、テキストのWERが大幅に改善されました。

発話分離では、読唇と音声認識の特徴量を組み合わせ、複数話者の会話動画から個々の話者を分離することを目標とします。音声変換と同様に自己教師あり学習を行い、対象音声とノイズ、画像から音声を出力し、損失を最小化するようモデルを最適化します。2段階モデルにより高品質な音声を生成し、カーナビの音声入力などに応用可能です。

音声合成は、動画から抽出した特徴量とテキストを基に対象人物の音声を生成し、顔の特徴から学習した話し方や声でゼロショットTTSを行います。音声の個人特徴量も活用し、画像の個人特徴量との関連性を学習します。実際に異なる話し方や声で音声が合成される例が示されています。

次の目標は、環境を考慮した音声合成であり、テキスト・画像プロンプトを基にした音のマルチモーダル生成を目指します。大規模音声データを生成し、CLAPエンコーダーを用いて環境に配慮した音声を生成するモデルVoiceDiTを開発します。これにより、音楽スタイルや歌詞、周辺環境、セリフから音声を生成することができます。

最後に、発話時の顔生成では、音声に対応する発話顔動画を生成します。標準化した画像を基に、音声から唇の動きを生成し、参照動画からポーズや表情を生成します。また、画像1枚とテキストから同期した音声と発話している顔を生成するタスクも展開しており、自然な動画生成が実現されています。

会話AIのインターフェースでは、音声をASRでテキストに変換し、TTSで音声に変換する流れが一般的でしたが、マルチモーダル処理が可能になることで、音声・動画を認識し、特徴量を抽出してAV-ASRで話者の特徴を考慮したテキスト生成が可能です。さらに、AV-TTSによりテキストを音声と動画に変換してアバターを生成することで、ユーザー体験の向上が期待されています。

4つのタスク(出典:NeurIPS 2024

所感

音声の認識や合成は古くから研究されてきた分野ですが、近年の生成AIの進化によって目覚ましい発展を遂げており、特に多くのタスクで同じ特徴量抽出モデルを流用できるという点が印象的でした。 一方で、近年のAIを用いても性能面でいくつかの課題が残っていることを再認識し、また顔や声のなりすましといった新たなリスクが増す中で、電子透かしなどのセキュリティ技術がさらに重要性を増すのではないかと感じました。

オーラル:「Improving Musical Accompaniment Co-creation via Diffusion Transformers」(拡散トランスフォーマーによる音楽伴奏の共創の改善)

アブストラクト

  • Diff-A-Riff(楽器伴奏生成のための潜在的拡散モデル)を基に、品質や多様性、推論速度、テキストによる制御を改良

    • 基盤となるオートエンコーダを、忠実度の高いステレオ対応モデルにアップグレードし、潜在U-NetをDiTに置き換える
    • クロスモダリティ予測ネットワークを学習して、テキストベースのCLAP2埋め込みをオーディオベースに変換することで、テキストプロンプトを改良
    • 一貫性フレームワークを使用して潜在モデルを学習することで推論速度を改善し、ノイズ除去ステップを少なくして品質を向上
  • 実験:アブレーションによって、元のDiff-A-Riffと比較評価

    • 提案手法は、すべての評価指標について性能向上を示した
  • サウンドサンプル

発表内容

一般的に伴奏生成では、文脈となる既存楽曲と参照の楽器演奏音を基に、既存楽曲に対象楽器による伴走を追加することを目指します。 しかし既存のプロ用システムでは、様々な制限(サンプリングレートが44.1khz未満、モノラルのみ、推論速度が遅い、テキストによる制御が不十分、楽曲全体が対象)がありました。 一方、近年提案された手法(Diff-A-Riff)では上記の問題が改善されています(48kHz、疑似ステレオ、モデルサイズの減少、音とテキストによる制御、楽器単体を生成可能)。

Diff-A-Riffには主に4つの特徴があります。

  1. データセット:100万件の文脈・伴走データのペアで学習
  2. Music2Latent:音楽データを潜在変数に変換するCAE3
  3. CLAP:テキストと音の統合埋め込みモデル
  4. LDM:DDPM++4やEDM5

改善版であるDiff-A-Riff2では、様々な側面で改善(品質の向上、自然なステレオ、NFE6の減少、モーダルブリッジによる分布シフト7対策)が見られています。 具体的には、Music2LatentのCAEモデルを改善し、2倍の圧縮率(x64 → x128)でステレオ圧縮できるようになりました。 また、潜在拡散モデルを最新のDiT8に変更し、高品質で多様なデータを生成できるようにしています。 更に別の潜在モデルを学習してCLAPと組み合わせることで、テキスト・音の埋め込み処理を確率的にし、テキストによる制御をより効果的に行えるようにしました。 最後に、DiTの代わりにC-DiT(DiTの一貫性学習9)を使用することで、ノイズ除去ステップを30から5まで減少させることができます。

実験では、22,000件のマルチトラック録音(ポップ、ロック)を10秒の窓幅(重なりは3秒分)で切り出し、-20dBの正規化を行ったデータを使用しました。 同一の楽曲に対して、一部の楽器パートをターゲットデータ、それ以外をコンテキストデータとしているようです。 推論方法については以下の6つの条件で実験しています。

  • コンテキストデータ+CLAP埋め込み(オーディオ)
  • コンテキストデータ+CLAP埋め込み(テキスト)
  • コンテキストデータのみ
  • CLAP埋め込み(オーディオ)のみ
  • CLAP埋め込み(テキスト)のみ
  • 条件付けなし

評価指標は、オーディオの品質としてFAD10、忠実度や多様性としては密度とカバレッジ、プロンプトへの適応度としてはAPA11を使用しています。 上記全ての評価指標において、各アブレーション手法はベースライン(Diff-A-Riff)よりも性能が向上していることが分かり、改善策の有効性が示唆されました。

最後に、実際に生成された楽曲をいくつか流すことで、定性的にも提案法が優れていることが示されました。

提案法のイメージ(出典:NeurIPS 2024

所感

私自身、伴奏システムのような音楽アプリケーションに興味がありましたが、内部のアルゴリズムについて深く調べたことがありませんでした。 そのため、このような分野での最新研究ということで、個人的に非常に興味深い発表でした。 一貫性モデルや確率的埋め込みモデルなど、これまで知らなかった技術が複数出てきたので、もう少し基礎の部分から改めて勉強したいと思いました。

オーラル「AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation」(オーディオとビデオの同時生成のための効率的なオーディオビジュアル拡散トランスフォーマー)

アブストラクト

  • DiT:高品質なシングルモーダルコンテンツ(画像、動画、音声)の生成において優れた性能を発揮

    • しかし、マルチモーダル生成用のTransformerベースの拡散モデルについては十分に研究されていない
  • AV-DiT(オーディオビジュアル拡散Transformer):高品質でリアルな動画(同期された映像・音声)を生成

    • モデルの複雑さと計算コストを最小限に抑えるために、画像のみで事前学習されたモーダル共有のDiTバックボーンを利用し、軽量のアダプターのみを学習
    • 時間的な一貫性を保つために、学習可能な時間的Attention層を、学習済みのDiTブロックに組み込む
    • 少数の学習可能なパラメータによって、画像ベースのDiTブロックを音声生成用に適応させる
    • DiTブロックに追加された共有自己注意ブロックは軽量なパラメータを備えており、音声と映像の間の相互作用を促進してアライメントを保証する
  • 実験:AIST++、Landscapeデータセットを使用

    • AV-DiTは学習パラメータ数を大幅に削減しながら、音声と映像の統合生成においてSoTAを達成

発表内容

既存の音・動画生成手法は、2段階のモデルとなっており、初段の生成結果が最終生成物に強く影響してしまうという欠点がありました。 また、2つのコンポーネントを用いてモデルを一から学習する方法もありますが、これもまたパラメーター数が多いという課題があります。 それに対して提案手法では、事前学習済みの画像バックボーンを活用することで効率的なモデルを実現します。

提案手法のアーキテクチャでは、通常のDiTブロックを発展させたAV-DiTブロックを使用し、一部を追加学習しています。 上記の学習により、最終的にノイズから音と動画を生成することが可能となります。

実験の結果、提案法は少数の学習パラメーターのみで、複数のデータセット・評価指標におけるSoTAを達成しました。 論文内ではアブレーション12の結果やGPUのメモリ使用量など、詳細についても記載されています。 実際に生成結果を確認すると、従来法よりも自然な音・動画を生成できていることが分かりました。

今後の課題としては、クラス・テキストによる条件付き生成や実世界の大規模データセットでの評価、効率性の改善による推論速度の向上などが挙げられます。

従来法と提案法の比較(出典:NeurIPS 2024

所感

モデルのアーキテクチャについて完全に理解できていませんが、学習済みモデルに軽量なアダプターを導入して効率的な学習を行うという流れは、近年流行りの手法であると思います。 時間的Attention層の導入など、細部で様々な工夫を行った結果SoTAを達成できたのだと思われ、私自身も既存手法を単に活用するだけでなくネットワーク構造やパラメータのチューニングに今後注目していきたいと感じました。

オーラル「AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models」(大規模音声言語モデルを用いた強化された音声キャプションデータセット生成)

アブストラクト

  • 大規模音声言語データセットの構築は音声言語モデルの学習に不可欠だが、時間と労力を要するため困難

    • LLMは上記プロセスを大幅に効率化したが、音声テキストデータ生成用のLLMは詳細な音声情報を組み込む能力が不足している
  • 本稿では音声言語モデルを活用して、大規模かつきめ細かな音声キャプションを自動生成する新しいパイプラインを提案

    • AudioSetCaps:上記のアプローチに基づき、AudioSetの録音から得られた音声キャプションペア(190万件)を含むデータセット
  • AudioSetCapsを、音声テキスト検索と自動音声キャプション作成の2タスクで評価

    • AudioSetCapsで学習されたモデルは、両タスクでSoTAを達成し、高品質なキャプション生成を実証した
    • 特に、データラベリング処理にはオープンソースAPIが採用されており、コンシューマーレベルのGPUで実行できる
  • 本分野の進歩を促進するため、コード、音声と字幕のペアデータ、下流タスクの事前トレーニング済みモデルを公開(https://github.com/JishengBai/AudioSetCaps

発表内容

音声-テキストのマルチモーダル学習によって、データ生成や検索、マルチモーダルLLMなどが可能となりますが、重要な課題として大規模で高品質なペアデータが欠如していることが挙げられます。 応用分野としては、メディア情報検索やエンタメ、アクセシビリティ、VR/AR、ヘルスケアなどがあります。 既存の音声キャプションデータは量が不十分であり、詳細で多様なテキストのペアが必要という課題がありました。 そこで本研究では、音声キャプションを充実させるためのスケーラブルな自動パイプラインの開発を目標とします。 提案手法は3つのステップからなり、初めにLALM(大規模音声言語モデル)による音声抽出を行った後、LLMによるキャプション生成を行い、CLAPモデルによるキャプション改善を行います。

このようにして作成されたAudioSetCapsデータセットは、従来のデータより多様で詳細なものとなっています。 実験の結果、本データセットで学習されたモデルは、音声-テキスト検索タスクや音声キャプション生成でSoTAを達成したことが分かりました。 また、LLMと同様に明確なスケーリング効果を示し、データサイズが大きくなるほど検索精度が向上します。 ただし、人間とAIの生成キャプションにはまだギャップがあり、スケーリングの限界にも達していないため、更なる改善の可能性があるようです。

提案法の流れ(出典:NeurIPS 2024

所感

オーディオ分野に限らず、高品質なデータセットの作成は重要なトピックであり、研究コミュニティにとって有意義な研究だと感じました。 またキャプション改善の際に、音楽伴走や音声合成と同じCLAPモデルを使用しており、画像領域におけるCLIPと同様に、音声領域ではCLAPが一般的な埋め込みモデルとなっているのだと再認識しました。

まとめ

本記事では、NeurIPS 2024の1日目のワークショップについて、午前中に行われた発表の内容を共有しました。 ワークショップは、1つのテーマだけでも非常に奥が深いです。特に、音楽などのオーディオ系の研究は処理が複雑なため発展の余地があると思われ、面白いと感じました。 次回は、1日目の午後や2日目に聴講した発表についても報告できればと思います。


  1. 例えば、Meta社が開発したLlama 3は15T以上のトークンで学習され、Llama 2よりも性能が向上しています
  2. CLAP(Contrastive Language-Audio Pretraining)は言語と音声のマルチモーダルモデルで、これを活用することで環境プロンプトをエンコードすることができます
  3. CAE(Consistency Auto Encoder)は一貫性モデルを活用することで、既存の音声オートエンコーダーの限界を克服して高忠実度のシングルステップ生成を可能にする手法です
  4. DDPM(Denoising Diffusion Probabilistic Models)は、潜在変数モデルの一種である拡散確率モデルを用いて、高品質なデータを合成する手法です
  5. EDM(Elucidated Diffusion Model)はDDPMと同じ拡散モデルの一種で、設計の選択肢を分離することでモデルの理論と実践を改善した論文および手法です
  6. NFE(Number of Function Evaluations)は、推論ステップ数を並列化考慮で正規化した指標であり、値が低いほどサンプリングプロセスが効率的であることを示します
  7. 分布シフトとは、機械学習における分布の変化を指します。これは、強化学習における経験データと学習中の方策の間や、教師あり学習における訓練データと評価データの間などで、分布に差が発生することを意味します。
  8. DiT(Diffusion Transformer)は拡散モデルとTransformerを組み合わせたデータ生成手法で、最近の画像生成モデルなどに利用されています
  9. 一貫性モデルとは拡散モデルの学習において、ODE(常微分方程式)軌道上のどの位置からも一貫して同一の終点を予測するようにすることで、解を1ステップで推論できるようにする手法です。
  10. FAD(Frechet Audio Distance)は、画像生成モデルの評価に使用されるFIDをオーディオ領域に適用した指標です
  11. APA(Accompaniment Prompt Adherence)は音楽伴奏生成システムの新しい評価指標で、実験により人間の判断と大きく合致していることが示されています
  12. アブレーションは、モデルの構成要素の一部を取り除いて影響を評価することで、性能に貢献している要素を特定する手法です