CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

インタビューによって人の行動をシミュレーションする"Generative Agent Simulations of 1,000 People"について調べました。

こんにちは、CCCMKホールディングスAIエンジニアの三浦です。

私は体力維持のために朝走る習慣を続けているのですが、続けててよかった、と思ったことが最近1つ見つかりました。それは旅先でホテルから少し離れたところにある観光名所であれば電車やタクシーを使わずに走って訪れることが出来るようになったことです。直線距離では5kmほどの距離なのに交通手段が無くて訪れることが難しかったところでも、走ってちょっと見に行く、ということが出来るようになりました。

さて、私は以前からAIによって人の行動をどれだけ予測することが出来るのか、というテーマに興味を持っています。鏡を見て自分について分かることがたくさんあるように、自分をAIでシミュレーションすることで自分自身について分かることがたくさんあると考えているからです。また集団をAIでシミュレーションすることでこれから起こりうる問題を事前に検証し、それを防ぐための対象を考えることが出来るようになると思っています。

Large Language Model(LLM)によって人と対話が出来るAIが実現出来るようになり、プロンプトに特定の人物の設定(ペルソナプロンプト)を含めることで、あたかもその人物のように回答させるテクニックも使われるようになりました。

LLMを使って特定の人物のシミュレーションをする研究は色々とあるのですが、その評価については結構揺れている印象があります。ネガティブな評価としては、たとえばペルソナ設定によってはAIのタスクの成功率が落ちてしまうとか、複数の選択肢が提示されたときのAIの選択傾向は、その人物の設定内容ではなく選択肢の順序に大きく影響されている、といったものがあります。

今回取り上げる、最近調べていた論文"Generative Agent Simulations of 1,000 People"はどちらかというとポジティブな内容です。1,000人を超える実在する人物をLLMでシミュレーションし、元となった人物と同じ調査を実施したときにどれだけAIがその内容を再現できているのか、という評価が行われています。その結果、従来のAIシミュレーションの手法に比べてより忠実に人物の行動を再現できたこと、また社会科学の再現実験において人の参加者と類似した再現性が確認できたことが紹介されています。

参照論文

今回この記事で参照した論文はこちらの論文です。

  • Title: Generative Agent Simulations of 1,000 People
  • Authors: Joon Sung Park, Carolyn Q. Zou, Aaron Shaw, Benjamin Mako Hill, Carrie Cai, Meredith Ringel Morris, Robb Willer, Percy Liang, Michael S. Bernstein
  • Submitted: 15 Nov 2024
  • arXiv URL: https://arxiv.org/abs/2411.10109

Generative Agent

Generative Agentを構築する重要な要素が実在の人物との2時間にもおよぶインタビューを通じて得られたトランスクリプトです。このスクリプトをプロンプトに差し込むことで、その人物の特徴を反映した回答を生成させる、というのがGenerative Agentの基本的な構成になります。

Generative Agentはこの基本構成にさらに"Expert Reflection"というモジュールが組み合わされています。Expert Reflectionは社会科学分野の4つの専門家(心理学者、行動経済学者、政治学者、人口統計学者)の特徴をプロンプトで与えたLLMにトランスクリプトを入力し、それぞれの観点での観察と考察をまとめさせたものです。これをGenerative Agentにトランスクリプトと一緒に与えることで、その人物が明示的に発言しなかった潜在的な特徴を反映させようとしています。

参照元】Generative Agent Simulations of 1,000 People, Supplementary Materials, Figure 4

インタビューはどうやって実現しているのか?

Generative Agentのベースは、米国の代表的なサンプルになるように年齢・性別・人種・地域・教育水準・政治的イデオロギーといった要素を考慮した層化抽出法によって募集された1,000人以上の実在する人物に対して行ったインタビューのトランスクリプトです。インタビュー項目は社会科学の観点でとくに関心がもたれている個人の人生史から現代社会の問題に対する意見まで幅広いトピックに及んでいて、American Voices Projectの一環として社会学者によって開発されたインタビューを元に構築しています。さらに時間が許す限り状況に応じてフォローアップの質問も実施されています。

では1,000人にも及ぶ参加者に2時間ものインタビューをどのように実施しているのでしょうか?Generative Agentの面白いのが、インタビューを行うインタビュアーもまたAIで構築しているという点です。

参加者はシステムにログインし、自身の情報(アバター作成など)を登録した後に以下のようなインターフェースでAIによるインタビューを受けることになります。

【参照元】Generative Agent Simulations of 1,000 People, Supplementary Materials, Figure 3

インタビューは音声を通じて行います。参加者がマイクで発言し、AIによるインタビュアーによる発言が音声で流れるようです。

AIインタビュアーの構成は以下のようになっていて、参加者の直近の発言とインタビュースクリプトを受け取り、次の質問に遷移したり、状況に応じてフォローアップ質問を行って深堀りをします。Generative Agentと同様にこちらもReflectionを行うモジュールが接続されており、これによってこれまでのインタビューによって得られたインサイトや要約を常に把握しながら正確に次の質問やフォローアップを行えるようにしています。

【参照元】Generative Agent Simulations of 1,000 People, Supplementary Materials, Figure 2

結構面白いと感じたのがインタビュアーの発言です。質問の中には参加者にとって答えにくいものや、思い出したくない思い出に触れる内容も含まれています。そういった質問の後には参加者を気遣うような発言を行っていて、こういう気配りがたとえAIであっても必要なんだと感じました。

Generative Agentによる再現性の測定

Generative Agentの実在する個人をシミュレーションするアプローチのメリットは、その個人と同じ質問に回答させることでどれだけその個人の態度や行動を再現できているのかを測定できる点です。

参加者はGenerative Agentのもとになるインタビューとは別にいくつかの調査への回答や経済ゲームへの参加が求められます。調査は"General Social Survey"(GSS)という回答者の人口統計的な背景、行動、態度と政策、人種関係、ジェンダー、宗教に対する信念を図るものと、"Big Five Inventory-44"(BFI-44)という性格特性を診断するものを実施しています。経済ゲームは実際に報酬が得られる状況でどのような意思決定を行うのかを観察する目的で複数のゲームが実施されています。

それぞれの調査やゲームの結果について、参加者とその人物のAgentによって測定された数値を用いてAgentの再現性を評価します。また、参加者自身も同じ質問やゲームにおいて常に一貫した回答をするとは限りません。そのため参加者には同じ調査やゲームを2週間後に再度実施させ、2回の結果の類似度も計算します。最終的なAgentの再現性の評価値は、Agentと参加者の結果の類似度を参加者自身の2回の結果の類似度で割った値が用いられています。

比較対象のシミュレーション構築手法

実在する人物をAIでシミュレーションする方法は他にも考えることが出来ます。たとえばその人物の人口統計情報をプロンプトに与える方法や、その人物のプロフィールをプロンプトに与える方法です。人口統計ベースの方法をDemographic-Based, プロフィールベースの方法をPersona-Based、そしてGenerative Agentで使われているインタビューベースの方法をInterview-Basedとしてそれぞれの手法でどれだけ人物を再現できるのかが比較検証されています。

再現性の検証結果

GSS, BFI-44, 経済ゲームにおける再現性の結果は以下のようになっています。

【参照元】Generative Agent Simulations of 1,000 People, Figure 2

黄色のParticipantsは参加者の2回の測定による再現性を表しています。GSSとBFI-44ではInterview-Basedの方法が高い再現性を示していて、統計検定による結果でも他の手法に比べて有意な差があることが確かめられています。一方で経済ゲームにおいては有意な差は確認できなかったとのことです。

過去の研究の再現実験における傾向

もう一つ、論文の中で面白い検証が行われています。社会科学の分野で過去に発表された研究について再度実験を行い、同様の結果が得られるか確認をする再現実験を参加者とAgentで行っています。もしこの再現実験で参加者とAgent間で同様の結果が見られれば、今後社会科学の実験を実在する人物ではなくAgentの集団で実施する、といった可能性も考えられます。

論文の中では5つの研究について、その研究における処置を加えたときの効果の大きさ(Effect size)を測定し、参加者(Participants)、Interview-Based, Demographic-Based, Persona-Basedで比較を行っています。

その結果は以下のようになっています。"Rai et al. 2017"の実験は参加者において効果の有効性が確認できなかった(再現に失敗した)のですが、これはAgentでも同様の結果となっています。その他4つの研究については有効性が確認できている点も同様です。

【参照元】Generative Agent Simulations of 1,000 People, Table 1

つまり過去の研究の実在する人物における再現の成功・失敗の傾向をAgentがある程度シミュレーションできていることが分かります。さらに効果の大きさについての参加者との相関はInterview-BasedのAgentが特に高い結果となっており、Generative Agentの手法で構築されたAgentが社会科学の研究において実在する人物に対して行った結果をある程度シミュレーションすることが出来る可能性を示唆しています。

まとめ

今回は最近読んでいた"Generative Agent Simulations of 1,000 People"という論文についてご紹介させていただきました。こういうアプローチがあるんだと、とても勉強になる内容でした。対象の人物の行動や態度をある程度AIでシミュレーションできる、ということですが、実際に会話をしてみた時にどんな風に感じるんだろう、と思いました。この辺りの最新手法は引き続き継続して追っていきたいと思います!