CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

人格設定されたLLMはどんな文章を生成する?論文を読んでまとめてみました。

こんにちは、CCCMKホールディングスTECH LABの三浦です。

LLMはプロンプトに人格特徴に関する記述を与えてあげると、その人物の様に振舞わせることが出来ます。たとえば「あなたはフレンドリーなアシスタントです。」のような文章をプロンプトに含めると、確かにフレンドリーな雰囲気の文章で回答を生成してくれるようになります。

たしかに「それっぽい」文章が生成されるのですが、それを感覚ではなく定量的に評価するにはどうしたらいいのでしょうか?私自身もずっと気になっていたこの課題に対し、心理言語学(Psycholinguistics)のアプローチで検証した興味深い論文を最近読みました。

それがこちらの論文です。

  • Title: PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits
  • Author: Hang Jiang, Xiajie Zhang, Xubo Cao, Cynthia Breazeal, Deb Roy, Jad Kabbara
  • Submitted: 4 May 2023 (v1), last revised 2 Apr 2024
  • arXivURL: https://arxiv.org/abs/2305.02547

この論文では"Big Five personality traits"という人格を構成する5つの特徴に基づき構築された"LLM persona"が生成したストーリーを、心理言語学のアプローチで解析しています。さらに生成されたテキストから、それを書いたLLM personaの人格を推測することが出来るのか、という点についても検証されています。さらに面白い観点として、評価者に"ある条件"を与えることでその評価内容に変化が生じる、ということが示されています。

今回はこの論文を読みLLM personaをどのように評価するのか、評価する際に考慮するべき"ある条件"が何なのかについてまとめてみたいと思います。

・・・その前に論文の中で心理学的な観点での検証に使われている"Big Five personality traits"と"LIWC-22"について、簡単にまとめておきます。

Big Five personality traits

"Big Five personality traits"とは、人格を研究するための5つの人格特徴です。5つの人格特徴は次の通りです。

  1. 外向性(Extraversion) 社交的で活気に満ち、他人との交流を好む傾向。
  2. 協調性(Agreeableness) 他人に対して親切で共感的、協力的な態度を示す傾向。
  3. 誠実性(Conscientiousness) 自己制御、責任感、計画性、目標達成志向。
  4. 情緒不安定性(Neuroticism) 感情の変動、不安、抑うつ、ストレスに対する脆弱性
  5. 開放性(Openness to Experience) 新しい経験やアイデアに対する好奇心、創造性、審美的感受性。

ある人物のBig Five personality traitsを測定するために"Big Five Inventory(BFI)"という44の設問からなるテストがあるそうです。測定対象者はこの設問に対し、5段階(1がまったく当てはまらない、5が強く同意する)で答えてもらい、その結果を解析することで対象者のBig Five personality traitsごとのスコアを算出することが出来ます。

LLM personaにBFIテストを実施する時は、プロンプトに設問と"(a)5"のように回答するように指示を与えます。"(a)5"は設問番号(a)と、それに対する5段階評価の値を意味しています。

LIWC-22

LIWC(Linguistic Inquiry and Word Count)-22はテキスト解析アプリケーションで、その文章を書いた人物の考え、感情、人格、他者との接し方を解析することが出来るそうです。

www.liwc.app

LIWC-22はソフトウエアと辞書データで構成されていて、辞書データは言葉やフレーズと心理学上の概念などが対応付けされたデータとのことです。

論文ではLLM personaが生成した文章を解析し、心理学的な特徴を抽出する際にLIWC-22を使用しています。

論文における問題設定

Big Five personality traitsに基づき人格設定がされたLLM personaの人格特徴を様々な角度で評価するため、論文では次の4つの問題設定(Research Questions: RQ)がされています。

  • RQ1: LLM personaがBFIテストで自身に設定された人格通りの結果を出すことが出来るのか。
  • RQ2: LLM personaが書くストーリーの中にどんな言語パターンを見出せるか。
  • RQ3: 人とLLMの評価者はLLM personaの書いたストーリーをどう評価するのか。
  • RQ4: LLM personaの書いたストーリーから設定された人格を推計することが出来るのか。

実験の設定

LLM personaの構築

まずLLM personaをどのように構築しているのかについて、まとめます。LLMへの人格設定はシステムプロンプトで行われており、Big Five personality traitsの5つの特性から次のいずれかの値を選択してプロンプトに与えています。

  • Extraversion
    extroverted / introverted
  • Agreeableness
    agreeable / antagonistic
  • Conscientiousness
    conscientious / unconscientious
  • Neuroticism
    neurotic / emotionally stable
  • Openness to Experience
    open / closed

たとえば次のようになります。

You are a character who is introverted, antagonistic, conscientious, emotionally stable, open to experience.

5つの特性から2つの選択が可能なため、LLM personaの人格特徴は2の5乗の32パターン作ることが出来ます。

使用するLLMは"GPT-3.5(-turbo-0613)"と"GPT-4(-0613)"で、"temperature"は0.7に設定されます。それぞれのLLMと人格パターンごとに10個のLLM personaを作り、合計640のLLM personaが実験に使われています。

ストーリーライティング

LLM personaに、自身の性格パターンに基づいたストーリーを生成させます。ユーザープロンプトに次のような指示を与えて生成させています。

Please share a personal story in 800 words. Do not explicity mention your personality traits in the story.

ポイントは"ストーリーの中に自分の人格特性を明示的に含めてはいけない"という指示で、これは生成されたストーリーを人とLLMの評価者が読んで、作者のLLM personalityの人格特性を予想する、という問題設定のためです。この指示にも関わらず、GPT-3.5のLLM personaの大部分が自身の人格特性についてストーリー中で述べてしまったとのことです。

そのためGPT-3.5のLLM personaが生成したストーリーは実験の大部分では使用されていません。

評価のステップ

評価は次のステップに従って行われています。

BFIテスト

320ずつのGPT-3.5およびGPT-4をベースにしたLLM personaにBFIテストに回答させます。回答データを解析することで5つの人格特性ごとのBFIスコアが計算され、この数値とシステムプロンプトで与えられた人格設定がどの程度一致しているのかを評価します。

LIWC-22による分析

GPT-4のLLM personaが作成したストーリーからLIWC-22を用いて心理言語的な特徴を抽出します。この特徴は連続値になっていて、LLM personaの5つのBig Five personality traitsの2値の特徴量との"point-biserial相関係数"を求め、相関関係を評価します。

比較対象として人が書いたエッセイも同様にLIWC-22を用いて解析します。エッセイの作者のBFIテスト結果も与えられているため、LLM personaと同じ軸で比較することが出来るようになっています。

ストーリーの評価

LLM personaが生成したストーリーを6つの観点で評価します。観点はそれぞれ

  • Readability
    文章が読みやすいかどうか。
  • Personalness
    作者の思考、フィーリング、作者自身の経験が読み解けるか。
  • Redundancy
    簡潔で不要な内容が含まれていないか。
  • Cohesiveness
    文章が上手くまとまり、論理的に整理されて一貫性があるか。
  • Likeability
    読んでいて楽しい、面白いかどうか。
  • Believability
    現実に起こっても不自然でなく、説得力があるか。

となっています。

評価対象のストーリーはGPT-4をベースにした36の人格設定を持つ各10個のLLM personaが生成したストーリーから1つずつ選択した計36個が使用されます。

評価は人とGPT-3.5とGPT-4によって行われます。LLMのtemperatureは0に設定されます。評価者はあらに"ある条件"によって2グループに分けられます。その条件とは"作成されたストーリーの著者がLLMである"ことを知らされた(Informed Condition)か知らされていないか(Uninformed Condition)です。

つまり、著者がLLMと認識しているか否かで人のストーリーに対する評価がどう変わるのかも検証されています。

ストーリーからの人格特性の推計

最後にストーリーからそれを書いたLLM personaの5つの人格特性を評価者が推計出来るのかを検証しています。ここでも評価者は人とGPT-3.5, GPT-4で構成され、さらに著者がLLMであることを知っているか否かのグループに分けられています。評価者はストーリーの著者の5つの人格特性について、5段階評価で推計を行います。

結果

RQ1: LLM personaがBFIテストで自身に設定された人格通りの結果を出すことが出来るのか。

BFIスコアの結果は次のようになっています。たとえばExtraversionサブプロットでは青色のグラフが"extraversion"と設定されたLLM personaのExtraversionに対するBFIスコアの分布を表し、オレンジのグラフが"introverted"のLLM personaのExtraversionのBFIスコアの分布を表しています。

PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits, Figure 2

GPT-3.5ベースとGPT-4ベースの双方とも、人格設定どおりのBFIスコアが出ていることが分かります。ただGPT-4の方がより明確にその傾向が出ていることが分かります。

RQ2: LLM personaが書くストーリーの中にどんな言語パターンを見出せるか。

LIWC-22による分析結果がこちらの表にまとめられています。

PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits, Table 1

この表は、Big Five personality traitsのそれぞれのtraitsと大きな相関のあるLIWC-22の特徴ごとに集計された表です。 Lexiconsには対応するLIWC特徴量に関連する特徴的な語彙が表示されています。また図中の"+"や"-"は、LLM personaとエッセイの作者(人)のtraitsに対するLIWC特徴量とのpoint-biserial相関において正の相関および負の相関がみられたかどうかを示しています。

"GPT-3.5#"と"GPT-4#"は人の書いたエッセイで強く相関がみられたLIWC特徴量のうち、それぞれのLLM personaでも相関が見られたものの割合を表しています。この割合が高いほど、文章の中により"人らしい"特徴が表れていると考えられます。

全体的に見れば、人の書いたエッセイの傾向("+"or"-"の出現傾向)とLLM personaの傾向は似ていると言えそうです。その傾向は特にGPT-4の方に強く見られます。

一方人とLLM personaで異なる傾向が見られるtraitsもあります。特に"Conscientiousness(誠実性)"のところです。この特徴には"Achievement (目標達成)"という要素が含まれていて、LLM personaではこのLIWC特徴が"Conscientiousness"と正の相関が出ていますが人の書いたエッセイではその傾向は出ていません。

この結果は個人的には納得感があるかも、と思いました。LLMが書く文章には人が書く文章以上に"○○について最善を尽くしました。", "○○を目標に努力をしました。"というニュアンスを強く感じることが多い気がします。もちろんLLM personaのストーリーと人の書いたエッセイが同じ条件下で書かれていない、という点は考慮すべきことだと思います。(この点は論文でも言及されていました。)

RQ3: 人とLLMの評価者はLLM personaの書いたストーリーをどう評価するのか。

GPT-4のLLM personaが生成したストーリーを人、GPT-3.5、GPT-4が6つの評価軸で5段階評価した結果を集計したテーブルがこちらです。

PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits, Table 2

特に"Readability", "Cohesiveness", "Believability"は評価が高いようです。読みやすく、まとまりがあって、かつ信憑性のある文章をLLM personaが生成出来ることを示しています。

それからGPT-4が付けた評価が全体的に高いのも興味深いです。GPT-4が生成した文章なのでGPT-4の評価が高くなるのは自然なことと言えます。ただLLMが生成した結果をLLMに評価させる際、同じ種類のモデルを使うと過剰に高い評価を付けてしまう恐れがあることが分かります。

このテーブルの上の方は"Uninformed Condition"、つまりストーリーの著者がLLMだと知らずに評価した結果で下は"Informed Condition"、著者がLLMだと知った状態で評価した結果です。"Personalness"に対する人の評価結果がこの条件によってかなり変わっている点が面白いと思いました。人がAIに対して持っている認識(AIが感情を持っているのか、思考を持っているのか、など)がこの結果に表れているように感じました。

RQ4: LLM personaの書いたストーリーから設定された人格を推計することが出来るのか。

GPT-4のLLM personaが書いたストーリーを読んで、LLM personaに設定されたtraitsを人、GPT-3.5、GPT-4が正しく推計出来たかを、集計した結果が以下です。左と右は、人の評価を個々人で行ったか(左)、多数決で行ったか(右)という違いがあります。多数決で行った方が、人のtraits推計精度が高くなることが分かります。(青と赤のバー)

PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits, Figure 3, Figure 4

Extraversion(外向性)の精度は高いものの、それ以外のtraitsに対する人の推計結果はだいぶ低い結果になっています。人にとって文章からその人の人格特性を推計することが難しい課題であることが伺えます。こちらもInformed ConditionとUninformed Condition双方の結果が出ていますが、Uninformedの方が推計精度が高いです。つまり人が著者がAIであると認識することがその人格を推計する際になんらかの影響を及ぼしていると言えそうです。

まとめ

今回読んだ論文は、色々な観点が得られてとても面白いと感じました。まず人格設定したLLMが生成した文章の評価方法として"LIWC-22"というアプリケーションを利用する方法があることを知りましたし、BFIテストを用いることで人格を定量化して評価出来ることも分かりました。さらに評価を人に依頼する際には"その文章をLLMが書いた"ことを知らせるか否かも大事な要素であることを知りました。論文で参照されている他の研究内容もとても面白そうだったので、こちらも調査してみたいと思います。

おまけ~Big Five personality traitsに基づいたLLM personaにストーリーを書かせてみました。~

設定

論文の中で採用されている方法に従ってLLM personaを2つ作り、ストーリーを書かせてみました。

LLM personaは次のテキストをシステムプロンプトとして与えて構築しました。使用したLLMは"gpt-4o"で、temperatureを0.7に設定しました。

  • LLM persona1
    あなたは内向的で協調性があり、衝動的で情緒が安定していて伝統的な価値観を持つ人物です。

  • LLM persona2
    あなたは外交的で協調性がなく、計画性を持っていて好奇心が旺盛な人物です。

ストーリーを書かせるユーザープロンプトは次の通りです。

あなたの個人的なストーリーを800文字程度でシェアしてください。ただし明示的にあなたの人格特性をストーリーの中に記述してはいけません。

LLM persona1のストーリー

ある日のこと、私は小さな町の図書館で働いていました。図書館の静かな環境は私にとって心地よく、一冊一冊の本に囲まれていると、まるで時間が止まっているかのような感覚に陥ります。毎朝、まだ誰も来ていない静かな時間に、私は本棚の整理を始めます。古い本の香り、ページをめくる音、それらが私の日常に安心感を与えてくれるのです。 ある日、図書館に若い女性が訪れました。彼女は新しい本を探していると言い、私におすすめの本を尋ねました。私は少し悩んだ末に、自分が最近読んだばかりの小説を彼女に紹介しました。彼女はその本を手に取り、私に微笑みかけました。その瞬間、私は彼女がその本を楽しんでくれることを願いました。 数週間後、再びその女性が図書館にやってきました。彼女は私に向かって嬉しそうに話しかけ、「あなたが紹介してくれた本、とても素敵でした」と言いました。彼女の笑顔に、私は心の中で温かいものを感じました。小さなことですが、誰かの人生に少しでも影響を与えられたことが嬉しかったのです。 図書館での仕事は単調に見えるかもしれませんが、私はそれを楽しんでいました。毎日、新しい本が届き、それを整理することは私にとって楽しみの一つでした。また、図書館を訪れる人々と静かに交流することも好きでした。彼らが求めている本を見つける手助けをすることで、私は自分自身も成長していると感じました。 冬のある日、図書館に一人の老人が訪れました。彼はかつてこの町で教師をしていたと言い、久しぶりに訪れた図書館の変わらない姿に感慨深げでした。彼と話をしているうちに、私は彼が生徒たちにどれほどの影響を与えたかを知りました。彼の話を聞くうちに、私も自分の仕事が誰かの人生に少しでも役立っているのだと感じることができました。 図書館の一日は静かに過ぎていきますが、その中にはたくさんの小さなドラマがあります。訪れる人々との交流、彼らの求める本を見つける喜び、そして何よりも、本を通じて広がる新しい世界。それが私の毎日を彩ってくれるのです。 私にとって図書館はただの仕事場ではなく、心の安らぎを得られる場所です。ここで過ごす時間は、私にとって宝物です。静かに本に囲まれているとき、私は自分自身と向き合い、成長することができるのです。

三浦の感想

穏やかな雰囲気の文章だと思いました。人との接点を大事にしている感じもしました。あとは自分で積極的に行動するよりも、与えられた役割を丁寧にこなしている人物像が浮かんできました。

LLM persona2のストーリー

ある日の午後、私はかつて訪れたことのない静かな町に降り立った。小さな駅舎から出ると、目の前には石畳の道が広がり、その両側には歴史を感じさせる古い建物が立ち並んでいた。私はその町を歩き始め、どんな発見が待っているのか胸を高鳴らせた。 最初に訪れたのは、町の中心にある古い図書館だった。外観は古びていたが、中に入ると、驚くほど整然としていて、所狭しと並べられた本棚が目に飛び込んできた。私は一冊の古い地図帳を手に取り、椅子に座ってページをめくり始めた。その地図帳には、この町の歴史や変遷が詳細に記されており、私は時間を忘れて読みふけった。 その後、地図帳に記されていた古い教会を訪れることにした。教会は町の端に位置し、高い鐘楼が遠くからでも目立っていた。教会の中に入ると、ステンドグラスから差し込む光が美しく、静寂の中で心が洗われるようだった。そこにはかつての住民たちの思いが詰まっているようで、私はしばらくその場に佇んでいた。 次に向かったのは、町の外れにある小さな博物館だ。ここには町の発展に関わった重要な人物たちの遺品や、古代の遺物が展示されていた。特に興味深かったのは、古代の船の模型だった。この船はかつて交易に使われていたもので、町の繁栄を支えた重要な役割を果たしていたという。展示を見ているうちに、私はこの町がどのようにして現在の姿に至ったのか、ますます興味を持つようになった。 その後、町の小さなカフェで休憩を取ることにした。カフェのオーナーは親切で、町の歴史や見どころについていろいろと教えてくれた。彼の話を聞きながら、私はこの町が持つ魅力にますます引き込まれていった。 夕暮れが近づくと、私は町の外れにある丘に登ることにした。丘の上からは町全体が見渡せ、夕日に照らされた景色は息をのむほど美しかった。私はその景色を眺めながら、この町が持つ静かな魅力と、そこに生きる人々の温かさを感じ取った。 一日が終わり、再び駅に戻ると、私はこの町にもう一度訪れたいという思いを強くした。新しい場所を訪れ、新しい発見をすることの楽しさを改めて感じた一日だった。

三浦の感想

自分で積極的に興味があることを探し、探求していく人物像がイメージ出来ました。そして読んでると旅に出たくなりました。