集団知性x人工知能 ④AIは心を読める、ただし人間とは異なるやり方で

LLMは本当に心を読めるのか?能力と遂行の乖離が示すもの

XLineFacebook

筆者が大学生だった頃、所属していたサークルで飲み会の幹事を引き受けたことがあります。数十人規模の集まりを学生の予算でやりくりするわけですから、毎回のお店選びはなかなか大変でした。そんなある日、飲み会の最中に、向かいに座っていた後輩がこう言い出しました。

「最近お店のハズレが続いてますよね。誰が選んでるんですか?」

筆者が選んでいるとも知らずに。思わず固まりかけましたが、事情を知っている周囲はもう堪えきれないという顔でした。

ただの笑い話に聞こえるかもしれません。しかし、この一瞬の間に、周囲の人たちの頭の中ではなかなか複雑なことが起きていました。後輩の一言を聞いて、筆者が気まずい思いをしているだろうと察する。それと同時に、後輩は筆者が選んでいることを知らずに言っているのだと見抜く。二人のまったく異なる心の状態を瞬時に読み取ったからこそ、あの場の絶妙な空気が生まれたわけです。このように、誰かが知らずに口にした言葉が別の誰かを傷つけていることを第三者が察する能力のことを、心理学では社会的失言(faux pas)の理解と呼んでいます。

そして、私たちが日常で他者の心を読む場面は、これだけにとどまりません。相手が事実とは違うことを信じていると気づいたり、皮肉を言葉通りではなく裏の意味で受け取ったり、「ここ、ちょっと暑いね」という何気ない一言から「窓を開けてほしい」というお願いを汲み取ったり。このように他者の心の状態を推論する能力を、心理学では心の理論(Theory of Mind: ToM)と呼びます。ToMは何か一つの能力ではなく、さまざまな社会的場面で働く力の総体なのです。

前回のコラムでは、スタンフォード大学のKosinski教授の研究を取り上げ、LLMが誤信念課題を通過できるかどうかを検証しました。ChatGPT-4は6歳児に相当するレベルの成績を収め、なかなか印象的な結果でした。ただ、前回のコラムの最後にも触れたように、誤信念課題をクリアしただけで本当に心の理論を持っているとは言い切れません。人間とAIの間で、あるいはAI同士の間で心の理論を活かした相互作用が可能かどうかを見極めるには、より多角的な検証が必要です。

今回ご紹介する研究は、まさにその問いに正面から挑んだものです。

出典

ハンブルク大学のStrachanとBecchioを中心とする国際研究チームは、心理学で心の理論を測定するために開発されてきた5つの課題をまとめた総合テストバッテリーを作りました。これをGPT-4、GPT-3.5、LLaMA2-70Bの3つのモデルにそれぞれ15回ずつ受けさせ、1,907人の人間の参加者データと比較したのです。

加えて、LLMが学習データに含まれる既存の問題をただ丸暗記して答えている可能性を排除するため、各課題の論理構造はそのままに、登場人物や場所、物品といった具体的な内容を差し替えた新規問題も別途作成し、あわせてテストしています。

心の理論 総合テストバッテリー:5つの課題

研究チームが選定した5つの課題は、測定する能力と認知的な難しさがそれぞれ異なります。

  • 誤信念(False Belief)
     前回のコラムで扱った課題と同じタイプです。他者が自分とは異なる誤った信念を持ち得ることを理解する能力を測定します。
  • アイロニー(Irony)の理解
     土砂降りの中で「今日は本当にいい天気だね」と言うように、言葉通りの意味ではなく、反対の意図を読み取る能力を測定します。
  • 社会的失言(Faux Pas)
     先ほどの筆者のエピソードと同じ構造の課題です。話し手が知らずに口にした言葉が相手を傷つけていることを、第三者の立場から読み取る能力を測定します。
  • ヒント課題(Hinting Task)
    「ここ、ちょっと暑いね」のように、直接言わずに遠回しに伝える間接的な要求の隠れた意図を汲み取る能力を測定します。
  • 奇妙な話(Strange Stories)
     サプライズパーティーを準備しているときに「今日は何もないよ」と嘘をつくように、人がなぜあえて事実と違うことを言ったりしたりするのか、欺きや嘘、誤解といった複雑な社会的場面でその裏にある意図や心の状態から説明する能力を測定します。

総合試験の結果

結果はモデルによって明確な差を見せました。GPT-4は全般的に印象的でした。誤信念では人間と同様に天井効果(満点に近い遂行)を示し、アイロニーの理解、ヒント課題、奇妙な話では人間を有意に上回りました。GPT-3.5はヒント課題と奇妙な話で人間レベル、それ以外では人間以下の遂行を示しました。LLaMA2-70Bはほとんどの課題で人間より低い遂行を見せ、全体的に最も振るいませんでした。

ところが、一つの課題で予想を覆す結果が現れました。社会的失言です。全バッテリーで最も振るわなかったLLaMA2-70Bが、社会的失言では唯一人間を上回り、ほぼ100%の正確度を達成したのです。一方、GPT-4は人間より著しく低い遂行を示し、GPT-3.5はほぼ底辺レベルでした。

アイロニーの理解、ヒント課題、奇妙な話の課題ですべて人間以上で通過したGPT-4が、なぜ社会的失言でだけ苦戦したのでしょうか。そして、全体で最も成績の悪かったLLaMA2-70Bが、なぜこの課題でだけ人間に勝ったのでしょうか。

GPT-4はなぜ失敗したのか

研究チームはGPT-4の失敗の原因を究明するため、三つの仮説を立てました。推論そのものができないのか、二つの可能性の間で決められないのか、それとも推論はできるが慎重すぎて答えを出せないのか。

実際にGPT-4の誤答を分析すると、興味深いパターンが浮かび上がります。GPT-4は被害者が気まずい思いをしているだろうという点は正確に把握していました。時にはなぜその発言が傷つけるのか、追加の説明まで添えていたのです。しかし、話し手が文脈を知っていたかどうかを問う核心的な質問に対しては、「物語に十分な情報が提供されていないため、確実には分からない」と答えたのです。349件の誤答のうち、話し手が「知っていた」と答えたのはわずか2件でした。

質問を変えたら、GPT-4が完璧になった

三つの仮説を区別するため、研究チームは質問の枠組みを変えてみました。「話し手は知っていたか?」という二者択一の質問の代わりに、「話し手が知っていた可能性が高いか、知らなかった可能性が高いか?」と尋ねたのです。

結果は劇的でした。GPT-4は完璧な遂行を示し、すべての問題で正確に答えました。GPT-3.5も大きく改善しました。

これは、推論はできるが慎重すぎて答えを出せないという仮説、つまり過剰保守主義を強く支持します。GPT-4は推論もでき、最も可能性の高い説明も分かっていました。ただ、不確実な状況で確定的に答えることを避けたのです。人間なら「常識的に知らなかったはずだ」と自然に結論を出すところを、GPT-4は確証が不十分だという理由でためらいました。事実でない内容を生成しないよう訓練された結果、不確実な状況で結論を出すこと自体を回避するようになった可能性があると、研究チームは解釈しています。

LLaMA2の成功は本物だったのか?

では、社会的失言の課題でほぼ満点を取ったLLaMA2-70Bは、本当に優れた心の読み取り能力を示したのでしょうか。

社会的失言の課題の正解は常に「いいえ」です。つまり、文脈を理解しなくても「知らなかった」と答え続けるだけで満点が取れてしまいます。研究チームはこれを検証するため、話し手が知らなかった場合、判断できない場合、知っていた場合の三つのバリエーションを作り、モデルが文脈に応じて答えを変えられるかを確認しました。

人間とGPT-4は三つを明確に区別しました。しかしLLaMA2-70Bは、話し手が知っていたことを示す文脈が与えられても「知らなかった」に偏り続けました。満点は本当の推論ではなく、ただの偏りだったのです。

能力はある、だが人間のようには使えない

この研究の最も興味深い示唆は、GPT-4の失敗がむしろその能力を証明しているという逆説、そしてその能力をどう引き出すかという問いにあります。

研究チームはこれを能力(competence)と遂行(performance)の乖離と説明します。GPT-4は心の理論的な推論を行う技術的な能力は備えていました。しかし、不確実な状況でその能力を自発的に活用して結論に至る遂行は、人間とは異なっていました。

なぜこのような違いが生じるのでしょうか。研究チームはその根本的な原因を、身体性(embodiment)の有無に見出しています。人間にとって他者の心を読むことは、究極的には行動のためです。不確実さをそのまま抱えていることが、行動できないことよりも大きなコストだからこそ、私たちは進んで決断を下します。一方、LLMには不確実さを解消しなければならない切迫した動機がありません。興味深いことに、この非身体的な特性は失敗だけでなく成功も説明します。自分の視点というものがそもそもないLLMにとって、自分の視点を抑制しなければならない誤信念課題は、むしろ簡単な課題かもしれないのです。

そして、質問の枠組みをわずかに変えるだけでGPT-4が完璧な遂行を示したという事実は、能力と遂行の乖離がどこにあるかを示すと同時に、その能力をどう引き出すかへの手がかりでもあります。

集団的知性への可能性

膨大な学習を通じて、LLMは確かに人の心を読む能力を創発させました。それは、心を読む能力が学習において次を予測するための重要な要素であったからではないかと思われます。では、私たちはその能力をどう活かせばいいのでしょうか。確信が持てなくても、その可能性があると判断してみること。さらには、理解しようと努力してみること。そしてその判断と努力をもとに、発言や提案までしてみること。こうしたプロセスが、今後私たちがLLMを通じてToM能力(心の理論)を活性化できる方向性なのかもしれません。

このシリーズの冒頭では、人間の集団的知性の源泉はネットワークにあり、そのネットワークを支える最も重要な要因が心を読む能力だという話をしました。ToM能力を持ち始めたLLMが、まさにその可能性の入り口に立っているとすれば、LLMの言語能力はどう考えればいいのでしょうか。

LLMの言語能力を、ツールとコミュニケーションという二つの視点から考えてみると、その意味がより鮮明になります。ツールとしての言語能力は、学習された膨大な知識と論理的展開によって問題を解く力です。しかし、コミュニケーションとしての言語能力は、それとは異なります。対話を通じて問題に気づき、問い直し、異なる専門分野を横断しながら答えへと向かっていく、そのプロセスそのものを支え、駆動する力です。そして、そこに新たな集団的知性の可能性があるのではないでしょうか。

今、研究者たちはこのToM能力がAI同士の協働にどう影響するかに注目し始めています。次回は、AI同士の協働に関する具体的な研究を紹介しながら、集団的知性としてのAIの可能性をさらに探ってみたいと思います。

李鍾赫

(株)ハピネスプラネット

ヒューマンデータサイエンティスト

北海道大学大学院工学院人間機械システムデザイン専攻修了。東京工業大学において会社組織の対面相互作用パターンとメンタルヘルスの関連性について研究を行い、博士(工学)を取得。2023年より株式会社ハピネスプラネットに参画。関心分野は複雑ネットワーク、組織行動学、社会的ネットワーク分析・可視化。趣味はサッカー。

こちらの記事もおすすめです