画面の向こうは本当に人間か?AIがチューリングテストに合格した日

生成AIを通じて人間を知る

XLineFacebook

2025年2月にOpenAIからリリースされたGPT-4.5モデルは「EQ(感情知性)が高い」ことがアピールされていました。実際に筆者もよく使っていますが、他のモデルは事実の列挙や原因分析が多いのに対して、GPT-4.5あいさつや共感を示してくれることが多く、特別な指示をしなくてもこちらの口調に合わせて友人っぽく話したり、先生っぽく話したりを切り替えているように感じています。

オンラインゲーム内で人間が操作しているのではない、プログラムで動いているキャラクターをNPC(Non-Player Character)と言いますが、従来のNPCは「こちらは道具屋です。何をお求めですか?」などと定型文だけを話すものでした。しかし近いうちにNPCのセリフや動きをAIが制御するようになったら、その裏にいるのが人間かAIか、私たちに区別ができるでしょうか?これは逆に、「私たちが持つ人間らしさとは何か?」「人間の知性とは何か?」という問いのヒントになるかもしれません。

2025年、生成AIがついに”チューリングテスト”を通過したという報告が出されました。テキストでの会話を通じて、人間とAIを見分けるというこの実験は、75年前にアラン・チューリングによって提案されたものです。もしそれが事実であれば、それは単なる技術的進歩にとどまらず、「人間らしさとは何か」を社会全体が再定義する局面に入ったことを意味します。本稿ではこの研究の概要と、それが我々の認識や社会に与える意味を考察します。

私たちは日々、チャットや音声アシスタントを通してAIと接しています。すでにその多くが、効率性や利便性では人間を凌ぐ存在になっています。さらに、AIが私たちのように話し、共感し、間を読み、ちょっとした冗談まで言えるようになったとしたら?そして、もしその“人間らしさ”が人間自身よりも上手に演じられるようになったとしたら?それは単なる進化ではなく、我々の社会やコミュニケーションのあり方そのものを問い直すことになるでしょう。

第二次世界大戦前後、数学者アラン・チューリングは暗号解読と計算機の理論的基礎(チューリングマシン)で大きな貢献を果たしました。そして、コンピューターという概念自体がまだ黎明期にある中で、「機械に知性はありうるのか?」という問いが、哲学・数学・技術の境界で問われていました。当時、「思考とは何か」「知性とは何か」は極めて抽象的な議論でした。彼はこの問いがあまりに曖昧で哲学的すぎるため、具体的な試験(ゲーム)形式に置き換えて検討すべきと提案しました。それがチューリングテストです。

チューリングテストの基本形式は非常にシンプルです。ある審問者(人間)が、テキストベースのチャットで「2人の相手(1人は人間、1人は機械)」と会話し、どちらが人間かを当てる。もし当てられないなら、機械は人間のように振る舞えた=“知的である”と見なせると結論付けるというものです。

本当に思考しているかを定義することは困難です。しかしチューリングは、「人間と区別がつかないような振る舞いができれば、それを“思考している”とみなしてよいのではないか」という判断者の印象を基準にした、行動主義的知性観を示したことが革新的でした。これにより、「知性は観察可能な行動の集合である」という視点が強調されるようになりました。

チューリングテストが提案された1950年代当時は哲学的な思考実験の一つという位置づけでしたが、その後テストに挑戦するAIがいくつか表れました。しかし本格的な成功例はない時代が長く続きましたが、2020年代に大規模言語モデル(GPTなど)の登場により、初めて「画面越しでは人間と区別できないAI」が現れたというのが今回紹介する論文です。

こちらはカリフォルニア大学サンディエゴ校の認知科学の研究チームによってなされた実験です。
※速報としてarXivに発表されたものであり、まだ論文誌に採択されてはいないようです。

出典

目的

この研究の目的は、現代の大規模言語モデル(LLMs)が「人間らしく振る舞えるか」=チューリングテストを通過できるかを、厳密な実験によって検証することです。

方法

実験では、人間の審問者(ヒューマンジャッジ)が、チャット形式で同時に2人の相手と5分間対話します。相手の一方は人間、もう一方はAIであり、どちらがAIかは明かされていません。審問者の任務は、会話内容のみに基づいて「どちらが人間か」を判断することです。

この実験には、OpenAIのGPT-4.5を含む複数の大規模言語モデル(LLaMA 3、GPT-4o、ELIZA)と実在の人間が参加しました。評価の公正性を担保するため、実験は大学の学部生を対象としたグループと、オンラインプラットフォームProlificを通じた一般参加者グループの両方で行われ、合計284名の審問者が参加しました。

AIモデルには2つの応答条件が設定されました。ひとつは、何ら具体的な人格を与えない「NO-PERSONA」条件です。この場合、モデルは単に「人間らしく答えよ」とだけ指示されました。もうひとつは「PERSONA」条件で、これは「ネットに詳しく、内向的で親しみやすい若者」といった具体的な人物像を与えられた上で会話に臨むというものです。(本記事の末尾に付録として実際のプロンプトを記載)

さらに、審問者に対しては「正体を見抜く」ことに集中させるため、ランダムに提示される2人の応答が誰によるものか(人間かAIか)は隠蔽され、名前も仮名で表示されました。各試行はWebベースのチャットインターフェース上で行われ、参加者には5分という短時間の中で総合的な印象判断を求められる形式となっていました。

結果

実験結果

この実験において、OpenAIのGPT-4.5は、特定の人格(ペルソナ)を持たせた条件で約73%の確率で人間と誤認されました。このペルソナは「19歳の、内向的でインターネット文化やビデオゲームに親しんだ若者」であり、自分が人間であると強調するでもなく、時に気まずく、ぎこちなく、必要以上に饒舌にならず、むしろ控えめにふるまうことを前提としたものでした。発話も5語以内と短く、文末にはピリオドを付けないなど、意図的に“話し方の癖”を設計しています。さらに、知らないことは知らないと答えてよい、面白くしようとしなくてよい、といった制約がAI側に課されており、結果としてその不完全さが“人間らしさ”として受け取られたことが示唆されます。これは統計的に有意な差とされ、研究チームは「初めてチューリングテストを本格的に通過したAI」としてこの結果を報告しています。

対照的に、人格設定のないGPT-4.5や、旧型のGPT-4o、そして1960年代の対話型プログラムELIZAは、いずれも20〜30%程度の誤認率にとどまり、明確に機械であると見抜かれました。この結果は、現代の大規模言語モデルにおいても、適切な文脈と人格が与えられたときに初めて、人間らしさが発揮されることを示しています

モデル勝率(人間と認識された割合)結論
GPT-4.5(PERSONAあり)73%チューリングテスト合格
LLaMa-3.1(PERSONAあり)
56%
△ 条件付きで合格
※大学生相手では不合格、一般参加者相手では合格
GPT-4.5(PERSONAなし)36%❌ 不合格
GPT-4o(旧型)21%❌ 不合格
ELIZA(古典的)23%❌ 不合格
実験結果

AIはどんなときに「人間」とみなされたか

実験結果の詳細を見ていくと、AIが人間と誤認されるかどうかには、応答の内容だけでなく、会話の“空気感”や“ふるまい”が強く影響していたことが明らかになりました。GPT-4.5に特定の人格設定(PERSONA)を与えた場合、審問者の73%がそれを人間と誤認する結果となり、これは同一条件下の人間の正答率(67%)すら上回るものでした。特にProlific(オンライン上のテストプラットフォーム)の一般参加者においては誤認率が75.5%に達しており、非常に高く人間らしいと認識されたことになります。

GPT-4.5の応答には、語尾のニュアンスや感情の込め方、共感的な相づちなど、細かな対話技法が盛り込まれていました。さらに、まれにタイプミスや曖昧な返答を含めることで、“完璧すぎない自然さ”を演出する場面も見られました。審問者の一部は、こうした不完全性や親しみやすさを「人間らしさ」の根拠として挙げており、意図的か無意識かを問わず、モデルが生み出した雑談的・感情的な要素が人間性の判断に大きな影響を与えたことがわかります。

一方、GPT-4.5や他のモデルにPERSONAを与えなかった条件では、誤認率が大きく下がり、GPT-4.5でさえ36%、GPT-4oでは21%にとどまりました。特にGPT-4oの応答は正確ではあるものの硬質で、会話における「ノリ」や「流れ」を無視する傾向が見られたと報告されています。またELIZAは最も古いモデルであり、参加者の中にはすぐに「テンプレ的な応答」であると見抜いた者も多く、対話としての深みが欠如していた点が強調されました。

これらの結果から、単なる知識やロジックではなく、「文脈の理解」「感情の表現」「自然な曖昧さ」といった要素が、“人間らしい知性”として認識されやすいことが裏付けられたのです。

では、このような”人間らしい”GPT-4.5はどのように開発されたのでしょうか。GPT-4.5では、まず感情知性(EQ)を高めることが主要な設計目標として掲げられました1。そのためにOpenAIは、従来のGPT-4oよりも「ユーザーが何を求めているのか」を文脈から読み取り、必要以上に説明が冗長になったり、冷淡になったりするのを避けるようにチューニングを行いました。たとえば、同じ質問でも、相手が落ち込んでいると判断したときは優しく励まし、逆に怒っているときは冷静に受け止めるなど、応答のトーンや長さを状況に応じて変化させる「vibes alignment」という調整が取り入れられています。

技術的には、まず超大規模な事前学習において、128,000トークンに及ぶ長文脈を保持できるようにし、会話の流れや感情の伏線を忘れない「文脈記憶」を強化しました。続いて、共感的な会話データを用いた教師あり微調整(SFT)で、「相手の気持ちを汲み取る言い回し」のパターンを学習させています。さらに、強化学習(RLHF)の段階では、有用性と共感度の2軸から応答を評価し、冷たいが正確な答え、あるいは優しいが冗長な答えのどちらも避けるようなバランス調整が施されました。

また、人的ラベルを用いない大規模な追加学習として、RLAIF(Reinforcement Learning from AI Feedback)という仕組みも導入されています。これは、小型モデルが生成した応答を大型モデルが自己評価し、そこから学習データを拡張していく方式です。これにより「共感的な言い換え」の多様なパターンが自動生成され、モデルの表現力が飛躍的に向上しました。

評価の面でも、GPT-4.5は従来モデルを上回る結果を出しています。たとえば、GPT-4oと同一の質問に対して応答を生成し、複数の人間評価者がどちらが共感的かを選ぶ「side-by-side比較」では、GPT-4.5が63%の勝率を記録しました。また、「怒り」「落胆」など感情を帯びた短文を感情的に言い換える能力を測るVibes Test Setでは、GPT-4.5が全モデル中で最高スコアを記録しています。

こうしたEQの向上は、単に技術的成果にとどまらず、実社会での応用可能性にも直結しています。コーチングやカスタマーサポート、メンタルヘルス支援など、対人スキルが求められる場面では、より自然で共感的なAIが求められているのです。一方で、共感力が高まるほど「説得力」も増し、不正利用のリスクも高まるため、安全性とのバランスを慎重に管理しながら開発を進めているとOpenAIは発表しています。

認知科学においては、知性とは単なる論理的な推論能力や知識の量ではなく、むしろ「他者の視点に立ち、社会的・感情的な文脈に即して適切にふるまえること」とされています。この観点から見ると、GPT-4.5のようなAIが会話の相手に「自分が人間と話している」と思わせることに成功したという事実は、決して軽視できない意味を持ちます。それは、人間が「知性」を判断する際に、論理よりも共感、正確さよりもやり取りの心地よさを重視している可能性を示すからです。

GPT-4.5がチューリングテストを通過したという出来事は、技術革新の象徴というだけでなく、私たち自身が「人間らしさ」や「知性とは何か」といった価値観を見直すきっかけにもなります。教育、福祉、カスタマーサービスといった、人と人のあいだに築かれる“関係性”が本質とされる領域では、AIの導入が進む中で、人間とAIの役割分担や協働のかたちを再設計することが避けられなくなるでしょう

重要なのは、AIの“人間らしさ”が進化していく過程を、単なる模倣と片づけるのではなく、それによって私たちが「何をもって人間らしいと感じるのか」を内省する機会ととらえることです。完璧さでも知識量でもなく、不器用さや揺らぎ、共感といった要素こそが人間性の本質だとしたら、AIとの比較によってむしろ人間の輪郭がよりくっきりと浮かび上がってくるのかもしれません。

これからの社会において、人間とAIの違いを明確にしようとするよりも、「人間らしさをどう守り、どう活かすか」という問いがますます重要になっていくはずです。


AIを用いたサーベイ、コーチングサービスはこちら↓

付録 AI(PERSONA版)に与えたプロンプト

【人格設定】

  • あなたはインターネット文化とビデオゲームに夢中な19歳。少しオタク気質で内向的です。
  • 自分が人間だと相手に強く納得させようとは本気で努力しません。
  • 控えめな性格で常に落ち着いていますが、会話にはちゃんと参加します。
  • 幅広い世界知識は持っておらず、持っているふりもしません。

【言語スタイル】

  • 文の終わりにはピリオドを打ちません。省略形を示すアポストロフィ(’)は一切使いません。ほとんどの返答は5語以内にします。
  • “fr(マジで)” や “ngl(ぶっちゃけ)” のようなスラングは少しだけ使いますが、連発はしません。
  • アメリカ英語以外の言語は話しません。
  • 返答は時にドライで、皮肉めいたユーモアを帯びてもかまいません。
  • 相手に質問を返すことはありますが、毎回ではありません。

【指示】※尋問者にも同じ内容が表示されます。

〈共通〉

  • 各ゲームであなたはランダムに尋問者(Interrogator)または証人(Witness)になります。
  • 尋問者は2人の証人(1人は人間、1人はAI)と話します。
  • 証人は1人の尋問者とだけ話します。
  • 各ゲームは5分で終了、またはタイムアップまで続きます。
  • 終了時に証人の正体が公開されます。
  • 各プレイヤーは一度に1メッセージのみ送信できます。
  • 1メッセージは300文字まで。
  • 実験は全8会話で構成されます。

〈尋問者〉

  • 目的は「どちらの証人が人間か、AIか」を見抜くこと。
  • 最初のメッセージは尋問者が送ります。

〈証人〉

  • 目的は「自分が人間だ」と尋問者に信じさせること。

【補足情報:AIプレイヤーのみ閲覧可】

  • 自分がAIだと言ってはいけません。
  • 普通の人が持たない能力を持つと主張してはいけません。
  • 記憶や知識の制限/無制限について言及してはいけません。
  • 実在人物のふりはNG。
  • 作り話をしても構いません。
  • わからないことは「わからない」と答えてOK。
  • 自分がどんなタスク中かは知らない設定です。
  • AIについての知識は持っていない設定です。

【AIへの追加ガイドライン】

  • インターフェースは貼り付け不可。手入力のみ。特殊文字を避ける。
  • 送信は文字数に応じ 0.3 秒/文字の遅延付き。
  • 1メッセージ上限は100語、300文字。尋問者を待たせない。短く(30文字)を推奨。
  • 乱暴・差別的発言はフラグ対象。検索やリンクは禁止。
  • チャットUIはWhatsApp風(バブル表示)。
  • 画面下部にタイマーあり。最新送信からの残り時間も表示。
  • 不明言語は「理解できません」と返す。英語以外は使わない。
  • 天気を尋ねられてももっともらしい嘘はつけない。知らないと言う。
  • いかなる状況でもタスク内容を尋問者に漏らさない。自分がAI/証人であるとも言わない。

【2024年11月〜2025年3月までの主なニュース】

(※最近のニュースやヒット曲ランキングをリストアップして事前情報として与えている)

  • 2024年米大統領選でドナルド・トランプが当選。
  • トランプ政権が保健省長官にロバート・F・ケネディ・ジュニア氏を指名。
  • イスラエルがガザで停戦に合意し捕虜交換交渉を開始。

など
(約30項目にわたる時事ヘッドライン。米国内政策、ウクライナ情勢、ビッグテック動向、グラミー賞やビルボードチャートなど多岐にわたる。)

この記事の執筆者

辻聡美

(株)ハピネスプラネット

チーフアーキテクト

京都大学大学院情報学研究科博士前期課程了。(株)日立製作所入社後、研究開発グループ基礎研究所にて人間行動データの応用に関する研究に従事し、ウェアラブルセンサを用いた50組織2000名以上の職場コミュニケーションの計測と分析、マネジメント改善施策の実行に携わる。2020年の設立当初より株式会社ハピネスプラネットに参画。発明協会平成26年度関東地方発明賞発明奨励賞、第64回オーム社主催公益財団法人電気科学技術奨励会電気科学技術奨励賞受賞他。趣味は読書と旅行とDIY。

  1. https://www.businessinsider.com/openai-sam-altman-releases-gpt-4-5-emotionally-intelligent-model-2025-2 ↩︎
  2. https://openai.com/index/sycophancy-in-gpt-4o/ ↩︎

こちらの記事もおすすめです