問いがAIを賢くする――対話するAIたち

XLineFacebook

「良い問い」は、人もAIも動かす

問いの力が今あらためて注目されています。

職場でも会議でも、「どうしたらいいですか?」ではなく、「なぜそれが起きているのか?」「本質的には何を目指すべきか?」といった良い問いを投げかけられる人は、チームの思考を深め、行動を変える力を持っています。

この「問い」の力は、実は今、AIの世界でも非常に重要な概念になっています。

たとえば、現在のAI研究では、種類の異なるAIモデル――たとえば画像と言語、音声やロボット制御など、異なるデータ領域で学習した巨大モデル同士をどう連携させるかという課題が大きなテーマになっています。
これらのモデルはそれぞれ異なる「知」を持っていますが、互いに対話できず、知識が分断されているのです。

Googleの研究チームが発表した論文「Socratic Models(ソクラティック・モデルズ)」は、まさにこの問題に挑み、問いかける”という方法でAI同士をつなぐという斬新な発想を実証しました。
言語を共通の橋渡しとして、視覚モデルと文章モデルが対話する――まるで異分野の専門家同士が議論し、新しい発想を生み出すように。これは、人間社会における「良い問い」と同じく、AIにおいても知を動かす力になりつつあります。

出典

  • Andy Zeng, et al. “Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language”, https://doi.org/10.48550/arXiv.2204.00598

この論文の面白い点は、単に「AIが連携した」というだけでなく、どんな問いを立てるかが性能を決定づけていることです。

Socratic Modelsは、問いの設計そのものがアルゴリズムのコアになっています。論文では、実際に使用された問いが以下のように分類されています。

Socratic Modelsで使われる問いの分類

分類内容使用されるタスク
観察に関する問い視覚的・聴覚的な事実を確認「この画像には何が写っている?」「どんな音が聞こえる?」画像キャプション、動画理解
文脈付けの問い周囲の文章や状況と照らして意味を探る「この記事の中でこの写真は何を意味する?」コンテキスト付き画像説明(Concadia)
因果・目的の問い行動の動機や結果を問う「なぜ玄関に行った?」「何のためにこれをしたのか?」エゴセントリック動画、生活ログのQ&A
時間に関する問い行動の時系列を把握「最後に手を洗ったのはいつ?」「最初に外出したのは?」動画からのイベント抽出、予測
定義・補足の問い不明確な概念の意味を問う「中くらいのボウルってどれくらい?」「“ツノが立つ”ってどういうこと?」料理支援対話、教育支援
行動計画に関する問い次に取るべき行動や手順を問う「このブロックをどこに置けばいい?」「次に何をすべきか?」ロボット制御、業務計画

これまでのAIは、ひとつのモデルが与えられたタスクを「一人でこなす」形が一般的でした。画像を見るAI、言葉を理解するAI、音声を聞くAI、それぞれが独立して動くのが普通だったのです。

ところがSocratic Modelsでは、複数のAIモデルが「問いかけ」を通してお互いの知識を引き出し合いながら推論を行います。

たとえば、こんなふうに:

  • 視覚モデル(画像を見るAI)が「階段と人の足が見える」と述べる。
  • 音声モデルが「足音が聞こえる」と応える。
  • 言語モデル(GPTのようなAI)が「この人は階段を登っている最中だろう」と要約する。

まるで数の人が意見を出し合いながら会議で仮説を作っていくように、AI同士が言葉で情報をやりとりし、「合意的な判断」を導き出しているのです。

この方法は、事前学習なしで予測・分類・生成を行うゼロショットモデルという区分になり、事前学習を行うモデルより難易度はアップします。

論文ではこの仕組みが本当に使えるのかを確認するため、さまざまなタスクでの実験が行われました。

1. 画像キャプション生成(画像を見て説明文をつける)

方法:

  • Socratic Modelsでは、まず画像から「場所・人物・物体」などを視覚AIが検出。
  • その結果をもとに、言語AIが「この画像は、ビーチで二人が砂の城を作っている様子です」などの説明を生成。

結果:

  • 他のゼロショットモデルよりも高いスコア(CIDErスコア:18 → 44.5)を達成。
  • さらに少数の例(3つ)を追加するだけで、76.3と、学習済みのシステムを超える性能も実現。

2. 文脈付きキャプション(記事と画像を読み、内容を説明)

方法:

  • ニュース記事と写真を与え、「この記事の中でこの画像はどういう意味か?」を言語AIに問いかける。

結果:

  • 学習済みモデルを上回るスコア(CIDEr:11.3 → 38.9)を記録し、説明生成におけるゼロショット最先端の精度を実現。

3. 動画理解と検索(映像とナレーションから内容を要約し検索)

方法:

  • 動画の音声を文字起こし→言語AIが要約→画像AIと照合して、最も合う説明文を選ぶ。

結果:

  • MSR-VTTという大規模ベンチマーク(AIや機械学習モデルの性能を客観的に評価・比較するための、標準的なテスト課題とデータセットの集合)で、他のゼロショットモデルを超える検索精度を達成。
  • ナレーションのある動画に限定すると、さらに精度は54.9に上昇。これは訓練済みの最先端モデルに匹敵。

この技術は、私たちの働き方にも深い示唆を与えてくれます。

多くの組織は、分断された専門知(マーケティング、開発、営業など)をどうつなげるかに悩んでいます。Socratic Modelsのように、それぞれの知が「問いかけ」によってつながる構造があれば、部門を超えた創造的な意思決定が可能になります。

実際、AIの世界でも同じです。

  • 「視覚AI」は見えることを知っている。
  • 「言語AI」は話すことは得意でも、画像は見えない。
  • でも、お互いに質問”を投げかけることで、それぞれが自分にできることを持ち寄り、推論の精度が上がっていく。

これは、まるで部門横断プロジェクトで、各チームが積極的に質問を通じて情報を引き出し、ひとつの目的に向かって動いていく構図に近いのです。

1. 情報交換の仲介役としての言語

Socratic Modelsでは、自然言語そのものがAI間の共通言語として機能します。視覚-言語モデル(VLM)、言語モデル(LM)、音声-言語モデル(ALM)など、それぞれが異なるモダリティに特化しているにもかかわらず、出力を一貫して言語化することで情報の橋渡しが可能になります。

これは、まるで異なる専門分野のプロが、共通言語である「問いと応答」を通じて協働しているようなものです。その結果、モデル同士が“互いに話し合い”、新しい視点や能力を引き出すことができるのです。


2. ゼロショットマルチモーダル能力の獲得

Socratic Modelsの問いかけ構造は、あらかじめ学習されていないタスクであっても、複数のモデルが自分の得意分野で情報を提供し合い、それを言語的に統合することで推論を完成させる仕組みです。

これにより、例えば「画像と記事の文脈を読み取り、適切なキャプションをつける」「動画を見て“なぜその行動をしたか”を説明する」といった、従来なら大規模なマルチモーダルデータが必要だったタスクをゼロショットで実現できます。


3. マルチモデル・マルチモーダルプロンプティング

Socratic Modelsの中核は、問いを通じたマルチモーダル情報のやりとりです。たとえば次のような流れが実現します:

  1. VLM(視覚-言語モデル)が画像から「動物・階段・人の足」を検出
  2. LM(言語モデル)が「それなら足音が聞こえるかもしれない」と予測
  3. ALM(音声-言語モデル)が実際に足音を検出
  4. LM(言語モデル)が「この人は階段を登っている」とまとめる

このように、複数のモデルが何度もやりとりを繰り返す「閉ループ」構造を持ち、視点の精緻化やノイズ除去、より深い理解を実現します。


4. タスクの再定式化と高度な推論

問いの力は、「難しい問題を、解ける形に言い換えること」にもあります。Socratic Modelsでは、たとえば「動画に関する自由な質問に答える」という難題を、「出来事を物語として言語化し、その読解問題として解く」という形に再定式化します。

これにより、LMが得意とする読解・推論の力を活用し、ドメイン固有の訓練なしに新しい問題領域への応用が可能になります。


5. 柔軟なシステム構築とスピード

問いかけによるやりとりは、プロンプトテンプレートでスクリプト化可能であり、再学習も不要です。そのため、最小限のエンジニアリングで新しいアプリケーションを構築でき、以下のような利点があります:

  • 再学習のための計算資源が不要
  • モデルのブラックボックス化を避けられる(可視性が高い)
  • モジュールの差し替えや拡張がしやすい

特に、現場で迅速にプロトタイプを試したいビジネスや研究にとっては、非常に大きなメリットです。


総括:問いが知能をつなぐインターフェースになる

このように、「問いかけること」は単なる演出ではなく、Socratic Modelsの知的能力の源泉です。異なるAIが持つ断片的な知識を、問いと応答という形式でつなぎ合わせることで、初めて複雑な推論が成り立ちます。

そしてそれは、人間の組織においても、「違う視点を持った人同士が、良い問いを投げ合うことで真理に近づく」という構造に通じるのです。


AI時代の「問いを立てる力」

Socratic Modelsが示すのは、単なるAIの進化ではありません。

それは「問いを立てる力」こそが知能の本質であるという、極めて人間的なメッセージです。

私たちの仕事においても、「どんな問いを立てられるか」が、変化の大きい時代を生き抜く鍵になります。そして、AIにもこう問いかけてみてください。

「この問題に対して、まず何を問うべきだろうか?」

そこから、新しい知が生まれるかもしれません。


生成AIを用いた意思決定支援サービスはこちら↓

この記事の執筆者

辻聡美

(株)ハピネスプラネット

チーフアーキテクト

京都大学大学院情報学研究科博士前期課程了。(株)日立製作所入社後、研究開発グループ基礎研究所にて人間行動データの応用に関する研究に従事し、ウェアラブルセンサを用いた50組織2000名以上の職場コミュニケーションの計測と分析、マネジメント改善施策の実行に携わる。2020年の設立当初より株式会社ハピネスプラネットに参画。発明協会平成26年度関東地方発明賞発明奨励賞、第64回オーム社主催公益財団法人電気科学技術奨励会電気科学技術奨励賞受賞他。趣味は読書と旅行とDIY。

こちらの記事もおすすめです