生成AIによる採点、信じていいのか?教育現場での実験

生成AIを通じて人間を知る

XLineFacebook

AIが文章を評価する

「採用選考の志望動機文をAIが一次評価します」
「昇進プレゼンの構成をAIがレビューします」

こうした話を耳にすることが増えてきました。生成AIの進化によって、いよいよ人間の書いた文章をAIが評価する時代が現実になりつつあります。もちろん効率化という面では歓迎すべき流れですが、そこで自然と湧き上がる疑問があります。

「AIの採点って、信用できるの?」

もしあなたのキャリアや信頼が、AIの出す点数で左右されるとしたら…。
それは、教育の世界でもまさに問われているテーマです。

最近、ある実験結果が発表されました。
英語教育の専門家らによる研究で、GPT-4をはじめとする大規模言語モデル(LLM)に、実際の入試エッセイの採点をさせたのです。その目的は、「AIがどれほど信頼できる採点者になり得るのか」を、実際の教育現場のデータをもとに検証することでした。

出典

  • Pack, Austin & Barrett, Alex & Escalante, Juan. (2024). Large language models and automated essay scoring of English language learner writing: Insights into validity and reliability. Computers and Education: Artificial Intelligence. 6. 100234. https://doi.org/10.1016/j.caeai.2024.100234

対象となったのは、アジアのリベラルアーツ大学を受験した119名の学生(いずれも英語を母語としない英語学習者)による英語の作文です。
テーマは「体育を授業に取り入れるべきか?」で、平均287語の短いエッセイです。採点は、経験豊富な英語教師10人によって実施されたものと、GPT-4、GPT-3.5、Claude 2、PaLM 2の4つのAIモデルによって、それぞれ2回ずつ、90日以上の間隔を空けて実施されました。

なお、今回AIと人間の教師に提示された採点のためのルーブリック(評価基準)は以下のものです:

観点/スコア6543
構成(構造)複数の連結技法で明確に構成されている予測可能な連結技法で明確に構成されている一部の段落のみ明確に構成、全体構成は不十分段落構成は試みられているが不完全
段落数4つ以上の段落を十分に展開4段落を展開2〜3段落構成1段落+試みられた他段落
内容の発展性発展的・具体的な補足説明(抽象も含む)具体的な補足説明個人的/ときに具体的な補足説明個人的な補足説明
語彙・用語学術用語を適切に使用学術用語を適度に適切に使用学術用語をまばらに適切に使用非常に多様な一般語彙
文法と構文文法エラーはまれ、構文多様だがアスペクトは不完全の可能性あり誤りパターンありだが意味は歪めない、多様な構文と時制誤りにより意味が歪むことあり、多様な時制4より低い場合
読者への理解可能性非ネイティブに慣れていない読者にも容易に理解される理解可能だがやや努力が必要共感的な読者には概ね理解可能4より低い場合

そして、次の2軸からAIの信頼性が定量的に測定されました。

  • 自己一致(同じモデルが異なるタイミングで同じ作文に同じ点をつける一貫性)
  • 人間との一致(人間の平均スコアとどれだけ一致するか)

以下は、各LLMがどの程度安定した採点を行い、かつ人間の採点と一致していたかを示す表です:

モデル名自己一致(ICC)※T1とT2間の安定性人間との一致(相関係数 r)※T1平均 vs 教師平均備考
GPT-40.8970.843最も高い一貫性と人間との一致を示した。補助採点者として有望。
GPT-3.50.7350.719一定の信頼性はあるが、GPT-4には劣る。ばらつきあり。
Claude 20.8360.607人間に比較的近いが、一貫性は中程度。
PaLM 20.5970.605変動が大きく、一貫性も精度も相対的に低い。
自己一致(Intrarater Reliability)
同じLLMが同じ作文を90日以上の間隔で2回採点(T1, T2)した際のスコアの一致度(ICC: Intraclass Correlation Coefficient)。
人間との一致(Interrater Reliability)
各モデルのT1スコア平均と、人間教師2名の平均スコアとの相関係数(Pearson’s r)によって測定。

これらの結果から、特にGPT-4が人間の採点者に近い性能を持つことが示されました。 最も安定して高精度な結果を出したのはGPT-4で、人間のスコアとの相関も高く、「教師に近い採点者」としての可能性が示されました。一方で他のモデルではスコアのばらつきや、同じ作文に対して異なる評価がされるなど、信頼性に課題が残りました。

この実験はまた、人間教師の採点そのものも一枚岩ではないことを前提としています。実際、教師間の一致度(ICC)も完璧ではなく、むしろAIと人間の評価が一致する度合いは、教師同士のばらつきの範囲内とも言えるものでした。

この研究は、AIが教育やビジネスの現場で「評価者」として信頼されるには、何が必要かを考えるうえで、非常にリアルな視点を提供しています。AIが出す「点数」は、たしかに一定の再現性と効率性を備えています。特に今回の研究で用いられたルーブリック(採点基準)に基づく採点では、GPT-4が人間とほぼ同等の評価精度を示したという点は注目に値します。

ただしここで重要なのは、「ルーブリックに沿った評価はできる」ことと、「本当に良い文章を見抜ける」ことは必ずしも同じではないということです。

たとえば、採点基準では「段落構成」「接続詞の使い方」「文法ミスの少なさ」といった要素が明文化されていました。しかし、読む人の心を動かすような個性的な表現、あるいは慣例から外れたがゆえに印象に残る構成など、ルールでは捉えきれない価値も文章には多く含まれます。

そしてそれは、ビジネスの現場でも同様です。
たとえば採用担当者が読む志望動機の中には、ルールに沿っていないが「何か惹かれる」文章がある。
上司に出すプレゼン資料の中には、構成が粗くても「企画の火花が見える」提案がある。

AIは今後、そうした“型にはまらない良さ”をどこまで捉えられるのか?という問いに直面していくことになります。

この研究では、「自己一致(同じモデルが同じ作文に対して同じ評価を出せるか)」と「人間との一致(評価の妥当性)」の2つの軸で信頼性を測定していました。
この2軸は、ビジネスの評価にもそのまま当てはまります。

  • 同じ成果に、AIは一貫して同じ評価を出せるか?
  • その評価は、人間が見ても納得できるか?

言い換えれば、透明性と説明可能性です。
「なぜこの点数なのか?」「その評価は誰の視点に基づいているのか?」と問われたとき、AIが根拠を持って答えられる状態でなければ、評価を受ける側にとっては不安が残ります。

結論として、生成AIによる採点は条件付きで“信じていい”段階に来ていると言えるでしょう。
とくにGPT-4のような先進モデルは、教育現場でも「人間の補助的な評価者」として有望なポジションを得つつあります。

ただし、AIの評価が信頼されるためには、単にスコアを出すだけでなく、そのプロセスや判断基準が人間にとって納得できるものであることが求められます。
これは教育だけでなく、ビジネスの評価にも当てはまる普遍的な条件です。

今回の研究は、生成AIによるエッセイ採点の精度を定量的に検証した貴重な試みですが、いくつかの重要な限界があります。

1. 評価対象が一つのタスクに限定されている

  • 評価されたのは「運動を授業に取り入れるべきか?」という1種類のエッセイ課題のみ。
  • 課題のトピックや文体、要求される構成が変われば、AIの評価傾向も変わる可能性がある。
  • よって、「他の種類の作文でも同様に正確に採点できる」とはまだ言い切れない。

2. LLMの出力は時間とともに変化する

  • 各AIは2回に分けて採点したが、数ヶ月後には同じエッセイに違うスコアをつけるケースもあった
  • モデルの裏側で細かなアップデートやチューニングが行われているため、同じプロンプトを使っても結果が安定しない可能性がある。
  • つまり、再現性が保証されないという懸念がある。

3. 「良い文章」と「ルーブリックに沿った文章」は必ずしも同じではない

  • 採点はあくまで定型的な評価基準(ルーブリック)に沿って行われた
  • クリエイティブな発想、独自の構成、強い印象を残す文章は、ルール違反として低く評価されてしまう可能性がある。
  • よって、「評価基準に沿った文章力」と「実際に人の心を動かす表現力」は切り分けて考えるべき。

4. 教師の採点も完全に客観的ではない

  • 研究では人間教師の採点を「正解」としてAIと比較したが、教師同士でも評価にはばらつき(ICCは0.749)があり、完全なゴールドスタンダードとは言えない。
  • よって、「AIが人間にどれだけ近いか」を測ると同時に、「人間の評価そのものの再検討」も必要である。

5. 英語学習者(ESL)に特化したデータ

  • 対象となった作文は英語を母語としない学習者の英作文だった。
  • ネイティブ同士の議論文や創作文、技術文書など、異なる文脈ではAIの採点傾向も変わる可能性がある。

これらの隘路を踏まえると、「AIに評価を任せること」には明確な可能性と同時にリスクがあることが見えてきます。
したがって、実務に応用する際には、「用途に合わせて信頼できる部分だけ使う」「人間の判断を補助する存在として位置づける」など、慎重な設計が必要です。

AIによる採点は、魔法のようにすべてを自動化してくれるわけではありません。
むしろその真価が問われるのは、「どのような基準で、どの部分を任せるか」という設計の部分です。
採点に限らず、AIが人間の判断を補完する時代に求められるのは、“判断の構造”そのものを見直し、共有可能な形で明文化する力”かもしれません。


AIを用いたサーベイ、コーチングサービスはこちら↓

この記事の執筆者

辻聡美

(株)ハピネスプラネット

チーフアーキテクト

京都大学大学院情報学研究科博士前期課程了。(株)日立製作所入社後、研究開発グループ基礎研究所にて人間行動データの応用に関する研究に従事し、ウェアラブルセンサを用いた50組織2000名以上の職場コミュニケーションの計測と分析、マネジメント改善施策の実行に携わる。2020年の設立当初より株式会社ハピネスプラネットに参画。発明協会平成26年度関東地方発明賞発明奨励賞、第64回オーム社主催公益財団法人電気科学技術奨励会電気科学技術奨励賞受賞他。趣味は読書と旅行とDIY。

こちらの記事もおすすめです