日々の業務でChatGPTを使っている方も多いのではないでしょうか?
コードの自動生成やテストの作成、バグ修正の相談まで、便利な使い道は広がっています。
ただ、こんな悩みもよく耳にします。
「何度聞いても正しいコードが出てこない…」
「プロジェクトが複雑になると、GPTの回答がとたんに使えなくなる」
実は、こうした問題の裏には「人とChatGPTのやり取りの仕方(プロンプティング)」に大きな違いがあることが、最新の研究で明らかになりました。
今回ご紹介するのは、オーストラリア・アデレード大学と韓国KAISTの研究チームによるユーザー実験です。この研究では、関数レベルの小さな課題から、複数クラスが絡むプロジェクトレベルの課題まで、さまざまなコーディングタスクにおいて、「どんなやり取り(HLI)が生産性に影響を与えるのか」を徹底的に分析しています。
出典
- Hyun, S., Kim, H., Jang, J., Choi, H., & Babar, M. A. (2025). Experimental Analysis of Productive Interaction Strategy with ChatGPT: User Study on Function and Project-level Code Generation Tasks. arXiv:2508.04125v1. https://arxiv.org/abs/2508.04125
実験概要:GPTとの「やり取りの特徴」と生産性の関係を分析
背景と課題意識
過去の研究は、「関数1つを作る」ような小規模なコード生成タスクに偏っていました。しかし、実際の現場では複数のクラスが絡んだ設計や依存関係を含む複雑なプロジェクトが一般的です。
この研究では、36名の参加者を対象に、以下のような実験を実施しました。
- 課題の種類:
- LeetCode等の関数レベル課題(5問)
- オリジナルのプロジェクト課題(ECサイト/スマートジム管理システム)
- やり取りのパターン(プロンプト戦略):
- Few-Shot(例付き)
- Reflection(理由説明つき)
- Alternative Approach(代替案)
- Chain-of-Thought(分解思考)
- 利用環境:
- 無料版GPT(3.5や4o-mini)と有料版GPT-4oの比較
- 測定指標:
- 成果物のテスト通過率(TPR)
- デバッグ時間と初期開発時間の比率
- 発生したエラーの種類と原因分析(791件)
実験結果①:「生産性に効いた3つの特徴」
1. Few-Shotパターン(例を含んだプロンプト)
→ 参加者のテスト通過率を有意に向上させたプロンプト形式。
例:あらかじめ正しいコード例を2つ提示した上で、追加の開発を依頼する。
2. デバッグ重視の時間配分
→ 生産性が高かった参加者は、開発よりもデバッグに時間を多く使っていた(比率3:1など)。
対照的に、初期実装に時間をかけすぎると、修正時間が足りなくなる傾向が。
3. コンテキストの丁寧な構成(コピペ+手書き調整)
→ 単なるコピペではなく、「テストケースの意図を要約」や「GPTに目的を説明」するなど、文脈の補強が有効でした。
実験結果②:GPTのエラーは人のやり方に依存する
GPTが出力した791件のエラーは、以下に分類されました。
種別 | 内容例 |
---|---|
Runtime | 属性名の重複、型の不一致、条件分岐の誤りなど |
Logic | 境界条件のミス、エラーハンドリング漏れなど |
Debug時 | 修正で新たなバグを混入、関数名の混乱など |
とくに多かったのは以下のような場面です:
- 依存クラスの情報を提示しなかった → GPTがListやDictで代用して失敗
- 条件分岐の詳細を省略 → GPTが“勝手な仕様”を想像してバグに
- 修正時に関係ない部分までGPTが変更 → 新たなエラーが発生
実験結果③:モデルの性能より「やり取りの工夫」が効く
多くの方が気になるのが「GPTの無料版と有料版、どっちがいいのか?」という疑問。
この研究では、有料版(GPT-4o)が平均12.2%高い生産性を示したものの、統計的には有意差なし。
それよりも、やり取りの工夫(プロンプト戦略や時間配分)のほうが生産性に大きく影響していました。
実務に活かせるベストプラクティス:GPTと効率的に働くには?
最後に、この実験から得られた実務に使えるヒントをまとめます。
Few-Shotパターンを活用する
- 適切なコード例を2つ提示
- GPTに「どのように考えてほしいか」を明示する
早めにデバッグに移行する
- 初期コードに固執せず、テスト失敗を材料に改善する
テストケースを活用する
- 失敗したテストの出力とそのコードをGPTに渡す
- 設計書よりも、具体的なエラー出力のほうがGPTに刺さる
コピペ+自分の言葉で補足
- 単に資料を貼るのではなく、「これはこういう目的」と一言添えると効果大
まとめ:ChatGPTは“使い方”で変わる
この研究は、ChatGPTが失敗するのはモデルのせいだけではないということを教えてくれます。
大切なのは「どんな情報を渡すか」「どこに時間を使うか」「どんな聞き方をするか」。
たとえGPTが完璧な答えを出さなくても、私たちのやり取り次第で“プロジェクトの生産性”は大きく変わるのです。
これからGPTを活用する際には、ぜひこの研究の知見を活かして、「質問力」や「対話設計」を意識してみてください。
それだけで、AIとの協働がぐっとスムーズになるはずです。
もっと深く学び、実践したい方へ
このコラムでご紹介したような知見を、第一線の研究者と共に深く学べる研修を開催しています。
講師は、フロー理論や心の資本など、国内外の研究者と共同研究を行ってきた矢野和男が務めます。バラバラに見える心理学的知見を、ウェルビーイングという軸で整理し直すことで、職場や組織に新たな視点が生まれます。
そして、プログラムで得た知見や参加者同士のワークショップを通じて、組織のウェルビーイングリーダーとしてのマインドセットを磨いていただきます。学びを現場へと活かし、組織内のウェルビーイング実践にご興味のある方は、ぜひ参加をご検討ください。
