ChatGPTによる自動プログラム評価におけるプロンプト設計の追求

作品説明

---------------------------------------------------------

開発者：岡村航平，丸田陸
開発環境：gpt-3.5-turbo-16k，Python
開発期間：約1年
詳細：
本研究では，言語生成AIの1種であるChatGPTを用いて，学生が作成したソースコードを自動でプログラム評価するために，プロンプト設計の追求を行いました．3つのプロンプトを用いて評価実験を行い，ChatGPTにどのようなプロンプトを与えると，どのような評価が出力されるかを確認しました。実験の結果、プロンプトによって教員が判定したものに正しく判定できた確率(正解率)にばらつきがあり，教員がOKと判断したものを正しく判定できた確率(OK正解率)は，全体的に高く，安定した性能でした．しかし，教員がNGと判断したものを正しく判定できた確率(NG正解率)は，どのプロンプトもOK正解率に比べて圧倒的に低い結果となりました．