ChatGPTによる自動プログラム評価におけるプロンプト設計の追求


作品説明

---------------------------------------------------------

開発者:岡村航平,丸田陸
開発環境:gpt-3.5-turbo-16k,Python
開発期間:約1年
詳細:
本研究では,言語生成AIの1種であるChatGPTを用いて,学生が作成したソースコードを自動でプログラム評価するために,プロンプト設計の追求を行いました.3つのプロンプトを用いて評価実験を行い,ChatGPTにどのようなプロンプトを与えると,どのような評価が出力されるかを確認しました。実験の結果、プロンプトによって教員が判定したものに正しく判定できた確率(正解率)にばらつきがあり,教員がOKと判断したものを正しく判定できた確率(OK正解率)は,全体的に高く,安定した性能でした.しかし,教員がNGと判断したものを正しく判定できた確率(NG正解率)は,どのプロンプトもOK正解率に比べて圧倒的に低い結果となりました.