the MIT Mathematics and EECS Curriculum Using Large Language Models,”https://doi.org/10.48550/arXiv.2306.08997, 2023/01/15. その反論もアップロードされ、再実験の結果58%で正解になるという結果 Raunak Chowdhuri, Neil Deshmukh, and David Koplow, “No, GPT4 can’t ace MIT”, taken from https://flower-nutria-41d.notion.site/No-GPT4-can-t-ace-MIT- b27e6796ab5a48368127a98216c76864#d4bea55e46b5490184bf797f96de35c0, 2023/06/18. 次の文献では、ChatGPTがソフトウェアテストの教科書の質問に答えられるかを実験的に評 価したところ、77.5%に回答することができ、その55.6%で完全または部分的に正しい解答 を提供 [3] Sajed Jalil, Suzzana Rafi, Thomas D. LaToza, Kevin Moran, Wing Lam, “ChatGPT and Software Testing Education: Promises | Perils,” Proc. 2023 IEEE International Conference on Software Testing, Verification and Validation Workshops (ICSTW), 2023, pp. 4130–4137, doi: 10.1109/ICSTW58534.2023.00078. 皆さんの周りでも同じような声を聞きませんか? 2
intelligence (AI)-based tool use on students' computational thinking skills, programming self-efficacy and motivation," Computers and Education: Artificial Intelligence, Volume 4, 2023, 100147. https://doi.org/10.1016/j.caeai.2023.100147. 大学の学生をChatGPTを利用する群と、ネットへのアクセスをブロックした群に分けて、プ ログラミングの課題を解く実験を行った。平均的な成績はChatGPTを利用した群のほうが高 くなった一方で、生成されるコードの長さ制限や幻覚(ハルシネーション)のためにデバッ グが難航し、課題を解くのにかかる時間が長くなった Basit Qureshi, "Exploring the Use of ChatGPT as a Tool for Learning and Assessment in Undergraduate Computer Science Curriculum: Opportunities and Challenges," https://doi.org/10.48550/arXiv.2304.11214, 2023/04/16. プログラム修正ベンチマークセットであるQuixBugsでChatGPTを実験的に評価した。 ChatGPTが対話システムであることを利用し、観測されたエラーメッセージなどの追加情報 与えることで、他の手法を上回った Dominik Sobaniaら, "An Analysis of the Automatic Bug Fixing Performance of ChatGPT," 4th International Workshop on Automated Program Repair (APR 2023), https://doi.org/10.48550/arXiv.2301.08653, 2023/01/20. 17
Connected with Massive APIs," https://doi.org/10.48550/arXiv.2305.15334, 2023/05/24. 対照実験により、開発者向けのテキスト生成AIであるGitHub Copilotを用いることでHTTP サーバーの開発が55.8%速く完了した Sida Pengら, "The Impact of AI on Developer Productivity: Evidence from GitHub Copilot," https://doi.org/10.48550/arXiv.2302.06590, 2023/02/13. 国際プログラミングコンテストであるIEEExtreme Challengeをベンチマークとして利用 し、プログラミング言語としてPython、Java、C++を含む102個の課題を解いた。 ChatGPT-4であっても人間のプログラマーに敵わなかった Anis Koubaaら, "Humans are Still Better than ChatGPT: Case of the IEEEXtreme Competition," https://doi.org/10.48550/arXiv.2305. 06934, 2023/05/10. 18