普渡大学研究小组在5月初的计算机-人交互大会上提交的报告引发了广泛关注,该报告详细审查了ChatGPT在Stack Overflow上回答的517个问题,并揭示了一个令人震惊的事实:其错误率高达52%。这一发现不仅揭示了人工智能在特定任务中的局限性,也引发了关于如何更有效地将AI技术应用于实际编程环境的深入讨论。
生成式 AI 已经成为开发利器,可以辅助开发者快速生成相关代码,让开发者从“敲代码”逐渐过渡到“审代码”,不过最新报告指出 ChatGPT 所回答的编程问题内容错误率高达 52%。
调查结果显示,人类程序员在 35% 的情况下更喜欢 ChatGPT 的答案,认为其提供的内容更全面,且有清晰的语言风格;更糟糕的是,在 39% 的情况下,人类程序员并没有发现 ChatGPT 的错误答案。
虽然这只是对 ChatGPT 功能的一个方面进行的研究,但它确实表明,生成式人工智能机器人仍然容易犯很多错误,而人类可能无法发现这些错误。