来自斯坦福大学和UC伯克利大学的一篇最新论文显示:
6月的GPT-4在一些任务上的表现客观上就是比3月的更差。
比如他们用同样500道「判断给定整数是否为质数」的问题来测这两个版本,发现3月份的GPT-4答对了488个,而6月只对了12个……
成功率直接从97.6%下降到2.4%!
不止如此,代码能力也下降了。
对于50道简单级别的LeetCode题,6月的GPT-4只能做到有10%的答案可以不经更改直接运行,而在3月份的时候,这个数字还是52%。
6月的GPT-4在一些任务上的表现客观上就是比3月的更差。
比如他们用同样500道「判断给定整数是否为质数」的问题来测这两个版本,发现3月份的GPT-4答对了488个,而6月只对了12个……
成功率直接从97.6%下降到2.4%!
不止如此,代码能力也下降了。
对于50道简单级别的LeetCode题,6月的GPT-4只能做到有10%的答案可以不经更改直接运行,而在3月份的时候,这个数字还是52%。