庄羽吧 关注:1,428贴子:29,740
  • 3回复贴,共1

GPT-4“变笨”被斯坦福实锤,数学问题错误率暴涨

只看楼主收藏回复

来自斯坦福大学和UC伯克利大学的一篇最新论文显示:
6月的GPT-4在一些任务上的表现客观上就是比3月的更差。
比如他们用同样500道「判断给定整数是否为质数」的问题来测这两个版本,发现3月份的GPT-4答对了488个,而6月只对了12个……
成功率直接从97.6%下降到2.4%!
不止如此,代码能力也下降了。
对于50道简单级别的LeetCode题,6月的GPT-4只能做到有10%的答案可以不经更改直接运行,而在3月份的时候,这个数字还是52%。


来自iPhone客户端1楼2023-07-21 11:57回复
    论文地址:
    https://arxiv.org/abs/2307.09009


    来自iPhone客户端2楼2023-07-21 11:57
    回复
      其他参考
      [1]网页链接
      [2]网页链接
      [3]https://twitter.com/DrJimFan/


      来自iPhone客户端3楼2023-07-21 11:59
      回复
        简而言之就是 “ai杀了ai ” (安陵容语气


        来自iPhone客户端4楼2023-07-22 17:05
        回复