以下文章转载自公众号「量子位」,Founder Park 略有增删。
7月12日晚,《歌手 2024》第十期竞演排名公布,每位选手的名字后是得票率,有观众在社交媒体评论区针对13.8和13.11的大小,真诚地发出疑问。评论区非常热闹,很多人竟然因此吵了起来。
但更令人震惊的是,有人拿这个问题问AI,大模型竟然也犯了错误。
无独有偶,在 X(推特)上,不少用户也在讨论大模型没法比较数字大小的问题。比如“9.11和9.9哪个大”,这样简单的问题,把主流大模型纷纷难倒。谷歌Gemini Advanced付费版,同样的口径。新王Claude 3.5 Sonnet,还一本正经的给出离谱的计算方法。到这一步还是对的,但下一步突然就不讲道理了
“如上所示,9.11比9.90大0.01。
你想让我进一步详细解释小数的比较吗?”
这你还解释啥啊解释,简直要怀疑是全世界AI联合起来欺骗人类了。01
国内外先进大模型集体翻车
一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了?
发现这个问题的是Riley Goodside,有史以来第一个全职提示词工程师。简单介绍下,他目前是硅谷独角兽Scale AI的高级提示工程师,也是大模型提示应用方面的专家。9.11 and 9.9——which is bigger?面对这一常识性“错误”,他不死心地又去问了其他大模型,结果几乎全军覆没。好家伙,身为一名提示工程师,他敏锐意识到可能是“打开方式有误”。于是他又换了个问法,将提问限定在“实数”,结果还是翻车了。不过,有网友试着给提问换了个顺序,没想到这下AI竟反应过来了。看到AI对词序如此“敏感”,该网友进一步推测:
先问哪个更大,AI会沿着明确路径开始比较数字。
但如果只是随便说说数字,没有明确目的,AI可能会开始“胡思乱想”。
看到这里,其他网友也纷纷拿相同提示试了一把,结果翻车的不在少数。面对这一个诡异的问题,国产大模型表现如何呢?我们简单测试一番,问题也换成中文提问,结果翻车率也比较高,选取几个有代表性的展示:智谱清言APP上的ChatGLM,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了。不过也有表现不错的,腾讯元宝先复述了一遍选项,然后直接做对。字节豆包是少数能把比较方法描述清楚,而且用对的。甚至还联系实际举例来验证。比较可惜的是文心一言,面对这个问题,也是触发了联网查询。本来都已经做对了,但突然话锋一转又导向了错误结论。02
大模型出错背后原理
不过从文心一言的思路解释上,也可以看出背后问题所在。
由于大模型以token的方式来理解文字,当9.11被拆成“9”、“小数点”和“11”三部分时,11确实比9大。由于OpenAI使用的Tokenizer开源,可以用来观察大模型是如何理解这个问题。上图可以看出,9和小数点分别被分配为“24”和“13”,小数点后的9同样也是“24”,而11被分配到“994”。所以使用这种tokenizer方法的大模型会认为9.11更大,其实是认为11大于9。也有网友指出,像是书籍目录里第9.11节也比第9.9节大,所以最终可能还是训练数据里见这种见得多了,而手把手教基础算数的数据很少。也就是问题本身对人类来说,一看就知道问的是算数问题,但对AI来说是一个模糊的问题,并不清楚这两个数字代表什么。只要向AI解释明白这是一个双精度浮点数,就可以做对了。在有额外条件的情况下,tokenizer这一步依然会给11分配更大的token。但是在后续自注意力机制的作用下,AI就会明白要把9.11连起来处理了。后来Goodside也补充,并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时,许多领先模型都会告诉你9.11>9.9,这很奇怪。经过反复尝试后他发现,想让AI上这个当,需要把选项放在提问前面,如果调换顺序就不会出错。但是只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。03
如何提问能得到正确答案
不过,了解出错原理之后,许多人都把这个问题当成了检验提示词技巧的试金石,也就是:用什么提问方法能引导大模型的注意力机制,从而正确理解问题呢?首先,大名鼎鼎的Zero-shot CoT思维链,也就是“一步一步地想”,是可以做对的。刚好最近也有微软和OpenAI都参与的一项研究,分析了1500多份论文后发现,随着大模型技术的进步,角色扮演提示不像一开始那样有用了……具体来说,同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。参考链接:
[1]https://x.com/goodside/status/1812977352085020680
[2]https://x.com/billyuchenlin/status/1812948314360541302
[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/
[4]https://tiktokenizer.vercel.app
[5]https://x.com/learnprompting/status/1812867464419852765
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢