设为首页|收藏本站|
开启左侧

[娱乐] 《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车

[复制链接]
34 0
你快乐吗 发表于 2024-7-16 17:10:26 | 只看该作者 打印 上一主题 下一主题
 
《科创板日报》7月16日讯(记者 黄心怡) 近日,在最新一期的《歌手》节目中,孙楠与外国歌手的微小分数差异,引发了网友关于13.8%和13.11%谁大谁小的争论。
《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第1张图片


《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第2张图片


有网友竟给出“13.8%大于13.11%”的错误答案,而记者发现,不少大模型也与部分网友一样,弄不清这个小学四年级的知识点 。
在《科创板日报》记者的测试中,Kimi、智谱清言、通义等大模型应用纷纷翻车,而百度文心一言、字节豆包则守住了大模型的尊严。
记者提问后,Kimi称:13.11大于13.8。在进行了一番引导后,包括询问13.11减去13.8的答案为负数,如何解答其意义,Kimi才给出了正确回答。
《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第3张图片


记者又多次询问Kimi 13.11和13.8谁大,Kimi有时能回答正确。从错误的回答来看,Kimi与部分网友一样,把13.8误以为13.08,所以得出了13.11更大的结果
《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第4张图片


记者询问了Kimi是否知道湖南卫视《歌手》排名引发13.11和13.8谁更大的事件?Kimi顺利地回答了,并为自己此前答错而道歉。
《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第5张图片


《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第6张图片


之后,记者还测试了其他小数点比大小,Kimi的准确率为50%。
《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第7张图片


Kimi在数理逻辑方面存在胡说八道的现象,那么其他大模型是否能准确回答?在记者的测试中,文心一言和豆包都给出了正确的答案。
《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第8张图片


其中,文心一言给出了具体的推理过程,也答出了近期新闻事件。
《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第9张图片


豆包也经受住了考验。
《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第10张图片


智谱清言同样犯了与网友相同的位数错误,由于认为11比8大,推理出13.11比13.8大。而通义也坚定相信13.11大于13.8。
《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第11张图片


智谱清言的回答

《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第12张图片


通义的回答

值得一提的是,ChatGPT也出现了胡说八道的现象。在为13.8填补了13.80的零位数后,才得出了正确的回答。
《歌手》排名引热议!13.8%和13.11%哪个大?大模型竟然也翻车 第13张图片


这类大模型说胡话的现象,在业界被称为大模型出现幻觉。此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。此外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。
有产业界人士告诉《科创板日报》记者,目前大模型的幻觉率仍然较高,这也是产业界缺乏真正颠覆性应用的原因之一,业界都在共同解决这一核心问题,让大模型在业务流程中变得更可控。
(科创板日报记者 黄心怡)


上一篇:避免被哈马斯俘虏,以军重启汉尼拔指令,可射杀死己方士兵和平民
下一篇:毕业季租房需求释放,一线城市租金全部转涨
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-9-13 09:33