返回

多家大模型测不出9.11和9.9哪个大

2024-07-18内容来源第一财经

在当今这个数字化、智能化的时代,人工智能(AI)大模型的应用已经渗透到了我们生活的方方面面。从智能语音助手到自动翻译软件,再到复杂的数据分析和预测,AI大模型正以其独特的优势改变着我们的工作和生活方式。然而,近期一道看似简单的小学生数学题,却难倒了一众海内外知名的AI大模型,这不禁让人对AI的数学能力产生了疑问。

这道题目要求比较两个小数的大小:9.11和9.9,哪个更大?对于人类来说,这是一个再简单不过的数学问题,只需要一眼就能看出答案。然而,当这个问题被抛给12个不同的AI大模型时,结果却令人大跌眼镜。阿里通义千问、百度文心一言、Minimax和腾讯元宝这四个大模型正确地回答了问题,但剩下的8个大模型(ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量)却纷纷给出了错误的答案。

大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9,考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。

在这背后,大模型数学能力较差是长期存在的问题,有行业人士认为,生成式的语言模型从设计上就更像文科生而不是理科生。不过,针对性地语料训练或许能在未来逐步提升模型的理科能力。

电脑版

站长百科

猜你感兴趣

  • 地利集团
    地利集团
    食品流通服务与供应商,中国地利,香港上市公司
  • 摩天大楼
    摩天大楼
    郭涛,杨子姗,Angelababy,焦刚,刘丹,倪虹洁,吕聿来,郑人硕,马亮,孔雁,张柏嘉,马小媛,曹恩齐
  • 新神榜:杨戬
    新神榜:杨戬
    赵霁,动画电影,追光动画
  • 道生物联
    道生物联
    智慧城市,智慧园区,智慧消防,智能抄表
  • 云顶之弈
    云顶之弈
    英雄战棋,TFT,英雄联盟自走棋,回合制策略游戏
  • 大家都在看

  • 中粮集团
    中粮集团
    国务院国资委管理的中央企业
  • 深圳证券交易所
    深圳证券交易所
    深交所,SZSE,全国性证券交易场所
  • 雪球网
    雪球网
    投资者社区,方三文
  • 新京报
    新京报
    光明日报和南方日报联合主办的综合类城市日报
  • 3D溜溜网
    3D溜溜网
    3d66,3d模型,3d模型下载,3d模型库