第A06版:观点·声音 上一版3  4下一版
A06
打破“终身制”,让院士回归学术
大学生为奶奶改造智能屏 打开了一道“数字助老门”
分不清9.11和9.9大小 暴露大模型逻辑推理短板
手机壳“服装化”是对生活的个性化表达
转账限额降到500元 反诈当以技术避“误伤”
      
返回主页 | 郑州晚报 | 标题导航 | 郑州日报      
上一期  下一期
新京报:
分不清9.11和9.9大小 暴露大模型逻辑推理短板

一道小学数学题,成功难倒超过一半的大模型。据报道,经测试,在“9.11和9.9两个数字哪个更大”这个基础的数学题上,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误。在答错者中,还包括了知名的ChatGPT-4o。

数学相关的逻辑推理能力一直是当下大模型的短板。但一道小学生级别的数学题,却成了各家大模型面前的绊脚石,这在公众舆论之中引发了不小争议。究其原因,是近期公众对于“大模型无所不能”的传统认知与大模型当下仍处在测试探索期的现实之间产生了冲突。数学运算是典型的逻辑推理能力,即根据前提条件给出符合逻辑或潜在逻辑关系的结论,而数学运算是用精确的语言和符号进行纯逻辑的推演。因此,如此理解的话,更能直观地感受到大模型的逻辑推理能力。

3上一篇  下一篇4       
版权声明 @ 中原网 网站版权所有
1451079 2024-07-19 00:00:00 五 分不清9.11和9.9大小 暴露大模型逻辑推理短板KeywordPh新京报: