分不清9.11和9.9大小暴露大模型逻辑推理短板－郑州晚报数字报-中原网-省会首家数字报

第A06版：观点·声音

	A06
	打破“终身制”，让院士回归学术
	大学生为奶奶改造智能屏打开了一道“数字助老门”
	分不清9.11和9.9大小暴露大模型逻辑推理短板
	手机壳“服装化”是对生活的个性化表达
	转账限额降到500元反诈当以技术避“误伤”

新京报：

分不清9.11和9.9大小暴露大模型逻辑推理短板

一道小学数学题，成功难倒超过一半的大模型。据报道，经测试，在“9.11和9.9两个数字哪个更大”这个基础的数学题上，国内外12个大模型之中只有4个答对了，剩下8个全都回答错误。在答错者中，还包括了知名的ChatGPT-4o。

数学相关的逻辑推理能力一直是当下大模型的短板。但一道小学生级别的数学题，却成了各家大模型面前的绊脚石，这在公众舆论之中引发了不小争议。究其原因，是近期公众对于“大模型无所不能”的传统认知与大模型当下仍处在测试探索期的现实之间产生了冲突。数学运算是典型的逻辑推理能力，即根据前提条件给出符合逻辑或潜在逻辑关系的结论，而数学运算是用精确的语言和符号进行纯逻辑的推演。因此，如此理解的话，更能直观地感受到大模型的逻辑推理能力。