谁更聪明？讯飞星火V3.5升级版和商汤商量5.0逻辑推理能力评测

日前，科大讯飞发布了旗下星火大模型V3.5的升级版，各项能力持续提升，同时首发长文本、长图文、长语音、多情感拟人合成和一句话声音复刻等功能，使得星火大模型的表现更加强悍，引发广大用户的热烈追捧。

科大讯飞官宣，将于6月份发布星火大模型4.0版，对标GPT-4V和DALL-E3当前最好水平。

实际上，在讯飞星火V3.5喜迎升级的前几天，国内另一家大模型厂商商汤也高调推出了日日新5.0版，核心能力再度增强，而作为与普通用户直接接触的端侧——商汤商量大模型的总体性能也水涨船高，达到新高。

不过稍感遗憾的是，和此前一样，商汤商量对于当前讯飞星火大模型已非常擅长的、拥有大批用户的多模态能力的支持仍然非常有限，仅支持简单的图片识别，而无法根据用户要求以文生图，同样也不支持识图作文和音、视频生成等，这使得商汤大模型在当前方兴未艾的短媒体时代显得孤傲不群。

同时也不支持长文本，更不用说支持音、视频文件直接导入，并理解其中的内容，以便用户垂询。

但这并不妨碍商汤商量位于国产优秀大模型阵列，因为除了多模态和长文本等，商汤商量在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面依然有着出色的表现。

那么，商汤商量和讯飞星火在最能体现大模型聪明程度的逻辑推理方面究竟谁是王者？今天我们就来对比一下。

需要说明的是，逻辑推理其实也包括数学能力，而不是单单是文字游戏。

为了客观地反映两大模型的逻辑推理能力，这里我们设计的测试项目包括：简单逻辑推理：简短的逻辑问题；文字逻辑：给出大段的文字让大模型根据其中蕴含的逻辑得出答案；数学：包括有较多推理的初等数学计算，类似小学初中的应用题，和高中以上，偏专业的数学知识。

但由于高等数学牵涉到太多的数列、极限、微积分、空间解析几何等，输入起来很困难，且其知识范畴大部分已超出了笔者的理解范围，无法判断大模型给出的解题过程和答案是不是在“一本正经白胡说八道“，因此对于两大模型数学能力的测试，仅限于高中及以下学段的应用题。

我们坚信，如果连高中、初中、甚至小学生的应用题都搞不定，我们就完全不用奢望大模型会引领我们走向正确的高等数学殿堂了。

围绕上面三大项目，我们共给出10道题，每题10分，满分为100分，根据回答正确与否给出分数，最后得分多者胜。

一、简单逻辑

题目1：观察下列个数：1、2、4、8、16......试按此规律写出第11个数。

讯飞星火

商汤商量

两大模型都给出了正确答案，但相比之下，讯飞星火的解题步骤更简单、明了。

题目2: 假设有一个池塘，里面有无穷多的水。现有2个空水壶，容积分别为5升和6升。如何只用这2个水壶从池塘里取得3升的水。

讯飞星火

商汤商量

讯飞星火给出的方法是先将5升壶装满水，只需7步就能达到目的。商汤商量是先将6升水壶装满水，需要更多的步骤才能实现。问题是商汤商量在进行到第10步时似乎心情烦躁了，表述上很混乱，并未正确解释为什么能得到3升水，加上实现步骤太多，扣2分。

题目3: 124、3612、51020（）A、7084；B、71428；C、81632；D、91836

讯飞星火

讯飞准确找到题干蕴含的逻辑及规律，快速、准确地给出了答案。商汤商量好像是疲劳了，不耐烦地回复“暂时不支持该种语言”几个字。

不过考虑到它可能给数字不感兴趣，属于标准的文科男，我们决定将上题改一下，重新提问，再给它一个机会，商汤商量在思索片刻后，终于一泻千里地嘟噜出一大串让人听懵圈的理由。

二、文字逻辑

题目1：俄国作家肖洛霍夫讲过一个故事：“一个兔子没命地狂奔，路遇狼。狼说，你跑那么急干嘛?兔子说，他们要逮住我，给我钉掌，狼说，他们要逮住钉掌的是骆驼，而不是你。兔子说，他们要是逮住我钉了掌，你看我还怎么证明自己不是骆驼。”在这个故事中，兔子最担心的是( )

A.只要是骆驼，都要被钉掌；B.即使不是骆驼，也可能会被钉掌；C.如果被钉了掌，就一定是骆驼；D.如果没有被钉掌，就不会是骆驼

讯飞星火

商汤商量

根据兔子的话可以推断出，如果钉了掌，就无论如何也不能证明自己不是骆驼了，所以钉了掌是充分条件，能推出一定是骆驼，故正确答案是C。讯飞星火答对了，商汤商量选择了B，回答错误。

题目2：如果赵川参加宴会，那么钱华、孙旭和李元将一起参加宴会。如果上述断定是真的，那么，以下哪项也是真的( )

A.如果赵川没参加宴会，那么钱、孙、李三人中至少有一人没参加宴会；　　B.如果赵川没参加宴会，那么钱、孙、李三人都没参加宴会；C.如果钱、孙、李都参加宴会，那么赵川参加宴会；D.如果孙旭没参加宴会，那么赵川和李元不会都参加宴会

讯飞星火

商汤商量

这是一道典型的推理题，赵川→钱华、孙旭、李元，我们根据逆否等值推理“肯前必肯后，否后必否前，否前、肯后得不到确定答案”可以知道A选项、B选项根据否前不确定可以排除;C选项根据肯后不确定可以排除;D选项中说孙旭没有参加，我们根据否后必否前，可以知道赵川一定没有参加，这个时候我们注意D选项后半句“赵川和李元不会都参加宴会”，我们知道赵川不会参加，那么赵川和李元不会都参加宴会，其实也是成立的，所以D选项正确。

讯飞星火选择了A项，回答错误，不得分。

商汤商量认为A和D都有道理，但关键时刻选择了A，认为A的可能性更大，关键时刻坐错了屁股，但由于它的确考虑到了D项，给予3分，以资鼓励。

题目3：地理∶自然地理∶经济地理，与之最接近的答案是：A.城市∶居民区∶商业区；B.卫星∶遥感∶雷达；C.糖果∶水果糖∶芝麻糖；D.单位∶千米∶公里

讯飞星火