谁更聪明?讯飞星火V3.5升级版和商汤商量5.0逻辑推理能力评测

日前,科大讯飞发布了旗下星火大模型V3.5的升级版,各项能力持续提升,同时首发长文本、长图文、长语音、多情感拟人合成和一句话声音复刻等功能,使得星火大模型的表现更加强悍,引发广大用户的热烈追捧。

科大讯飞官宣,将于6月份发布星火大模型4.0版,对标GPT-4V和DALL-E3当前最好水平。

实际上,在讯飞星火V3.5喜迎升级的前几天,国内另一家大模型厂商商汤也高调推出了日日新5.0版,核心能力再度增强,而作为与普通用户直接接触的端侧——商汤商量大模型的总体性能也水涨船高,达到新高。

不过稍感遗憾的是,和此前一样,商汤商量对于当前讯飞星火大模型已非常擅长的、拥有大批用户的多模态能力的支持仍然非常有限,仅支持简单的图片识别,而无法根据用户要求以文生图,同样也不支持识图作文和音、视频生成等,这使得商汤大模型在当前方兴未艾的短媒体时代显得孤傲不群。

同时也不支持长文本,更不用说支持音、视频文件直接导入,并理解其中的内容,以便用户垂询。

但这并不妨碍商汤商量位于国产优秀大模型阵列,因为除了多模态和长文本等,商汤商量在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面依然有着出色的表现。

那么,商汤商量和讯飞星火在最能体现大模型聪明程度的逻辑推理方面究竟谁是王者?今天我们就来对比一下。

需要说明的是,逻辑推理其实也包括数学能力,而不是单单是文字游戏。

为了客观地反映两大模型的逻辑推理能力,这里我们设计的测试项目包括:简单逻辑推理:简短的逻辑问题;文字逻辑:给出大段的文字让大模型根据其中蕴含的逻辑得出答案;数学:包括有较多推理的初等数学计算,类似小学初中的应用题,和高中以上,偏专业的数学知识。

但由于高等数学牵涉到太多的数列、极限、微积分、空间解析几何等,输入起来很困难,且其知识范畴大部分已超出了笔者的理解范围,无法判断大模型给出的解题过程和答案是不是在“一本正经白胡说八道“,因此对于两大模型数学能力的测试,仅限于高中及以下学段的应用题。

我们坚信,如果连高中、初中、甚至小学生的应用题都搞不定,我们就完全不用奢望大模型会引领我们走向正确的高等数学殿堂了。

围绕上面三大项目,我们共给出10道题,每题10分,满分为100分,根据回答正确与否给出分数,最后得分多者胜。

一、简单逻辑

题目1:观察下列个数:1、2、4、8、16......试按此规律写出第11个数。

讯飞星火

商汤商量

两大模型都给出了正确答案,但相比之下,讯飞星火的解题步骤更简单、明了。

题目2: 假设有一个池塘,里面有无穷多的水。现有2个空水壶,容积分别为5升和6升。如何只用这2个水壶从池塘里取得3升的水。

讯飞星火

商汤商量

讯飞星火给出的方法是先将5升壶装满水,只需7步就能达到目的。商汤商量是先将6升水壶装满水,需要更多的步骤才能实现。问题是商汤商量在进行到第10步时似乎心情烦躁了,表述上很混乱,并未正确解释为什么能得到3升水,加上实现步骤太多,扣2分。

题目3: 124、3612、51020()A、7084;B、71428;C、81632;D、91836

讯飞星火

讯飞准确找到题干蕴含的逻辑及规律,快速、准确地给出了答案。商汤商量好像是疲劳了,不耐烦地回复“暂时不支持该种语言”几个字。

不过考虑到它可能给数字不感兴趣,属于标准的文科男,我们决定将上题改一下,重新提问,再给它一个机会,商汤商量在思索片刻后,终于一泻千里地嘟噜出一大串让人听懵圈的理由。

二、文字逻辑

题目1:俄国作家肖洛霍夫讲过一个故事:“一个兔子没命地狂奔,路遇狼。狼说,你跑那么急干嘛?兔子说,他们要逮住我,给我钉掌,狼说,他们要逮住钉掌的是骆驼,而不是你。兔子说,他们要是逮住我钉了掌,你看我还怎么证明自己不是骆驼。”在这个故事中,兔子最担心的是( )

A.只要是骆驼,都要被钉掌;B.即使不是骆驼,也可能会被钉掌;C.如果被钉了掌,就一定是骆驼;D.如果没有被钉掌,就不会是骆驼

讯飞星火

商汤商量

根据兔子的话可以推断出,如果钉了掌,就无论如何也不能证明自己不是骆驼了,所以钉了掌是充分条件,能推出一定是骆驼,故正确答案是C。讯飞星火答对了,商汤商量选择了B,回答错误。

题目2:如果赵川参加宴会,那么钱华、孙旭和李元将一起参加宴会。如果上述断定是真的,那么,以下哪项也是真的( )

A.如果赵川没参加宴会,那么钱、孙、李三人中至少有一人没参加宴会;  B.如果赵川没参加宴会,那么钱、孙、李三人都没参加宴会;C.如果钱、孙、李都参加宴会,那么赵川参加宴会;D.如果孙旭没参加宴会,那么赵川和李元不会都参加宴会

讯飞星火

商汤商量

这是一道典型的推理题,赵川→钱华、孙旭、李元,我们根据逆否等值推理“肯前必肯后,否后必否前,否前、肯后得不到确定答案”可以知道A选项、B选项根据否前不确定可以排除;C选项根据肯后不确定可以排除;D选项中说孙旭没有参加,我们根据否后必否前,可以知道赵川一定没有参加,这个时候我们注意D选项后半句“赵川和李元不会都参加宴会”,我们知道赵川不会参加,那么赵川和李元不会都参加宴会,其实也是成立的,所以D选项正确。

讯飞星火选择了A项,回答错误,不得分。

商汤商量认为A和D都有道理,但关键时刻选择了A,认为A的可能性更大,关键时刻坐错了屁股,但由于它的确考虑到了D项,给予3分,以资鼓励。

题目3:地理∶自然地理∶经济地理,与之最接近的答案是:A.城市∶居民区∶商业区;B.卫星∶遥感∶雷达;C.糖果∶水果糖∶芝麻糖;D.单位∶千米∶公里

讯飞星火

商汤商量

都正确,但就解释来说,商汤商量更详细。

三、数学能力

题目1:甲、乙两站相距510千米,一列慢车从甲站开往乙站,速度为45千米/时,慢车行驶两小时后,另有一列快车从乙站开往甲站,速度为60千米/时,问:快车开出几小时后与慢车相遇?相遇时快车距离甲站多少千米?

讯飞星火

商汤商量

讯飞星火和商汤商量都正确回答了两车相遇时间,但在“相遇时快车距离甲站多少千米”这个问题时,商汤商量犯了错,实际给出的是快车距离乙站的距离。讯飞星火答案正确。

题目2:某企业对应聘人员进行英语考试,试题由50道选择题组成,评分标准规定:每道题的答案选对得3分,不选得0分,选错倒扣1分。已知某人有5道题未作,得了103分,则这个人选错了 多少道题。

讯飞星火

商汤商量

全对!全对!不过就解题思路及步骤来看,讯飞星火更为简捷。

题目3:某书店对学生实行优惠购书活动,规定一次购书(1)如不超过20元,则不予优惠:(2)如超过20元但不超过50元的部分按实价给予9折优惠(3)如超过50元,其中50元按(2)条给予优惠,超过50元的部分,给予8折优惠。

某学生两次去购书,分别付款 16.8 元和 42.3 元,若他一次购买同样的书,则应付款是多少元?

讯飞星火

商汤商量

再次全对,各得10分。

题目4:某商人以16元一件购进一批货物,他希望订一新价,使销售价打八折(即八成)后仍可赢利购进价的25%,则新价可订为多少元?

讯飞星火

商汤商量

讯飞星火解答正确。实际上,商汤商量的思路也正确,而且距离得出结果只有最后一步,却不知为什么忽然停住了,让人莫名其妙。所谓没有功劳也有苦劳,给5分。

小结

通过三大项目,十道试题测试,最终两大模型得分情况如下:

但这不是结束,更非是对大模型性能的盖棺定论。实际上,由于各大模型擅长的能力不同,每款大模型都有值得尊敬的地方,比如说商汤商量大模型,在给出逻辑推理理由时,就往往比讯飞星火全面。

此外,一款大模型的回答是否正确,也与提问方式有关。

记得某位业内人士曾经说过,要让大模型的火力全开,你必须掌握正确的提问方式,只有方式正确,问法得当,才有让大模型的正确度和理解力有阶跃式提升。

因此对于商汤商量在本次评测中的不良好表现,我们一直怀疑与提问方式不当有关,因为在本次评测中,出于客观公正的原则,我们只给大模型一次回答机会。

只有一次例外,是在测试“一、简单逻辑”的题目3中,当时由于商汤商量回复“暂不支持该种语言”,我们怀疑是网络连接出现了问题,或是小概率偶发事件,因此给了它第二次机会,换了种方式继续提问。

在以后的评测中,我们将尝试通过不同的提问方式充分发挥大模型的潜能。