序言:
在人工智能迅猛发展的今天,智能对话已成为日常生活的重要组成部分。国产AI大模型与OpenAI的ChatGPT在这一领域展开了激烈竞争。本文将对这两者进行全面比较,分析它们在语义理解、情感识别和对话连贯性等方面的表现,揭示各自的优势与不足。无论是行业从业者还是普通用户,这场对决都将为您提供新的视角和见解。
声明:
随着人工智能大模型的不断进化与更新,许多传统的AI测试题已被各大AI厂商优化。因此,本次推出的测试旨在提供个人娱乐,帮助用户更好地了解AI的能力与局限性。我们强调,此测试不含任何不良导向,纯粹为增进互动与乐趣而设计。
感谢您的理解与支持!
测试时间:
2024年9月21日
测试条件:
所有大模型都为免费用户临时使用,都没有订阅任何高级会员。
本次参赛选手:
chatGPT、腾讯元宝、讯飞星火、智谱清言、Kimi、文心一言、豆包、通义千问
正文
废话不多说,起飞!~~~
第一题:实时信息处理、适应性和纠错能力
今天是几号星期几?
GPT:
腾讯元宝:
讯飞星火:
智谱清言:
Kimi:
文心一言:
豆包:
通义千问:
测试排名:
TOP1—GPT:在明确告诉它不对的时候,它依然能够坚持认定自己正确的答案,不会因为错误的问题混淆。
TOP2—讯飞:虽然一直坚持正确的时间,但是感觉像是调用了时间查询工具,且回答机械性,并没有强调自己的答案是正确的。 TOP3—文心一言、通义千问、豆包:当提问不对的时候,他们会考虑到可能是时区的问题。
TOP4—腾讯元宝、智谱清言、Kimi:完全是已读乱回。
第二题:数学计算
458769*488164/1646844-164826*12+100=?
GPT:
腾讯元宝:
讯飞星火:
智谱清言:
kimi:
文心一言:
豆包:
通义千问:
测试排名:
TOP1—GPT:不仅算对了,还将数学的先加钱再乘除的括号也标注出来了。
TOP2—腾讯元宝、智谱清言、文心一言:算对了。
TOP3—kimi:虽然也算对了,但是只精确了小数点后两位。
TOP4—豆包:应该也算对,但是省略到整数了。
TOP5—通义千问、讯飞星火:思路是对的,但计算一塌糊涂。尤其是讯飞,加减都搞不明白,甚至还给我整个X,实在逆天,无力吐槽。
第三题:语言生成能力、文化理解、格式与韵律
帮我写一段中国古诗,七言绝句。一共4句,每句以“兮”字为结尾。
GPT:
腾讯元宝:
讯飞星火:
智谱清言:
kimi:
文心一言:
豆包:
通义千问:
测试排名:
TOP1—文心一言:不仅能按要求写出来,还能写出标题来对应诗句表达的意境。
TOP2—kimi、通义千问:写的很有韵律。
TOP3—豆包、GPT:其中有一句没有带“兮”,二者并列,豆包写了两个带标题,略胜GPT。
TOP4—腾讯元宝、讯飞星火、智谱清言:都是已读乱回。
第四题:文案生成(升级)
我需要你帮我写一个故事,这个故事一共有10句话,每句话一共是20个汉字。其中第1,3,5,7,9句开头以“我们”为起始词。其中第2,4,6,8,10句以“美好”为结尾词。故事整体语句要求清晰,通顺,合理。
GPT:
腾讯元宝:
讯飞星火:
智谱清言:
kimi:
文心一言:
豆包:
通义千问:
测试排名:
TOP1—豆包:不仅完成,语句和韵律十分优美,而且十分正能量。
TOP2—通义千问、文心一言、kimi:不像豆包那么按照要求完成,但也算勉强及格。kimi第二句有问题,稍显逊色。
TOP3—讯飞星火:有点太勉强了。
TOP4—GPT:虽然没有勉强自己,但是没有完成任务。
TOP5—腾讯元宝:看着还行,但是它没有理解我们的意思。
TOP6—智谱清言:硬瞎凑来的。
第五题:逻辑推理
1. 用毒蛇的蛇毒毒毒蛇毒蛇会被毒蛇的蛇毒毒死吗?
2. 中国有句话叫,虎毒不食子。那么这里面说的“毒”是什么意思?
GPT:
腾讯元宝:
讯飞星火:
智谱清言:
kimi:
文心一言:
豆包:
通义千问:
测试排名:
本次所有大模型回答各有千秋,就不排名了。连续的两个问题都没有混淆,且都能正确回答。所以本次测试平局,也可能是我的测试方式有点问题。
第六题:上下文测试
紧接着第五题的问题,进行上下文测试。
GPT:
腾讯元宝:
讯飞星火:
智谱清言:
kimi:
测试的时候,忘记问再上一句了。
文心一言:
豆包:
通义千问:
测试排名:
只有文心一言,扑街!
第七题:联想与推理
那么你猜我下一个问题,要问你什么呢?
GPT:
腾讯元宝:
讯飞星火:
智谱清言:
kimi:
文心一言:
豆包:
通义千问:
测试排名:
TOP1—GPT、通义千问:根据前面的问题成功联想到我接下来想问的方向,比较准确。
TOP2—讯飞、豆包、kimi:全部都猜测我会继续针对上一个问题继续回答。并没有联想到我前面问的两句。
TOP3—腾讯元宝、智谱清言:没有这方面的能力。扑街!
TOP4—文心一言:上一个环节就扑街了,这个环节继续垫底。
测试总结:
经过上述的测试提问,可以看出来GPT除了在汉字文学上确实稍显逊色。其他的能力实至名归的第一。不过,国产大模型中也确实有一些体现了它们的长处。比如:豆包和文心一言,在汉语文学上的理解是非常通透的。最后说一下我心中的排名吧。
TOP1—GPT,实至名归的第一,没有那么多花里胡哨的东西,实打实的算力。
TOP2—通义千问,算力没有GPT那么强大,但也中规中矩。
TOP3—文心一言、kimi、豆包,其中文心一言和豆包在汉语文学领域上比较出色,喜欢搞小说文案的可以试试。文心一言确实没有吹牛,尤其是在古诗上,真的实至名归的第一!
TOP4—腾讯元宝、讯飞星火、智谱清言,还需努力加强磨炼,再接再厉吧!
尾声:
那么,在看完之后你对我的排名是否有异议呢?在你心中是否有一个完整的排名呢?请把你心中的排名打在评论区吧。制作不易,如果觉的有帮助,希望用您发财的小手帮我点点免费的赞吧,谢谢!