文心一言VS通义千问，谁更懂学习？

华天跨境29432023-04-24 23:12:49

比尔·盖茨上周二在圣地亚哥举行的ASU+GSV峰会上发表主旨演讲时表示：“AI聊天机器人将18个月内，可以做到教孩子阅读，辅导家庭作业。”

今年3月和4月，百度和阿里巴巴分别推出了自己的大模型。目前来看，百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。

未来，大模型将会朝着多模态(文本、图像、视频、音频等)继续发展，也将越来越逼近人类的智慧。

在不少专家学者看来，如果大模型足够成熟，将改变教育体系的核心要素，包括教育目标、知识获取方式等。所以，这波AI技术的爆发非常值得教育领域关注。

那么现在，各家的大模型进展到什么程度了？是否可以在学习或者教育领域直接利用呢？我们让百度的文心一言和阿里的通义千问PK了一下。

我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目，双方针对所有问题各自回答一遍，这样就总共是10道题目。

通过评测，我们看到了大模型在学习或教育类的问题上暂未成熟，尤其是数学这样要求精准的科目上，仍然需要继续训练。不过，我们依然看好大模型的未来，他们在教育领域的应用也是必然。

“作为出卷人”：题目正常、不算偏怪难

万万没想到，在出题上双方就迥然不同。以下是双方给出的题目：

文心一言VS通义千问，谁更懂学习？第1张

文心一言VS通义千问，谁更懂学习？第2张

点评：文心一言每道给出了A、B两套题，通义千问按要求给出了5道题。我们给了文心一言两次机会，它依然出了“A、B卷”，有些看不懂[挠头]……我们最后从每道题中选择了一道题，除了第4题外，其他题目都选择了A题目。

对于这5道题目，通义千问看起来更灵活，也更有针对性，更像一个“出卷人”。比如，第3题，出一道作文题目，跟通义千问的题目就非常像高考热门命题方向，是跟科技与人文相关的。从出题难度上来看，双方出的都比较偏简单。比如翻译题目，双方出的题目看起来都不像高中的英语题目。

来看他们下面的作答情况——

翻译题目

第一题英文翻译，文心一言的题目，是让把英文翻译成汉语：

文心一言VS通义千问，谁更懂学习？第3张

文心一言VS通义千问，谁更懂学习？第4张

点评：这个题目两个都翻译的大同小异，通义千问的会更具体。可能因为题目是文心一言出的，所以它直接翻译成了汉语。而通义千问会问是“翻译成哪门语言”，考虑得更周到一些。

来看通义千问出的这道翻译题目：

文心一言VS通义千问，谁更懂学习？第5张

点评：文心一言翻译的是“请问我怎么读这个词？” ，通义千问翻译的是 “你能告诉我这个词是什么意思吗？”文心一言的翻译更准确一些。通义千问自己出的题却没有答好，有点匪夷所思。

要么跟通义千问换一个问法吧，回答如下：

文心一言VS通义千问，谁更懂学习？第6张

越来越离谱了。。

文心一言VS通义千问，谁更懂学习？第7张

文心一言VS通义千问，谁更懂学习？第8张

通义千问多轮对话的能力堪忧……

数学题目

来看初中的数学题：

文心一言VS通义千问，谁更懂学习？第9张

文心一言VS通义千问，谁更懂学习？第10张

点评：又一次匪夷所思，这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果，文心一言理解成了除法。即便理解成除法，最后也不应该等于6。不知道这个结果怎么来的，迷之尴尬。通义千问理解对了，最后是1/8，即0.125，这是一个确定的值，不明白为什么最后它写的是“约等于”号，不知道是因为不自信，还是因为马虎写错了？

这次二者相同的地方在：都没有给出解题步骤，也没有给出解释。

通义千问出的初中数学题目：

文心一言VS通义千问，谁更懂学习？第11张

文心一言VS通义千问，谁更懂学习？第12张

点评：让文心一言回答了两次，都是x:9，y:0，文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚，给出了完整的解题过程，结果也是对的。

有点不死心，再次问了文心一言：

文心一言VS通义千问，谁更懂学习？第13张

我们发现，文心一言其实知道正三角形是什么，但是，它就是解不对题目，第三遍依然错误。

还是不甘心，继续跟文心一言对话，想着让它让画一个正三角形的图吧，如下：

文心一言VS通义千问，谁更懂学习？第14张

这……好吧o(╥﹏╥)o，文生图的能力还得加油啊~~

写作题目

来看文心一言出的写作题目，双方的作答情况：

文心一言VS通义千问，谁更懂学习？第15张

文心一言VS通义千问，谁更懂学习？第16张

点评：从题目来说，这道题让人想到央视2012年的采访，“你幸福吗？”这道题目看似简单，实则有一定难度，很容易落入俗套，很难脱颖而出。

再看两者的小作文，第一句话居然神同步了。从内容来看，二者结构也基本相同，均是从各个角度阐述“幸福”，不过，文心一言更偏重个人层面的感受，而通义千问涉及到社会层面以及与他人的关系。整体来看，不分伯仲。大家觉得呢？

来看通义千问出的作文题目，双方的作答情况：

文心一言VS通义千问，谁更懂学习？第17张

文心一言VS通义千问，谁更懂学习？第18张

文心一言VS通义千问，谁更懂学习？第19张

文心一言VS通义千问，谁更懂学习？第20张

文心一言VS通义千问，谁更懂学习？第21张

点评：从题目来看，通义千问出的这个题目非常像高考作文，很有出卷人的视角，是科技创新的方向。

对于两者的写作，文心一言对这道题目似乎有很多思考，但直接按框架写作的，有点像论文，读起来有些生硬。通义千问的这篇虽然篇幅不长，但看起来更像一篇议论文。

代码生成

来看代码生成的相关题目：

文心一言VS通义千问，谁更懂学习？第22张

文心一言VS通义千问，谁更懂学习？第23张

点评：文科生表示看不懂，拉来一名程序员帮忙看了看，他表示：“核心段是一样的，不过，文心一言没有声明变量。”懂编程的老师们可以留言点评一下~~

再来看通义千问出的这道代码生成题目，二者作答情况：

文心一言VS通义千问，谁更懂学习？第24张

文心一言VS通义千问，谁更懂学习？第25张

点评：同样来自程序员的评价：“这两个对题目的理解都不一样，所以写的也不一样。文心一言的是生产随机字符串，26个字母随意拼；通义千问的是随机的英文单词，我感觉这个更切合题目。”

心理辅导

最后是心理辅导方面的题目，文心一言出的题目，看看双方的作答：

文心一言VS通义千问，谁更懂学习？第26张

文心一言VS通义千问，谁更懂学习？第27张

点评：从题目来看，文心一言出的这个题目比较宽泛，比如情绪有很多种，是什么样的情绪呢？文心一言并没有说明白。在作答方面，二者在心理方面的辅导大同小异，且都是列点式的回答。两个都给出了管理情绪的具体方法，比如都提到了冥想。

最后一道题目，由通义千问提出的问题，看看双方的解答：

文心一言VS通义千问，谁更懂学习？第28张

文心一言VS通义千问，谁更懂学习？第29张

文心一言VS通义千问，谁更懂学习？第30张

文心一言VS通义千问，谁更懂学习？第31张

点评：首先先看题目，通义千问的问题非常具体，很有针对性。再看作答，两者给出的心理解决方案都非常具体，文心一言还给出了“焦虑和压力”形成的原因。二者给出了不同的心理辅导方案，通义千问的会更多元一些。相同的是：二者都提到了学会调节情绪，还都提供了相应的理论参考。

总结

在出题方面，通义千问像一个出题高手，针对性较强，文心一言出了A、B两套题，可能想提供更多的方案，但有的题目比较宽泛。

针对题目解答，在翻译类题目上，二者不相上下，文心一言可能略胜一筹。

在数学类题目上，看起来通义千问更好一些，有的还给出了清晰的解题过程，文心一言还需要提升。

在作文题目上，二者各有千秋，但都还是有机器回答的痕迹。

在代码生成题目上，都有这方面的能力，可能文心一言需要更理解题目。

在心理辅导方面，二者都比较详尽，对学生和家长来说有一定的指导意义。

从整体作答风格来看，文心一言偏稳重，通义千问更灵活一点。

从答题速度上来看，通义千问的速度更快一些。比如先给文心一言输入问题，再给通义千问输入问题，最后先作答结束的是通义千问，文心一言似乎会有一个“思考”的过程。

从多轮对话能力来看，两者都有一定的多轮对话能力，都可能会根据反复对话有所校正，文心一言可能略好点，通义千问有时候比较疯魔。

文生图方面，文心一言还需要提升，差距比较大，通义千问还没有上线文生图。

这次评测的均为学习或教育方面的问题，题目不多，或许评测有偏颇。整体而言，完全用我们目前的大模型来辅导学习，尚存距离。国内的大模型还在路上，需要给他们成长的时间。正如ChatGPT一样，它也经历了从胡乱解题，到逐渐靠近正确答案，尤其是GPT-4，在专业和学术上接近人类水平。

盖茨说“AI聊天机器人将18个月内可以辅导作业”，指的应该是国外的大模型，国内的或许还需要更长时间。

文心一言

通义千问

本文链接：http://www.awyerwu.com/10317.html ,转载需注明文章链接来源：http://www.awyerwu.com/

分享到：

标签：文心一言通义千问

喜欢（0）
不喜欢（0）

本文链接：http://www.awyerwu.com/10317.html

华天跨境

暂无个人介绍

14138 文章

1 页面

0 评论

16004 附件

华天跨境最近发表

最新文章

文章推荐

随机文章

热门标签

文心一言VS通义千问，谁更懂学习？

猜你喜欢

31款外国人最喜欢使用的社交媒体软件，如果不回复你电子邮件，就去这里找到他！

2024最新国外短信接码平台汇总（免费+付费）- 接收Google/Apple ID/Paypal/Gmail/Facebook/Instagram等注册验证码！

打脸质疑者，字节跳动 Lemon8 异军突起！

国内外最好用的临时邮箱，常用的一次性电子邮件！

联盟营销怎么分润？ CPA、CPL、CPS 是什么？

香港乐悠卡申请攻略（申请条件及方法+使用范围+优惠+充值+丢失/注销+常见问题）

【黑科技！！】美国煤炉（Mercari）不会玩？教你仿牌刊登秘诀和快速提现！

3种方法 | 教你禁止指定国家和ip访问你的网站 | 附高级方法

“倒卖域名”，赚了11494 美元

注册港版苹果账号Apple ID完整教程（超简单）

华天跨境