对GPT-4o的英文理解能力的独立测试

华天跨境11362024-05-24 17:20:27

一个普通用户拉尔斯·维克(Lars Wiik)测试了GPT-4o的英文阅读能力。

测试的方法是：准备了200个英文句子，需要根据语义，对其归类。

(测试的原始数据，可在英文原文里可以找到。)

有些模型会对公开的测试材料进行部分训练，所以会导致答案不客观。

而作者用自己的私有材料，进行测试，答案会相对客观。

原贴地址： https://medium.com/@lars.chr.wiik/gpt-4o-vs-gpt-4-vs-gemini-1-5-performance-analysis-6bd207a2c580

评测材料说明

这份测试材料，由 200 个句子组成，分为 50 个主题，其中一些句子密切相关，旨在使分类任务变得更加困难。

所有的内容，都是拉尔斯·维克手动创建、标记的。

评测的模型

主要测评了openai的GPT-4产品和谷歌的2款产品(Gemini和Palm 2)

Gemini和Palm 2都是谷歌出品的AI产品。

Gemini侧重多模态(可以处理图片、文件、音视频等)，

Palm 2更侧重于文本和编程

详细模型：

GPT-4o: gpt-4o-2024–05–13

GPT-4：gpt-4–0613

GPT-4-Turbo: gpt-4-turbo-2024–04–09

Gemini 1.5 Pro: gemini-1.5-pro-preview-0409

Gemini 1.0: gemini-1.0-pro-002

Palm 2 Unicorn: text-unicorn@001

评测的结果

表现最好的工具是：GPT-4o，只出现了2个错误。

表现最差的是Gemini-1.0. 出现了12个错误。

说明：错误率越低，说明模型表现的效果越好。

对GPT-4o的英文理解能力的独立测试第1张

小结

本文作者对ChatGPT和谷歌的6个模型的文本做了独立的个人测试，测试方向是：文本理解能力。

最后的结果是：在英文文本理解方面，openai最新发布的GPT-4o效果最好。

这和官方公布的测评结果一致。

(下图为openai官方公布的测评结果)

对GPT-4o的英文理解能力的独立测试第2张

忍不住吐槽一下谷歌的Gemini

一个不喜欢Gemini的原因：经常会出现拒绝回答的情况。

前面聊的好好的，突然整这么一出。很让人不舒服。

对GPT-4o的英文理解能力的独立测试第3张

好工具推荐

ChatGPT

本文链接：http://www.awyerwu.com/13708.html ,转载需注明文章链接来源：http://www.awyerwu.com/

分享到：

标签：ChatGPT

喜欢（0）
不喜欢（0）

本文链接：http://www.awyerwu.com/13708.html

上一篇惊天逆转？TikTok能否翻盘美国禁令？
下一篇亚马逊成本篇：亚马逊索赔的介绍及申请技巧

华天跨境

暂无个人介绍

14154 文章

0 页面

0 评论

16004 附件

华天跨境最近发表

最新文章

文章推荐

广告合作

随机文章

热门标签

对GPT-4o的英文理解能力的独立测试

猜你喜欢

如何通过gpt-4o官方测评图表，寻找最适合自己的模型

手把手教你如何使用ChatGPT进行电商内容撰写

AI（人工智能）写作的6个缺点

ChatGPT 4.0如何使用多少钱！！！

ChatGPT全教程(2024教程)：如何安装使用ChatGPT

最佳AI工具：国外最新人工智能工具一览（2024）

探索OpenAI的革命性视频创作工具：Sora文生视频模型

GPT-4时代终结者 - Claude 3账号注册保姆级教程，一定要注意这5点，否则容易封！

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？

2023全球使用人数Top10的AI工具大盘点

华天跨境