一个普通用户拉尔斯·维克(Lars Wiik)测试了GPT-4o的英文阅读能力。
测试的方法是:准备了200个英文句子,需要根据语义,对其归类。
(测试的原始数据,可在英文原文里可以找到。)
有些模型会对公开的测试材料进行部分训练,所以会导致答案不客观。
而作者用自己的私有材料,进行测试,答案会相对客观。
原贴地址: https://medium.com/@lars.chr.wiik/gpt-4o-vs-gpt-4-vs-gemini-1-5-performance-analysis-6bd207a2c580
评测材料说明
这份测试材料,由 200 个句子组成,分为 50 个主题,其中一些句子密切相关,旨在使分类任务变得更加困难。
所有的内容,都是拉尔斯·维克手动创建、标记的。
评测的模型
主要测评了openai的GPT-4产品和谷歌的2款产品(Gemini和Palm 2)
Gemini和Palm 2都是谷歌出品的AI产品。
Gemini侧重多模态(可以处理图片、文件、音视频等),
Palm 2更侧重于文本和编程
详细模型:
GPT-4o: gpt-4o-2024–05–13
GPT-4:gpt-4–0613
GPT-4-Turbo: gpt-4-turbo-2024–04–09
Gemini 1.5 Pro: gemini-1.5-pro-preview-0409
Gemini 1.0: gemini-1.0-pro-002
Palm 2 Unicorn: text-unicorn@001
评测的结果
表现最好的工具是:GPT-4o, 只出现了2个错误。
表现最差的是Gemini-1.0. 出现了12个错误。
说明:错误率越低,说明模型表现的效果越好。
小结
本文作者对ChatGPT和谷歌的6个模型的文本做了独立的个人测试,测试方向是:文本理解能力。
最后的结果是:在英文文本理解方面,openai最新发布的GPT-4o效果最好。
这和官方公布的测评结果一致。
(下图为openai官方公布的测评结果)
忍不住吐槽一下谷歌的Gemini
一个不喜欢Gemini的原因:经常会出现拒绝回答的情况。
前面聊的好好的,突然整这么一出。 很让人不舒服。
好工具推荐
- ChatGPT注册详细教程来了(最新指南)
- ChatGPT注册方法,超详细的!但是小白不要尝试
- ChatGPT Plus会员升级实操指南:解锁全新ChatGPT-4.0体验
- New Bing:微软首款ChatGPT搜索,详细的申请教程来了!
- ChatGPT注册指南【保姆级手把手教程】
- 最新版ChatGPT下载安装教程(windows,Mac,Linux,Android)
- 一文看懂ChatGPT 4和3.5究竟有什么区别?ChatGPT账号值得充plus吗?
- ChatGPT 玩不了?新必应(New Bing)保姆级注册和申请教程来了!
- ChatGPT注册教程(最新完整指南)
- Claude官网地址多少?Claude怎么用?Claude和ChatGPT有和不同?
本文链接:http://www.awyerwu.com/13708.html ,转载需注明文章链接来源:http://www.awyerwu.com/
- 喜欢(0)
- 不喜欢(0)