设为首页|收藏本站|
开启左侧

[科技] OpenAI断供,中国企业:谢邀,已登顶

[复制链接]
85513 10
发表于 4 天前 | 只看该作者 打印 上一主题 下一主题
 
OpenAI断供了。
自7月9日起,包括中国大陆、中国香港俄罗斯、朝鲜、伊朗等国家和地区都不能再接入他们的API。
OpenAI断供,中国企业:谢邀,已登顶 第1张图片


一看名单,全是美利坚的制裁对象,这当然是一个政治问题。
不过大家要是对OpenAI这家公司持续关注的话,这个决定一点也不奇怪。
不久前,OpenAI的CEO奥特曼就解散了安全团队——超级对齐,这个由OpenAI曾经的首席科学家Ilya Sutskever带的团队。
OpenAI断供,中国企业:谢邀,已登顶 第2张图片


Ilya随即出走。很快,奥特曼就组建了一个新的安全团队,而这个团队的领导人是美国国安局前局长保罗·中曾根(Paul M. Nakasone)
OpenAI断供,中国企业:谢邀,已登顶 第3张图片


当OpenAI变成CloseAI,会对整个行业带来什么影响呢?
我们先看看这一波“断供”可能会带来什么吧。
01
所谓的断供“API”,这里的API指的是“应用程序编程接口”。
你可以把API通俗地理解为餐厅的菜单。你可以用它来点菜,但你并不知道菜是怎么做出来的。
还记得ChatGPT刚出来那阵儿,涌现出来无数AI公司么。它们就是顾客,炒菜的是OpenAI,然后它们再把炒好的菜包装一下,卖给餐厅外的我们。
所以本质上它们就是套壳公司,真正生产的是OpenAI。
可想而知,断供对这些公司来说无异于釜底抽薪,把吃饭的家伙给收走了。
但换个角度想,OpenAI这个AI行业内巨无霸居然主动让出市场,有钱不赚是傻蛋。
这不,国内各路高手立马就像饿虎扑食一样冲上来抢这泼天富贵,各种“搬家计划”纷纷出炉,服务不要太周到。
比如阿里的通义千问,除了提供专属的迁移服务外,主力模型调用API的价格更是只有GPT-4的1/50。这还是在通义千问跟GPT-4实力相当的情况下的价格。
OpenAI断供,中国企业:谢邀,已登顶 第4张图片


其他包括智谱、讯飞、百度、百川等都提供了相当优惠的价格。
所以,现在摆在他们面前的已经不是to be or not to be的生死问题,而是如何从一众“备胎”中挑最好的那个
02
什么样的模型才是好模型呢?
正如欧洲历史上最强的男人拿破仑所说,不想拿第一的模型不是好模型
OpenAI断供,中国企业:谢邀,已登顶 第5张图片


就像学生通过各个科目的考试比成绩,大模型的能力也是看做题的成绩。
学生有语数外理综文综的项目,大模型有推理能力、数学能力、编程能力、语言能力、多模态能力等多种项目。
比如最常用的MMLU数据集,内容涵盖了STEM、人文、社科等57个学科,就是常用来测试模型知识和推理能力的数据集。
此外还有专考中文的C-Eval、考奥数的MATH(好会取名字)等等。
自然,每家模型都会争取考个好成绩。但就像学生考试一样,有的人实力强大,有的人有自己的办法。
截至2024年6月28日,C-Eval榜单上,前20名全是我国的大模型,GPT-4位于21位
OpenAI断供,中国企业:谢邀,已登顶 第6张图片


这并不符合我的实际体验,虽然GPT-4的能力并没有像以前一样碾压了,但也不至于排到21名啊。可以说,这份榜单在某种程度上失真了。
造成这种现象的原因有很多。
首先是随着大模型的不断升级,一些题目变得相对简单了。就像以前大家都是小学生,考初中的题目,大家分都不高。但经过一年多的学习,大家的水平上升到了高中生,再去做这些题,都能得个90分以上,那么这个试题就不能很好地区分大家的水平了。
其次,闭卷变开卷。虽然这些考题都不是公开数据集,但我每天就搁那考试,一连考几十天。那考试就跟刷题库一样了,考试的题目也逐渐公开。后来的大模型们直接用这些公开的题目去训练,那再去考的时候,就相当于开卷考试了。就算是难如数学竞赛,出成绩也不是不可能的。
当然了,考题本身的质量也很重要。
这是著名的开源社区Huggingface发布的榜单Open LLM Leaderboard的最高成绩。可以看到,从2023年9月到2024年5月,大模型在各个科目取得的成绩都不断地提高,都接近虚线,也就是人类水平
OpenAI断供,中国企业:谢邀,已登顶 第7张图片


当然这个成绩并不意味着大模型已经跟人一样了,而是说明了这份卷子已经被做烂了
所以,Huggingface在6月推出了一套新试题,升级版的Open LLM Leaderboard v2。
OpenAI断供,中国企业:谢邀,已登顶 第8张图片


这套试题比此前版本难度高了不少,比如GPQA数据里面全是研究生级别的知识,且专门找了生物、物理、化学等领域的博士生来出题。
客观讲,这一波很有诚意,没给那些刷榜的大模型留下什么空子钻。
各考生做这套卷子的成绩很快出来,榜单很出乎意料:
OpenAI断供,中国企业:谢邀,已登顶 第9张图片


里面有不少老熟人,当红炸子鸡,“法国的OpenAI”Mistral、“史上最强开源大模型”Llama3以及打败了Llama3的通义千问Qwen2-72B(720亿参数)。
在这家法国榜单上看到咱国产的通义千问,属实是有点惊讶。
OpenAI断供,中国企业:谢邀,已登顶 第10张图片


我又去看了详细的成绩单,Qwen2的数学(MATH)、专业知识(GPQA)和长上下文推理(MuSR)是优势学科,尤其是数学,比第二高了6分。哦不好意思,第二名是没有经过微调的Qwen2。
这份成绩得到了Huggingface CEO的称赞:
OpenAI断供,中国企业:谢邀,已登顶 第11张图片


我去看了另一个榜单LiveBench AI,这是在图灵奖得主、AI三巨头之一的杨立昆(Yann LeCun)主导的一个大模型测评基准。
Qwen2-72B排名第8。
OpenAI断供,中国企业:谢邀,已登顶 第12张图片


但这是包括了所有闭源模型的总榜单,Qwen2-72B是前十中唯一一个开源模型。
还有其他的榜单,Qwen2基本都是开源中的霸主,在这里就不多列了。
这说明了Qwen2的做题能力很强。但它到底是做题家还是真的实力强大呢?这需要一线开发者的测试
红迪(reddit)里的开发者测试后,给出了肯定的评价:
OpenAI断供,中国企业:谢邀,已登顶 第13张图片


初次测试很不错,有一个题目其他模型都错了,只有Qwen7B对了
另一个意大利的开发者甚至说“太强了以至于不像真的”:
我又去看了看推特,开发者们测试后也都非常认可Qwen2的能力,比如这位斯坦福的计算机副教授Percy Liang
OpenAI断供,中国企业:谢邀,已登顶 第14张图片


至此,我觉得Qwen2的实力已经没什么可质疑的了。
03
开源这条赛道上,竞争从来都不比闭源小
前有法国独角兽Mistral直接免费甩出自家大模型 Mistral 7B 的磁力下载链接。
开发者们下下来一跑,发现竟然性能并不比 130 亿参数的 Llama 2 弱多少,而且微调一下,用一张显卡上就能跑。
后来他们又推出了更大参数量的 Mixtral 8x7B,性能追平了Llama2和ChatGPT3.5。
OpenAI断供,中国企业:谢邀,已登顶 第15张图片


这让Mistral先后融资超11亿刀,数钱数到手软。
而两个月前,深耕开源的Meta正式发布了Llama3 8B和70B,这个据估计花费了1500万美元来训练的开源模型,重新夺回铁王座。
OpenAI断供,中国企业:谢邀,已登顶 第16张图片


Meta官方认证为“迄今为止最强的开源大模型”
当时外界有一种声音说:“只有GPT-5能压住Llama3了。”
但GPT-5没来,Qwen2先来了,惊不惊喜,意不意外?
OpenAI断供,中国企业:谢邀,已登顶 第17张图片


其实,阿里云是国内首个做开源的大型科技企业。2023年8月,他们就开源了Qwen7B。
到现在,他们一共开源了Qwen-VL、Qwen-14B、Qwen-72B、Qwen-1.8B、Qwen-Audio、Qwen1.5的8款模型和Qwen2系列的5个模型,参数从5000万到720亿,可谓是全家桶了。
看到这里,可能有人会问,阿里云还有自己的闭源模型,是在开源上迟疑了吗?
但Qwen2这次全球第一的“出人头地”,证明了阿里云做开源是认真的!
随着GPT-5发布时间一而再再而三地延后,现在的消息已经推迟到明年年底了,大概率OpenAI还没找到办法让GPT-5在GPT-4的基础上大幅进步。
而与此同时,以Qwen2为代表的开源模型,表现正不断地逼近闭源模型之首GPT-4。
将OpenAI变为CloseAI,从非盈利变为盈利的Sam Altman,在看到Qwen2的表现时,是否心中会生出一丝后悔呢?


上一篇:七一建党节:7月1日和7月23日,到底哪一个才是真正的建党节?
下一篇:劳斯莱斯降百万,保时捷打七折,超豪华被逼至墙角
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 

精彩评论10

正序浏览
跳转到指定楼层
沙发
海中船儿 发表于 4 天前 | 只看该作者
 
中国人真爱考试,连做出的AI都最爱考试[哈哈]
回复 支持 反对

使用道具 举报

 
板凳
全场最好运 发表于 4 天前 | 只看该作者
 
[吃瓜]老美给全世界做了表率,告诉大家科技有国界
回复 支持 反对

使用道具 举报

 
地板
空生 发表于 4 天前 | 只看该作者
 
就目前情况看,ai还是属于和元宇宙一样的热炒阶段,落到真实的应用还有很长的路要走
回复 支持 反对

使用道具 举报

 
5#
爱生活的妞 发表于 4 天前 | 只看该作者
 
自我安慰一下。
回复 支持 反对

使用道具 举报

 
6#
浓浓茶叶香 发表于 4 天前 | 只看该作者
 
通义千问,⋯日本名子
回复 支持 反对

使用道具 举报

 
 
不关闭你能上的去吗??我惊讶的是他们现在连香港也断开链接了,看来香港算是彻底回归了
回复 支持 反对

使用道具 举报

 
8#
阳台上的罗勒 发表于 4 天前 | 只看该作者
 
继续努力吧
回复 支持 反对

使用道具 举报

 
9#
宝平 发表于 4 天前 | 只看该作者
 
中文互联网本身的数据量就只有英语互联网的15%,还要加上一堵墙来攻击。国内AI哪怕芯片良品率大模型都行,就这堵墙也可以让AI没活路。
回复 支持 反对

使用道具 举报

 
10#
哼丶小曲 发表于 4 天前 | 只看该作者
 
你如果敢开源,大汉就敢喊,遥遥领先。
回复 支持 反对

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-7-5 16:13