OpenAI断供，中国企业：谢邀，已登顶

亙 · 发表于 4 天前

OpenAI断供了。
自7月9日起，包括中国大陆、中国香港、俄罗斯、朝鲜、伊朗等国家和地区都不能再接入他们的API。

一看名单，全是美利坚的制裁对象，这当然是一个政治问题。
不过大家要是对OpenAI这家公司持续关注的话，这个决定一点也不奇怪。
不久前，OpenAI的CEO奥特曼就解散了安全团队——超级对齐，这个由OpenAI曾经的首席科学家Ilya Sutskever带的团队。

Ilya随即出走。很快，奥特曼就组建了一个新的安全团队，而这个团队的领导人是美国国安局前局长保罗·中曾根（Paul M. Nakasone）。

当OpenAI变成CloseAI，会对整个行业带来什么影响呢？
我们先看看这一波“断供”可能会带来什么吧。
01
所谓的断供“API”，这里的API指的是“应用程序编程接口”。
你可以把API通俗地理解为餐厅的菜单。你可以用它来点菜，但你并不知道菜是怎么做出来的。
还记得ChatGPT刚出来那阵儿，涌现出来无数AI公司么。它们就是顾客，炒菜的是OpenAI，然后它们再把炒好的菜包装一下，卖给餐厅外的我们。
所以本质上它们就是套壳公司，真正生产的是OpenAI。
可想而知，断供对这些公司来说无异于釜底抽薪，把吃饭的家伙给收走了。
但换个角度想，OpenAI这个AI行业内巨无霸居然主动让出市场，有钱不赚是傻蛋。
这不，国内各路高手立马就像饿虎扑食一样冲上来抢这泼天富贵，各种“搬家计划”纷纷出炉，服务不要太周到。
比如阿里的通义千问，除了提供专属的迁移服务外，主力模型调用API的价格更是只有GPT-4的1/50。这还是在通义千问跟GPT-4实力相当的情况下的价格。

其他包括智谱、讯飞、百度、百川等都提供了相当优惠的价格。
所以，现在摆在他们面前的已经不是to be or not to be的生死问题，而是如何从一众“备胎”中挑最好的那个。
02
什么样的模型才是好模型呢？
正如欧洲历史上最强的男人拿破仑所说，不想拿第一的模型不是好模型。

就像学生通过各个科目的考试比成绩，大模型的能力也是看做题的成绩。
学生有语数外理综文综的项目，大模型有推理能力、数学能力、编程能力、语言能力、多模态能力等多种项目。
比如最常用的MMLU数据集，内容涵盖了STEM、人文、社科等57个学科，就是常用来测试模型知识和推理能力的数据集。
此外还有专考中文的C-Eval、考奥数的MATH（好会取名字）等等。
自然，每家模型都会争取考个好成绩。但就像学生考试一样，有的人实力强大，有的人有自己的办法。
截至2024年6月28日，C-Eval榜单上，前20名全是我国的大模型，GPT-4位于21位。

这并不符合我的实际体验，虽然GPT-4的能力并没有像以前一样碾压了，但也不至于排到21名啊。可以说，这份榜单在某种程度上失真了。
造成这种现象的原因有很多。
首先是随着大模型的不断升级，一些题目变得相对简单了。就像以前大家都是小学生，考初中的题目，大家分都不高。但经过一年多的学习，大家的水平上升到了高中生，再去做这些题，都能得个90分以上，那么这个试题就不能很好地区分大家的水平了。
其次，闭卷变开卷。虽然这些考题都不是公开数据集，但我每天就搁那考试，一连考几十天。那考试就跟刷题库一样了，考试的题目也逐渐公开。后来的大模型们直接用这些公开的题目去训练，那再去考的时候，就相当于开卷考试了。就算是难如数学竞赛，出成绩也不是不可能的。
当然了，考题本身的质量也很重要。
这是著名的开源社区Huggingface发布的榜单Open LLM Leaderboard的最高成绩。可以看到，从2023年9月到2024年5月，大模型在各个科目取得的成绩都不断地提高，都接近虚线，也就是人类水平。

当然这个成绩并不意味着大模型已经跟人一样了，而是说明了这份卷子已经被做烂了。
所以，Huggingface在6月推出了一套新试题，升级版的Open LLM Leaderboard v2。

这套试题比此前版本难度高了不少，比如GPQA数据里面全是研究生级别的知识，且专门找了生物、物理、化学等领域的博士生来出题。
客观讲，这一波很有诚意，没给那些刷榜的大模型留下什么空子钻。
各考生做这套卷子的成绩很快出来，榜单很出乎意料：

里面有不少老熟人，当红炸子鸡，“法国的OpenAI”Mistral、“史上最强开源大模型”Llama3以及打败了Llama3的通义千问Qwen2-72B（720亿参数）。
在这家法国榜单上看到咱国产的通义千问，属实是有点惊讶。

我又去看了详细的成绩单，Qwen2的数学（MATH）、专业知识（GPQA）和长上下文推理（MuSR）是优势学科，尤其是数学，比第二高了6分。哦不好意思，第二名是没有经过微调的Qwen2。
这份成绩得到了Huggingface CEO的称赞：

我去看了另一个榜单LiveBench AI，这是在图灵奖得主、AI三巨头之一的杨立昆（Yann LeCun）主导的一个大模型测评基准。
Qwen2-72B排名第8。

但这是包括了所有闭源模型的总榜单，Qwen2-72B是前十中唯一一个开源模型。
还有其他的榜单，Qwen2基本都是开源中的霸主，在这里就不多列了。
这说明了Qwen2的做题能力很强。但它到底是做题家还是真的实力强大呢？这需要一线开发者的测试。
红迪（reddit）里的开发者测试后，给出了肯定的评价：

初次测试很不错，有一个题目其他模型都错了，只有Qwen7B对了
另一个意大利的开发者甚至说“太强了以至于不像真的”：
我又去看了看推特，开发者们测试后也都非常认可Qwen2的能力，比如这位斯坦福的计算机副教授Percy Liang：

至此，我觉得Qwen2的实力已经没什么可质疑的了。
03
开源这条赛道上，竞争从来都不比闭源小。
前有法国独角兽Mistral直接免费甩出自家大模型 Mistral 7B 的磁力下载链接。
开发者们下下来一跑，发现竟然性能并不比 130 亿参数的 Llama 2 弱多少，而且微调一下，用一张显卡上就能跑。
后来他们又推出了更大参数量的 Mixtral 8x7B，性能追平了Llama2和ChatGPT3.5。

这让Mistral先后融资超11亿刀，数钱数到手软。
而两个月前，深耕开源的Meta正式发布了Llama3 8B和70B，这个据估计花费了1500万美元来训练的开源模型，重新夺回铁王座。

Meta官方认证为“迄今为止最强的开源大模型”。
当时外界有一种声音说：“只有GPT-5能压住Llama3了。”
但GPT-5没来，Qwen2先来了，惊不惊喜，意不意外？

其实，阿里云是国内首个做开源的大型科技企业。2023年8月，他们就开源了Qwen7B。
到现在，他们一共开源了Qwen-VL、Qwen-14B、Qwen-72B、Qwen-1.8B、Qwen-Audio、Qwen1.5的8款模型和Qwen2系列的5个模型，参数从5000万到720亿，可谓是全家桶了。
看到这里，可能有人会问，阿里云还有自己的闭源模型，是在开源上迟疑了吗？
但Qwen2这次全球第一的“出人头地”，证明了阿里云做开源是认真的！
随着GPT-5发布时间一而再再而三地延后，现在的消息已经推迟到明年年底了，大概率OpenAI还没找到办法让GPT-5在GPT-4的基础上大幅进步。
而与此同时，以Qwen2为代表的开源模型，表现正不断地逼近闭源模型之首GPT-4。
将OpenAI变为CloseAI，从非盈利变为盈利的Sam Altman，在看到Qwen2的表现时，是否心中会生出一丝后悔呢？

上一篇：七一建党节：7月1日和7月23日，到底哪一个才是真正的建党节？
下一篇：劳斯莱斯降百万，保时捷打七折，超豪华被逼至墙角

海中船儿 · 发表于 4 天前

中国人真爱考试，连做出的AI都最爱考试[哈哈]

全场最好运 · 发表于 4 天前

[吃瓜]老美给全世界做了表率，告诉大家科技有国界

空生 · 发表于 4 天前

就目前情况看，ai还是属于和元宇宙一样的热炒阶段，落到真实的应用还有很长的路要走

爱生活的妞 · 发表于 4 天前

自我安慰一下。

浓浓茶叶香 · 发表于 4 天前

通义千问，⋯日本名子

酷狗武术表演队 · 发表于 4 天前

不关闭你能上的去吗？？我惊讶的是他们现在连香港也断开链接了，看来香港算是彻底回归了

阳台上的罗勒 · 发表于 4 天前

继续努力吧

宝平 · 发表于 4 天前

中文互联网本身的数据量就只有英语互联网的15%，还要加上一堵墙来攻击。国内AI哪怕芯片良品率大模型都行，就这堵墙也可以让AI没活路。

哼丶小曲 · 发表于 4 天前

你如果敢开源，大汉就敢喊，遥遥领先。

中级会员	积分	兔币	帖子
中级会员, 积分 400, 距离下一级还需 100 积分	400	226	174
在线时间：0 小时	最后登录：2024-7-2

中级会员	积分	兔币	帖子
中级会员, 积分 404, 距离下一级还需 96 积分	404	224	180
在线时间：0 小时	最后登录：2024-7-4

中级会员	积分	兔币	帖子
中级会员, 积分 386, 距离下一级还需 114 积分	386	220	166
在线时间：0 小时	最后登录：2024-7-4

中级会员	积分	兔币	帖子
中级会员, 积分 371, 距离下一级还需 129 积分	371	209	162
在线时间：0 小时	最后登录：2024-7-5

中级会员	积分	兔币	帖子
中级会员, 积分 378, 距离下一级还需 122 积分	378	214	164
在线时间：0 小时	最后登录：2024-7-4

[科技] OpenAI断供，中国企业：谢邀，已登顶

精彩评论10

东北百万野战兵团是否存在？看看最后一次整

华为廉价折叠屏来了 nova系列小折叠机8月见

五方大交易！勇士交易克莱不亏，换两大绝佳

为何浙江民富甲天下？

7月私募月度策略报告：沪指回到3000点之下

1:0！2:2！法国复仇葡萄牙姆巴佩或送偶像

林心如被问陈妍希婚变一事，坦言看新闻才知

暴跌近70%！5月仅新增房贷514亿…

慈禧是怎么死的？太医说是病死，李莲英说是

江西银行总行门口人员聚集，官方通报：公安

森林北穿深V装小秀性感，新疆街头被偶遇，

地球班故事：中东22国军官赴华参加研讨班，

浙大女学霸卖螺丝刀，雷军“代言”

白军方：若主权受威胁，将使用核武器

脑子有坑！勇士拿维金斯+库明加+保罗+首轮

首次！央妈亲自下场开展国债借入操作，深层

好惨！上市公司高管被撕票，为出海业务拼掉

这3种情况下分手，千万不要跟前任复合

东北百万野战兵团是否存在？看看最后一次整

撤销ST成功，谁拯救了康美药业？

董军就台海划红线不到48小时，美27家军火商

森林北穿深V装小秀性感，新疆街头被偶遇，

地球班故事：中东22国军官赴华参加研讨班，

苹果迟迟不入局，折叠屏手机能否成为手机厂

TES沙特杯迎来地狱难度赛程！BLG大概率保送

浙大女学霸卖螺丝刀，雷军“代言”

白军方：若主权受威胁，将使用核武器

莫迪连任还没等到中国贺电，先收到了中方的

《怦然4》男五段炼太下头！融入不了集体，

诸茅的黄昏

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸