腾讯新闻《潜望》:今天看,Scaling Law是加速增长,线性增长,还是放平缓了? 李广密:从细节来看:GPT-4公开的是1.8T参数,MoE架构,大概13T训练数据,2.5万张A100训练100天。
外界都在猜测GPT下一代模型能scale up多少倍?我们就假设如果是3倍参数,3倍多数据,那就是9倍compute资源。你看老黄公布了3.2万张H100集群,加上一些优化效率提升,是差不多match的。你要说10倍参数提升和10倍数据提升,那就是100倍compute资源提升,很明显GPU算力集群不够用,这里受限是物理机器瓶颈。
今天增加数据可能比增加参数的ROI要高,好像高质量数据永远不嫌多。之前都说文本数据用差不多了,通过改写和合成能再扩大小几倍。今天真让你拿来10倍100T高质量数据好像有点难。可能没有人能拿出来。
另外,怎么把多模态数据和文本数据一起训练也挺难,是research问题,因为很容易伤害原来的模型。
现在对Scaling Law一个判断是,训练GPT-5数据够用,但GPT-6可能需要一些突破。未来1-2年Scaling Law没问题。如果非说一个结论——Scaling Law 起码没减速;如果说变慢了,那就是算力和数据没怼够。GPT-3.5走到GPT-4大概多了20-30倍算力,GPT-4走向下一代还没怼够20-30倍有效算力。只要有有效算力和更多数据,一定有新东西出现。
这会影响到整个算力市场,围绕芯片、数据中心、互联。接下来两年除了research问题,OpenAI、微软以及其他所有竞争对手,有50%甚至更多精力都会花在如何解决算力和互联的问题。
这不光是一场research lab关于research的竞争,而是一场巨头博弈,research lab 和巨头互相leverage(影响、杠杆),对人才、用户、算力、policy、舆论、股价等资源多方争夺,互相角力的竞争——你看微软今年的动作,又投资Mistral,又投资Inflection,又自己招人在训大模型——它和OpenAI关系也挺复杂的。 腾讯新闻《潜望》:评价一下微软这一系列动作。 李广密:站住最稳的位置。 腾讯新闻《潜望》:Scaling Law走下去会遇到哪些瓶颈?能走多远? 李广密:就看两个关键要素:第一,Data;第二,GPU。
电力不是research问题,是通过投入能解决的。反正Scaling Law这个问题的结论是受限物理计算瓶颈,所以Sam提出筹集7万亿美金和造芯片是有道理的。
另外,效率很重要,一个是compute efficiency,一个是data efficiency。这里有趣的就是衡量大家的效率,同样训练一个GPT-3.5能力水平的模型,需要多少张GPU?多少训练数据?这个训练效率可能是数量级差别——有人几千张,有人几百张就够,range很大。最后,AGI本质还是拼的用“能源+芯片”产出智能的效率。
最后从架构上,Agent能不能最终完成有经济价值的复杂任务,next token到底能不能解决长期规划的问题,这是接下来值得关注的。如果不能,scaling下去意义不大。 腾讯新闻《潜望》:模型会无限变大吗? 李广密:我觉得会无限变大,参数大10倍甚至100倍,数据大10倍、100倍甚至1000倍。
训练大模型是为了探索能力边界,是科学发现问题,但大家都会训练更小的模型满足商用,成本很低。GPT-3.5也验证了这件事,我可以用训练SOTA大模型百分之一到十分之一的资源训练一个更efficient模型,能力上也能覆盖60-70% query(查询),不见得明显比SOTA差太多,但成本低一到两个数量级。今天从头训练一个GPT-3.5水平模型应该不用太多卡。 科普一个基本公式:训练量多大=参数量x训练token量x6
number of parameters x tokens to train x 6 =number of GPU x FLOPS per GPU per second x Time x utilization
举例,GPT-4:1.8 trillion 参数 x 13 trillion token x 6 = 25,000 GPU x 19.5 TFLOPs(19.5 万亿次) x 60s x 60mins x 24h x 100days x 利用率(利用率能到50%属于比较好的,最强的能到60%-70%) 腾讯新闻《潜望》:Scaling Law一定能通向AGI吗? 李广密:这是最大概率的一条路线,我们没找到除了这条路以外的其他路径。在没有证伪之前要怼更多资源去验证。 腾讯新闻《潜望》:你认可朱啸虎的观点吗?他说,AGI 5到10年内是看不见的——“可控核聚变实现前,我不太相信地球有足够的算力能够实现真正的AGI。帮人类降低90%的工作可能未来3到5年可以实现,但最后10%需要天量的算力和能耗,这也是为什么Sam Altman想融天量的资金!” 李广密:大部分观点是认可的,VC喜欢小钱办大事。回头看微软第一台计算机做出来的时候,盖茨也很难相信内存能从那时候的多少K到现在的多少GB。我们还是相信摩尔定律,以及模型的计算效率会提升,推理效率也会大幅提升,同时硬件的memory(存储)、模型本身的context window(上下文窗口)也能提升很多。这些都提升上去后,人真的可以把自己所有的历史都当成context去运行。即使在这个过程中模型也还是会解锁很多新技能。
朱啸虎提到帮人类降低90%工作,这个经济价值挺高,3-5年如果实现,这个观点很乐观了。
我同意能量量级需要升级的观点,很多数据中心建在核电站旁边,AWS最近收购了一个美国最大核电站旁边的数据中心。
我对AGI理解的关键词是“渐进式解锁”,不是一蹴而就。今天Tesla FSD(高级自动驾驶辅助系统)的安全性已经超过平均司机了,计算机视觉识别人脸和做广告商品识别推荐效率也比人高。我对5-10年内看见AGI充满信心,相信科学会有突破,相信这批全球最聪明厉害的科学家,这和曼哈顿计划、登月计划、克林顿网络大基建很像。 腾讯新闻《潜望》:朱啸虎还有一个观点是,GPT-5以后大模型的技术曲线基本会放缓下来。 李广密:技术发展不是线性的,可能平台期2年,再跳变跃升一次,有一个更大主声浪。几十万张卡训练AGI,可能比登月对人类的经济价值更大。我认为,模型作为新的平台,确定性已经很高了。
05 预测OpenAI:挑软柿子嘛,就打Google