面壁智能CTO曾国洋：端侧模型在终端任务上或将超越云端大模型

隐没 · 发表于 2024-7-19 07:40:35

文 / 腾讯科技李海丹编辑 / 郝博阳
前段时间，斯坦福大学AI团队疑似抄袭中国大模型创业公司面壁智能的消息引发了行业的轩然大波，面壁智能也因此受到了广泛的关注。这家创业型公司，始于清华大学NLP实验室，联合创始人刘知远是清华大学长聘副教授。
面壁的技术团队也是一帮天赋异禀和年轻人拼搏冲刺，面壁智能CTO曾国洋，一直跟随刘知远带领团队开发CPM系列大模型，他8岁就开始学编程，大学保送清华，在大二时期就进入了清华NLP实验室。除了这些光鲜的履历，曾国洋还是一位95后——1998年出生，便管理这家明星公司技术团队。虽然只有26岁，但已经是有十多年经验的资深开发者。
今年，面壁智能联合清华 NLP 实验室发布了「面壁MiniCPM」，被称为「性能小钢炮」。不过，相比现在很多拼参数的大模型，MiniCPM 2B 参数量仅有 20 亿。
当前的大模型行业，竞争十分激烈。一部分公司在竞相追求更大规模的模型参数，在性能上取得突破，很多头部企业都做到了千亿、万亿，甚至是十万亿。参数规模似乎成为象征着大厂入场的一个“标配”。
大规模的模型在许多复杂任务中展现出了强大的性能和广泛的应用潜力。但也面临着计算资源消耗巨大、训练时间长以及部署成本高等问题。更重要的是，过多的参数可能导致模型过拟合，降低其在实际应用中的泛化能力。
也有一些公司，比如面壁智能等公司更聚焦选择了端侧模型。相比云端大模型，端侧模型可以在保持高效性能的同时，显著减少资源消耗和成本，对于创业公司来说，是一条十分可观的竞争赛道。
曾国洋向腾讯科技表示，在某些具体任务上，“高效率的端侧模型”在设备本地端的效果能够持平甚至超越大模型，特别是在用户交互和即时反馈方面。曾国洋说：“在未来大约两年内，我们甚至能够在端侧设备上运行类似GPT-4水平的模型。”
在2024年，各大厂烧钱、拼技术、比价格的大模型的这场激烈竞赛中，如何通过差异化的打法，让端侧模型“比肩”云端模型，曾国洋给出了面壁智能的答卷。
以下是对面壁智能CTO曾国洋的访谈（为方便阅读，作者做了一些文本优化）。

01 端侧模型在终端任务上或将超越云端大模型

腾讯科技：从去年到今年，大语言模型的爆火和飞速发展让人惊叹。从文生图，到文生视频，再到多模态交互，这些技术就像是坐上了火箭飞速前进。去年我在采访一些专家时，他们曾多次表示“因为大模型的发展太迅速了，以致于无法对大语言模型趋势做判断”，您如何看待今年大语言模型的发展态势，呈现哪些特点？
曾国洋：今年的大模型和去年差不多，还是一如既往的非常的“卷”。具体来看，又有一些区别。去年可能主要是行业的比拼，更多的侧重在参数上，希望在“量”上取胜，而今年大家更多的去转向做高质量发展，包括我们将更强大的模型能力给压缩到更小的模型上，这成为今年的发展的主题。
腾讯科技：贵公司创始人李大海也经常提到，面壁主要追求效率提升。在压缩模型知识方面，面壁有哪些创新技术或方法？如何在确保高质量数据不丢失的前提下进行数据压缩？
曾国洋：其实也不能叫压缩模型。我们在模型训练上，内部做了非常多实验，我们将它称之为模型的“风洞”。在这个风洞里，我们通过用一些更小规模的模型，通过大量实验去发现出在大模型中还没有被挖掘出的，一些所谓的增量点，通过这样一种方法，我们实现了同等规模模型能用更好的方法去训练，达到更好的效果。
腾讯科技：面壁最新版本MiniCPM是一种多模态端侧模型。您认为端侧模型在发展多模态能力方面，与云端模型相比有哪些不同的方向？端侧模型在未来的某些具体任务上，是否有可能追平甚至超越云端模型？
曾国洋：多模态能力更适合在端侧进行，因为端侧更接近各种传感器设备。比如我们的手机自带摄像头和麦克风，因此具有天然的多模态输入能力。这种感知性的输入应该在离用户更近的端侧通过更短的链路来解决，而不是传到云端再反馈回来，这样效率更高。云端的大模型则需要解决更高级的逻辑和决策问题，处理更长链路的判断。
这两者的功能和侧重点不同，端侧模型在用户交互和即时反馈方面具有优势，而云端模型在复杂决策和高级逻辑处理上更强。
总的来说，端侧模型在具体任务上有可能追平甚至超越云端大模型，特别是在用户交互和即时反馈方面。而云端的大模型则在复杂决策和高级逻辑处理上具有优势。
腾讯科技：未来端侧模型和云端模型之间的应用场景会朝着不同方向发展吗？
曾国洋：端侧模型和云端模型对应的两个主要场景是“无处不在”和“无所不能”。“无处不在”指的是端侧模型在各个设备上运行，为用户提供随时随地的服务；“无所不能”指的是云端大模型能够解决所有复杂问题，带来最大的价值。
未来，端侧模型和云端模型将形成某种协同。一方面，端侧模型因为离用户更近，可以更好地理解和满足用户需求，并处理一些简单的任务。另一方面，复杂的任务则由云端模型来处理。这种模式类似于现在手机和云端应用的协同，应用程序在手机上运行，但大量的数据运算和信息处理在云端完成。
这种端云协同模式将成为未来的发展趋势，实现更高效、更全面的服务。
腾讯科技：面壁智能聚焦的端侧模型和精调模型方面，以 2B 的参数量，实现了超越 Mistral-7B，甚至越级Llama2-13B。市场对端侧模型的需求如何？端侧模型在未来的发展趋势是什么？

MiniCPM-2B的成绩都超过了Mistral-7B

曾国洋：端侧模型是大模型发展的必然趋势。基于过去四年的研究和观察，我们提出了面壁定律：大模型的知识密度平均每8个月翻一倍。换句话说，要达到同样知识量的模型，其规模平均每8个月会缩小一半。因此，未来大模型在边缘计算方面会越来越强，应用空间也会越来越大。知识密度，可以理解为单位模型参数或单位运算量所包含的模型能力的数量。我们可以用一个较好的方法来判断：当两个模型的能力相当时，如果一个模型的参数规模比另一个模型小，那么参数规模小的模型的知识密度更高。
例如，很多模型名称后面会带有类似“2B”、“13B”或“7B”的参数量标记。当两个模型在相同的评测集上表现出相同的性能时，如果它们的参数量不同，参数量较小的模型显然具有更高的知识密度。也就是说，如果模型的性能一样，而所使用的参数量更少，那么该模型的知识密度更高。
前段时间的苹果开发者大会上，苹果也推出了Apple Intelligence自有模型，表明市场对边缘计算模型有巨大的需求，并且得到了业界的广泛认可。这进一步证明了端侧模型的前景和重要性。
腾讯科技：苹果这次在端侧用上了 3B小模型，它的技术对面壁来讲有哪些启示？
曾国洋：从他们的技术报告中可以看出，他们更了解终端中的挑战，并且知道如何解决大模型在端侧运行所需的技术问题。这些方面给了我们很大的启示。因此我们最近也在深入学习苹果在这些领域的工作。不过，从技术角度来看，我们在模型训练方面比苹果更具优势，但苹果在硬件和终端领域有丰富的经验。
02 今年内在端侧实现GPT3.5，2年实现GPT-4级别

腾讯科技：OpenAI前员工Leopold Aschenbrenner的一篇报告曾引发广泛讨论。他认为人类将在2027年实现AGI，而且会在之后几年以几个数量级的水平提升能力。从您自己在工作中的观察看，这能实现吗？
曾国洋：大模型的发展速度超出预期。比如在2023年初，GPT-3.5刚推出时，人们还在猜测它是否会是一个千亿参数规模的模型，但现在它已成为一个常用的参考标准，很多模型都能与之媲美。
大模型技术的发展速度让我很难做出准确判断。也许明年大模型就能应用于机器人，实现与世界的交互，也许后年就能达到更多预期目标。这些都是有可能的，因此我很难给出确切的预测。
对于面壁来说，目前，在端侧模型上还有很多工作可以做。随着我们的沙盒实验越深入，发现的未知空间越大，这为模型的进一步高速成长提供了广阔的前景。从技术预判来看，我认为今年内我们就能在端侧实现类似GPT-3.5水平的模型。
在未来大约两年内，我们甚至能够在端侧设备上运行类似GPT-4水平的模型，这标志着端侧模型的快速发展。然而，要真正达到AGI的级别，还需要克服一些重要的挑战。比如，目前很多模型仍局限于文本模态，而真正的AGI级别模型需要能够与世界互动，并从中学习新知识。我们正在努力攻克这些难题。
腾讯科技：您可以详细介绍一下吗，目前面壁主要在突破哪些方向？
曾国洋：目前，我们正在多个方向上取得突破，但大模型与人类在许多机制上仍存在差距。当前大模型的记忆机制与人类完全不同。大模型通过像注意力机制来处理长时间记忆，而人类的记忆方式并非如此。这种机制差异使得大模型很难像人类一样，通过重复某件事变得越来越熟练。
例如，人类在一个城市呆久了，会记住城市的空间布局，更容易找到两个地点之间的最短路径，不易迷路，而这些都是当前大模型难以实现的。此外，目前的大模型虽然有了多模态输入如图像，但相比人类仍然缺乏多种感官输入和潜在的输出能力，这也是我们需要改进的方向。
在落地方面，我们也做了许多探索。端侧有很多可以落地的空间，比如常见的手机、车载系统、PC等。我们也在与相关业界厂商积极沟通。此外，还有许多IoT设备，这些设备都可以运行端侧模型。端侧模型与传统的小规模专业模型不同，它更擅长处理与用户的交互问题，解决更贴近人类需求的任务。这些探索和合作将帮助我们在端侧模型的应用上取得更大进展。腾讯科技：您刚提到2年内实现GPT-4，但两年的时间GPT可能会进化到GPT-5甚至GPT-6的水平，我们还有机会追赶甚至超越OpenAI吗？曾国洋：面壁智能在基础研究特别是高效大模型方面，有清晰的路线。不过，要全面对标OpenAI并追赶其最新或最强的世界级模型，并不是所有公司都能采取的策略。盲目追求算力和规模，而没有建立起模型底层的预测能力，对许多公司来说并非良策。
OpenAI有先发优势，拥有大量资源和算力基础，以及前沿的研究储备。但对于面壁智能来说，当前阶段的策略是通过小参数量模型达到高性能，再利用这些技术洞察和实验结果，进一步扩展到更大规模的模型。
面壁智能在研发过程中，先自然地从GPT-3.5过渡到GPT-4，但在这一节点上，转变为在扩展参数量前，要确保性能和效率的对齐。深入挖掘底层技术，使得模型的开发真正有意义。
腾讯科技：之前在讨论端侧模型能力时经常会涉及到一些关于数据污染，过度拟合的问题。前一阵也有人实验重做了 Math 测试集后，所有模型的得分都有所下滑。端侧模型下滑最为明显。您觉得现在这些评分体系有什么缺陷，怎么才能更客观的展示模型的能力？
曾国洋：统一评分标准并不理想，因为大模型的发展需要百花齐放，而不是千篇一律。如果大家都按照同一个标准进行优化，最终的结果可能趋于一致，这不利于大模型的整体发展。
从评测角度来看，最好的方法是根据具体实际需求进行评估。模型在实际应用中的表现和用户体验才是最重要的。用户用自己的感受来投票，才是对大模型能力最准确的判断。这种方式能够更全面地反映模型在不同场景下的实际效果，而不仅仅是依赖于统一的评分体系。
不过，评测本身确实很难。比如使用新的数据集后，大家的得分普遍下降，这可能是因为数据集更难。此外，端侧模型由于规模较小，在模型分化能力上相较于更大规模的模型有天然的劣势。
但是，具体使用场景很重要。我们在和机器交互时，比如与冰箱交互时，不会指望冰箱上的AI帮你解数学微积分题。不同的应用场景对模型的要求不同，因此评测标准也应该根据实际使用场景进行调整，这样才能更客观地展示模型的能力。
腾讯科技：您认为当前现在计算的资源是否能够去支持面壁在 AGI方向上的一个运行和训练，如何去优化资源去满足现在的训练需求？
曾国洋：在优化资源方面，比如我们做模型沙盒，其实本身就是一种优化资源的体现，我们能够在小规模模型上通过做足够多的实验，然后能够得到能在大规模模型上能够应用到一些结论，同时在迁移过程中，我们也发现了很多有意思的一些现象，这些其实都是我们在这方面的一些体现，但是从做大模型来说其实算力永远是不够的，因为大模型它就像一个圈，当你越往外扩展，发现未知的空间越大。
腾讯科技：数据也是一个经常被讨论的瓶颈。因为面壁和知乎有着数据方面的合作，对优质数据的理解也应该比较深入。您如何看待数据对模型能力的影响的？现阶段数据瓶颈存在吗？
曾国洋：从我们的实践来看，数据对模型的影响非常大。一个简单的例子是Llama模型的演变，第一代、第二代和第三代的模型规模几乎没有变化，主要改进来自于数据的提升，效果增量也是源于数据的改进。通过对大模型的不断实验，我们加深了对数据重要性的认识。数据并不像课本那样直观，有时候会有一些反直觉的现象。当然，数据的细节非常复杂，不便在此展开。但总体来说，行业内有一个共识：数据是推动当前模型效果提升的最关键因素。
03 端侧大模型落地PC更快

腾讯科技：从去年爆发到今年，国内的大模型遍地开花，您觉得有没有一些比较创新方面的技术，对整个行业是贡献意义的，以及您认为会呈现怎样的发展趋势？
曾国洋：国内在大模型方面比国外更开放，大家更愿意分享和交流技术。虽然有人吐槽国内缺乏创新，但从行业内来看，国内有很多创新技术，并且受到业界的广泛认可。举个例子，目前大家广泛使用的Rope就是由国内团队研发的。我们自己在推出MiniCPM时研发的WSD（Warmup-Stable-Decay调度器）技术，也在国际上得到了认可。这些都是国内创新的有力体现。
展望未来，我们的模型也在不断扩展处理多模态能力的边界。从最初的文本模型，到现在花更多时间开发多模态模型，这是一个大的趋势。随着更多模态的加入，我们将迎来真正的智能巨人。
去年，大家主要关注的是纯文本的大模型，而今年更多关注大模型的应用，已经出现了许多能够理解图像、视频和音频的大模型，这表明了技术发展的趋势。
应用过程中我们发现，加入更多模态后，大模型能够支持更多样化的数据输入，其应用范围也会更广。对于端侧设备，多模态能力尤为重要。当前的端侧设备，如手机，能够接收多种模态的输入信息。例如，手机有话筒可以接收音频输入，有摄像头可以接收视频输入，这些需求在端侧设备上更为旺盛。
腾讯科技：前段时间，斯坦福大学 AI 团队疑似抄袭贵司的消息引发业内高度关注。面壁智能如何看待 Llama3-V 项目作者删除质疑和道歉的事件？之后贵公司决定将面壁「小钢炮」 MiniCPM 免费商用。这种行为对开源社区的影响是什么？面壁智能希望通过 MiniCPM 的免费商用在社区中达到什么样的效果？您希望吸引哪些类型的用户和开发者参与到这一生态系统中？
曾国洋：我们从很早就开始投入开源社区，我个人也非常喜欢开源文化。国内大模型的繁荣，很大程度上也是源于开源社区。好的技术应当公开，以推动整个人类进步，而不仅仅是推动公司的发展。
从开源角度来说，我们非常乐意看到大家基于我们的模型进行具体应用和微调，并将优化后的模型再贡献给开源社区，这种行为是我们非常提倡的。
然而，抄袭事件确实出乎我们的意料。当时他们的模型非常火，但我们发现他们的模型几乎没有做任何形式上的微调，只是简单地加了一些噪声，直接放出，甚至很多特性都是直接拿过来的。这对我们来说是一个很大的触动，同时也反映了国内在大模型方面的贡献被低估的情况。
国内有很多优秀的工作在国际上并没有受到足够的关注，直到这个事件后，才在推特等平台上引起了一些反思，开始认识到很多好的工作被忽略了。
我们平时会广泛关注各类平台上的反馈。例如，在GitHub上，我们的模型经常收到很多提问和建议。对于一个模型来说，犯错误是难免的，我们也会密切关注模型在哪些地方出错，同时也会收到很多需求，了解大家希望用模型来做什么。这些都是来自社区的宝贵反馈，对我们的改进非常有帮助。
腾讯科技：您希望通过这次的开源，能够达到一个什么样的效果？
曾国洋：我们做开源是希望让更多人享受到大模型技术发展的红利，让大家有模型可以用，从而更好地推动大模型在应用方面的落地。如果所有模型都收费，推广大模型的应用会更困难。
我们非常希望继续推动国内在大模型方向的开源发展，希望有更多优秀的模型和工作能够公开出来，分享我们的做法，让大家体验到更好的大模型。这不仅能推动技术进步，也能促进整个科学领域的发展。
腾讯科技：对于开源和闭源，面壁有哪些些策略？前段时间针对开源和闭源的争论一直存在，包括周鸿祎和李彦宏等科技大佬也存在不同的意见分歧。面壁现在的态度是什么？
曾国洋：从团队角度来看，我们比较开放，真正影响开源和闭源的因素主要是商业化的考量。从我们的开源工作来看，并没有对实际商业化造成太大影响。
我们认为未来大模型的应用会非常多样化，而现阶段大家开源的模型主要是偏向于聊天类模型，这对我们未来真正商业化的方向影响不大。我们将继续在开源和商业化之间寻找平衡，以推动技术进步和应用落地，同时确保公司的商业利益和创新能力。
腾讯科技：面壁智能对自己在行业中的定位是什么，可以透露一下未来技术方向战略规划吗？
曾国洋：我们目前全力推动端侧模型的发展。端侧模型未来有很大的落地空间，苹果的动向也表明这是一个大趋势。
短期内，端侧模型在PC上落地可能会更快一些，因为PC的环境相对手机更简单。未来在手机和车载系统上的应用也非常有潜力，但其实现难度较高。这些平台都是非常不错的选择，我们会继续探索和优化。我们希望端侧模型能在各种设备上运行，并且未来能够利用端侧模型的能力实现真正的智能。
从技术上来说，我们的规划非常明确。首先，我们将继续遵循大模型的摩尔定律，研发更强大的下一代模型。同时，端侧设备离用户更近，具有更多模态输入的优势。我们会持续为模型添加更多模态输入，提升个性化能力，使模型更好地理解和服务用户，让机器真正理解人类。
目前，在大模型约束方面处于探索的早期阶段。之前我们进行了一些相关实验，例如在虚拟环境中进行协作实验。在《我的世界》游戏中，我们给AI设置了目标，让它们互相协作完成任务。
在这个过程中，我们发现AI容易形成两种协作模式。一种是相互协同，另一种是抢夺模式，比如当需要某种资源时，AI会从其他AI那里抢夺，这种现象是客观存在的，因此我们会持续关注这一问题。

上一篇：承诺“升红旗，赠红旗”，一汽红旗以“荣耀”敬赠巴黎奥运会中国健儿
下一篇：雷军官宣明天发布会新品：K70全新跨界杰作

中国微信 · 发表于 2024-7-19 08:03:24

确实，终端测无论是计算速度还是反应速度应该都没问题，比云端有优势

欲览众山观日月 · 发表于 2024-7-19 08:08:34

很赞赏面壁智能对端侧模型的投入和探索，希望他们能克服当前面临的挑战

虫害界的职业杀手 · 发表于 2024-7-19 08:09:12

国内大模型行业的开放交流和创新值得肯定，关键是要在商业化和开源之间找到理想的平衡。

嫣涟漪 · 发表于 2024-7-19 08:19:55

当前的大模型行业，竞争十分激烈。

中级会员	积分	兔币	帖子
中级会员, 积分 472, 距离下一级还需 28 积分	472	264	208
在线时间：0 小时	最后登录：2024-9-1

中级会员	积分	兔币	帖子
中级会员, 积分 426, 距离下一级还需 74 积分	426	238	188
在线时间：0 小时	最后登录：2024-9-1

中级会员	积分	兔币	帖子
中级会员, 积分 354, 距离下一级还需 146 积分	354	221	187
在线时间：0 小时	最后登录：2024-8-28

高级会员	积分	兔币	帖子
高级会员, 积分 532, 距离下一级还需 468 积分	532	296	236
在线时间：0 小时	最后登录：2024-8-25

高级会员	积分	兔币	帖子
高级会员, 积分 532, 距离下一级还需 468 积分	532	291	241
在线时间：0 小时	最后登录：2024-9-2

[科技] 面壁智能CTO曾国洋：端侧模型在终端任务上或将超越云端大模型

精彩评论4

毛主席稿费到底有多少？2008年，管家吴连登

透视科创板高端装备制造板块半年报：36家企

《前途无量》：好演技和烂演技的差别在哪？

科学家发现清除p21高表达细胞能延寿，将老

2024年上半年江西A股上市公司脸谱：江西铜

KPOP“抢担”风气越演越烈，是谁之过？

央行8月“买短卖长”净买入国债面值1000亿

日本自民党新总裁之争：民调前三名浮出水面

突发！辛巴公开炮轰小杨哥，直言：商业模式

叙利亚称3名极端组织“伊斯兰国”囚犯在转

比亚迪海豹06GT预售15万起，零百4.9s的纯电

40分+33分+34分！愈战愈勇，超级状元创纪录

三战三捷！中国军团三人晋级美网32强

大疆新款Neo无人机仅重135克配备1/2英寸传

黄潇、井胧化险为夷，王一哲、熊梓淇被淘汰

李连杰确定出演《镖人》，吴京有望成为中国

奢侈品受贿、天价整容、履历造假……韩剧都

哈里斯采访大翻车，民主党“梦幻组合”梦碎

同样写“装逼打脸”，金庸为什么不一样？

大跳水! 一夜之间拼多多跌近29%, 发生了什

悟空出世爆火，深圳老板入账15个亿

山水星河，浪漫流连！总台喊你过七夕啦

与操盘手深聊4小时，我们找到2024下半年经

这种正在收割小学生的新项目，一张卡就能卖

大S恋爱脑上头，消费汪小菲给具俊晔赚流量

新机：Mate70全系列亮相；红米K80 Pro长这

“ 到公司第一件事就是…”小米王腾晒游戏

iOS18新测试版推送达1.2GB ，新功能不多，

新能源车渗透率已达到51%：油车市场，接下

一碗面，一把小葱，教你做香酥葱油饼，咬一

财神驾到

一抹伤

哇哇的哭

绿林道的

willlin