直击AMD TechDay：要挑战英伟达，也要做AI PC的王

莫宁 · 发表于 2024-7-15 21:00:00

腾讯科技作者郝博阳发自美国洛杉矶

编辑郭晓静

2024年7月9日至10日，AMD TechDay在美国洛杉矶举行。一如往年，这次会议主要对新发布产品进行深度解析和具体用例展示。本次TechDay重点介绍了6月2日由AMD CEO苏姿丰在Computex 2024上发布的最新旗舰CPU Zen 5 Ryzen 9 9950X和首款基于X86架构的APU Ryzen AI 300。值得注意的是，备受关注的下一代人工智能芯片MI325X几乎未被提及。

但这并不影响此次会议的重要性。因为它揭开了AMD在AI时代芯片布局的B面，让我们能够更深入地了解AMD在AI PC这一新兴领域的整体布局和战略思路。

AMD的第二战场——AI PC

在整个AMD Tech Day中，"AI"无疑是出现频率最高的关键词。大多数主题演讲都围绕AMD在AI方面的布局以及他们对AI PC市场的理解展开。

AMD的CVP和首席架构师Sebastien Nussbaum认为，AI将是继2000年代移动互联网之后最重要的科技浪潮。他预测这波AI发展将遵循从生成式AI到AI智能体，最终达到通用人工智能(AGI)的演进路径。

尽管我们仍处于这场变革的初期阶段，AI技术已经取得了相当程度的渗透。Nussbaum举例说明，目前已有74万个以上的模型，仅2023年就有超过155亿张AI图片被生成，全球AI工具使用者已达3.14亿。在AI能带来的诸多变革中，PC将首当其冲。与当前AI主要应用于创作和知识获取不同，未来AI在PC端将带来整体用户体验的革新性提升。

Ryzen AI 300系列就是他们在这方面迈出的第一步。此外，由于AMD业务覆盖服务器、云端和AI PC三个领域，它能够在这三者之间提供完全统一的数据格式及软件架构。今年晚些时候，AMD将推出构建在ROCm AI上的Unified ONNX EP的AI软件工具组，全面支持包括Zen 5（CPU）、RDNA 3.5（GPU）和XDNA 2（NPU）在内的所有架构。这也是AMD进一步挑战NVIDIA CUDA霸权地位的重要布局。

然而，考虑到目前端侧AI算力的限制，AMD采取了与高通、苹果类似的端云混合形式。AI PC主要负责小模型的高效快速产出和隐私保护，而云端则负责大模型的高性能产出。在复杂任务中，端侧主要提供直接快速的预览，最终交付由云端模型完成。AMD的优化重点在于使这种端云混合体验更加无缝，有效地将端侧模型的预览与云端模型的成品进行快速、顺畅的衔接。

与苹果类似，AMD也在构建一套云端安全系统，以防止隐私泄露和外部攻击。

从端侧AI的角度来看，目前主要芯片制造商（如高通、AMD、英特尔、苹果）的技术范式和路径基本趋同：追求更大的端侧算力，采用端云结合的模式。甚至在细节和理念上也没有太多差异。

不同之处在于，苹果掌握着消费端软件系统构建的权限，而AMD等公司则需要依赖其系统合作伙伴，特别是Windows Copilot，来充分利用它们提供的算力和基础软件架构，尽快找到更好的AI应用落地方式。

因此，在本次AMD TechDay上，微软成为被提及次数最多的合作伙伴。在硬件方面，AMD与微软在Ryzen AI的开发过程中有着五年以上的合作经验。在软件层面，AMD也在与微软合作提升Copilot的实现效果。

AMD如此强调AI PC，从其业务角度来看也不难理解。从AMD当前的收入构成来看，游戏业务和客户业务的占比超过50%。虽然在可预见的未来，服务器业务占比会有一定增长，但AMD在2024年对MI300的35亿美元销售预期仍不足以完全改变当前的收入结构。

在这其中，占比最大的游戏业务面临较大的下滑风险。长期与AMD深度合作的游戏机产业本年度销量低于预期，短期内难以看到恢复迹象。为了维持这部分收入占比，抓住从去年第四季度开始由AI PC热潮带来的PC销量反弹是最佳选择。因此，AMD必须深入布局AI PC这一赛道。

然而，这条赛道已经相当拥挤。X86阵营中有英特尔，Arm阵营中有高通。据传闻，英伟达也计划加入AI PC的竞争。其正在准备一款系统级芯片（SoC），将Arm的Cortex-X5核心设计与基于其最新推出的Blackwell架构的GPU相结合。

从这次AMD的产品更新来看，它成功抢占了这一市场的先机优势，尽管这一优势窗口期可能并不长。

Ryzen AI 300：面向未来的尝试

AMD在AI PC领域的最新尝试——Ryzen AI 300是本次Tech Day的绝对主角。

在所有主题演讲中被频繁提及的旗舰版本Ryzen AI 9 HX 370，拥有12核心24线程。其混合架构结合了四个Zen 5核心与八个Zen 5C核心。该芯片最高可加速至5.1 GHz，配备36 MB缓存（24 MB L3 + 12 MB L2），并集成Radeon 890M iGPU，具备16个计算单元（1024个核心）。此外，它还包含最新的32核心NPU。

它隶属于AMD专门为Strix Point架构家族。这一架构将CPU、GPU、NPU整合于同一芯片上，并将主要计算单元分布在左右两侧，以减少热量集中。

在这一架构上，CPU增加了50%的核心、50%的线程和50%的缓存。GPU的图形处理能力提升了33%。NPU则增加了60%的核心数及60%的内存。这使得整个芯片的面积比前一代增加了20%。这种设计有可能增加成本、影响产量。在会后的讨论环节中，AMD的硬件架构师表示，为了打造第一个适应AI时代的新旗舰APU，这是一个有价值的尝试。

这款APU最核心的更新在于采用XDNA 2架构的NPU。相较于传统负责AI算力的GPU单元，NPU虽然在峰值算力上不占优势，但它能更好地平衡算力和能耗。这使得笔记本电脑在保持长期后台运行AI能力的同时，能够维持较长的设备续航时间。AMD的架构师解释，这就是他们只在笔记本而非台式机上搭载NPU的原因：对于不太关注功耗的台式机来说，GPU能提供更强大的算力。

XDNA 2的整体布局与2014年的上一代相比变化不大，其性能提升主要来自于核心数量和内存模块的增加。其中，AI计算引擎模块——AI Tile的数量从20个增加到32个，内存模块——Mem Tile的数量从5个增加到8个。同时，每个Tile的计算密度（每秒MAC操作数）也提升了两倍，内存扩大了1.6倍，这使得其算力扩大了五倍，达到了50 TOPS（每秒万亿次操作）。

除了提速之外，新的NPU核心还支持时间和空间上的灵活分割，可以有效地将计算单元分配给不同的AI应用。

搭载Ryzen AI 300的笔记本电脑可以支持约7B参数的本地模型，例如AMD在此次展示中使用的微软Phi-3及Llama 3-7B模型。它能够处理2k长度的输入，首次输出延迟为1000ms，以及每秒最高20个token的输出速度。在前不久的WWDC24上，苹果公布，目前只有iPhone 15 Pro以上的手机才支持的Apple Neural Engine能运行3B大小的本地模型。Ryzen AI 300的算力也超过了微软提出的AI PC最低算力标准40 TOPS。

AMD在评测中宣称，其NPU的AI能力大大超越了当前市场上已有的移动处理器。

例如图中所示算力为38 TOPS的M4。但值得注意的是，尚未发布的高通Snapdragon X Elite（算力为45 TOPS）和英特尔Lunar Lake（算力为48 TOPS）在此图中的AI能力很可能被低估。

除了提升算力，AMD在TechDay上重点强调的一个AI方面的创新是对Block FP16数据格式的支持。目前，几乎所有的大语言模型都是基于FP32或FP16格式的数据进行训练的，这里FP后面的数值越大，就意味着其参数精度越高。但当这些语言模型需要在内存有限的PC上运行时，其数据格式需要被有效压缩。

传统上，这种压缩通常通过将FP16格式转化为INT8格式的数据来实现。但在这个过程中，压缩带来的数据精度损失较大，通常需要对模型进行二次微调，以尽可能恢复一定的精度。

在传统的FP16数据结构中，16位浮点数由1 位符号位、5 位指数宽度和11 位尾数精度组成。这其中很多参数的指数宽度及前几位尾数精度是共享的。因此AMD提出的Block FP16技术通过对参数进行分组，将一组数据共享相同的8个浮点数用单独一个共享数据表示，其他数据只包含符号位和其他尾数精度组成，从而使得数据的实际位数降低到9位，同时几乎不损失任何精度。这意味着在AMD芯片上运行大语言模型时，可以无需进行二次微调，直接将现有模型转换为Block FP16格式即可运行。

AMD的架构师在交流环节中承认，这种数据格式的创新可能会很快普及。它实际源自包括AMD和NVIDIA在内多家公司共同支持的一个开源研究项目。

除了AI能力之外，由于Ryzen AI 300系列在CPU和GPU方面的全面升级，其游戏性能也得到了显著提升。根据AMD提供的数据，相较于主要竞品英特尔Core Ultra 9和高通骁龙X Elite，AMD Ryzen AI 300在游戏性能上能提供27%-65%的提升。值得注意的是，其中部分游戏不支持Arm架构。

现场AMD演示了内置890M显卡的Ryzen AI 300能够以1080p分辨率、60帧每秒的速度运行主流3A大作《对马岛之魂》。对于不追求极致画面效果的玩家来说，这一显示水平足以满足日常游戏需求，无需再单独购买昂贵的独立显卡。

同时，在AMD展示的评测中，Ryzen AI 300在工作效率和专业生产应用方面也较竞争对手表现出一定优势。

对比，AMD资深架构师在Tech Day上表示："消费者不太可能为不同用途购买多台PC。无论是用于游戏、工作还是专业应用，用户通常只有一台PC。我认为Strix Point架构的出色之处在于，它能同时满足游戏玩家、工作人群和专业用户的需求，真正利用这些技术来提供全面的用户体验。"

从AMD提供的数据来看，在英特尔Lunar Lake和高通骁龙X Elite于今年下半年上市之前，AMD的Ryzen AI 300确实有望在一段时间内成为性能最强劲的笔记本芯片。但关键是，从7月底相关产品开始发售的这几个月里的领先优势，能否为AMD带来真正的先发优势和可观的销售转化。

Zen 5 Ryzen 9000系列：暂时的王者

在推出创新的APU的同时，AMD最新主力CPU Zen 5 Ryzen 9000系列芯片也借助架构更新在性能上取得了显著进步。

Zen 5 Ryzen 9000系列涵盖了从 6 核 12 线程的 Ryzen 5 9600X 到 16 核 32 线程的 Ryzen 9 9950X，核心数量与前代相同，但多数型号的 TDP（热设计功耗）降低了 30%至 40%，同时由于采用了全新的 Zen 5 架构和台积电 4nm 工艺节点，性能仍较上一代有所提升。这些新 Zen 5 芯片将适配 AM5 插槽，AMD 宣布将持续支持至 2027 年以后，并发布了新的 X870/X870E 芯片组，增强了 USB 4.0 连接性，并将 PCIe 5.0 支持扩展至两款芯片组。

以AMD Ryzen 9 9900X为例，根据AMD提供的数据，其工作生产力相较于英特尔i9-14900K的提升幅度达到2%-41%，游戏性能提升达到4%-22%。特别值得注意的是，AMD的芯片在支持AVX-512功能的应用程序（如Handbrake）上性能提升更为显著。

在实现性能提升的同时，AMD还成功控制了功耗。12核以下的9000系列芯片相较于7000系列功耗降低了约30%，但性能却平均提升了15%。在功耗降低的情况下，AMD 9000系列的超频能力也得到了较大提升。

Ryzen 9000系列在AI方面也进行了明显的优化。与英特尔i9系列相比，用户在AMD平台上无需在全PCIe Gen5带宽运行多个GPU或更多PCIe Gen5存储设备带宽之间做出选择。在基于AM5的Ryzen 9000系列上，多个PCIe插槽和主板上的NVMe存储设备都能以全带宽运行。在运行Llama和Mistral等模型时，AMD的9000系列在每秒生成的token数量上比14900K提高了17%到20%。

Ryzen 9000系列性能的提升主要源于全新的Zen 5架构。AMD首席架构师Mark Papermaster在TechDay上详细解读了Zen 5架构的提升。Zen 5的卓越表现源于多方面的创新：

1. 执行引擎显著扩展，采用了8宽度的调度和退休机制，配备6个ALU和3个乘法器，大大增强了并行处理能力。

2. 前端设计经过精心优化，引入了双解码管道和更先进的分支预测器，有效降低了指令获取的延迟，提高了整体吞吐量。

3. 内存子系统获得了实质性提升，缓存数据带宽翻倍，48KB的12路L1数据缓存配合4周期加载时间，极大地加快了数据处理速度。

这些创新使Ryzen 9000系列成功将平均IPC（每时钟周期指令数）提升了16%，在某些特定工作负载中甚至实现了高达35%的性能增长。

在SIMD（单指令多数据）能力方面，Zen 5全面支持AVX-512指令集，512位数据路径为向量运算和AI工作负载带来了显著加速。特别值得一提的是，在机器学习任务中，Zen 5实现了高达32%的单核性能提升，而在AES-XTS加密速度上更是提高了35%，充分展现了其在特定领域的卓越表现。

Zen 5构建在最新的AM5平台上，因此增加了PCIe 5.0通道数量，并为未来引入PCIe 6.0支持做好了准备，进一步提升了I/O性能。内存方面，Zen 5的基础内存支持提升至DDR5-5600，为系统整体性能带来了提升。

近期从Videocardz流出的实机测试结果也印证了Zen 5架构带来的性能提升。Ryzen 9000系列在单核及轻线程性能上优势非常显著，全面超越了i9-14900K系列。虽然在多核得分上，Core i9-14900K仍然能够超越Ryzen 9 9950X，但总体来看，Ryzen 9000系列目前是综合性能最强的CPU。

7月初，AnandTech论坛成员Igor_Kavinski发布了一份来自匿名源的Ryzen 9 9950X工程样品在Blender基准测试中的结果，也得出了类似的结论。在相同功耗下，Ryzen 9 9950X的性能比前一代提升了20%。而在120W功耗（全功耗230W）下，其性能就超越了i9-14900K。

当然，这些发售前的测试结果都需要谨慎对待。但假设Zen 5 Ryzen 9000系列的性能确实能达到这个水平，至少在未来几个月内，AMD很可能能保持最快处理器的地位。而英特尔预计要到今年晚些时候才会发布其下一代Arrow Lake-S桌面CPU。

真正的AI PC，离我们还有多远？

参加完整场AMD TechDay，特别是实际测试和展示环节后，AI PC的概念似乎更加具体了，但它的实际应用仍然存在许多不确定性。

从概念上看，所有厂商对AI PC的理解正在趋同：通过算力提升，尽可能地增强端侧AI的能力，在端云结合的前提下尽可能保证数据安全，优化两者的衔接体验。同时构建更好的开发工具，让模型能够更高效地在硬件中部署、运行。此外，还要紧密结合操作系统的能力，让AI能够带来生产力和交互体验上的革新。

然而，在实际应用中，即使是号称拥有最强笔记本算力的Ryzen AI 300，其在端侧能够实现的功能仍然相当有限。例如，在软件能力展示中，AMD只能使用上一代的文生图模型Stable Diffusion XL，而最新的Stable Diffusion 3模型虽然也能运行，但由于其计算步骤较多，速度会非常慢。50 TOPS的算力在运行Stable Diffusion XL这个相对较小的模型时就要占用50%。这不禁让人质疑，当下的AI PC在端侧究竟能真正支持什么样的AI应用。当然，在交流会上，AMD的AI架构师表示通过后续的软件适配优化，应该可以实现1-2倍的速度提升。但这仍然很难让我们相信它能在短期内支撑起如苹果或微软愿景中的AI全接入系统。

另一个尴尬的现实是：Ryzen AI重点宣传的NPU，能够支持使用它的工具目前还很少。在现场演示中，像DaVinci Resolve之类的效率工具在运行AI相关功能时仍然主要调用GPU的能力，NPU的算力基本处于闲置状态。甚至在AMD展示运行本地模型时所使用的ML Studio也无法调用NPU算力。对此，AMD的架构师表示，这只能期待后续软件根据市场情况开发其NPU利用能力。我们可以预期，随着英特尔、高通等厂商在今年内逐渐将NPU作为标配放入其芯片，软件系统的支持将会逐步跟上。但这需要时间。也许在这一代芯片上，NPU很可能会出现"存在大于意义"的情况，即有算力但缺乏应用。

最后，由于各个语言模型的数据格式不同，整体涉及的调用逻辑也不相同，因此目前还无法建立对AI硬件能力的有效评测系统。当前，硬件厂商证明自身AI能力的方式主要是比拼算力。但有时候纸面数据并不能完全代表实际应用中的优劣。

所有这些因素也许都意味着，与一年前相比，AI PC已经不仅仅是一个简单的Copilot按钮调起的应用了，但同时它距离能够深度集成AI的PC可能还有一段距离。未来的发展仍然充满了机遇和挑战。

上一篇：芯驰科技落户北京，估值140亿
下一篇：上市房企，不玩房地产了……

中级会员	积分	兔币	帖子
中级会员, 积分 429, 距离下一级还需 71 积分	429	282	223
在线时间：0 小时	最后登录：2024-8-18

[科技] 直击AMD TechDay：要挑战英伟达，也要做AI PC的王

关联主题

湖人交易詹姆斯被里奇保罗叫停！亚布塞莱重

天体物理学家可能已经找到了神秘“Wow”信

国宝《坤舆万国全图》，看看明朝人眼中的世

油车，凉凉了？

敏感时刻，中越国防部长会面，董军防长把话

世界第一辛纳两次药检阳性：正式发声回应+

基民指责纷纷！三年持有期基金集中到期，动

苹果首次在印度量产Pro系列多元化供应链降

教育部公布第二批“国优计划”试点高校名单

“又双叒叕”创新高！黄金价格突破2525美元

新机：Mate70全系列亮相；红米K80 Pro长这

“ 到公司第一件事就是…”小米王腾晒游戏

乌军越境俄罗斯激战持续一周：沉默中行动，

小鹏汽车官宣！完成收购

吕德华不把超管放眼里，直播抽烟态度嚣张，

《中餐厅8》为话题不择手段，林述巍被锁冷

外媒曝iPhone 16系列将有6大升级网友：还

川普摊牌，若赢下大选，第一件事就是与普京

成就非凡：家长该如何放手，让孩子书写自己

《如鸢》预约人数破400万女性向游戏大年，

《花少好友记》刚播完，《花少6》就开录，

欣慰！已故羽球新星张志杰将获中国体育运动

这款主打氪金模拟的《中国式网游》，把所有

大S恋爱脑上头，消费汪小菲给具俊晔赚流量

新机：Mate70全系列亮相；红米K80 Pro长这

“ 到公司第一件事就是…”小米王腾晒游戏

新能源车渗透率已达到51%：油车市场，接下

山水星河，浪漫流连！总台喊你过七夕啦

一碗面，一把小葱，教你做香酥葱油饼，咬一

英伟达回应AI芯片短缺：Blackwell样品广泛

财神驾到

一抹伤

哇哇的哭

绿林道的

willlin