国产大模型重磅更新：你可以随时给AI打个“视频电话”

李伟伟 · 发表于 2024-8-30 06:30:00

腾讯科技作者郭晓静、郝博阳
编辑郑可君
不知你幻想中最完美的AI助手什么样子，但我曾对Siri动过心思。
当我有如下疑问：“这是什么”、“中午吃什么”、“为什么我昨天已经上过班了，今天还要上班”等问题时，我只需“嘿，Siri！”就可以有一个完美答案。
显然，“对话”是人类沟通和表达的基本方式之一。但当我想给这位AI助理展示我正看见的图片/场景，并继续进行提问时，它就没这么顺畅了。
实际操作是：我得放下手机，给它发送图片/视频，然后再继续进行对话。
智谱则想让这样的体验变得更加流畅。智谱AI的C端产品智谱清言即将在8月30日上线一个重磅新功能——视频语音通话，使用起来就像正在给你的好朋友，一直保持着“视频通话模式”，当你想提问或者聊天时，它便会出现。
它和我幻想的“完美Siri”的不同点是：
1、它会一直在后台保持工作，它无需唤醒词；
2、它有“眼睛”，知道你在关注着什么，以及想针对哪个物体进行沟通。
这还仅仅只是最初的Demo版本，让我们一起体验下它是如何工作的：
我们使用了两台不同型号的安卓手机（这使得测试画面的尺寸会有所差异），上面均安装了清言App测试包，并打开屏幕录制功能和外放的语音指令。我们将这位AI助手称之为“小智”。
AI视频通话初体验，“Her”来了

1、能够识别真实世界，承接“十万个为什么”
先来个简单的，拿出我每天用的杯子给它看看，“小智”看出了颜色，虽然星巴克的LOGO是暗纹，并不明显，它还是认出了杯子是星巴克的产品。

我在办公室溜达，随手拍了植物让“小智”识别，它告诉我这是发财树，而且准确地说出了发财树耐旱的习性，一周浇水一次就够了。

同事在欣赏孩子在幼儿园画的图画，“小智”准确地分辨出了这是只蝴蝶，这只蝴蝶的颜色是橙色。这个时候，我又增加了一点难度，让它用英文说一下“蝴蝶”，并继续说一句完整的英文，它都完美完成任务。
最后我让它分辨这只蝴蝶的品种，它竟然会“拒绝我”——它没有胡编一个它认为正确的答案或者近似答案，而是直接告诉我它无法判断，这很不错。

2、生活小助手：能看出你的心情，也能告诉你菜怎么做
午饭时间，打工人想起了一道菜，让“小智”猜猜看。它能看出这是糖醋里脊，并告诉我糖醋里脊这道菜应该怎么做。

“小智”效果测试：糖醋里脊怎么做

“小智”可以根据面部表情看出来这位打工人心情如何，并能识别出桌子上有零食和可乐瓶，但是有一点小遗憾，当表情变化的时候，它无法及时给出反馈。

“小智”测试识别情绪

3、工作助手：解决知识卡点，但是对复杂图表的识别有点小翻车
我在屏幕中放出一篇全英文论文，“小智”准确地识别出了这篇文章的作者，并总结了摘要中的信息。

“小智”识别论文摘要

接着，我拿出了英伟达财报中的一张图表，“小智”准确地说出了这是英伟达的财务报告，而且准确说出了图表左侧的业务组成部分。
但是到了更复杂的程度它就有点小翻车，而且给挖了个坑——它竟开始主动向我提问，你知道哪部分增长最快吗？我反问回去，然而它给的答案是错误的，它表示游戏业务增长最快，增加了19%，图表中其实是9%。当然，也不排除是因为数字太小，它误读了屏幕的内容。

“小智”解读英伟达财报

图注：让“小智”解读的英伟达财报图表

在测试中，我们也发现了一些小Bug，比如，对于相似的字符，比如“8”和“b”，它有时会分不清。
两个物体在一起靠太近得时候，可能会误判其中一个物体；对数字的感知还是比较模糊，当我问道“帮我把现在的做菜的配料增加两倍，够两个人吃，应该是多少”这个问题，它没有给出具体答案。
但是，它能够比较准确地识别它能看到的图表、字、以及不是很清晰的logo等，并且不需要唤醒词，能够实时打断它说话，并开启新的话题。这些能力都需要一些相对先进的模型技术支持。
而在模型视觉识别方面，在今年五月智谱发布了CogVLM2，这是一个叠加在语言模型上的70 亿参数专用视觉专家模型。
比起一般的视觉模型，它采用了一个 50 亿参数的视觉编码器。凭借着这个优化的视觉编码器，CogVLM2 在多个基准测试中取得了 SOTA 性能，性能接近或超过了 GPT-4V，而在处理中文任务方面，CogVLM2 展现出了更强大的能力，能够更准确地理解中文文本和图像，并生成符合中文语境的答案。
在今年6月发布的GLM-4V-9B中，该模型采用与 CogVLM2 相同的数据和训练方法，因此也就延续了其强大的视觉识别能力。本次智谱更新的基座模型GLM-4V-Plus更是添加了视频识别的能力。做到对logo、图表等偏向文字OCR任务的把握，自然不成问题。
但遗憾的是目前，智谱AI没有公布具体的技术细节，当然，GPT-4o也没有。
但是，GPT-4o公布时，有一个页面把对模型的贡献者都列了出来，这些贡献者主要集中在三大领域：第一大部分是大语言基础模型；第二部分是多模态，包含语音、视觉，和实时反馈，其中实时反馈投入了很多人力；第三部分是平台和模型安全。
从这种人员配比来看，我们能够不全面地猜到，能够做到实时、端到端、多模态的交互效果就已是非常不容易的事。国产C端大模型会写、会听、会说、还会看，直接卷到了next level。
智谱AI向腾讯科技表示，“目前的体验还只是Beta版本，首批面向清言部分用户开放，同时开放外部申请。将会持续迭代并逐步放开规模，尽快让全员都可以使用。”
基座大模型更新，能力全面提升

虽然智谱AI在模型矩阵上一直对标OpenAI，但是，与OpenAI有所不同，OpenAI一贯没有把面向C端的产品和基础模型的名字区分来，可以说是模应同名。
而智谱AI面向C端的产品是智谱清言App，增加了“视频通话”功能之后，将成为国内首个可以通过文本、音频、视频和图像来进行多模态互动的 AI 助手。
基座大模型，则是单独命名、单独推出。在 KDD 国际数据挖掘与知识发现大会上，智谱 GLM 团队还介绍了新一代基座大模型系列GLM-4-Plus Family。以下是对它的详细介绍：
1、基座大模型GLM-4-Plus：长文本比肩全球先进模型
其中GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本，使用了大量模型辅助构造高质量合成数据以提升模型性能，还使用了利用近端策略优化（proximal policy optimization），从效果上可以有效提升模型推理（数学、代码算法题等）表现，更好反应人类偏好。GLM-4-Plus 已经在智谱大模型开放平台 bigmodel.cn 部署，开发者从现在开始就能通过 API 方式调用这一智谱最新基座大模型。

以下为GLM-4-Plus与全球领先模型的评分对比：

图注：语言文本能力方面，GLM-4-Plus和GPT4o及405B参数量的 Llama3.1 相当。

Language capabilities

LCB: LiveCodeBench

NCB: NaturalCodeBench

* represents reproduced results

图注：在长文本能力上，GLM-4-Plus 比肩国际先进水平。

2、多模态大模型GLM-4V-Plus提供国内首个通用视频理解模型 API
GLM-4V-Plus 能够理解并分析复杂的视频内容，它可以对视频的内容进行总结，根据视频的内容进行进一步的推理，还能去帮忙确定你想要的内容在哪个时间点。
比如下面这个视频，用GLM-4V-Plus进行对话，可以得到以下结果：

“小智”解读篮球比赛视频

问：这个穿绿色衣服的球员在整个视频都做了什么？
GLM-4V-Plus：在整个视频中，穿绿色衣服的球员在场上运球，然后跳起将球投入篮筐。
问：这个视频的精彩时刻是什么？发生在第几秒？
GLM-4V-Plus：这个视频的精彩时刻发生在第4秒，当时穿绿色衣服的球员跳起并将球投入篮筐。

图注：GLM-4V-Plus 能够理解并分析复杂的视频内容，同时具备时间感知能力。上线开放平台后，将提供国内首个通用视频理解模型 API。 Video analysis

图注：GLM-4V-Plus 在图像和视频理解能力方面位居前列。GLM-4V-Plus 还可以理解网页内容，并将其转换为 html 代码。 Vision capabilities

3、文生图模型的最新版本CogView-3-Plus，其效果接近目前最佳的MJ-V6及FLUX等模型

为了能够直观感受CogView-3-Plus的生成效果，下面我们贴出了一系列由此模型生成的图片以及对应的提示词：
一个优雅的女人的脸，遮阳帽投射在脸上的斑驳光影，背景是干净的蓝天，没有云彩，坦率的低角度广角镜头，去风格化，电影感，皮肤细节，Ilse Bing ，Alex Prager ，Tim Flach ，Andreas Gursky ，Stanislaw szukalski ， Moebiu

dark night,smoke,burning flowers,ghosts,surrealism,art photography,avant-garde,dreams,oblivion,double exposure,miracles,

立体羊毛毡作品，一个穿着蓝色连衣裙、戴着花环的卡通女孩形象，她站在一片开满各种颜色花朵的田野中，她的手中还拿着一朵白色的雏菊。

提示词：画一幅奇幻和神秘风格的摄影，画面整体呈现低饱和度。一个穿着蓝色长袍、戴着角盔的战士或魔法师，脸上布满皱纹和伤疤，头发凌乱而狂野，胸前挂着小骷髅头，腰间系着骨头皮带，佩戴金属饰品，身体周围缠绕着藤蔓状结构，背景模糊的云雾增添神秘感。鉴雷·梅兹奎斯（Ray Mezquita）的风格，85mm，哈苏 H2D

4、人人可用：文生视频模型CogVideoX-5B开源、GLM-4-Flash 免费
继CogVideoX 2B 版本开源后，CogvideoX 5B 版本也于最近正式开源，性能更强，推理显存需求最低仅为 11.4GB。同时CogVideoX-2B 的开源协议调整为更加开放的Apache 2.0协议，这意味着，任何企业与个人均可自由使用。
根据这段提示词生成的效果如下：比得兔（主体）开小汽车（主体描述），游走在马路上（环境描述），脸上的表情充满开心喜悦（氛围设定）

用AI生成的彼得兔开车

写在最后
深度体验之后，我们发现“小智”在实际使用过程中仍有个需要和人类好好学习的地方：
由于它无需唤醒，因此会一直在后台持续等待交流，它就像那个坐在一堆大人中间听着侃大山的孩子一样，还没有学会在合适的时机插话。但是，据说，它的成长速度会很快，智谱AI在不久之后就会发布新的迭代版本。
我们期待着，这个“孩子”慢慢长大、成熟……

上一篇：11.98万元起，小鹏MONA M03 正式上市
下一篇：李白的这首千古名作，开篇就令人赞叹，结尾更是动人心弦

中级会员	积分	兔币	帖子
中级会员, 积分 464, 距离下一级还需 36 积分	464	254	210
在线时间：0 小时	最后登录：2024-9-13

[科技] 国产大模型重磅更新：你可以随时给AI打个“视频电话”

关联主题

iPhone 16系列今天预售！买哪款？哪里买？

见证历史！大牛市，启动

太帅了！27岁樊振东亮相深圳：一身行头2598

龙芯显卡对标RTX2080！9A2000太强了

中国天文学家发现了打破规则的隐藏黑洞

0-0，世预赛又爆冷门，亚洲第4崩溃，2战0胜

四胞胎早产，父亲求救却被全网痛骂，这次我

美国的退休年龄是多少，退休待遇到底怎么样

与朱总说的如出一辙！周琦谈加盟北京致谢广

从“机海”到“高端”，国产手机大转向

刘强东主导下京东再次涨薪：零售集团和职能

别说飞度是丐中丐了！慷慨的本田，给飞度低

DNF手游：金秋光环，1000深渊票免费送，强

中国采取全球首例措施，宣布反制加拿大

中秋将至，月饼却卖不动了？商贩道出“销量

奥斯卡：离开上海会最怀念治安，中国的生活

《雪迷宫》结局：小马哥现身！姜迎紫竟是顾

历史上不能通婚的两对姓氏：一对有血海深仇

“断崖式衰老”发生在这两个岁数！Nature子

三一重工董监高“大撤退”：减持1亿砸出75

新机：Mate70全系列亮相；红米K80 Pro长这

悟空出世爆火，深圳老板入账15个亿

与操盘手深聊4小时，我们找到2024下半年经

刘强东主导下京东再次涨薪：零售集团和职能

“ 到公司第一件事就是…”小米王腾晒游戏

iOS18新测试版推送达1.2GB ，新功能不多，

奢侈品受贿、天价整容、履历造假……韩剧都

何小鹏：中国新能源车企组球队 10年内说不

星二代，被扎堆送出国

比亚迪海豹06GT预售15万起，零百4.9s的纯电

财神驾到

一抹伤

哇哇的哭

绿林道的

willlin