设为首页|收藏本站|
开启左侧

[科技] 国产大模型重磅更新:你可以随时给AI打个“视频电话”

[复制链接]
63879 0
李伟伟 发表于 2024-8-30 06:30:00 | 只看该作者 打印 上一主题 下一主题
 
国产大模型重磅更新:你可以随时给AI打个“视频电话” 第1张图片


腾讯科技作者 郭晓静、郝博阳
编辑 郑可君
不知你幻想中最完美的AI助手什么样子,但我曾对Siri动过心思。
当我有如下疑问:“这是什么”、“中午吃什么”、“为什么我昨天已经上过班了,今天还要上班”等问题时,我只需“嘿,Siri!”就可以有一个完美答案。
显然,“对话”是人类沟通和表达的基本方式之一。但当我想给这位AI助理展示我正看见的图片/场景,并继续进行提问时,它就没这么顺畅了。
实际操作是:我得放下手机,给它发送图片/视频,然后再继续进行对话。
智谱则想让这样的体验变得更加流畅。智谱AI的C端产品智谱清言即将在8月30日上线一个重磅新功能——视频语音通话,使用起来就像正在给你的好朋友,一直保持着“视频通话模式”,当你想提问或者聊天时,它便会出现。
它和我幻想的“完美Siri”的不同点是:
1、 它会一直在后台保持工作,它无需唤醒词;
2、 它有“眼睛”,知道你在关注着什么,以及想针对哪个物体进行沟通。
这还仅仅只是最初的Demo版本,让我们一起体验下它是如何工作的:
我们使用了两台不同型号的安卓手机(这使得测试画面的尺寸会有所差异),上面均安装了清言App测试包,并打开屏幕录制功能和外放的语音指令。我们将这位AI助手称之为“小智”。
AI视频通话初体验,“Her”来了

1、能够识别真实世界,承接“十万个为什么”
先来个简单的,拿出我每天用的杯子给它看看,“小智”看出了颜色,虽然星巴克的LOGO是暗纹,并不明显,它还是认出了杯子是星巴克的产品。


我在办公室溜达,随手拍了植物让“小智”识别,它告诉我这是发财树,而且准确地说出了发财树耐旱的习性,一周浇水一次就够了。


同事在欣赏孩子在幼儿园画的图画,“小智”准确地分辨出了这是只蝴蝶,这只蝴蝶的颜色是橙色。这个时候,我又增加了一点难度,让它用英文说一下“蝴蝶”,并继续说一句完整的英文,它都完美完成任务。
最后我让它分辨这只蝴蝶的品种,它竟然会“拒绝我”——它没有胡编一个它认为正确的答案或者近似答案,而是直接告诉我它无法判断,这很不错。

2、 生活小助手:能看出你的心情,也能告诉你菜怎么做
午饭时间,打工人想起了一道菜,让“小智”猜猜看。它能看出这是糖醋里脊,并告诉我糖醋里脊这道菜应该怎么做。
“小智”效果测试:糖醋里脊怎么做

“小智”可以根据面部表情看出来这位打工人心情如何,并能识别出桌子上有零食和可乐瓶,但是有一点小遗憾,当表情变化的时候,它无法及时给出反馈。
“小智”测试识别情绪

3、 工作助手:解决知识卡点,但是对复杂图表的识别有点小翻车
我在屏幕中放出一篇全英文论文,“小智”准确地识别出了这篇文章的作者,并总结了摘要中的信息。
“小智”识别论文摘要

接着,我拿出了英伟达财报中的一张图表,“小智”准确地说出了这是英伟达的财务报告,而且准确说出了图表左侧的业务组成部分。
但是到了更复杂的程度它就有点小翻车,而且给挖了个坑——它竟开始主动向我提问,你知道哪部分增长最快吗?我反问回去,然而它给的答案是错误的,它表示游戏业务增长最快,增加了19%,图表中其实是9%。当然,也不排除是因为数字太小,它误读了屏幕的内容。
“小智”解读英伟达财报

国产大模型重磅更新:你可以随时给AI打个“视频电话” 第2张图片

图注:让“小智”解读的英伟达财报图表

在测试中,我们也发现了一些小Bug,比如,对于相似的字符,比如“8”和“b”,它有时会分不清。
两个物体在一起靠太近得时候,可能会误判其中一个物体;对数字的感知还是比较模糊,当我问道“帮我把现在的做菜的配料增加两倍,够两个人吃,应该是多少”这个问题,它没有给出具体答案。
但是,它能够比较准确地识别它能看到的图表、字、以及不是很清晰的logo等,并且不需要唤醒词,能够实时打断它说话,并开启新的话题。这些能力都需要一些相对先进的模型技术支持。
而在模型视觉识别方面,在今年五月智谱发布了CogVLM2,这是一个叠加在语言模型上的70 亿参数专用视觉专家模型。
比起一般的视觉模型,它采用了一个 50 亿参数的视觉编码器。凭借着这个优化的视觉编码器,CogVLM2 在多个基准测试中取得了 SOTA 性能,性能接近或超过了 GPT-4V,而在处理中文任务方面,CogVLM2 展现出了更强大的能力,能够更准确地理解中文文本和图像,并生成符合中文语境的答案。
在今年6月发布的GLM-4V-9B中,该模型采用与 CogVLM2 相同的数据和训练方法,因此也就延续了其强大的视觉识别能力。本次智谱更新的基座模型GLM-4V-Plus更是添加了视频识别的能力。做到对logo、图表等偏向文字OCR任务的把握,自然不成问题。
但遗憾的是目前,智谱AI没有公布具体的技术细节,当然,GPT-4o也没有。
但是,GPT-4o公布时,有一个页面把对模型的贡献者都列了出来,这些贡献者主要集中在三大领域:第一大部分是大语言基础模型;第二部分是多模态,包含语音、视觉,和实时反馈,其中实时反馈投入了很多人力;第三部分是平台和模型安全。
从这种人员配比来看,我们能够不全面地猜到,能够做到实时、端到端、多模态的交互效果就已是非常不容易的事。国产C端大模型会写、会听、会说、还会看,直接卷到了next level。
智谱AI向腾讯科技表示,“目前的体验还只是Beta版本, 首批面向清言部分用户开放,同时开放外部申请。将会持续迭代并逐步放开规模,尽快让全员都可以使用。”
基座大模型更新,能力全面提升

虽然智谱AI在模型矩阵上一直对标OpenAI,但是,与OpenAI有所不同,OpenAI一贯没有把面向C端的产品和基础模型的名字区分来,可以说是模应同名。
而智谱AI面向C端的产品是智谱清言App,增加了“视频通话”功能之后,将成为国内首个可以通过文本、音频、视频和图像来进行多模态互动的 AI 助手。
基座大模型,则是单独命名、单独推出。在 KDD 国际数据挖掘与知识发现大会上,智谱 GLM 团队还介绍了新一代基座大模型系列GLM-4-Plus Family。以下是对它的详细介绍:
1、基座大模型GLM-4-Plus:长文本比肩全球先进模型
其中GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本,使用了大量模型辅助构造高质量合成数据以提升模型性能,还使用了利用近端策略优化 (proximal policy optimization) ,从效果上可以有效提升模型推理(数学、代码算法题等)表现,更好反应人类偏好。GLM-4-Plus 已经在智谱大模型开放平台 bigmodel.cn 部署,开发者从现在开始就能通过 API 方式调用这一智谱最新基座大模型。
国产大模型重磅更新:你可以随时给AI打个“视频电话” 第3张图片


以下为GLM-4-Plus与全球领先模型的评分对比:
国产大模型重磅更新:你可以随时给AI打个“视频电话” 第4张图片

图注:语言文本能力方面,GLM-4-Plus和GPT4o及405B参数量的 Llama3.1 相当。

Language capabilities

LCB: LiveCodeBench

NCB: NaturalCodeBench

* represents reproduced results

国产大模型重磅更新:你可以随时给AI打个“视频电话” 第5张图片

图注:在长文本能力上,GLM-4-Plus 比肩国际先进水平。

2、 多模态大模型GLM-4V-Plus提供国内首个通用视频理解模型 API
GLM-4V-Plus 能够理解并分析复杂的视频内容,它可以对视频的内容进行总结,根据视频的内容进行进一步的推理,还能去帮忙确定你想要的内容在哪个时间点。
比如下面这个视频,用GLM-4V-Plus进行对话,可以得到以下结果:
“小智”解读篮球比赛视频

问:这个穿绿色衣服的球员在整个视频都做了什么?
GLM-4V-Plus:在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。
问:这个视频的精彩时刻是什么?发生在第几秒?
GLM-4V-Plus:这个视频的精彩时刻发生在第4秒,当时穿绿色衣服的球员跳起并将球投入篮筐。
国产大模型重磅更新:你可以随时给AI打个“视频电话” 第6张图片

图注:GLM-4V-Plus 能够理解并分析复杂的视频内容,同时具备时间感知能力。上线开放平台后,将提供国内首个通用视频理解模型 API。 Video analysis

国产大模型重磅更新:你可以随时给AI打个“视频电话” 第7张图片

图注:GLM-4V-Plus 在图像和视频理解能力方面位居前列。GLM-4V-Plus 还可以理解网页内容,并将其转换为 html 代码。 Vision capabilities

3、文生图模型的最新版本CogView-3-Plus,其效果接近目前最佳的MJ-V6及FLUX等模型
国产大模型重磅更新:你可以随时给AI打个“视频电话” 第8张图片

为了能够直观感受CogView-3-Plus的生成效果,下面我们贴出了一系列由此模型生成的图片以及对应的提示词:
一个优雅的女人的脸,遮阳帽投射在脸上的斑驳光影,背景是干净的蓝天,没有云彩,坦率的低角度广角镜头,去风格化,电影感,皮肤细节,Ilse Bing ,Alex Prager ,Tim Flach ,Andreas Gursky ,Stanislaw szukalski , Moebiu
国产大模型重磅更新:你可以随时给AI打个“视频电话” 第9张图片


dark night,smoke,burning flowers,ghosts,surrealism,art photography,avant-garde,dreams,oblivion,double exposure,miracles,
国产大模型重磅更新:你可以随时给AI打个“视频电话” 第10张图片

立体羊毛毡作品,一个穿着蓝色连衣裙、戴着花环的卡通女孩形象,她站在一片开满各种颜色花朵的田野中,她的手中还拿着一朵白色的雏菊。
国产大模型重磅更新:你可以随时给AI打个“视频电话” 第11张图片

提示词:画一幅奇幻和神秘风格的摄影,画面整体呈现低饱和度。一个穿着蓝色长袍、戴着角盔的战士或魔法师,脸上布满皱纹和伤疤,头发凌乱而狂野,胸前挂着小骷髅头,腰间系着骨头皮带,佩戴金属饰品,身体周围缠绕着藤蔓状结构,背景模糊的云雾增添神秘感。鉴雷·梅兹奎斯(Ray Mezquita)的风格,85mm,哈苏 H2D
国产大模型重磅更新:你可以随时给AI打个“视频电话” 第12张图片


4、 人人可用:文生视频模型CogVideoX-5B开源、GLM-4-Flash 免费
继CogVideoX 2B 版本开源后,CogvideoX 5B 版本也于最近正式开源,性能更强,推理显存需求最低仅为 11.4GB。同时CogVideoX-2B 的开源协议调整为更加开放的Apache 2.0协议,这意味着,任何企业与个人均可自由使用。
根据这段提示词生成的效果如下:比得兔(主体)开小汽车(主体描述),游走在马路上(环境描述),脸上的表情充满开心喜悦(氛围设定)
用AI生成的彼得兔开车

写在最后
深度体验之后,我们发现“小智”在实际使用过程中仍有个需要和人类好好学习的地方:
由于它无需唤醒,因此会一直在后台持续等待交流,它就像那个坐在一堆大人中间听着侃大山的孩子一样,还没有学会在合适的时机插话。但是,据说,它的成长速度会很快,智谱AI在不久之后就会发布新的迭代版本。
我们期待着,这个“孩子”慢慢长大、成熟……


上一篇:11.98万元起,小鹏MONA M03 正式上市
下一篇:李白的这首千古名作,开篇就令人赞叹,结尾更是动人心弦
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-9-14 19:32