查看原文
其他

实测智谱清言AI视频通话,国产“GPT-4o”能打吗?

月山橘 AI新榜
2024-09-24

作者 | 月山橘‍‍
编辑 | 张洁

OpenAI画的饼🫓,被智谱AI抢先兑现了。


当初熬夜追GPT-4o发布会的震撼还历历在目,但眼看4个月过去了,GPT-4o的视频通话功能却迟迟没有实装,大伙都快被钓成翘嘴了。


不过,好在我们有自己的“OpenAI”。


前不久,智谱清言App推出了国内首个面向C端开放的视频通话功能,这波不是画饼,是实打实能用上的。


大家可以下载清言App或者在chatglm.cn申请内测。


在发布会现场,智谱官方演示了多个AI视频通话功能的使用场景,包括玩你画我猜、识别物体和环境、辅导作业等。



“AI新榜”在拿到内测资格后,立马上手体验了一波。国产“GPT-4o”到底能不能打?话不多说,请看vcr。



实测国产“GPT-4o”

内测申请通过后,进入清言App,点击下方的📞按钮,切换成视频通话,就可以开始体验了。



无论是前置摄像头还是后置摄像头拍到的画面,清言都能看到,同时可以进行语音交互,整体跟真人打视频通话差不多。


如果通话过程中沉默超过1分钟,会自动断开连接。


我们先从最简单的物品识别开始,看看清言的眼力如何。


我对着书桌的一个小角落问它都看到了什么,它基本都说全了,就连日历上写的“Better Days Are Coming”、金属材质的小挂件这种细节也没放过。



可能是角度的问题,后来我把拍摄视角移到桌子的侧面,问它有什么遗漏,它才看出来还有白色台灯和白色抽屉柜。


挂断后我又开启了新一轮视频通话,没想到它还记得上一次视频通话的内容,一上来就问我“上次那个小兔子玩偶和挂历还摆在那里吗?”


除了能较为准确地识别具体的物品,它对环境的整体感知能力也不错。比如上班的时候,我把镜头往旁边的同事工位一转,它立马就看出来她在做PPT。


而且,它不只认识生活中常见的物品和场景,还能认出你在玩什么游戏。


这里我对着Switch上的游戏画面问它“你能看出来这是什么游戏吗”,它一下子就说出了正确答案:这是《动物森友会》吧,看,屏幕上好热闹,大家都在活动呢,我猜你一定也喜欢收集物品,打造自己的小岛吧。


看来我还真是低估了它的知识储备,紧接着我又问它屏幕里哪个是我?


结果它又一眼认出:屏幕里那个穿红衣服,戴帽子的小人是你吧,真可爱。



当我再次点开新的语音通话,它一句“最近有继续玩《动物森友会》吗?发现什么新乐趣没?”竟然还给我整得有点感动。



我be like:



再来看看它的艺术鉴赏能力,我找来家里的一幅装饰画让它分析,发现它真能说到点子上。



从整体风格到画面具体元素(绿色草地上姿态各异的小狗)和配色,说得都比较准确,最后还不忘加上一句感性评价“看着就让人心情好”。


虽然画上小狗的品种没有说全,但咱也不能过分苛责,毕竟画得比较简单抽象,有几只小狗是什么品种我自己辨认起来都费劲。


以及,谢谢清言让我涨知识,原来斑点狗又名达尔马提亚犬。



当然了,像视频通话这种功能还可以有很多生活化的应用场景。


比如,你可以让它充当自己的穿搭小助手,不仅能收获具体的搭配评价和建议,大概率还能收获一顿夸夸,情绪价值拉满。



让它当家教也不在话下。而且,它不会直接告诉你答案,而是一步一步引导着你解题,让你有一个思考的过程。


虽说可能还称不上资深教师,但辅导中小学生平时写写家庭作业应该够用了。


此外,你还可以让它一步步教你如何使用咖啡机、如何通关游戏等等。


自从有了这个视频通话功能,遇到什么事我都想问问它。


不过,模型偶尔也会出现幻觉、前言不搭后语、车轱辘话来回说的情况。


比如我让它猜我的电脑壁纸出自哪个动画片里的场景,虽然他一下看出了是《玩具总动员》,但却在描述画面时,硬生生把红桌子说成蓝桌子,蓝椅子说成红椅子。



此外,大家从视频中也可以看到,回答的响应时间依然存在一定延迟。面对大多数问题,它都会先响应一些类似“哇”“哎呀”等语气词,以及“嗯”“当然”“好的”等实际上不需要进一步理解和推理的话,以使用户体感上的响应时间较短。


总的来说,还是瑕不掩瑜。OpenAI画的大饼,智谱抢先兑现了,虽然效果不是很惊艳,但也足够让人眼前一亮。



实时语音交互,会诞生AI Super App吗?

自从GPT-4o和谷歌的Astra发布以来,拟人化、情感化的实时语音交互几乎成了所有AI对话产品的技术风向标。


特别是在社交场景中,情感化、低延迟、具备情绪感知能力的语音模型,无疑会让人机交互更自然真实沉浸,给用户带来更有温度的情绪反馈和陪伴感。


今年6月,Character.ai(下文简称C.ai)上线了对标GPT-4o的语音通话功能。据C.ai官方透露,在该功能内测期间,有300多万用户拨打了2000多万个电话。他们可以通过语音通话进行更真实、沉浸的角色扮演,或者练习语言、模拟面试等等。



8月19日,科大讯飞发布星火极速超拟人交互技术,在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破。预计将于今年8月底在讯飞星火App上线,面向所有用户开放。


最近,社交软件Soul也发布了自研的端到端全双工语音通话大模型,具备低交互延迟、快速自动打断、真实声音表达和情绪感知理解等能力,可以提供更接近生活日常的交互对话和“类真人”的情感陪伴体验。


而AI视频通话这种交互形式的想象空间,显然比纯文字或纯语音交互更上一层楼。


正如MiniMax的创始人兼CEO闫俊杰所说:“大模型在多模态的每一次进步,都会带来用户体验的提升、获得更高的用户渗透率。比如,当GPT-4o拥有更丝滑的语音交互(延时缩短、增加情感等)后,它就会走向更多人。”


那实时语音交互技术会诞生AI Super App吗?


目前,AI Super App公认有两个主要方向:一是生产力方向,以ChatGPT为代表。二是虚拟社交方向,以C.ai、Replika、星野等为代表。


某种程度上,C.ai已经实现了TPF(技术与产品匹配),但却远没有实现PMF(产品市场匹配),其付费订阅用户占总用户数的不到千分之一。虽然C.ai团队一直致力于升级底层模型能力,降低推理成本,但依然很难打平ROI。


不过,这其实是很多AI应用面临的共同挑战。在新技术爆发早期,商业模式往往落后于技术和产品的发展,从技术创新到市场普及,再到形成一个稳定可持续的商业模式需要时间。


直播预告


今晚6点来视频号“头号AI玩家”直播间

中秋毛绒月饼到货!AI月饼变身教程来了





「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、在看
 一起研究AI

继续滑动看下一个
AI新榜
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存