大模型在音视频转写赛道的竞争,谁能更精准“理解”?

发表时间: 2023-06-03 22:01

阿里云峰会上,阿里云智能集团CTO周靖人介绍通义听悟。 (受访者供图/图)

距离阿里云大模型“通义千问”问世不到两个月时间,阿里云于2023年6月1日在广州的阿里云峰会上发布了通义家族新成员——通义听悟。

这是一款由阿里云达摩院研发的AI语音助手,也是中国首个开放公测的大模型应用产品。目前,市面上多数大模型还没有落地的应用,或是应用产品仅供邀请体验。

据阿里云介绍,这款产品不仅“听力好”,可以准确生成会议记录、区分不同发言人,“悟性”也高,能给音视频划分章节并形成摘要、总结全文及每个发言人观点、整理重点和待办事项。用户可以摘取关键信息到页面右侧的空白笔记中。

竞争转写的“AI”能力

阿里云智能集团首席技术官周靖人在峰会现场介绍通义听悟背后融合了十多项AI功能,瞄准的是具有高知识附加值的音视频内容场景,如开会、上课、面试、直播、看视频、听播客等。

听悟最早亮相于2021年杭州云栖大会,次年发布了进阶版。通义听悟技术负责人鄢志杰向南方周末等媒体透露,通义听悟前身就是阿里内部所使用的语言记录工具,现在的听悟更像是“助手”,在提供帮助的同时还有可能产生建议或启发。“通义听悟的定位是人类的助手,不会替代人类的工作。”

“大家不知道的是,通义听悟背后的一部分模型,完全可以在魔搭社区下载,并不是封闭的。我们不会当做一个利器只为自己所用。”鄢志杰说。魔搭社区是一个中文AI模型开源社区

在音视频转写赛道,通义听悟直面的竞争对手是科大讯飞。

就在5月6日,科大讯飞正式发布讯飞星火认知大模型,并在讯飞听见的基础上升级“会写”功能,可以根据音视频内容由AI生成不同类型的文稿,如品宣文案、新闻稿件和工作总结等。

讯飞听见的“会写”功能现已开始收费,月权益包为49.8元,三个月权益包为139.8元,一年权益包为518元。

南方周末记者实测对比两款软件,将一段音视频上传后,均能做到完整转写会议内容、精准区分一段录音内不同的发言人。

在AI能力方面,讯飞听见转文字仅上线两大功能,一是提供全文摘要,二是提供语篇规整。其中语篇规整起到调整语序、提高阅读流畅度的作用。

对比之下,通义听悟的“AI”含量更丰富。在AI大模型的作用下,通义听悟体现出对音视频更强的理解力,全文概要的细节更多、章节速览准确度较高以及能对同一发言人的所有发言内容进行总结概括。

“这个版本上我最喜欢的就是章节概览——把内容划分段落并概括主题,大大压缩阅读时间,改变知识类视频的消费体验。”通义听悟技术负责人鄢志杰向包括南方周末在内的媒体记者介绍。

“没有推出硬件产品的计划”

有媒体记者在现场使用通义听悟实时记录会议内容,一位媒体人向南方周末记者表示,实时转写的准确度不及她常用的另一款转写软件。而且,在网页端实时转录时一旦退出页面,录音就会停止。

南方周末记者测试发现,通义听悟转录音视频的识别准确度整体较高,但仍需人工校正,在嘈杂环境下转写表现有待提升。区分发言人的精准度超出预期,但由于发言人区分过细,破坏了发言人段落的完整度。

南方周末记者试用通义听悟转写峰会现场讲话。 (南方周末记者 周小铃/图)

同一份文件上传至讯飞听见产生的全文摘要。 (南方周末记者 周小铃/图)

对于通义大模型首款应用为何选择音视频赛道,阿里云智能首席技术官周靖人表示,并无特殊原因,通义听悟不是唯一的产品,他们也在尝试探索解决各行各业的需求,未来会陆续看到其他产品。通义听悟还会陆续推出增强版,并做出商业化安排,目前在公测期间可以领取免费转写时长。

智能化的录音笔是科大讯飞等公司的拳头产品,但阿里云暂时不做硬件。

“目前暂时没有推出通义听悟硬件产品的计划。”鄢志杰告诉南方周末记者,对用户而言,手机终端已经够用。目前,通义听悟已被集成在钉钉“钉闪记”中,未来还会集成到夸克APP和阿里云盘。除了个人版外,后续还会发布企业应用。

未免数据安全忧虑,周靖人介绍,通义千问自身的大模型训练不依赖于用户数据。

阿里云方面介绍,通义听悟还即将上线一键提取PPT、针对多个音视频内容向AI提问、概括特定段落、Chrome插件双语悬浮字幕条等功能。

南方周末记者 周小铃