阿里云通义大模型在音视频领域取得突破,CTO周靖人表示将推出更多创新产品

发表时间: 2023-06-01 22:33
时隔不到两月,“阿里版GPT”又“上新”了。6月1日,阿里云宣布通义大模型进展:聚焦音视频内容的AI新品“通义听悟”开放公测。通义听悟接入了通义千问大模型的理解与摘要能力,能帮助用户完成对音视频内容的转写、检索、摘要和整理。

在会后接受媒体群访中,阿里云CTO周靖人表示,在各种企业与行业之间仍有不少基于大模型的新需求,阿里云还在继续探索,接下来会发布一系列新产品服务到各行各业。

“换一种方式,让音视频可以被轻松阅读、整理和分享。听悟是一款工作学习AI助手,它瞄准具有高知识附加值的音视频内容场景,比如开会、上课、访谈、培训、面试、直播、看视频、听播客等,能通过大模型等最新AI技术快速提炼和沉淀知识。”阿里云CTO周靖人介绍道。

根据演示,目前听悟已融合了十多项AI功能,可以提升知识从音视频向图文形态转化的效率。除了能高准确度生成会议记录、在10人以上说话场景区分发言人,听悟最具突破性的功能主要发生在音视频领域。

南都记者体验发现,听悟可以一秒给音视频划分章节并形成摘要、进行全文总结并提炼出视频中的关键词。同时在点击到相关的文字时,通悟会将视频进度拉到相关文字所属位置,这对于利用短视频获取信息的人群而言,可以压缩不少时间成本,快速定位到自己想要的信息中。

阿里云方透露,听悟的大模型一键提取PPT、针对多个音视频内容向AI提问、概括特定段落等功能近期也将于近日上线。目前,听悟用户可通过每日登陆等多种任务领取免费转写时长。除TO C版本外,听悟已开发出企业版,据透露,此前听悟企业版已在阿里集团内部被广泛使用,帮助减少了大量会议记录和整理的工作。

听悟的能力也可嵌进各类音视频平台,形成实时字幕、智能摘要等,典型应用如钉钉的“钉闪记”背后便集成了听悟。阿里云透露未来听悟还将在夸克APP、阿里云盘等端口提供服务。

“钉闪记”背后集成通义听悟。

在“通义听悟”的商业化模式方面,周靖人在会后接受南方都市报等媒体采访时表示,商业化会在推出增强版的下一阶段时安排,目前产品仍处于免费开放公测的状态。

距离通义大模型的布不到两个月,阿里云快速追加推出“通义听悟”产品,速度之快让人震惊。对此周靖人表示,新产品的推出并不是一蹴而就的,而是有赖于阿里云长期的积累。“如果说今天因为ChatGPT的到来,我们才去做相关的工作,那其实来不及的,我们前期做了很多工作,包括在语音方面的、在多模态上的整个布局,才能够及时推出自己的大模型。”

通义听悟技术负责人鄢志杰则介绍了通义听悟的前身。通义听悟的早期产品早已被阿里巴巴内部工作人员所应用,场景包括投资部员工到外访谈、HR进行尽职调查等,但他认为,目前推出的通义听悟与之前的产品相比已发生了质变。

“今天可能听悟不一定是工具了,工具是什么呢?人还是支配它的,基本上它不会比你更聪明,也不会比你懂得更多。但是,大模型能力跟工具应用相结合以后,变成今天工作和学习的助手了,助手是什么呢?它是帮助你的,有一些它知道的别的知识甚至你之前没有留意到,你可能会觉得有一些建议还能激发你和启发你。”鄢志杰表示。

周靖人还透露,阿里正在做基于模型一系列产品的创新。目前推出的听悟不是唯一的产品,接下来可以期待基于大模型的其他创新产品。

采写:南都记者 林文琪