快科技6月1日消息,今天上午阿里云正式发布了新品——通义听悟。
这是一款基于通义千问语言模型、音视频AI模型能力,能为用户带来音频、视频内容记录和阅读全新体验的AI助手,帮助随时随地高效完成对音视频内容的转写、检索、摘要和整理,比如用大模型自动做笔记、整理访谈、提取PPT等,可成为用户工作学习中的得力AI助手。
目前通义听悟已经在官网正式上线,用户使用阿里云账号登录,公测期可领取100小时以上听悟免费转写时长,体验所有AI功能,含全文概要、章节速览、发言总结等高阶AI功能,并获赠使用权益。
阿里云CTO周靖人介绍,听悟集成了阿里最先进的语音和语言技术。
其内置阿里新一代工业级语音识别模型,识别准确率在多个权威中文数据集上名列第一;融合自研语音语义多模态说话人算法,能对10人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,事实准确与要点完备性国内领先,支持跨多音视频内容的精准问答理解。
据介绍,通义听悟可以进行实时的语音转文字、多语言同步翻译,1小时的音视频仅用5分钟就能转写完成,还能精准区分发言人。
同时还能进行智能总结,会议中的关键内容清晰罗列,总结核心内容,比如关键性的问答内容,轻松存档会议内容。
并且还能高效有序的整理笔记,支持下载原文、笔记、音视频和译文,一键导出所需内容,同时也支持word、pdf和srt字幕文件等多种格式一键导出,本地、云盘存储任选。
这里就又引出了另一项重磅优势了:听悟与阿里云盘打通,一键就能转写云盘上的音视频内容。
同时,公测期间注册的听悟用户后续还将获得更大的阿里云盘存储空间,在云盘内在线播放视频时也可自动出字幕。
针对一些细分场景,听悟还设置了不少“宝藏功能”:打开Chrome插件,外语学习者和听障人士可以借助双语悬浮字幕条随时随地看无字幕视频,日程冲突时,听悟还可成为职场人士的“开会替身”,在静音情况下入会AI可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;听悟梳理的问答回顾可以让记者、分析师、律师、HR等群体整理访谈更高效。
从目前已上线的功能来看,通义听悟特别适合职场开会、上课复习、媒体采访、分析师访谈、新媒体工作者整理视频、外语交流等诸多知识类场景。
通义听悟Chrome插件将在近期对所有用户开放下载
据了解,听悟除个人版本外,还有企业应用。此前,听悟企业版已在阿里集团内部被广泛使用,帮助减少了大量会议记录和整理的工作,受到好评。同时,听悟的能力也可嵌进各类音视频平台,形成实时字幕、智能摘要等,典型应用如钉钉的“钉闪记”背后便集成了听悟。
未来听悟还将在夸克APP、阿里云盘等端口提供服务。