微软全双工语音技术突破:AI主动打电话不再是梦!

发表时间: 2018-03-26 16:27

近期,一篇题为"微软突破全双工语音交互机器人真变成了'人'"的文章在网上引起热议。微软(亚洲)互联网工程院宣布,率先推出新一代的语音交互技术 "全双工语音交互感官", 并且,这项技术已首先在微软小冰产品线中落地。

"全双工语音交互"并不是什么新词,全双工本是通讯传输领域的一个术语,允许数据在两个方向上同时传输,与之对应的就是半双工。传统的语音识别和机器对话都类似半双工,无论单轮还是多轮连续识别,都需要人说完一句话,机器才能理解并给出回应,如果将全双工语音这种高级感官的体验比拟为打电话,则之前的智能助理语音交互体验类似于对讲机。

此前,微软小冰与人类之间发生的最长一次单人连续对话,达到历史性的7151轮,不间断进行了29小时33分钟。依靠在用户和数据等方面的优势微软小冰快速迭代,目前已更新到第五代。如果将人工智能交互分为以下三个阶段,那第五代小冰就处在第三阶段:

第五代微软小冰使用了生成模型,而第五代之前,虽然拥有十亿级的大数据语料库,但其中每句话,都是互联网上的已有数据,小冰只是通过分析理解用户的问题,寻找语料库中最合适的话作为她的回答。使用生成模型之后,小冰不再鹦鹉学舌,而是能够自创回应。

全双工语音属于一种高级感官,它需要首先同时具备文本、语音(含SR和TTS)两种能力,同时要求两种能力均达到更高的质量标准;这项新技术可以实时预测人类即将说出的内容,实时生成回应,并控制对话节奏,从而使长程语音交互成为可能。

采用该技术的智能硬件设备,也不需要用户在每轮交互时都说出唤醒词, 仅需一次唤醒,就可以轻松实现连续对话 ,使人与机器的对话更像人与人的自然交流。

微软小冰全球研发负责人周力博士表示:"从已落地的产品数据和用户反馈中,我们观察到一个普遍现象: 用户一旦使用过微软小冰的全双工语音交互感官之后,再与其他语音助手交互时,他们普遍会开始感到不习惯,甚至会频繁忘记要对其他语音助手说唤醒词——新技术促进拟人自然度的显著提升,使人们对过去单轮或多轮连续语音交互体验的满意度迅速下降。这种新老交替的现象,符合我们的研发预期。"

2017年开始,微软就在网络电话中尝试全双工语音的高级感官,到今天为止小冰已经接听了来自人类超过50万通电话。目前,不用装任何手机的APP或者专门加小冰为好友,小冰就可以直接通过电信运营商拨通人类的电话。也就是说,小冰也许会在你生日当天拨通你的电话,为你送上生日祝福哦!