智东西 文 | 寓扬
在人工智能的舞台上,微软小冰可是一个明星人物,凭借着“邻家女孩”温柔可人的“形象”,可谓风靡万千少男少女。
自2014年诞生以来,在微软亚洲互联网工程院诸位“爸爸”的培育下,小冰也在不断实现自身的升级,目前已经成长至第五代,除了写诗、当主持人之外,小冰也开始与硬件相结合,落地米家生态链Yeelight。小冰也开始从最初的情感陪伴转向一个面向家庭的生活助手。
近期微软亚洲互联网工程院副院长、微软小冰全球负责人李笛、微软小冰全球研发负责人、首席架构师周力首次公布了对话式AI的最新框架——Session-oriented(面向对话全程)。给智东西印象最深刻的一个观点是,在小冰团队看来国内对话式人工智能整体的发展像堆积木,而没有更多地探索底层框架的设计,这就大大限制了对话式AI的发展。微软小冰正试图采用一种新的底层框架,来改善现有的交互体验。
(左为微软亚洲互联网工程院副院长、微软小冰全球负责人李笛,右为微软小冰全球研发负责人、首席架构师周力)
微软小冰正在做的是“全双工语音交互”,所谓全双工可以理解为实时交互、双向交互、连续交互,就像人和人打电话一样,它可以实时的聆听并与你沟通,这样做的好处就在于对话式人机交互更加自然,更符合人与人交互的体验。李笛称目前国内的对话式AI都不能算是全双工,最多算半双工,而核心原因在于底层框架的限制。
他将基础框架的理念分为两种:Turn-oriented(面向单个任务)和Session-oriented(面向对话全程)。
所谓Turn-oriented就是面向单个任务的编程,简单的表现就是一问一答,通过最少的多轮对话帮你把任务完成,目前国内大多数对话式AI沿用这种思路。
而Session-oriented不是这样,它首先关注的是一个更大范围的全程的对话,更加关注整个交互过程质量的高低。这也是目前微软小冰采用的基础框架。
为了更好的理解,李笛将这两种框架的区别形象的类比为日常的事物。他将Turn-oriented比作“来自十字路口的对话”,它就像一个十字路口的“民警”,当你发出指令后,它会快速的把你引导到一个方向,完成任务后就把你拉回十字路口,然后一切归零,如此往复。当没有办法把你引导到一个地方时,过去就会通过搜索引擎的方式提供一些搜索信息。这样做的好处就是能够快速完成任务,但它的弊端就是你一直处在十字路口,忽视过程的体验。
相比而言,Session-oriented的对话像“河流”,它会从一个任务往下一个任务走,这个任务可能会进入到进一步的交流甚至闲聊,随着进一步交流可能引发出新的任务,就这样走下去。在这样一个“河流”中,整个过程对话质量的高低要优于单个任务的完成,这样的对话体验就更优。
此前Facebook、亚马逊、苹果等采用的也是面向单个任务的交互框架,比如你跟Siri对话,每次可能只能说一两句,否则就不能很好的完成,我们从前端上认为它不够机制、系统不够好,实际上是底层框架的问题。而近期种种迹象表明他们都在向Session-oriented的技术方向探索,李笛称这将会是对话式AI未来1~2年的一个重要发展方向。
李笛进一步强调到,Turn-oriented这种面向单个任务的框架的上限决定了它未来的发展空间。一开始Session-oriented框架下的交互可能会用惨不忍睹来形容,但是一旦它越过某一个节点,就会有很大的发展空间。
微软小冰的全双工语音交互正是基于Session-oriented的框架进行的,更加关注整个对话全程的交互。但要实现这样一种全双工、自然的交互有很多技术需要突破,微软小冰全球研发负责人、首席架构师周力分享了四大技术进展。
第一个技术表现是“边听边想”,通过预测模型和动态回应来实现。所谓预测模型是小冰不在等到用户一句话说完再去进行语音识别,而是每听到一个字,就会提前预测用户整句话的完整意思。而动态回应也不意味着用户输入一条,AI回答一条,而是会根据提前预测的用户意图进行“思考”回应,并根据最新获取的信息来调整输出结果。
这样做有两个好处,一方面可以让对话式AI的回答速度变得更快,另一方面在处理一些复杂的情况,它可以不拘泥于“我要回消息”,可以使用更好的对话策略。比如在“开灯”这个指令下,它识别这个意图后可以先说“收到”,等这个灯真正打开之后再说已经帮你把灯打开了,体验效果就会好很多。
第二个技术表现是“节奏控制器”。在全双工的对话中,节奏感会变得很重要,比如用户说的第一句话很重要,或者第一句话还有很长时间要说,这时候AI不但需要与自己协调也要与人类协调,通过不同的应对策略,来选择重复、跳过,甚至打断用户。
再比如用户突然不说话了,AI能否更具上下文抛出新的话题,或者维持既有的话题,从而打破沉默。这意味着AI将具有更多的主动性,是目前语音助手所不具备的。
第三点全双工的语音交互可以通过分类器、环境处理、对象判断等从而实现声音场景的理解。首先语音身份识别是对话的基础,首先AI要识别是男的、女的、儿童,如果要对着一个男的垮“姐姐你好漂亮”就不合适。通过对用户喜怒哀乐的识别,也可以采用不同的对话策略,从而增强用户体验。
环境的处理也很重要,通过环境的识别,如果在一个嘈杂的环境中AI自然需要放大声音,但如果是谈一些私密问题时,就应该降低声音,来体现说话的艺术。此外对象的判断也很重要,家庭环境中AI需要通过声纹识别识别出爷爷、奶奶、爸爸、妈妈等不同人的身份来选择不同的对话。
第四点在于自然语言理解和生成模型。在对话过程中,AI首先需要先理解它在做什么,从而根据场景调整对话策略。周力形象的解释到,比如在播放故事的场景下,你想要调节音量,它可能只是灯亮一下来显示音量的调节而不影响用户听故事。
而生成模型意味着小冰的每一句话都是“自创”的,每一次回答都可能根据场景进行变化,而非之前通过数据库检索获得的。在一个以连续的流作为对话基石的时候,生成模型作为一种对话的技术,变得越来越重要。
正如微软亚洲互联网工程院副院长李笛所说,目前国内对话式AI大多是单个单个任务的框架设定的。智东西此前也采访过不少做NLP(自然语言处理)的公司,如三角兽、竹间智能、蓦然认知、海知智能等。NLP一直是人机交互的瓶颈所在,尤其是通用NLP更是如此,在这种情况下,处于实用主义考量,通过限定边界场景,NLP开始落地某一具体的场景。最初为了让AI看上去更加有用,国内大多采用基于任务导向的一问一答式对话,从而尽可能完成用户的任务。
而微软小冰关于Session-oriented这种“河流”式的面向整个过程的对话,听上去很美好,基于现有的NLP技术能否实现呢?智东西便把这一问题抛给了周力。
周力坦言对于NLP的问题包括学界都还是一个没有很好解决的问题。从小冰的角度讲,他们采用的方法是各种技术的综合,包括深度学习技术、也包括搜索技术、决策树等,综合起来达到一个更好的效果。
另外从全双工的角度他继续解释到,自然语言处理的能力其实只是小冰实现一个很好对话其中的一个小部分,它还要包括场景识别、结构控制等。尽管从NLP来讲整个业界可能还有很长的路要走,但是从客户体验来讲,只要找对了方向,找对了路,是可以在未来一两年有非常大的突破的。
李笛也补充到,到今天为止,他们也不能说小冰对话非常好,但这里面框架起到了决定性的价值,当我们关注全局的时候,一地的得失,无论是我们还是用户,一定程度都能够谅解,但像“十字路口”式的对话就没有办法了。
可见在他看来,并非NLP本身变得更加重要,也并非NLP变得怎么样小冰的对话就会很好,他强调的重点还在于底层框架,面向整个对话过程的对话机制才有更大的潜力空间。