湖大人,欢迎你的学长,他是微软首位华人技术院士!

发表时间: 2019-06-13 11:48

HNUer的大牛学长有哪些?

下面这位,你们可曾听说?

他是微软首位华人技术院士、微软首席语音科学家

——黄学东



湖南大学里“最小”的大学生之一

1978年,15岁的黄学东进入湖南大学师资班(后来的电子工程系),成为当时校园里年龄最小的学生之一,后来获得湖南大学学士学位。

曾经,那位校园里年龄最小的学生之一,现在已经成了湖南大学信息科学与工程学院名誉教授,微软首位华人“全球技术院士”、微软首席语音科学家。

“外界看到更多的是我在微软的成就,但是我不会忘记长沙以及母校湖南大学的功劳,我曾在这里打下追求科学和工程的坚实基础。湖南是我梦开始的地方。”黄学东说。“岳麓书院有一千余年历史,同样在岳麓书院这个地址,湖南大学一直保持了教育的连续性。我每天从宿舍经过岳麓书院,都要看岳麓书院门前的对联,它为自信心,有情怀的追求打下了基础。因为很多事情,以及你在追求事业的过程中一定要有耐力,要有内力,这是湖南大学给我最好的训练。”



黄学东在湖南大学开展讲座,讲解了语音识别领域的相关专业问题

语言困难促成“语音识别”之梦

从湖南大学毕业后,黄学东进入清华大学和英国爱丁堡大学。

初到苏格兰爱丁堡大学攻读博士课程,自动语音识别(ASR)就深深的吸引住了黄学东。回忆起用本科水平的美式英语试图听懂带有苏格兰口音的教授讲话时的难度,黄学东说:“刚离开中国,当时的我只希望每一位讲师和教授在教室里授课时,都能够带有字幕。”

正因为学习中的这点语言困难成就了他日后在人工智能语音识别领域的丰收。

1993年,黄学东加入微软,开始了他的“人工智能语音识别梦”。黄学东认为人工智能就像孟子讲,“劳心者治人,劳力者治于人。”有脑子、能推理,能理解周围的环境、能了解人心,有 EQ、有 IQ,这才是最强大的。

语音识别是把音频转换成文字的过程,这个过程相当复杂,体现了人工智能今天最优秀的技术能达到的水平。

图象识别也类似,都是从 A 到 B 转换的学习。理解语言、语义、深刻地领会意思,就不再是简单的 A 到 B 的映射过程。黄学东解释道:“因为语意没有音义,我讲了一句话具体是什么意思,你要把它翻译成文字定义是非常清楚的,但意义每个人都有不同的理解。这才是人工智能最核心的关键。”



微软首位华人技术院士

1993年,黄学东作为高级研究员加入了微软研究所并负责组建Microsoft's 语音识别技术研究团队。现在,黄学东领导微软在美国、德国、埃及、以色列的全球团队,负责研发微软企业人工智能客服对话解决方案等最新人工智能产品和技术。

在微软这座AI领域的“黄埔军校”里,微软全球技术院士代表着技术人员的最高荣誉,到现在,全球也仅有20多人获得这项殊荣,其中就包括黄学东,微软唯一的华人技术院士。

很少有人知道,微软全球技术院士(Technical Fellow) 代表着微软技术人员的最高荣誉,目前为止,全球仅有约二十位人获得,其中包括图灵奖得主 Butler W Lampson、Charles P. Thacker等。黄学东是首位在微软通过技术路线走到最高层的华人。



黄学东<前排左一>及其技术团队

不到百分之一的进步

2016年10月18日,由黄学东带领的微软语音团队在产业标准 Switchboard 语音识别基准测试中,实现了对话语音识别词错率(word error rate, 简称WER)低至5.9%的突破,首次达成与专业速记员持平而优于绝大多数人的表现。“这是人工智能领域突破性进展之一,意味着有史以来第一次有计算机能像人类一样,识别对话中的每一个单词。”黄学东说。

2017年9月,黄学东再次带领团队突破技术限制,把5.9%词错率降至5.1%。创造了当时该领域内错误率最低纪录。

“可能表面上这个进展不大,但是在‘最后一英里’上,每 0.1 个百分点的进步都很艰难,必须保证系统没有任何bug。何况从相对错误率降幅角度, 5.9 到 5.1 是一个超过 10% 的相对进步。”

从 5.9% 到 5.1% 是如何实现的呢?调整结构亦或调整参数?黄学东说,为了这不到百分之一的进步,团队做了一千多个实验,评估了上百个不同的模型,几乎把所有的排列组合试了一遍,可以说是“粒粒皆辛苦”。



“强人工智能”的来临

在2018年微软全球开发者大会上,微软推出的未来会议室使用360度相机和麦克风阵列,可以检测会议室中的任何人说话,并基于语义分析的会议纪要功能,进行实时同传+速记。

2019年5月7日,一年一度的全球开发者大会上,微软公布的未来会议室再升级。普通麦克风可“秒变”虚拟麦克风阵列,将现有设备 (如手机或笔记本电脑) 与普通麦克风如搭乐高积木一般动态地组合成一个更大的阵列,帮助客户在有或没有专门的麦克风阵列 DDK 的情况下都可以更容易地转写对话,随时随地使用 Azure 语音服务。例如,可以对多个 Microsoft Translator 应用程序进行配对,更有效地帮助多人使用移动电话进行沟通,从而将语言障碍降到最低。

这离不开黄学东的努力。作为微软的首席语音科学家,黄学东率领团队实现了 AI 超越人类水平的历史性里程碑:2017年,在对话语音转写任务中,微软语音识别系统的词错率降到 5.1%,准确率超过专业速记员。2018 年,在汉英新闻机器翻译任务中,微软机器翻译系统达到了可与人工翻译媲美的水平。2019 年,在斯坦福对话式问答任务中,微软机器阅读理解系统刷新记录,成为目前排行榜上唯一一个模型分数超过人类分数的团队。

黄学东告诉星辰全媒体记者,语音识别基本解决了,只要有足够的计算资源、有足够多的场景数据就可以做得很好。下一步,是要做好语义理解。计算机语言识别是“感知”智能,因为深度学习、神经网络实现了突破,而“认知”是包括推理、理解上下文、自然语言处理,尚有待开发。机器翻译,则在感知和认知之间一个历史性的里程碑。

“让我们想象一下,如果有一天,机器可以理解我们所有的文本,了解上下文,有推理的功能,那么这意味着机器可以 24 小时阅读所有的新闻、所有出版过的文件、著作、科学文献,它可以上知天文下知地理,包括生物,这是不是比爱因斯坦还牛?——这才是真正的‘强人工智能’的来临。”黄学东兴奋地说。

来源:自在星辰