2016年6月6日,由清华海峡研究院、北京清华工业开发研究院、数据科学研究院共同主办的“清华人工智能论坛”在清华大学成功举办。本次论坛邀请了清华人工智能领域的权威专家和校友产业界代表相聚清华,学术泰斗与产业嘉宾思想碰撞,共同为人工智能发展问诊把脉。6月8日,微软亚洲研究院常务副院长芮勇也在清华大学发表了精彩演讲。整理演讲内容如下:
微软亚洲研究院常务副院长芮勇:人工智能趋势之四化
“人工智能”一词最早出现于1956年,近年来“人工智能”越来越热,人们对此也感到一些困惑。未来,人工智能的发展趋势应是大数据化、自适应化、可穿戴化和增强化。
大数据化
微软认知服务是把微软过去二十几年做的人工智能分支的技术,包括计算机视觉、语音、语言、搜索等技术放在认知服务上。这样的好处是当人们想开发一个App的时候,不用重新开发,直接调用即可。
图1为估算颜龄的一个网站:www.how-old.net,在这上面首先要知道人脸在什么位置,其次是判断性别。2015年底,发布了第二个版本,可以估计出人类的情感、喜怒哀乐等。
2011年以前,深度学习在没有被引入计算机视觉之前,其错误率大约为百分之二十几,直到2012年,深度学习第一次被引入计算机视觉,这时错误率大幅下降到百分之十几,之后几年更是降到了10%以内。
此外,物体检测是比物体分类更难的事情,特别是像素级别的物体分割。我们知道一张图片有很多像素级别,每个像素是属于猫,还是属于这只猫边上的草,每一项都要进行分类,这是非常难的。从图片分类到物体检测,再到像素级的物体分割,为什么计算机视觉可以做到?这是因为人类生成了很多的数据,这些数据被拿来训练计算机,它才能够有一定的智能,这也是第一类趋势--大数据化。
自适应性
在电影《星际迷航》有这样一个场景,不同的星迷去不同的星球探索,可以通过一个机器来进行交流,这在当时还是一种科幻。研发人员总能把科幻变为现实,目前有一种实时翻译器,使得两种说不同语言的人可以实时交互。大约在2010年时微软内部进行了展示。2015年,我们将这项技术加入到Skype里。
其中,必须要有四项技术做得非常好。第一步,中文的音频系统要被实时翻译成中文文字,并且要非常准确;第二步,因为是日常的对话,会有一些口语,嗯、啊等,需要把这些地方进行翻译;第三步,中文文字翻译出来之后,需要翻译成外文文字;第四步,把这些外文翻译成语音。同时还要注意翻译出的声音应该是像同一个人说话,这也是我们提到的自适应化。
可穿戴化
随着计算机视觉技术的发展,未来计算机看到图2时,会告知一名男子正腾空而起表演滑板特技。微软有一款设备--Hololen,能够实现两个不同物理空间的人可以在同一个空间进行交互。
增强化
人工智能和人,并不是谁PK谁的问题。计算机比人类强的就是它的存储功能和记忆功能,它是一个很好的左边半个大脑的补充。未来,不是人对抗机器,而是人加上机器,让人类变得更加厉害!
(本文整理自微软亚洲研究院常务副院长芮勇博士在“清华人工智能”论坛上的演讲,未经本人确认)