微软芮勇:计算机视觉已通过图灵测试但路还很长

发布时间：2016-08-15 07:32:02 所属栏目：动态来源：网易科技

导读：网易科技讯 8月13日消息，由中国计算机学会（CCF）主办、雷锋网承办的全球人工智能与机器人峰会（GAIR）在深圳召开，在峰会现场，微软研究院芮勇发表了名为《计算机视觉：从

undefined

网易科技讯 8月13日消息，由中国计算机学会（CCF）主办、雷锋网承办的全球人工智能与机器人峰会（GAIR）在深圳召开，在峰会现场，微软研究院芮勇发表了名为《计算机视觉：从感知到认知的长征》主题演讲。

芮勇在演讲中表示：计算机视觉是人工智能中非常重要的一个方向，在过去50多年间，计算机视觉经过了对图片的摄取、处理、识别和理解的过程。

首先是特征提取，对于图像中的像素进行重要性差别提取，然后再对重要的元素进行标注，通过标记成为计算机能够识别的符号，让计算机能够理解图片的内容，生成一句话对图片进行描述。这是目前微软研究院能够做到的，并且成功通过图灵测试。

他介绍称，深度学习彻底改变了图像识别领域，未来计算机视觉还能实现图片更高层次的识别，甚至达到视频识别，对于输出方面，不仅能够输出一句话，还能通过给AI发送图片进行聊天，计算机自动识别图片，并对图片发送者进行逻辑对话。

最后，芮勇称让计算机视觉识图还有很长一段路要走，但随着从感知到认知的技术发展，给计算机一幅图片，让它给你一个故事是可以实现的。（Sherwood）

以下是芮勇的演讲实录：

非常高兴下午有这个机会跟大家聊聊计算机视觉，我的题目叫《计算机视觉从感知到认知的长征》。

我想回顾一下计算机视觉过去50年的发展。今年的2016年也是人工智能这个词被创造出来的第60年，之前其实没有这么一个词，60年中国人叫一个轮回，轮回总是会有大的飞跃，我们看看2016年人工智能有什么大的飞跃？

人工智能从最开始有很多的领域，我本人花的时间最多的是计算机视觉，人有各种感官，但人70%的信息是靠人的眼睛来看到的，计算机视觉也是人工智能当中一个非常重要的方向。

最早大家说能不能可以让计算机可以看到，像人类的眼睛可以看到一样。过去的50年的发展，我们可以看到，是从社群到处理到Recognition到理解，就像我们画一幅画一样，从最早的线条，到一定的灰度，到最后的全彩色的，这50年都做了些什么事情？我们可以看一看，我想用这张图片跟大家分享一下。

人看一张图片觉得很简单，我一看觉得这是一个人、这是一张桌子、椅子，人一下就理解了，计算机看到的很难，因为计算机看到的就两个东西，不是0就是1，让计算机看到图片里包含什么内容非常困难。这50年走过了很多路，从最早的特征提取，比如说这么一幅图，它的特征有线条、有转角，有色彩，之后第二步比这个更前进，叫标注。这幅图比如说是一个户外的场景，里面有人物，比这个更前进一步，叫Annotation。比这个再往前走一步，我们对图片的理解就是Captioning，我如果把这个图片给计算机去看，它能不能生成一段我们人类看得懂听得懂的文字，比如乔治和他的父亲在迪士尼乐园在玩一个游戏，这么一句话，这就更难了。比这个再难一点，我给计算机这个图片，我问计算机几个问题，比如说这个图片里面坐在前面那个人穿什么颜色的衣服？计算机这时候要知道什么是人，衣服在哪里，它要回答是红色的衣服，这就更难了。比这个再难一些的就是我们小时候都上过课，叫做看图认字，看图说话，计算机看到一幅图之后，能不能生成一个故事，这就是这50年我们大家孜孜不倦想做的事情。

我们来回顾一下这50年是怎么走的，第一步是特征提取，计算机看到的除了0就是1，当然有些像素更加重要，哪些象素作为提取这很重要，比如这张图，每一个像素的重要性是不一样的，画圈的地方是我们想把它作为特征的一些地方。再往下看，第二步我们想给一个图片进行标注，进行标注的话，我们就想知道，比如说图片里面有两个人，他们是在户外的活动，这件事情怎么做？我们来看一下是怎么做的。

这个就是很重要的一个部分，有三个部分，第一个部分是图片的分类，这个时候我们回答的是什么问题呢？这张图片里面是不是含有一只小狗。第二个就更难一点，计算机还要告诉这个小狗在什么位置，把它框出来。第三个更难，每一个象素能不能告诉我这个像素是属于这个小狗身上的像素还是电视机上的像素？一个比一个难。过去的这十年，还有很大很大的发展，我们来看。

第一步，图象分类，图象分类在计算机视觉里有一个全球性的比赛，叫ImageNet，里面有120万个训练样本，有10万测试图像，1000个类别，你让计算机看没有见过的图片，帮你分出来这是1000类里的哪一类。

2012年之前，深度学习没有引入计算机视觉之前，大家看看错误率，靠右边的是2010年的错误率28.2%。2012年的时候，深度学习第一次被用在图象识别，错误率一下降到16.4%，每年的错误率越来越低。2014年有个斯坦福的博士想挑战一下。我如果告诉你一千类里有两百来种狗的不同类型你就知道有多难了，我只认识四五种狗，但要做到上百种狗都能对，非常困难。斯坦福博士关在屋子里训练了几个月，他的错误率是5.1%，去年降到了3.5%，第一次超过了人类的错误率。

2012年深度学习第一次引入计算机视觉，当时有八层，它的错误率降低。再往下走，2014年到了19层，错误率继续降低，到2015年，我研究院的同事做出了152层的极深网络。大家觉得往下做没什么了不起，其实想做得深很难，在2015年以前，全球没有几个团队能做到超过20层，因为是训练不下去的，所以这是一个非常好的工作。用神经网络，不仅是每一层延到下一层，有的之间还可以转跳。

这是图片的分类，解决的问题是图片里面是不是有只小狗。更难的是这只小狗在什么地方，物体的检测。七八年以前，全球能做到最好的程度也就是这样，今天通过深度学习的方式已经可以做到这样的水平。你看最左边的女士她只是把胳膊肘露出一点，腿露出一点。再往下看，这个大公共汽车后面的司机我们解释说这是一个人，现在已经达到这样的水平，跟人类的视觉水平已经不相上下。

比物体检测更加难的是在图片的每一个像素，像素是属于小狗还是属于屏幕？我们可以看一看今天用深度学习的方式，也已经可以把像素级的图像分割做到这样的水平。

（视觉）

芮勇：大家可以想一想，如果能做到这样的水平，今后无论是无人机还是无人驾驶，很多应用都可以做了。

这是我刚才提到的第一个问题，就是对物体的识别，比这个更难的是我们是不是理解了，计算机是不是理解了某一个图片。我们看一看。Beyond远远超过了计算机视觉。如果只是用最近的方式去做搜索，其实它并没有理解，比如说你的一个输入是靠左边这个人，它就把右边这几个从搜索引擎返回，这个并不是理解，这还算不上理解。真正的理解是什么呢？我给计算机看到有这么一幅图片，它能生成一句话，说本和他的爸爸在迪士尼乐园玩。

（编辑：应用网_扬州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

电动螺丝刀怎么选择？	坚持免费不限速阿里云
苹果 M2 MacBook Pro	一步到位低到6799！酷

微软芮勇:计算机视觉已通过图灵测试 但路还很长

微软芮勇:计算机视觉已通过图灵测试但路还很长