微软芮勇:计算机视觉已通过图灵测试但路还很长

发布时间：2016-08-15 07:32:02 所属栏目：动态来源：网易科技

导读：网易科技讯 8月13日消息，由中国计算机学会（CCF）主办、雷锋网承办的全球人工智能与机器人峰会（GAIR）在深圳召开，在峰会现场，微软研究院芮勇发表了名为《计算机视觉：从

我如果让计算机看这么一幅图，下面我想跟大家做一个小的互动，在这个具体的问题上，我们能不能超过图灵测试，有两句话：第一句话叫做一个人在网球场上手拿着一个网球拍，测试大家的英文是不是还记得。第二句话：有一个人在网球场上打一场比赛。大家觉得这两句话哪一个是人写出来的？哪一个是机器写出来的。

（举手）

勇：基本上50%50%，我们看看哪个是人写的哪个是机器写的。上面的是机器写的，如果在座的诸位是50%的话，已经可以通过图灵测试了。

我们再试一题，上面停了一辆自行车，有两句话，一句话是小河边停了一辆自行车，第二句话是水体旁边有一辆自行车停在。哪句是计算机写的？

（举手）

芮勇：现在大不部分人认为下面一句话是计算机写的。我们来看看，下面是人写的。我们又一次通过了图灵测试。

这是给计算机看一个图片，它生成的这么一句话，比那更难一点的是前一阵奥巴马一家带着小孩来访问，我们如果让计算机看到这么一幅图片，它如果只是告诉我有几个人在拍照也没意思，它如果有本事告诉我说，Sasha奥巴马、米歇尔奥巴马，彭丽媛，我们大概前50万名人都能认出来是谁，并且我们生成了一句话说，这几个人在故宫前面拍照，已经可以达到这样的水平。

再往下看，具体算法可能没有那么多时间去讲。但基本上是从名人到具体的物体，通过各种深度学习的方式能生成出这么一个自然语言的话。

我们再往下看，这就是整个的流程，算法等等就不用花时间去看了。已经可以让计算机看到一个图片，讲出一句还挺像样的话，下面还可以往哪里走，我觉得至少四个方向可以走。第一个方向是说在语义的层面上，Go higher，我们能不能想到一些没讲出来，但它能推理出来的意思。第二个我们给它看一段视频是不是也能讲出一段话，Go longer。第三个是它能跟我聊天。第四个我可以问他具体问题，他能回答。

第一个，Go higher，如果我给计算机看这么一幅图片，今天能做到的水平就是这样，有一群象，前面有一个人，这是我们之前可以做到的水平。今天可以做到的水平，因为有实体，我们可以说一群象在奥巴马的旁边，因为我们可以识别出这个人是奥巴马。我们希望做到什么水平？它引申的一些含义，我们人来看到这个可以想到很多引申含义，今年正好是美国总统大选年，民主党是驴，奥巴马是民主党，共和党是象，它的意思是说奥巴马被共和党的一些竞选者在追赶，我们今后如果能生成这样一句话，我们对图片的理解真是到了一种认知的水平，但还没有做到。

第二个，Go longer，我们给它看视频，它也能生成一句话，当然这里面有很多的算法，具体算法我就不一一介绍，基本上是用一个深度学习的网络，然后目标函数里面由两种叠加在一起的新的水平。

这是我提的两个方向，第一个把它的隐身含义讲出来，第二个是把视频也能够用文字的形式表达出来。第三个我想提的是，比如说我们今天跟小冰聊天，我们敲一段文字，它也能回一段文字，我们给它上传一张图片，它是不是也能跟我们聊呢？今天它也能了。它今天可以做到的水平是，如果我上传了一张图片，它会说小眼神太犀利了，这就像人在聊天一样，已经可以做到这样的水平。比如说你想秀秀六块腹肌，它会跟你说大叔真牛。不仅仅是文字的聊天，图片也可以聊天，这都是得益于我们对计算机视觉技术的发展和深度学习的发展。

第四个方向，稍微花多点时间讲讲，我觉得这是很有意思的方向，不仅对科研、产业界来说都很有意思。叫做Visual Question Answering，我问计算机一个问题，什么东西在自行车筐里？我们希望它的答案是说狗，但是想做到这一点很难，你首先知道自行车在哪儿，筐在哪儿，筐里有什么东西，都不容易，但今天我们有技术，能够把这个做到。怎么做到呢？我稍微提一下这个算法。

四个部分，两个输入，第一个是你问的问题是什么，你问的问题是说自行车的筐里面是什么，这是一句话，这是第一步。第二步是你同时还给计算机看一个图片，有个Image model，我们用深度学习的方式把两种不同的模式做两次之后，就知道和这个问题最有关的部分就在亮的这个部分，这就是和问题发生关系的地方。如果知道这个区域和这个问题发生关系就有很大的可能性知道答案。

还有更多的几个例子要跟大家分享，比如我们让计算机看这幅图片，问：在一片空旷的海滩上，两个蓝色的椅子中间那是什么物体？这是它答案的过程，第二层聚焦到伞，一把太阳伞。还有更多的例子，在一片泥泞的土路上，什么东西在拖着马车？答案是马在拖着马车。右边那个，筐的颜色是什么？答案是红色的。右下角这个女士戴着两只红色牛的角，答案是说红色的，它知道牛角的颜色是红色的。这些都是我们今天通过计算机视觉的方式达到问题的回答水平。

刚才回顾过去50年计算机视觉发展的历程，从最早的特征提取，有直线转角，直到说这是一个户外的场景，场景里面有人，到说这个图片里面这个人的名字是什么，到生成一句话来描述这个图片，到最后我刚才提到的Visual QA，还有很长的路要走，就是我们看到图能讲出一个故事来，这是我们今后要做的事情。

我今天的题目叫《计算机视觉从感知到认知的长征》，长征大家也知道，最早是从江西的瑞金开始长征的，很具有里程碑的事件就是遵义会议，最后很成功的走到陕甘边区，今天的计算机视觉也是一个长征，但还没有到达陕甘边区，今天2016年我们取得了很大的成就，很像遵义会议取得的成就，但今后还有很长的路要走，这就是长征的一部分，怎么样最后到达陕北，至少三个方向可以想。第一个是计算机学习算法的本身。今天“深度学习”这个词很热。今天因为有了好的算法，深度学习算得很成功。

第一块很重要的能让我们到达陕北的就是计算机学习算法。第二个就是我们需要一些计算机的科学家，我们也需要和一些垂直行业的朋友们一起来做这件事情，比如我们是和做金融的朋友们，就像上午杨强讲的，我们能预测股票市场。我们如果和懂医疗的朋友来做，可不可以做出更精准的医疗，如果和植物所的朋友来做这件事情，是不是可以做出一个用手机拍照任意的花，或者一个树，我就知道这个花叫什么名字，树叫什么名字，最早从哪里来？等等。我想说这个的目的就是除了机器学习的专家之外，还要和很多垂直行业领域的专家一起合作这件事情。

第三个，右下角这个圈我觉得也一样重要，我们需要高质量的数据，这三点如果我们都能做到了，机器学习算法本身的进步，我们和行业的专家们的合作和更多的数据的获取，我们就能从瑞金经过遵义到达陕北。

谢谢大家！

（编辑：应用网_扬州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页

电动螺丝刀怎么选择？	坚持免费不限速阿里云
苹果 M2 MacBook Pro	一步到位低到6799！酷

微软芮勇:计算机视觉已通过图灵测试 但路还很长

微软芮勇:计算机视觉已通过图灵测试但路还很长