加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_扬州站长网 (https://www.0514zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

微软芮勇:计算机视觉已通过图灵测试 但路还很长

发布时间:2016-08-15 07:32:02 所属栏目:动态 来源:网易科技
导读:网易科技讯 8月13日消息,由中国计算机学会(CCF)主办、雷锋网承办的全球人工智能与机器人峰会(GAIR)在深圳召开,在峰会现场,微软研究院芮勇发表了名为《计算机视觉:从

我如果让计算机看这么一幅图,下面我想跟大家做一个小的互动,在这个具体的问题上,我们能不能超过图灵测试,有两句话:第一句话叫做一个人在网球场上手拿着一个网球拍,测试大家的英文是不是还记得。第二句话:有一个人在网球场上打一场比赛。大家觉得这两句话哪一个是人写出来的?哪一个是机器写出来的。

(举手)

勇:基本上50%50%,我们看看哪个是人写的哪个是机器写的。上面的是机器写的,如果在座的诸位是50%的话,已经可以通过图灵测试了。

我们再试一题,上面停了一辆自行车,有两句话,一句话是小河边停了一辆自行车,第二句话是水体旁边有一辆自行车停在。哪句是计算机写的?

(举手)

芮勇:现在大不部分人认为下面一句话是计算机写的。我们来看看,下面是人写的。我们又一次通过了图灵测试。

这是给计算机看一个图片,它生成的这么一句话,比那更难一点的是前一阵奥巴马一家带着小孩来访问,我们如果让计算机看到这么一幅图片,它如果只是告诉我有几个人在拍照也没意思,它如果有本事告诉我说,Sasha奥巴马、米歇尔奥巴马,彭丽媛,我们大概前50万名人都能认出来是谁,并且我们生成了一句话说,这几个人在故宫前面拍照,已经可以达到这样的水平。

再往下看,具体算法可能没有那么多时间去讲。但基本上是从名人到具体的物体,通过各种深度学习的方式能生成出这么一个自然语言的话。

我们再往下看,这就是整个的流程,算法等等就不用花时间去看了。已经可以让计算机看到一个图片,讲出一句还挺像样的话,下面还可以往哪里走,我觉得至少四个方向可以走。第一个方向是说在语义的层面上,Go higher,我们能不能想到一些没讲出来,但它能推理出来的意思。第二个我们给它看一段视频是不是也能讲出一段话,Go longer。第三个是它能跟我聊天。第四个我可以问他具体问题,他能回答。

第一个,Go higher,如果我给计算机看这么一幅图片,今天能做到的水平就是这样,有一群象,前面有一个人,这是我们之前可以做到的水平。今天可以做到的水平,因为有实体,我们可以说一群象在奥巴马的旁边,因为我们可以识别出这个人是奥巴马。我们希望做到什么水平?它引申的一些含义,我们人来看到这个可以想到很多引申含义,今年正好是美国总统大选年,民主党是驴,奥巴马是民主党,共和党是象,它的意思是说奥巴马被共和党的一些竞选者在追赶,我们今后如果能生成这样一句话,我们对图片的理解真是到了一种认知的水平,但还没有做到。

第二个,Go longer,我们给它看视频,它也能生成一句话,当然这里面有很多的算法,具体算法我就不一一介绍,基本上是用一个深度学习的网络,然后目标函数里面由两种叠加在一起的新的水平。

这是我提的两个方向,第一个把它的隐身含义讲出来,第二个是把视频也能够用文字的形式表达出来。第三个我想提的是,比如说我们今天跟小冰聊天,我们敲一段文字,它也能回一段文字,我们给它上传一张图片,它是不是也能跟我们聊呢?今天它也能了。它今天可以做到的水平是,如果我上传了一张图片,它会说小眼神太犀利了,这就像人在聊天一样,已经可以做到这样的水平。比如说你想秀秀六块腹肌,它会跟你说大叔真牛。不仅仅是文字的聊天,图片也可以聊天,这都是得益于我们对计算机视觉技术的发展和深度学习的发展。

第四个方向,稍微花多点时间讲讲,我觉得这是很有意思的方向,不仅对科研、产业界来说都很有意思。叫做Visual Question Answering,我问计算机一个问题,什么东西在自行车筐里?我们希望它的答案是说狗,但是想做到这一点很难,你首先知道自行车在哪儿,筐在哪儿,筐里有什么东西,都不容易,但今天我们有技术,能够把这个做到。怎么做到呢?我稍微提一下这个算法。

四个部分,两个输入,第一个是你问的问题是什么,你问的问题是说自行车的筐里面是什么,这是一句话,这是第一步。第二步是你同时还给计算机看一个图片,有个Image model,我们用深度学习的方式把两种不同的模式做两次之后,就知道和这个问题最有关的部分就在亮的这个部分,这就是和问题发生关系的地方。如果知道这个区域和这个问题发生关系就有很大的可能性知道答案。

还有更多的几个例子要跟大家分享,比如我们让计算机看这幅图片,问:在一片空旷的海滩上,两个蓝色的椅子中间那是什么物体?这是它答案的过程,第二层聚焦到伞,一把太阳伞。还有更多的例子,在一片泥泞的土路上,什么东西在拖着马车?答案是马在拖着马车。右边那个,筐的颜色是什么?答案是红色的。右下角这个女士戴着两只红色牛的角,答案是说红色的,它知道牛角的颜色是红色的。这些都是我们今天通过计算机视觉的方式达到问题的回答水平。

刚才回顾过去50年计算机视觉发展的历程,从最早的特征提取,有直线转角,直到说这是一个户外的场景,场景里面有人,到说这个图片里面这个人的名字是什么,到生成一句话来描述这个图片,到最后我刚才提到的Visual QA,还有很长的路要走,就是我们看到图能讲出一个故事来,这是我们今后要做的事情。

我今天的题目叫《计算机视觉从感知到认知的长征》,长征大家也知道,最早是从江西的瑞金开始长征的,很具有里程碑的事件就是遵义会议,最后很成功的走到陕甘边区,今天的计算机视觉也是一个长征,但还没有到达陕甘边区,今天2016年我们取得了很大的成就,很像遵义会议取得的成就,但今后还有很长的路要走,这就是长征的一部分,怎么样最后到达陕北,至少三个方向可以想。第一个是计算机学习算法的本身。今天“深度学习”这个词很热。今天因为有了好的算法,深度学习算得很成功。

第一块很重要的能让我们到达陕北的就是计算机学习算法。第二个就是我们需要一些计算机的科学家,我们也需要和一些垂直行业的朋友们一起来做这件事情,比如我们是和做金融的朋友们,就像上午杨强讲的,我们能预测股票市场。我们如果和懂医疗的朋友来做,可不可以做出更精准的医疗,如果和植物所的朋友来做这件事情,是不是可以做出一个用手机拍照任意的花,或者一个树,我就知道这个花叫什么名字,树叫什么名字,最早从哪里来?等等。我想说这个的目的就是除了机器学习的专家之外,还要和很多垂直行业领域的专家一起合作这件事情。

第三个,右下角这个圈我觉得也一样重要,我们需要高质量的数据,这三点如果我们都能做到了,机器学习算法本身的进步,我们和行业的专家们的合作和更多的数据的获取,我们就能从瑞金经过遵义到达陕北。

谢谢大家!

(编辑:应用网_扬州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!