亲测：让盲人“看见”图片我们离这项黑科技有多远

发布时间：2016-04-20 20:23:56 所属栏目：评测来源：雷锋网

导读：上周Facebook告诉我们它们正在开发的功能已经能让盲人”看到“图片的时候，晒图狂们突然发现，哇，原来图像识别已经离我们的生活如此之近，以至于盲人伯伯们也能用听的方式

副标题[/!--empirenews.page--]

当我们还在为语音识别的普及欢呼雀跃的时候，图像识别像暗夜里的蔓藤，正悄悄地在伸展自己的身体。

上周Facebook告诉我们它们正在开发的功能已经能让盲人”看到“图片的时候，晒图狂们突然发现，哇，原来图像识别已经离我们的生活如此之近，以至于盲人伯伯们也能用听的方式get到你此时正在三里屯撩妹的信息巴拉巴拉……但在毫无标签的情况下识别也太那个了，是不是用了什么非常手段？是不是欺负咱们不懂科学？

当然！黑科技只能用黑科技的办法解决。

实际牛掰的东东

雷锋网先带各位来回顾一下Facebook发布的这款黑科技————能对图片上的内容进行自动描述，从而让盲人或视觉障碍患者“看到”图片。该工具可对照片进行自动文本处理，从而让用户听到照片上的内容描述，如“有三个人，面带微笑，站在户外”等。

借助VPN翻墙到iPhone版Facebook后，发现iPhone自带的voiceover功能对于本来有文字描述的东西都能读出来，这跟Facebook本身图片识别的功能牛不牛掰并无关系，真正牛掰的是它对没有任何标签图片里物体的识别能力。

Facebook 识别图片盲人识图图像识别技术

实际体验的效果，雷锋网按下Voiceover后暂时听到还只是“two people in the story，actions is available” 这样的效果，试了其它图片（中国长城风景图，非洲沙漠和人图片，一堆人聚餐图片），得到的反馈跟这个差别不大，目前还没听到特别连贯的描述。（莫非因为俺是翻墙用户，所以体验不纯正？强烈期待中国版上线！）

但就Facebook自己允诺的目标——————能让用户听到照片上的内容描述，如“有三个人，面带微笑，站在户外”等。图普科技海洋直言：这种难度蛮大的，主要在于准确率方面，对于单一标签的图片（仅识别人物或者物体）可以把识别准确率训练得很高，但对于组合来说，很难保证超高的识别准去率。

跟ImageNet有关

2014年9月的时候Google的图片识别技术还是遥遥领先的，当时媒体给的标题也是《技高一筹？最新的Google图片识别技术能够“认出”大部分物品》

在那年的ImageNet图像识别比赛里面，隶属于Google的GoogLeNet团队刷新了“分类和侦测”记录，挑战主要遵循三个步骤：分类、分类并锁定以及侦测，当时其精度比前年的记录提升了两倍。当时从谷歌发布的照片中我们可以看出，目前这项技术可以识别出我们常见的物体，比如宠物猫、鸡蛋、香蕉、橘子、电视机、显示器、书架等。

Facebook 识别图片盲人识图图像识别技术

然后到了2015年12月的时候，媒体给的标题是《ImageNet图像识别大赛微软打败谷歌获多项第一》，也就是说当年这个名誉易主给微软了。

当时ImageNet图像识别大赛要求选手所设计的图像系统能准确定位来自Flickr和搜索引擎的10万张图片，并把图片划分入1000个物体分类中（狼蛛、iPod、清真寺、玩具店、调制解调器等），错误率越低越好。微软参赛系统的分类错误率为3.5%，定位错误率为9%。在整个比赛中，微软打败谷歌获多项第一。

Facebook 识别图片盲人识图图像识别技术

可谁也没有想到，使用了这项功能后让大家觉得最“黑科技”的却是坐拥14亿个用户社交图片网站的Facebook。实话说，要比图片库Facebook不一定比Google多，但是用户对单张图片信息量的关注度，在Facebook上一定比Google强，就好比我们每天会去刷大量朋友圈看好友的点点滴滴，但不会没事就往搜索引擎里传图片……而现在，盲人们也能天天刷Facebook“看”好友的点点滴滴，让我们一下子就get到这个点的牛掰之处了。

实现路径

体验过一把FB后雷锋网发现，Facebook这个功能实际上是跟iPhone自带的voiceover功能一起使用的，voiceover功能能辨别出所有的text文字然后念出来，所以它这项技术的核心实际上是对毫无标签图片的辨别能力。

对于毫无标签图片的鉴别能力，根据Facebook自己的解释，主要通过3个路径解决：

自动可替代文本。（以往，Facebook会统一把用户上传的图片的可替代文本设置为“XXX的照片”，但现在它会基于人工智能，自动根据照片内容进行替换，因此被称为自动可替换文本。）

运用深度学习（图片识别引擎的核心是一个包含数百万个可学习的参数的深度卷积神经网络，Facebook的计算机视觉平台能够非常简单地收集并分析上百万张照片，并在监督下学习进步。）

进一步组织语句。（在进行了多次实验室研究后，他们决定把图片中的内容分为3个类别：人、物体和场景，在描述图片时，也会按照这样的次序。）

（编辑：应用网_扬州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

华硕TUF GAMING B550M	ROG Maximus XI GENE评
七彩虹CVN B550M GAMI	OPPO Reno7 Pro英雄联