首页|视野|消息|博览|滚动|焦点|新知|数据|追踪|聚合|推荐|围观|精选|快讯|热点|荐闻

一文看懂:“计算机视觉”到底是个啥?

发稿时间:2016-11-15 11:00:38 来源:米皮网

(原标题:一文看懂:“计算机视觉”到底是个啥?)

undefined

想象一下,有人朝你扔过来一个球,你会怎么办?当然是马上把它接住。这个问题是不是弱智死了?

但实际上,这一过程是最复杂的处理过程之一,而我们目前尚处于理解它的阶段,离重塑还非常遥远。这就意味着,发明一个像人类一样去观看的机器,是一项非常艰巨的任务,不仅是让电脑去做到非常困难,甚至我们自己都无法确定完整的细节。

实际上的过程大概如下:首先球进入人类的视网膜,一番元素分析后,发送到大脑,视觉皮层会更加彻底地去分析图像,把它发送到剩余的皮质,与已知的任何物体相比较,进行物体和纬度的归类,最终决定你下一步的行动:举起双手、拿起球(之前已经预测到它的行进轨迹)。

上述过程只在零点几秒内发生,几乎都是完全下意识的行为,也很少会出差错。因此,重塑人类的视觉并不只是单一一个困难的课题,而是一系列、环环相扣的过程。

早在1966年,人工智能领域的先锋派人士Marivin Minsky就曾经给自己的研究生出题,要求他们“把摄像机连到一台电脑上,让它描述自己看到了什么。”而50年之后,今天的人们仍然在研究相同的课题。

这一领域的深入研究是从20世纪50年代开始的,走的是三个方向——即复制人眼(难度系数十颗星);复制视觉皮层(难度系数五十颗星),以及复制大脑剩余部分(难度系数一百颗星)。

复制人眼——让计算机“去看”

目前做出最多成效的领域就是在“复制人眼”这一领域。在过去的几十年,科学家已经打造了传感器和图像处理器,这些与人类的眼睛相匹配,甚至某种程度上已经超越。通过强大、光学上更加完善的镜头,以及纳米级别制造的半导体像素,现代摄像机的精确性和敏锐度达到了一个惊人的地步。它们同样可以拍下每秒数千张的图像,并十分精准地测量距离。

undefined

数码相机里的图像传感器

但是问题在于,虽然我们已经能够实现输出端极高的保真度,但是在很多方面来说,这些设备并不比19世纪的针孔摄像机更为出色:它们充其量记录的只是相应方向上光子的分布,而即便是最优秀的摄像头传感器也无法去“识别”一个球,遑论将它抓住。

换而言之,在没有软件的基础上,硬件是相当受限制的。因此这一领域的软件才是要投入解决的更加棘手的问题。不过现在摄像头的先进技术,的确为这软件提供了丰富、灵活的平台就是了。

复制视觉皮层——让计算机“去描述”

要知道,人的大脑从根本上就是通过意识来进行“看”的动作的。比起其他的任务,在大脑中相当的部分都是专门用来“看”的,而这一专长是由细胞本身来完成的——数十亿的细胞通力合作,从嘈杂、不规则的视网膜信号中提取模式。

如果在特定角度的一条沿线上出现了差异,或是在某个方向上出现了快速运动,那么神经元组就会兴奋起来。较高级的网络会将这些模式归纳进元模式(meta-pattern)中:它是一个朝上运动的圆环。同时,另一个网络也相应而成:这次是带红线的白色圆环。而还有一个模式则会在大小上增长。从这些粗糙但是补充性的描述中,开始生成具体的图像。

undefined

使用人脑视觉区域相似的技术,定位物体的边缘和其他特色,从而形成的“方向梯度直方图”

由于这些网络一度被认为是“深不可测的复杂”,因此 在计算机视觉研究的早期,采用的是别的方式:即“自上而下的推理”模式——比如一本书看起来是“这样”,那么就要注意与“这个”类似的模式。而一辆车看起来是“这样”,动起来又是“这样”。

责任编辑:刘军
猜你喜欢