小优智能科技有限公司成立于2015年底,是一家专注于高精度3D机器视觉模组研发、生产及销售的高科技企业。
公司自主研发的3D机器视觉模组采用激光/DLP白光编码光栅结构光+双工业相机方案,还原物体三维信息,广泛应用于消费电子领域、工业领域和安防领域,具有精度高、速度快、成本低的优势。
机器视觉检测发展历程
机器视觉是指利用相机、摄像机等传感器,配合机器视觉算法赋予智能设备人眼的功能,从而实现物体的识别、检测、测量等功能。简单说来,机器视觉就是用机器代替人眼来做测量和判断。机器视觉是计算机视觉的一个微小分支,是一个非常新颖并且发展十分迅速的研究领域,自起步发展到现在,已有三十多年的发展历史,而且作为一种应用系统,随着工业自动化的发展而逐渐完善。
机器视觉是一种非接触的测量方式,在一些不适于人工作业的危险工作环境或者人工视觉难以满足要求的场合,常用机器视觉来替代人工视觉,而且在大批量重复性工业生产过程中,用机器视觉检测方法可以大大提高生产的效率和自动化程度。进入21世纪以来,机器视觉技术发展迅速且开始大规模地应用于多个领域。按照应用的领域,机器视觉可以划分为智能制造、智能生活两类,比如工业探伤、自动焊接、医学诊断、跟踪报警、移动机器人、指纹识别、模拟战场、智能交通、智能医疗、无人机与无人驾驶、智能家居等等。现在,机器视觉仍然是一个非常活跃的研究领域,与之相关的学科涉及:图像处理、计算机图形学、模式识别、人工智能、神经网络等。目前机器视觉在工业上的应用主要有:测量、外观检测、条码、字符识别、定位等。
人们从20世纪50年代开始研究二维图像的统计模式识别。1965年,L.R.Roberts通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。其研究工作开创了以理解三维场景为目的的三维机器视觉的研究。人们开始对三维结构进行了深入的研究,研究的范围从角点、边缘等待征提取,到线条、平面、曲面等几何要素分析,—直到图像明暗、纹理、运动、成像几何等,并建立了各种数据结构和推理规则。
70年代中,MIT人工智能实验室正式开设“机器视觉”课程,1977 年,David Marr提出了不同于“积木世界”分析方法的计算机视觉(computational vision)理论,这就是著名的Marr视觉理论。从80年代开始,兴起了全球性的研究热潮,不仅出现了基于感知特征群的物体识别理论框架、主动视觉理论框架、视觉集成理论框架等概念,而且产生了很多新的研究方法和理论。无论是对一般二维信息的处理,还是针对三维图像模型和算法的研究都有了很大的提高。90年代,机器视觉理论得到进一步的发展,开始在工业领域得到应用,同时在多视几何领域的应用也得到快速的发展。
机器视觉系统的工作原理是:通过机器视觉产品(即图像摄取装置)将被摄取目标转换成图像信号,传送给专用的图像处理系统,得到被摄目标的形态信息,根据像素分布、亮度、颜色等信息,转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作。计算机视觉关注的目标在于充分理解电磁波(主要是可见光与红外线部分)遇到物体表面被反射所形成的图像,而这一过程便是基于光学物理和固态物理,解析图像或视频所表示的真实世界。
机器视觉的经典问题是判定一组图像数据中是否包含某个特定的物体、图像特征或运动状态,这一问题通常可以通过机器自动解决。但是到目前为止,还没有某个单一的方法能够广泛的对各种情况进行判定:在任意环境中识别任意物体。现有技术能够也只能够很好地解决特定目标的识别,比如简单几何图形识别、人脸识别、印刷或手写文件识别、车辆识别等。而且这些识别需要在特定的环境中,具有指定的光照、背景和目标姿态要求。
在深度学习算法出来之前,对于视觉算法来说,大致可以分为以下5个步骤:特征感知、图像预处理、特征提取、特征筛选、推理预测与识别。早期的机器学习中,占优势的统计机器学习群体中,对特征是不大关心的。特征或者视觉特征,就是把这些数值给综合起来用统计或非统计的形式,把想识别或检测的部件或者整体对象表现出来。深度学习的流行之前,大部分的设计图像特征就是基于此,即把一个区域内的像素级别的信息综合表现出来,利于后面的分类学习。手工设计特征需要大量的经验,需要对这个领域和数据特别了解,并且设计出来特征还需要大量的调试工作。另一个难点在于,机器视觉工程师不只需要手工设计特征,还要在此基础上有一个比较合适的分类器算法。同时设计特征然后选择一个分类器,这两者合并达到最优的效果,几乎是不可能完成的任务。
于是,学术界开始研究开发不需手动设计特征、不挑选分类器的机器视觉系统,希望机器视觉系统同时学习特征和分类器,即输入某一个模型的时候,输入只是图片,输出就是它自己的标签。随着深度学习迅猛发展,卷积神经网络(CNN)的出现使得该设想得以实现,基于深度学习的计算机视觉研究发展迅速。LeNet在1998年提出了深度学习网络的最初原型LeNet,输入图像是32×32的灰度图,第一层经过了一组卷积和,生成了6个28X28的feature map,然后经过一个池化层,得到得到6个14X14的feature map,然后再经过一个卷积层,生成了16个10X10的卷积层,再经过池化层生成16个5×5的feature map。LeNet从最后16个5X5的feature map开始,经过了3个全连接层,达到最后的输出,输出就是标签空间的输出。由于设计的是只要对0到9进行识别,所以输出空间是10,如果要对10个数字再加上26个大小字母进行识别的话,输出空间就是62。62维向量里,如果某一个维度上的值最大,它对应的那个字母和数字就是就是预测结果。
2012年,Hinton课题组的CNN网络AlexNet在ImageNet图像识别比赛,一举夺得冠军。2014年牛津大学几何视觉组的VGG网络在ImageNet图像识别比赛中夺冠,随后GoogLeNet、ResNet分别在2014、2015年ImageNet图像识别夺冠, 2016年欧洲计算机视觉大会上,南京大学魏秀参的DAN+模型在短视频表象性格分析竞赛(Apparent personality analysis)中夺冠,基于卷积神经网络的机器视觉已充分兑现了其发展潜力。
如今,深度学习已经广泛应用于计算机视觉研究,人脸识别、图像识别、视频识别、行人检测、大规模场景识别的相关论文里都用到了深度学习的方法,深度学习可以做到传统方法无法企及的精度,这是其迅速兴起的关键。2012年,深度学习在图像识别领域有重大突破。目前计算机视觉在很多应用领域达到了实用水平,催生了工业界的大量应用。深度学习算法的通用性很强,基于深度学习的算法更加通用,此外,深度学习获得的特征(feature)有很强的迁移能力。例如在ImageNet(物体为主)上学习到的特征在场景分类任务上也能取得非常好的效果。深度学习计算主要是卷积和矩阵乘,针对这种计算优化,所有深度学习算法都可以提升性能,所以,深度学习的工程开发、优化、维护成本低。另外,通过组合现有的层(layer),我们可以实现大量复杂网络结构和一些算法,使其开发维护的成本进一步降低。
在现代化生产中,由于能够最大程度地提高产品质量、降低成本,机器视觉检测一直被广泛用于各类工业检测项目上。而随着工业制造技术和加工工艺的提高和改进,对检测手段、检测速度和精度提出的更高要求,也使得机器视觉检测技术在各大行业建功无数,发展势头强劲。可以预计的是,随着机器视觉技术自身的成熟和发展,机器视觉检测技术将在现代和未来制造企业中得到越来越广泛的应用。