基于图像识别的错位图书检测技术研究

发布时间：2022-03-21 10:09:32 来源：作文大全点击：

小中大

字号：

手机查看

大学的David Chen等人给出图书书库管理系统[2]，通过智能手机对书架上的图书进行采集图像，经过识别之后，通过互联网或者图书馆的数据库，可以得到图书的详细信息，包括书名、作者、价格等。而方向感应器以及高速网络访问使得低成本的自动跟踪成为可能[3]。本文主要针对错位图书检测技术涉及到的图书分割、图书识别两个方面进行了深入的研究，并且针对其中的难点提出了切实有效的解决方法。

1 图书分割

1.1 颜色分割

图书馆中的索书标签存在单一的背景和前景（索书号），如白色的背景和黑色的文字，而且噪声少，如图1所示。

由于索书标签一般在图书的底部，因此将感兴趣区域定义在原图像的下半部分，故需要处理的图像大小减少一半，减少了处理的时间和计算量。在这种情况下，利用特定的颜色可以快速定位同一幅图像中所有索书标签的大致位置。但由于实际环境的复杂性，如光线变化，遮挡，智能手机摄像头的限制，捕获的图像中出现图书曝光过足，书架靠近地面的部分光线不足，索书标签的白色区域亮度不足，书脊上除了索书标签其他部分也存在白色区域等难题。

由于书脊整洁程度不一，光线变化，有些区域即使是同种颜色，经过一段时间使用，也变化较大，二值化后的图像存在面积小的噪声点或区域，而图书标签分割关注的感兴趣区域是比这些噪声面积大得多的背景是白色的标签，故可以利用图像处理形态学中的腐蚀方法剔除这些噪声[4]，腐蚀核大小为5，得到的结果如图2所示。

由图2可以看出，书脊之间存在黑色的细缝，而这些细缝把大部分图书分割开来。再者在同一本书中索书标签与其他区域有明显的分割区域，故可以通过连通区域分析，把大部分索书标签分别表示成单独的连通区域。进一步分析，书脊上的一些字形成的连通区域，相对索书标签小很多，因此可以通过限制连通区域的面积大小，去除一部分小的白色连通区域，实验中，取面积阈值为30 000像素点，保留下的连通区域如图3所示，不同的连通区域用不同的颜色表示，得到的连通区域个数为14。

1.2 基于LSD的图书分割

经过颜色分割的局域主要是白色的部分，而这些局域可能不包括书脊边缘的直线，为了更好地检测到书本边缘的直线，这里增宽颜色分割后的各个局域，增宽的规则是向左向右分别延宽15像素，对在捕获图像中最左或者最右的局域，延长的最大宽度是15像素与局域左右边界到达相应图像边界的差值两者之间的最大值。

采用line segment detector检测图像中的直线。考虑到图书馆中的图书一般竖直地摆放着，即使有些倾斜，倾斜的角度也不大，定义候选直线的倾斜角度范围为（[3π8，][5π8]）。图像中书脊边缘保持一个主方向角度，即MainAngle，实验中默认的值为[π2，]并且倾斜角度在主方向角度一定的范围内，在实验中，选择在最左边或者最右边20像素的局域中的直线，这些直线中的两个端点都在边界20个像素的范围内，再者另外一个条件是直线的倾斜角度与[π2]的差值要小于[π8，]则把这些符合条件的直线的倾斜角度定义为要进行直线检测局域的主方向角度。

得到主方向MainAngle之后，保留与主方向角度偏差[π16]的直线。书脊边缘的直线相对书脊其他部分的直线如文字、图形中的直线要长，即在图像所占的比率大于某个阈值[2]，通过实验，定义候选直线占图像高度的阈值为0.15。经过上述规则可以得到书脊的边缘直线。根据得到的直线，用数组lines6表示，再将图书分割出来。图书的边缘存在多条直线，但都聚集在很小的区间而且直线的倾斜角度差不多，再者图书的厚度一般大于图书间的间隔，故利用这些先验知识，采用算法1可以得到一组组包含图书书脊的局域。

算法1：图书分割

输入：[xb=0；][xl=0；]idx=0；[xr=]Width（输入图像的宽度）；

Vectorlines6（输入图像检测到的直线数组，线段用两个端点的左边、长度、倾斜角度描述）；Num（直线段的个数）；

VectorCBookLabel（颜色分割得到的一组矩形局域，包含单个的、完整的图书标签，以及多个标签聚集的矩形区域）。

输出：VectorLabel（输出一组矩形局域，用左上角坐标、高度、宽度描述，即候选的图书）。

（1）如果第一条直线与图像最左边的间隔大于70，则将Rect（0，0，[x1，]Height）输出到Label中。[x1]为该直线左端点的[x]坐标值。

（2）依次在图像中从左到右搜索未处理的直线，如果找到，则在该直线附近的20个像素搜索类似的直线，并把20个像素范围内最后的直线作为图书起始的直线line1；如果未找到，则输出Label结束。

（3）从第（2）步得到的图书起始直线，接着往右搜索类似的直线，如果未搜索到，则将Rect（line1.[x，]0，Width， Height）输出到Label。

3 字符识别

形状上下文是一种描述形状的方式，可用来评估形状的相似性。基本的思想是取轮廓上形状的n个点。对形状上的每个点[pi，]考虑n-1维向量，它们将[pi]和所有其他的点连接起来。这些向量的集合是对形状上那个点一种丰富的描述。关键的思想是基于相对位置的分布是一种鲁棒、简洁和有高度区别性的描述子。

支持向量机SVM根据有限的训练样本仍然保证独立测试集误差保持在一个小的范围。即由有限的样本信息，在模型的学习能力和复杂性间寻求最佳契合点，以获得最优的推广能力。本文采用林智仁博士开发的SVM软件包LIBSVM按照相应的格式对数据集进行标准化，对要处理的数据进行缩放操作，使用核函数RBF，[Kx，y=e-rx-y2]使用交叉验证方法选择最佳的参数[C]与[r；]使用LIBSVM的测试和训练文件格式如下：

：： …

其中是训练数据集的目标值，对于本文中如A，B，C，D，E，1，2，3，4，5，6，7，8，9，…。是以1开始的整数，表示特征的序号；为实数，也就是特征值。当value值为0时，和可省略。

对数据集进行缩放操作，一方面是为了避免特征值过小或过大；另外一方面是避免在训练时为了计算核函数而导致计算内积的时候引起数值计算的困难。一般将数据缩放到[-1，1]或是[0，1]之间。进而利用svmtrain对训练数据集进行训练，得到SVM训练模型，进一步根据训练获得的模型对未知数据集进行预测。

4 实验结果与分析

为了评估图书索书标签分割和识别的结果，实验采集了图书书脊的样本，并作为图书分割和识别的数据集。采用Tesseract OCR引擎对仅仅包含字符和标点符号的索书标签进行识别[7]。一般来说，图书标签第2行文字对图书识别起到关键性的作用，如果第2行的文字被完整的识别，那么判断该本书对应图书馆数据库中的哪本书也就容易得多。

如表1所示，实验中从567本图书中正确地分割出554本图书，分割率为97.7%，超过结合颜色分割和Hough直线检测的方法，分割率为89.77%。尽管如此，在图书书脊分割中也有些失败，原因是一些书脊太薄以致不能被检测到或者曝光太足，书脊上的高亮造成在图像中图书的边界区域直线根本不明显。

在本系统中，平均一个索书标签有0.64个字符不能被识别，比UJI大学图书馆机器人索书标签识别的方法效果要好。为了更好地评估识别的结果，采用f⁃measure作为评估的方法，实验中，索书标签识别的结果为f⁃measure88.66%，准确率为87.74%，召回率为89.59%。索书标签识别如图5所示。

对于图5（a），从左往右数第2本书及第6本书被识别为“TP391.4X3283”，“H6251.H3283”。第2本书由于字体的原因上端和下端都突出一部分，有点类似X，由于出现在局域的边界受噪声的干扰故识别为X。第6本书由于采集图像时，受第7本书的遮挡，“TP391.41”显示不完全，故造成识别错误。但是第2、第6本书第2行都识别正确，一般情况下同个书架同一行的图书中索书标签第1行的文字都类似，第2行对识别的结果有较大作用，故该图像中所有图书都能被识别。

对于图5（b），从右往左数第4本书被识别为“P391.41 3272”，其原因也是索书标签的贴法不正确，“T”这个字母不在书脊上，故这种情况只能在开始贴索书标签的时候确保正确无误，不过“T”字母的缺少并不影响该书被正确的识别。从右往左数第1本书因为捕获图像时没有捕获图书标签，故为空。因此可认为该图像中所有的图书都被正确识别。

对于图5（c），从左到右第1本、第9本、第10本书都没有被正确识别。原因是这三本书太薄，索书标签在这三本书的书脊上不能完全显示，因此也就不能被OCR识别。针对该情况可以结合射频识别技术来识别太薄的图书，以提高总的图书识别率。

根据实验结果，可以得到基于索书标签的分割与识别在图书馆自动化管理中有很大的用途，并且结合颜色分割与直线检测的图书分割，轮廓局域增长而实现的索书标签的分割有效，而且更可行。在轮廓局域增长中，通过实验也表明索书标签候选局域进一步的优化过程，能包含不完整、断裂的字符轮廓，因此能将索书标签完整地分割出来。

5 结论

本文深入研究了基于图像识别的错位图书识别技术，主要包括图书分割、标签分割、索书标签识别，错位图书检测，并对其中涉及的技术和算法做了深入的阐述和调研。通过实验证明所提出方法的有效性与可行性。重点研究了基于颜色分割和直线线段检测相结合的图书分割方法，将本文提出的方法和其他图书分割，索书标签识别的方法进行对比，通过定量和定性的分析，证明了本文提出的方法能够得到更准确、更有效的实验结果。下一步针对图书太薄，索书标签太旧、模糊不清的情况，结合射频识别加以补充，将大大提高图书识别的准确率。

参考文献

[1] 康志亮，许丽佳.基于小波的红外图像去噪算法研究[J].计算机仿真，2011，28（1）：265⁃267.

[2] 游福成.数字图像处理（Digital Image Processing）[M].北京：电子工业出版社，2011：67⁃68.

[3] 匡金骏，熊庆宇，柴毅.基于核稀疏分类与多尺度分块旋转扩展的鲁棒图像识别[J].模式识别与人工智能，2013，26（2）：129⁃135.

[4] 刘波，梅瑛，李瑞琴.基于TRIZ理论的图书分拣机的设计研究[J].机械设计与制造，2013（2）：23⁃25.

[5] CHEN D， TSAI S， HSU C H， et al. Mobile augmented reality for books on a shelf [C]// Proceedings of 2011 IEEE International Conference on Multimedia and Expo. 2011： 1⁃6.

[6] 孟钢，贺杰，鲍莉，等.基于遥感图像分块直线特征检测的机场跑道检测方法[J].航空学报，2014，35（7）：1957⁃1965.

[7] 赵众，常灿，陈磊.基于图像识别技术的烟包封条缺陷检测[J].北京工业大学学报，2014，40（7）：986⁃990.

[8] 张会敏，谢泽奇，张云龙.红外图像报警系统的研究与实现[J].计算机测量与控制，2011，19（2）：432⁃436.