雷达态势图像表格检测与识别

发布时间:2023-08-26 10:15:05   来源:心得体会    点击:   
字号:

蔡玉宝,李德峰,王 宁,杜会盈,徐 聪

(中国电子科技集团公司第二十七研究所,河南 郑州 450047)

近年来,我国军贸指挥控制武器系统的出口面临不同体制雷达的兼容问题。一些雷达侦测系统的通信接口不对外开放,且无法获取其通信协议。如何快速获取不同体制雷达实时侦测的情报信息,同时将多站点的情报信息融合并上传至指挥中心,有以下两种方式:1)对于可以直接获取接口协议的雷达侦测系统,通过设计接口转换模块,将不同格式的情报转换为统一的情报格式,这种方式比较简单、直接,且易于实现;
2)对有些接口协议不开放的雷达侦测系统,可采取雷达图像识别的方法,间接获取雷达情报信息,这种方式适用于各型雷达侦测系统,但需要同时满足实时性和准确性的要求。

目前,雷达目标大多以坐标形式显示,为了方便人员操作,往往会增加表格显示内容。表格因简明扼要,信息丰富[1],被大量运用于现代雷达显示系统。因此,如何高效地从雷达态势图像定位表格区域,同时有效地识别雷达态势表格中的情报数据,是采用图像识别算法获取雷达情报信息的核心问题之一。

1.1 研究现状

雷达态势图像中表格内容检测与识别问题,可以转化为自然场景下表格文本检测与识别问题。雷达态势图像中显示信息较多,如目标情报信息、控制信息、环境信息等,而目标情报信息可以从态势图像的表格中完整获取。上述任务可分解为两步:1)表格识别;
2)文本识别。

Hu等人将表格识别分解为两个任务,即表格检测与结构识别[2]。表格识别可以采用传统算法和深度学习算法。传统算法大多基于启发式规则进行识别。Chandran等人[3]设计了树形式的表格识别系统,Kieninger等人[4]基于连通分支分析提出了T-Recs系统,Yildiz等人[5]提出了pdf2table方法,Koci等人[6]采用遗传算法进行表格识别。

近年来,随着深度学习目标检测算法研究的深入,基于深度学习算法的表格识别系统逐渐分为三个研究方向:表格检测、表格结构识别和端到端表格检测与识别[7]。表格检测以基于候选区域的算法(Faster RCNN)[8]和基于回归的算法(YOLO)[9]为典型代表。Sun等人[10]和Gilani等人[11]通过改进Faster RCNN网络在通用表格检测领域取得了不错的效果。Huang等人[12]采用YOLOv3模型对表格进行检测。Siddiqui等人[13]采用全卷积网络(FCN),Tensmeyer等人[14]提出SPLERGE表格结构识别模型进行表格结构识别。此外,还有采用循环卷积网络[15]和图神经网络[16]的表格结构识别模型。为克服单一模型级联耗时问题,常采用端到端的表格检测与识别模型,其中,以Schreiber等人[17]提出的DeepDeSRT系统和Paliwal等人[18]提出的基于图像语义分割模型TableNet的端到端的表格检测与识别算法为代表。

文本识别问题也可以分解为文本检测和文本识别两个步骤[19],在雷达态势图像中检测到表格,并进行结构识别,得到表格的物理结构,包含了文本检测步骤。Goel等人[20]提出的传统文本识别方法需要多步骤组合进行识别。基于深度学习的文本识别算法通常将文本识别分为文本特征提取和字符序列转化[21],其中,特征提取常采用通用卷积神经网络,如VGG、ResNet等[22];
字符序列转化常采用CTC[23]模型和Sequence-to-Sequence(Seq2Seq)模型[24]。

CRNN模型[25]采用CNN、RNN和CTC结构,是序列文本识别常用的算法。RARE模型[26]采用空间变换网络(STN)和序列识别网络(SRN),对扭曲变形文本支持较好。STAR-Net模型[27]采用空间变换网络(STN)和CRNN模型,对扭曲变形的文本有较好的性能表现。基于语义推理网络的SRN模型[28]采用CNN、并行视觉提取模块(PVAM)、全局语义推理模块(GSRM)和视觉语义融合解码器(VSFD),对并行处理支持较好。

1.2 技术途径

本文通过网络摄像头实时采集雷达态势界面图像,对态势图像中的表格和文本块进行定位,再进行文本识别。最终获取雷达目标信息,经筛选组合发送至指挥中心,系统组成如图1所示。

图1 系统组成

1)表格识别

目前,基于深度学习的表格检测与识别算法,在通用表格检测与识别场景中已经得到广泛应用。在某些特定场景中,如本文提出的雷达态势图像表格识别场景,为了提高识别准确率,需要对大量的自然场景图像训练样本进行训练,而在恶劣条件下(尤其是军用环境),大量的图像训练样本往往难以获取,且深度学习算法相对比较复杂,计算比较耗时。

通过分析特定雷达态势界面表格风格及布局,采用传统算法进行表格检测与识别,往往可以取得不错的检测结果,既保证了精度,又满足了实时性要求,因此,本文基于数学形态学算法对雷达态势图像中的表格进行检测与识别。

2)文本识别

文本识别一般可以分为文档文本识别和自然场景文本识别,传统文本识别算法在进行文档文本识别时,可以取得较高的识别准确率,但应用于自然场景时,其识别准确率较低。在自然场景文本识别领域,深度学习算法的应用越来越广泛。CRNN模型相对比较简单,处理效率较高,采用了CTC损失函数进行解码,对长文本序列有较好的识别效果;
STAR-Net模型在CRNN模型的基础上增加了空间变换网络,对扭曲变形的文本识别有较好的性能表现,但对标准的文本识别效果相对差一些,且处理效率比CRNN更低;
RARE模型同STAR-Net算法类似,支持扭曲变形文本和多向文本,算法同样面临处理效率低的问题;
SRN模型充分利用了语义信息,提升了文本识别的准确率及鲁棒性,对并行处理支持较好,同时该模型还支持扭曲的文本序列识别,但是网络结构比较复杂,若对并行处理支持不好时,其识别效率反而会降低。

在提取到雷达态势图像中的表格后,我们对整个表格进行了倾斜矫正。表格中的文本字体相对单一,本文充分考虑算法处理效率和识别准确率后,选择基于CRNN模型的文本序列识别算法,该模型不仅简单,且识别效率和准确率较高。

2.1 图像预处理

雷达界面数据更新速率一般不高,不需要对视频的每一帧图像进行处理。若每帧图像都处理,会极大地浪费计算资源,且后端的处理速度也无法跟上。由于网络摄像机采用RTSP协议且内部有缓存,若后端处理耗时,就无法获取最新的图像帧,造成情报获取滞后。为解决上述问题,通过信号量控制后端处理线程和视频采集线程的同步,当后端线程处理完一帧图像后,再处理视频采集模块采集到的最新一帧视频图像,就能保证每次获取的图像都是当前采集的最新图像。

在自然场景中,尤其是军用环境中,自然光、灯光及其他因素会干扰摄像头的成像质量,为了消除干扰及噪声,需要对图像进行二值化处理。

本文采用自适应阈值算法对图像进行二值化处理,首先遍历整幅图像,通过计算得到移动平均值,若该像素值低于平均值,则设置该像素为黑色,否则,设为白色。通过设置灰度图像的邻域块大小,分别计算其平均值,再采用正向二值化设置像素值为

(1)

2.2 表格线检测与过滤

表格线一般为横线和竖线,对二值化图像进行开运算,可以检测到表格线,其原理是对一幅图像先进行腐蚀操作,再进行膨胀操作。

腐蚀算法的思路是设计一个核元素(类似模板),将其与图像做交运算,当核元素与二值化图像上对应像素值完全相等时,保留该元素。其计算如下:

S=X⊗B={x,y|Bxy⊆X}

(2)

其中,S为腐蚀后的图像,X为二值化图像,B为核元素。

膨胀算法与腐蚀算法类似,当核元素与二值化图像上对应像素值至少有一个像素相等时,保留该元素。其计算方式如下:

S=X⊕B={x,y|Bxy∩X≠Ø}

(3)

通过构建不同的核对二值化图像进行开运算,可以检测出图像中的横线和竖线。得到的图像闭区域中存在较多的线条,可以设定合适的阈值过滤表格线,如果直线的长度大于阈值,则过滤,反之则保留,太小的直线可能是字符的笔划,还有的可能是噪声。

2.3 表格矫正

由于摄像机每次摆放位置不固定,其获取的图像可能存在倾斜现象,若直接处理整幅图像,会浪费计算资源,可以先对图像中表格内容进行图像切割,再依据表格的四个顶点坐标,对裁剪后的图像进行矫正。

本文采用透视变换的方法对雷达表格图像进行矫正,透视变换公式为

(4)

该变换是从二维空间变换到三维空间,而我们要得到的是二维图像,故需要对坐标进行归一化处理:

(5)

(6)

将坐标值代入公式(5)和(6),通过计算得到透视变换矩阵,利用透视变换完成图像矫正。

2.4 字符块定位

在特定场景下,通过分析雷达态势图像中表格的布局与结构,采用连通域标记法进行字符块定位,通过标记二值化图像中的像素点,使连通区域形成独立的被标识模块,进一步得到这些区域的轮廓、质心等几何参数。计算每个区域的面积,若连通域的面积太小,可能是随机噪声;
面积太大,可能是背景或者其他对象。保留面积在指定范围内的连通域,就可以完成字符块定位。

3.1 CRNN网络结构

为解决不定长文本识别问题,CRNN首先将输入图片进行缩放,使文本图像的高度始终为32,宽度不定,然后将归一化的图像作为输入,利用7层卷积神经网络(CNN)提取特征图,再按列切分特征图为1×512的特征序列,将特征序列输入两层双向长短期记忆网络(BLSTM)进行分类。在训练过程中,通过连接时间分类模型(CTC),实现字符位置与目标文本标签的近似软对齐,其网络结构如表1所示。

表1 CRNN网络结构

3.2 损失函数

循环层输出的是不定长的序列,进行分类任务时,会出现较多的冗余字符,但是某些词语中可能存在两个重复的字符,简单地去掉冗余字符就不能得到完整单词,而CTC采用blank机制(重复的字符之间插入特定符号“-”)解决了该问题。

在处理不定长文本序列时,可能存在多个不同组合可以映射为目标文本标签路径。设BLSTM网络的输入为x,那么输出为l的概率为

p(l|x)=∑π∈B-1(l)p(π|x)

(7)

其中,B运算定义为目标标签的映射,π∈B-1(l)表示可以合并成目标标签l的所有路径集合,通过B映射及所有候选路径概率之和,使得CTC不用对输入序列进行精准切分。

CTC的损失函数O定义为负最大似然函数的对数:

(8)

3.3 网络模型训练

CRNN网络模型可以使用一些公开的数据集进行训练,如ICDAR、SVT和COCO-Text等,在进行自然场景文本识别时,通用性较强。应用于雷达态势图像表格文本识别时,也能取得不错的效果,但这些数据集一般比较大,模型收敛较慢,训练时间较长。在特定的场景下,使用自己构造的训练数据集,可以减少训练时间,场景不复杂时,甚至可以提升识别准确率。

雷达态势图像中的目标信息往往以简洁、直观为主,那么,需要针对特定的雷达态势图像做语料收集和字体收集。以某型雷达为例,表格中的目标信息由英文字母、数字和小数点构成,其字体相对固定,那么,可以构造简洁的数据集进行训练,这样可以加快模型收敛速度,减少训练时间。

4.1 软硬件平台

试验所需的软件平台和硬件平台要求如下:

操作系统:Ubuntu 20.04;
CPU:i9-11900K;
GPU:RTX3090;
内存:64 GB;
深度学习框架:tensorflow-2.2.0;
图像处理框架:opencv-4.2.0。

4.2 表格识别的时间与准确率

本文采用数学形态学算法进行雷达态势图像表格识别,在特定自然场景下,基于数学形态学算法的表格识别准确率可以达到100%,单帧图像平均处理时间为0.16 s。

4.3 文本识别的时间与准确率

本文处理的雷达态势表格中的目标数据为25行4列,表2是目前常用的几种文本序列识别算法分别在SVT和SVT-50数据集下的识别准确率。雷达态势图像中表格经倾斜矫正后,为标准文本识别,采用CRNN模型具有较高的识别准确率。

表2 文本识别准确率对比

表3列出了上述四种文本序列识别算法处理单帧图像时的平均耗时。

表3 文本识别耗时对比

对于特定雷达图像文本识别,由于其字体固定,语料简洁,通过构建合适的数据集,能有效提升识别准确率,在某些特殊的自然场景中,采用CRNN模型,其识别准确率可以达到99%,耗时也相对较少。

本文采用数学形态学算法检测特定场景下的雷达态势图像中的表格,然后通过CRNN算法进行表格文本识别,平均单帧图像处理的耗时小于500 ms(表格识别加文本识别的时间),识别准确率可以达到95%以上,满足实时性和准确率的要求,可以应用于特定场景下的雷达态势图像数字化转换,同时也为无人值守信息采集平台提供一种发展思路。

后期,针对雷达目标过多,表格内容显示不全的问题,增加雷达态势极坐标下的目标检测算法,并结合文本识别算法进行综合分析,将会得到更加优异的雷达图像信息数字化转换结果。

猜你喜欢态势表格准确率《现代临床医学》来稿表格要求现代临床医学(2022年5期)2022-09-28《现代临床医学》来稿表格要求现代临床医学(2022年1期)2022-02-12乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析健康之家(2021年19期)2021-05-23不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨医学食疗与健康(2021年27期)2021-05-132015—2017 年宁夏各天气预报参考产品质量检验分析农业科技与信息(2021年2期)2021-03-272019年12月与11月相比汽车产销延续了增长态势汽车与安全(2020年1期)2020-05-14统计表格的要求文化创新比较研究(2020年13期)2020-01-01汇市延续小幅震荡态势中国外汇(2019年19期)2019-11-26我国天然气供需呈现紧平衡态势中国化肥信息(2019年5期)2019-06-25高速公路车牌识别标识站准确率验证法中国交通信息化(2018年5期)2018-08-21