资深专家24h在线:
13858065387

基于光谱成像的褪色文字信息提取和识别研究

访问量:3525 发布时间:2018-04-12

本研究应用了400-1000nm高光谱相机,可采用杭州彩谱科技有限公司产品FS13进行相关研究。

1.png

我国拥有大量的文物,包括壁画、书画等,它们作为中国的传统文物,可以记载古人的精神文化生活和重要的历史事件。其中,最能直观的了解文物所承载信息的当属文字。中华文明源远流长,早在旧石器时,就发现有文字的存在,从古代甲骨文到现代简体字,文字一直是人类记录事件和表达情绪的重要符号。古人留给我们众多珍贵文物,且大都会用文字加以描述和修饰,探索文字的信息能更好的还原真实历史,了解不同时期文化。然而,由于自然和人为因素影响,一些文物表面出现了褪色,影响外观,导致文字难以辨认。因此,在文物保护工作中提取文字信息尤为重要。传统方式多为人眼辨别,依赖文物工作者的经验,但褪色的文字依靠人眼难以辨别。所以,需要利用现代科学技术辅助提取文物中褪色或者隐藏的文字信息。高光谱技术具有非接触、“图谱合一”、光谱范围广等特点,能够对文物进行更深层次的数据留存与分析,利用高光谱独特的优势,可以捕捉到人眼观察不到的信息,对于文字提取和解读具有重要意义。

2.png

本研究使用的高光谱相机波长范围为400-1000nm。

本研究数据为采集的国画、石刻以及墓葬底部的高光谱数据,三处文物均受到了不同程度的损伤,导致文物表面的信息难以辨识,在进行数据预处理后,对其中的褪色信息进行提取,再利用卷积神经网络进行文字识别,为文字辨识工作提供参考。对这三幅高光谱数据的字迹和背景区域分别进行提取,可以看到,国画和石刻图像上除了字迹以外,背景的主要颜色为棕色和白色。另外,在墓葬的高光谱数据观察到存在红色物质,也同样作为背景区域。因此,实验主要对这几处物质的光谱曲线进行提取,每种物质选择 10 到 20 个点,保存为 ASCII 文件,并建立均值光谱。其中,褪色较为严重的石刻数据,背景和字迹几乎无法区分,只能在图像右半部分采集几处字迹的光谱曲线,其他的图像在图中进行均匀选点。如图 5-2 所示,(a)、(b)、(c)分别为国画、石刻和墓葬数据选取的光谱曲线对应位置。橘黄色点是选取的字迹区域,蓝色、紫色和绿色点是选取的背景棕色、白色和红色区域。图 5-2(d)、(e)、(f)为国画、石刻和墓葬经过平均后的光谱曲线图,从图中可以看出,字迹的光谱反射率较低,随着波长的增加,反射率变化较小,而背景的反射率普遍较高,在不同波长下反射率值变化较大。经过高光谱数据优化有,对识别结果有显著的改善。

3-1.png3-2.png3-3.png

对研究方法进行实验与分析。首先,将字迹增强指数应用到三处褪色程度不同的图像上,均得到了较好的增强效果,并与高光谱数据处理常用的两种信息提取方法对比,通过目视解译表明,字迹增强指数对于增强字迹的信息更具有适用性。其次,通过密度分割将文字信息提取得到二值图像,由于石刻文字笔划缺失较为严重,墓葬的符号怀疑是文字,而卷积神经网络针对的是较为完整的汉字,因此仅对石刻和墓葬的提取结果进行形态学变换,提供多种变换结果辅助专家识别。最后,对文字较多的国画图像进行裁剪和形态学变换,输入到卷积神经网络中,得到排名前三的文字,共识别 17 个文字,正确率为 70.8%,这一结果证明了本研究的文字提取与识别方法是有效的。


企业总部

  • 彩谱总公司

    地址:浙江省杭州市钱塘新区文渊北路166号6F南

    电话:13858065387(资深专家24h在线)

    邮箱:yuankun@colorspec.cn

杭州彩谱科技有限公司-全系列高光谱解决方案 地址:浙江省杭州市钱塘新区文渊北路166号6F南 ICP备案号:浙ICP备2021027346号-8

销售直拨:13858065387

固定电话:13858065387

回顶