关键词:
双面盲文图像识别
自制双面盲文数据集
目标检测
语言模型
摘要:
传统盲文识别研究主要将双面盲文识别简化为对正反两面的独立单面识别过程,此方法需对盲文刻印品进行翻转并多次采集图像,不仅效率低下,而且在特定环境下受限于盲文刻印设备的物理结构无法实现翻转操作。此外,识别范围仅限于盲文凸点,而忽略了盲文凹点的信息。同时,盲文图像识别领域的算法进展有限,并且当前盲文数据集资源严重匮乏,现有公开数据集主要以单面盲文为主,其标注信息仅包含盲文凸点特征,缺乏凹点信息。针对上述问题,本研究提出一种能够同时识别盲文凸点与凹点的双面盲文检测模型(Double Side Braille Detection,DSBD),并针对盲文检测的特定挑战设计了三个独立改进模块,利用自主构建的双面盲文数据集进行实验验证。同时,采用微调的语言模型对检测结果进行校正,显著提升了识别精度。最优模型在m AP50-95评价指标上较现有方法提高了20.76%。本研究的主要贡献如下:
(1)组建了标注团队,通过系统化培训使成员掌握标注工具操作,后对盲文凹点构成的反面盲文数据集进行了标注与校对,构建了高质量反面盲文数据集,结合对现有数据集的系统化收集与处理,创建了完整的双面盲文数据集。自主开发代码将数据转换为YOLO格式,并应用图像增强技术显著扩充了样本数量。
(2)本研究提出一种能够同时识别盲文凸点与凹点的双面盲文检测模型DSBD,并且针对双面盲文检测中的区域干扰及检测框重叠问题,提出了动态特征聚合(DFA)模块,该机制能根据输入图像内容自适应调整注意力区域,使模型精确捕捉盲文凸点、凹点的关键特征,该模块的最高准确率达99.30%,较YOLOv5提升14.31%;针对双面盲文作为小目标检测面临的多因素干扰问题,设计了特征增强与压缩(FEC)模块,显著提升模型对盲文点微弱特征的感知能力,降低误识别率,该模块的m AP50最高达83.85%,较YOLOv5提升11.29%;为增强模型对盲文特征的感知能力,开发了基于SE模块的改进结构,有效提升盲文特征的区分性,促进模型更精确地分离前景目标,减少特征混叠影响,该模块的m AP50-95最高达75.34%,较YOLOv5提升20%。此外,对YOLOv11网络架构进行了针对性优化,使其更适应盲文特征与数据集特性。
(3)检测模型对盲文的置信度评估存在波动性,难以保持恒定高水平。为此,本研究开发了基于自定义盲文字符级Tokenizer微调的GPT-2盲文预测语言模型,该模型能根据汉语盲文上下文关系进行预测,生成特定位置最可能出现的盲文字符及其对应的预测置信度。通过阈值筛选或置信度优先的方法,将语言模型与检测模型结果融合,采用双重评估机制对检测结果进行综合判断与校正。此方法通过语言模型的引入提高了盲文预测准确率,使预测结果更符合汉语盲文语法规则。
(4)基于上述研究成果,构建了完整的双面盲文识别系统,包括单模型双面盲文识别模块和双模型双面盲文识别模块,用户可上传盲文图像进行识别并获取可编辑的盲文字符;独立开发的盲文预测功能允许用户输入盲文序列,通过语言模型预测后续盲文的概率分布;系统还集成了历史记录功能,支持查询各功能使用记录;个人中心功能,允许用户修改个人资料、账户安全设置及系统配置参数。该系统已成功部署于网页及移动应用平台,为视障人士及相关工作者提供便捷的盲文识别工具。
本研究提出的创新双面盲文识别技术显著提高了识别效率,降低了操作成本。通过构建自主双面盲文数据集并验证本研究的创新算法,结果表明所提方法有效提升了盲文识别准确率。同时,通过融合自定义字符级Tokenizer的语言模型与盲文检测模型进行综合校正,进一步提高了识别系统的准确率与可靠性。该研究对促进视障人士平等获取信息、提升社会包容性、推动残疾人事业发展和构建包容性社会具有重要意义,同时为盲文教育、文化传承与保护以及相关产业发展提供了坚实的技术基础,具有广阔的应用前景和深远的社会影响。