针对无切分维吾尔文文本行识别的字符模型优化

清华大学学报(自然科学版)(2015)

引用 0|浏览3
暂无评分
摘要
基于隐含Markov模型(hidden Markov model,HMM)的无切分文本行识别方法能够利用概率图的思想,同步完成文本行图像的切分与识别,避免因字符预切分失败而导致的识别错误,但对字符模型的设计与训练要求很高,并且在多字体融合问题中难以提高模型泛化性能.该文通过分析模型状态在图像层面的聚类意义,先提出基于观测合理聚类的模型结构优化方法,再提出结构与参数相结合的字符模型优化策略,最后将其应用于多字体维吾尔文文本行的无切分识别系统.实验结果表明,该方法能够改善模型的状态分配合理性,并且在多字体融合问题中提高了模型泛化性能和状态利用效率.
更多
关键词
information processing,character recognition,hidden Markov model (HMM),statistical learning,Uyghur
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要