基于多特征的自适应新词识别

Beijing Gongye Daxue Xuebao / Journal of Beijing University of Technology(2007)

引用 23|浏览17
暂无评分
摘要
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识别模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.
更多
查看译文
关键词
Adaptation,Computational linguistics,Multi-features,Natural language processing system,New word identification,Word processing,Word segmentation
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要