基于字符余弦相似度的地址数据治理方法

China Medical Equipment(2019)

引用 0|浏览7
暂无评分
摘要
目的:探讨基于字符余弦相似度的地址数据治理方法,为医院病案室、传染病报病及科研统计分析提供患者的地址清洗数据.方法:使用字符的余弦相似度评估患者地址与标准数据集的相似条目,选取相似对最高的前10条地址后,通过弹性距离评估将匹配最好的第1个地址作为映射地址,若无合适地址则以"不详"进行地址标记,供患者下次就诊时更正.结果:经过人工复核,每200名患者手工填写的住址以95%置信区间(95%CI)可以正确修复170~186个地址;修复错误的地址多为患者填写的"某街道",而标准数据集中尚无该街道名称,对其关键词进行过滤可以进一步提高地址信息修复水平.经由热力图对比,地址修复后能够提供更清晰集中的位置信息.结论:通过采用基于字符余弦相似度的地址数据治理方法,拓展一种修复基础数据和进行数据映射的有效方法,可为医院相关部门提供准确的患者基础信息数据资料.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要