名老中医医案数据采集与清理算法DCCA的研究
Computer Era(2018)
Abstract
利用网络爬虫抓取网络中名老中医医案数据,可以为医案数据挖掘提供优质的原始数据.提出了一种基于网络爬虫的名老中医医案数据采集与清理算法DCCA(Data Collection and Cleaning Algorithm),处理了12670个网页,抽取出28813条诊次数据.与传统方法比较,DCCA的抓取效率更高、处理结果属性清晰、处理后的数据冗余度低,极大地提高了中医药网站中名老中医医案数据采集与清理效果.
MoreAI Read Science
Must-Reading Tree
Example
![](https://originalfileserver.aminer.cn/sys/aminer/pubs/mrt_preview.jpeg)
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined