混合属性数据集分布一致性度量的新方法

Journal of Shenzhen University(Science & Engineering)(2021)

引用 1|浏览3
暂无评分
摘要
数据分布一致性的度量是大数据随机样本划分生成过程中的一个关键问题,如何针对混合属性的数据集进行合理有效的分布一致性度量是目前随机样本划分技术研究的重点.提出一种新的基于深度编码和最大平均差异的混合属性数据集分布一致性度量方法,不直接对两个不同的原始数据集进行分布一致性的度量,而是首先对混合属性中的离散属性进行独热编码,得到独热编码数据集;之后对独热编码数据集进行自编码处理,得到深度编码数据集;最后基于最大均值差异指标对两个不同的深度编码数据集进行分布一致性的度量.在Adult、Australian、CRX和German标准混合属性数据集上对所提方法进行性能实验验证,结果表明,与基于离散属性独热编码的最大平均差异方法和基于连续属性二进制化的相似性度量方法相比,新方法能够更加准确地对混合属性数据进行分布一致性的度量.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要