预训练语言模型实体匹配的可解释性

LIANG Zheng,WANG Hong-Zhi,DAI Jia-Jia, SHAO Xin-Yue,DING Xiao-Ou, MU Tian-Yu

wf(2023)

引用 0|浏览17
暂无评分
摘要
实体匹配可以判断两个数据集中的记录是否指向同一现实世界实体,对于大数据集成、社交网络分析、网络语义数据管理等任务不可或缺.作为在自然语言处理、计算机视觉中取得大量成功的深度学习技术,预训练语言模型在实体识别任务上也取得了优于传统方法的效果,引起了大量研究人员的关注.然而,基于预训练语言模型的实体匹配技术效果不稳定、匹配结果不可解释,给这一技术在大数据集成中的应用带来了很大的不确定性.同时,现有的实体匹配模型解释方法主要面向机器学习方法进行模型无关的解释,在预训练语言模型上的适用性存在缺陷.因此,以Ditto、JointBERT等BERT类实体匹配模型为例,提出3种面向预训练语言模型实体匹配技术的模型解释方法来解决这个问题:(1)针对序列化操作中关系数据属性序的敏感性,对于错分样本,利用数据集元特征和属性相似度实现属性序反事实生成;(2)作为传统属性重要性衡量的补充,通过预训练语言模型注意力机制权重来衡量并可视化模型处理数据时的关联性;(3)基于序列化后的句子向量,使用k近邻搜索技术召回与错分样本相似的可解释性优良的样本,增强低置信度的预训练语言模型预测结果.在真实公开数据集上的实验结果表明,通过增强方法提升了模型效果,同时,在属性序搜索空间中能够达到保真度上限的68.8%,为针对预训练语言实体匹配模型的决策解释提供了属性序反事实、属性关联理解等新角度.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要