知识融合
1. 知识图谱的异构
1.1 从知识图谱构建的角度看
- 早期知识工程的理想是构建一个统一的知识库
- 人类知识体系复杂
- 不同人对某些知识有主观看法
- 知识会随时间自然演化
- 同一领域有不同组织构建自己的知识库
- 交叉领域的交叉知识往往是独立构建
- 知识图谱构建优先考虑重用现有知识
1.2 从知识图谱应用的角度看
- 不同领域的系统需要进行交互
- 系统处理的知识来自不同领域
1.3 知识异构的两个层次
1.3.1 语言层异构
1.3.2 模型层异构
2. 为什么需要知识融合
2.1 数据清洗
- 构建的知识图谱可能存在异构
- 知识融合是知识图谱应用的重要预处理步骤
2.2 数据集成
- 需要同时利用或融合多个不同来源的知识图谱
- 不同源的知识图谱可能存在重叠的知识
3. 解决本体层的匹配(Ontology Matching)
3.1 基础匹配器(字符串匹配器)
-
编辑距离
-
Levenshtein distance(最小编辑距离)
-
Wagner and Fisher distance(Levenshtein distance拓展)
-
汉明距离
-
字串相似度
-
Dice系数
-
Jaccard系数
-
基于N-gram的集合相似度
3.2 文本匹配方法
- TF/IDF(提取关键字词向量)
3.3 结构匹配方法
-
间接的结构匹配器
-
在文档匹配器中考虑结构信息,如邻居、上下义、属性等
-
直接的结构匹配器
-
图匹配复杂度高,无法直接使用
-
相似度传播模型的各种变体很有效
3.4 知识表示学习方法
4. 解决实例层的匹配(Instance Matching)
4.1 实例术语解析
不同领域的称谓
- 实例(Instance):知识工程领域
- 实体(Entity):自然语言处理
- 记录(Record):数据库
- 对象(Object):知识工程领域
4.2 实例匹配
不同领域称谓
- Instance Matching(实例匹配):知识工程领域(知识图谱、语义Web)
- Entity Resolution/Coreference(实体解析):自然语言处理领域、数据库领域
- Record Linkage(记录链接):自然语言处理领域、数据库领域
- Duplicate Detection(重复检测):数据库领域
- Name Disambiguation(名字消解):数字图书馆、社交网络
4.3 实例匹配的挑战
- 一词多义
- 多次一义
- 匹配效果和匹配性能
- 真实知识图谱规模大
- 匹配效果和匹配性能如何平衡
- 时间复杂度和空间复杂度都重要
4.4 实例匹配的方法
4.4.1 基于推理的匹配方法
4.4.2 基于实例对的相似度匹配
4.4.3 基于机器学习的匹配方法
4.4.4 基于分块的大规模实例匹配
4.4.5 基于推理的实例匹配方法
4.4.6 基于学习的实例匹配方法
最后更新: January 18, 2023