Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大规模百科图谱构建

Avatar for 孙玉龙 孙玉龙
September 02, 2019

 大规模百科图谱构建

大规模百科图谱构建

Avatar for 孙玉龙

孙玉龙

September 02, 2019
Tweet

More Decks by 孙玉龙

Other Decks in Technology

Transcript

  1. 本章大纲 • 百科图谱概述 • 基于单源的百科图谱构建 • 实体发现 • 知识抽取 •

    实体分类 • 知识补全 • 基于多源的百科图谱构建 • 本体融合 • 实体对齐 • 属性对齐 • 属性值融合 2018/8/30 第 5 讲:百科知识图谱构建 2
  2. 百科图谱的特点 2018/8/30 第 5 讲:百科知识图谱构建 5 • 每个页面均围绕一个实体进行全方面的介绍 • e.g.,

    • https://en.wikipedia.org/wiki/Donald_Trump • https://baike.baidu.com/item/唐纳德·特朗普 一个实体一个页面 • 由统一的网页模板自动生成,包含固定格式的半结构化文本 页面格式统一 • 由众包或者专业人员编辑,准确率较高 内容质量高 获取容易 抽取简单 质量高 百科网站的特点 百科图谱的特点
  3. 根据百科数据源的领域可分为通用百科图谱和领域百科图谱 • 通用百科图谱 • 来自于通用百科网站 • E.g., • 维基百科,百度百科 •

    领域百科图谱 • 来自于领域百科网站 • E.g., • 电影网站,购物网站 2018/8/30 第 5 讲:百科知识图谱构建 6 百科图谱分类
  4. 基于单源的百科图谱构建 • 目标 • 输入:一个百科数据源 • 输出:一个百科知识图谱 2018/8/30 第 5

    讲:百科知识图谱构建 8 • 步骤 • 实体发现 • 知识抽取 • 实体分类 • 知识补全
  5. 网页获取 • 目标 • 获取一个百科数据源中所有网页 • 策略 • 基于Dump数据的下载 •

    Wikipedia Dump 2018/8/30 第 5 讲:百科知识图谱构建 10 Wikipedia Dump https://dumps.wikimedia.org/ 网站全部数据都以Dump的 形式提供下载
  6. 网页获取 • 目标 • 获取一个百科数据源中所有网页 • 策略 • 基于Dump数据的下载 •

    Wikipedia Dump • 基于超链接的遍历策略 • BFS / DFS 2018/8/30 第 5 讲:百科知识图谱构建 11 基本假设:百科数据源中所 有网页都通过超链接链接 缺点:部分百科页面未被其 他页面链接,导致无法获取
  7. 网页获取 • 目标 • 获取一个百科数据源中所有网页 • 策略 • 基于Dump数据的下载 •

    Wikipedia Dump • 基于超链接的遍历策略 • BFS / DFS • 基于枚举的遍历策略 • ID / 名称 / 哈希 2018/8/30 第 5 讲:百科知识图谱构建 12 ID http://baike.baidu.com/view/[ID].htm http://baike.baidu.com/view/1.htm http://baike.baidu.com/view/2.htm http://baike.baidu.com/view/3.htm http://baike.baidu.com/view/4.htm NAME http://baike.baidu.com/item/[NAME] http://baike.baidu.com/item/周杰伦 http://baike.baidu.com/item/复旦大学 http://baike.baidu.com/item/一出好戏 http://baike.baidu.com/item/黄渤 基本假设:百科数据源中所 有网页的URL的可枚举性
  8. 实体发现 • 目标 • 筛选出所有介绍实体的网页 • 方法 • 选择满足特殊规律的URL可作为一个有效实体页面 •

    http://baike.baidu.com/view/[ID].htm • http://baike.baidu.com/item/[NAME] • https://music.163.com/#/song?id=[ID] • https://movie.douban.com/subject/[ID] 2018/8/30 第 5 讲:百科知识图谱构建 13
  9. 实体名抽取 • 不存在多义词 • 《实体名》=《页面标题》 2018/8/30 第 5 讲:百科知识图谱构建 16

    • 存在多义词 • 《实体名》=《页面标题》+ 《歧义项》 一出好戏 刘德华(中国香港男演员、歌手、制片人、填词人)
  10. Infobox关系抽取 • Infobox • 对实体的结构化总结 • 以表格的形式展示 • 第一列表示属性 •

    第二列表示属性值 2018/8/30 第 5 讲:百科知识图谱构建 18 是百科知识图谱最重要的知识来源之一 从数量上来说,它是能提供最多知识的一类关系
  11. 基于正则表达式的抽取 2018/8/30 第 5 讲:百科知识图谱构建 20 e.g., Infobox抽取器 属性抽取正则表达式 :<dd

    class="basicInfo-item name">(.*)</dd> 属性值抽取正则表达式:<dd class="basicInfo-item value">(.*)</dd>
  12. 单数据源属性融合 2018/8/30 第 5 讲:百科知识图谱构建 22 找到候选属性对 • 属性名称相似性 •

    Jaccard,Dice,编辑距离 • e.g., 英文名,英文名称 • 同义词相似性 • 外部同义词库 • e.g., 妻子, 老婆 • 人工录入 删除错误属性对 • 启发式规则 • 等价属性不同时出现在一个实体中 • 等价属性domain和range相同 • 人工删除
  13. 对象属性值分割 • 分割方案 2018/8/30 第 5 讲:百科知识图谱构建 24 • 分隔符

    • 空格、中文逗号、英文逗号、中 文顿号、英文斜杠、中文分号、 英文分号、英文竖号 • 分割效果打分函数Score • 评估第种分隔符分割后的字符串 列表 ,( ) = σ∈ () • = 1 如果t是一个实体 • = −1 如果t不是一个实体 • 最终的分割方案 • = arg String 判断字符串是否 存在分隔符 判断该score是否 大于未分割的得分 计算字符串按照某分隔符 分割后的score 按该分隔符进行分割, 返回实体列表 不分割
  14. 对象属性值实体链接 • 目标 • 建立实体与实体之间的关系 2018/8/30 第 5 讲:百科知识图谱构建 25

    龙卷风(一种自然天气现象) 龙卷风(周杰伦创作歌曲) 龙卷风(美国电影名称) 龙卷风(动画片《百变机兽之洛洛历险记》角色) 龙卷风(杨钰莹、林翠萍、叶启田演唱的歌曲) 龙卷风(游戏《游戏王》中魔法卡名称) 龙卷风(口袋妖怪技能) 龙卷风(游戏《warcraft3》中技能名称) 龙卷风(香港漫画《九龙城寨》中的人物) 龙卷风(科普图书《龙卷风》) 龙卷风(skonec制作的同名游戏) 龙卷风网络收音机 龙卷风(邓紫棋翻唱歌曲) 龙卷风(黄锦祥诗歌 《龙卷风》) <周杰伦,代表作品,“龙卷风”> <周杰伦,代表作品,龙卷风(周杰伦创作歌曲)>
  15. 对象属性值实体链接 • 方法 • 当属性值存在超链接时 • 解析超链接对应的URL 2018/8/30 第 5

    讲:百科知识图谱构建 26 https://baike.baidu.com/item/龙卷风/2178400 龙卷风(周杰伦创作歌曲) <周杰伦,代表作品,“龙卷风”> <周杰伦,代表作品,龙卷风(周杰伦创作歌曲)>
  16. 对象属性值实体链接 • 方法 • 当属性值存在超链接时 • 解析超链接对应的URL • 当属性值不存在超链接时 •

    建模为分类问题 • 给定一个(实体,属性,属性 值)三元组,以及属性值对应 的所有候选实体列表,从中找 到0个或1个正确的实体 2018/8/30 第 5 讲:百科知识图谱构建 27 龙卷风(一种自然天气现象) 龙卷风(周杰伦创作歌曲) 龙卷风(美国电影名称) 龙卷风(动画片《百变机兽之洛洛历险记》角色) 龙卷风(杨钰莹、林翠萍、叶启田演唱的歌曲) 龙卷风(游戏《游戏王》中魔法卡名称) 龙卷风(口袋妖怪技能) 龙卷风(游戏《warcraft3》中技能名称) 龙卷风(香港漫画《九龙城寨》中的人物) 龙卷风(科普图书《龙卷风》) 龙卷风(skonec制作的同名游戏) 龙卷风网络收音机 龙卷风(邓紫棋翻唱歌曲) 龙卷风(黄锦祥诗歌 《龙卷风》) <周杰伦,代表作品,“龙卷风”> [Mengling Xu etc., 2013] s(, ) = ෍ =1 7 × (, ) Feature 1: Entity Occurrence Feature 2: Link Probability Feature 3: Infobox Context Relatedness Feature 4: Article Context Relatedness Feature 5: Abstract Context Relatedness Feature 6: Attribute Range Context Relatedness Feature 7: Attribute Domain Context Relatedness
  17. 实体分类 • 定义 • 将已发现的实体分类到定义好的Taxonomy中的概念上 • 分类方法 • 人工方法 •

    基于规则的方法 • 基于机器学习的方法 2018/8/30 第 5 讲:百科知识图谱构建 29
  18. 基于规则的方法 • 使用一组IF-THEN规则来对实体进行分类 • 通用推理规则 • 基于等价实体关系的规则推理 • 1 ∈

    ⋀ 1 = 2 ⇒ 2 ∈ • 基于概念子类关系的规则推理 • ∈ 1 ⋀ 1 ⊂ 2 ⇒ ∈ 2 • 启发式推理规则 • 基于标题的规则推理 • E.g., 实体名称后缀为“步枪”的很可能属于步枪 • 基于属性的规则推理 • E.g., 实体包含属性“毕业院校”的属于人物 • 基于属性-值的规则推理 • E.g., 实体包含属性-值对(职业,演员)的属于演员 2018/8/30 第 5 讲:百科知识图谱构建 31 [Fabian, M. S. et al. 2007]
  19. 基于机器学习的方法 • 通用框架 • 训练集构建 • 特征抽取 • 模型训练 •

    结果预测 2018/8/30 第 5 讲:百科知识图谱构建 32 训练数据 (已分类的实体) 测试数据 (未分类的实体) 模型 特征提取 模型训练 实体分类结果
  20. 训练集构建 • 存在已分类实体 • 直接作为训练集 • 不存在已分类实体 • 人工方法 •

    优点:能保证训练集的质量 • 缺点:高昂的人力成本限制了训 练集的规模 • 远程监督方法 • 优点:可以自动标注大量的数据 • 缺点:质量难以保证 2018/8/30 第 5 讲:百科知识图谱构建 33 DBpedia Knowledge Base Andy Lau InstanceOf Thing Andy Lau InstanceOf Agent Andy Lau InstanceOf Person Andy Lau InstanceOf Artist 刘德华 Andy Lau Chinese Knowledge Base 刘德华 InstanceOf Thing 刘德华 InstanceOf Agent 刘德华 InstanceOf Person 刘德华 InstanceOf Artist 远程监督方法示例
  21. 远程监督训练集质量优化 • 远程监督构建的实体分类训练集存在噪声问题 • 目标知识图谱本身存在噪声 • 实体链接错误 • 实体特征缺失 •

    多分类器投票过滤 • 将训练集分为N份,其中每N-1份作为训练集,用来过滤剩下一份的噪声 • 每个分类器分别对实体进行重新预测,与原结果比较,未预测出的结果 即视为该分类器发现的噪声数据 • 综合多个分类器的噪声数据,通过过滤策略对训练集进行过滤 • 大多数投票过滤 • 一致性过滤 2018/8/30 第 5 讲:百科知识图谱构建 34 举例:一个实体在训练集中的概念集合为{A,B,C,D} [Brodley, Carla E. et al. 1999]
  22. 特征抽取 • 单示例特征表示 • 一个实体用一组特征集合表示 2018/8/30 第 5 讲:百科知识图谱构建 35

    • 多示例特征表示 • 一个实体用多个示例表示,每 次示例为一组特征集合 • 每个示例可能只表示实体部分 分类结果 Features 特征类型 血型 属性 妻子 国籍 (职业,演员) 属性-值 (职业,歌手) (代表作品,忘情水) 香港人 标签 港台男歌手 艺人 “刘德华”的单示例特征集合 刘德华 刘德华出生于1961年9月 刘德华出演了最新电影《长城》 《忘情水》是刘德华的代表歌曲 “刘德华”的多示例表示
  23. 单示例实体分类 • 输入:实体的特征集合X • = 1 , 2 , …

    , , … , • N为特征总数 • = 1:实体包括这一特征 • = 0:实体不包含这一特征 • 输出:实体的分类结果Y • = y1 , 2 , … , , … , • M为概念总数 • y = 1:实体属于这个概念 • y = 0:实体不属于这个概念 2018/8/30 第 5 讲:百科知识图谱构建 36 • 问题归类 • 多标记分类(Multi-label Classification) • 一个实体可以属于多个概念 • 分类模型 • 朴素贝叶斯 • Logistic回归 • 支持向量机 • 决策树
  24. 单示例实体分类方法:CUTE • 考虑概念之间的层次结构 • 训练过程 • 为每个概念分别构建一个分类 器 • 为每个分类器定义其正负样本

    • 正样本 • 所有属于该概念的实体 • 负样本 • 所有属于该概念的父概念却不 属于该概念的实体 2018/8/30 第 5 讲:百科知识图谱构建 37 • 预测过程 • 自顶向下的预测过程 - + - - - Classifier Predict 1 Candidate Classifier Classifier Predict 0 Non-Candidate Classifier 第一轮 第二轮 [Bo Xu et al., 2016a]
  25. 多示例实体分类:Pipeline方法 • 基本思路 • Mention Typing + Type Fusion 2018/8/30

    第 5 讲:百科知识图谱构建 38 刘德华 人物 人物 歌手 Mention Typing 刘德华出生于1961年9月 刘德华出演了最新电影《长城》 《忘情水》是刘德华的代表歌曲 人物 演员 人物 演员 歌手 Mention Typing Mention Typing [Bo Xu et al., 2018]
  26. Mention Typing • 解决方案 • 基于人工特征的方法 • PL-SVM (Nguyen and

    Caruana, 2008) • CLPL (Cour et al., 2011) • FIGER (Ling and Weld, 2012) • FIGER-Min (Gillick et al., 2014) • HYENA (Yosef et al., 2012) • ClusType (Ren et al., 2015) • DeepWalk (Perozzi et al., 2014) • LINE (Tang et al., 2015b) • PTE (Tang et al., 2015a) • WSABIE(Yogatama et al., 2015) • AFET (Ren et al., 2016) 2018/8/30 第 5 讲:百科知识图谱构建 39 • 基于神经网络的自动特征抽取 方法 • 方法 • HNM (Dong et al., 2015) • METIC (Bo Xu et al., 2018) • KNET (Ji Xin et al., 2018)
  27. Type Fusion • 融合策略 • 直接合并 • 一致性投票 • 大多数投票

    • 带约束合并 2018/8/30 第 5 讲:百科知识图谱构建 40 • 带约束合并 • 将其看作是一个整数线性规划 问题 • 目标函数 • 最大化所有mention的分类结果 • 约束 • 概念互斥约束 • 一个实体不能同时属于两个语 义互斥的概念 • 1 , 2 = (1,2) (1)×(2) • 概念层次化约束 • 一个实体如果不属于某个概念, 那么也不能属于这个概念的任 意子概念 [Bo Xu et al., 2018]
  28. 多示例实体分类:多示例学习方法 • 基本思路 • 输入:一个实体的全部示例 • 输出:一个实体的分类结果 2018/8/30 第 5

    讲:百科知识图谱构建 41 • 方法 • MIML-MAX • MIML-AVG • MIML-MAX-AVG • MIML-ATT 刘德华 人物 人物 歌手 Mention Typing 刘德华出生于1961年9月 刘德华出演了最新电影《长城》 《忘情水》是刘德华的代表歌曲 人物 演员 人物 演员 歌手 Mention Typing Mention Typing (Yadollah Yaghoobzadeh et al., 2017)
  29. YAGO • 基于人工定义的正则表达式 规则从单个标签中抽取关系 • 优点 • 准确率高 • 缺点

    • 代价大 • 需要为每个关系定制一套正则表 达式 2018/8/30 第 5 讲:百科知识图谱构建 46 [Fabian, M. S., et al. 2008] Donald_Trump, category, 1946 births Donald_Trump, BORNONDATE, 1946
  30. Catriple • 基于Pattern从上下位概念对(concept pair)中抽取关系 47 Hey Jude The Beatles songs

    Songs by artist British rock songs Rock songs (Country, British) (artist, The Beatles) (Hey Jude, artist, The Beatles) ( Hey Jude, Country, British) [Qiaoling Liu, et. al., 2008] 2018/8/30 第 5 讲:百科知识图谱构建
  31. 四种有效的上下位概念Pattern Pattern 1: by-prep • 上位概念: by + 属性 •

    e.g., Songs by theme • 下位概念:介词从句且包含属性值 • e.g., Songs about divorce • 抽取方法 • 从上位概念抽取属性 • 从下位概念抽取属性值 • (theme, divorce) Pattern 2: by-noun • 上位概念: by + 属性 • e.g., Songs by artist • 下位概念:名词从句且包含属性值 • e.g., The Beatles songs • 抽取方法 • 从上位概念抽取属性 • 从下位概念抽取属性值 • (artist, The Beatles) 48 2018/8/30 第 5 讲:百科知识图谱构建
  32. 四种有效的上下位概念Pattern Pattern 3: *-prep except by-prep • 上位概念: 不包含属性 •

    上位概念举例: Songs • 下位概念:介词从句且包含属性值 • 下位概念举例: Songs from films • 抽取方法 • 从下位概念抽取属性值 • (?, films) • 通过投票确定属性值对应的属性 • (genre, films) Pattern 4: *-noun except by-noun • 上位概念: 不包含属性 • 上位概念: Rock songs • 下位概念:名词从句且包含属性值 • 下位概念: British rock songs • 抽取方法 • 从下位概念抽取属性值 • (?, British) • 通过投票确定属性值对应的属性 • (Country, British) 49 2018/8/30 第 5 讲:百科知识图谱构建
  33. DFs • 基于概念的固有特征集合从 单个标签中抽取关系 2018/8/30 第 5 讲:百科知识图谱构建 50 •

    概念的固有特征集合满足两个 性质 • 性质一 • 如果一个实体包括某个概念的固有 特征集合,那么它一定属于这个概 念 • ⊆ ⇒ ∈ • 应用 • 实体分类 • 性质二 • 如果一个实体属于某个概念,那么 它也一定包含这个概念的固有特征 集合 • ∈ ⇒ ⊆ • 应用 • 知识补全 Has Skin Can Move Around Eats Breathes Animal Has Fins Can Swim Has Gills Fish Can Bite Is Dangerous Shark Is Pink Is Edible Swims Upstream To Lay Eggs Salmon Has Wings Can Fly Has Feathers Bird Can Sing Is Yellow Canary Has Long Thin Legs Is Tali Can Not Fly Ostrich [Allan M. Collins, et. al., 1969]
  34. 数据驱动的概念固有特征发现 • 人工方法 • 心理学家通过人工方法为少量 粗粒度的概念定义了它们的固 有特征集合,如鸟类、动物、 汽车等 • 缺点

    • 代价大 2018/8/30 第 5 讲:百科知识图谱构建 51 • 自动方法 • 通过数据驱动的方法自动从知 识图谱中学习出大量概念的固 有特征集合 • 考虑到知识图谱的不完整性, 提出了bootstrapping的方法 来迭代的获取概念的固有特征 集合 DBpedia C-DFs Rules of C-DFs S1: 基于统计的 固有特征集合发现 S2: 规则发现 S3: 基于规则的 固有特征集合发现 S4: 知识图谱填充 [Bo Xu et al., 2016b] 标签 Infobox Type Jay Chou albums (artist, Jay Chou) (Type, Album) American screenwriters (birthPlace, United States) (occupation, Screenwriter) (Type, Person) American crime films (country, United States) (genre, crime) (Type, Film)
  35. 利用实体文本内容进行知识补全 • 实体的介绍文本中包含了丰富的知识 52 2018/8/30 第 5 讲:百科知识图谱构建 属性 属性值

    英文名 Andy Lau 出生日期 1961年9月27日 出生地 中国香港 职业 演员 职业 歌手 职业 作词人 职业 制片人 主要成就 41届台湾金马奖最佳男主角 …
  36. 基本思路 • 为每个属性构建一个抽取器(分类器) • 每个抽取器分别从百科文本的句子中抽取出相应属性的值 53 刘德华(Andy Lau), 1961年9月27日出生 于中国香港。

    刘德华 英文名称 Andy Lau “英文名称” “出生日期” “出生地” 刘德华 出生日期 1961年9月27日 刘德华 出生地 中国香港 抽取器 2018/8/30 第 5 讲:百科知识图谱构建
  37. 序列数据标记问题 • 实体属性值抽取被认为是一个序列数据标记问题 • 将句子当做是一个序列数据 • 属性值抽取过程即可看作是序列数据标记过程 • 1表示为属性值 •

    0表示不是属性值 54 刘德华|(|Andy|Lau|)|,|1961年|9月|27日|出生|于|中国|香港|。| 0 | 0| 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 刘德华|(|Andy|Lau|)|,|1961年|9月|27日|出生|于|中国|香港|。| 0 | 0| 0 | 0 | 0 | 0| 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 刘德华|(|Andy|Lau|)|,|1961年|9月|27日|出生|于|中国|香港|。| 0 | 0| 0 | 0 | 0| 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | “英文名称” “出生日期” “出生地” 2018/8/30 第 5 讲:百科知识图谱构建
  38. • 条件随机场 (CRF) • 针对序列数据进行分类的模型 • 每个词组需要人为设定一组特 征 • 缺点

    • 需要专家人为设计特征 • 不具有通用性 55 传统方法 [Fei Wu et. al., 2007] 2018/8/30 第 5 讲:百科知识图谱构建
  39. • 优点 • 不需要人工设计特征 • 方法 • LSTM 56 基于深度学习的方法

    [Dernoncourt, F. et. al. 2017] 2018/8/30 第 5 讲:百科知识图谱构建
  40. 示例 刘德华(Andy Lau),1961年9月27日出生于中国香港。 刘德华 ( Andy Lau ) , 1961年

    9月 27日 出生 于 中国 香港 。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 57 1 2 3 4 5 6 7 8 9 11 12 13 14 10 15 C C W C C W C C W C C W C C W C C W C C W C C W C C W C C W C C W C C W C C W C C W C C W R L R L R L R L R L R L R L R L R L R L R L R L R L R L R L 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 Embedding Bi-LSTM Y 2018/8/30 第 5 讲:百科知识图谱构建
  41. • 优点 • 不需要人工设计特征 • 方法 • LSTM • LSTM+CRF

    58 基于深度学习的方法 [Dernoncourt, F. et. al. 2017] 2018/8/30 第 5 讲:百科知识图谱构建
  42. 基于多源的百科图谱构建 • 目标 • 输入 • 多个百科知识图谱 • 每个百科知识图谱均由一个独 立的百科数据源构建而来

    • 输出 • 一个融合后的百科知识图谱 2018/8/30 第 5 讲:百科知识图谱构建 60 • 步骤 • 概念对齐 • 实体对齐 • 属性对齐 • 属性值融合 Zhishi.me
  43. 实体对齐 • 形式化定义 • 1 , 2 = 1 ,

    2 , 1 ∈ 1 , e2 ∈ 2 , ∈ 0,1 • 值越大,表示两个实体越相似 • 知识库实体对齐 2018/8/30 第 5 讲:百科知识图谱构建 62 1 2 先验匹配 对 匹配过程 参数 外部资源 匹配结果 [Zhuang Yan et al., 2016.]
  44. 实体对齐流程 • 流程 • 预处理 • 分块索引 • 成对对齐 •

    集体对齐 2018/8/30 第 5 讲:百科知识图谱构建 63 数据预处理 成对对齐 集体对齐 实体对齐算法 分块 文本相似度 结构相似度 特征匹配 [Zhuang Yan et al., 2016.]
  45. 预处理和分块索引 • 预处理 • 目标 • 处理数据的多源异构性、数据定 义的不一致性、数据表达的多样 性等 •

    方法 • 标点去除 • 同义词扩展 2018/8/30 第 5 讲:百科知识图谱构建 64 • 分块索引 • 目标 • 通过剪枝过滤掉知识库中不可能 相似的实体对,使得相似的实体 对尽量分配到一个或几个区块中 成为候选对,最终的对齐处理只 在这些候选对中进行,从而达到 提高匹配效率的目的 • 索引键值选择的考虑因素 • 特征的质量 • 特征的分布 • 区块数量和大小 [Niu, Xing, et al., 2011] [Zhuang Yan et al., 2016.]
  46. 成对实体对齐方法 • 传统概率方法 • 基于属性相似性 • 转化为分类问题(匹配、可能 匹配、不匹配) 2018/8/30 第

    5 讲:百科知识图谱构建 65 • 机器学习方法 • 二元分类问题(匹配,不匹配) • 监督学习方法 • SVM • Logistic Regression • Decision Tree • Factor Graph • Heterogeneous Network Embedding [Zhuang Yan et al., 2016.]
  47. 集体实体对齐方法 • 全局集体实体对齐 • 基于实体对齐是相互影响的观察,通过不同匹配决策之间的相互影响调 整实体之间的相似度 • 方法 • 基于相似性传播方法

    • 基本思路 • 通过初始匹配以bootstrapping方式迭代地产生新的匹配 • “如果2个作者匹配,则与这2个作者具有“coauthor”关系的另外2个相似名字的作者 会有较高的相似度,而这个相似度又会对其他作者匹配产生影响” • 基于概率模型方法 • 基本思路 • 全局概率最大化 • 方法 • 贝叶斯网络、LDA模型、条件随机场模型、Markov逻辑网络模型 2018/8/30 第 5 讲:百科知识图谱构建 67 [Zhuang Yan et al., 2016.]
  48. 举例:跨语言实体对齐 • 目标 • 将百度百科中的中文实体和维 基百科中的英文实体对齐 • 训练集来源 • 英文维基实体↔中文维基实体

    ↔中文百度百科实体 • 特征来源 • 标题 • 超链接 • 标签 • 作者 2018/8/30 第 5 讲:百科知识图谱构建 68 [ZhichunWang, et al., 2012]
  49. 举例:跨语言实体对齐 • 方法 • 集体实体对齐方法 • 模型 • Linkage Factor

    Graph Model 2018/8/30 第 5 讲:百科知识图谱构建 69 [ZhichunWang, et al., 2012] = { }=1 × 点特征函数 边特征函数 约束特征函数 = 1 , 2 = {0,1}
  50. 多源属性融合 2018/8/30 第 5 讲:百科知识图谱构建 70 找到候选属性对 • 属性名称相似性 •

    Jaccard,Dice,编辑距离 • e.g., 英文名,英文名称 • 同义词相似性 • e.g., 妻子, 老婆 • 数据驱动的属性对齐方法 • 属性的S-O pairs的overlap程度 • 人工录入 删除错误属性对 • 启发式规则 • 等价属性不同时出现在一个实体中 • 等价属性domain和range相同 • 人工删除
  51. 属性对齐 • 通用方法 • 属性名称相似性 • e.g., (英文名,英文名称) • 方法

    • 编辑距离、Jaccard系数、Dice 系数 • 同义词相似性 • e.g., (妻子,老婆) • 利用外部同义词库 2018/8/30 第 5 讲:百科知识图谱构建 71 • 特有方法 • 数据驱动的属性对齐方法 • 知识图谱中的三元组(S,P,O) • 每个属性Property包含多个 Subject-Object pairs • 属性值O类型相似度 • 属性的S-O pairs的overlap程度
  52. 属性值融合 • 单值属性的属性值融合 • 一个实体的单值属性的值是唯 一的 • 举例 • 出生日期

    • 性别 • 父亲 2018/8/30 第 5 讲:百科知识图谱构建 72 • 多值属性的属性值融合 • 一个实体的多值属性的值可能 存在多个 • 举例 • 职业 • 代表作品 • 别名
  53. 单值属性的属性值融合 • 基本思路 • 对不同数据源的质量进行评估 • 单值属性的属性值的真实性取 决于所有提供该信息的数据源 的准确率 •

    方法 • 基于异构信息网络的单值属性 的属性值融合 2018/8/30 第 5 讲:百科知识图谱构建 73 • 关系 • 一个数据源可为多个实体-属性 对提供属性值 • 每个实体-属性对可能有来自多 个数据源的属性值,但至多只存 在一个正确的属性值 • 数据源的准确值取决于它提供的 所有属性值的真实性 • 属性值的真实性取决于所有提供 该信息的数据源的准确率 数据源 实体-属性对 属性值 [Yin, Xiaoxin et. al., 2008]
  54. 多值属性的属性值融合 • 多策略融合 • 直接合并策略 • 投票策略 • 大多数投票 •

    一致性投票 • 加权投票 • 自定义融合策略 74 2018/8/30 第 5 讲:百科知识图谱构建
  55. 参考文献 • [Jens Lehmann et al., 2015] DBpedia: A Large-scale,

    Multilingual Knowledge Base Extracted from Wikipedia. • [Haofen Wang et al., 2015] Effective Online Knowledge Graph Fusion • [F. Dernoncourt et al., 2017] De-identification of Patient Notes with Recurrent Neural Networks • [Fabian, M. S. et al. 2007] Yago: A core of semantic knowledge unifying wordnet and wikipedia • [Bo Xu et al., 2016a] Cross-lingual type inference • [Brodley Carla E. et al. 1999] Identifying mislabeled training data • [Allan M. Collins et al., 1969] Retrieval time from semantic memory • [Qiaoling Liu et al., 2008] Catriple: Extracting Triples from Wikipedia Categories • [Fei Wu et al., 2007] Autonomously semantifying wikipedia • [Komninos and Manandhar, 2016] Dependency Based Embeddings for Sentence Classification Tasks • [Bo Xu et al., 2017] CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System • [Dong, Xin Luna et al., 2009] Data fusion: resolving data conflicts for integration • [Bouma, G. et al., 2009] Cross-lingual alignment and completion of Wikipedia templates • [Wang, Z. et al., 2012] Cross-lingual Knowledge Linking Across Wiki Knowledge Bases. 75 2018/8/30 第 5 讲:百科知识图谱构建
  56. 参考文献 • [Bo Xu et al., 2016b] Learning Defining Features

    for Categories • [Mengling Xu etc., 2013] Discovering Missing Semantic Relations Between Entities in Wikipedia • [Bo Xu et al., 2018] METIC: Multi-Instance Entity Typing from Corpus • [Zhuang Yan et al., 2016.] A Survey on Entity Alignment of Knowledge Base • [Niu, Xing, et al., 2011] Zhishi. me-weaving chinese linking open data. • [ZhichunWang, et al., 2012] ZhichunWang, Juanzi Li, ZhigangWang, and Jie Tang. Cross-lingual Knowledge Linking Across Wiki Knowledge Bases • [Yin, Xiaoxin et. al., 2008] Truth discovery with multiple conflicting information providers on the web. 76 2018/8/30 第 5 讲:百科知识图谱构建
  57. 77 Thank YOU! • Our LAB: Knowledge Works at Fudan

    University • http://kw.fudan.edu.cn 2018/8/30 第 5 讲:百科知识图谱构建