Konwledge-Graphy
知识图谱经由2015年Google推出后,和许多跨学科跨领域的专业技术一样,经历了一段不温不火找落地应用场景的时期,近年来随着集中式数据中心的兴起,特别是AI领域中更多高效新算法的涌出,迎来了更多商业化应用的落地,营销方面的推荐、搜索、智能问答等,金融领域的风控、反洗钱等,到后期大型商用品、工业用品、基础设施的精细化、智能化运维服务等,但凡需要使用涉及到现实世界中实体及实体间关联关系的数字化应用场景像雨后春笋般浮现,也促进和加快了各行各业中知识图谱的春暖花开。
知识图谱是实体或概念相互连接而成的语义网络,一度被认为是让计算机拥有认知能力的最有效途径之一,其通常由实体(点)和关系(边)组成。目前来看,知识图谱的商业价值体现尚集中在语义搜索、智能问答、营销推荐等领域,同时它也渐渐成为AI领域中自然语言处理(NLP)分支下重要的基础设施。
知识图谱的构建过程一般包括:
- 知识提取(结构化/非结构化数据抽取、数据清洗、清洗规则管理等)
- 图谱构建(知识表示、知识建模、实体融合、三元组化等)
- 知识管理(Schema管理、融合规则管理、二次标注、增删改查、人工干预等)
- 知识理解(知识计算、知识推理等)
- 图谱应用(可视化、问答、语义搜索、关联分析等)
实体融合
实体融合解决的是什么问题呢?以“王劲松”这个名字来说,如何判断这个王劲松是演员王劲松,还是老师王劲松,或者是院长王劲松?不同地方收录的这三个人的资料也可能不太相同,如何将这些格式迥异的信息整合为一个实体呢?
一个融合做得好的泛领域知识图谱(“好”的定义是数据质量高、信息覆盖丰富等)应该通过抽取和融合这些多源异构并充满歧义的信息,表示成计算机可理解的融合知识,可以全方位的展示一个指定实体的“全景图”,不仅有利于对信息的理解,更是对知识推理和计算机认知能力的提升有很好的促进作用。然而这里做知识融合的难点在于信息来源多,意味着数据表示、数据形态、数据质量和数据丰富度的层次不齐,并且常有一词多义和多词一义的情况。
通常实体融合的步骤如下:
- 清洗对齐(异构数据转换为同构数据,包括数据规整、噪音去除等)
- 实体对齐(判断两个实体是否为同一个,包括多源实体信息的合并和补充)
- 属性融合(对齐的实体仍包括多源的属性和关系,需要纠错和择优)
最关键的部分就在于如何做到实体对齐,当前业界有以下几种方案:
- 基于规则的方法
- 严格规定属性对齐的方式,例如人物=姓名+生日+出生地,影视剧=标题+导演+上映日期,歌曲=歌名+演唱者,仅当这些属性一一对齐后才认为是同一个实体。
- 好处是准确高效,缺点是成本高,覆盖率底,且在数据缺失时会造成实体无法匹配。
- 相似度模型的方法
- 设定属性集合,利用相似度算法比较属性的相似度,也可以用文本相似性、分类模型等算法进行比较
- 好处是覆盖率高,缺点是准确性差
- 语义模型的方法
- 挖掘语义特征然后运用深度匹配模型等机器学习的技术
- 好处是覆盖面最广,准确率最高;缺点是通常缺少训练语料,过程也可能缺乏可控性和不可解释性。