知识图谱重构数据价值
通俗来讲,知识图谱就是一种以相互连接的实体和他们的属性构成的信息组织形式。也可以说是由一条条知识组成的一个集合,每条知识表示为一个SPO(Subject-Predicate-Object)三元组。谷歌正是利用这一方式将散落在互联网上的结构化、半结构化和非结构化信息进行组织,使计算机能够理解人类的语言交流模式,实现智能交互。同样,在银行风险管理工作中,利用知识图谱技术,可以在各种数据来源的信息上叠加领域知识,最后辅以各种数据可视化手段,展示目标对象的风险全景视图,满足风险识别、监测等多种需要。
如图是一个知识图谱系统的基本架构:从内外部的各类数据源获取信息,信息抽取之后经历信息的融合和计算完成知识图谱构建。在实际使用中,可能还会涉及知识准确性校验等工作。
图 知识图谱系统架构
知识获取
信息不对称是很多风险的根源,在知识获取阶段,需要突破广度和深度的瓶颈,尽可能做到全面、应有尽有,满足完整性原则。银行内部数据非常庞大,如何从中抽取业务场景所需的信息是知识获取的关键。以信用风险为例,客户的财务状况、贷款记录、交易行为等能准确反映其信用状况。这些内部数据基本都以结构化的形式贮存在银行内部的关系型数据库中。
另外一方面,随着整个社会电子化程度的不断深入,能够从外部获取到的数据源也在逐年扩大。比如企业的工商登记、法院的案件和执行、各类行政和环保处罚、纳税记录等,这些数据都以各种半结构化或非结构化的形式驻留在各类机构、媒体的服务器上。银行通过有偿的数据接入或者公开渠道爬取的方式获得这些信息。
知识融合
融合过程中需要满足准确性原则,具体操作上存在两个维度的融合:一方面是银行内部数据之间;另一方面是外部数据和内部数据之间。其根本是要解决本体的一致性认定,一般采用数据映射技术或者实体匹配来进行本体融合。在具体实现中,通过对不一致的具体问题具体分析,有助于突破知识融合的难点。
一个比较大的不一致根源是数据标准不统一。对于内部数据而言,可以要求逐步统一数据标准,以保证后续数据的一致性。但对于大量的外部数据和内部历史数据很难苛求,只能通过各自业务领域约定俗成的规则来进行匹配。比如企业通过组织机构代码证,个人通过身份证号来匹配。还有一些比较复杂和耗时的,比如同名行外户的本体识别等。
另外一个比较大的不一致来源于同一个本体在时序上的表现状态差异化。比如公司更名、贷款重组等。这类不一致往往是各类风险隐患的温床,是需要重点突破的地方,成功与否决定着最后知识应用的效果。
在解决本体一致性认定问题之后,还需要完成本体之间的显性关系整理。这类关系整理相对容易,一般在银行内部以关系型数据的方式留存,采用传统的ETL方式即可。从贷款的担保中整理本体之间的担保关系,从工商注册登记中整理出本体之间的投资、股权、分支机构和法人、任职等关系。但也有一些常识性的显性关系反而不容易通过电子渠道获得,比如配偶、兄弟等关系,这些就需要严控数据录入源头、提升数据采集能力。
知识计算
本文讨论的问题域是银行风险,构建的是一个特定专业领域的知识图谱,而不是一个普适性的,因此在知识计算上应该满足适用性原则。以风险管理领域知识和需求为出发点来进行知识重构,本质上是要挖掘出知识之间的关系,主要是非显性的关系——隐性关系分析及深层次关系探索。在方法上,采用通用推理逻辑结合业务领域知识来发现隐含的知识。
利用文本分析技术,完成对舆情、案件等非结构数据的处理,构建出隐性关系。对于深层次的关系需要针对具体的问题场景制订模型进行分析。在结构上,知识图谱以RDF图的形式构成,采用一些基本的图推断方式发现本体的隐含关系。同时,还可以变相地构建时空图,分析图谱中实体的时空影响力,构建概率图模型推断复杂问题场景中的隐藏因子等。
在资金流水问题场景中,通过名称映射模型统一本体,在此基础上,基于时间序列模型将独立的交易流水汇聚成可以追溯的资金链路,再利用统计学的知识,解析出关键交易对手,并据此计算出本体之间的资金依赖程度。在企业控制关系问题场景中,通过图的遍历算法,结合业务规则,寻找出各类疑似关系。类似的还可以构建出实际担保关系、担保圈、一致行动人等。
对银行而言越来越迫切需要从集团层面来关注企业,而不是孤立地关注一个个的企业。但是在实际业务中,对于集团的识别却存在较大困难。一方面,传统的“人盯人”方式可以做到精细化管理,但如果要覆盖所有企业则成本高昂;另一方面,部分企业的股权结构变化频繁,时效性上无法获得保障;此外,严重依赖于人的主观判断,对业务人员要求较高,容易滋生道德风险。利用知识图谱,在知识计算过程中,通过控制溯顶和有效链路计算,即可有效构建集团关系族谱。
在这个问题场景中,根据给定的本体,在RDF图上路由股权投资关系信息,在路由的过程中根据业务逻辑规则裁剪掉公众持股、国资委等链路,即可找到符合业务需要的根节点。从根节点开始根据不同业务需求向下探索,刻画出该集团下所有节点的子树。以此构建整个集团的族谱,并可直观获知到目标企业的集团地位等一系列深层次知识。
知识应用
知识图谱构建完成之后,就可以轻松地应用到全面风险管理的多个操作环节上。比如在贷款全流程中,有效控制贷款准入,提升贷款决策的有效性;在审批额度时,防止多头授信,规避关联企业互相担保;在贷后监控中,监测资金流入关联企业,参与民间借贷;在保全过程中,可以识别企业的关联资产,弥补损失。
在具体的工作中,我们将自动化构建出来的集团与银行内通过客户经理手工维护的集团进行交叉比对,梳理出一批未被纳入集团统一授信的企业,有效达到了风险防控目的。同时通过比较计算出来的集团族谱与历史存量的集团树,可以不断完善和校验知识计算的准确性。两者可以相辅相成,互相验证和查漏补缺。
除了通过技术手段直接将知识图谱应用到业务管理之外,还需要一套简洁、高效、易用的人机交互接口,供各类用户使用。从本质上来说,谷歌搜索结果就是在提供类似的服务。简单地应用传统的界面展示技术即可完成客户风险的整体视图,而对于图的展示,则需要借助一些更友好和复杂的动态交互控件。
总结展望
大数据技术的不断发展提升了银行数据分析和挖掘的能力,如今普适性的知识图谱技术已经获得了卓有成效的应用,在具体专业领域内的知识图谱技术还有待进一步完善。在具体实施上,遵循的基本路径一致:通过知识获取、融合来准备数据,通过计算实现价值重构,应用于具体的场景以解决实际问题。
知识图谱在风险领域的应用有着广阔前景。从计算机的智慧化来讲,最原始的是在明确的规则下,特定的问题域内实现计算。目前很多的业务监控规则基本都是这一类型,解决的是人类重复劳动的问题。进一步发展到语音、图像和视频的识别,是一种感知的智能。最终希望实现人工智能,则必须要实现认知上的智能。要求计算机去理解、推理和解释,需要依赖于知识图谱。可以说,知识图谱是达到最终目的地的基石。