金融行业是数据驱动的行业,很多传统金融业务对行情、资讯等金融数据已经形成了高度依赖。知识图谱作为人工智能时代的“知识工程”、“专家工程”,承载了对纷繁复杂、多源异构的金融资讯大数据加工整合的重任,已经得到行业从业人士的普遍认同。
知识图谱可以将金融资讯大数据中的实体关系属性等信息,用极其简单的三元组的方式聚合在一起,形成一个金融语义网络。因为有统一的数据表示,所以可以形成统一的数据消费,这种机器可以看得懂的大数据,没有理由不在智能金融业务场景中大放异彩。在探索与落地的过程中,一些难点仍有待突破。
看见
语义鸿沟是一个人工智能专业术语,用来解释传统金融与智能金融的沟通障碍非常贴合。这里有两个层面的问题,一个是“看见”的问题,一个是“信任”的问题。
传统的金融IT是由业务部门提业务需求,IT部门负责转化为软件需求,IT供应商负责提供解决方案或者软件产品。这套方法在数字金融时代、互联网金融时代都非常有效,为何在智能金融时代就玩不转了呢?这里就存在着能不能“看见”的问题。
简单来说,人工智能的数据科学家看不见业务部门的业务,而金融机构的业务人员也看不见自己的某项业务问题还可以用人工智能的方法来解决,从而也提不出这样的需求。所以在人工智能团队和业务团队之间,必须有一类角色要解决这个问题,负责创造性地提出某些业务场景如何用人工智能(大数据技术)加以改造。这类角色最好是业务出身,并且懂一些人工智能技术,他们是典型的创新型人才,其当下的重要作用不亚于数据科学家。
信任
语义鸿沟的第二个层面是信任问题。人工智能结果的可靠性、质量的保障以及过程的可解释性,是产生信任问题的根源。举个例子,面对人工审核的合同和用AI审核的合同,即使后者的准确率能够高达98%,传统业务人员可能依然倾向于人工审核的合同,因为他需要关键条款不能出错,而不是一个针对通篇的高概率的正确。这背后,隐藏的是经年的用户教育问题。
数据质量
比之于语义鸿沟,数据质量对金融知识图谱的推广有更大的影响。知识图谱是一份“大而全”的数据,数据的增量部分是很少的,大部分数据是对已有数据的再组织,成果就是由“多源异构数据”转化为统一的schema。不过,数据的质量以及数据的缺失,影响了图谱的发力。
例如,下面这张图是典型的金融知识图谱schema:
从schema构建来说,这张图已经清晰描述出了企业核心谱系,实体上,覆盖了公司、产品、行业、概念、地域,甚至资讯、研报、事件、指标也做了定义;关系上,股权关系为主,还覆盖了产业链上下游。但如果这个schema定义的知识图谱,实体关系只有1、2度这样的深度,那么他跟上市公司三方数据没什么区别。知识图谱的强大不在于信息的详尽,而在于信息的穿透。
以股权穿透为例,因为信息批露的原因,上市公司的一层股东关系很容易获得,诸如:10大股东、10大流通股东、联营公司、母公司、子公司。而在二层股东关系里,可能会有一些非上市公司,非上市公司没有信息批露的义务,所以有可能只能获取有限的工商股权数据。这就使得上图定义的如此强大的schema变得非常尴尬,当知识图谱schema定义的很多槽无法得到有效填充的情况下,知识图谱的信息穿透等分析能力就会大为减弱,这种数据的缺失,影响着金融知识图谱的发展。
笔者曾率队做过一个股权方面的课题,业务本身比较简单,以股权投资超过一定比例作为控制逻辑,计算上市公司包含在哪些资本系里面,并给出实控公司、核心成员以及扩展成员。该课题实践下来,最难的不是连通子图的计算,也不是上下穿透的图分析,而是找到并清洗出一份合格的股权数据。这其中存在很多问题,例如某个公司股权信息为空,最大股权小于规定比例等等。
如果用工作量来度量下这个课题,算法占20%,应用开发占20%,数据源比对占30%,数据处理占30%。数据积累和沉淀,道路漫漫。
那么未来金融知识图谱的发展之路应该如何走呢?融合产业链数据与引入“事件”是两种值得思考与探索的方式。
融合产业链数据
金融知识图谱为何需要产业链数据呢?企业分析首先从关系分析开始,对于上市公司来说,企业的关系分析除了基本的企业链信息之外,无外乎两大类关系:公司的股权关系,实体公司的产业链条关系。
公司的股权关系包括:股东关系、投资关系、母子公司关系、担保关系、质押关系等等;产业链关系则包括:公司主营产品信息、公司所属行业,产品所属细分行业,产品上下游、行业上下游等等。
一个公司的股权信息代表了一个实体公司在金融层面的一些运作,股权投资、股权激励、增资扩股、股权质押、股权担保等都属于这类业务,股权结构的变化可能会体现出公司的经营风险、业务前景等;但对一个实体公司来说,股权层面的操作都可以看作是副业,实体产业的经营才是主业。
从投资研究的角度看,实体产业的估值、行业地位、市场占有率、上下游构成,这类信息构成了实体公司的投资分析基础,这些数据都属于产业链数据。产业链数据是当下行研分析师做投资研究的基础数据,知识图谱对于公司的关系分析,尤其产业链条的关系分析,是核心。
产业链数据配合股权数据,可以解决实体+金融两类主要关系的业务分析。此时的金融知识图谱才是在数据上完整的知识图谱。这份知识图谱数据才能够覆盖投研、风控、投资、营销服务等金融各类场景的数据服务需求。
引入“事件”
整合了产业链数据的金融知识图谱,能够进一步演化为产业金融知识图谱。有了产业分析能力的金融知识图谱,就可以试水行研风控等金融核心业务了。
笔者在智能金融实践中,经常会遇到如下的一些问题:原材料涨价,对行业上下游的公司有什么影响?某P2P平台暴雷,这个风险事件对上市公司会有什么影响?CPI拐点出现,该指标对哪些行业、哪些公司有哪些影响?
这类问题不是简单的数据问题,也不是在找企业的某种关系,而是投研/风控领域经常面对的业务研究问题。这类问题的起点是一个个具体的事件,寻找的答案是事件的影响分析。
这类问题在过去基本存在于行研风控专家的业务模型里,而现在知识图谱作为企业关系分析的利器,企业等实体的关系网络的存储载体,让我们对于这类问题可以有新的方案加以应对,将传统业务研究嫁接到基于知识图谱的人工智能基础设施上,而支撑这类业务研究的,是构建在图谱数据中台之上、投研风控业务之下的一个中间业务处理层——事件图谱。
区别于传统事件驱动的“事件”,这里的“事件”是广义上的事件。事件图谱是指将新闻、公告、舆情等各类资讯,用人工智能分类的方法进行事件类型识别,将识别好的事件和关联主体跟金融知识图谱做关联,从而形成事件图谱。事件图谱也不同于国内学术界提出的事理图谱,事理图谱更多的是从NLP角度将新闻资讯的内容格式化为知识图谱,形成大数据,进而做推理分析。
事件图谱的作用主要体现在两方面:一个是事件识别,一个是事件的影响分析。所谓事件识别,可以理解为事件的建模,或者说事件本体的构建,简单来说就是用模型描述一类事件,比如诉讼事件可以简单建模成{事件类型:诉讼事件;影响标的:某公司;情感分析:-0.5;事件热度:0.8;事件影响度:0.5};也可以对此进行更加复杂的建模,把原告、被告、诉讼金额、诉讼地点等识别出来,从而更加精准的对事件加以描述。
事件的影响分析有两个维度,一是事件回测,二是事件传播影响。事件回测是对历史上同类事件的发生做一个数据统计分析,对于上市公司而言,回测的目标可以是设定为行情的收益率、波动率或者某个金融工程的具体模型,目的是看历史上同类事件发生后,对于相关公司会有什么样的影响。
事件传播影响则要借助金融知识图谱,通过事件识别命中某个事件主体(可能是某个公司、行业、产品,抑或是某个宏观数据行业指标等),将该主体关联到金融知识图谱里,可以查看跟这个事件相关的企业链信息、股权链信息和产业链信息。事件自身的正负面、影响度、热度会沿着知识图谱实体的关系网络进行传播,对这个传播影响进行定性或者定量的分析就是事件图谱要解决的核心问题了。
所以,事件图谱通过对新闻资讯舆情所描述的事件进行建模,并对其做定性或者定量的影响分析,从而在金融大数据和投研风控的业务研究中加入了一层智能事件的图谱分析。事件图谱联合企业画像和标签系统,将为传统金融向智能金融演化提供强有力的人工智能的业务支撑。
当使用知识图谱的业务由点及面,各类数据通过各个项目慢慢汇集在一起,并且在各个场景中逐步产生数据的增量价值,金融知识图谱的威力也会进一步凸显。