首頁 / 大學 / 知識講義

關于金融知識圖譜的探索與落地

融寶互聯 時間:2019-07-17 14:07:03 閱讀:4093

金融行業是數據驅動的行業,很多傳統金融業務對行情、資訊等金融數據已經形成了高度依賴。知識圖譜作為人工智能時代的“知識工程”、“專家工程”,承載了對紛繁復雜、多源異構的金融資訊大數據加工整合的重任,已經得到行業從業人士的普遍認同。

知識圖譜可以將金融資訊大數據中的實體關系屬性等信息,用極其簡單的三元組的方式聚合在一起,形成一個金融語義網絡。因為有統一的數據表示,所以可以形成統一的數據消費,這種機器可以看得懂的大數據,沒有理由不在智能金融業務場景中大放異彩。在探索與落地的過程中,一些難點仍有待突破。

看見

語義鴻溝是一個人工智能專業術語,用來解釋傳統金融與智能金融的溝通障礙非常貼合。這里有兩個層面的問題,一個是“看見”的問題,一個是“信任”的問題。?

傳統的金融IT是由業務部門提業務需求,IT部門負責轉化為軟件需求,IT供應商負責提供解決方案或者軟件產品。這套方法在數字金融時代、互聯網金融時代都非常有效,為何在智能金融時代就玩不轉了呢?這里就存在著能不能“看見”的問題。?

簡單來說,人工智能的數據科學家看不見業務部門的業務,而金融機構的業務人員也看不見自己的某項業務問題還可以用人工智能的方法來解決,從而也提不出這樣的需求。所以在人工智能團隊和業務團隊之間,必須有一類角色要解決這個問題,負責創造性地提出某些業務場景如何用人工智能(大數據技術)加以改造。這類角色最好是業務出身,并且懂一些人工智能技術,他們是典型的創新型人才,其當下的重要作用不亞于數據科學家。?

信任

語義鴻溝的第二個層面是信任問題。人工智能結果的可靠性、質量的保障以及過程的可解釋性,是產生信任問題的根源。舉個例子,面對人工審核的合同和用AI審核的合同,即使后者的準確率能夠高達98%,傳統業務人員可能依然傾向于人工審核的合同,因為他需要關鍵條款不能出錯,而不是一個針對通篇的高概率的正確。這背后,隱藏的是經年的用戶教育問題。

數據質量

比之于語義鴻溝,數據質量對金融知識圖譜的推廣有更大的影響。知識圖譜是一份“大而全”的數據,數據的增量部分是很少的,大部分數據是對已有數據的再組織,成果就是由“多源異構數據”轉化為統一的schema。不過,數據的質量以及數據的缺失,影響了圖譜的發力。?

例如,下面這張圖是典型的金融知識圖譜schema:

schema

從schema構建來說,這張圖已經清晰描述出了企業核心譜系,實體上,覆蓋了公司、產品、行業、概念、地域,甚至資訊、研報、事件、指標也做了定義;關系上,股權關系為主,還覆蓋了產業鏈上下游。但如果這個schema定義的知識圖譜,實體關系只有1、2度這樣的深度,那么他跟上市公司三方數據沒什么區別。知識圖譜的強大不在于信息的詳盡,而在于信息的穿透。

以股權穿透為例,因為信息批露的原因,上市公司的一層股東關系很容易獲得,諸如:10大股東、10大流通股東、聯營公司、母公司、子公司。而在二層股東關系里,可能會有一些非上市公司,非上市公司沒有信息批露的義務,所以有可能只能獲取有限的工商股權數據。這就使得上圖定義的如此強大的schema變得非常尷尬,當知識圖譜schema定義的很多槽無法得到有效填充的情況下,知識圖譜的信息穿透等分析能力就會大為減弱,這種數據的缺失,影響著金融知識圖譜的發展。

筆者曾率隊做過一個股權方面的課題,業務本身比較簡單,以股權投資超過一定比例作為控制邏輯,計算上市公司包含在哪些資本系里面,并給出實控公司、核心成員以及擴展成員。該課題實踐下來,最難的不是連通子圖的計算,也不是上下穿透的圖分析,而是找到并清洗出一份合格的股權數據。這其中存在很多問題,例如某個公司股權信息為空,最大股權小于規定比例等等。

如果用工作量來度量下這個課題,算法占20%,應用開發占20%,數據源比對占30%,數據處理占30%。數據積累和沉淀,道路漫漫。

那么未來金融知識圖譜的發展之路應該如何走呢?融合產業鏈數據與引入“事件”是兩種值得思考與探索的方式。

融合產業鏈數據

金融知識圖譜為何需要產業鏈數據呢?企業分析首先從關系分析開始,對于上市公司來說,企業的關系分析除了基本的企業鏈信息之外,無外乎兩大類關系:公司的股權關系,實體公司的產業鏈條關系。

公司的股權關系包括:股東關系、投資關系、母子公司關系、擔保關系、質押關系等等;產業鏈關系則包括:公司主營產品信息、公司所屬行業,產品所屬細分行業,產品上下游、行業上下游等等。

一個公司的股權信息代表了一個實體公司在金融層面的一些運作,股權投資、股權激勵、增資擴股、股權質押、股權擔保等都屬于這類業務,股權結構的變化可能會體現出公司的經營風險、業務前景等;但對一個實體公司來說,股權層面的操作都可以看作是副業,實體產業的經營才是主業。

從投資研究的角度看,實體產業的估值、行業地位、市場占有率、上下游構成,這類信息構成了實體公司的投資分析基礎,這些數據都屬于產業鏈數據。產業鏈數據是當下行研分析師做投資研究的基礎數據,知識圖譜對于公司的關系分析,尤其產業鏈條的關系分析,是核心。

產業鏈數據配合股權數據,可以解決實體+金融兩類主要關系的業務分析。此時的金融知識圖譜才是在數據上完整的知識圖譜。這份知識圖譜數據才能夠覆蓋投研、風控、投資、營銷服務等金融各類場景的數據服務需求。

引入“事件”

整合了產業鏈數據的金融知識圖譜,能夠進一步演化為產業金融知識圖譜。有了產業分析能力的金融知識圖譜,就可以試水行研風控等金融核心業務了。

筆者在智能金融實踐中,經常會遇到如下的一些問題:原材料漲價,對行業上下游的公司有什么影響?某P2P平臺暴雷,這個風險事件對上市公司會有什么影響?CPI拐點出現,該指標對哪些行業、哪些公司有哪些影響?

?這類問題不是簡單的數據問題,也不是在找企業的某種關系,而是投研/風控領域經常面對的業務研究問題。這類問題的起點是一個個具體的事件,尋找的答案是事件的影響分析。

這類問題在過去基本存在于行研風控專家的業務模型里,而現在知識圖譜作為企業關系分析的利器,企業等實體的關系網絡的存儲載體,讓我們對于這類問題可以有新的方案加以應對,將傳統業務研究嫁接到基于知識圖譜的人工智能基礎設施上,而支撐這類業務研究的,是構建在圖譜數據中臺之上、投研風控業務之下的一個中間業務處理層——事件圖譜。

?區別于傳統事件驅動的“事件”,這里的“事件”是廣義上的事件。事件圖譜是指將新聞、公告、輿情等各類資訊,用人工智能分類的方法進行事件類型識別,將識別好的事件和關聯主體跟金融知識圖譜做關聯,從而形成事件圖譜。事件圖譜也不同于國內學術界提出的事理圖譜,事理圖譜更多的是從NLP角度將新聞資訊的內容格式化為知識圖譜,形成大數據,進而做推理分析。

?事件圖譜的作用主要體現在兩方面:一個是事件識別,一個是事件的影響分析。所謂事件識別,可以理解為事件的建模,或者說事件本體的構建,簡單來說就是用模型描述一類事件,比如訴訟事件可以簡單建模成{事件類型:訴訟事件;影響標的:某公司;情感分析:-0.5;事件熱度:0.8;事件影響度:0.5};也可以對此進行更加復雜的建模,把原告、被告、訴訟金額、訴訟地點等識別出來,從而更加精準的對事件加以描述。

?事件的影響分析有兩個維度,一是事件回測,二是事件傳播影響。事件回測是對歷史上同類事件的發生做一個數據統計分析,對于上市公司而言,回測的目標可以是設定為行情的收益率、波動率或者某個金融工程的具體模型,目的是看歷史上同類事件發生后,對于相關公司會有什么樣的影響。

?事件傳播影響則要借助金融知識圖譜,通過事件識別命中某個事件主體(可能是某個公司、行業、產品,抑或是某個宏觀數據行業指標等),將該主體關聯到金融知識圖譜里,可以查看跟這個事件相關的企業鏈信息、股權鏈信息和產業鏈信息。事件自身的正負面、影響度、熱度會沿著知識圖譜實體的關系網絡進行傳播,對這個傳播影響進行定性或者定量的分析就是事件圖譜要解決的核心問題了。

?所以,事件圖譜通過對新聞資訊輿情所描述的事件進行建模,并對其做定性或者定量的影響分析,從而在金融大數據和投研風控的業務研究中加入了一層智能事件的圖譜分析。事件圖譜聯合企業畫像和標簽系統,將為傳統金融向智能金融演化提供強有力的人工智能的業務支撐。

當使用知識圖譜的業務由點及面,各類數據通過各個項目慢慢匯集在一起,并且在各個場景中逐步產生數據的增量價值,金融知識圖譜的威力也會進一步凸顯。

評論

還未登錄?馬上去 登錄 后評論

全部評論總共{{comment.total}}條
  • {{item.c_AuthorUsername}} {{item.c_CreateTime}}

    {{item.c_Content}}

    {{item.c_ReplyCount}}
    • {{item.c_AuthorUsername}} {{item.c_CreateTime}}

    沒有更多了

    還未登錄?馬上去 登錄 后評論

沒有更多了

台湾佬中文娱乐网欧美色图