在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

后金融危機時代,花旗銀行是如何提高數據質量的?

發(fā)布時間:2016-07-20  |   來源: 川總寫量化

作者:石川

摘要:本文介紹世界頂級金融機構花旗銀行如何處理并提高數據質量。


0 引言


量化投資決策的數學模型要分析大量的宏觀經濟數據以及股票交易數據,模型有效與否直接由輸入數據的質量決定。垃圾進,垃圾出(garbage in, garbage out),模型輸出結果的質量只會比輸入數據的質量更差。那么,一套科學、完整、有效的數據質量分析框架就顯得格外重要。今天,我們就來為你介紹世界頂級金融機構花旗銀行是如何處理并提高數據質量的。


1 契機


2008 年全球金融危機暴露了美國金融體系的內在缺陷,危機過后政府部門普遍提高了對金融機構的監(jiān)管要求和監(jiān)管力度。對于金融機構自身而言,數以萬計決策的制定倚賴數以億計數據的準確性,金融危機充分暴露了這個領域存在嚴重問題。因此,來自危機的警示和趨于嚴苛的監(jiān)管,共同促使金融機構重新審視提高數據質量的重要性。筆者有幸于 2011 年就職于全球最大的金融機構之一的花旗銀行并直接參與數據質量的工作。本文對花旗銀行改善數據質量的分析框架進行簡單梳理。感興趣的讀者可以進一步參閱我和當時的同事為此發(fā)表的論文 Shi?et al. (2015) 以及出版物 Jugulum?(2014)。


2 CDO


作為行業(yè)的領袖之一,花旗銀行在 2009 年下半年成立了企業(yè)層面的數據辦公室(Chief Data Office,下稱 CDO),主要有兩個作用:


制度層面,負責在公司內制定和形成數據管理的紀律和文化;


執(zhí)行層面,為公司各項業(yè)務提高數據質量。


通過這個部門,花旗將數據質量的實時監(jiān)控深入到日常運作的方方面面,幫助及時發(fā)現包括流動性、信貸、市場、保險和運營在內的各項風險?;ㄆ靾孕牛哔|量的數據不僅是企業(yè)競爭力的關鍵所在,也有助于提升監(jiān)管部門的信心。


3 分析框架


這個新成立的數據部門包括幾個小組,而我在的組專門負責數據分析和改進。這個組由數據專家和分析師組成,負責構建數據質量的監(jiān)控和改進框架。整個分析框架由兩部分組成。


首先是通過“漏斗法”、利用統(tǒng)計學手段確定需要監(jiān)控和改善的數據元素。數據元素可以定義為在銀行的各項業(yè)務中用到的數據屬性(比如客戶的姓名就是一個數據元素,它可以被用于賬戶管理、市場營銷以及客戶服務這些業(yè)務中)。銀行業(yè)務繁雜,有數以萬計的數據元素,因此必須找到對運營、服務、監(jiān)管等應用場景成敗與否最至關重要的數據元素,把有限的人力和資源用來提高它們的質量。被選出的核心數據元素稱為 CDEs(Critical Data Elements)。


當 CDEs 確定之后,采用流程改善的經典工具 6?Sigma(譯作六西格瑪)對這些數據進行實時的監(jiān)控和分析。通過監(jiān)控數據質量判斷產生這些 CDEs 的業(yè)務過程是否出現紕漏或者異常變化,及時發(fā)現這些業(yè)務的潛在風險并采取有效的措施避免可能的損失。


接下來,我們就來看看漏斗法是如何篩選核心數據元素的(這是花旗銀行的獨創(chuàng))。對于 6?Sigma,由于它是業(yè)界廣為人知的過程改善方法,我們只稍作提及但不會重點描述。為了結合實際,我們將用巴塞爾第二協(xié)定的用例來說明花旗的數據質量分析框架。


4 漏斗法


漏斗法包含核心數據元素的識別和優(yōu)選兩部分(流程圖見圖 1)。


識別階段(前兩步),通過業(yè)務專家(subject matter experts)和評分矩陣初步篩選出核心數據元素。一般來說,在這個階段過后,被選出的元素個數仍然太多。


優(yōu)選階段(后兩步),通過統(tǒng)計學中的相關性和信噪比分析進一步過濾不必要的數據元素,得到最終的核心數據元素。


f1.png

圖 1?漏斗法識別和優(yōu)選核心數據元素 CDEs

?

漏斗法因“輸入元素多、輸出元素少”而得名。下面我們將按照先后順序,對漏斗法的這四個步驟分別進行詳述。


4.1?引入業(yè)務專家,“客戶需求”是重中之重


引入業(yè)務專家觀點是這個分析框架的核心之一。一切提高數據質量的努力都是為了每一個具體的業(yè)務用例,而業(yè)務專家在這個過程中就是“客戶”,數據元素的鑒別必須從“客戶需求”(voice of customers)開始。業(yè)務專家為 CDO 的數據專家解釋業(yè)務過程的商業(yè)邏輯,闡明該業(yè)務的輸入和輸出數據元素都有哪些。在二者的配合下,由業(yè)務專家首先擬定候選核心數據元素。在巴塞爾第二協(xié)定這個用例中,花旗的相關業(yè)務專家首先鑒別出 35 個數據元素。


4.2 使用評分矩陣,按對業(yè)務的重要性為數據元素打分


雖然業(yè)務專家可以初選出很好的候選數據元素,但進一步的篩選就需要一個可以量化的科學體系了,評分矩陣便應運而生。


f3.png

圖 2?數據元素評分框架


評價矩陣如圖 2 所示。首先選出一系列和業(yè)務相關的數據評價標準,并按照其重要性打分。為了有一定的區(qū)分度,分數分為 1、4、7、10 四檔。其次,將每個數據元素按每個評價標準的規(guī)則進行打分,打分同樣按照 1、4、7、10 四擋。將標準的重要性得分和數據元素對于該標準的得分兩兩相乘再求和,便得到每個元素的總分,并根據這個總分把它們從高到低排序。這個評分矩陣幫助業(yè)務專家對候選元素進行量化比較。在巴塞爾協(xié)定用例中,利用這個評價矩陣,業(yè)務專家從 35 個候選元素中選出了分數最高的 21 個。


4.3 進行相關性分析,進一步精簡核心數據元素


在漏斗法的第三步,相關性分析被用來檢查是否有多個數據元素具有很高的相關性。這是因為如果兩個元素的相關性非常高,那么我們只監(jiān)測其中一個即可。這樣能進一步減少核心數據元素的個數。對于連續(xù)的數據元素(比如用戶的存款數)和離散的數據元素(比如客戶的姓名),回歸分析和關聯分析分別被用來檢查元素之間的相關性(注:在金融行業(yè)的用例中,線性相關性一般來說就足夠了)。


圖 3 顯示了在我們的用例中,部分候選元素之間的相關性。值得一提的是,相關系數的取值在 -1 到 1 之間,越接近 1 說明正相關性越高,越接近 -1 說明負相關性越高,越接近 0 說明線性相關性越不明顯(注:也許它們有非線性相關性,但不在我們考慮范圍內)。在應用中,0.85 和 -0.85 被用來當作高相關性的閾值。


f4.png

圖 3?元素之間的線性相關性


相關分析顯示,有 10 個元素組成了 8 對兩兩相關的配對。這表明,我們只需要從這 10 個元素中選出 4 個即可;另外 6 個元素將和這 4 個元素高度相關。如何進行 10 選 4 能?信噪比分析將隆重登場。


4.4 通過信噪比分析,確定最終核心數據元素名單


信噪比源于質量控制,用來測量信號相對于環(huán)境噪聲的大?。═aguchi 1986, Taguchi and Jugulum 1999)。信噪比定義如下:


e1.png


這個定義說明信噪比低的 CDE 有更大的波動性。數據的波動性往往說明產生這個數據的業(yè)務過程有更大的不確定性、因此需要實時的監(jiān)控。因此對于兩個高度相關的數據元素,我們選擇信噪比低的作為需要監(jiān)控的對象。對 4.3 節(jié)提到的 10 個元素計算信噪比,結果如圖 4 所示,我們從中選取信噪比低的 4 個元素。


f5.png

圖 4?高度相關數據元素的信噪比


通過相關性和信噪比分析,我們進一步舍棄6個數據元素。最終,整個漏斗法的四個步驟將核心數據元素個數由原始的 35 個降至最終的 15 個(減少了 57%)。這為后面數據質量的檢測大大減少了所需的人力和資源。


5 數據質量監(jiān)測和改善


核心數據元素確定后,便可對它們的質量進行實時監(jiān)測,一旦發(fā)現問題便可采用 6 Sigma 方法改進業(yè)務流程,防范風險。想要量化數據質量,必須首先選取評價的維度,它們稱為數據質量維度(data quality dimension)。一個數據質量維度可以定義為描繪該數據在某一方面的質量的屬性,比如數據的完整性、一致性、有效性、準確性等。


舉個例子,客戶年齡是一個數據元素,如果所有的客戶在客戶年齡這個元素上都有數值,則這個元素在完整性這個屬性上的數據質量是滿分。但完整性僅僅刻畫單一特性,所以我們并不知道用戶的年齡是否正確(比如用戶 A 可能實際是 30 歲但我們的記錄顯示為 40 歲)、取值是否有效等(比如我們的記錄可能顯示用戶B的年齡為 -1,這顯然是無效的)。因此,需要從多個維度考慮數據元素的綜合質量。圖 5 顯示了在巴塞爾用例中,最終確定的 15 個核心數據元素在完整性、一致性和有效性三個維度上的質量得分(注:表中數據僅是模擬分數,并非真實分數)。


f6.png

圖 5?數據質量得分


量化的數據質量使得我們可以通過統(tǒng)計過程控制(statistical process control)對數據質量進行監(jiān)測。一旦發(fā)現異常值或者數據質量的突然惡化,便根據數據產生的邏輯順藤摸瓜找到產生數據的業(yè)務環(huán)節(jié),然后采用 6 Sigma 流程改善中的經典分析方法對業(yè)務進行完善,真正的做到有的放矢。


6 結語


數據是金融機構最重要的無形資產。無論是銀行、公募私募基金、互聯網金融公司,高質量的數據都是它們賴以生存的前提條件。特別的,對于量化投資來說,投資決策的數學模型要分析大量的宏觀經濟數據以及股票交易數據。這些模型有效與否由輸入數據的質量直接決定。所謂垃圾進,垃圾出(Garbage in, garbage out),模型輸出結果的質量只會比輸入數據的質量更差。然而,業(yè)界并沒有多少文獻系統(tǒng)的闡述一個能被直接應用于實際的數據質量分析框架。在這方面,花旗可謂是先驅之一。希望通過今天的介紹,讓更多的小伙伴了解到世界頂尖銀行在這方面所做的努力;更希望有人能因此受到啟發(fā),把數據質量的提高帶入到他們自己的投資實戰(zhàn)中。



參考文獻

R.?Jugulum (2014). Competing with High Quality Data: Concepts, Tools, and Techniques for Building a Successful Approach to Data Quality. Wiley.

Shi, C., R.?Jugulum, H. I.?Joyce, J. Singh, B. Granese, R. Ramachandran, D. Gray, C. H. Heien, J. R. Talburt (2015). Improving Financial Services Data Quality – a Financial Company Practice. International Journal of Lean Six Sigma 6(2), 98 – 110.

Taguchi, G. (1986), Introduction to Quality Engineering, Asian Productivity Organization, Tokyo.

Taguchi, G. and R. Jugulum (1999). Role of S/N ratios in multivariate diagnosis. Journal of?Japanese Quality Engineering Society 7(6), 63 – 69.



免責聲明:入市有風險,投資需謹慎。在任何情況下,本文的內容、信息及數據或所表述的意見并不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自于相應論文,僅為介紹之用,版權歸原作者和期刊所有。