Data Governance (二) - 元資料治理
元資料到底是什麼? 其實元資料就是「資料的說明書」。 我自己這幾年在做元資料治理,最常碰到的三個基本問題: 資料定義 (這個欄位到底代表什麼?是什麼單位?怎麼算的?) 資料在哪 (Linkage,想找這個東西時,要去哪裡查?) 誰負責 (Ownership,出問題要找誰,這欄位的老大是誰?) 但這邊有個重點,元資料不是只有一種,有分「 業務元數據 」跟「 技術元數據 」。 業務元數據 比較像是讓業務、需求單位看的,舉例:這份資料是做什麼的、有什麼商業意義,屬於哪個領域、哪個業務對象,誰是Business Data Steward,誰是Data Owner。 技術元數據 則是IT同仁的世界,像是:這筆資料存在哪個DB?哪張Table?哪個Column?IT Admin又是誰?這些才是「真的可以查得到、連得上的」底層資料資訊。 兩邊資料對得上,才不會業務說A、IT找不到A,永遠雞同鴨講。 為什麼元資料這麼重要? 說真的,資料治理大部分的進階玩法,都要靠前面這些東西站穩腳步。 你有沒有遇過這種狀況——想要盤點GDPR,結果根本沒人知道公司到底有哪些資料?或者想要強化某些資料品質、加速查詢效率,但資料定義模糊,越做越亂? 只要你有把元資料搞清楚,未來要加什麼敏感性標註、資料分級、資料品質註記、甚至資料分類,只要往那個表格加一欄,大家就會一目了然! 我自己碰過,像主資料治理,如果那時候早一點把元資料盤點到位,很多奇怪的遺留問題都不用再三討論。 元資料治理實務怎麼開始? 1. 準備元資料管理平台(推薦Open Source) 老實說現在開源選擇超多,大家只要挑一個有社群、功能夠用的就可以上手: DataHub (我自己最推這個,血緣、API全都搞定,畫面也乾淨) Amundsen (偏向資料探索、查詢) Apache Atlas (如果你有大數據或Hive/ETL,這個很強) CKAN (如果你有開放資料需求) 建議一開始可以小範圍PoC一下,不要一開始就全公司大規模導入,先找到自己流程最容易上手的切入點。 2. 元資料分層管理:業務元數據 & 技術元數據 最重要的一點是——元資料要「分層管理」! 我都會建議從「業務元數據」跟「技術元數據」兩條路線同步...
留言
張貼留言