Data Governance (二) - 元資料治理
元資料到底是什麼?
其實元資料就是「資料的說明書」。
我自己這幾年在做元資料治理,最常碰到的三個基本問題:
-
資料定義(這個欄位到底代表什麼?是什麼單位?怎麼算的?)
-
資料在哪(Linkage,想找這個東西時,要去哪裡查?)
-
誰負責(Ownership,出問題要找誰,這欄位的老大是誰?)
但這邊有個重點,元資料不是只有一種,有分「業務元數據」跟「技術元數據」。
-
業務元數據 比較像是讓業務、需求單位看的,舉例:這份資料是做什麼的、有什麼商業意義,屬於哪個領域、哪個業務對象,誰是Business Data Steward,誰是Data Owner。
-
技術元數據 則是IT同仁的世界,像是:這筆資料存在哪個DB?哪張Table?哪個Column?IT Admin又是誰?這些才是「真的可以查得到、連得上的」底層資料資訊。
兩邊資料對得上,才不會業務說A、IT找不到A,永遠雞同鴨講。
為什麼元資料這麼重要?
說真的,資料治理大部分的進階玩法,都要靠前面這些東西站穩腳步。
你有沒有遇過這種狀況——想要盤點GDPR,結果根本沒人知道公司到底有哪些資料?或者想要強化某些資料品質、加速查詢效率,但資料定義模糊,越做越亂?
只要你有把元資料搞清楚,未來要加什麼敏感性標註、資料分級、資料品質註記、甚至資料分類,只要往那個表格加一欄,大家就會一目了然!
我自己碰過,像主資料治理,如果那時候早一點把元資料盤點到位,很多奇怪的遺留問題都不用再三討論。
元資料治理實務怎麼開始?
1. 準備元資料管理平台(推薦Open Source)
老實說現在開源選擇超多,大家只要挑一個有社群、功能夠用的就可以上手:
-
DataHub(我自己最推這個,血緣、API全都搞定,畫面也乾淨)
-
Amundsen(偏向資料探索、查詢)
-
Apache Atlas(如果你有大數據或Hive/ETL,這個很強)
-
CKAN(如果你有開放資料需求)
建議一開始可以小範圍PoC一下,不要一開始就全公司大規模導入,先找到自己流程最容易上手的切入點。
2. 元資料分層管理:業務元數據 & 技術元數據
最重要的一點是——元資料要「分層管理」!
我都會建議從「業務元數據」跟「技術元數據」兩條路線同步收斂,這樣最不容易漏掉東西。
- 業務元數據重點欄位(以主資料治理為例):
-
領域:像是業務、財務、生產…
-
業務對象:比如客戶、供應商、產品…
-
資料標準(L4):例如「客戶主檔」
-
屬性(L5):例如「客戶ID」、「客戶名稱」
-
Business Data Steward:管業務邏輯的人
-
Data Owner:這份資料的真正負責人(通常業務單位主管)
-
IT Product Owner:系統負責人(IT窗口)
-
IT Admin:系統管理員
- 技術元數據重點欄位(專屬IT的):
-
DB Name
-
Table Name
-
Column Name(只有屬性L5會有,L4通常不會有對應欄位)
3. 元資料治理範例Template(以客戶主檔為例)
下面這個Template就是我實際操作時,整理給各部門/同仁參考用的範本,一張表就能搞定所有資訊:
| 領域 | 業務對象 | 資料標準(L4) | 屬性(L5) | 定義/說明 | Business Data Steward | Data Owner | IT Product Owner | IT Admin | 敏感性 | GDPR | DB Name | Table Name | Column Name |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 業務 | 客戶 | 客戶主檔 | 客戶ID | 客戶唯一識別碼 | 王小明 | 張主管 | 陳工程師 | 李管理員 | 是 | 是 | CRM_DB | CUSTOMER | CUSTOMER_ID |
| 業務 | 客戶 | 客戶主檔 | 客戶名稱 | 客戶正式名稱 | 王小明 | 張主管 | 陳工程師 | 李管理員 | 是 | 否 | CRM_DB | CUSTOMER | CUSTOMER_NAME |
| 業務 | 客戶 | 客戶主檔 | 客戶主檔的業務說明 | 王小明 | 張主管 | 陳工程師 | 李管理員 | CRM_DB | CUSTOMER |
說明:如果是L4的「資料標準」,就不會有Column Name,只有到屬性(L5)才會對應到DB、Table、Column。
其他延伸欄位
這個表格很彈性,公司未來如果有新的盤點需求(像是是否為主資料、敏感等級、關聯表、存取頻率、是否需同步到雲…),都可以直接再加新欄位。例如:
-
是否為主資料(是/否)
-
資料品質負責人
-
存取等級
-
…等
有什麼需求就往這張表格加,讓資料治理與時俱進,越來越好用。
總結
總之,元資料治理聽起來很玄,其實就是幫公司把「誰、在哪、負責什麼」搞清楚。有了這些底子,不管未來要玩資料分類、敏感資料控管、查血緣、做合規,都能快速起步,少繞彎路。
如果你現在還沒整理元資料,真的建議趕快啟動這一步,未來一定會感謝現在努力的自己!
留言
張貼留言