
AWS在去年re:Invent 2018大會上介紹的數據湖管理工具AWS Lake Formation,現在推出正式版,用戶可以使用AWS Lake Formation對數據進行擷取、清理、分類、轉換以及保護的工作,方便後續(xù)分析或是機器學習使用。
AWS提到,只要企業(yè)開始使用數字格式的數據,那就可能需要建立一個數據倉儲,從CRM或是ERP等營運系統(tǒng)收集數據,并給其他決策支援系統(tǒng)使用,這些數據包括未組織的原始數據、日志、圖片、影片或是掃描的文件等,而這也是數據湖的概念,將所有數據以各種規(guī)模與形式,儲存在中央儲存庫中。
而AWS新推出的數據湖服務Lake Formation,能簡化數據湖的管理工作,用戶可以使用中央控制臺,處理建置和配置數據湖繁雜的工作,包括載入不同來源的數據、監(jiān)控數據流、設定數據分區(qū)、加密和管理金鑰,以及格式轉換與監(jiān)控營運等工作。
只要在Lake Formation中指定數據來源,系統(tǒng)就會自動從數據庫和物件儲存擷取數據,并將這些數據儲存到Amazon S3數據湖中,以適當的大小與方式整理,增加存取效能,并以機器學習演算法清理和分類數據,為敏感數據提供存取保護。
用戶還可以使用Glue ML Transforms刪除數據湖中重復的數據,提高後續(xù)分析數據的效率,避免因為重復的數據,造成分析工作的混淆。AWS提到,這項工作并非單純透過鍵值比對,就能找出重復的數據,很多情況需要進行模糊比對,像是當用戶需要在不同表格查詢類似的項目時,就需要使用模糊連接(Fuzzy Join),在不共用唯一鍵值的兩個數據庫表格查詢相似數據。
在保護數據存取方面,用戶可以在Lake Formation中,定義精細的存取政策,保護Glue Data Catalog中的元數據,以及儲存在Amazon S3的數據,AWS提到,在數據湖中管理存取權限是一件復雜的任務,因為數據的各種特性,包括結構化與否、敏感性或是可存取的數據范圍不一,而Lake Formation賦予用戶以IAM使用者、角色、群組和AD來管理數據存取,也能夠拒絕表格特定的科目被存取。
