海量資料時代的關鍵服務研討會第二場,邀請國家高速網路與計算中心副研究員王耀聰主講,介紹海量資料的內涵、趨勢、相關挑戰與因應對策,其演講內容摘錄如下:
1. 海量資料的定義與內涵
海量資料為單一資料集,大小介於數十TB至數PB的資料,資料大小已無法用一般軟體來處理,因此海量資料模型強調如何管理資料數量(Volume)、資料增加率(Velocity)與資料多樣性(Variety)。Gartner曾提出資料管理的12維度,歸類為三個向度:(1)數量控管:Velocity、Volume、Variety、Complexity,(2)權限控管:Classification、Contracts、Technology、Pervasive Use ,(3)品質控管:Perishability、Fidelity、Validation、Linking。海量資料只是終極資訊管理的開端,前述的三個向度都是未來資訊管理系統必須考量的要求。
2.海量資料趨勢
軟體發展勢必走向智能化,資料(data)經由整理變成知識(Knowledge),知識分析形成智能(Wisdom),以政府來講,這幾年提倡的愛台12項建設, 從e-Taiwan、M-Taiwan、U-Taiwan到「智慧台灣」,台灣軟體發展也是依循這樣的趨勢;雲端運算的智慧來自於群眾的智慧,雲端時代不應只著墨在裝置端,而是要聚焦在那朵雲,掌握及分析雲端資料,形成智能在裝置端使用,套用知識管理模型來看,資料經由整理、轉換、分析,人工智慧應是由經驗值推論,才能提供最好的決策。
3. 海量資料相關技術
雲端運算的三種服務模式包含Lass (基礎建設,如Amazon.com) 、Pass (分析平台,如Google App Engine)、Sass(智慧服務)。在企業雲端的規劃上,台灣因中小企業特別多,通常企業會先計算出需求的平均值,建置自有的私有雲,超出平均值的部份再租賃公有雲,形成所謂的混合雲(Hybrid Cloud)。未來資訊人員需要管理的資管系統,不僅限於企業內部,而是包含產業上下游相關的部份 。
4.因應策略與成功關鍵
海量資料首要為資料整合,將這些跨系統的資料庫轉換成資料倉儲,才能進行資料分析。而三種服務模式所對應的技術為虛擬化技術、資料分析及網頁服務,內涵分別為儲存虛擬化/備援與加密、資料整合/資料探勘、提供API介面/分散式資料庫。
與海量資料相關的熱門工作包含資料探勘、資料視覺化、資料分析、資料操控及資料鑑識,分別應用在搜尋引擎、將資料用圖說故事、商業智慧、與法律結合的數位鑑識;未來處理海量工作的人必須了解SMAQ (storage、MapReduce及Query),全球多數使用的是自由軟體Hadoop,因使用者規模夠大,可以建構出豐富的海量資料工具庫,目前Yahoo、Facebook、微軟及Oracle等企業皆有使用,因此未來可利用Hadoop建構企業專屬的資料倉儲、商業智慧分析及搜尋引擎。