分析
設(shè)計下一代數(shù)據(jù)倉庫平臺,需要確定整個數(shù)據(jù)元素集的分析處理需求并對其劃分類別。因為我們可以在數(shù)據(jù)發(fā)現(xiàn)層次上創(chuàng)建分析,雖然這個層次主要受到業(yè)務(wù)消費者的關(guān)注和驅(qū)動,與企業(yè)應(yīng)用的實際情況不符合,但是我們一樣可以在從數(shù)據(jù)倉庫獲得數(shù)據(jù)之后再創(chuàng)建分析。
圖1顯示了下一代數(shù)據(jù)倉庫平臺的分析處理過程。數(shù)據(jù)集成層是關(guān)鍵架構(gòu)集成層,是我語義、報表和分析技術(shù)的組合,它基于語義知識框架,是下一代分析和商業(yè)智能的基礎(chǔ)。本章后面將介紹這個框架。
圖1 下一代數(shù)據(jù)倉庫平臺的分析處理過程
數(shù)據(jù)架構(gòu)的最終確定是最耗費時間的任務(wù),但是一旦完成,它就可以為物理部署提供堅實的基礎(chǔ)。物理部署將使用到前面介紹的技術(shù),其中包括大數(shù)據(jù)和RDBMS系統(tǒng)。
物理組件的集成與架構(gòu)
下一代數(shù)據(jù)倉庫將部署在異質(zhì)基礎(chǔ)架構(gòu)和能夠把傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)和大數(shù)據(jù)一起整合到一個可擴展運行環(huán)境的架構(gòu)上。有幾種方法可以部署物理架構(gòu),但是每一種方法都有各自的優(yōu)點和不足。
下一代數(shù)據(jù)倉庫平臺的物理架構(gòu)將會面對的主要挑戰(zhàn)包括數(shù)據(jù)加載、可用性、數(shù)據(jù)容量、存儲性能、可擴展性、數(shù)據(jù)的多樣變化查詢要求、運營成本和環(huán)境維護。下面將逐一介紹這些挑戰(zhàn)。
數(shù)據(jù)加載
由于沒有明確的格式、元數(shù)據(jù)或模式,大數(shù)據(jù)的加載過程只是直接查詢數(shù)據(jù)并將它存儲為文件。如果要處理系統(tǒng)的數(shù)據(jù)源,同時又要處理超大數(shù)據(jù)或微批處理數(shù)據(jù),那么這個任務(wù)可能會非常復(fù)雜。在這種情況中,可以用一個經(jīng)過配置和優(yōu)化的設(shè)備來處理這些極端情況,而不要用某一個專業(yè)部署。這種方法的缺點是需要定制架構(gòu)配置,但是它仍然是可管理的。
平臺數(shù)據(jù)的持續(xù)處理可能會在一段時間里產(chǎn)生資源爭奪問題。這種情況常見于大文檔、視頻或圖像。如果這個需求對架構(gòu)來說很重要,那么就適合使用一個軟設(shè)備,這樣在配置和安裝過程就可以避免這個問題。
大型環(huán)境的MapReduce配置和優(yōu)化可能很有難度,但是設(shè)備架構(gòu)會提供一些參考架構(gòu)安裝步驟,幫助我們簡化這個過程。
數(shù)據(jù)可用性
數(shù)據(jù)可用性一直是所有涉及處理和轉(zhuǎn)換最終用戶數(shù)據(jù)的系統(tǒng)的難題,大數(shù)據(jù)也不例外。Hadoop或NoSQL的優(yōu)點是能夠降低這個風(fēng)險,同時使數(shù)據(jù)在獲取之后馬上就可用于分析。不足是需要快速加載數(shù)據(jù),因為沒有任何預(yù)轉(zhuǎn)換步驟。
數(shù)據(jù)可用性取決于SerDe或Avro層次的元數(shù)據(jù)特殊性。如果在獲取數(shù)據(jù)時對它們執(zhí)行了足夠詳細的分類,那么它們就可以馬上用于分析。
由于大數(shù)據(jù)層次的數(shù)據(jù)不存在更新,所以處理包含更新的新數(shù)據(jù)將產(chǎn)生重復(fù)數(shù)據(jù),我們必須處理這些重復(fù)數(shù)據(jù),才能減小它們對于可用性的影響。
數(shù)據(jù)容量
數(shù)據(jù)的內(nèi)在特性決定了大數(shù)據(jù)容量很容易失去控制。在每個數(shù)據(jù)獲取周期中都一定要特別注意數(shù)據(jù)的增長。
數(shù)據(jù)停留需求各不相同,它主要取決于數(shù)據(jù)的性質(zhì)、新近程度及其與業(yè)務(wù)的關(guān)系:
合規(guī)性需求:Safe Harbor、SOX、HIPAA、GLBA和PCI法規(guī)可能會影響數(shù)據(jù)安全性和存儲。如果計劃要使用這些數(shù)據(jù)類型,那么一定正確規(guī)劃。
法律授權(quán):有一些事務(wù)數(shù)據(jù)集不能在線存儲,法院要求使用這些數(shù)據(jù)來發(fā)現(xiàn)集體訴訟的意圖。大數(shù)據(jù)基礎(chǔ)架構(gòu)可以作為這種數(shù)據(jù)類型的存儲引擎,但是數(shù)據(jù)授權(quán)一定要符合一些需求和額外的安全要求。這種數(shù)據(jù)容量可能會影響整體性能,而且如果在大數(shù)據(jù)平臺上處理這些數(shù)據(jù)集,那么設(shè)備配置可以給管理員提供一些工具和方法,幫助他們將基礎(chǔ)架構(gòu)劃分到不同的區(qū)域,為數(shù)據(jù)標(biāo)記不同的區(qū)域標(biāo)簽,從而減小對于風(fēng)險和性能的影響。
數(shù)據(jù)探索和挖掘是一個非常普通的活動,它是在各個組織中實現(xiàn)大數(shù)據(jù)抓取的一個動因,它也會在數(shù)據(jù)處理之后產(chǎn)生大規(guī)模數(shù)據(jù)集。這些數(shù)據(jù)集需要保存在大數(shù)據(jù)系統(tǒng),然后定期清理和刪除中間數(shù)據(jù)集。這是各種組織經(jīng)常忽略的一個領(lǐng)域,而且可能在一段時間之后對性能產(chǎn)生嚴(yán)重影響。
存儲性能
在創(chuàng)建大數(shù)據(jù)系統(tǒng)時,磁盤性能是一個重要考慮因素,設(shè)備模型可以更多地關(guān)注存儲類型和分層架構(gòu)。對于存儲基礎(chǔ)架構(gòu)的長期規(guī)劃和增長管理而言,它可以作為一個起步工具。
如果在大數(shù)據(jù)處理中計劃組合使用內(nèi)存、SSD和傳統(tǒng)存儲架構(gòu),那么不同層次數(shù)據(jù)的維持和交換都會花費大量的處理時間和處理周期。我們需要特別注意這個領(lǐng)域,設(shè)備架構(gòu)專門為這種復(fù)雜存儲需求提供了一種參考。
運營成本
計算一個數(shù)據(jù)倉庫及其大數(shù)據(jù)平臺的運營開支是一項復(fù)雜的任務(wù),運營成本包含基礎(chǔ)架構(gòu)的初始采購費用、實現(xiàn)架構(gòu)的勞力成本及持續(xù)維護所需要的基礎(chǔ)架構(gòu)和勞力成本,包括獲取外部咨詢和聘請專家的費用。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.lukmueng.com/
本文標(biāo)題:運用大數(shù)據(jù)技術(shù)集成數(shù)據(jù)倉庫架構(gòu)
本文網(wǎng)址:http://m.lukmueng.com/html/consultation/10839712049.html