眾所周知,這是一個信息時代———即充滿數(shù)據(jù)的時代。隨著
物聯(lián)網(wǎng)的應用與發(fā)展,人們突然發(fā)現(xiàn)(事實上早就存在),數(shù)據(jù)量幾乎成指數(shù)級增長。有這樣一組數(shù)據(jù):全球每天有43 億部電話和20 億位互聯(lián)網(wǎng)用戶在生成數(shù)據(jù),并與300 億個RFID 標簽和數(shù)百顆人造衛(wèi)星每秒都在不斷發(fā)送更多信號融合在一起,其中,Twitter 每天就會增加12 TB 的數(shù)據(jù)———全文本,且每次最多添加140 個字符,而這只是數(shù)據(jù)在數(shù)量級上對大家的一種沖擊。本文將從以下幾個部分就大數(shù)據(jù)進行討論。
1 大數(shù)據(jù)來源及數(shù)量
提到數(shù)據(jù),相信IT從業(yè)人員首先想到的是數(shù)據(jù)庫、數(shù)據(jù)倉庫等技術(shù),畢竟這是一種至今仍然十分流行且占據(jù)主導地位的技術(shù)。但請記住,這些技術(shù)是構(gòu)建在關(guān)系型數(shù)據(jù)庫理論基礎(chǔ)上的,具有明顯的結(jié)構(gòu)化特征,換言之,存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫中的數(shù)據(jù)是我們通過分析、建模之后篩選之后出來的、自認為有意義的數(shù)據(jù)。而在這個過程中,已經(jīng)摒棄掉了許多自認為無意義的數(shù)據(jù),真的沒有意義嗎?答案當然是否定的。但為什么要摒棄呢?原因很簡單,以前的技術(shù)條件不允許存儲如此龐大的數(shù)據(jù)量。
隨著
物聯(lián)網(wǎng)概念的提出、應用和發(fā)展,每天從RFID、傳感器、控制器、智能設(shè)備中都會產(chǎn)生海量數(shù)據(jù)。據(jù)統(tǒng)計,在2000 年,全球存儲了800 000 PB 的數(shù)據(jù);預計到2020 年,這一數(shù)字會達到35 ZB[3]。所以,可以得出這樣的結(jié)論:大數(shù)據(jù)從來就是存在的,只是因為技術(shù)條件的限制而沒有重視或是故意規(guī)避而已。
2 大數(shù)據(jù)類型
以前保存的數(shù)據(jù)類型主要是結(jié)構(gòu)化數(shù)據(jù)。然而,并非所有的數(shù)據(jù)都是可以結(jié)構(gòu)化的,據(jù)統(tǒng)計,可結(jié)構(gòu)化數(shù)據(jù)———即可以存儲在數(shù)據(jù)庫等傳統(tǒng)系統(tǒng)(主要是指關(guān)系型數(shù)據(jù)庫產(chǎn)品)中的數(shù)據(jù)占數(shù)據(jù)總量的20%左右;其他80%的數(shù)據(jù)不能至少是不便于存儲于傳統(tǒng)的系統(tǒng)中,因為其結(jié)構(gòu)形式是非結(jié)構(gòu)化的或者是半結(jié)構(gòu)化的(如文本、傳感器數(shù)據(jù)、音頻、視頻、事務及地震模型類的動態(tài)數(shù)據(jù)等非關(guān)系型數(shù)據(jù))。
所以,從這個角度上來講,大數(shù)據(jù)的類型從結(jié)構(gòu)類型入手可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)3類。
3 大數(shù)據(jù)處理速度及方式
面對如此龐大的數(shù)據(jù)量、以及豐富(至少不再是單一的)的數(shù)據(jù),不難想像,對于這些數(shù)據(jù)的處理速度將會成為企業(yè)應用、洞察關(guān)鍵事件的瓶頸。盡管目前還沒有得到具體的可度量的值來說明這個問題,但換個角度來考慮,就日常工作中所使用的存儲器的存儲能力、CPU 頻率的變化及不高的工作效率,就完全可以說明數(shù)據(jù)增長速率對數(shù)據(jù)處理速度的影響。
建議換個角度來考慮這個問題。隨著
物聯(lián)網(wǎng)時代的到來,RFID、傳感器等產(chǎn)生的信息流將導致產(chǎn)生大量的傳統(tǒng)系統(tǒng)無法處理的持續(xù)數(shù)據(jù)流。請牢記一點,現(xiàn)在處理的是PB 級的數(shù)據(jù)流,而非TB 級的,將來要處理的是ZB 級甚至有可能更高。所以,需要考慮針對數(shù)據(jù)產(chǎn)生、流動的速度而進行的數(shù)據(jù)處理方式的變革,如流數(shù)據(jù)處理;不再是單純地處理傳統(tǒng)系統(tǒng)中的批量數(shù)據(jù)。
4 大數(shù)據(jù)模型
大數(shù)據(jù)的本質(zhì)構(gòu)建如圖1 所示。
圖1 大數(shù)據(jù)模型
從圖1 模型不難看出,大數(shù)據(jù)從本質(zhì)上來講包含數(shù)量、類型、速度3 個維度的問題,事實上,要想從根本上區(qū)別這3 個維度是不可能的。因為,大數(shù)據(jù)概念的提出是源于技術(shù)的發(fā)展:首先,以前的存儲器技術(shù)不可能支持如此海量數(shù)據(jù)的存在;隨著存儲器技術(shù)的發(fā)展,才使得海量數(shù)據(jù)的存儲逐漸成為可能,但也帶來了另外一個問題———數(shù)據(jù)存儲類型豐富起來;隨著數(shù)據(jù)存儲類型的豐富及數(shù)據(jù)的增長速度加速問題,導致了處理數(shù)據(jù)速度的問題,從而引起了處理數(shù)據(jù)技術(shù)的革命性變革。
5 大數(shù)據(jù)處理技術(shù)及策略
近年來,關(guān)于大數(shù)據(jù)處理技術(shù)的探討一直不斷,這方面最具代表性的就是Hadoop 框架 ,其本質(zhì)是一個用于分析大數(shù)據(jù)集的機制,不一定位于數(shù)據(jù)存儲中,可以擴展到無數(shù)個節(jié)點,處理所有活動和相關(guān)數(shù)據(jù)存儲的協(xié)調(diào)。Hadoop 方法建立功能到數(shù)據(jù)的模型,而非傳統(tǒng)的數(shù)據(jù)到功能的模型,這樣就可以從可擴展性和分析的角度發(fā)現(xiàn)曾經(jīng)幾乎不可能的大數(shù)據(jù)處理變成可能。
由于Hadoop 布署的復雜性及不穩(wěn)定性,使其應用到目前為止還不是十分廣泛,但無論如何,其為大數(shù)據(jù)處理提供了一種途徑和方式。IBM在Hadoop 的基礎(chǔ)上發(fā)展了GPFS(General Parallel File System,通用并行文件系統(tǒng))無共享集群及相關(guān)技術(shù),提升了靜止大數(shù)據(jù)處理效率;此外,還提出了SPL(StreamsProcessing Language,流處理語言),使得對流數(shù)據(jù)的處理成為現(xiàn)實并大大提升了實際工作效率。
針對處理大數(shù)據(jù)技術(shù),得出圖2 所示的大數(shù)據(jù)處理策略。
圖2 大數(shù)據(jù)處理策略
如圖2所示,對于大數(shù)據(jù)的處理策略可作如下理解:①按照類型進行分類處理;②對分類數(shù)據(jù)進行分類存儲或流處理;③對經(jīng)流處理的非結(jié)構(gòu)化存儲部分可轉(zhuǎn)存到傳統(tǒng)存儲系統(tǒng),也可直接生成數(shù)據(jù)應用;④對傳統(tǒng)存儲系統(tǒng)進行批量處理生成數(shù)據(jù)應用。
6 結(jié)束語
就大數(shù)據(jù)的來源、數(shù)量、類型、處理速度、處理方式等方面對大數(shù)據(jù)進行了探討,給出了大數(shù)據(jù)模型;同時對大數(shù)據(jù)模型的3個維度進行解析,并簡單介紹了大數(shù)據(jù)處理技術(shù)。對于數(shù)據(jù)工作者,尤其是數(shù)據(jù)分析師關(guān)注的對象及處理技術(shù)和策略有一定的引導作用。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領(lǐng)域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.lukmueng.com/
本文標題:解析大數(shù)據(jù)
本文網(wǎng)址:http://m.lukmueng.com/html/support/11121810361.html