1 容錯(cuò)性的研究
1.1 容錯(cuò)的定義
“容錯(cuò)”原是計(jì)算機(jī)系統(tǒng)設(shè)計(jì)技術(shù)中的一個(gè)概念。容錯(cuò)(fault—tolerance)就是容忍錯(cuò)誤的簡(jiǎn)稱,是指設(shè)備的一個(gè)或多個(gè)關(guān)鍵部分發(fā)生故障時(shí),能夠自動(dòng)地進(jìn)行檢測(cè)與診斷,并采取相應(yīng)措施,保證設(shè)備維持其規(guī)定功能,或用犧牲性能來保證設(shè)備在可接受范圍內(nèi)繼續(xù)工作。
1.2 容錯(cuò)技術(shù)的發(fā)展
容錯(cuò)技術(shù)近2O年發(fā)展很快。首先在先進(jìn)的計(jì)算機(jī)中實(shí)現(xiàn),例如航天飛行控制、人造衛(wèi)星、潛艇導(dǎo)航、空中交通管制、銀行業(yè)務(wù)管理等領(lǐng)域,都要求計(jì)算機(jī)成年累月連續(xù)無故障地工作,從而促進(jìn)了容錯(cuò)計(jì)算機(jī)的迅速發(fā)展。目前世界上已有上百家計(jì)算機(jī)公司推出了容錯(cuò)計(jì)算機(jī)。容錯(cuò)計(jì)算機(jī)的平均故障間隔時(shí)間MTBF可達(dá)15年一2O年。1986年9月,美國(guó)國(guó)家科學(xué)基金委員會(huì)和IEEE控制系統(tǒng)學(xué)會(huì)聯(lián)合舉辦的一次專題討論會(huì)上,國(guó)際控制界52位著名專家匯聚于美國(guó)Santa Clara大學(xué),討論控制科學(xué)的發(fā)展及當(dāng)前面臨的挑戰(zhàn),容錯(cuò)控制FTC(Fauh Tolerance Contro1)被列為當(dāng)今和未來的七個(gè)挑戰(zhàn)性課題之一。同年,張翰英教授發(fā)表論文,提出在我國(guó)“必須加速發(fā)展實(shí)用性容錯(cuò)系統(tǒng)”的研究。此后,周東華、程一、葛建華、胡壽松等又將容錯(cuò)技式樣用工夫動(dòng)態(tài)系統(tǒng)及傳感器失效的研究。1997年,IFAC故障診斷與安全性委員會(huì)主席Patton教授撰寫了容錯(cuò)控制的綜述文章。目前,容錯(cuò)技術(shù)的研究已經(jīng)有了很大的發(fā)展,并取得了許多重要研究成果。隨著計(jì)算機(jī)的廣泛應(yīng)用和智能結(jié)構(gòu)、智能材料與人工智能的發(fā)展,容錯(cuò)技術(shù)必將得到更快的發(fā)展和更廣泛的應(yīng)用。
2 移動(dòng)計(jì)算環(huán)境
隨著移動(dòng)通信和Intemet技術(shù)的發(fā)展,以及便攜式終端設(shè)備的普及,用戶要求更大范圍地移動(dòng),希望能在任何時(shí)間、任何地點(diǎn),可以通過便攜式移動(dòng)設(shè)備很方便地訪問網(wǎng)絡(luò)資源,得到所需要的服務(wù);不僅是到另外一個(gè)地方,甚至在移動(dòng)過程中仍然能夠保持網(wǎng)絡(luò)連接、同時(shí)使用戶訪問不受移動(dòng)漫游、切換帶來的干擾。這就出現(xiàn)了移動(dòng)計(jì)算。
2.1 移動(dòng)計(jì)算的定義
移動(dòng)計(jì)算=分布Stag技術(shù)+移動(dòng)通信+數(shù)據(jù)庫。
移動(dòng)計(jì)算是一個(gè)全新的概念,是隨移動(dòng)通信、無線網(wǎng)絡(luò)、Internet、數(shù)據(jù)庫、分布式計(jì)算等技術(shù)發(fā)展而新興起的技術(shù),已成為重要的前沿領(lǐng)域。移動(dòng)計(jì)算是基于無線通信技術(shù)和便攜式移動(dòng)計(jì)算設(shè)備的分布式計(jì)算模式。移動(dòng)網(wǎng)絡(luò)與無線網(wǎng)絡(luò)經(jīng)常聯(lián)系在一起,但是仍有區(qū)別,移動(dòng)網(wǎng)絡(luò)很可能是有線的,而無線網(wǎng)絡(luò)很可能是固定的。其關(guān)系圖如圖l所示:
圖1 移動(dòng)網(wǎng)絡(luò)與無線網(wǎng)絡(luò)的關(guān)系
2.2 移動(dòng)計(jì)算環(huán)境的組成
移動(dòng)計(jì)算環(huán)境通常由固定網(wǎng)絡(luò)、移動(dòng)網(wǎng)絡(luò)、無線通信、筆記本電腦/PDM手機(jī)以及移動(dòng)著的用戶構(gòu)成。它是傳統(tǒng)的固定網(wǎng)絡(luò)分布計(jì)算環(huán)境利用了先進(jìn)無線通信技術(shù)后的擴(kuò)充,也就是說,移動(dòng)計(jì)算的解決方案應(yīng)該包括有線和無線兩個(gè)方面。
如圖2所示,我們考慮一個(gè)包含許多移動(dòng)終端,用戶(Mc)和一些靜態(tài)主機(jī),即基站(Bs)或者叫做移動(dòng)支持基站(MSS)的移動(dòng)計(jì)算系統(tǒng)。各基站通過靜態(tài)的有線網(wǎng)絡(luò)相互連接。有線網(wǎng)絡(luò)在提供可靠的信息傳輸過程中必然會(huì)產(chǎn)生一定的延遲,但是時(shí)間不長(zhǎng)。基站覆蓋的地理范圍稱為“單元(cel1)”。移動(dòng)終端只有在某個(gè)基站的范圍之內(nèi)時(shí)才能與基站通信,主機(jī)可以移動(dòng)到相鄰的單元,例如,隨時(shí)都可能跨區(qū)切換,因此,由于相鄰單元信道的不可用性,主機(jī)與基站之間斷接的可能性總是存在的。
圖2 移動(dòng)計(jì)算環(huán)境的典型體系結(jié)構(gòu)
2.3 移動(dòng)計(jì)算環(huán)境的特點(diǎn)
移動(dòng)計(jì)算作為分布式計(jì)算環(huán)境的一種新的發(fā)展趨勢(shì),.主要存在如下幾個(gè)特點(diǎn):
(1)移動(dòng)性。必須適應(yīng)不同地點(diǎn)的連接請(qǐng)求,并且經(jīng)常在移動(dòng)時(shí)要求保持連接;在不同服務(wù)器覆蓋范圍之間移動(dòng),跨區(qū)切換比較常見。
(2)低可靠性。由于其便攜性和工作環(huán)境,移動(dòng)計(jì)算可靠性較低,更容易受到干擾而出現(xiàn)網(wǎng)絡(luò)故障。可能長(zhǎng)時(shí)間發(fā)生網(wǎng)絡(luò)斷接,一些假設(shè)條件不同于傳統(tǒng)的分布式系統(tǒng)。移動(dòng)計(jì)算裝置本身也有一些潛在的不安全因素,如碰撞、磁場(chǎng)干擾、易于遺失和失竊等。
(3)不安全性。無線通信衰落、易受干擾、易被截獲。
(4)帶寬有限性。從GSM 波特率9.6Kbps,GPRS 170Kbps到EDGE 384Kbps,3G 2Mbps,其帶寬都遠(yuǎn)低于固定網(wǎng)絡(luò)中的數(shù)據(jù)帶寬。
(5)位置相關(guān)性。移動(dòng)意味著變化,從而導(dǎo)致位置的不斷變換。而應(yīng)用程序可能與位置相關(guān),或者位置成為不透明因素。
(6)電源能力有限。通過蓄電電池供電,但容量非常有限,一般只能2—5個(gè)小時(shí),而計(jì)算密集型程序能耗更大,電源會(huì)更加緊張。
(7)頻繁斷接性。移動(dòng)計(jì)算機(jī)在移動(dòng)過程中,一般不采用保持持續(xù)聯(lián)網(wǎng)的工作方式,而是主動(dòng)/被動(dòng)地間歇性入網(wǎng)、斷接和重接,甚至跨區(qū)切換。
(8)非對(duì)稱性。包括通信與資源安全乃至QoS的非對(duì)稱性,訪問的是地理上分布的節(jié)點(diǎn)。由于電源能力的限制,移動(dòng)設(shè)備上的資源與功能是有限的。
(9)復(fù)雜性。為支持移動(dòng)性必須加入更多的功能并最終達(dá)到網(wǎng)絡(luò)負(fù)載均衡;移動(dòng)性也必然要求跨軟、硬件平臺(tái)的兼容性。
3 移動(dòng)計(jì)算容錯(cuò)性的研究
與有線的固定環(huán)境相比,移動(dòng)環(huán)境中的無線網(wǎng)絡(luò)連接更加脆弱,移動(dòng)主機(jī)可靠性更差,所以移動(dòng)計(jì)算系統(tǒng)更應(yīng)該需要實(shí)現(xiàn)錯(cuò)誤恢復(fù)的機(jī)制。而且,容錯(cuò)移動(dòng)計(jì)算系統(tǒng)的實(shí)現(xiàn)將極大地支持如賬務(wù)處理、電子商務(wù)等重要的移動(dòng)金融業(yè)務(wù),移動(dòng)游戲或分布式信息系統(tǒng)的訪問等應(yīng)用也可以從容錯(cuò)技術(shù)的發(fā)展中受益。
然而,移動(dòng)計(jì)算系統(tǒng)所處的無線網(wǎng)絡(luò)性能較差,具有誤碼率高、帶寬低、停產(chǎn)衰減不穩(wěn)定等特性;同時(shí)網(wǎng)絡(luò)性能變化很大,連接時(shí)斷時(shí)續(xù),加上網(wǎng)絡(luò)中移動(dòng)設(shè)備的移動(dòng)變化進(jìn)一步惡化網(wǎng)絡(luò)環(huán)境,比如網(wǎng)絡(luò)拓?fù)涞淖兓挼染W(wǎng)絡(luò)資源的變化,使得整個(gè)網(wǎng)絡(luò)環(huán)境更加不穩(wěn)定,這些都為移動(dòng)計(jì)算的容錯(cuò)性提出了進(jìn)一步的挑戰(zhàn)。
當(dāng)前,針對(duì)移動(dòng)計(jì)算環(huán)境的特點(diǎn),人們提出了多種容錯(cuò)算法與技術(shù)田,本文將討論其中比較成熟的兩類移動(dòng)容錯(cuò)技術(shù),即基于檢查點(diǎn)和消息日志的容錯(cuò)恢復(fù)技術(shù)與基于移動(dòng)Agent的容錯(cuò)技術(shù)研究。
3.1 基于檢查點(diǎn)和消息日志的容錯(cuò)恢復(fù)
隨著分布式計(jì)算系統(tǒng)服務(wù)在移動(dòng)環(huán)境中的擴(kuò)展,很多支持分布式服務(wù)的算法經(jīng)過修改都可用于移動(dòng)計(jì)算系統(tǒng)。檢查點(diǎn)恢復(fù)是分布式服務(wù)為系統(tǒng)提供的容錯(cuò)服務(wù)。分布式系統(tǒng)中有很多檢查點(diǎn)和恢復(fù)策略翻,見表1。
表1 無線分布網(wǎng)絡(luò)的檢查點(diǎn)和日志策略
然而,分布式系統(tǒng)的的檢查點(diǎn)恢復(fù)機(jī)制并不能直接應(yīng)用于移動(dòng)環(huán)境。根據(jù)移動(dòng)計(jì)算系統(tǒng)環(huán)境的特點(diǎn),一個(gè)支持移動(dòng)計(jì)算容錯(cuò)性的好的檢查點(diǎn)算法應(yīng)當(dāng)考慮如下因素:
(1)低帶寬。因?yàn)闊o線網(wǎng)絡(luò)帶寬低、檢查點(diǎn)機(jī)制不應(yīng)當(dāng)包含大量的系統(tǒng)消息或在一條應(yīng)用消息中包含大量的額外信息。
(2)有限空間。由于MC空間的有限性,MC攜帶的檢查點(diǎn)要通過無線網(wǎng)絡(luò)傳給MSS。所以應(yīng)該控制檢查點(diǎn)的執(zhí)行頻率。
(3)移動(dòng)性處理。MC的移動(dòng)性使得MC的恢復(fù)信息可能存儲(chǔ)于多個(gè)MSS中。當(dāng)一個(gè)MC出現(xiàn)故障時(shí),應(yīng)提供一個(gè)機(jī)制追蹤并搜尋正確的恢復(fù)信息。
(4)斷接操作。MC與網(wǎng)絡(luò)的頻繁斷接可能會(huì)影響MC之間對(duì)檢查點(diǎn)或恢復(fù)的同步。
以下是幾種主要的無線分布網(wǎng)絡(luò)的檢查點(diǎn)和日志策略:
CCP,協(xié)同檢查點(diǎn)策略,需要系統(tǒng)中的所有進(jìn)程協(xié)調(diào)檢查點(diǎn)行為,需要大量的系統(tǒng)消息,不適用于低帶寬的移動(dòng)環(huán)境。
SCP,同步檢查點(diǎn)機(jī)制,只要求相關(guān)進(jìn)程同步執(zhí)行檢查點(diǎn),減少了協(xié)同消息的數(shù)量,但要保證嚴(yán)格的協(xié)同,即在執(zhí)行檢查點(diǎn)時(shí)要阻塞參與進(jìn)程的正常計(jì)算。
通過減少CCP和SCP的協(xié)作消息數(shù)量與參加協(xié)作的進(jìn)程數(shù)量得到的CCP與SCP已經(jīng)在移動(dòng)計(jì)算中提出。
CICP,基于通信模式的檢查點(diǎn)策略利用一個(gè)獨(dú)立的進(jìn)程根據(jù)其通信狀態(tài)的變化執(zhí)行檢查點(diǎn),在移動(dòng)環(huán)境中對(duì)這個(gè)策略進(jìn)行了擴(kuò)展。但是這個(gè)策略的檢查點(diǎn)頻率完全依賴于MC的通信模式,無法受控于MC。最壞的情況是MH對(duì)于第一條流出消息都要進(jìn)行一次檢查點(diǎn)行為,這是無線網(wǎng)絡(luò)帶寬無法實(shí)現(xiàn)的在CICP引入通信的檢查點(diǎn)策略中,應(yīng)用消息攜帶一個(gè)檢查點(diǎn)序列號(hào),使進(jìn)程最終可以獲得一致的檢查點(diǎn)。實(shí)現(xiàn)了對(duì)該算法在移動(dòng)環(huán)境中的擴(kuò)展。
但是如果考慮恢復(fù)的話,所有上述檢查點(diǎn)策略都需要顯示的協(xié)作以避免實(shí)時(shí)時(shí)鐘問題。另外,由于進(jìn)程要回滾到一組一致的檢查點(diǎn)狀態(tài),故障后重計(jì)算的量也很大。
支持異步恢復(fù)并減少重計(jì)算量的一個(gè)方法是消息日志。若有系統(tǒng)故障,在異步恢復(fù)中進(jìn)程獨(dú)立決定并回滾。另外回滾之后進(jìn)程可以立即進(jìn)行重計(jì)算而無需等待其它進(jìn)程的協(xié)作消息。提出了在移動(dòng)環(huán)境中基于悲觀消息日志(PML,Pessimistic message logging)的異步恢復(fù)策略。然而,考慮到悲觀消息日志要頻繁地訪問穩(wěn)定存儲(chǔ)器,這個(gè)方法仍不適應(yīng)移動(dòng)環(huán)境的特點(diǎn)。
CML,隨機(jī)消息日志,可以避免對(duì)穩(wěn)定存儲(chǔ)的頻繁訪問,但在應(yīng)用消息中要攜帶大量的依賴信息,無法解決移動(dòng)計(jì)算系統(tǒng)低網(wǎng)絡(luò)帶寬的問題。
OML,樂觀消息日志,提出的OML可以控制穩(wěn)定日志的頻率實(shí)現(xiàn)異步恢復(fù),它使用一個(gè)很小的信息,vector clock可以檢測(cè)到可能引起實(shí)時(shí)時(shí)鐘問題的異常消息。文獻(xiàn)中在此基礎(chǔ)上進(jìn)一步優(yōu)化,提出移動(dòng)計(jì)算系統(tǒng)中基于樂觀消息日志的異步恢復(fù)策略,充分利用MSS的動(dòng)態(tài)日志空間由MSS實(shí)現(xiàn)消息日志,MSS同時(shí)還負(fù)責(zé)依賴性的追蹤,而MC只攜帶最少的信息,如此則MC的移動(dòng)性將由MSS實(shí)現(xiàn)完整的追蹤,其消息開銷也比較小。此外,根據(jù)MH和MSS同時(shí)故障的可能性,策略通過選擇一個(gè)合適的穩(wěn)定日志記錄頻率還可以在一定程度上減少不正確的依賴產(chǎn)生的回滾開銷。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://m.lukmueng.com/
本文標(biāo)題:移動(dòng)計(jì)算容錯(cuò)行為研究(上)
本文網(wǎng)址:http://m.lukmueng.com/html/support/1112155948.html