服務(wù)器故障排除是一門(mén)精細(xì)的工藝,但也有一些方法和技巧可以把這件事情變得簡(jiǎn)單和快速。
ITIL方法深入研究如何解決服務(wù)器故障或相關(guān)問(wèn)題,但總的主旨是盡可能快速和有效地縮小問(wèn)題范圍。
退一步想想如何從邏輯上解決中斷期間的問(wèn)題。例如,如果有用戶抱怨不能訪問(wèn)一些東西,看看其他用戶有沒(méi)有相同的問(wèn)題,這樣可以消除本地某個(gè)具體終端用戶設(shè)備問(wèn)題的可能性。
以下全方面指南旨在幫你考慮故障診斷流程和過(guò)程。請(qǐng)結(jié)合你自己的指導(dǎo)原則和技術(shù)優(yōu)勢(shì)使用。
問(wèn)題普遍存在嗎?
你需要的第一條信息是停機(jī)或效率變慢發(fā)生的范圍以及產(chǎn)生了什么樣的影響。就像是網(wǎng)絡(luò)問(wèn)題可能是因?yàn)椴染而影響了一臺(tái)PC或小的群集。
如果同一問(wèn)題影響到了多位用戶,可以排除環(huán)境變量,比如本地PC上的軟件誤操作或硬件問(wèn)題。
如果你有多個(gè)網(wǎng)站,它們?nèi)渴苡绊憜幔窟@樣可以確定問(wèn)題是否在于本地服務(wù)器。
是服務(wù)器引起的問(wèn)題嗎?
不同的部門(mén)之間傾向于相互指責(zé)。系統(tǒng)管理員會(huì)將服務(wù)前臺(tái)緩慢的應(yīng)用程序響應(yīng)歸咎于網(wǎng)絡(luò);網(wǎng)絡(luò)管理員抱怨存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN);存儲(chǔ)管理員指責(zé)軟件部門(mén)。如果你正在解決一個(gè)問(wèn)題——尤其是像應(yīng)用程序變慢這類(lèi)無(wú)法確定原因所在的問(wèn)題——那么,確定數(shù)據(jù)中心里哪些區(qū)域的基礎(chǔ)設(shè)施受到了影響。當(dāng)多個(gè)服務(wù)器和應(yīng)用程序發(fā)生故障,通?梢耘懦⻊(wù)器問(wèn)題,真正的問(wèn)題可能來(lái)自網(wǎng)絡(luò)或存儲(chǔ)陣列。虛擬化環(huán)境中,檢查所有受影響的虛擬機(jī)的物理主機(jī)位置,確保它們沒(méi)有共享受損的硬件。
通過(guò)排除,結(jié)果最終通常會(huì)指向某個(gè)明確的罪魁禍?zhǔn)祝⒎强偸侨绱恕0l(fā)現(xiàn)問(wèn)題的共性,嘗試不同的因素組合,以縮小可能性。例如,問(wèn)題可能源于文件共享時(shí)復(fù)制時(shí)間過(guò)長(zhǎng)。如果在相同站點(diǎn)上,從一臺(tái)服務(wù)器復(fù)制到另一臺(tái)服務(wù)器時(shí),是否也很緩慢?如果是的話,可排除廣域網(wǎng)絡(luò)的嫌疑。在服務(wù)器上的本地磁盤(pán)之間復(fù)制過(guò)程是否緩慢?如果是的話,可排除SAN或局域網(wǎng)的嫌疑。如果你不得不使用數(shù)據(jù)包捕獲
或輸入/輸出(I/O)速度測(cè)試,故障排除可能需要很長(zhǎng)時(shí)間。
文檔
文檔是一個(gè)非常有價(jià)值的故障診斷工具,可輕松訪問(wèn)你的環(huán)境的拓?fù),并了解?yīng)用程序是如何工作的,讓你能夠迅速排除服務(wù)器問(wèn)題。
你需要有扎實(shí)的數(shù)據(jù)中心操作知識(shí),并拷問(wèn)自己幾個(gè)重要的問(wèn)題:每個(gè)應(yīng)用程序涉及多少臺(tái)服務(wù)器?基本的網(wǎng)絡(luò)設(shè)置是什么?當(dāng)前是什么基礎(chǔ)設(shè)施?這些問(wèn)題很有價(jià)值。例如,如果你有兩臺(tái)應(yīng)用服務(wù)器供客戶端通過(guò)循環(huán)DNS訪問(wèn),同時(shí)你的一半用戶反饋有問(wèn)題。你從一開(kāi)始就知道一半的用戶連接到各自的服務(wù)器,因此你不會(huì)將時(shí)間浪費(fèi)到另外一臺(tái)服務(wù)器上并試圖解決問(wèn)題。
溝通
溝通是診斷服務(wù)器故障的關(guān)鍵。例如你的同事昨晚更改了服務(wù)器設(shè)置,結(jié)果第二天一些東西無(wú)法使用。你需要了解做了哪些更改,因?yàn)檫@可能就是原因所在。大型企業(yè)有正式的改革形勢(shì),涉及到每個(gè)人,但并不是所有的IT小組都會(huì)享受(或者阻礙,這得看你怎么看待這件事了)的。
當(dāng)一個(gè)新的應(yīng)用程序或其他項(xiàng)目改變投入生產(chǎn)時(shí),溝通可以幫助數(shù)據(jù)中心團(tuán)隊(duì)做好準(zhǔn)備并積極地檢查環(huán)境。否則當(dāng)終端用戶開(kāi)始抱怨應(yīng)用無(wú)法正常工作的時(shí)候,你不得不詢問(wèn)新應(yīng)用程序的部署和資源需求等情況。
監(jiān)控
在對(duì)服務(wù)器進(jìn)行故障排除時(shí),對(duì)正在進(jìn)行的操作進(jìn)行完整的描述可以幫助節(jié)省時(shí)間。
市場(chǎng)上有很多監(jiān)控工具用于不同規(guī)模和架構(gòu)的數(shù)據(jù)中心。正確配置之后,它們會(huì)跟蹤關(guān)鍵指標(biāo),如延遲和I/O速度等。監(jiān)控工具還會(huì)提醒你潛在的有用的信息,例如一個(gè)只剩1%磁盤(pán)空間的驅(qū)動(dòng)器將要導(dǎo)致服務(wù)器問(wèn)題。
很多產(chǎn)品還會(huì)對(duì)服務(wù)進(jìn)行監(jiān)控,因此如果某個(gè)關(guān)鍵服務(wù)崩潰或中斷,監(jiān)控工具會(huì)發(fā)出警告或自動(dòng)按照已設(shè)置的規(guī)則嘗試重啟。
檢查日志
令人驚訝的是,服務(wù)器和相關(guān)的日志常常被忽視。
當(dāng)出現(xiàn)問(wèn)題時(shí),技術(shù)人員認(rèn)為他們知道問(wèn)題出自哪里,并且會(huì)花好幾個(gè)小時(shí)來(lái)證明他們的正確性。但是如果他們花上幾分鐘的時(shí)間檢查一下日志,會(huì)發(fā)現(xiàn)已記錄下來(lái)的確切的問(wèn)題。例如,如果你知道正在交互的兩件事情以及它們的賬戶,就能夠很容易解決許可問(wèn)題。
查看微軟Windows中的Event Viewer日志或Unix/Linux服務(wù)器上的系統(tǒng)記錄,這上面顯示了警告和錯(cuò)誤。應(yīng)用程序日志也值得一看,因?yàn)樗鼈兺ǔ0e(cuò)誤的數(shù)據(jù),為你指向正確的根本方向。
支持
有些管理員調(diào)用供應(yīng)商和日志記錄,但最好不要這樣做。檢查基礎(chǔ)事項(xiàng)之后,花幾分鐘調(diào)用日志,而不是直到停機(jī)幾個(gè)小時(shí)后再這樣做。
在解決事情之前不要著急,檢查數(shù)據(jù)中心供應(yīng)商支持的服務(wù)水平協(xié)議。如果你的供應(yīng)商直到第二個(gè)工作日都沒(méi)主動(dòng)聯(lián)系你,記錄問(wèn)題可以盡早避免一個(gè)令人沮喪的夜晚。
許多供應(yīng)商網(wǎng)上有具體說(shuō)明如何解決服務(wù)器問(wèn)題。從知識(shí)庫(kù)和在線論壇中檢查供應(yīng)商的資源。
不能排除服務(wù)器問(wèn)題并且在前五分鐘內(nèi)解決問(wèn)題著實(shí)會(huì)令人沮喪,但是不要害怕尋求幫助。充足的準(zhǔn)備、溝通和對(duì)環(huán)境的理解是拯救錯(cuò)誤的有利工具。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://m.lukmueng.com/
本文標(biāo)題:如何對(duì)服務(wù)器進(jìn)行故障排除
本文網(wǎng)址:http://m.lukmueng.com/html/support/11121517488.html