“小鳥(niǎo)云”是深圳前海小鳥(niǎo)云計(jì)算有限公司旗下的云計(jì)算服務(wù)品牌,專(zhuān)注為個(gè)人開(kāi)發(fā)者用戶(hù)、中小型、大型企業(yè)用戶(hù)提供一站式核心網(wǎng)絡(luò)云端部署服務(wù),促使用戶(hù)云端部署化簡(jiǎn)為零,輕松快捷運(yùn)用云計(jì)算。小鳥(niǎo)云是國(guó)內(nèi)為數(shù)不多具有ISP/IDC雙資質(zhì)的專(zhuān)業(yè)云計(jì)算服務(wù)商,同時(shí)持有系統(tǒng)軟件著作權(quán)證書(shū)、CNNIC地址分配聯(lián)盟成員證書(shū),通過(guò)了ISO27001信息安全管理體系國(guó)際認(rèn)證、ISO9001質(zhì)量保證體系國(guó)際認(rèn)證。
成都創(chuàng)新互聯(lián)公司專(zhuān)注于企業(yè)成都全網(wǎng)營(yíng)銷(xiāo)、網(wǎng)站重做改版、景東網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、html5、商城網(wǎng)站建設(shè)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁(yè)設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性?xún)r(jià)比高,為景東等各大城市提供網(wǎng)站開(kāi)發(fā)制作服務(wù)。
云服務(wù)器是部署在物理機(jī)上的,底層物理機(jī)性能出現(xiàn)異常或者其他原因都會(huì)導(dǎo)致物理機(jī)宕機(jī),當(dāng)檢測(cè)到云服務(wù)器所在的物理機(jī)機(jī)發(fā)生故障,系統(tǒng)會(huì)啟動(dòng)保護(hù)性遷移,將您的服務(wù)器遷移到性能正常的宿主機(jī)上,一旦發(fā)生宕機(jī)遷移,您的服務(wù)器就會(huì)被重啟,如果您希望您的服務(wù)器重啟以后應(yīng)用服務(wù)器自動(dòng)恢復(fù),需要您把應(yīng)用程序設(shè)置成開(kāi)機(jī)自動(dòng)啟動(dòng),如果應(yīng)用服務(wù)連接的數(shù)據(jù)庫(kù),需要在程序中設(shè)置成自動(dòng)重連機(jī)制。
cpu/帶寬使用正常,磁盤(pán)IO占用過(guò)高,建議你檢查服務(wù)器當(dāng)時(shí)時(shí)間點(diǎn)是否有讀寫(xiě)進(jìn)程任務(wù)導(dǎo)致(Windows服務(wù)器任務(wù)管理器—性能—資源監(jiān)控器—磁盤(pán)查看磁盤(pán)活動(dòng)進(jìn)程和磁盤(pán)讀寫(xiě),Linux服務(wù)器可以通過(guò)top,iostat等命令查看),你也可以檢查數(shù)據(jù)庫(kù)日志檢查你的數(shù)據(jù)庫(kù)是否存在慢查詢(xún)、死鎖、全表掃描導(dǎo)致,或者你可以通過(guò)使用云監(jiān)控監(jiān)控進(jìn)程的磁盤(pán)IO讀寫(xiě)。如果遇到問(wèn)題你可以通過(guò)阿里云的售后支持-提交工單咨詢(xún)。
計(jì)科專(zhuān)業(yè)從事嵌入式軟件開(kāi)發(fā)多年,最近因?yàn)楣拘枰愫笈_(tái)研發(fā),經(jīng)常選擇升級(jí)的時(shí)機(jī)放在凌晨,而且大型的數(shù)據(jù)處理也是放在這個(gè)時(shí)間段內(nèi),經(jīng)常發(fā)生的服務(wù)器宕機(jī)也是在這個(gè)時(shí)段。都是在用戶(hù)使用少的時(shí)候開(kāi)始折騰,折騰的次數(shù)多也就容易出現(xiàn)服務(wù)器問(wèn)題。由于做的是物聯(lián)網(wǎng)設(shè)備,在工作中遇到的宕機(jī)主要有這么幾種情況,對(duì)大量數(shù)據(jù)的操作導(dǎo)致CPU占比在一段時(shí)間內(nèi)驟增從而導(dǎo)致數(shù)據(jù)接收模塊出問(wèn)題,導(dǎo)致系統(tǒng)監(jiān)控出現(xiàn)問(wèn)題,很多設(shè)備信息檢測(cè)不到了。
對(duì)數(shù)據(jù)庫(kù)的操作太頻繁導(dǎo)致效率的下降,也是影響系統(tǒng)性能很重要的一部分,其實(shí)服務(wù)器也是普通電腦的構(gòu)成,主要的資源是CPU和內(nèi)存,這兩個(gè)因素?zé)o論是哪種都有可能導(dǎo)致系統(tǒng)的崩盤(pán),如果是CPU被占滿了,系統(tǒng)的反應(yīng)會(huì)變得異常緩慢,時(shí)間長(zhǎng)了可能還會(huì)慢慢緩過(guò)勁來(lái),內(nèi)存如果占滿了那么會(huì)導(dǎo)致系統(tǒng)的崩潰,直接運(yùn)行不下去了,其實(shí)宕機(jī)核心點(diǎn)不會(huì)跑出這兩種因素。
現(xiàn)在就常見(jiàn)的服務(wù)器宕機(jī)問(wèn)題做個(gè)歸納總結(jié):
1.磁盤(pán)空間被占滿,現(xiàn)在程序員運(yùn)行的時(shí)候都習(xí)慣于帶上log打印,如果時(shí)間長(zhǎng)了加上沒(méi)有清理的機(jī)制早晚會(huì)出問(wèn)題,這個(gè)錯(cuò)誤在平時(shí)運(yùn)行過(guò)程中經(jīng)常出現(xiàn),如果使用的云計(jì)算服務(wù)器通常在系統(tǒng)崩盤(pán)之前都會(huì)發(fā)個(gè)短信,通知你的系統(tǒng)處于崩潰的邊緣。
2.并發(fā)性能問(wèn)題,如果多個(gè)人同時(shí)操作一個(gè)數(shù)據(jù)庫(kù)或者數(shù)據(jù)塊,會(huì)導(dǎo)致系統(tǒng)假死狀態(tài),這種屬于爭(zhēng)搶CPU資源問(wèn)題,可以通過(guò)增加硬件配置以及優(yōu)化軟件代碼的效率去解決,數(shù)據(jù)量如何足夠大就可以考慮分布式的管理
3.數(shù)據(jù)受損或者被破壞導(dǎo)致系統(tǒng)崩盤(pán),所以常見(jiàn)的做法是都會(huì)配置備份盤(pán),出現(xiàn)問(wèn)題抓緊拿到備份盤(pán)來(lái)頂上,現(xiàn)在公司使用的是阿里云的服務(wù)器,穩(wěn)定性相比之前好太多了,中間換過(guò)電信云,騰訊云雖然價(jià)格低點(diǎn),最后受不了直接換成阿里云,再也不想換回去了,數(shù)據(jù)的穩(wěn)定性永遠(yuǎn)是第一位的。
4,一些沒(méi)有必要的誤操作,很多時(shí)候是因?yàn)槌绦騿T或者運(yùn)維人員的誤操作大致服務(wù)器大面積的宕機(jī),這種事件在很多云服務(wù)提供商身上都發(fā)生過(guò),根本層面還是管理問(wèn)題。后臺(tái)管理的任何細(xì)節(jié)都有可能
服務(wù)器宕機(jī)查找問(wèn)題的幾個(gè)線索:
1.看看服務(wù)器是不是存在內(nèi)存泄漏問(wèn)題,有些時(shí)候重啟機(jī)器開(kāi)始還能正常運(yùn)行弄了一段時(shí)間之后就會(huì)變得非常緩慢,十有八九都是內(nèi)存的問(wèn)題
2.是否有黑客入侵造成,有些非常關(guān)鍵重要的數(shù)據(jù)也是黑客最感興趣的,一般來(lái)講這種概率不是很高
3.是不是數(shù)據(jù)庫(kù)死鎖導(dǎo)致的,訪問(wèn)量過(guò)大導(dǎo)致,連接數(shù)過(guò)多造成的。
服務(wù)器宕機(jī)一旦發(fā)生就會(huì)引起用戶(hù)的無(wú)數(shù)的投訴,無(wú)論在什么情況下穩(wěn)定永遠(yuǎn)是第一位,現(xiàn)在大的功能升級(jí)除非已經(jīng)百分百驗(yàn)證成功,否則引起的后果不堪設(shè)想。
希望能幫到你。
之前我們單位夜晚有一臺(tái)設(shè)備down了,這臺(tái)設(shè)備做的堆疊,而不是備份,所有下聯(lián)線路全部連接在主設(shè)備上。結(jié)果當(dāng)晚凌晨,主設(shè)備的電源模塊損壞了!這... 你能看出規(guī)律嗎?我也想知道為什么它偏偏凌晨損壞了!
所以說(shuō),偶然性事件,不能說(shuō)大部分!
但是夜間割接倒是正常,選擇在用戶(hù)最少的時(shí)候做可能影響業(yè)務(wù)的必要事情是常識(shí)。
雖說(shuō)在凌晨的時(shí)候,使用系統(tǒng)的用戶(hù)非常少,但是服務(wù)器在這個(gè)時(shí)候要做的工作可能一點(diǎn)兒也沒(méi)有少:
再說(shuō)一個(gè)很久以前看到的,同行們分享的服務(wù)器宕機(jī)的經(jīng)歷,有些經(jīng)歷非常之神奇,大家就當(dāng)段子看吧(為了方便,我就按照第一人稱(chēng)來(lái)講述)。
我們服務(wù)的甲方是一家醫(yī)院,機(jī)房就在醫(yī)院的樓中,最近機(jī)房的服務(wù)器經(jīng)常性的發(fā)生宕機(jī),公司的工程師去了幾次也沒(méi)有發(fā)現(xiàn)問(wèn)題;后來(lái)公司被折騰的沒(méi)辦法了,決定讓一個(gè)工程師晚上住在機(jī)房,看看半夜機(jī)房中究竟發(fā)生了什么事兒,想著就算找不到原因,也能在服務(wù)器宕機(jī)后第一時(shí)間重啟。
后來(lái)發(fā)現(xiàn)原因,到了凌晨三四點(diǎn)的時(shí)候,機(jī)房門(mén)打開(kāi)了,進(jìn)來(lái)一個(gè)值夜班的小護(hù)士,看了一眼說(shuō):“又沒(méi)有人,開(kāi)著空調(diào)不浪費(fèi)電么?”然后就把機(jī)房的空調(diào)關(guān)掉了,然后氣溫上升...
我將持續(xù)分享Java開(kāi)發(fā)、架構(gòu)設(shè)計(jì)、程序員職業(yè)發(fā)展等方面的見(jiàn)解,希望能得到你的關(guān)注。
偶發(fā)性的,可以能是你淺意識(shí)的,因?yàn)檫@種問(wèn)題印像最深刻,可能認(rèn)為比較多,通過(guò)做記錄去試下。
宕機(jī)一般分5種情況:
1、程序上出了問(wèn)題導(dǎo)致程序崩潰。
2、cpu\\Gpu 、內(nèi)存占滿了。
3、硬盤(pán)空間滿了
4、數(shù)據(jù)庫(kù)表空間滿了
5、機(jī)房溫度過(guò)高
以上是個(gè)人在運(yùn)維過(guò)程中所遇到的問(wèn)題,做的總結(jié)性回答
這里需要說(shuō)明一下,服務(wù)器宕機(jī)是什么意思呢? 我們?nèi)粘Uf(shuō)的“宕機(jī)”中的“宕”其實(shí)指的是英文“down”,宕機(jī)表示當(dāng)前服務(wù)器或服務(wù)無(wú)響應(yīng)或者不在線狀態(tài)。
服務(wù)器的宕機(jī)可分為人為控制的宕機(jī)、不可控的宕機(jī)。 這兩者有什么區(qū)別呢,下面來(lái)具體說(shuō)明一下:
1、人為可控的宕機(jī)行為
服務(wù)器長(zhǎng)時(shí)間的運(yùn)行可能會(huì)帶來(lái)一些(非致命性)問(wèn)題,又或者我們需要對(duì)服務(wù)器進(jìn)行軟/硬件的升級(jí)維護(hù)時(shí),可能需要停機(jī)或者重啟操作。這種情況下的宕機(jī)是可控的,在我們的計(jì)劃之內(nèi)。
2、不可控宕機(jī)行為
這種因素就很多了,比如說(shuō) 服務(wù)器突然藍(lán)屏、服務(wù)異常崩潰、突然斷電斷網(wǎng)了 ,這時(shí)候服務(wù)(器)就無(wú)法正常提供服務(wù),這些都是不可控因素導(dǎo)致的。
而 在我們的日常運(yùn)維工作中,計(jì)劃性的宕機(jī)維護(hù)一般都選擇在半夜 來(lái)做這些事,為什么呢,原因主要有這幾點(diǎn):
1、 減少對(duì)用戶(hù)的影響
凌晨大家基本上都休息了,用戶(hù)量較白天來(lái)說(shuō)小得多,所以選擇在此時(shí)進(jìn)行系統(tǒng)及硬件的維護(hù)導(dǎo)致的宕機(jī)對(duì)用戶(hù)的影響較小,就算有影響也只是影響小部分用戶(hù)。
2、 有足夠的時(shí)間來(lái)處理故障
在凌晨進(jìn)行維護(hù),就算有問(wèn)題,技術(shù)人員也有足夠的時(shí)間(比如說(shuō):00~05點(diǎn))去處理故障。如果換成在日間維護(hù),服務(wù)(器)宕機(jī)1小時(shí)以上投訴單全都過(guò)來(lái)了,壓力很大的。
服務(wù)器宕機(jī)是指服務(wù)器因?yàn)橐恍┰驅(qū)е路?wù)器無(wú)法正常運(yùn)行,造成網(wǎng)絡(luò)斷開(kāi),無(wú)法正常使用網(wǎng)絡(luò)。服務(wù)器宕機(jī)一般都發(fā)生在凌晨,為什么會(huì)出現(xiàn)這種情況呢? 像我們公司是從事 科技 互聯(lián)網(wǎng)設(shè)備生產(chǎn)的,為了不影響正常生產(chǎn),系統(tǒng)升級(jí)的時(shí)候一般都是在凌晨,而且很多的數(shù)據(jù)處理也放在這個(gè)時(shí)候,服務(wù)器在這個(gè)時(shí)候也容易出現(xiàn)問(wèn)題,具體分析有以下幾種原因:
1. 系統(tǒng)在升級(jí)或處理大的數(shù)據(jù)時(shí),硬盤(pán)空間被占滿,如果沒(méi)有人能及時(shí)清理磁盤(pán)空間,服務(wù)器就會(huì)出現(xiàn)卡頓的問(wèn)題造成宕機(jī)。
2.如果是多臺(tái)設(shè)備同時(shí)在操作,使用這一個(gè)數(shù)據(jù)庫(kù),會(huì)引起系統(tǒng)假死的現(xiàn)象,這個(gè)是屬于搶占CPU的資源造成的,會(huì)導(dǎo)致服務(wù)器不堪自負(fù),網(wǎng)站訪問(wèn)量猛增,程序中毒遭到很多的應(yīng)用都在消耗服務(wù)器,最終死機(jī)無(wú)法響應(yīng)。
3.由于凌晨維護(hù)人員減少,會(huì)出現(xiàn)斷電,溫度過(guò)高等等環(huán)境因素的影響,使服務(wù)器死機(jī)等等,不過(guò)這種情況是很少見(jiàn)的,因?yàn)楝F(xiàn)在機(jī)房都有發(fā)電機(jī)備用避免停電造成的數(shù)據(jù)丟失,溫度也是采用的恒溫系統(tǒng)。
4.有的企業(yè)為了節(jié)省服務(wù)器的費(fèi)用,會(huì)租用較低配置的服務(wù)器來(lái)從事很多的工作,使服務(wù)器超負(fù)荷運(yùn)轉(zhuǎn),結(jié)果是可以預(yù)料得到的,宕機(jī)就會(huì)經(jīng)常發(fā)生。
5.服務(wù)器宕機(jī)一般和內(nèi)存有很大的關(guān)系,有些服務(wù)器運(yùn)行了一段時(shí)間后速度就變慢了,基本上就是內(nèi)存出現(xiàn)問(wèn)題,要檢查一下內(nèi)存是否存在泄漏的問(wèn)題。
服務(wù)器宕機(jī)會(huì)出現(xiàn)一系列的問(wèn)題,造成的損失也是無(wú)法估量的,只有平時(shí)定期做好維護(hù),在凌晨的時(shí)候也要注意掌握使用狀況才能避免宕機(jī),無(wú)論在任何時(shí)候,服務(wù)器的穩(wěn)定運(yùn)轉(zhuǎn)才是最重要的。
服務(wù)器應(yīng)用軟件在運(yùn)行過(guò)程中狀態(tài)很穩(wěn)定,一般不會(huì)發(fā)生問(wèn)題。宕機(jī)發(fā)生在凌晨概率高的原因是:一是功能升級(jí)、硬件更換多在凌晨,導(dǎo)致問(wèn)題發(fā)生概率高;二是批量執(zhí)行多在凌晨,瞬間資源消耗很大,數(shù)據(jù)問(wèn)題、硬件資源問(wèn)題、甚至處理邏輯問(wèn)題都容易導(dǎo)致宕機(jī)。另外,如果是聯(lián)機(jī)交易出了問(wèn)題,很容易被發(fā)現(xiàn),不會(huì)讓系統(tǒng)宕機(jī)。
原理其實(shí)很簡(jiǎn)單:這就如同我們白天忙碌著很多事物性的工作,就如同搬運(yùn)工一樣,不停的搬運(yùn)物品入庫(kù),只有在物品都搬運(yùn)完了的時(shí)候,我們才能開(kāi)始整理這些物品,整理倉(cāng)庫(kù),。
其二,服務(wù)器在白天的時(shí)候,其實(shí)都在實(shí)時(shí)處理數(shù)據(jù)的“搬運(yùn)工”狀態(tài),只有在實(shí)時(shí)性數(shù)據(jù)處理工作(搬運(yùn)工作)完成以后,才有機(jī)會(huì)或才能騰出手來(lái)去做數(shù)據(jù)的歸納和整理。所以,服務(wù)器的宕機(jī)時(shí)間,通常會(huì)發(fā)生在使用率最低的時(shí)間段。僅此。
正常跑穩(wěn)的業(yè)務(wù),一般很難因?yàn)檎I(yè)務(wù)操作造成服務(wù)器宕機(jī)的。服務(wù)器資源問(wèn)題大部分情況下是可預(yù)測(cè),可控制的。
最容易造成宕機(jī)的事情,反而是開(kāi)發(fā)/運(yùn)維的不當(dāng)操作造成的。比如更換服務(wù)器硬件,升級(jí)/安轉(zhuǎn)os程序包,發(fā)布新代碼,批量更新數(shù)據(jù)等等,這些事一般都是半夜業(yè)務(wù)量小的時(shí)候做。
因?yàn)榱璩渴亲罾У脮r(shí)候,服務(wù)器一打盹就宕機(jī)了。