運(yùn)維人員的工作每天基本上都是在檢查問(wèn)題,枯燥但又重要, 要是你的某一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題并沒(méi)有及時(shí)發(fā)現(xiàn)問(wèn)題,對(duì)于企業(yè)來(lái)說(shuō)損失可能非常大,基本上運(yùn)維人每天的工作我羅列了下,有這幾種:
成都創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括互助網(wǎng)站建設(shè)、互助網(wǎng)站制作、互助網(wǎng)頁(yè)制作以及互助網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃等。多年來(lái),我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,互助網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到互助省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!
1、負(fù)責(zé)服務(wù)器的硬件配置、軟件安裝、機(jī)房上下架等技術(shù)維護(hù)工作
2、負(fù)責(zé)虛擬化技術(shù)產(chǎn)品物理機(jī)配置、管理和日常運(yùn)行監(jiān)控和維護(hù)
3、負(fù)責(zé)獨(dú)立主機(jī)或虛擬應(yīng)用產(chǎn)品的開(kāi)通使用、日常維護(hù)、故障診斷和排除
4、提供獨(dú)立主機(jī)或虛擬應(yīng)用客戶產(chǎn)品操作和應(yīng)用方面的技術(shù)支持
5、監(jiān)視分管的服務(wù)器,及時(shí)發(fā)現(xiàn)問(wèn)題,并積極解決問(wèn)題
現(xiàn)在信息化數(shù)字時(shí)代,單靠人工去檢查出現(xiàn)錯(cuò)誤幾率會(huì)很大,而且有的運(yùn)維人還不只管理兩臺(tái)服務(wù)器,像我們公司的運(yùn)維每人至少要管理30臺(tái)服務(wù)器,這樣子單靠人工運(yùn)維耗費(fèi)的人工成本和時(shí)間是非常大的,所以還是推薦你用運(yùn)維工具吧,比如云幫手()
1.支持跨云商批量管理服務(wù)器
2.兼容性強(qiáng)大,兼容市面基本所有的云商云主機(jī),兼容操作系統(tǒng);
3.操作簡(jiǎn)單,可視化界面預(yù)覽資源、一鍵修復(fù)、一鍵部署;
4. 可以遠(yuǎn)程登錄云主機(jī)FTP桌面,處理云主機(jī)上的文件;
5.監(jiān)控和資源還有告警功能,這個(gè)是挺好的,不用盯著看;
6.系統(tǒng)修復(fù)功能,這個(gè)是挺實(shí)用也比較必須的;
7.免費(fèi)使用??偟脕?lái)說(shuō)功能還是挺全的,不存在需要又要另外找軟件的尷尬。
你好,很高興回答你這個(gè)問(wèn)題。從運(yùn)維的角度來(lái)講,服務(wù)器的數(shù)量少并不意味著我們的運(yùn)維工作就非常輕松,相反我們更應(yīng)該重視此階段的工作。
我們可以從以下幾方面來(lái)開(kāi)展我們的運(yùn)維工作:
1.應(yīng)用服務(wù)器
我們可以從當(dāng)前服務(wù)器中找出 至少2個(gè)節(jié)點(diǎn)裝Vsphere虛擬化,建立一個(gè)數(shù)據(jù)中心、集群 ;如果你的服務(wù)器有多網(wǎng)卡和SCSI,還可以做一些更高級(jí)的應(yīng)用,如vmotion、負(fù)載均衡、高可用等。當(dāng)虛擬機(jī)或服務(wù)器故障,可以 實(shí)現(xiàn)故障自動(dòng)轉(zhuǎn)移,有效的避免了單節(jié)點(diǎn)的故障,提供服務(wù)器的容錯(cuò)率 。
我們可以在新建的虛擬機(jī)部署Web、API等各種應(yīng)用,而且 虛擬機(jī)可以在vCenter圖形化界面下統(tǒng)一管理 。這一般是中小公司的在服務(wù)器方面的解決方案。
當(dāng)然,我們對(duì)docker比較熟悉,可以使用一套docker解決方案,這比Vsphere更能節(jié)省一部分資源。當(dāng)然這個(gè)需要的技能要求也比較高,需要我們不斷積累。
2.數(shù)據(jù)庫(kù)服務(wù)器
數(shù)據(jù)庫(kù)服務(wù)器在此我們單獨(dú)拿出來(lái),是因?yàn)閿?shù)據(jù)庫(kù)對(duì)服務(wù)器性能、磁盤(pán)IO要求比較高,不太建議使用虛擬機(jī),當(dāng)然這需要根據(jù)業(yè)務(wù)的實(shí)際情況來(lái)做選擇。 數(shù)據(jù)庫(kù)我們需要通過(guò)一主一從、一主二從的方式實(shí)現(xiàn)高可用,來(lái)避免數(shù)據(jù)庫(kù)單點(diǎn)問(wèn) 題,我們還可以選擇合適的proxy來(lái)進(jìn)行讀寫(xiě)分離、讀負(fù)載均衡等。另外還要考慮數(shù)據(jù)的本地備份、異地備份,來(lái)確保數(shù)據(jù)可恢復(fù)。
3.系統(tǒng)監(jiān)控
當(dāng)我們?cè)趹?yīng)用服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器上線一套系統(tǒng)后, 我們需要通過(guò)監(jiān)控掌握從服務(wù)器硬件、基礎(chǔ)狀態(tài)、應(yīng)用、數(shù)據(jù)庫(kù)等從下到上的運(yùn)行狀態(tài) ,以便我們能夠?qū)Ω婢皶r(shí)做出響應(yīng)??紤]到報(bào)警的及時(shí)性,我們需要監(jiān)控接入多種報(bào)警渠道,如微信、釘釘、郵件、短信等。監(jiān)控的目的是發(fā)現(xiàn)問(wèn)題、解決訪問(wèn),因此我們需要踏實(shí)的做好這一步,才能為我們的業(yè)務(wù)保駕護(hù)航。
好了,其實(shí)不管服務(wù)器多少,我們都需要扎實(shí)的把基礎(chǔ)打好,這樣才能以不變應(yīng)萬(wàn)變面對(duì)各種情形。希望我的回答能夠幫到你。
題主沒(méi)有詳細(xì)說(shuō)明具體應(yīng)用系統(tǒng)的功能,比如是否單一的Web服務(wù)?有沒(méi)有微服務(wù)、分布式、集群化擴(kuò)展的潛在需求?
通常來(lái)說(shuō),建議使用云服務(wù)自動(dòng)化運(yùn)維。云服務(wù)已經(jīng)成為IT技術(shù)的核心基礎(chǔ)設(shè)施,充分利用云服務(wù)帶來(lái)的彈性和分布式優(yōu)勢(shì),賦能自動(dòng)化運(yùn)維。
一,自動(dòng)構(gòu)建系統(tǒng)
如果需要構(gòu)建應(yīng)用,那么就建議配置使用CI/CD持續(xù)化集成和自動(dòng)化部署,比如常用的Jenkins,配置Git代碼提交時(shí)觸發(fā)構(gòu)建,然后自動(dòng)部署。
二,日志收集處理系統(tǒng)
1,ELK是常見(jiàn)的日志收集管理系統(tǒng),包括ElasticSearch, LogStash, Kibana三個(gè)服務(wù),架構(gòu)示意圖如下:
2,在ELK系統(tǒng)中,Kibana是一個(gè)圖形化展示工具,配置查詢條件,運(yùn)維人員隨時(shí)可以搜索指定日志信息,分析處理故障。
三,服務(wù)監(jiān)控
1,云監(jiān)控CloudMonitor
主流云服務(wù)商都將監(jiān)控功能集成到了基礎(chǔ)架構(gòu)中,以阿里云為例,云監(jiān)控提供了多種配置,多維度全方位監(jiān)控。
比如配置CPU使用率到達(dá)80%時(shí),自動(dòng)觸發(fā)動(dòng)作,增加服務(wù)器實(shí)例,同時(shí)郵件通知運(yùn)維人員。
2,應(yīng)用監(jiān)控
以監(jiān)控寶為例,配置服務(wù)地址,選擇分布在不同地區(qū)和運(yùn)營(yíng)商的監(jiān)測(cè)點(diǎn)。當(dāng)監(jiān)測(cè)點(diǎn)不能正常調(diào)用配置的服務(wù)地址時(shí),將收到警告信息,可以選擇郵件、短信、電話等通知方式。
四,潛在的系統(tǒng)擴(kuò)展需求
1,是否集群化部署?需要AutoScaling自動(dòng)伸縮嗎?
小型化和集群化并不沖突。如果采用集群化部署,可以配置觸發(fā)條件,滿足時(shí)自動(dòng)增加或者釋放服務(wù)器資源。比如當(dāng)CPU使用率達(dá)到75%或者內(nèi)存占用率達(dá)到75%時(shí),根據(jù)配置好的服務(wù)器和數(shù)量,自動(dòng)觸發(fā)。
2,是否使用Docker容器技術(shù)?
Docker將應(yīng)用以及依賴打包到一個(gè)可移植的鏡像中,可以實(shí)現(xiàn)虛擬化,有助于快捷高效的交付應(yīng)用,結(jié)合Docker-compose資源編排,快速實(shí)現(xiàn)自動(dòng)部署更新,不再需要常用的Jenkins構(gòu)建服務(wù)器。
機(jī)器數(shù)比較小的話,你可以用云的服務(wù)器,這樣可以節(jié)省好多錢(qián)。找一個(gè)專門(mén)的運(yùn)維,還不如讓開(kāi)發(fā)自己來(lái)搞,因?yàn)闄C(jī)器少運(yùn)維他也應(yīng)付得過(guò)來(lái)。現(xiàn)在都在搞云計(jì)算了,把你的機(jī)器放上阿里云或者騰訊云,你自己維護(hù)好很多,包括網(wǎng)絡(luò)貸款都很容易擴(kuò)容。上面這個(gè)我說(shuō)到的只是說(shuō)建議你如果你已經(jīng)是自己的機(jī)器了。我建議你從我下面所說(shuō)的來(lái)搞。
認(rèn)為的整個(gè)過(guò)程的話一般分為三個(gè)階段,第一的話是手工階段,什么東西都是手工搞。
第2個(gè)階段就是腳本階段了,本來(lái)手工搞的東西全部腳本化。
第3個(gè)階段就是平臺(tái)化了,平臺(tái)化了之后,所有東西都在頁(yè)面上完成系統(tǒng)完成,不需要人工來(lái)干預(yù),甚至不用運(yùn)維來(lái)搞。
有一些人說(shuō)既然認(rèn)為就是最后的一個(gè)階段,但是這個(gè)很不成熟。所以我就不說(shuō)了。
針對(duì)你這個(gè)機(jī)器數(shù)少的,你可以手工認(rèn)為,或者說(shuō)用腳本認(rèn)為都沒(méi)問(wèn)題。
在合適的階段做合適的事情就是最好的。所以我建議你手工運(yùn)維或者腳本運(yùn)維。
我們項(xiàng)目用的 wgcloud運(yùn)維監(jiān)控系統(tǒng) ,它前身是開(kāi)源項(xiàng)目,后來(lái)推出的商業(yè)版,也有免費(fèi)版
wgcloud運(yùn)行很穩(wěn)定,性能很好,部署和上手容易
wgcloud支持主機(jī)各種指標(biāo)監(jiān)控(cpu狀態(tài)/溫度,內(nèi)存狀態(tài),磁盤(pán)容量/IO,硬盤(pán)smart監(jiān)控,系統(tǒng)負(fù)載,網(wǎng)卡流量,硬件系統(tǒng)信息等),數(shù)據(jù)可視化,進(jìn)程應(yīng)用監(jiān)控,大屏可視化,服務(wù)接口檢測(cè),DOCKER監(jiān)控,自動(dòng)生成網(wǎng)絡(luò)拓?fù)鋱D,端口監(jiān)控,日志文件監(jiān)控,web SSH(堡壘機(jī)),指令下發(fā)執(zhí)行,告警信息推送(郵件釘釘微信短信等)
可以裝虛擬機(jī)代替,在同一個(gè)局域網(wǎng)情況下
找服務(wù)商外包服務(wù),或者網(wǎng)上托管也不貴收費(fèi)
服務(wù)器數(shù)量比較少,比如10臺(tái)服務(wù)器,基本可以不設(shè)置運(yùn)維崗位了,后端開(kāi)發(fā)人員 或者架構(gòu)師就能搞定。
我就是那種曾經(jīng)在創(chuàng)業(yè)的小公司待過(guò)的開(kāi)發(fā)人員,開(kāi)發(fā),運(yùn)維我都干了。
但是想想如何更科學(xué)更高效的運(yùn)維還是很有必要的。
運(yùn)維的目的
軟件系統(tǒng)的運(yùn)行時(shí)環(huán)境:即公司的業(yè)務(wù)產(chǎn)線,靠它創(chuàng)造業(yè)務(wù)價(jià)值,這個(gè)是最核心的功能訴求。
實(shí)時(shí)監(jiān)控系統(tǒng): 任何時(shí)候都要對(duì)當(dāng)前公司的產(chǎn)線的壓力一清二楚,有問(wèn)題功能隨時(shí)解決,有性能問(wèn)題及時(shí)擴(kuò)容或者回收資源
降低服務(wù)器成本:在業(yè)務(wù)萎縮的情況下,準(zhǔn)確評(píng)估哪些資源可以回收,降低服務(wù)器的支出
這個(gè)是當(dāng)時(shí)我認(rèn)為的運(yùn)維的三個(gè)主要目的。
運(yùn)維方案
開(kāi)發(fā)半路出家,當(dāng)時(shí)采用的是shell+python+ansible+jekins+elk的方式
首先,我會(huì)及時(shí)的更新業(yè)務(wù)產(chǎn)線的物理架構(gòu)圖,根據(jù)架構(gòu)圖來(lái)規(guī)劃服務(wù)器的資源使用。
比如多少個(gè)web服務(wù),數(shù)據(jù)庫(kù)多少,zk,kafka,redis集群怎么分布。
集群部署一般是放在多個(gè)服務(wù)器上的,這個(gè)時(shí)候ansible就派上用場(chǎng)了。
jekins主要用來(lái)自動(dòng)發(fā)布更新程序已經(jīng)做定時(shí)回收磁盤(pán)的任務(wù)。
elk主要用來(lái)做應(yīng)用的日志系統(tǒng)和監(jiān)控告警; 可以通過(guò)看板隨時(shí)知道產(chǎn)線的請(qǐng)求數(shù)量和并發(fā)數(shù)量;
以上的運(yùn)維方案適用于小公司。運(yùn)維工程師看到了可以補(bǔ)充
搞個(gè)zabbix刷
數(shù)量少。如果配置好可以虛擬化。然后跑容器
不要輕易說(shuō)精通這個(gè)詞,因?yàn)樵朴?jì)算的發(fā)展速度實(shí)在是太快,同時(shí)無(wú)論是ALIYUN還是AWS,他們的產(chǎn)品更新速度是非??斓?,想要完全精通,幾乎不可能。
首先得有基礎(chǔ)的運(yùn)維知識(shí)(如Linux\Windows服務(wù)器系統(tǒng)、數(shù)據(jù)庫(kù)、虛擬化、容器、監(jiān)控及日志處理……)和網(wǎng)絡(luò)常識(shí);
python或其他語(yǔ)言,因?yàn)橐敫咝У墓芾砑昂推脚_(tái)對(duì)接,實(shí)現(xiàn)自動(dòng)化運(yùn)維,需要我們借助對(duì)應(yīng)的API和SDK做一些開(kāi)發(fā);
關(guān)注開(kāi)源產(chǎn)品、關(guān)注網(wǎng)絡(luò)安全;
做多練習(xí),并將技術(shù)應(yīng)用于實(shí)踐。
一個(gè)非常好的問(wèn)題。云服務(wù)已經(jīng)成為IT技術(shù)創(chuàng)新的核心基礎(chǔ)設(shè)施,充分利用云服務(wù)帶來(lái)的彈性和分布式優(yōu)勢(shì),賦能自動(dòng)化運(yùn)維。
關(guān)鍵詞:DevOps,云原生
一,自動(dòng)化部署
CI/CD持續(xù)化集成和自動(dòng)化部署,以前經(jīng)常使用Jenkins,配置Git代碼提交時(shí)觸發(fā)構(gòu)建,然后通過(guò)腳本觸發(fā)自動(dòng)部署。
使用云服務(wù)后,以阿里云為例,利用豐富的DevOps運(yùn)維工具,將代碼托管、測(cè)試、部署等步驟更加高效的串聯(lián)起來(lái)。
二,AutoScaling自動(dòng)伸縮
集群化部署時(shí),配置一定的觸發(fā)條件,滿足時(shí)將自動(dòng)增加或者釋放服務(wù)器資源。比如當(dāng)CPU使用率達(dá)到85%或者內(nèi)存占用率達(dá)到85%時(shí),根據(jù)配置好的服務(wù)器和數(shù)量,自動(dòng)觸發(fā)。
三,云監(jiān)控CloudMonitor
主流云服務(wù)商都將監(jiān)控功能集成到了基礎(chǔ)架構(gòu)中,以阿里云為例,云監(jiān)控提供了多種配置,多維度全方位監(jiān)控。
比如配置CPU使用率到達(dá)85%時(shí),自動(dòng)觸發(fā)動(dòng)作,增加服務(wù)器實(shí)例,同時(shí)郵件通知運(yùn)維人員。
四,Docker容器技術(shù)
Docker將應(yīng)用以及依賴打包到一個(gè)可移植的鏡像中,可以實(shí)現(xiàn)虛擬化,有助于快捷高效的交付應(yīng)用。
搭建阿里云容器鏡像服務(wù)+Git+Docker自動(dòng)構(gòu)建系統(tǒng),結(jié)合資源編排服務(wù),實(shí)現(xiàn)自動(dòng)部署更新,不再需要單獨(dú)部署維護(hù)Jenkins構(gòu)建服務(wù)器。
五,云原生
云原生是指從開(kāi)始設(shè)計(jì)應(yīng)用時(shí),就充分考慮并且利用云服務(wù)的特點(diǎn),比如彈性和分布式,可以簡(jiǎn)單的理解為:云原生=微服務(wù)+DevOps+持續(xù)交付+容器化。
在云原生應(yīng)用系統(tǒng)里,運(yùn)營(yíng)、維護(hù)和監(jiān)控,完全是自動(dòng)化的。
云助手。云助手是專為云服務(wù)器ECS打造的原生自動(dòng)化運(yùn)維工具,可以免密碼、免登錄、無(wú)需使用跳板機(jī)執(zhí)行命令。云服務(wù)器ElasticComputeService(ECS)是阿里云提供的一種基礎(chǔ)云計(jì)算服務(wù)。