天天看點

Linux性能調優,從優化思路說起

Linux系統性能調優工具與技巧 https://edu.51cto.com/course/20306.html

Linux作業系統是一個開源産品,也是一個開源軟體的實踐和應用平台,在這個平台下有無數的開源軟體支撐,我們常見的apache、tomcat、mysql、php等等,開源軟體的最大理念是自由、開放,那麼linux作為一個開源平台,最終要實作的是通過這些開源軟體的支援,以最低廉的成本,達到應用最優的性能。是以,談到性能問題,主要實作的是linux作業系統和應用程式的最佳結合。

系統的性能是指作業系統完成任務的有效性、穩定性和響應速度。Linux系統管理者可能經常會遇到系統不穩定、響應速度慢等問題,例如在linux上搭建了一個web服務,經常出現網頁無法打開、打開速度慢等現象,而遇到這些問題,就有人會抱怨linux系統不好,其實這些都是表面現象。作業系統完成一個任務時,與系統自身設定、網絡拓樸結構、路由裝置、路由政策、接入裝置、實體線路等多個方面都密切相關,任何一個環節出現問題,都會影響整個系統的性能。是以當linux應用出現問題時,應當從應用程式、作業系統、伺服器硬體、網絡環境等方面綜合排查,定位問題出現在哪個部分,然後集中解決。

在應用程式、作業系統、伺服器硬體、網絡環境等方面,影響性能最大的是應用程式和作業系統兩個方面,因為這兩個方面出現的問題不易察覺,隐蔽性很強。而硬體、網絡方面隻要出現問題,一般都能馬上定位。下面主要講解作業系統方面的性能調優思路,應用程式方面需要具體問題具體對待。

以下從影響Linux性能的因素、分析性能涉及的人員、系統性能優化工具、系統性能評價标準四個方面介紹優化Linux的一般思路和方法。

2.1系統硬體資源

1.CPU

CPU是作業系統穩定運作的根本,CPU的速度與性能在很大程度上決定了系統整體的性能,是以,CPU數量越多、主頻越高,伺服器性能也就相對越好。但事實并非完全如此。

目前大部分CPU在同一時間内隻能運作一個線程,超線程的處理器可以在同一時間運作多個線程,是以,可以利用處理器的超線程特性提高系統性能。在Linux系統下,隻有運作SMP核心才能支援超線程,但是,安裝的CPU數量越多,從超線程獲得的性能方面的提高就越少。另外,Linux核心會把多核的處理器當作多個單獨的CPU來識别,例如兩個4核的CPU,在Lnux系統下會被當作8個單核CPU。但是從性能角度來講,兩個4核的CPU和8個單核的CPU并不完全等價,根據權威部門得出的測試結論,前者的整體性能要比後者低25%~30%。

可能出現CPU瓶頸的應用有db伺服器、動态Web伺服器等,對于這類應用,要把CPU的配置和性能放在主要位置。

2.記憶體

記憶體的大小也是影響Linux性能的一個重要的因素,記憶體太小,系統程序将被阻塞,應用也将變得緩慢,甚至失去響應;記憶體太大,導緻資源浪費。Linux系統采用了實體記憶體和虛拟記憶體兩種方式,虛拟記憶體雖然可以緩解實體記憶體的不足,但是占用過多的虛拟記憶體,應用程式的性能将明顯下降,要保證應用程式的高性能運作,實體記憶體一定要足夠大;但是過大的實體記憶體,會造成記憶體資源浪費,例如,在一個32位處理器的Linux作業系統上,超過8GB的實體記憶體都将被浪費。是以,要使用更大的記憶體,建議安裝64位的作業系統,同時開啟Linux的大記憶體核心支援。

由于處理器尋址範圍的限制,在32位Linux作業系統上,應用程式單個程序最大隻能使用4GB的記憶體,這樣以來,即使系統有更大的記憶體,應用程式也無法“享”用,解決的辦法就是使用64位處理器,安裝64位作業系統。在64位作業系統下,可以滿足所有應用程式對記憶體的使用需求 ,幾乎沒有限制。

可能出現記憶體性能瓶頸的應用有NOSQL伺服器、資料庫伺服器、緩存伺服器等,對于這類應用要把記憶體大小放在主要位置。

3.磁盤I/O性能

磁盤的I/O性能直接影響應用程式的性能,在一個有頻繁讀寫的應用中,如果磁盤I/O性能得不到滿足,就會導緻應用停滞。好在現今的磁盤都采用了很多方法來提高I/O性能,比如常見的磁盤RAID技術。

通過RAID技術組成的磁盤組,就相當于一個大硬碟,使用者可以對它進行分區格式化、建立檔案系統等操作,跟單個實體硬碟一模一樣,唯一不同的是RAID磁盤組的I/O性能比單個硬碟要高很多,同時在資料的安全性也有很大提升。

根據磁盤組合方式的不同,RAID可以分為RAID0,RAID1、RAID2、RAID3、RAID4、RAID5、RAID6、RAID7、RAID0+1、RAID10等級别,常用的RAID級别有RAID0、RAID1、RAID5、RAID0+1,這裡進行簡單介紹。

? RAID 0:通過把多塊硬碟粘合成一個容量更大的硬碟組,提高了磁盤的性能和吞吐量。這種方式成本低,要求至少兩個磁盤,但是沒有容錯和資料修複功能,因而隻能用在對資料安全性要求不高的環境中。 ? RAID 1:也就是磁盤鏡像,通過把一個磁盤的資料鏡像到另一個磁盤上,最大限度地保證磁盤資料的可靠性和可修複性,具有很高的資料備援能力,但磁盤使用率隻有50%,因而,成本最高,多用在儲存重要資料的場合。 ? RAID5:采用了磁盤分段加奇偶校驗技術,進而提高了系統可靠性,RAID5讀出效率很高,寫入效率一般,至少需要3塊盤。允許一塊磁盤故障,而不影響資料的可用性。 ? RAID0+1:把RAID0和RAID1技術結合起來就成了RAID0+1,至少需要4個硬碟。此種方式的資料除分布在多個盤上外,每個盤都有其鏡像盤,提供全備援能力,同時允許一個磁盤故障,而不影響資料可用性,并具有快速讀/寫能力。

通過了解各個RAID級别的性能,可以根據應用的不同特性,選擇适合自身的RAID級别,進而保證應用程式在磁盤方面達到最優性能。

4.網絡寬帶

Linux下的各種應用,一般都是基于網絡的,是以網絡帶寬也是影響性能的一個重要因素,低速的、不穩定的網絡将導緻網絡應用程式的通路阻塞,而穩定、高速的網絡帶寬,可以保證應用程式在網絡上暢通無阻地運作。幸運的是,現在的網絡一般都是千兆帶寬或光纖網絡,帶寬問題對應用程式性能造成的影響也在逐漸降低。

2.2 作業系統相關資源

基于作業系統的性能優化也是多方面的,可以從系統安裝、系統核心參數、網絡參數、檔案系統等幾個方面進行衡量,下面依次進行簡單介紹。

1.系統安裝優化

系統優化可以從安裝作業系統開始,當安裝Linux系統時,磁盤的劃分,SWAP記憶體的配置設定都直接影響以後系統的運作性能,例如,磁盤配置設定可以遵循應用的需求:對于對寫操作頻繁而對資料安全性要求不高的應用,可以把磁盤做成RAID 0;而對于對資料安全性較高,對讀寫沒有特别要求的應用,可以把磁盤做成RAID 1;對于對讀操作要求較高,而對寫操作無特殊要求,并要保證資料安全性的應用,可以選擇RAID 5;對于對讀寫要求都很高,并且對資料安全性要求也很高的應用,可以選擇RAID10/01。這樣通過不同的應用需求設定不同的RAID級别,在磁盤底層對系統進行優化操作。

随着記憶體價格的降低和記憶體容量的日益增大,對虛拟記憶體SWAP的設定,現在已經沒有了所謂虛拟記憶體是實體記憶體兩倍的要求,但是SWAP的設定還是不能忽略,根據經驗,如果記憶體較小(實體記憶體小于4GB),一般設定SWAP交換分區大小為記憶體的2倍;如果實體記憶體大于8GB小于16GB,可以設定SWAP大小等于或略小于實體記憶體即可;如果記憶體大小在16GB以上,原則上可以設定SWAP為0,但并不建議這麼做,因為設定一定大小的SWAP還是有一定作用的。

2.核心參數優化

系統安裝完成後,優化工作并沒有結束,接下來還可以對系統核心參數進行優化,不過核心參數的優化要和系統中部署的應用結合起來整體考慮。例如,如果系統部署的是Oracle資料庫應用,那麼就需要對系統共享記憶體段(kernel.shmmax、kernel.shmmni、kernel.shmall)、系統信号量(kernel.sem)、檔案句柄(fs.file-max)等參數進行優化設定;如果部署的是Web應用,那麼就需要根據Web應用特性進行網絡參數的優化,例如修改net.ipv4.ip_local_port_range、net.ipv4.tcp_tw_reuse、net.core.somaxconn等網絡核心參數。

3.檔案系統優化

檔案系統的優化也是系統資源優化的一個重點,在Linux下可選的檔案系統有ext2、ext3、ReiserFS、ext4、xfs,根據不同的應用,選擇不同的檔案系統。

Linux标準檔案系統是從VFS開始的,然後是ext,接着就是ext2,應該說,ext2是Linux上标準的檔案系統,ext3是在ext2基礎上增加日志形成的,從VFS到ext4,其設計思想沒有太大變化,都是早期UNIX家族基于超級塊和inode的設計理念。

XFS檔案系統是一個進階日志檔案系統,XFS通過分布處理磁盤請求、定位資料、保持Cache 的一緻性來提供對檔案系統資料的低延遲、高帶寬的通路,是以,XFS極具伸縮性,非常健壯,具有優秀的日志記錄功能、可擴充性強、快速寫入性能等優點。

目前伺服器端ext4和xfs是主流檔案系統,如何選擇合适的檔案系統,需要根據檔案系統的特點加上業務的需求綜合來定。

2.3 、應用程式軟體資源

應用程式的優化其實是整個優化工程的核心,如果一個應用程式存在BUG,那麼即使所有其他方面都達到了最優狀态,整個應用系統還是性能低下,是以,對應用程式的優化是性能優化過程的重中之重,這就對程式架構設計人員和程式開發人員提出了更高的要求。

3.1、Linux運維人員

在做性能優化過程中,Linux運維人員承擔着很重要的任務,首先,Linux運維人員要了解和掌握作業系統的目前運作狀态,例如系統負載、記憶體狀态、程序狀态、CPU負荷等資訊,這些資訊是檢測和判斷系統性能的基礎和依據;其次,Linux運維人員還有掌握系統的硬體資訊,例如磁盤I/O、CPU型号、記憶體大小、網卡帶寬等參數資訊,然後根據這些資訊綜合評估系統資源的使用情況;第三,作為一名Linux運維人員,還要掌握應用程式對系統資源的使用情況,更深入的一點就是要了解應用程式的運作效率,例如是否有程式BUG、記憶體溢出等問題,通過對系統資源的監控,就能發現應用程式是否存在異常,如果确實是應用程式存在問題,需要把問題立刻反映給程式開發人員,進而改進或更新程式。

性能優化本身就是一個複雜和繁瑣的過程,Linux運維人員隻有了解了系統硬體資訊、網絡資訊、作業系統配置資訊和應用程式資訊才能有針對性地的展開對伺服器性能優化,這就要求Linux運維人員有充足的理論知識、豐富的實戰經驗以及缜密分析問題的頭腦。

3.2、系統架構設計人員

系統性能優化涉及的第二類人員就是應用程式的架構設計人員。如果Linux運維人員在經過綜合判斷後,發現影響性能的是應用程式的執行效率,那麼程式架構設計人員就要及時介入,深入了解程式運作狀态。首先,系統架構設計人員要跟蹤了解程式的執行效率,如果執行效率存在問題,要找出哪裡出現了問題;其次,如果真的是架構設計出現了問題,那麼就要馬上優化或改進系統架構,設計更好的應用系統架構。

3.3、軟體開發人員

系統性能優化最後一個環節涉及的是程式開發人員,在Linux運維人員或架構設計人員找到程式或結構瓶頸後,程式開發人員要馬上介入進行相應的程式修改。修改程式要以程式的執行效率為基準,改程序式的邏輯,有針對性地進行代碼優化。例如,Linux運維人員在系統中發現有條SQL語句耗費大量的系統資源,抓取這條執行的SQL語句,發現此SQL語句的執行效率太差,是開發人員編寫的代碼執行效率低造成的,這就需要把這個資訊回報給開發人員,開發人員在收到這個問題後,可以有針對性的進行SQL優化,進而實作程式代碼的優化。

從上面這個過程可以看出,系統性能優化一般遵循的流程是:首先Linux運維人員檢視系統的整體狀況,主要從系統硬體、網絡裝置、作業系統配置、應用程式架構和程式代碼五個方面進行綜合判斷,如果發現是系統硬體、網絡裝置或者作業系統配置問題,Linux運維人員可以根據情況自主解決;如果發現是程式結構問題,就需要送出給程式架構設計人員;如果發現是程式代碼執行問題,就交給開發人員進行代碼優化。這樣就完成了一個系統性能優化的過程。

系統性能優化是個涉及面廣、繁瑣、長久的工作,尋找出現性能問題的根源往往是最難的部分,一旦找到出現問題的原因,性能問題也就迎刃而解。是以,解決問題的思路變得非常重要。

例如,linux系統下的一個網站系統,使用者反映,網站通路速度很慢,有時無法通路。

針對這個問題,第一步要做的是檢測網絡,可以通過ping指令檢查網站的域名解析是否正常,同時,ping伺服器位址的延時是否過大等等,通過這種方式,首先排除網絡可能出現的問題;如果網絡沒有問題,接着進入第二步,對linux系統的記憶體使用狀況進行檢查,因為網站響應速度慢,一般跟記憶體關聯比較大,通過free、vmstat等指令判斷記憶體資源是否緊缺,如果記憶體資源不存在問題,進入第三步,檢查系統CPU的負載狀況,可以通過sar、vmstat、top等指令的輸出綜合判斷CPU是否存在過載問題,如果CPU沒有問題,繼續進入第四步,檢查系統的磁盤I/O是否存在瓶頸,可以通過iostat、vmstat等指令檢查磁盤的讀寫性能,如果磁盤讀寫也沒有問題,linux系統自身的性能問題基本排除,最後要做的是檢查程式本身是否存在問題。通過這樣的思路,層層檢測,步步排查,性能問題就“無處藏身”,查找出現性能問題的環節也就變得非常簡單。

說了這麼多,那麼問題來了,怎麼深入學習性能調優呢,我将多年來企業一線調優經驗進行了總結和提煉,做成了視訊課程:https://edu.51cto.com/course/20306.html Linux系統性能調優工具與技巧。

繼續閱讀