線上服務的FGC問題排查，看這篇就夠了！

線上服務的GC問題，是Java程式非常典型的一類問題，非常考驗工程師排查問題的能力。同時，幾乎是面試必考題，但是能真正答好此題的人并不多，要麼原理沒吃透，要麼缺乏實戰經驗。

過去半年時間裡，我們的廣告系統出現了多次和GC相關的線上問題，有Full GC過于頻繁的，有Young GC耗時過長的，這些問題帶來的影響是：GC過程中的程式卡頓，進一步導緻服務逾時進而影響到廣告收入。

這篇文章，我将以一個FGC頻繁的線上案例作為引子，詳細介紹下GC的排查過程，另外會結合GC的運作原理給出一份實踐指南，希望對你有所幫助。内容分成以下3個部分：

1、從一次FGC頻繁的線上案例說起

2、GC的運作原理介紹

3、排查FGC問題的實踐指南

01 從一次FGC頻繁的線上案例說起

去年10月份，我們的廣告召回系統在程式上線後收到了FGC頻繁的系統告警，通過下面的監控圖可以看到：平均每35分鐘就進行了一次FGC。而程式上線前，我們的FGC頻次大概是2天一次。下面，詳細介紹下該問題的排查過程。

1. 檢查JVM配置

通過以下指令檢視JVM的啟動參數：

ps aux | grep "applicationName=adsearch"

-Xms4g -Xmx4g -Xmn2g -Xss1024K

-XX:ParallelGCThreads=5

-XX:+UseConcMarkSweepGC

-XX:+UseParNewGC

-XX:+UseCMSCompactAtFullCollection

-XX:CMSInitiatingOccupancyFraction=80

可以看到堆記憶體為4G，新生代為2G，老年代也為2G，新生代采用ParNew收集器，老年代采用并發标記清除的CMS收集器，當老年代的記憶體占用率達到80%時會進行FGC。

進一步通過 jmap -heap 7276 | head -n20 可以得知新生代的Eden區為1.6G，S0和S1區均為0.2G。

2. 觀察老年代的記憶體變化

通過觀察老年代的使用情況，可以看到：每次FGC後，記憶體都能回到500M左右，是以我們排除了記憶體洩漏的情況。

3. 通過jmap指令檢視堆記憶體中的對象

通過指令 jmap -histo 7276 | head -n20

上圖中，按照對象所占記憶體大小排序，顯示了存活對象的執行個體數、所占記憶體、類名。可以看到排名第一的是：int[]，而且所占記憶體大小遠遠超過其他存活對象。至此，我們将懷疑目标鎖定在了 int[] .

4. 進一步dump堆記憶體檔案進行分析

鎖定 int[] 後，我們打算dump堆記憶體檔案，通過可視化工具進一步跟蹤對象的來源。考慮堆轉儲過程中會暫停程式，是以我們先從服務管理平台摘掉了此節點，然後通過以下指令dump堆記憶體：

jmap -dump:format=b,file=heap 7276

通過JVisualVM工具導入dump出來的堆記憶體檔案，同樣可以看到各個對象所占空間，其中int[]占到了50%以上的記憶體，進一步往下便可以找到 int[] 所屬的業務對象，發現它來自于架構團隊提供的codis基礎元件。

5. 通過代碼分析可疑對象

通過代碼分析，codis基礎元件每分鐘會生成約40M大小的int數組，用于統計TP99 和 TP90，數組的生命周期是一分鐘。而根據第2步觀察老年代的記憶體變化時，發現老年代的記憶體基本上也是每分鐘增加40多M，是以推斷：這40M的int數組應該是從新生代晉升到老年代。

我們進一步檢視了YGC的頻次監控，通過下圖可以看到大概1分鐘有8次左右的YGC，這樣基本驗證了我們的推斷：因為CMS收集器預設的分代年齡是6次，即YGC 6次後還存活的對象就會晉升到老年代，而codis元件中的大數組生命周期是1分鐘，剛好滿足這個要求。

至此，整個排查過程基本結束了，那為什麼程式上線前沒出現此問題呢？通過上圖可以看到：程式上線前YGC的頻次在5次左右，此次上線後YGC頻次變成了8次左右，進而引發了此問題。

6. 解決方案

為了快速解決問題，我們将CMS收集器的分代年齡改成了15次，改完後FGC頻次恢複到了2天一次，後續如果YGC的頻次超過每分鐘15次還會再次觸發此問題。當然，我們最根本的解決方案是：優化程式以降低YGC的頻率，同時縮短codis元件中int數組的生命周期，這裡就不做展開了。

02 GC的運作原理介紹

上面整個案例的分析過程中，其實涉及到很多GC的原理知識，如果不懂得這些原理就着手處理，其實整個排查過程是很抓瞎的。

這裡，我選擇幾個最核心的知識點，展開介紹下GC的運作原理，最後再給出一份實踐指南。

1. 堆記憶體結構

大家都知道: GC分為YGC和FGC，它們均發生在JVM的堆記憶體上。先來看下JDK8的堆記憶體結構：

可以看到，堆記憶體采用了分代結構，包括新生代和老年代。新生代又分為：Eden區，From Survivor區（簡稱S0），To Survivor區（簡稱S1區），三者的預設比例為8:1:1。另外，新生代和老年代的預設比例為1:2。

堆記憶體之是以采用分代結構，是考慮到絕大部分對象都是短生命周期的，這樣不同生命周期的對象可放在不同的區域中，然後針對新生代和老年代采用不同的垃圾回收算法，進而使得GC效率最高。

2. YGC是什麼時候觸發的？

大多數情況下，對象直接在年輕代中的Eden區進行配置設定，如果Eden區域沒有足夠的空間，那麼就會觸發YGC（Minor GC），YGC處理的區域隻有新生代。因為大部分對象在短時間内都是可收回掉的，是以YGC後隻有極少數的對象能存活下來，而被移動到S0區（采用的是複制算法）。

當觸發下一次YGC時，會将Eden區和S0區的存活對象移動到S1區，同時清空Eden區和S0區。當再次觸發YGC時，這時候處理的區域就變成了Eden區和S1區（即S0和S1進行角色交換）。每經過一次YGC，存活對象的年齡就會加1。

3. FGC又是什麼時候觸發的？

下面4種情況，對象會進入到老年代中：

1、YGC時，To Survivor區不足以存放存活的對象，對象會直接進入到老年代。

2、經過多次YGC後，如果存活對象的年齡達到了設定門檻值，則會晉升到老年代中。

3、動态年齡判定規則，To Survivor區中相同年齡的對象，如果其大小之和占到了 To Survivor區一半以上的空間，那麼大于此年齡的對象會直接進入老年代，而不需要達到預設的分代年齡。

4、大對象：由-XX:PretenureSizeThreshold啟動參數控制，若對象大小大于此值，就會繞過新生代, 直接在老年代中配置設定。

當晉升到老年代的對象大于了老年代的剩餘空間時，就會觸發FGC（Major GC），FGC處理的區域同時包括新生代和老年代。除此之外，還有以下4種情況也會觸發FGC：

1、老年代的記憶體使用率達到了一定門檻值（可通過參數調整），直接觸發FGC。

2、空間配置設定擔保：在YGC之前，會先檢查老年代最大可用的連續空間是否大于新生代所有對象的總空間。如果小于，說明YGC是不安全的，則會檢視參數 HandlePromotionFailure 是否被設定成了允許擔保失敗，如果不允許則直接觸發Full GC；如果允許，那麼會進一步檢查老年代最大可用的連續空間是否大于曆次晉升到老年代對象的平均大小，如果小于也會觸發 Full GC。

3、Metaspace（元空間）在空間不足時會進行擴容，當擴容到了-XX:MetaspaceSize 參數的指定值時，也會觸發FGC。

4、System.gc() 或者Runtime.gc() 被顯式調用時，觸發FGC。

4. 在什麼情況下，GC會對程式産生影響？

不管YGC還是FGC，都會造成一定程度的程式卡頓（即Stop The World問題：GC線程開始工作，其他工作線程被挂起），即使采用ParNew、CMS或者G1這些更先進的垃圾回收算法，也隻是在減少卡頓時間，而并不能完全消除卡頓。

那到底什麼情況下，GC會對程式産生影響呢？根據嚴重程度從高到底，我認為包括以下4種情況：

1、FGC過于頻繁：FGC通常是比較慢的，少則幾百毫秒，多則幾秒，正常情況FGC每隔幾個小時甚至幾天才執行一次，對系統的影響還能接受。但是，一旦出現FGC頻繁（比如幾十分鐘就會執行一次），這種肯定是存在問題的，它會導緻工作線程頻繁被停止，讓系統看起來一直有卡頓現象，也會使得程式的整體性能變差。

2、YGC耗時過長：一般來說，YGC的總耗時在幾十或者上百毫秒是比較正常的，雖然會引起系統卡頓幾毫秒或者幾十毫秒，這種情況幾乎對使用者無感覺，對程式的影響可以忽略不計。但是如果YGC耗時達到了1秒甚至幾秒（都快趕上FGC的耗時了），那卡頓時間就會增大，加上YGC本身比較頻繁，就會導緻比較多的服務逾時問題。

3、FGC耗時過長：FGC耗時增加，卡頓時間也會随之增加，尤其對于高并發服務，可能導緻FGC期間比較多的逾時問題，可用性降低，這種也需要關注。

4、YGC過于頻繁：即使YGC不會引起服務逾時，但是YGC過于頻繁也會降低服務的整體性能，對于高并發服務也是需要關注的。

其中，「FGC過于頻繁」和「YGC耗時過長」，這兩種情況屬于比較典型的GC問題，大機率會對程式的服務品質産生影響。剩餘兩種情況的嚴重程度低一些，但是對于高并發或者高可用的程式也需要關注。

03 排查FGC問題的實踐指南

通過上面的案例分析以及理論介紹，再總結下FGC問題的排查思路，作為一份實踐指南供大家參考。

1. 清楚從程式角度，有哪些原因導緻FGC？

1、大對象：系統一次性加載了過多資料到記憶體中（比如SQL查詢未做分頁），導緻大對象進入了老年代。

2、記憶體洩漏：頻繁建立了大量對象，但是無法被回收（比如IO對象使用完後未調用close方法釋放資源），先引發FGC，最後導緻OOM.

3、程式頻繁生成一些長生命周期的對象，當這些對象的存活年齡超過分代年齡時便會進入老年代，最後引發FGC. （即本文中的案例）

4、程式BUG導緻動态生成了很多新類，使得 Metaspace 不斷被占用，先引發FGC，最後導緻OOM.

5、代碼中顯式調用了gc方法，包括自己的代碼甚至架構中的代碼。

6、JVM參數設定問題：包括總記憶體大小、新生代和老年代的大小、Eden區和S區的大小、元空間大小、垃圾回收算法等等。

2. 清楚排查問題時能使用哪些工具

1、公司的監控系統：大部分公司都會有，可全方位監控JVM的各項名額。

2、JDK的自帶工具，包括jmap、jstat等常用指令：

檢視堆記憶體各區域的使用率以及GC情況

jstat -gcutil -h20 pid 1000

檢視堆記憶體中的存活對象，并按空間排序

jmap -histo pid | head -n20

dump堆記憶體檔案

jmap -dump:format=b,file=heap pid

3、可視化的堆記憶體分析工具：JVisualVM、MAT等

3. 排查指南

1、檢視監控，以了解出現問題的時間點以及目前FGC的頻率（可對比正常情況看頻率是否正常）

2、了解該時間點之前有沒有程式上線、基礎元件更新等情況。

3、了解JVM的參數設定，包括：堆空間各個區域的大小設定，新生代和老年代分别采用了哪些垃圾收集器，然後分析JVM參數設定是否合理。

4、再對步驟1中列出的可能原因做排除法，其中元空間被打滿、記憶體洩漏、代碼顯式調用gc方法比較容易排查。

5、針對大對象或者長生命周期對象導緻的FGC，可通過 jmap -histo 指令并結合dump堆記憶體檔案作進一步分析，需要先定位到可疑對象。

6、通過可疑對象定位到具體代碼再次分析，這時候要結合GC原理和JVM參數設定，弄清楚可疑對象是否滿足了進入到老年代的條件才能下結論。

04 最後的話

這篇文章通過線上案例并結合GC原理詳細介紹了FGC的排查過程，同時給出了一份實踐指南。

後續會以類似的方式，再分享一個YGC耗時過長的案例，希望能幫助大家吃透GC問題排查，如果覺得本文對你有幫助，請大家關注我的個人公衆号！

- End -

作者簡介：985碩士，前亞馬遜工程師，現58轉轉技術總監

歡迎掃描下方的二維碼，關注我的個人公衆号：武哥漫談IT，精彩原創不斷！