1萬屬性+100億資料+10萬吞吐，設計這個架構也沒多難

　　有一類業務場景，沒有固定的schema存儲，卻有着海量的資料行數，架構上如何來實作這類業務的存儲與檢索呢？

　　1萬屬性，100億資料，10萬吞吐，今天和大家聊一聊，這一類“分類資訊業務”架構的設計實踐。

　　一、背景描述及業務介紹

　　1.什麼是分類資訊平台最核心的資料？

　　一個分類資訊平台，有很多垂直品類：招聘、房産、二手物品、二手車、黃頁等等，每個品類又有很多子品類，不管哪個品類，最核心的資料都是“文章資訊”。

　　2.各分類文章的資訊有什麼特點？

　　逛過分類資訊平台的朋友很容易了解到，這裡的文章資訊：

　　各品類的屬性千差萬别，招聘文章和二手文章屬性完全不同，二手手機和二手家電的屬性又完全不同，目前恐怕有近萬個屬性；

　　資料量巨大，100億級别；

　　每個屬性上都有查詢需求，各組合屬性上都可能有組合查詢需求，招聘要查職位/經驗/薪酬範圍，二手手機要查顔色/價格/型号，二手要查冰箱/洗衣機/空調；

　　吞吐量很大，每秒幾十萬吞吐；

　　如何解決100億資料量，1萬屬性，多屬性組合查詢，10萬并發查詢的技術難題呢？一步步來。

　　二、最容易想到的方案

　　每個公司的發展都是一個從小到大的過程，撇開并發量和資料量不談，先看看：

　　如何實作屬性擴充性需求；

　　多屬性組合查詢需求；

　　公司初期并發量和資料量都不大，必須先解決業務問題。

　　1.如何滿足業務的存儲需求呢？

　　最開始，業務隻有一個招聘品類，那文章表可能是這麼設計的：

　　tiezi(tid, uid, c1, c2, c3);

　　2.那如何滿足各屬性之間的組合查詢需求呢？

　　最容易想到的是通過組合索引滿足查詢需求：

　　index_1(c1, c2)

　　index_2(c2, c3)

　　index_3(c1, c3)

　　3.随着業務的發展，又新增了一個房産類别，存儲問題又該如何解決呢？

　　可以新增若幹屬性滿足存儲需求，于是文章表變成了：

　　tiezi(tid, uid, c1, c2, c3, c10, c11, c12, c13);

　　其中：

　　c1,c2,c3是招聘類别屬性；

　　c10,c11,c12,c13是房産類别屬性；

　　通過擴充屬性，可以解決存儲的問題。

　　4.查詢需求，又該如何滿足呢？

　　首先，跨業務屬性一般沒有組合查詢需求。隻能建立了若幹組合索引，滿足房産類别的查詢需求。

　　不敢想有多少個索引能覆寫所有兩屬性查詢，三屬性查詢。

　　當業務越來越多時，是不是發現玩不下去了？

　　三、垂直拆分是一個思路

　　新增屬性是一種擴充方式，新增表也是一種方式，垂直拆分也是常見的存儲擴充方案。

　　1.如何按照業務進行垂直拆分？

　　可以這麼玩：

　　tiezi_zhaopin(tid, uid, c1, c2, c3);

　　tiezi_fangchan(tid, uid, c10, c11, c12, c13);

　　2.在業務各異，資料量和吞吐量都巨大的情況下，垂直拆分會遇到什麼問題呢？

　　這些表，以及對應的服務維護在不同的部門，看上去各業務靈活性強，研發閉環，這恰恰是悲劇的開始：

　　tid如何規範？

　　屬性如何規範？

　　按照uid來查詢怎麼辦（查詢自己釋出的所有文章）？

　　按照時間來查詢怎麼辦（最新釋出的文章）？

　　跨品類查詢怎麼辦（例如首頁搜尋框）？

　　技術範圍的擴散，有的用mongo存儲，有的用mysql存儲，有的自研存儲；

　　重複開發了不少元件；

　　維護成本過高；

　　…

　　想想看，電商的商品表，不可能一個類目一個表的。

　　四、行業優秀實踐：三大中心服務

　　1.統一文章中心服務

　　平台型創業型公司，可能有多個品類，各品類有很多異構資料的存儲需求，到底是分還是合，無需糾結：基礎資料基礎服務的統一，是一個很好的實踐。

　　這裡說的是平台型業務。

　　如何将不同品類，異構的資料統一存儲起來呢？

　　全品類通用屬性統一存儲；

　　單品類特有屬性，品類類型與通用屬性json來進行存儲；

　　更具體的：

　　tiezi(tid, uid, time, title, cate, subcate, xxid, ext);

　　一些通用的字段抽取出來單獨存儲；

　　通過cate, subcate, xxid等來定義ext是何種含義；　　

　　通過ext來存儲不同業務線的個性化需求。

　　例如：

　　招聘的文章，ext為：

　　{“job”:”driver”,”salary”:8000,”location”:”bj”}

　　而二手的文章，ext為：

　　{”type”:”iphone”,”money”:3500}　　

　　文章資料，100億的資料量，分256庫，通過ext存儲異構業務資料，使用mysql存儲，上層架了一個文章中心服務，使用memcache做緩存，就是這樣一個并不複雜的架構，解決了業務的大問題。這是分類資訊平台最核心的文章中心服務IMC（Info Management Center）。

　　解決了海量異構資料的存儲問題，遇到的新問題是：

　　每條記錄ext内key都需要重複存儲，占據了大量的空間，能否壓縮存儲；

　　cateid已經不足以描述ext内的内容，品類有層級，深度不确定，ext能否具備自描述性；

　　随時可以增加屬性，保證擴充性。

　　解決完海量異構資料的存儲問題，接下來，要解決的是類目的擴充性問題。

　　2.統一類目屬性服務

　　每個業務有多少屬性，這些屬性是什麼含義，值的限制等，耦合到文章服務裡顯然是不合理的，那怎麼辦呢？

　　抽象出一個統一的類目、屬性服務，單獨來管理這些資訊，而文章庫ext字段裡json的key，統一由數字來表示，減少存儲空間。　　

　　文章表隻存元資訊，不管業務含義。

　　如上圖所示，json裡的key不再是”salary” ”location” ”money” 這樣的長字元串了，取而代之的是數字1,2,3,4，這些數字是什麼含義，屬于哪個子分類，值的校驗限制，統一都存儲在類目、屬性服務裡。　　

　　類目表存業務資訊，以及限制資訊，與文章表解耦。

　　這個表裡對文章中心服務裡ext字段裡的數字key進行了解釋：

　　1代表job，屬于招聘品類下100子品類，其value必須是一個小于32的[a-z]字元；

　　4代表type，屬于二手品類下200子品類，其value必須是一個short；

　　這樣就對原來文章表ext擴充屬性：

　　{“1”:”driver”,”2”:8000,”3”:”bj”}

　　{”4”:”iphone”,”5”:3500}

　　key和value都做了統一限制。

　　除此之外，如果ext裡某個key的value不是正則校驗的值，而是枚舉值時，需要有一個對值進行限定的枚舉表來進行校驗：　　

　　這個枚舉校驗，說明key=4的屬性（對應屬性表裡二手，手機類型字段），其值不隻是要進行“short類型”校驗，而是value必須是固定的枚舉值：

　　{”4”:”iphone”,”5”:3500}

　　這個ext就是不合法的，key=4的value=iphone不合法，而應該是枚舉屬性，合法的應該為：

　　{”4”:”5”,”5”:3500}

　　此外，類目屬性服務還能記錄類目之間的層級關系：

　　一級類目是招聘、房産、二手…

　　二手下有二級類目二手家具、二手手機…

　　二手手機下有三級類目二手iphone，二手小米，二手三星…

　　…　　

　　類目服務解釋了文章資料，描述品類層級關系，保證各類目屬性擴充性，保證各屬性值合理性校驗，就是分類資訊平台另一個統一的核心服務CMC（Category Management Center）。

　　類目、屬性服務像不像電商系統裡的SKU擴充服務？

　　（1）品類層級關系，對應電商裡的類别層級體系；

　　（2）屬性擴充，對應電商裡各類别商品SKU的屬性；

　　（3）枚舉值校驗，對應屬性的枚舉值，例如顔色：紅，黃，藍。

　　通過品類服務，解決了key壓縮，key描述，key擴充，value校驗，品類層級的問題，還有這樣的一個問題沒有解決：每個品類下文章的屬性各不相同，查詢需求各不相同，如何解決100億資料量，1萬屬性的檢索與聯合檢索需求呢？

　　3.統一檢索服務

　　資料量很大的時候，不同屬性上的查詢需求，不可能通過組合索引來滿足所有查詢需求，“外置索引，統一檢索服務”是一個很常用的實踐：

　　資料庫提供“文章id”的正排查詢需求；

　　所有非“文章id”的個性化檢索需求，統一走外置索引；　　

　　中繼資料與索引資料的操作遵循：

　　對文章進行tid正排查詢，直接通路文章服務；

　　對文章進行修改，文章服務通知檢索服務，同時對索引進行修改；

　　對文章進行複雜查詢，通過檢索服務滿足需求。

　　這個檢索服務，扛起了分類資訊平台80%的請求（不管來自PC還是APP，不管是首頁、城市頁、分類頁、清單頁、詳情頁，最終都會轉化為一個檢索請求）。

　　對于這個搜尋引擎架構，簡單說明一下：　　

　　為應對100億級别資料量、幾十萬級别的吞吐量，業務線各種複雜的複雜檢索查詢，擴充性是設計重點：

　　統一的代理層，作為入口，其無狀态性能夠保證增加機器就能擴充系統性能；

　　統一的結果聚合層，其無狀态性也能夠保證增加機器就能擴充系統性能；

　　搜尋核心檢索層，服務和索引資料部署在同一台機器上，服務啟動時可以加載索引資料到記憶體，請求通路時從記憶體中load資料，通路速度很快：

　　為了滿足資料容量的擴充性，索引資料進行了水準切分，增加切分份數，就能夠無限擴充性能

　　為了滿足一份資料的性能擴充性，同一份資料進行了備援，理論上做到增加機器就無限擴充性能

　　系統時延，100億級别文章檢索，包含請求分合，拉鍊求交集，從聚合層均可以做到10ms傳回。

　　文章業務，一緻性不是主要沖突，檢索服務會定期全量重建索引，以保證即使資料不一緻，也不會持續很長的時間。

　　五、總結　　

　　文章寫了很長，最後做一個簡單總結，面對100億資料量，1萬列屬性，10萬吞吐量的業務需求，可以采用了中繼資料服務、屬性服務、搜尋服務來解決：

　　一個解決存儲問題；

　　一個解決品類解耦問題；

　　一個解決檢索問題；

　　任何複雜問題的解決，都是循序漸進的。思路比結論重要，希望大家有收獲。