天天看點

1萬屬性+100億資料+10萬吞吐,設計這個架構也沒多難

作者:博圖角

  有一類業務場景,沒有固定的schema存儲,卻有着海量的資料行數,架構上如何來實作這類業務的存儲與檢索呢?

  1萬屬性,100億資料,10萬吞吐,今天和大家聊一聊,這一類“分類資訊業務”架構的設計實踐。

  一、背景描述及業務介紹

  1.什麼是分類資訊平台最核心的資料?

  一個分類資訊平台,有很多垂直品類:招聘、房産、二手物品、二手車、黃頁等等,每個品類又有很多子品類,不管哪個品類,最核心的資料都是“文章資訊”。

  2.各分類文章的資訊有什麼特點?

  逛過分類資訊平台的朋友很容易了解到,這裡的文章資訊:

  各品類的屬性千差萬别,招聘文章和二手文章屬性完全不同,二手手機和二手家電的屬性又完全不同,目前恐怕有近萬個屬性;

  資料量巨大,100億級别;

  每個屬性上都有查詢需求,各組合屬性上都可能有組合查詢需求,招聘要查職位/經驗/薪酬範圍,二手手機要查顔色/價格/型号,二手要查冰箱/洗衣機/空調;

  吞吐量很大,每秒幾十萬吞吐;

  如何解決100億資料量,1萬屬性,多屬性組合查詢,10萬并發查詢的技術難題呢?一步步來。

  二、最容易想到的方案

  每個公司的發展都是一個從小到大的過程,撇開并發量和資料量不談,先看看:

  如何實作屬性擴充性需求;

  多屬性組合查詢需求;

  公司初期并發量和資料量都不大,必須先解決業務問題。

  1.如何滿足業務的存儲需求呢?

  最開始,業務隻有一個招聘品類,那文章表可能是這麼設計的:

  tiezi(tid, uid, c1, c2, c3);

  2.那如何滿足各屬性之間的組合查詢需求呢?

  最容易想到的是通過組合索引滿足查詢需求:

  index_1(c1, c2)

  index_2(c2, c3)

  index_3(c1, c3)

  3.随着業務的發展,又新增了一個房産類别,存儲問題又該如何解決呢?

  可以新增若幹屬性滿足存儲需求,于是文章表變成了:

  tiezi(tid, uid, c1, c2, c3, c10, c11, c12, c13);

  其中:

  c1,c2,c3是招聘類别屬性;

  c10,c11,c12,c13是房産類别屬性;

  通過擴充屬性,可以解決存儲的問題。

  4.查詢需求,又該如何滿足呢?

  首先,跨業務屬性一般沒有組合查詢需求。隻能建立了若幹組合索引,滿足房産類别的查詢需求。

  不敢想有多少個索引能覆寫所有兩屬性查詢,三屬性查詢。

  當業務越來越多時,是不是發現玩不下去了?

  三、垂直拆分是一個思路

  新增屬性是一種擴充方式,新增表也是一種方式,垂直拆分也是常見的存儲擴充方案。

  1.如何按照業務進行垂直拆分?

  可以這麼玩:

  tiezi_zhaopin(tid, uid, c1, c2, c3);

  tiezi_fangchan(tid, uid, c10, c11, c12, c13);

  2.在業務各異,資料量和吞吐量都巨大的情況下,垂直拆分會遇到什麼問題呢?

  這些表,以及對應的服務維護在不同的部門,看上去各業務靈活性強,研發閉環,這恰恰是悲劇的開始:

  tid如何規範?

  屬性如何規範?

  按照uid來查詢怎麼辦(查詢自己釋出的所有文章)?

  按照時間來查詢怎麼辦(最新釋出的文章)?

  跨品類查詢怎麼辦(例如首頁搜尋框)?

  技術範圍的擴散,有的用mongo存儲,有的用mysql存儲,有的自研存儲;

  重複開發了不少元件;

  維護成本過高;

  …

  想想看,電商的商品表,不可能一個類目一個表的。

  四、行業優秀實踐:三大中心服務

  1.統一文章中心服務

  平台型創業型公司,可能有多個品類,各品類有很多異構資料的存儲需求,到底是分還是合,無需糾結:基礎資料基礎服務的統一,是一個很好的實踐。

  這裡說的是平台型業務。

  如何将不同品類,異構的資料統一存儲起來呢?

  全品類通用屬性統一存儲;

  單品類特有屬性,品類類型與通用屬性json來進行存儲;

  更具體的:

  tiezi(tid, uid, time, title, cate, subcate, xxid, ext);

  一些通用的字段抽取出來單獨存儲;

  通過cate, subcate, xxid等來定義ext是何種含義;  

1萬屬性+100億資料+10萬吞吐,設計這個架構也沒多難

  通過ext來存儲不同業務線的個性化需求。

  例如:

  招聘的文章,ext為:

  {“job”:”driver”,”salary”:8000,”location”:”bj”}

  而二手的文章,ext為:

  {”type”:”iphone”,”money”:3500}  

1萬屬性+100億資料+10萬吞吐,設計這個架構也沒多難

  文章資料,100億的資料量,分256庫,通過ext存儲異構業務資料,使用mysql存儲,上層架了一個文章中心服務,使用memcache做緩存,就是這樣一個并不複雜的架構,解決了業務的大問題。這是分類資訊平台最核心的文章中心服務IMC(Info Management Center)。

  解決了海量異構資料的存儲問題,遇到的新問題是:

  每條記錄ext内key都需要重複存儲,占據了大量的空間,能否壓縮存儲;

  cateid已經不足以描述ext内的内容,品類有層級,深度不确定,ext能否具備自描述性;

  随時可以增加屬性,保證擴充性。

  解決完海量異構資料的存儲問題,接下來,要解決的是類目的擴充性問題。

  2.統一類目屬性服務

  每個業務有多少屬性,這些屬性是什麼含義,值的限制等,耦合到文章服務裡顯然是不合理的,那怎麼辦呢?

  抽象出一個統一的類目、屬性服務,單獨來管理這些資訊,而文章庫ext字段裡json的key,統一由數字來表示,減少存儲空間。  

1萬屬性+100億資料+10萬吞吐,設計這個架構也沒多難

  文章表隻存元資訊,不管業務含義。

  如上圖所示,json裡的key不再是”salary” ”location” ”money” 這樣的長字元串了,取而代之的是數字1,2,3,4,這些數字是什麼含義,屬于哪個子分類,值的校驗限制,統一都存儲在類目、屬性服務裡。  

1萬屬性+100億資料+10萬吞吐,設計這個架構也沒多難

  類目表存業務資訊,以及限制資訊,與文章表解耦。

  這個表裡對文章中心服務裡ext字段裡的數字key進行了解釋:

  1代表job,屬于招聘品類下100子品類,其value必須是一個小于32的[a-z]字元;

  4代表type,屬于二手品類下200子品類,其value必須是一個short;

  這樣就對原來文章表ext擴充屬性:

  {“1”:”driver”,”2”:8000,”3”:”bj”}

  {”4”:”iphone”,”5”:3500}

  key和value都做了統一限制。

  除此之外,如果ext裡某個key的value不是正則校驗的值,而是枚舉值時,需要有一個對值進行限定的枚舉表來進行校驗:  

1萬屬性+100億資料+10萬吞吐,設計這個架構也沒多難

  這個枚舉校驗,說明key=4的屬性(對應屬性表裡二手,手機類型字段),其值不隻是要進行“short類型”校驗,而是value必須是固定的枚舉值:

  {”4”:”iphone”,”5”:3500}

  這個ext就是不合法的,key=4的value=iphone不合法,而應該是枚舉屬性,合法的應該為:

  {”4”:”5”,”5”:3500}

  此外,類目屬性服務還能記錄類目之間的層級關系:

  一級類目是招聘、房産、二手…

  二手下有二級類目二手家具、二手手機…

  二手手機下有三級類目二手iphone,二手小米,二手三星…

  …  

1萬屬性+100億資料+10萬吞吐,設計這個架構也沒多難

  類目服務解釋了文章資料,描述品類層級關系,保證各類目屬性擴充性,保證各屬性值合理性校驗,就是分類資訊平台另一個統一的核心服務CMC(Category Management Center)。

  類目、屬性服務像不像電商系統裡的SKU擴充服務?

  (1)品類層級關系,對應電商裡的類别層級體系;

  (2)屬性擴充,對應電商裡各類别商品SKU的屬性;

  (3)枚舉值校驗,對應屬性的枚舉值,例如顔色:紅,黃,藍。

  通過品類服務,解決了key壓縮,key描述,key擴充,value校驗,品類層級的問題,還有這樣的一個問題沒有解決:每個品類下文章的屬性各不相同,查詢需求各不相同,如何解決100億資料量,1萬屬性的檢索與聯合檢索需求呢?

  3.統一檢索服務

  資料量很大的時候,不同屬性上的查詢需求,不可能通過組合索引來滿足所有查詢需求,“外置索引,統一檢索服務”是一個很常用的實踐:

  資料庫提供“文章id”的正排查詢需求;

  所有非“文章id”的個性化檢索需求,統一走外置索引;  

1萬屬性+100億資料+10萬吞吐,設計這個架構也沒多難

  中繼資料與索引資料的操作遵循:

  對文章進行tid正排查詢,直接通路文章服務;

  對文章進行修改,文章服務通知檢索服務,同時對索引進行修改;

  對文章進行複雜查詢,通過檢索服務滿足需求。

  這個檢索服務,扛起了分類資訊平台80%的請求(不管來自PC還是APP,不管是首頁、城市頁、分類頁、清單頁、詳情頁,最終都會轉化為一個檢索請求)。

  對于這個搜尋引擎架構,簡單說明一下:  

1萬屬性+100億資料+10萬吞吐,設計這個架構也沒多難

  為應對100億級别資料量、幾十萬級别的吞吐量,業務線各種複雜的複雜檢索查詢,擴充性是設計重點:

  統一的代理層,作為入口,其無狀态性能夠保證增加機器就能擴充系統性能;

  統一的結果聚合層,其無狀态性也能夠保證增加機器就能擴充系統性能;

  搜尋核心檢索層,服務和索引資料部署在同一台機器上,服務啟動時可以加載索引資料到記憶體,請求通路時從記憶體中load資料,通路速度很快:

  為了滿足資料容量的擴充性,索引資料進行了水準切分,增加切分份數,就能夠無限擴充性能

  為了滿足一份資料的性能擴充性,同一份資料進行了備援,理論上做到增加機器就無限擴充性能

  系統時延,100億級别文章檢索,包含請求分合,拉鍊求交集,從聚合層均可以做到10ms傳回。

  文章業務,一緻性不是主要沖突,檢索服務會定期全量重建索引,以保證即使資料不一緻,也不會持續很長的時間。

  五、總結  

1萬屬性+100億資料+10萬吞吐,設計這個架構也沒多難

  文章寫了很長,最後做一個簡單總結,面對100億資料量,1萬列屬性,10萬吞吐量的業務需求,可以采用了中繼資料服務、屬性服務、搜尋服務來解決:

  一個解決存儲問題;

  一個解決品類解耦問題;

  一個解決檢索問題;

  任何複雜問題的解決,都是循序漸進的。思路比結論重要,希望大家有收獲。