天天看點

深度 | API 設計最佳實踐的思考

深度 | API 設計最佳實踐的思考
阿裡妹導讀:API 是子產品或者子系統之間互動的接口定義。好的系統架構離不開好的 API 設計,而一個設計不夠完善的 API 則注定會導緻系統的後續發展和維護非常困難。

接下來,阿裡巴巴研究員谷樸将給出建議,什麼樣的 API 設計是好的設計?好的設計該如何做?

深度 | API 設計最佳實踐的思考

作者簡介:張瓅玶 (谷樸),阿裡巴巴研究員,負責阿裡雲容器平台叢集管理團隊。大學和博士畢業于清華大學。

前言

API 設計面臨的挑戰千差萬别,很難有處處适用的準則,是以在讨論原則和最佳實踐時,無論這些原則和最佳實踐是什麼,一定有适應的場景和不适應的場景。是以我們在下文中不僅提出一些建議,也盡量去分析這些建議在什麼場景下适用,這樣我們也可以有針對性地采取例外的政策。

為什麼去讨論這些問題? API 是軟體系統的核心,而軟體系統的複雜度 Complexity 是大規模軟體系統能否成功最重要的因素。但複雜度 Complexity 并非某一個單獨的問題能完全敗壞的,而是在系統設計尤其是API設計層面很多很多小的設計考量一點點疊加起來的(John Ousterhout老爺子說的Complexity is incremental【8】)。

成功的系統不是有一些特别閃光的地方,而是設計時點點滴滴的努力積累起來的。

範圍

本文偏重于一般性的API設計,并更适用于遠端調用(RPC或者HTTP/RESTful的API),但是這裡沒有特别讨論RESTful API特有的一些問題。

另外,本文在讨論時,假定了用戶端直接和遠端服務端的API互動。在阿裡,由于多種原因,通過用戶端的 SDK 來間接通路遠端服務的情況更多一些。這裡并不讨論 SDK 帶來的特殊問題,但是将 SDK 提供的方法看作遠端 API 的代理,這裡的讨論仍然适用。

API 設計準則:什麼是好的 API

在這一部分,我們試圖總結一些好的 API 應該擁有的特性,或者說是設計的原則。這裡我們試圖總結更加基礎性的原則。所謂基礎性的原則,是那些如果我們很好地遵守了就可以讓 API 在之後演進的過程中避免多數設計問題的原則。

提供清晰的思維模型 provides a good mental model

為什麼這一點重要?因為 API 的設計本身最關鍵的難題并不是讓用戶端與服務端軟體之間如何互動,而是設計者、維護者、API使用者這幾個程式員群體之間在 API 生命周期内的互動。一個 API 如何被使用,以及API本身如何被維護,是依賴于維護者和使用者能夠對該 API 有清晰的、一緻的認識。這非常依賴于設計者提供了一個清晰易于了解的模型。這種狀況實際上是不容易達到的。

就像下圖所示,設計者心中有一個模型,而使用者看到和了解的模型可能是另一個模式,這個模式如果比較複雜的話,使用者使用的方式又可能與自己了解的不完全一緻。 對于維護者來說,問題是類似的。

深度 | API 設計最佳實踐的思考

而好的 API 讓維護者和使用者能夠很容易了解到設計時要傳達的模型。帶來了解、調試、測試、代碼擴充和系統維護性的提升 。

深度 | API 設計最佳實踐的思考

圖檔來源:

https://medium.com/@copyconstruct/effective-mental-models-for-code-and-systems-7c55918f1b3e
  • 好的例子:很多基礎設施領域的 API 都提供了非常好的正面的設計典型,如後面會重點提到的 Posix File API,就提供了非常清晰明了的 mental model。
  • 不好的例子:String 是軟體中常見的類型,但是在一些 String 類庫的實作中,我們會看到設計者為了某些友善,提供了以數組方式通路字元串的 API,這類 API 容易讓使用者形成字元串 = array of chars 的模型印象,而這樣的印象在一些特殊場景實際是不成立的(例如 Unicode 編碼等形态)。

簡單 is simple

“Make things as simple as possible, but no simpler.” 在實際的系統中,尤其是考慮到系統随着需求的增加不斷地演化,我們絕大多數情況下見到的問題都是過于複雜的設計,在 API 中引入了過多的實作細節(見下一條),同時也有不少的例子是Oversimplification 引起的,一些不該被合并的改變合并了,導緻設計很不合理。

過于簡單化的例子:過去曾經見過一個系統,将一個使用者的資源賬戶模型的 account balance 和 transactions 都簡化為用 transactions 一個模型來表達,邏輯在于 account balance 可以由曆史的 transactions 累計得到。但是這樣的過于簡化的模型設計帶來了很多的問題,尤其在引入分期付款、預約交易等概念之後,暴露了很多複雜的邏輯給一些隻需要擷取簡單資訊的用戶端(如計算這個使用者是否還有足夠的餘額交易變得和很多業務邏輯耦合),屬于典型的模型過度簡化帶來的設計複雜度上升的案例。

容許多個實作 allows multiple implementations

這個原則看上去更具體,也是我非常喜歡的一個原則。Sanjay Ghemawat 常常提到該原則。一般來說,在讨論 API 設計時常常被提到的原則是解耦性原則或者說松耦合原則。然而相比于松耦合原則,這個原則更加有可核實性:如果一個 API 自身可以有多個完全不同的實作,一般來說這個API已經有了足夠好的抽象,那麼一般也不會出現和外部系統耦合過緊的問題。是以這個原則更本質一些。

舉個例子,比如我們已經有一個簡單的 API

QueryOrderResponse queryOrder(string orderQuery)           

但是有場景需求希望總是讀取到最新更新資料,不接受緩存,于是工程師考慮。

QueryOrderResponse queryOrder(string orderQuery, boolean useCache)
           

增加一個字段 useCache 來判斷如何處理這樣的請求。

這樣的改法看上去合理,但實際上洩漏了後端實作的細節(後端采用了緩存),後續如果采用一個新的不帶緩存的後端存儲實作,再支援這個 useCache 的字段就很尴尬了。

在工程中,這樣的問題可以用不同的服務執行個體來解決,通過不同通路的 endpoint 配置來區分。

最佳實踐

本部分則試圖讨論一些更加詳細、具體的建議,可以讓 API 的設計更容易滿足前面描述的基礎原則。

想想優秀的API例子:POSIX File API

如果說 API 的設計實踐隻能列一條的話,那麼可能最有幫助的和最可操作的就是這一條。本文也可以叫做“通過 File API 體會 API 設計的最佳實踐”。

是以整個最佳實踐可以總結為一句話:“想想 File API 是怎麼設計的。”

首先回顧一下 File API 的主要接口(以C為例,很多是 Posix API,選用比較簡單的I/O接口為例【1】:

int open(const char *path, int oflag, .../*,mode_t mode */);
int close (int filedes);
int remove( const char *fname );
ssize_t write(int fildes, const void *buf, size_t nbyte);
ssize_t read(int fildes, void *buf, size_t nbyte);           

File API 為什麼是經典的好 API 設計?

  • File API 已經有幾十年曆史(從1988年算起,已30年),盡管期間硬體軟體系統的發展經曆了好幾代,這套 API 核心保持了穩定。這是極其了不起的。
  • API 提供了非常清晰的概念模型,每個人都能夠很快了解這套API背後的基礎概念:什麼是檔案,以及相關聯的操作(open, close, read, write),清晰明了;
  • 支援很多的不同檔案系統實作,這些系統實作甚至于屬于類型非常不同的裝置,例如磁盤、塊裝置、管道(pipe)、共享記憶體、網絡、終端 terminal 等等。這些裝置有的是随機通路的,有的隻支援順序通路;有的是持久化的有的則不是。然而所有不同的裝置不同的檔案系統實作都可以采用了同樣的接口,使得上層系統不必關注底層實作的不同,這是這套 API 強大的生命力的表現。

例如同樣是打開檔案的接口,底層實作完全不同,但是通過完全一樣的接口,不同的路徑以及 Mount 機制,實作了同時支援。其他還有 Procfs, pipe 等。

int open(const char *path, int oflag, .../*,mode_t mode */);           
深度 | API 設計最佳實踐的思考

上圖中,cephfs 和本地檔案系統,底層對應完全不同的實作,但是上層 client 可以不用區分對待,采用同樣的接口來操作,隻通過路徑不同來區分。

基于上面的這些原因,我們知道 File API 為什麼能夠如此成功。事實上,它是如此的成功以至于今天的 *-nix 作業系統,everything is filed based.

盡管我們有了一個非常好的例子 File API,但是要設計一個能夠長期保持穩定的 API是一項及其困難的事情,是以僅有一個好的參考還不夠,下面再試圖展開去讨論一些更細節的問題。

Document well 寫詳細的文檔

寫詳細的文檔,并保持更新。 關于這一點,其實無需贅述,現實是,很多API的設計和維護者不重視文檔的工作。

在一個面向服務化/Micro-service 化架構的今天,一個應用依賴大量的服務,而每個服務 API 又在不斷的演進過程中,準确的記錄每個字段和每個方法,并且保持更新,對于減少用戶端的開發踩坑、減少出問題的幾率,提升整體的研發效率至關重要。

Carefully define the "resource" of your API 仔細的定義“資源”

如果适合的話,選用“資源”加操作的方式來定義。今天很多的 API 都可以采用這樣一個抽象的模式來定義,這種模式有很多好處,也适合于 HTTP 的 RESTful API 的設計。但是在設計 API 時,一個重要的前提是對 Resource 本身進行合理的定義。什麼樣的定義是合理的? Resource 資源本身是對一套 API 操作核心對象的一個抽象Abstraction。

抽象的過程是去除細節的過程。在我們做設計時,如果現實世界的流程或者操作對象是具體化的,抽象的 Object 的選擇可能不那麼困難,但是對于哪些細節應該包括,是需要很多思考的。例如對于檔案的API,可以看出,檔案 File 這個 Resource(資源)的抽象,是“可以由一個字元串唯一辨別的資料記錄”。這個定義去除了檔案是如何辨別的(這個問題留給了各個檔案系統的具體實作),也去除了關于如何存儲的組織結構(again,留給了存儲系統)細節。

雖然我們希望API簡單,但是更重要的是選擇對的實體來模組化。在底層系統設計中,我們傾向于更簡單的抽象設計。有的系統裡面,域模型本身的設計往往不會這麼簡單,需要更細緻的考慮如何定義 Resource。一般來說,域模型中的概念抽象,如果能和現實中的人們的體驗接近,會有利于人們了解該模型。選擇對的實體來模組化往往是關鍵。結合域模型的設計,可以參考相關的文章,例如阿白老師的文章【2】。

Choose the right level of abstraction 選擇合适的抽象層

與前面的一個問題密切相關的,是在定義對象時需要選擇合适的 Level of abstraction (抽象的層級)。不同概念之間往往互相關聯。仍然以 File API 為例。在設計這樣的 API 時,選擇抽象的層級的可能的選項有多個,例如:

  • 文本、圖像混合對象
  • “資料塊” 抽象
  • ”檔案“抽象

這些不同的層級的抽象方式,可能描述的是同一個東西,但是在概念上是不同層面的選擇。當設計一個 API 用于與資料通路的用戶端互動時,“檔案 File “是更合适的抽象,而設計一個 API 用于檔案系統内部或者裝置驅動時,資料塊或者資料塊裝置可能是合适的抽象,當設計一個文檔編輯工具時,可能會用到“文本圖像混合對象”這樣的檔案抽象層級。

又例如,資料庫相關的 API 定義,底層的抽象可能針對的是資料的存儲結構,中間是資料庫邏輯層需要定義資料互動的各種對象和協定,而在展示(View layer)的時候需要的抽象又有不同【3】。

深度 | API 設計最佳實踐的思考

Naming and identification of the resource 命名與辨別

當 API 定義了一個資源對象,下面一般需要的是提供命名/辨別( Naming and identification )。在 naming/ID 方面,一般有兩個選擇(不是指系統内部的 ID,而是會暴露給使用者的):

  • 用free-form string作為ID(string nameAsId)
  • 用結構化資料表達naming/ID

何時選擇哪個方法,需要具體分析。采用 Free-form string 的方式定義的命名,為系統的具體實作留下了最大的自由度。帶來的問題是命名的内在結構(如路徑)本身并非API強制定義的一部分,轉為變成實作細節。如果命名本身存在結構,用戶端需要有提取結構資訊的邏輯,這是一個需要做的平衡。

例如檔案 API 采用了 free-form string 作為檔案名的辨別方式,而檔案的 URL 則是檔案系統具體實作規定。這樣,就容許 Windows 作業系統采用 "D:DocumentsFile.jpg" 而 Linux 采用 "/etc/init.d/file.conf" 這樣的結構了。而如果檔案命名的資料結構定義為:

disk: string,
   path: string
}           

這樣結構化的方式,透出了 "disk" 和 "path" 兩個部分的結構化資料,那麼這樣的結構可能适應于 Windows 的檔案組織方式,而不适應于其他檔案系統,也就是說洩漏了實作細節。

如果資源 Resource 對象的抽象模型自然包含結構化的辨別資訊,則采用結構化方式會簡化用戶端與之互動的邏輯,強化概念模型。這時犧牲掉辨別的靈活度,換取其他方面的優勢。例如,銀行的轉賬賬号設計,可以表達為:

{
   account: number
   routing: number
}           

這樣一個結構化辨別,由賬号和銀行間辨別兩部分組成,這樣的設計含有一定的業務邏輯在内,但是這部分業務邏輯是被描述的系統内在邏輯而非實作細節,并且這樣的設計可能有助于具體實作的簡化以及避免一些非結構化的字元串辨別帶來的安全性問題等。是以在這裡結構化的辨別可能更适合。

另一個相關的問題是,何時應該提供一個數字 unique ID ? 這是一個經常遇到的問題。有幾個問題與之相關需要考慮:

  • 是否已經有結構化或者字元串的辨別可以唯一、穩定辨別對象?如果已經有了,那麼就不一定需要 numerical ID;
  • 64位整數範圍夠用嗎?
  • 數字 ID 可能不是那麼使用者友好,對于使用者來講數字的 ID 會有幫助嗎?

如果這些問題都有答案而且不是什麼阻礙,那麼使用數字 ID 是可以的,否則要慎用數字ID。

Conceptually what are the meaningful operations on this resource? 對于該對象來說,什麼操作概念上是合理的?

在确定下來了資源/對象以後,我們還需要定義哪些操作需要支援。這時,考慮的重點是“ 概念上合理(Conceptually reasonable)”。換句話說,operation + resource 連在一起聽起來自然而然合理(如果 Resource 本身命名也比較準确的話。當然這個“如果命名準确”是個 big if,非常不容易做到)。操作并不總是CRUD(create, read, update, delete)。

例如,一個 API 的操作對象是額度(Quota ),那麼下面的操作聽上去就比較自然:

  • Update quota(更新額度),transfer quota(原子化的轉移額度)

但是如果試圖 Create Quota,聽上去就不那麼自然,因額度這樣一個概念似乎表達了一個數量,概念上不需要建立。額外需要思考一下,這個對象是否真的需要建立?我們真正需要做的是什麼?

For update operations, prefer idempotency whenever feasible 更新操作,盡量保持幂等性

Idempotency 幂等性,指的是一種操作具備的性質,具有這種性質的操作可以被多次實施并且不會影響到初次實施的結果“the property of certain operations in mathematics and computer science whereby they can be applied multiple times without changing the result beyond the initial application.”【3】

很明顯 Idempotency 在系統設計中會帶來很多便利性,例如用戶端可以更安全地重試,進而讓複雜的流程實作更為簡單。但是 Idempotency 實作并不總是很容易。

  • Create 類型的 idempotency 建立的 Idempotency,多次調用容易出現重複建立,為實作幂等性,常見的做法是使用一個 client-side generated de-deduplication token(用戶端生成的唯一ID),在反複重試時使用同一個Unique ID,便于服務端識别重複。
  • Update類型的Idempotency,更新值(update)類型的API,應該避免采用"Delta"語義,以便于實作幂等性。對于更新類的操作,我們再簡化為兩類實作方式: Incremental(數量增減),如 IncrementBy (3)這樣的語義;SetNewTotal(設定新的總量)。

IncrementBy 這樣的語義重試的時候難以避免出錯,而 SetNewTotal(3)(總量設定為x)語義則比較容易具備幂等性。

當然在這個例子裡面,也需要看到,IncrementBy 也有優點,即多個客戶請求同時增加的時候,比較容易并行處理,而 SetTotal 可能導緻并行的更新互相覆寫(或者互相阻塞)。

這裡,可以認為 更新增量和_設定新的總量_這兩種語義是不同的優缺點,需要根據場景來解決。如果必須優先考慮并發更新的情景,可以使用_更新增量_的語義,并輔助以 Deduplication token 解決幂等性。

  • Delete 類型 idempotency : Delete 的幂等性問題,往往在于一個對象被删除後,再次試圖删除可能會由于資料無法被發現導緻出錯。這個行為一般來說也沒什麼問題,雖然嚴格意義上不幂等,但是也無副作用。如果需要實作Idempotency,系統也采用了 Archive->Purge 生命周期的方式分步删除,或者持久化 Purge log 的方式,都能支援幂等删除的實作。

Compatibility 相容

API的變更需要相容,相容,相容!重要的事情說三遍。這裡的相容指的是向後相容,而相容的定義是不會 Break 用戶端的使用,也即老的用戶端能否正常通路服務端的新版本(如果是同一個大版本下)不會有錯誤的行為。這一點對于遠端的API(HTTP/RPC)尤其重要。關于相容性,已經有很好的總結,例如【4】提供的一些建議。

常見的不相容變化包括(但不限于):

  • 删除一個方法、字段或者enum的數值
  • 方法、字段改名
  • 方法名稱字段不改,但是語義和行為的變化,也是不相容的。這類比較容易被忽視。 更具體描述可以參加【4】。

另一個關于相容性的重要問題是,如何做不相容的API變更?通常來說,不相容變更需要通過一個 Deprecation process,在大版本釋出時來分步驟實作。關于Deprecation process,這裡不展開描述,一般來說,需要保持過去版本的相容性的前提下,支援新老字段/方法/語義,并給用戶端足夠的更新時間。這樣的過程比較耗時,也正是因為如此,我們才需要如此重視API的設計。

有時,一個面向内部的 API 更新,往往開發的同學傾向于選擇高效率,采用一種叫”同步釋出“的模式來做不相容變更,即通知已知的所有的用戶端,自己的服務API要做一個不相容變更,大家一起釋出,同時更新,切換到新的接口。這樣的方法是非常不可取的,原因有幾個:

  • 我們經常并不知道所有使用 API 的客戶
  • 釋出過程需要時間,無法真正實作“同步更新”
  • 不考慮向後相容性的模式,一旦新的 API 有問題需要復原,則會非常麻煩,這樣的計劃八成也不會有復原方案,而且用戶端未必都能跟着復原。

是以,對于在生産叢集已經得到應用的API,強烈不建議采用“同步更新”的模式來處理不相容API變更。

Batch mutations 批量更新

批量更新如何設計是另一個常見的API設計決策。這裡我們常見有兩種模式:

  • 用戶端批量更新
  • 服務端實作批量更新。 如下圖所示。
深度 | API 設計最佳實踐的思考

API的設計者可能會希望實作一個服務端的批量更新能力,但是我們建議要盡量避免這樣做。除非對于客戶來說提供原子化+事務性的批量很有意義( all-or-nothing),否則實作服務端的批量更新有諸多的弊端,而用戶端批量更新則有優勢:

  • 服務端批量更新帶來了API語義和實作上的複雜度,例如當部分更新成功時的語義、狀态表達等。
  • 即使我們希望支援批量事物,也要考慮到是否不同的後端實作都能支援事務性。
  • 批量更新往往給服務端性能帶來很大挑戰,也容易被用戶端濫用接口。
  • 在用戶端實作批量,可以更好的将負載由不同的服務端來承擔(見圖)。
  • 用戶端批量可以更靈活的由用戶端決定失敗重試政策。

Be aware of the risks in full replace 警惕全體替換更新模式的風險

所謂 Full replacement 更新,是指在 Mutation API 中,用一個全新的Object/Resource 去替換老的 Object/Resource 的模式。

API寫出來大概是這樣的:

UpdateFoo(Foo newFoo);           

這是非常常見的 Mutation 設計模式。但是這樣的模式有一些潛在的風險作為 API 設計者必須了解。

使用 Full replacement 的時候,更新對象 Foo 在服務端可能已經有了新的成員,而用戶端尚未更新并不知道該新成員。服務端增加一個新的成員一般來說是相容的變更,但是,如果該成員之前被另一個知道這個成員的client設定了值,而這時一個不知道這個成員的 client 來做 full-replace,該成員可能就會被覆寫。

更安全的更新方式是采用 Update mask,也即在 API 設計中引入明确的參數指明哪些成員應該被更新。

UpdateFoo {
  Foo newFoo; 
  boolen update_field1; // update mask
  boolen update_field2; // update mask
}           

或者 update mask 可以用 repeated "a.b.c.d“這樣方式來表達。

不過由于這樣的 API 方式維護和代碼實作都複雜一些,采用這樣模式的 API 并不多。是以,本節的标題是 “be aware of the risk“,而不是要求一定要用 update mask。

Don't create your own error codes or error mechanism 不要試圖建立自己的錯誤碼和傳回錯誤機制

API 的設計者有時很想建立自己的 Error code,或者是表達傳回錯誤的不同機制,因為每個 API 都有很多的細節的資訊,設計者想表達出來并傳回給使用者,想着“使用者可能會用到”。但是事實上,這麼做經常隻會使API變得更複雜更難用。

Error-handling 是使用者使用 API 非常重要的部分。為了讓使用者更容易的使用 API,最佳的實踐應該是用标準、統一的 Error Code,而不是每個 API 自己去創立一套。例如 HTTP 有規範的 error code 【7】,Google Could API 設計時都采用統一的Error code 等【5】。

為什麼不建議自己建立 Error code 機制?

  • Error-handling 是用戶端的事,而對于用戶端來說,是很難關注到那麼多錯誤的細節的,一般來說最多分兩三種情況處理。往往用戶端最關心的是"這個error 是否應該重試( retryable )"還是應該繼續向上層傳回錯誤,而不是試圖區分不同的 error 細節。這時多樣的錯誤代碼機制隻會讓處理變得複雜。
  • 有人覺得提供更多的自定義的 error code 有助于傳遞資訊,但是這些資訊除非有系統分别處理才有意義。如果隻是傳遞資訊的話,error message 裡面的字段可以達到同樣的效果。

More

更多的Design patterns,可以參考[5] Google Cloud API guide,[6] Microsoft API design best practices等。不少這裡提到的問題也在這些參考的文檔裡面有涉及,另外他們還讨論到了像versioning,pagination,filter等常見的設計規範方面考慮。這裡不再重複。

原文釋出時間為:2019-05-09

本文作者: 谷樸

本文來自雲栖社群合作夥伴“

阿裡技術

”,了解相關資訊可以關注“

”。