論文題目:Generalised Wasserstein Dice Score for Imbalanced Multi-class Segmentation using Holistic Convolutional Networks
前言
這篇論文讀了2-3天才讀完,真的感覺有點難,特别是涉及到公式一類的,又查了各種關于Wasserstein距離的資料,勉強能看得懂,但是這篇文章确實值得一讀,因為跟随他的線索,你可能會感覺到,又發現了新大陸,你不曾知道的大陸——兩個分布之間的度量。到底有多少種度量方法?哪種方法最優?最适合解決目前的問題?這些都是需要去了解的,關于這些,我會寫在最後的補充裡。
關于這篇文章,作者是這樣說的:雖然使用mean class Dice score訓練的CNNs在多類分割中獲得了最先進的結果,但這種損失函數既沒有利用類間關系,也沒有利用多尺度資訊。是以說,本文利用Wasserstein 距離的側重點是為了聯系多類分割中類間的關系,利用這種類間的關系優化分割結果,使得表現優于單純的,沒有利用過類間關系的,mean class Dice score.
本文核心内容提出了一種在機率标簽空間中基于Wasserstein距離的針對于多類分割的Dice分數的語義知識推廣。
提出了一種用深度監督的方法在多尺度下嵌入空間資訊的Holistic CNN
展示了Holistic CNNs和泛化的Wasserstein Dice分數的聯合使用,實作了對腦瘤分割更具語義意義的分割。
Why——為什麼要引入Wasserstein距離
許多分割任務都存在一種類不平衡的問題,兩個可實作的方法去解決這個問題:1)用合理的抽樣政策去抽取patch;2)在目标函數中,使用像素權重來平衡每個類的配置設定(也即在Loss上做平衡)。
作者說:理想情況下,輸入應該是整個圖像,以支援GPU和全卷積的效率。是以針對于平衡問題,在Loss上做文章尤為重要而且more promising。
而Dice Loss的提出就是非常好的例子,對類不平衡問題more robust.However!注意了!這一個However,問題就來了:至少有兩個可用資訊沒有在這個公式中充分的被利用!
(1)标簽空間的結構
(2)跨尺度的空間資訊
是以,本文引入了Wasserstein距離:我們利用Wasserstein距離,它可以自然地嵌入類之間的語義關系,用于比較标簽機率向量,以推廣多類分割的Dice得分。
純(crisp)二值分割的Dice分數
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... Dice 分數計算(不用解釋)
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... The number of All Errors
軟(soft)二值分割的Dice分數
機率的分割可以表示為标簽機率圖:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 和
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 是每個體素
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 在标簽空間
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 的類别,
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 是标簽機率向量的集合.
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 表示:在S中所有類别等于1的像素的機率的集合
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 表示:在G中所有類别等于1的像素的機率的集合
是以:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 其中,
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... ,也就是說,
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 隻能取0或1,很明顯,這是和通常的情況是相符的,因為g是groundtruth,但是要注意,
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 就可以取小數形式的機率值了,因為p是預測出來的機率圖。
以前在多類Dice分數方面的工作
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 多類Dice,很明顯——多類求和之後平均
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 其中
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 是為了權重的權重
标簽機率向量之間的Wasserstein距離
Wasserstein距離(也叫做 Earth Mover's Distance),代表對于所有的标簽
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... ,将一個機率向量p轉換為另一個向量q的最小消耗,從
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 到
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 移動一個機關的代價定義為
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 到
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 之間的距離
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... ,這是一種将
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 上的距離矩陣
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... (經常叫做 ground distance matrix)映射到
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 上的距離的方法,該距離利用關于L的先前知識。在有限集L的情況下,對于p,q∈P(L),從M導出的p和q之間的Wasserstein距離可以定義為線性規劃問題的解:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 其中
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 是具有邊際分布p和q的(p,q)的聯合機率分布。 最小化(6)的值T被稱為距離矩陣M的p和q之間的最佳傳輸。
軟多類Wasserstein Dice 分數
(6)式中的Wasserstein距離
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 産生了一種自然的方式,通過在L上提供距離矩陣M,以語義上有意義的方式比較兩個标簽機率向量。是以,我們建議使用它來推廣一對标簽機率向量之間的不一緻度量。 并提供以下概括:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 其中
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 是
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 的簡寫,并且選擇M使得背景類b總是離其他類最遠。 為了推廣
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... ,我們建議類似于(5)權重類的貢獻:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 我們選擇
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 來確定背景體素對ΘTP沒有貢獻。 然後,相對于M的Wasserstein Dice得分可以定義為:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 在二進制情況下,設定
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 導緻
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... ,Wasserstein Dice 分數退化成軟二值Dice分數。
Wasserstein Dice loss with crisp ground truth
在一個 crisp ground-truth
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 和任何預測
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 的情況下,(6)存在一個封閉形式的解。最優運輸是
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 并且Wasserstein距離變為:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 我們将從M求得的Wasserstein Dice損失定義為
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... ,我深深的感覺這一步蠻重要的,就是根據這一篇論文求得有快速求解的方法,才得到上面那一步的。
用于多尺度融合的Holistic卷積神經網絡
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... HCNN
作者的這個網絡結構是借鑒的一個經典的網絡結構設計的,原始網絡是進行邊緣檢測的,通俗的解釋:一條網絡,出來多個不同尺寸的輸出,然後上采樣到相同尺寸都與groundtruth求Loss,然後将不同輸出融合之後再求一個總的Loss, 這樣在中間層求Loss的方法是有效果的,因為這個可以“一路監督,通暢無阻”
作者說,本文中為了增加感受野且避免連續尺寸預測的備援,用了max pooling和dilated convolutions(擴張因子是2),另外,特征通道數都是70。
深監督的多尺度融合
最後融合層的輸出:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 融合層的輸出
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 是為中間輸出層加的權重,
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 是中間層的輸出。
總的Loss:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 網絡總的Loss
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 和
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 都是設定的權重,且都為
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 實作細節
在BraTS'15的資料上評估提出的HCNN和Wasserstein Dice loss的聯合網絡,資料集和前幾個是一樣的,每個object都有4個模式(也就是輸入的時候直接有4個通道),有5個類别标簽:
(0) background, (1) necrotic core, (2) edema, (3) non-enhancing core and (4) enhancing tumour.
用Dice系數去評估的時候隻用3個區域:
whole tumour (labels 1,2,3,4), the core tumour (labels 1,3,4) and the enhanced tumour (label 4)
設定細節:
Adam優化器,Lr=0.01,concat多個模式作為輸入,以最大化patch中的類别數的政策來抽取patch.
結果
BraTS标簽空間中距離度量的例子:
兩種
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 的取值:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... M0-1與沒有類間關系的L上的離散距離相關聯,也就是說M0-1表示的距離矩陣是這5種類之間沒有互相關系的矩陣,比如從标簽0到4按順序排開,标簽0與标簽0的距離明顯是0,标簽0與标簽1的距離明顯是1,标簽0與标簽2的距離也明顯是1,也就是标簽之間互相獨立,是以就形成了M0-1矩陣的樣子,再看你Mtree,Mtree是根據下圖的标簽之間的層級關系來的,而且為每個标簽之間都定義了距離權重,是以得到的是Mtree距離矩陣(除了背景類0與其他标簽是獨立的,都設定為1)
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 标簽層級關系
評測結果:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 其實這個圖看上去不好了解,我先說一下,這個Mean Dice是用普通的Dice 作為Loss的,第二行是距離矩陣
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 為離散值的時候的Wasserstein Dice loss,第三個是根據标簽層級關系确定的Mtree所形成的Loss,而第四行是用Dice Loss先訓練4個epoch後再在Mtree上訓練的結果,很明顯第4個那種情況好。
Wasserstein dice 的損失對類混淆矩陣的影響:
作者通過下面這個公式來評判三種Loss在分割任務中,各類别的混淆矩陣
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 三種Loss各類别的混淆矩陣
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 直覺比較
可以看出還是LDMtree-PT比較好
深度監督評價:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 深監督評估
表3中的結果是在預訓練HCNN之後獲得的,其中在4個epoch期間具用平均Dice Loss,然後在另外85個epoch期間用LDMtree來訓練它。尺寸2至4以及融合尺寸達到了相似的Dice評分,而尺寸1獲得較低的Dice評分。如圖4所示,這是因為尺寸1的感受野比較小的原因。增強惡性良性腫瘤的最佳結果是通過尺寸2和融合實作的,這是預期的,因為這是感興趣的最小區域并且保持全分辨率直到尺寸2.此外,如圖4所示,尺寸3和尺寸4由于它們的分辨率比1和2低,是以在分割惡性良性腫瘤的最小區域時失敗。然而,1到3的尺度包含與尺度4和融合尺寸相反的分割區域。這表明高感受野和高分辨率之間的權衡是特定階級的。它證明了多尺度整體方法對于多類腦惡性良性腫瘤分割任務的有用性。
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 總結
随着GPU的存儲器容量增加,整個多模态體積可以用作基于CNN的分割的輸入。 但是,它也會增加用作輸入的patch中的類不平衡。 我們希望這會增加我們的貢獻。 未來的工作包括通過在整個輸出空間X L上定義矩陣距離來擴充Wasserstein距離的使用,類似于[6]。 這将允許直接在空間中嵌入空間資訊,但在這種情況下,Wasserstein距離的計算負擔仍然是一個挑戰.
這他媽的太長了吧,總體來說是大概了解了,針對于類标簽的層級關系進行的一個改進的Dice,使得利用層級關系的Dice比原始Dice更效果,但是,其實這個不是重點,重點的是Wasserstein的這種度量方式,他可以實作不同分布的p和q之間的距離度量,根據分布差異反映出一個可導的距離,這個是最厲害的,要知道KL散度是不對稱的,不好,JS散度在0處會有突變,這個也不好,Wasserstein所形成的度量竟然是連續的且可導的,這個真的是不可思議,就算是遠在天邊,或者是近在眼前的兩個分布,也能給你度量出來,在這裡你想到了什麼?我已經想到了!
參考
Wasserstein距離的優越性質
Wasserstein距離又叫Earth-Mover(EM)距離,定義如下:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... (公式12)
解釋如下:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 是
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 和
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 組合起來的所有可能的聯合分布的集合,反過來說,
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 中每一個分布的邊緣分布都是
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 和
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 。對于每一個可能的聯合分布
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 而言,可以從中采樣
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 得到一個真實樣本
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 和一個生成樣本
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... ,并算出這對樣本的距離
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... ,是以可以計算該聯合分布
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 下樣本對距離的期望值
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 。在所有可能的聯合分布中能夠對這個期望值取到的下界
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... ,就定義為Wasserstein距離。
直覺上可以把
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 了解為在
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 這個“路徑規劃”下把
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 這堆“沙土”挪到
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... “位置”所需的“消耗”,而
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 就是“最優路徑規劃”下的“最小消耗”,是以才叫Earth-Mover(推土機)距離。
Wasserstein距離相比KL散度、JS散度的優越性在于,即便兩個分布沒有重疊,Wasserstein距離仍然能夠反映它們的遠近。WGAN本作通過簡單的例子展示了這一點。考慮如下二維空間中的兩個分布
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 和
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... ,
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 線上段AB上均勻分布,
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 線上段CD上均勻分布,通過控制參數
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 可以控制着兩個分布的距離遠近。
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 此時容易得到(讀者可自行驗證)
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... (突變)
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... (突變)
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... (平滑)
KL散度和JS散度是突變的,要麼最大要麼最小,Wasserstein距離卻是平滑的,如果我們要用梯度下降法優化
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 這個參數,前兩者根本提供不了梯度,Wasserstein距離卻可以。類似地,在高維空間中如果兩個分布不重疊或者重疊部分可忽略,則KL和JS既反映不了遠近,也提供不了梯度,但是Wasserstein卻可以提供有意義的梯度。
相對熵(relative entropy)
又稱為KL散度(Kullback–Leibler divergence,簡稱KLD),資訊散度(information divergence),資訊增益(information gain)。
相對熵是交叉熵與資訊熵的內插補點。即
相對熵=交叉熵-資訊熵
KL(p||q)=H(p,q)-H(p)
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 表示用分布q模拟真實分布p相比用p模拟p,所需的額外資訊。
相對熵(KL散度)有兩個主要的性質。如下
(1)盡管 KL 散度從直覺上是個度量或距離函數,但它并不是一個真正的度量或者距離,因為它不具有對稱性,即
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... (2)相對熵具有非負性
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 總結一下:
資訊熵公式:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 交叉熵公式:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 相對熵公式:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 三者的關系:
dice系數 交叉熵_基于Holistic卷積網絡的不平衡多類分割的廣義Wasserstein Dice 系數... 參考文獻