數字圖像處理學習筆記:第一、二章
- 第一章:緒論部分
-
- 數字圖像處理及其起源
- 數字圖像領域應用執行個體
- 數字圖像處理基本步驟
- 圖像處理系統的組成
- 第二章:數字圖像基礎
-
- 視覺感覺要素
- 光和電磁波譜
- 圖像感覺和擷取
- 圖像取樣和量化
- 像素間的一些基本關系
- 數字圖像進行中常用的數學工具
第一章:緒論部分
數字圖像處理及其起源
- 兩個主要應用領域:改善圖示資訊以便人們了解;為存儲、傳輸和表示而對圖像資料進行處理,以便于機器自動了解。
- 一幅圖像可以定義為一個二維函數f(x, y),其中幅值f稱為圖像的強度或灰階;當x、y和灰階值f是有限的離散數值時,該圖像可以稱之為數字圖像;
- 數字圖像是由有限數量的元素組成的,每個元素都有一個特定的位置和幅值,我們稱這些元素為圖畫元素、圖像元素或像素(像素是表示數字圖像元素的術語);
- 三種典型計算處理:
- 低級處理:降低噪聲的圖像預處理、對比度增強和圖像尖銳化;
- 中級處理:目标分隔、識别、減少目标物的描述;
- 進階處理:“了解”已識别目标的總體(認知功能)。
- 數字圖像處理起源:
- 早期:報紙業,涉及列印過程的選擇和亮度等級的分布;
- 與計算機發展密切相關,有兩大基本需求——大容量存儲和顯示系統領域
數字圖像領域應用執行個體
- 伽馬射線成像(核醫學和天文觀測)
- X射線成像(醫學診斷、工業和天文學)
- 紫外波段成像(平闆印刷術、工業檢測、熒光顯微鏡方法、生物成像等)
- 可見光及紅外波段成像(土壤、生物、水體、礦物)
- 微波波段成像(雷達)
- 無線電波段成像(核磁共振)
- 其他成像例子(超音波等)
數字圖像處理基本步驟
- 兩類問題:
- 輸入和輸出都是圖像:
- 圖像擷取:圖像預處理;
- 圖像濾波和增強:對圖像進行某種操作,使其結果在特定應用中比原始圖像更适合進行處理;
- 圖像複原:改進圖像外觀,傾向于以圖像退化的數學或機率模型為基礎;
- 彩色圖像處理:彩色模型和數字域的彩色處理;
- 小波和多分辨率處理:以不同分辨率描述圖像;
- 壓縮:減少圖像存儲量或降低傳輸圖像帶寬的處理;
- 形态學處理:涉及提取圖像分量的工具,這些分量用于表示和描述形狀。
- 輸入可能是圖像但是輸出是從這些圖像中提取的屬性:
- 形态學處理:同上;
- 分割:把一幅圖像劃分成它的組成部分或目标;
- 表示和描述:通常在分割階段輸出(未加工的像素資料)後,确定資料是應該表示為一條邊界還是應表示為整個區域,描述又稱特征選擇,設計提取特征(例如角點和拐點等外部形狀特征使用邊界是合适的,紋理或骨架形狀等内部特征使用區域時合适的);
- 目辨別别 :基于目标的描述給該目标賦予标志的過程。
圖像處理系統的組成
-
典型通用系統的組成:
圖像顯示器、計算機、大容量存儲、硬拷貝、專用圖像處理硬體、圖像處理軟體、圖像傳感器
第二章:數字圖像基礎
視覺感覺要素
- 人眼結構:球體,主要包含三層薄膜:角膜與鞏膜外殼、脈絡膜和視網膜,此外還有晶狀體、玻璃體。視網膜表面有兩類光感受器:錐狀體和杆狀體。錐狀體對顔色高度敏感,其視覺稱為白晝視覺或亮視覺;杆狀體分布面積較大且幾個杆狀體就連接配接到一個神經末梢,其沒有彩色感覺,而對低照明度敏感。
- 亮度适應與辨識:數字圖像使用離散的灰階集來顯示,需要考慮眼睛對不同亮度的辨識能力。
- 主觀亮度(人的視覺感覺的亮度)是進入人眼光強的對數函數(實驗資料表明)。
- 亮度适應現象:眼睛辨識不同強度級别的總範圍與整個适應範圍相比很小,是通過改變整個靈敏度來完成這一較大的變動。
- △Ic/I稱為韋伯比,I是光強,△Ic是背景照明為I時可辨識照明增量的50%。韋伯比的值小表示可辨識強度較小的百分比變化,這時亮度辨識能力“較好”,否則較差。
- 在低照明情況,亮度辨識較差,其随着背景照明的增加而明顯改善。即在低照明情況下,視覺由杆狀體執行;在高照明情況下,視覺由錐狀體執行。
- 感覺亮度與強度并不是簡單的函數,會出現馬赫帶、同時對比和錯覺等現象。
光和電磁波譜
- 波長和頻率關系:
λ = c/ν
- 電磁波譜各個分量的能量:
E = hν(h為普朗克常數)
- 光是一種reshuffle的電磁輻射,而沒有顔色的光稱為單色光或無色光,,單色光的唯一屬性是它的強度或大小,而灰階級用來表示單色光的強度,因而單色圖像常稱為灰階圖像
- 三個基本量描述彩色光源的品質:發光強度(光源流出能量的總量)、光通量和亮度(描述彩色感覺的參數之一)。
圖像感覺和擷取
- 三種擷取圖像的傳感器:單個傳感器(光二極管等)、條帶傳感器和陣列傳感器
- 簡單的圖像形成模型:當一幅圖像産生時,其亮度值正比于實體源所輻射的能量,則圖像的幅度f滿足:
0 < f(x,y) < ∞
- 函數f(x, y)可以用兩個分量來表征:
- 入射到被觀察場景的光源照射總量(入射分量,i(x, y));
- 場景中物體所反射的光照總量(反射分量,r(x, y))。
- 此時f(x, y)可以表示為:
,其中f(x,y) = i(x,y)r(x,y)
,0 < i(x,y) < ∞
,表示反射分量限制在0(全吸收)和1(全反射)之間。i(x, y)的性質取決于照射源,r(x, y)的性質取決于成像物體的特性0 < r(x,y) < 1
- 區間[Lmin, Lmax]稱作灰階級(或強度級),所有中間值是從黑色到白色之間變化的灰階色調。
圖像取樣和量化
- 把連續的感覺資料轉化為數字形式,這種轉換包括取樣和量化
- 對坐标值數字化稱為取樣,對幅值數字化稱為量化
- 數字圖像表示:由一幅圖像的坐标張成的實平面部分稱為空間域,x和y稱為空間變量或空間坐标,表示方法主要有三種:
- f(x, y, z),其中z坐标用來表示以兩個空間變量x和y為函數的f(灰階)值;
- 更一般的表示,即在照片上的情況,每一點的灰階值與該點的f值成正比;
- f(x, y)的值簡單的顯示為一個矩陣
- 數字化過程對灰階級數通常去2的整數次幂,即 L = 2 k L = 2^k L=2k假設離散灰階級是等間隔的,且它們是區間[0, L-1]内的整數,通常稱其為動态範圍。其上限取決于飽和度,下限取決于噪聲。
- 一幅圖像最高和最低灰階級間的灰階差稱為對比度
- 存儲數字圖像所需的比特數b為: b = M × N × k b = M\times N\times k b=M×N×k,是以,通常稱一幅圖像為k比特圖像
- 空間分辨率是圖像中可辨識的最小細節的度量,最常用的度量是每機關距離線對數和每機關距離點數(像素數)
- 灰階分辨率是指在灰階級中可分辨的最小變化
- 等偏愛曲線表明:當圖像中的細節增加時,等偏愛曲線會變得更垂直,即表明隻需要使用較少的灰階級即可。
- 圖像内插通常用于圖像收縮、放大、旋轉和幾何校正(其是基本的圖像重取樣方法):用已知資料來估計未知位置的數值的處理。
- 最近鄰内插:把原圖像中最近鄰的灰階賦給了每個新位置(缺陷:直邊緣的嚴重失真)
-
雙線性内插:用4個最近鄰去估計給定位置的灰階,使用以下公式指派
v ( x , y ) = a x + b y + c x y + d v(x,y)=ax+by+cxy+d v(x,y)=ax+by+cxy+d其中,4個系數a, b, c, d可以用(x, y)點的最近鄰點寫出方程求解,但是計算量會增加。(其本身不是線性内插方法,因為式子中包含xy項)
- 雙三次内插:包含16個最近鄰點,公式為 v ( x , y ) = ∑ i = 0 3 ∑ j = 0 3 a i j x i y j v(x,y) = \sum_{i=0}^3 \sum_{j=0}^3 a_{ij}x^iy^j v(x,y)=i=0∑3j=0∑3aijxiyj其中16個系數a可以用16個用(x, y)點最近鄰點寫出的未知方程确定。通常雙三次内插比雙線性内插在保持細節方面較好(通常是商業圖像編輯程式的标準内插方法)
像素間的一些基本關系
- 相鄰像素:位于坐标(x, y)處的像素p有4個水準和垂直的相鄰像素,其坐标由下式給出:
,這組像素稱為q的4鄰域,用N4(q)表示,若是加入4個對角相鄰像素的坐标,則會一起稱為q的8鄰域,即N8(q)。需要注意的是:如果(x, y)位于圖像的邊界上,則ND(q)的某些鄰點會落入圖像的外邊(x+1, y), (x-1, y), (x, y+1), (x, y-1)
- 鄰接性:零V是用于定義鄰接性的灰階值集合,則在二值圖像中,如果把具有1值的像素歸主與鄰接像素,則
;V = {1}
- m鄰接(消除了8鄰接導緻的二義性,也稱作混合鄰接):如果q在N4( p)中或q在ND§中,且集合N4( p)∩N4(q)中沒有來自V中數值的元素,則具有V中數值的兩個像素p和q是m鄰接的。
- 連通性:從像素p到像素q的通路是特定序列,且序列中涼涼像素鄰接,這種情況下n是通路的長度,若(x0, y0) = (xn, yn),則通路是閉合通路。
- 令S是圖像的一個像素子集,如果S的全部像素之間存在一個通路,則可以說兩個像素p和q在S中是連通的。
- 對于S中的任何像素p,S中連通到該像素的像素集稱為S的連通分量。
- 如果S隻有一個連通分量,則集合S稱為連通集
- 區域:令R是圖像中的一個像素子集,如果R是連通集,則稱R為一個區域。兩個區域,如果它們聯合形成一個連通集,則區域Ri和Rj稱為鄰接區域。不鄰接的區域稱為不連接配接區域(注意:需要提前指定鄰接類型)
- 假設一幅圖像包含有K個不連接配接的區域,即Rk,k=1,2,…,K,且它們都不接觸圖像的邊界。令Ru代表這K個區域的并集,則令(Ru)c代表其補集。我們稱Ru中的所有點為圖像中的前景,而稱(Ru)c中的所有點為圖像的背景
- 邊界:一個區域的邊界(内邊界)是該區域中至少有一個背景鄰點的像素集合(注意:一個區域及其背景中的點之間的鄰接要根據特定的m連通來定義)
- 距離度量:對于坐标分别為(x, y), (s, t)和(v, w)的像素p、q、z,如果:
(1) D(p, q) ≥ 0 [D(p, q) = 0,當且僅當p = q]
(2) D(p, q) = D(q, p)
(3) D(p, z) ≤ D(p, q) + D(q, z)
則D是距離函數或度量。
- 常見的距離函數:
-
歐氏距離函數 D e ( p , q ) = ( x − s ) 2 + ( y − t ) 2 D_e(p, q) = \sqrt{(x - s)^2 + (y - t)^2} De(p,q)=(x−s)2+(y−t)2
對應圓平面
- 城市街區距離函數 D 4 ( p , q ) = ∣ x − s ∣ + ∣ y − t ∣ D_4(p,q) = |x-s|+|y-t| D4(p,q)=∣x−s∣+∣y−t∣對應菱形
- 棋盤距離 D 8 ( p , q ) = m a x ( ∣ x − s ∣ , ∣ y − t ∣ ) D_8(p,q)=max(|x-s|, |y-t|) D8(p,q)=max(∣x−s∣,∣y−t∣)對應正方形
- m通路距離:滿足m鄰接定義的通路長度
-
數字圖像進行中常用的數學工具
- 陣列與矩陣操作
- 陣列相乘:對應元素相乘
- 矩陣相乘:遵循矩陣乘法
- 線性操作與非線性操作
- 加性:兩個輸入的和的操作結果等于分别對另兩個輸入進行操作再求和的結果
- 同質性:輸入乘以常數的線性操作的輸出等于乘以該常數的原始輸入的操作的輸出
- 求和算子是線性的,而通常求最大值的操作是非線性的
- 算術操作:陣列操作
- 針對降噪的帶噪圖像相加(平均,多幅圖像相加趨近原本圖像)
- 增強差别的圖像相減(求差顯示兩幅圖像的差别)
- 使用圖像相乘和相除來校正陰影
- 使用圖像相乘來進行模闆操作(ROI操作)
- 兩幅8比特圖像的算術運算根據以下公式,防止負值和超過255的值出現 f m = f − m i n ( f ) f_m=f - min(f) fm=f−min(f) f s = K [ f m / m a x ( f m ) ] f_s=K[f_m/max(f_m)] fs=K[fm/max(fm)]其中對于8比特圖像來說 K=255
- 集合和邏輯操作
- 圖像灰階的集合操作:
- 補集:常數與圖像中每個像素的灰階間的兩兩之差,常數等于2k-1,k為表示灰階的比特數
- 差集:補集中 K = 255
- 并集:空間相應元素對的最大灰階值形成的陣列
- 交集:空間相應元素對的最小灰階值形成的陣列
- AND、OR、NOT三個邏輯算子是功能完備的
- 模糊集合:使用隸屬度函數
- 圖像灰階的集合操作:
- 空間操作
- 單像素操作
- 鄰域操作
- 幾何空間變換
- 改進圖像中像素間的空間關系,這些變換稱為橡皮膜變換,其包含兩個基本操作:坐标的空間變化、灰階内插(對空間變換後的像素賦灰階值)
-
最常用的空間變換:放射變換
[ x y 1 ] = [ v w 1 ] T = [ v w 1 ] [ t 11 t 12 0 t 21 t 22 0 t 31 t 32 1 ] \begin{bmatrix} x & y & 1 \end{bmatrix} = \begin{bmatrix} v & w & 1 \end{bmatrix} \textbf T = \begin{bmatrix} v & w & 1 \end{bmatrix} \begin{bmatrix} t_{11} & t_{12} & 0 \\ t_{21} & t_{22} & 0 \\ t_{31} & t_{32} & 1 \end{bmatrix} [xy1]=[vw1]T=[vw1]⎣⎡t11t21t31t12t22t32001⎦⎤
- 放射變換矩陣如下:
- 使用上式的兩種基本方法:前向映射(根據輸入圖像的位置直接計算輸出圖像相應像素的空間位置,可能會導緻多對一或者某些位置沒有像素值)和反向映射(使用(v, w) =T-1(x, y),根據輸出圖像位置找到輸入圖像位置進行計算,然後使用灰階内插法)
- 圖像配準:對齊兩幅或多幅相同場景的圖像,目标為估計變換函數,解決方法之一是使用限制點(控制點)
- 向量和矩陣操作
-
一個像素向量z和一個任意點a在n維空間的歐氏距離D可以用一個向量積定義 D ( z , a ) = ( z − a ) T ( z − a ) D(\textbf z, \textbf a) = \sqrt{(\textbf z- \textbf a)^T(\textbf z- \textbf a)} D(z,a)=(z−a)T(z−a)
- 線性變換:使用向量乘積方式計算
-
- 圖像變換
- 直接工作在空間域
- 變換輸入圖像,使用預定義的操作修改該變換,再計算修改後的反變換作用得到輸出圖像,即該過程是從空間域到變換域,再傳回到空間域
- 變換核可分:滿足 r ( x , y , u , v ) = r 1 ( x , u ) r 2 ( y , v ) r(x, y, u, v) = r_1(x, u)r_2(y,v) r(x,y,u,v)=r1(x,u)r2(y,v)
- 變換核對稱:滿足 r 1 ( x , y ) = r 2 ( x , y ) r_1(x, y) = r_2(x, y) r1(x,y)=r2(x,y)
- 機率方法:以随機量處理灰階值
- 令zi,i = 0, 1, 2, …, L - 1表示一幅M×N大小數字圖像的所有可能灰階值,則在給定圖像中灰階級zk出現的機率p(zk)可估計為 p ( z k ) = n k M N p(z_k)= \frac{n_k}{MN} p(zk)=MNnk
- 灰階的方差是z值關于均值展開度的度量,是以它是圖像對比度的有用度量。同時,z的n階矩也包含了一些灰階和均值的關系以及灰階值分布等資訊。