凸集

定义

如果 x , y ∈ C ⊆ R n \mathbf{x},\mathbf{y}\in C \subseteq \mathbb{R}^n x,y∈C⊆Rn,并且 λ ∈ [ 0 , 1 ] \lambda \in \left[0,1\right] λ∈[0,1], λ x + ( 1 − λ ) y ∈ C \lambda \mathbf{x} +(1-\lambda)\mathbf{y}\in C λx+(1−λ)y∈C,那么集合 C C C称为凸集

保凸运算

交集

设 ∀ i ∈ I , C i ⊆ R n \forall i \in I,C_{i}\subseteq \mathbb{R}^n ∀i∈I,Ci⊆Rn是凸集，那么 ∩ i ∈ I C i \cap_{i\in I} C_i ∩i∈ICi也是凸集

证明：

不妨设 x , y ∈ ∩ i ∈ I C i \mathbf{x},\mathbf{y}\in \cap_{i\in I} C_i x,y∈∩i∈ICi,并且 λ ∈ [ 0 , 1 ] \lambda \in \left[0,1\right] λ∈[0,1]

因为 C i C_i Ci是凸集

所以 ∀ i ∈ I , λ x + ( 1 − λ ) y ∈ C i \forall i \in I,\lambda \mathbf{x} +(1-\lambda)\mathbf{y}\in C_i ∀i∈I,λx+(1−λ)y∈Ci

所以 λ x + ( 1 − λ ) y ∈ ∩ i ∈ I C i \lambda \mathbf{x} +(1-\lambda)\mathbf{y}\in \cap_{i\in I} C_i λx+(1−λ)y∈∩i∈ICi

线性组合

设 C 1 , C 2 , ⋯ , C k ⊆ R n C_1,C_2,\cdots,C_k\subseteq \mathbb{R}^n C1,C2,⋯,Ck⊆Rn是凸集，

设 μ 1 , μ 1 , ⋯ , μ k ∈ R \mu_1,\mu_1,\cdots,\mu_k\in\mathbb{R} μ1,μ1,⋯,μk∈R

则

μ 1 C 1 + μ 2 C 2 + ⋯ + μ k C k = { ∑ i = 1 k μ i x i , i = 1 , 2 , ⋯ , k } \mu_1C_1+\mu_2C_2+\cdots+\mu_kC_k=\left\{\sum_{i=1}^{k}\mu_i\mathbf{x}_i,i=1,2,\cdots,k\right\} μ1C1+μ2C2+⋯+μkCk={i=1∑kμixi,i=1,2,⋯,k}

是凸集

证明：

利用数学归纳法

n = 1 n=1 n=1显然成立

n = 2 n=2 n=2时

设 a , b ∈ C 1 \mathbf{a},\mathbf{b}\in C_1 a,b∈C1

c , d ∈ C 2 \mathbf{c},\mathbf{d}\in C_2 c,d∈C2

μ 1 a + μ 2 c ∈ μ 1 C 1 + μ 2 C 2 \mu_1\mathbf{a}+\mu_2\mathbf{c}\in \mu_1C_1+\mu_2C_2 μ1a+μ2c∈μ1C1+μ2C2

μ 1 b + μ 2 d ∈ μ 1 C 1 + μ 2 C 2 \mu_1\mathbf{b}+\mu_2\mathbf{d}\in \mu_1C_1+\mu_2C_2 μ1b+μ2d∈μ1C1+μ2C2

设 λ ∈ [ 0 , 1 ] \lambda \in \left[0,1\right] λ∈[0,1]

则

λ ( μ 1 a + μ 2 c ) + ( 1 − λ ) ( μ 1 b + μ 2 d ) = λ μ 1 a + ( 1 − λ ) μ 1 b + λ μ 2 c + ( 1 − λ ) μ 2 d \begin{aligned} &\quad \lambda(\mu_1\mathbf{a}+\mu_2\mathbf{c})+(1-\lambda)(\mu_1\mathbf{b}+\mu_2\mathbf{d})\\ &=\lambda\mu_1\mathbf{a}+(1-\lambda)\mu_1\mathbf{b}+ \lambda\mu_2\mathbf{c}+(1-\lambda)\mu_2\mathbf{d} \end{aligned} λ(μ1a+μ2c)+(1−λ)(μ1b+μ2d)=λμ1a+(1−λ)μ1b+λμ2c+(1−λ)μ2d

因为 λ μ 1 a + ( 1 − λ ) μ 1 b ∈ μ 1 C 1 \lambda\mu_1\mathbf{a}+(1-\lambda)\mu_1\mathbf{b} \in \mu_1 C_1 λμ1a+(1−λ)μ1b∈μ1C1

λ μ 2 c + ( 1 − λ ) μ 2 d ∈ μ 2 C 2 \lambda\mu_2\mathbf{c}+(1-\lambda)\mu_2\mathbf{d}\in \mu_2 C_2 λμ2c+(1−λ)μ2d∈μ2C2

所以 λ ( μ 1 a + μ 2 c ) + ( 1 − λ ) ( μ 1 b + μ 2 d ) ∈ μ 1 C 1 + μ 2 C 2 \lambda(\mu_1\mathbf{a}+\mu_2\mathbf{c})+(1-\lambda)(\mu_1\mathbf{b}+\mu_2\mathbf{d})\in \mu_1C_1+\mu_2C_2 λ(μ1a+μ2c)+(1−λ)(μ1b+μ2d)∈μ1C1+μ2C2

所以是凸集

假设 n = k n=k n=k时成立

n = k + 1 n=k+1 n=k+1时，证明类似，

所以结论成立

笛卡尔积

设 ∀ i = 1 , 2 , ⋯ , m , C i ⊆ R k i \forall i=1,2,\cdots,m,C_i \subseteq \mathbb{R}^{k_i} ∀i=1,2,⋯,m,Ci⊆Rki是凸集

那么笛卡尔积

C 1 × C 2 × ⋯ × C m = { ( x 1 , x 2 , ⋯ , x m ) : x i ∈ C i , i = 1 , 2 , ⋯ , m } C_1\times C_2 \times \cdots\times C_m=\left\{(\mathbf{x_1},\mathbf{x_2},\cdots,\mathbf{x_m}):\mathbf{x_i}\in C_i,i=1,2,\cdots,m\right\} C1×C2×⋯×Cm={(x1,x2,⋯,xm):xi∈Ci,i=1,2,⋯,m}

是凸集

证明：

利用数学归纳法

当 n = 1 n=1 n=1时显然成立

当 n = 2 n=2 n=2时

设 x 1 , x 2 ∈ C 1 \mathbf{x_1},\mathbf{x_2}\in C_1 x1,x2∈C1

y 1 , y 2 ∈ C 2 \mathbf{y_1},\mathbf{y_2}\in C_2 y1,y2∈C2

( x 1 , y 1 ) ∈ C 1 × C 2 (\mathbf{x_1},\mathbf{y_1})\in C_1\times C_2 (x1,y1)∈C1×C2

( x 2 , y 2 ) ∈ C 1 × C 2 (\mathbf{x_2},\mathbf{y_2})\in C_1\times C_2 (x2,y2)∈C1×C2

λ ( x 1 , y 1 ) + ( 1 − λ ) ( x 2 , y 2 ) = ( λ x 1 , λ y 1 ) + ( ( 1 − λ ) x 2 , ( 1 − λ ) y 2 ) = ( λ x 1 + ( 1 − λ ) x 2 , λ y 1 + ( 1 − λ ) y 2 ) ∈ C 1 × C 2 \begin{aligned} &\quad \lambda (\mathbf{x_1},\mathbf{y_1})+(1-\lambda)(\mathbf{x_2},\mathbf{y_2})\\ &=(\lambda\mathbf{x_1},\lambda\mathbf{y_1})+((1-\lambda)\mathbf{x_2},(1-\lambda)\mathbf{y_2})\\ &=(\lambda\mathbf{x_1}+(1-\lambda)\mathbf{x_2},\lambda\mathbf{y_1}+(1-\lambda)\mathbf{y_2})\\ &\in C_1\times C_2 \end{aligned} λ(x1,y1)+(1−λ)(x2,y2)=(λx1,λy1)+((1−λ)x2,(1−λ)y2)=(λx1+(1−λ)x2,λy1+(1−λ)y2)∈C1×C2

假设当 n = k n=k n=k时成立

当 n = k + 1 n=k+1 n=k+1时

证明类似

所以结论成立

仿射变换

设 M ⊆ R n M\subseteq \mathbb{R}^n M⊆Rn是凸集， A ∈ R m × n \mathbf{A}\in\mathbb{R}^{m\times n} A∈Rm×n,则

A ( M ) = { A x : x ∈ M } \mathbf{A}(M)=\left\{\mathbf{Ax}:\mathbf{x}\in M\right\} A(M)={Ax:x∈M}

是凸集

逆仿射变换

设 D ⊆ R m D\subseteq \mathbb{R}^m D⊆Rm是凸集， A ∈ R m × n \mathbf{A}\in\mathbb{R}^{m\times n} A∈Rm×n,则

A − 1 ( D ) = { x ∈ R n : A x ∈ D } \mathbf{A}^{-1}(D)=\left\{\mathbf{x}\in\mathbb{R}^{n}:\mathbf{Ax}\in D\right\} A−1(D)={x∈Rn:Ax∈D}

是凸集

unit-simplex

简单来说就是一个向量，他的分量都是非负的，且加起来为1

Δ n = { x ∈ R n : x ≥ 0 , e T x = 1 } \Delta_n=\left\{\mathbf{x}\in\mathbb{R}^{n}:\mathbf{x}\ge0,\mathbf{e}^T\mathbf{x}=1\right\} Δn={x∈Rn:x≥0,eTx=1}

凸包

凸组合

给定 k k k个向量 x 1 , ⋯ , x k ∈ R n \mathbf{x}_1,\cdots,\mathbf{x}_k\in\mathbb{R}^n x1,⋯,xk∈Rn

凸组合就是 λ 1 x 1 + ⋯ + λ k x k \lambda_1\mathbf{x}_1+\cdots+\lambda_k\mathbf{x}_k λ1x1+⋯+λkxk

其中 λ i ≥ 0 , λ 1 + ⋯ + λ k = 1 \lambda_i\ge 0,\lambda_1+\cdots+\lambda_k=1 λi≥0,λ1+⋯+λk=1

定理1

设 C ∈ R n C\in\mathbb{R}^n C∈Rn是凸集， x 1 , x 2 , ⋯ , x m ∈ C \mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_m\in C x1,x2,⋯,xm∈C

则

∀ λ ∈ Δ m , ∑ i = 1 m λ i x i ∈ C \forall \lambda \in \Delta_m,\sum\limits_{i=1}^{m}\lambda_i \mathbf{x}_i\in C ∀λ∈Δm,i=1∑mλixi∈C

证明：

用数学归纳法

当 n = 1 n=1 n=1时显然成立

假设当 n = m n=m n=m时成立

当 n = m + 1 n=m+1 n=m+1时

z = ∑ i = 1 m + 1 λ i x i = ∑ i = 1 m λ i x i + λ m + 1 x m + 1 = ( 1 − λ m + 1 ) ∑ i = 1 m λ i ( 1 − λ m + 1 ) x i + λ m + 1 x m + 1 ∈ C \begin{aligned} \mathbf{z}&=\sum\limits_{i=1}^{m+1}\lambda_i\mathbf{x}_i\\ &=\sum\limits_{i=1}^{m}\lambda_i\mathbf{x}_i+\lambda_{m+1}\mathbf{x}_{m+1}\\ &=(1-\lambda_{m+1})\sum\limits_{i=1}^{m}\frac{\lambda_i}{(1-\lambda_{m+1})}\mathbf{x}_i+\lambda_{m+1}\mathbf{x}_{m+1}\\ &\in C \end{aligned} z=i=1∑m+1λixi=i=1∑mλixi+λm+1xm+1=(1−λm+1)i=1∑m(1−λm+1)λixi+λm+1xm+1∈C

所以成立

凸包定义

设 S ⊆ R n S\subseteq \mathbb{R}^n S⊆Rn

则 S S S的凸包记为 c o n v ( S ) conv(S) conv(S)

c o n v ( S ) ≡ { ∑ i = 1 k λ i x i : x 1 , ⋯ , x k ∈ S , λ ∈ Δ k , k ∈ N } conv(S)\equiv\left\{\sum\limits_{i=1}^{k}\lambda_i\mathbf{x}_i:\mathbf{x}_1,\cdots,\mathbf{x}_k\in S,\lambda\in\Delta_k,k\in\mathbb{N}\right\} conv(S)≡{i=1∑kλixi:x1,⋯,xk∈S,λ∈Δk,k∈N}

也就是能包住S的凸集中，最小的那个

引理

设 S ⊆ R n S\subseteq \mathbb{R}^n S⊆Rn,如果 S ⊆ T S\subseteq T S⊆T，且 T T T是一个凸集，则 c o n v ( S ) ⊆ T conv(S)\subseteq T conv(S)⊆T

证明：

存在 x 1 , ⋯ , x k ∈ S ⊆ T \mathbf{x_1},\cdots,\mathbf{x}_k\in S\subseteq T x1,⋯,xk∈S⊆T

设 λ ∈ Δ k , z = ∑ i = 1 k λ k x i \lambda \in \Delta_k,\mathbf{z}=\sum_{i=1}^{k}\lambda_k\mathbf{x}_i λ∈Δk,z=∑i=1kλkxi

因为 T T T是凸集，所以 x 1 , ⋯ , x k \mathbf{x_1},\cdots,\mathbf{x}_k x1,⋯,xk的凸组合也属于 T T T,即 z ∈ T \mathbf{z}\in T z∈T

根据凸包的定义 z ∈ c o n v ( S ) \mathbf{z}\in conv(S) z∈conv(S)

所以 c o n v ( S ) ⊆ T conv(S)\subseteq T conv(S)⊆T

Carathéodory 定理

设 S ⊆ R n S\subseteq \mathbb{R}^n S⊆Rn, x ∈ c o n v ( S ) \mathbf{x}\in conv(S) x∈conv(S)

则存在 x 1 , ⋯ , x n + 1 ∈ S \mathbf{x_1},\cdots,\mathbf{x}_{n+1} \in S x1,⋯,xn+1∈S,使得 x ∈ c o n v ( { x 1 , ⋯ , x n + 1 } ) \mathbf{x}\in conv(\left\{\mathbf{x_1},\cdots,\mathbf{x}_{n+1}\right\}) x∈conv({x1,⋯,xn+1})

即

∃ λ ∈ Δ n + 1 , x = ∑ i = 1 n + 1 λ i x i \exists \lambda\in\Delta_{n+1},\mathbf{x}=\sum_{i=1}^{n+1}\lambda_i\mathbf{x}_i ∃λ∈Δn+1,x=i=1∑n+1λixi

证明：

设 x ∈ c o n v ( S ) \mathbf{x}\in conv(S) x∈conv(S)

根据凸包的定义，存在 x 1 , ⋯ , x n + 1 ∈ S , λ ∈ Δ k \mathbf{x_1},\cdots,\mathbf{x}_{n+1} \in S,\lambda\in\Delta_k x1,⋯,xn+1∈S,λ∈Δk使得

x = ∑ i = 1 k λ i x i \mathbf{x}=\sum_{i=1}^{k}\lambda_i\mathbf{x}_i x=i=1∑kλixi

不放假设 ∀ i = 1 , 2 , ⋯ , k , λ i > 0 \forall i=1,2,\cdots,k, \lambda_i>0 ∀i=1,2,⋯,k,λi>0,否则，我们可以删去 λ i = 0 \lambda_i=0 λi=0对应的 x i \mathbf{x}_i xi

如果 k ≤ n + 1 k\le n+1 k≤n+1

则结论成立

如果 k ≥ n + 2 k \ge n+2 k≥n+2

x 2 − x 1 , x 3 − x 1 , ⋯ , x k − x 1 \mathbf{x}_2-\mathbf{x}_1,\mathbf{x}_3-\mathbf{x}_1,\cdots,\mathbf{x}_{k}-\mathbf{x}_1 x2−x1,x3−x1,⋯,xk−x1线性相关

即不全为0的 μ 2 , ⋯ , μ k \mu_2,\cdots,\mu_k μ2,⋯,μk,使得

∑ i = 2 k μ i ( x i − x 1 ) = 0 \sum_{i=2}^{k}\mu_i(\mathbf{x}_i-\mathbf{x}_1)=0 i=2∑kμi(xi−x1)=0

设 μ 1 = − ∑ i = 2 k μ i \mu_1=-\sum_{i=2}^{k}\mu_i μ1=−∑i=2kμi，则

∑ i = 1 k μ i x i = 0 \sum_{i=1}^{k}\mu_i\mathbf{x}_i=0 i=1∑kμixi=0

因为 μ 1 , ⋯ , μ k \mu_1,\cdots,\mu_k μ1,⋯,μk不全为0，但是 ∑ i = 1 k μ i = 0 \sum_{i=1}^{k}\mu_i=0 ∑i=1kμi=0

所以必然存在 i i i，使得 μ i < 0 \mu_i<0 μi<0

设 α ∈ R + \alpha \in \mathbb{R}_{+} α∈R+

x = ∑ i = 1 k λ i x i = ∑ i = 1 k λ i x i + α ∑ i = 1 k μ i x i = ∑ i = 1 k ( λ i + α μ i ) x i \mathbf{x}=\sum_{i=1}^{k}\lambda_i\mathbf{x}_i=\sum_{i=1}^{k}\lambda_i\mathbf{x}_i+\alpha \sum_{i=1}^{k}\mu_i\mathbf{x}_i=\sum_{i=1}^{k}(\lambda_i+\alpha\mu_i)\mathbf{x}_i x=i=1∑kλixi=i=1∑kλixi+αi=1∑kμixi=i=1∑k(λi+αμi)xi

∑ i = 1 k ( λ i + α μ i ) = 1 \sum_{i=1}^{k}(\lambda_i+\alpha\mu_i)=1 ∑i=1k(λi+αμi)=1

所以上式这是一个凸组合当且仅当

∀ i = 1 , ⋯ , k , λ i + α μ i ≥ 0 \forall i=1,\cdots,k,\lambda_i+\alpha\mu_i\ge 0 ∀i=1,⋯,k,λi+αμi≥0

因为 λ i > 0 \lambda_i>0 λi>0,所以当 α ∈ [ 0 , ϵ ] \alpha\in \left[0,\epsilon\right] α∈[0,ϵ],满足不等式

其中 ϵ = min ⁡ i : μ i < 0 { − μ i λ i } \epsilon=\min\limits_{i:\mu_i<0}\left\{-\frac{\mu_i}{\lambda_i}\right\} ϵ=i:μi<0min{−λiμi}

那么如果用 α = ϵ \alpha=\epsilon α=ϵ替换凸组合，则虽然不等式满足，但是

λ j + ϵ μ j = 0 \lambda_j+\epsilon \mu_j=0 λj+ϵμj=0,其中 j = arg ⁡ min ⁡ i : μ i < 0 { − μ i λ i } j=\arg\min\limits_{i:\mu_i<0}\left\{-\frac{\mu_i}{\lambda_i}\right\} j=argi:μi<0min{−λiμi}

这意味着只要 k − 1 k-1 k−1个向量就可以了，也就是说可以删去 x j \mathbf{x}_j xj

这个过程可以一直持续到 k ≥ n + 1 k\ge n+1 k≥n+1

所以结论成立

这个定理告诉我们，一个集合只要 n + 1 n+1 n+1个向量，他们的凸组合就可以表示集合的凸包中的所有向量

凸锥

锥

如果 x ∈ S \mathbf{x}\in S x∈S则 λ ≥ 0 , λ x ∈ S \lambda \ge 0,\lambda \mathbf{x}\in S λ≥0,λx∈S，则 S S S称为锥

凸锥

凸锥就是一个锥+凸集

即

如果 x , y ∈ S \mathbf{x},\mathbf{y}\in S x,y∈S,则

∀ λ 1 , λ 2 ≥ 0 , λ 1 x + λ 2 y ∈ S \forall \lambda_1,\lambda_2\ge0, \lambda_1\mathbf{x}+\lambda_2\mathbf{y}\in S ∀λ1,λ2≥0,λ1x+λ2y∈S

等价定义

如果 S S S是凸集，等价于

x , y ∈ S ⇒ x + y ∈ S \mathbf{x},\mathbf{y}\in S\Rightarrow \mathbf{x}+\mathbf{y}\in S x,y∈S⇒x+y∈S

x ∈ S , λ ≥ 0 ⇒ λ x ∈ S \mathbf{x}\in S,\lambda\ge 0\Rightarrow \lambda \mathbf{x}\in S x∈S,λ≥0⇒λx∈S

同时成立

证明：

充分性：如果 S S S是凸锥

利用凸集的定义

1 2 x + 1 2 y ∈ S \frac{1}{2}\mathbf{x}+\frac{1}{2}\mathbf{y}\in S 21x+21y∈S

利用锥的定义

2 ( 1 2 x + 1 2 y ) = x + y ∈ S 2(\frac{1}{2}\mathbf{x}+\frac{1}{2}\mathbf{y})=\mathbf{x}+\mathbf{y}\in S 2(21x+21y)=x+y∈S

利用锥的定义，显然成立

必要性：

利用b)

λ x , ( 1 − λ ) y ∈ S \lambda \mathbf{x},(1-\lambda)\mathbf{y}\in S λx,(1−λ)y∈S

利用a)

λ x + ( 1 − λ ) y ∈ S \lambda \mathbf{x}+(1-\lambda)\mathbf{y}\in S λx+(1−λ)y∈S

得到凸性

利用b)

得到锥

所以 S S S时凸锥

凸锥组合

给定 k k k个点 x 1 , x 2 , ⋯ , x k ∈ R n \mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_k\in\mathbb{R}^n x1,x2,⋯,xk∈Rn

凸锥组合为 λ 1 x 1 + ⋯ + λ k x k \lambda_1\mathbf{x}_1+\cdots+\lambda_k\mathbf{x}_k λ1x1+⋯+λkxk

其中 λ ∈ R + k \lambda \in \mathbb{R}_{+}^{k} λ∈R+k

引理

设 C C C是凸锥，设 x 1 , ⋯ , x k ∈ C \mathbf{x}_1,\cdots,\mathbf{x}_k\in C x1,⋯,xk∈C, λ 1 , ⋯ , λ k ≥ 0 \lambda_1,\cdots,\lambda_k\ge 0 λ1,⋯,λk≥0

则 ∑ i = 1 k λ i x i ∈ C \sum_{i=1}^{k}\lambda_i \mathbf{x}_i\in C ∑i=1kλixi∈C

利用刚刚的等价定义，显然成立

凸锥包

设 S ⊆ R n S\subseteq \mathbb{R}^n S⊆Rn

凸锥包表示为 c o n e ( S ) cone(S) cone(S)

c o n e ( S ) = { ∑ i = 1 k λ i x i : x 1 , ⋯ , x k ∈ S , λ ∈ R + k , k ∈ N } cone(S)=\left\{\sum_{i=1}^{k}\lambda_i\mathbf{x}_i:\mathbf{x}_1,\cdots,\mathbf{x}_k\in S,\lambda\in\mathbb{R}_{+}^{k},k\in\mathbb{N}\right\} cone(S)={i=1∑kλixi:x1,⋯,xk∈S,λ∈R+k,k∈N}

conic representation theorem

设 S ⊆ R n S\subseteq \mathbb{R}^n S⊆Rn, x ∈ c o n e ( S ) \mathbf{x}\in cone(S) x∈cone(S)

则存在 k k k个线性无关的向量 x 1 , ⋯ , x k ∈ S \mathbf{x}_1,\cdots,\mathbf{x}_k\in S x1,⋯,xk∈S

使得 x ∈ c o n e ( { x 1 , ⋯ , x k } ) \mathbf{x}\in cone(\{\mathbf{x}_1,\cdots,\mathbf{x}_k\}) x∈cone({x1,⋯,xk})

即

∃ λ ∈ R + k , x = ∑ i = 1 k λ i x i \exists\lambda\in\mathbb{R}_{+}^{k},\mathbf{x}=\sum_{i=1}^{k}\lambda_i\mathbf{x}_i ∃λ∈R+k,x=i=1∑kλixi

其中 k ≥ n k\ge n k≥n

证明：

设 x ∈ c o n e ( S ) \mathbf{x}\in cone(S) x∈cone(S)

根据凸锥包的定义， ∃ x 1 , x 2 + ⋯ + x k ∈ S , λ ∈ R + k \exists \mathbf{x}_1,\mathbf{x}_2+\cdots+\mathbf{x}_k\in S,\lambda \in \mathbb{R}_+^k ∃x1,x2+⋯+xk∈S,λ∈R+k 使得

x = ∑ i = 1 k λ i x i \mathbf{x}=\sum_{i=1}^{k}\lambda_i\mathbf{x}_i x=i=1∑kλixi

不妨设 λ i > 0 \lambda_i>0 λi>0，以为如果 λ i = 0 \lambda_i=0 λi=0,则 x i x_i xi可以被删去。

如果 x 1 , ⋯ , x k \mathbf{x}_1,\cdots,\mathbf{x}_k x1,⋯,xk线性无关，则结论成立

如果线性相关，则存在不全为0的 μ 1 , ⋯ , μ k \mu_1,\cdots,\mu_k μ1,⋯,μk，使得

∑ i = 1 k μ i x i = 0 \sum_{i=1}^{k}\mu_i\mathbf{x}_i=0 i=1∑kμixi=0

于是对于 α ∈ R \alpha \in \mathbb{R} α∈R

x = ∑ i = 1 k λ i x i + α ∑ i = 1 k μ i x i = ∑ i = 1 k ( λ i + α μ i ) x i \mathbf{x}=\sum_{i=1}^{k}\lambda_i\mathbf{x}_i+\alpha\sum_{i=1}^{k}\mu_i\mathbf{x}_i=\sum_{i=1}^{k}(\lambda_i+\alpha \mu_i)\mathbf{x}_i x=i=1∑kλixi+αi=1∑kμixi=i=1∑k(λi+αμi)xi

这是一个凸锥组合，当且仅当

λ i + α μ i ≥ 0 \lambda_i+\alpha \mu_i\ge 0 λi+αμi≥0

因为 λ i > 0 \lambda_i>0 λi>0,所以上面的不等式成立的条件是 α ∈ I \alpha \in I α∈I

其中 I I I是一个非空的闭区间，而且至少有一边不是无穷（我觉得有点问题，可以保证至少一边是闭，但是是不是闭区间，我觉得有点问题

max ⁡ μ i > 0 { − λ i μ i } ≤ α ≤ min ⁡ μ i < 0 { − λ i μ i } \max_{\mu_i>0}\left\{-\frac{\lambda_i}{\mu_i}\right\}\le\alpha\le\min_{\mu_i<0}\left\{-\frac{\lambda_i}{\mu_i}\right\} μi>0max{−μiλi}≤α≤μi<0min{−μiλi}

如果 μ i \mu_i μi没有负的，则左闭右开

如果 μ i \mu_i μi没有正的，则左开右闭

因为 μ i \mu_i μi不全为0，所以不会没有正且没有负

所以可以保证至少一边是闭

）

不妨设边界点为 α ~ \tilde{\alpha} α~,显然满足不等式

但是存在 j j j,使得 λ j + α ~ μ j = 0 \lambda_j+\tilde{\alpha} \mu_j=0 λj+α~μj=0

因此 x j \mathbf{x}_j xj 可以被删去，只需要 k − 1 k-1 k−1个向量就能表示 x \mathbf{x} x

这个过程可以持续到 x 1 , ⋯ , x k \mathbf{x}_1,\cdots,\mathbf{x}_k x1,⋯,xk线性无关

所以 k ≤ n k\le n k≤n

基本可行解

basic feasible solutions

设 P = { x ∈ R n : A x = b , x ≥ 0 } P=\left\{\mathbf{x} \in \mathbb{R}^{n}: \mathbf{A} \mathbf{x}=\mathbf{b}, \mathbf{x} \geq 0\right\} P={x∈Rn:Ax=b,x≥0}

其中 A ∈ R m × n , b ∈ R m \mathbf{A}\in\mathbb{R}^{m\times n },\mathbf{b}\in \mathbb{R}^m A∈Rm×n,b∈Rm

假设 A \mathbf{A} A的行线性无关

则 x ˉ \bar{\mathbf{x}} xˉ被称为 P P P的一个基本可行解（简称bfs)如果 A \mathbf{A} A对应于 x ˉ \bar{\mathbf{x}} xˉ正的分量的下标的列向量是线性无关的

比如说 x ˉ \bar{\mathbf{x}} xˉ的1,3,5分量是正的，则 A \mathbf{A} A的1,3,5列的向量线性无关

定理

设 P = { x ∈ R n : A x = b , x ≥ 0 } P=\left\{\mathbf{x} \in \mathbb{R}^{n}: \mathbf{A} \mathbf{x}=\mathbf{b}, \mathbf{x} \geq 0\right\} P={x∈Rn:Ax=b,x≥0}

其中 A ∈ R m × n , b ∈ R m \mathbf{A}\in\mathbb{R}^{m\times n },\mathbf{b}\in \mathbb{R}^m A∈Rm×n,b∈Rm

如果 P ≠ ∅ P \neq \emptyset P=∅,则至少存在一个可行解

证明：

设 A = ( a 1 , a 2 , … , a n ) \mathbf{A}=\left(\mathbf{a}_{1}, \mathbf{a}_{2}, \ldots, \mathbf{a}_{n}\right) A=(a1,a2,…,an)

则 b ∈ c o n e ( { a 1 , a 2 , … , a n } ) \mathbf{b}\in cone\left(\left\{\mathbf{a}_{1}, \mathbf{a}_{2}, \ldots, \mathbf{a}_{n} \right\}\right) b∈cone({a1,a2,…,an})

根据conic representation theorem, b \mathbf{b} b可以用来自 { a 1 , a 2 , … , a n } \left\{\mathbf{a}_{1}, \mathbf{a}_{2}, \ldots, \mathbf{a}_{n} \right\} {a1,a2,…,an}的 k k k个线性无关的向量表示

所以 ∃ i 1 < ⋯ < i k \exists i_1<\cdots < i_k ∃i1<⋯<ik， y i 1 , ⋯ , y i k ≥ 0 y_{i_1},\cdots,y_{i_k}\ge 0 yi1,⋯,yik≥0

使得 b = ∑ j = 1 k y i j a i j \mathbf{b}=\sum_{j=1}^{k}y_{i_j}\mathbf{a}_{i_j} b=∑j=1kyijaij,并且 a i 1 , ⋯ , a i k \mathbf{a}_{i_1},\cdots,\mathbf{a}_{i_k} ai1,⋯,aik线性无关

令 x ‾ = ∑ j = 1 k y i j e i j \overline{\mathbf{x}}=\sum_{j=1}^{k} y_{i_{j}} \mathbf{e}_{i_{j}} x=∑j=1kyijeij

显然 x ˉ ≥ 0 \bar{\mathbf{x}}\ge 0 xˉ≥0

并且

A x ‾ = ∑ j = 1 k y i j A e i j = ∑ j = 1 k y i j a i j = b \mathbf{A} \overline{\mathbf{x}}=\sum_{j=1}^{k} y_{i_{j}} \mathbf{A e}_{i_{j}}=\sum_{j=1}^{k} y_{i_{j}} \mathbf{a}_{i_{j}}=\mathbf{b} Ax=j=1∑kyijAeij=j=1∑kyijaij=b

满足条件，是一个bfs

拓扑基本概念

内点

U ⊆ R n U\subseteq \mathbb{R}^n U⊆Rn，如果存在 r > 0 r>0 r>0使得 B ( c , r ) ∈ U B(\mathbf{c},r)\in U B(c,r)∈U,则 c \mathbf{c} c是一个 U U U的一个内点

开集

U ⊆ R n U\subseteq \mathbb{R}^n U⊆Rn是一个开集，当且仅当

∀ x ∈ U , ∃ r > 0 , s . t . B ( x , r ) ∈ U \forall \mathbf{x}\in U,\exists r>0, s.t. B(\mathbf{x},r)\in U ∀x∈U,∃r>0,s.t.B(x,r)∈U

int ⁡ ( U ) = { x ∈ U : B ( x , r ) ⊆ U 对于某些 r > 0 } \operatorname{int}(U)=\{\mathrm{x} \in U: B(\mathrm{x}, r) \subseteq U \text { 对于某些 } r>0\} int(U)={x∈U:B(x,r)⊆U 对于某些 r>0}

闭集

U ⊆ R n U\subseteq \mathbb{R}^n U⊆Rn是一个闭集，当且仅当

对于所有的序列 { x i } i ≥ 1 ⊆ U \left\{\mathbf{x}_{i}\right\}_{i \geq 1} \subseteq U {xi}i≥1⊆U

当 i → ∞ i\to \infty i→∞时, x i → x ∗ \mathbf{x}_i\to \mathbf{x}^{*} xi→x∗,且 x ∗ ∈ U \mathbf{x}^{*}\in U x∗∈U

边界点

U ⊆ R n U\subseteq \mathbb{R}^n U⊆Rn

x ∈ R n \mathbf{x}\in\mathbb{R}^n x∈Rn是一个边界点，如果满足：邻域内存在一个点在 U U U，且存在一个点在 U c U^{c} Uc

U U U的边界点的集合记为 b d ( U ) bd(U) bd(U)

闭包

cl ⁡ ( U ) = ⋂ { T : U ⊆ T , T 是闭集 } \operatorname{cl}(U)=\bigcap\{T: U \subseteq T, T \text { 是闭集 }\} cl(U)=⋂{T:U⊆T,T 是闭集 }

等价定义

c l ( U ) = U ∪ b d ( U ) \mathrm{cl}(U)=U \cup \mathrm{bd}(U) cl(U)=U∪bd(U)

有界

U ⊆ R n U\subseteq \mathbb{R}^n U⊆Rn

如果存在 M > 0 M>0 M>0,使得 U ⊆ B ( 0 , M ) U\subseteq B(0,M) U⊆B(0,M),则 U U U是有界的

紧集

U ⊆ R n U\subseteq \mathbb{R}^n U⊆Rn

如果 U U U是一个闭集，且有界,则 U U U是紧集

凸集的拓扑性质

定理1

设 C ⊆ R n C\subseteq \mathbb{R}^n C⊆Rn是一个凸集，则 c l ( C ) cl(C) cl(C)是一个凸集

证明：

设 x , y ∈ cl ⁡ ( C ) \mathbf{x}, \mathbf{y} \in \operatorname{cl}(C) x,y∈cl(C), λ ∈ [ 0 , 1 ] \lambda \in \left[0,1\right] λ∈[0,1]

根据闭集的定义

∃ { x k } k ≥ 0 ⊆ C , { y k } k ≥ 0 ⊆ C \exists \left\{\mathbf{x}_{k}\right\}_{k \geq 0} \subseteq C,\left\{\mathbf{y}_{k}\right\}_{k \geq 0} \subseteq C ∃{xk}k≥0⊆C,{yk}k≥0⊆C

当 k → ∞ k\to \infty k→∞时, x k → x , y k → y \mathbf{x}_{k} \rightarrow \mathbf{x},\mathbf{y}_{k} \rightarrow \mathbf{y} xk→x,yk→y

根据凸集的定义

∀ k ≥ 0 , λ x k + ( 1 − λ ) y k ∈ C \forall k\ge 0, \lambda \mathbf{x}_{k}+(1-\lambda) \mathbf{y}_{k} \in C ∀k≥0,λxk+(1−λ)yk∈C

因为 λ x k + ( 1 − λ ) y k → λ x + ( 1 − λ ) y \lambda \mathbf{x}_{k}+(1-\lambda) \mathbf{y}_{k} \rightarrow \lambda \mathbf{x}+(1-\lambda) \mathbf{y} λxk+(1−λ)yk→λx+(1−λ)y

所以 C C C中存在序列，收敛于 λ x + ( 1 − λ ) y \lambda \mathbf{x}+(1-\lambda) \mathbf{y} λx+(1−λ)y

从而 λ x + ( 1 − λ ) y ∈ cl ⁡ ( C ) . \lambda \mathbf{x}+(1-\lambda) \mathbf{y} \in \operatorname{cl}(C) . λx+(1−λ)y∈cl(C).

line segment principle

设 C C C是一个凸集，假设 i n t ( C ) ≠ ∅ int(C)\neq \emptyset int(C)=∅

假设 x ∈ i n t ( C ) , y ∈ c l ( C ) \mathbf{x}\in int(C),\mathbf{y}\in cl(C) x∈int(C),y∈cl(C)

则 ∀ λ ∈ ( 0 , 1 ) , ( 1 − λ ) x + λ y ∈ int ⁡ ( C ) \forall \lambda \in (0,1),(1-\lambda) \mathbf{x}+\lambda \mathbf{y} \in \operatorname{int}(C) ∀λ∈(0,1),(1−λ)x+λy∈int(C)

证明：

因为 x ∈ i n t ( C ) \mathbf{x}\in int(C) x∈int(C),则 ∃ ϵ > 0 , B ( x , ϵ ) ⊆ C \exists \epsilon >0,B(\mathbf{x},\epsilon)\subseteq C ∃ϵ>0,B(x,ϵ)⊆C

设 z = ( 1 − λ ) x + λ y \mathbf{z}=(1-\lambda) \mathbf{x}+\lambda \mathbf{y} z=(1−λ)x+λy

为了证明 z ∈ i n t ( C ) \mathbf{z}\in int(C) z∈int(C),可以试着证明 B ( z , ( 1 − λ ) ϵ ) ⊆ C B(\mathbf{z},(1-\lambda)\epsilon)\subseteq C B(z,(1−λ)ϵ)⊆C

设 w \mathbf{w} w满足 ∥ w − z ∥ < ( 1 − λ ) ϵ \| \mathbf{w}-\mathbf{z}\|< (1-\lambda)\epsilon ∥w−z∥<(1−λ)ϵ

因为 y ∈ c l ( C ) \mathbf{y}\in cl(C) y∈cl(C)

所以 ∃ w 1 ∈ C \exists \mathbf{w}_1\in C ∃w1∈C,使得

∥ w 1 − y ∥ < ( 1 − λ ) ε − ∥ w − z ∥ λ \left\|\mathbf{w}_{1}-\mathbf{y}\right\|<\frac{(1-\lambda) \varepsilon-\|\mathbf{w}-\mathbf{z}\|}{\lambda} ∥w1−y∥<λ(1−λ)ε−∥w−z∥

令 w 2 = 1 1 − λ ( w − λ w 1 ) \mathbf{w}_{2}=\frac{1}{1-\lambda}\left(\mathbf{w}-\lambda \mathbf{w}_{1}\right) w2=1−λ1(w−λw1)

∥ w 2 − x ∥ = ∥ w − λ w 1 1 − λ − x ∥ = 1 1 − λ ∥ ( w − z ) + λ ( y − w 1 ) ∥ ≤ 1 1 − λ ( ∥ w − z ∥ + λ ∥ w 1 − y ∥ ) < ε \begin{aligned} \left\|\mathbf{w}_{2}-\mathbf{x}\right\| &=\left\|\frac{\mathbf{w}-\lambda \mathbf{w}_{1}}{1-\lambda}-\mathbf{x}\right\| \\ &=\frac{1}{1-\lambda}\left\|(\mathbf{w}-\mathbf{z})+\lambda\left(\mathbf{y}-\mathbf{w}_{1}\right)\right\| \\ & \leq \frac{1}{1-\lambda}\left(\|\mathbf{w}-\mathbf{z}\|+\lambda\left\|\mathbf{w}_{1}-\mathbf{y}\right\|\right) \\ & < \varepsilon \end{aligned} ∥w2−x∥=∥∥∥∥1−λw−λw1−x∥∥∥∥=1−λ1∥(w−z)+λ(y−w1)∥≤1−λ1(∥w−z∥+λ∥w1−y∥)<ε

因为 B ( x , ε ) ⊆ C B(\mathbf{x}, \varepsilon) \subseteq C B(x,ε)⊆C，所以 w 2 ∈ C \mathbf{w_2}\in C w2∈C

所以 w = λ w 1 + ( 1 − λ ) w 2 ∈ C \mathbf{w}=\lambda \mathbf{w}_{1}+(1-\lambda) \mathbf{w}_{2} \in C w=λw1+(1−λ)w2∈C

定理2

设 C ⊆ R n C\subseteq \mathbb{R}^n C⊆Rn是凸集,则 i n t ( C ) int(C) int(C)也是凸集

证明：

如果 i n t ( C ) = ∅ int(C)=\emptyset int(C)=∅，则结论成立

如果 i n t ( C ) ≠ ∅ int(C)\neq \emptyset int(C)=∅,则设 x 1 , x 2 ∈ int ⁡ ( C ) , λ ∈ ( 0 , 1 ) \mathbf{x}_{1}, \mathbf{x}_{2} \in \operatorname{int}(C),\lambda \in (0,1) x1,x2∈int(C),λ∈(0,1)

根据line segment principle，

λ x 1 + ( 1 − λ ) x 2 ∈ int ⁡ ( C ) \lambda \mathbf{x}_{1}+(1-\lambda) \mathbf{x}_{2} \in \operatorname{int}(C) λx1+(1−λ)x2∈int(C)

引理1

设 C C C是凸集， i n t ( C ) ≠ ∅ int(C)\neq \emptyset int(C)=∅,则

(a) c l ( i n t ( C ) ) = c l ( C ) cl(int(C))=cl(C) cl(int(C))=cl(C)

(b) i n t ( c l ( C ) ) = i n t ( C ) int(cl(C))=int(C) int(cl(C))=int(C)

证明：

(a)

显然 i n t ( C ) ⊆ C ⇒ c l ( i n t ( C ) ) ⊆ c l ( C ) int(C)\subseteq C\Rightarrow cl(int(C))\subseteq cl(C) int(C)⊆C⇒cl(int(C))⊆cl(C)

现在证明反向的版本

x ∈ c l ( C ) , y ∈ i n t ( C ) \mathbf{x}\in cl(C),\mathbf{y}\in int(C) x∈cl(C),y∈int(C)

根据line segment principle，

∀ k ≥ 1 , x k = 1 k y + ( 1 − 1 k ) x ∈ i n t ( C ) \forall k\ge 1,\mathbf{x}_k=\frac{1}{k}\mathbf{y}+(1-\frac{1}{k})\mathbf{x}\in int(C) ∀k≥1,xk=k1y+(1−k1)x∈int(C)

而 x \mathbf{x} x是 { x k } k ≥ 1 ⊆ C \left\{\mathbf{x}_{k}\right\}_{k \geq 1}\subseteq C {xk}k≥1⊆C收敛的点

即 x ∈ c l ( i n t ( C ) ) \mathbf{x}\in cl(int(C)) x∈cl(int(C))

(b)

C ⊆ c l ( C ) ⇒ i n t ( C ) ⊆ i n t ( c l ( C ) ) C\subseteq cl(C)\Rightarrow int(C)\subseteq int(cl(C)) C⊆cl(C)⇒int(C)⊆int(cl(C))

现在证明反向的版本

因为 x ∈ i n t ( c l ( C ) ) \mathbf{x} \in int(cl(C)) x∈int(cl(C))， ∃ ϵ > 0 , B ( x , ϵ ) ⊆ c l ( C ) \exists \epsilon >0,B(\mathbf{x},\epsilon)\subseteq cl(C) ∃ϵ>0,B(x,ϵ)⊆cl(C)

设 y ∈ i n t ( C ) \mathbf{y}\in int(C) y∈int(C)

如果 x = y \mathbf{x}=\mathbf{y} x=y则结论成立

否则

设

z = x + α ( x − y ) \mathbf{z}=\mathbf{x}+\alpha(\mathbf{x}-\mathbf{y}) z=x+α(x−y)

其中 α = ε 2 ∥ x − y ∥ \alpha=\frac{\varepsilon}{2\|\mathrm{x}-\mathrm{y}\|} α=2∥x−y∥ε

所以 ∥ z − x ∥ = ε 2 \|\mathbf{z}-\mathbf{x}\|=\frac{\varepsilon}{2} ∥z−x∥=2ε, z ∈ c l ( C ) \mathbf{z}\in cl(C) z∈cl(C)

∀ λ ∈ [ 0 , 1 ) , ( 1 − λ ) y + λ z ∈ i n t ( C ) \forall \lambda \in \left[0,1\right), (1-\lambda) \mathbf{y}+\lambda \mathbf{z} \in int(C) ∀λ∈[0,1),(1−λ)y+λz∈int(C)

特别地， λ = λ α = 1 1 + α \lambda =\lambda_{\alpha}=\frac{1}{1+\alpha} λ=λα=1+α1时，有 ( 1 − λ α ) y + λ α z = x \left(1-\lambda_{\alpha}\right) \mathbf{y}+\lambda_{\alpha} \mathbf{z}=\mathbf{x} (1−λα)y+λαz=x

即 x ∈ i n t ( C ) \mathbf{x}\in int(C) x∈int(C)

定理3

如果 S ⊆ R n S\subseteq \mathbb{R}^n S⊆Rn是一个紧集，则 c o n v ( S ) conv(S) conv(S)是紧集

证明：

先证明有界性

因为 S S S是紧集， ∀ x ∈ S , ∃ M > 0 , ∥ x ∥ ≤ M \forall \mathbf{x}\in S,\exists M>0,\|\mathbf{x}\| \le M ∀x∈S,∃M>0,∥x∥≤M

设 y ∈ c o n v ( S ) \mathbf{y}\in conv(S) y∈conv(S)

根据Carathéodory 定理

∃ x 1 k , x 2 k , … , x n + 1 k ∈ S , λ k ∈ Δ n + 1 \exists \mathbf{x}_{1}^{k}, \mathbf{x}_{2}^{k}, \ldots, \mathbf{x}_{n+1}^{k} \in S,\lambda^{k}\in \Delta_{n+1} ∃x1k,x2k,…,xn+1k∈S,λk∈Δn+1使得 y k = ∑ i = 1 n + 1 λ i k x i k \mathbf{y}_{k}=\sum_{i=1}^{n+1} \lambda_{i}^{k} \mathbf{x}_{i}^{k} yk=∑i=1n+1λikxik,因此

∥ y ∥ = ∥ ∑ i = 1 n + 1 λ i x i ∥ ≤ ∑ i = 1 n + 1 λ i ∥ x i ∥ ≤ M ∑ i = 1 n + 1 λ i = M \|\mathbf{y}\|=\left\|\sum_{i=1}^{n+1} \lambda_{i} \mathbf{x}_{i}\right\| \leq \sum_{i=1}^{n+1} \lambda_{i}\left\|\mathbf{x}_{i}\right\| \leq M \sum_{i=1}^{n+1} \lambda_{i}=M ∥y∥=∥∥∥∥∥i=1∑n+1λixi∥∥∥∥∥≤i=1∑n+1λi∥xi∥≤Mi=1∑n+1λi=M

接着证明闭集

设 { y k } k ≥ 1 ⊆ c o n v ( S ) \left\{\mathbf{y}_{k}\right\}_{k \geq 1} \subseteq conv(S) {yk}k≥1⊆conv(S)收敛于 y ∈ R n \mathbf{y}\in \mathbb{R}^n y∈Rn

根据Carathéodory 定理

y k = ∑ i = 1 n + 1 λ i k x i k \mathbf{y}_{k}=\sum_{i=1}^{n+1} \lambda_{i}^{k} \mathbf{x}_{i}^{k} yk=i=1∑n+1λikxik

根据 S S S是紧集， { ( λ k , x 1 k , x 2 k , … , x n + 1 k ) } k ≥ 1 \left\{\left(\lambda^{k}, \mathbf{x}_{1}^{k}, \mathbf{x}_{2}^{k}, \ldots, \mathbf{x}_{n+1}^{k}\right)\right\}_{k \geq 1} {(λk,x1k,x2k,…,xn+1k)}k≥1的子列 { ( λ k j , x 1 k j , x 2 k j , … , x n + 1 k j ) } j ≥ 1 \left\{\left(\lambda^{k_{j}}, \mathbf{x}_{1}^{k_{j}}, \mathbf{x}_{2}^{k_{j}}, \ldots, \mathbf{x}_{n+1}^{k_{j}}\right)\right\}_{j \geq 1} {(λkj,x1kj,x2kj,…,xn+1kj)}j≥1的极限为

( λ , x 1 , x 2 , … , x n + 1 ) \left(\lambda, \mathbf{x}_{1}, \mathbf{x}_{2}, \ldots, \mathbf{x}_{n+1}\right) (λ,x1,x2,…,xn+1)

其中 λ ∈ Δ n + 1 , x 1 , x 2 , … , x n + 1 ∈ S \lambda \in \Delta_{n+1},\mathbf{x}_{1}, \mathbf{x}_{2}, \ldots, \mathbf{x}_{n+1} \in S λ∈Δn+1,x1,x2,…,xn+1∈S

当 j → ∞ j\to \infty j→∞

y = ∑ i = 1 n + 1 λ i x i \mathbf{y}=\sum_{i=1}^{n+1} \lambda_{i} \mathbf{x}_{i} y=i=1∑n+1λixi

即 y ∈ c o n v ( S ) \mathbf{y}\in conv(S) y∈conv(S)

引理2

设 a 1 , a 2 , … , a k ∈ R n \mathbf{a}_{1}, \mathbf{a}_{2}, \ldots, \mathbf{a}_{k} \in \mathbb{R}^{n} a1,a2,…,ak∈Rn，则 cone ⁡ ( { a 1 , a 2 , … , a k } ) \operatorname{cone}\left(\left\{\mathrm{a}_{1}, \mathrm{a}_{2}, \ldots, \mathrm{a}_{k}\right\}\right) cone({a1,a2,…,ak})是闭集

证明：

根据conic representation theorem，

cone ⁡ ( { a 1 , a 2 , ⋯ , a k } ) \operatorname{cone}\left(\left\{\mathbf{a}_{1}, \mathbf{a}_{2}, \cdots, \mathbf{a}_{k}\right\}\right) cone({a1,a2,⋯,ak})的每一个元素，都可以被 { a 1 , a 2 , ⋯ , a k } \left\{\mathbf{a}_{1}, \mathbf{a}_{2}, \cdots, \mathbf{a}_{k}\right\} {a1,a2,⋯,ak}的线性无关子集的凸锥组合表示

因此，设 S 1 , ⋯ , S N S_1,\cdots,S_N S1,⋯,SN是 { a 1 , a 2 , ⋯ , a k } \left\{\mathbf{a}_{1}, \mathbf{a}_{2}, \cdots, \mathbf{a}_{k}\right\} {a1,a2,⋯,ak}的子集，且 S i S_i Si中的元素线性无关

那么

cone ⁡ ( { a 1 , a 2 , … , a k } ) = ⋃ i = 1 N cone ⁡ ( S i ) \operatorname{cone}\left(\left\{\mathbf{a}_{1}, \mathbf{a}_{2}, \ldots, \mathbf{a}_{k}\right\}\right)=\bigcup_{i=1}^{N} \operatorname{cone}\left(S_{i}\right) cone({a1,a2,…,ak})=i=1⋃Ncone(Si)

让 i ∈ { 1 , 2 , ⋯ , N } i\in \left\{1,2,\cdots,N\right\} i∈{1,2,⋯,N},那么

S i = { b 1 , b 2 , … , b m } S_{i}=\left\{\mathbf{b}_{1}, \mathbf{b}_{2}, \ldots, \mathbf{b}_{m}\right\} Si={b1,b2,…,bm}

其中 b 1 , b 2 , … , b m \mathbf{b}_{1}, \mathbf{b}_{2}, \ldots, \mathbf{b}_{m} b1,b2,…,bm线性无关

也可以写成

cone ⁡ ( S i ) = { B y : y ∈ R + m } \operatorname{cone}\left(S_{i}\right)=\left\{\mathbf{B y}: \mathbf{y} \in \mathbb{R}_{+}^{m}\right\} cone(Si)={By:y∈R+m}

其中 B = ( b 1 , b 2 , … , b m ) \mathbf{B}=(\mathbf{b}_{1}, \mathbf{b}_{2}, \ldots, \mathbf{b}_{m}) B=(b1,b2,…,bm)

设 ∀ k ≥ 1 , x k ∈ c o n e ( S i ) \forall k\ge 1,\mathbf{x}_k\in cone(S_i) ∀k≥1,xk∈cone(Si),

x k → x ˉ \mathbf{x}_k\to \bar{\mathbf{x}} xk→xˉ

因为 x k ∈ c o n e ( S i ) \mathbf{x}_k\in cone(S_i) xk∈cone(Si),

∃ y k ∈ R + m , s . t . x k = B y k \exists \mathbf{y}_k\in\mathbb{R}_{+}^{m},s.t.\ \mathbf{x}_{k}=\mathbf{B y}_{k} ∃yk∈R+m,s.t. xk=Byk

因为 B \mathbf{B} B的列向量线性无关，所以

y k = ( B T B ) − 1 B T x k \mathbf{y}_{k}=\left(\mathbf{B}^{T} \mathbf{B}\right)^{-1} \mathbf{B}^{T} \mathbf{x}_{k} yk=(BTB)−1BTxk

令 k → ∞ k\to \infty k→∞,于是 y k → y ˉ \mathbf{y}_k\to \bar{\mathbf{y}} yk→yˉ

其中 y ˉ = ( B T B ) − 1 B T x ˉ \bar{\mathbf{y}}=\left(\mathbf{B}^{T} \mathbf{B}\right)^{-1} \mathbf{B}^{T} \bar{\mathbf{x}} yˉ=(BTB)−1BTxˉ

于是 x ‾ = B y ‾ \overline{\mathbf{x}}=\mathrm{B} \overline{\mathbf{y}} x=By

因此 x ‾ ∈ cone ⁡ ( S i ) \overline{\mathbf{x}} \in \operatorname{cone}\left(S_{i}\right) x∈cone(Si)

极点

定义

extreme points

设 S ∈ ⊆ R n S\in \subseteq \mathbb{R}^n S∈⊆Rn是一个凸集

x ∈ S \mathbf{x}\in S x∈S

如果不存在 x 1 , x 2 ∈ S ( x 1 ≠ x 2 ) , λ ∈ ( 0 , 1 ) \mathbf{x}_1,\mathbf{x}_2\in S(\mathbf{x}_1\neq \mathbf{x}_2),\lambda \in (0,1) x1,x2∈S(x1=x2),λ∈(0,1),使得 x = λ x 1 + ( 1 − λ ) x 2 \mathbf{x}=\lambda \mathbf{x}_1+(1-\lambda)\mathbf{x}_2 x=λx1+(1−λ)x2

则 x \mathbf{x} x称为 S S S的一个极点

S S S的极点的集合记为 e x t ( S ) ext(S) ext(S)

定理

设 P = { x ∈ R n : A x = b , x ≥ 0 } P=\left\{\mathbf{x} \in \mathbb{R}^{n}: \mathbf{A x}=\mathbf{b}, \mathbf{x} \geq 0\right\} P={x∈Rn:Ax=b,x≥0}

其中 A ∈ R m × n , b ∈ R m \mathbf{A}\in\mathbb{R}^{m\times n },\mathbf{b}\in \mathbb{R}^m A∈Rm×n,b∈Rm,并且 A \mathbf{A} A行线性无关

那么 x ˉ \bar{\mathbf{x}} xˉ是一个 P P P的一个bfs，当且仅当他是一个 P P P的一个极点

证明：

充分性：当 x ˉ \bar{\mathbf{x}} xˉ是bfs

不妨设 x ˉ 1 > 0 , x ˉ 2 > 0 , ⋯ , x ˉ k > 0 , x ˉ k + 1 = x ˉ k + 2 = ⋯ = x ˉ n = 0 \bar{\mathbf{x}}_{1}>0, \bar{\mathbf{x}}_{2}>0, \cdots, \bar{\mathbf{x}}_{k}>0,\bar{\mathbf{x}}_{k+1}=\bar{\mathbf{x}}_{k+2}=\cdots=\bar{\mathbf{x}}_{n}=0 xˉ1>0,xˉ2>0,⋯,xˉk>0,xˉk+1=xˉk+2=⋯=xˉn=0

根据bfs的定义， a 1 , a 2 , ⋯ , a k \mathbf{a}_{1}, \mathbf{a}_{2}, \cdots, \mathbf{a}_{k} a1,a2,⋯,ak线性无关

假设 x ‾ ∉ ext ⁡ ( P ) \overline{\mathbf{x}} \notin \operatorname{ext}(P) x∈/ext(P)

则设 ∃ y , z ≥ 0 , λ ∈ ( 0 , 1 ) , s . t . x ˉ = λ y + ( 1 − λ ) z \exists\mathbf{y}, \mathbf{z} \geq 0,\lambda \in(0,1),s.t.\ \bar{\mathbf{x}}=\lambda \mathbf{y}+(1-\lambda)\mathbf{z} ∃y,z≥0,λ∈(0,1),s.t. xˉ=λy+(1−λ)z

因为 y , z ≥ 0 \mathbf{y}, \mathbf{z} \geq 0 y,z≥0,可以得到他们至少有 n − k n-k n−k个分量是0

∑ i = 1 k y i a i = b ∑ i = 1 k z i a i = b ∑ i = 1 k ( y i − z i ) a i = 0 \begin{aligned} &\sum_{i=1}^{k} \mathbf{y}_{i} \mathbf{a}_{i}=\mathbf{b} \\ &\sum_{i=1}^{k} \mathbf{z}_{i} \mathbf{a}_{i}=\mathbf{b}\\ &\sum_{i=1}^{k} (\mathbf{y}_{i}-\mathbf{z}_{i}) \mathbf{a}_{i}=0 \end{aligned} i=1∑kyiai=bi=1∑kziai=bi=1∑k(yi−zi)ai=0

因为 y ≠ z \mathbf{y}\neq \mathbf{z} y=z，所以 a 1 , a 2 , ⋯ , a k \mathbf{a}_{1}, \mathbf{a}_{2}, \cdots, \mathbf{a}_{k} a1,a2,⋯,ak线性相关

矛盾

必要性：

设 x ~ ∈ P \tilde{\mathbf{x}}\in P x~∈P是一个极点

假设 x ~ \tilde{\mathbf{x}} x~不是bfs

这意味着对应的列向量线性相关

不妨设 x ~ \tilde{\mathbf{x}} x~的前 k k k个分量为正

存在 0 ≠ y ∈ R k 0\neq \mathbf{y}\in \mathbb{R}^{k} 0=y∈Rk,使得

∑ i = 1 k y i a i = 0 \sum_{i=1}^{k} y_{i} \mathbf{a}_{i}=0 i=1∑kyiai=0

也可以写成 A y ~ = 0 A \tilde{\mathbf{y}}=0 Ay~=0,其中 y ~ = ( y 0 n − k ) \tilde{\mathbf{y}}=\begin{pmatrix}\mathbf{y}\\0_{n-k}\end{pmatrix} y~=(y0n−k)

因为 x ~ \tilde{\mathrm{x}} x~的前 k k k个分量是正的，所以 ∃ ϵ > 0 \exists \epsilon>0 ∃ϵ>0,使得 x 1 = x ~ + ϵ y ~ ≥ 0 \mathbf{x}_{1}=\tilde{\mathbf{x}}+\epsilon \tilde{\mathbf{y}} \geq 0 x1=x~+ϵy~≥0,以及 x 2 = x ~ − ϵ y ~ ≥ 0 \mathbf{x}_{2}=\tilde{\mathbf{x}}-\epsilon \tilde{\mathbf{y}} \geq 0 x2=x~−ϵy~≥0

所以 A x 1 = A x ~ + ϵ A y ~ = b + ϵ ⋅ 0 = b \mathbf{A x}_{1}=\mathbf{A} \tilde{\mathbf{x}}+\epsilon \mathbf{A} \tilde{\mathbf{y}}=\mathbf{b}+\epsilon \cdot \mathbf{0}=\mathbf{b} Ax1=Ax~+ϵAy~=b+ϵ⋅0=b

类似地 A x 2 = b \mathbf{Ax}_{2}=\mathbf{b} Ax2=b

因此 x 1 , x 2 ∈ P \mathbf{x}_{1}, \mathbf{x}_{2} \in P x1,x2∈P

因为 x 1 ≠ x 2 , y ~ ≠ 0 \mathbf{x}_1\neq \mathbf{x}_2,\tilde{\mathbf{y}}\neq 0 x1=x2,y~=0

所以 x ~ = 1 2 x 1 + 1 2 x 2 ∈ e x t ( P ) \tilde{\mathbf{x}}=\frac{1}{2}\mathbf{x}_1+\frac{1}{2}\mathbf{x}_2\in ext(P) x~=21x1+21x2∈ext(P)

矛盾

Krein-Milman

设 S ⊆ R n S\subseteq \mathbb{R}^{n} S⊆Rn是一个紧的凸集则

S = c o n v ( e x t ( S ) ) S=conv(ext(S)) S=conv(ext(S))

凸集的学习凸集unit-simplex凸包凸锥拓扑基本概念凸集的拓扑性质极点

凸集

定义

保凸运算

交集

线性组合

笛卡尔积

仿射变换

逆仿射变换

unit-simplex

凸包

凸组合

定理1

凸包定义

引理

Carathéodory 定理

凸锥

锥

凸锥

等价定义

凸锥组合

引理

凸锥包

conic representation theorem

基本可行解

定理

拓扑基本概念

内点

开集

闭集

边界点

闭包

有界

紧集

凸集的拓扑性质

定理1

line segment principle

定理2

引理1

定理3

引理2

极点

定义

定理

Krein-Milman

继续阅读