天天看点

机器学习-04 基于sklearn 广义线性模型- Lasso回归Lasso回归坐标下降算法官方手册示例再现重要代码解释

机器学习-04 基于sklearn 广义线性模型- Lasso回归

  • Lasso回归
  • 坐标下降算法
  • 官方手册示例再现
  • 重要代码解释

Lasso回归

稀疏系数是指含零较多的系数。这种现象的产生可能是特征值设定的原因,比如性别男性为1女性为0,或者天气晴天为1阴天为0,这种非黑及白的选择如果有很多,可能会产生一溜零的情况。百度百科上面这段话写的特别好,特地摘抄在下面“该方法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数,即强制系数绝对值之和小于某个固定值;同时设定一些回归系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。”Lasso回归就是拟合稀疏系数的线性模型。它倾向于使用具有较少参数值的情况,有效地减少给定解决方案所依赖变量的数量。 因此,Lasso 及其变体是压缩感知领域的基础。

其最小化的目标函数是:

min ⁡ ω   1 2 n s a m e p l e s ∥ X ω − y ∥ 2 2 + α ∥ ω ∥ 1 \underset{\omega }{\mathop{\min }}\,\frac{1}{2{{n}_{sameples}}}{{\left\| X\omega -y \right\|}_{2}}^{2}+\alpha {{\left\| \omega \right\|}_{1}} ωmin​2nsameples​1​∥Xω−y∥2​2+α∥ω∥1​

对其参数的求解有两种方法坐标下降算法和最小角回归 。

坐标下降算法

看了很多博文,感觉把坐标下降算法说清楚的百度百科,现摘录如下:

“坐标下降法(coordinate descent)是一种非梯度优化算法。算法在每次迭代中,在当前点处沿一个坐标方向进行一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方向。对于不可拆分的函数而言,算法可能无法在较小的迭代步数中求得最优解。为了加速收敛,可以采用一个适当的坐标系,例如通过主成分分析获得一个坐标间尽可能不相互关联的新坐标系。”

官方手册示例再现

示例一: Lasso和Elastic Net(弹性网络)在稀疏信号上的表现:

import numpy as np
import matplotlib.pyplot as plt

from sklearn.metrics import r2_score

# #############################################################################
# Generate some sparse data to play with
np.random.seed(42)

n_samples, n_features = 50, 100
X = np.random.randn(n_samples, n_features)

# Decreasing coef w. alternated signs for visualization
idx = np.arange(n_features)
coef = (-1) ** idx * np.exp(-idx / 10)
coef[10:] = 0  # sparsify coef
y = np.dot(X, coef)

# Add noise
y += 0.01 * np.random.normal(size=n_samples)

# Split data in train set and test set
n_samples = X.shape[0]
X_train, y_train = X[:n_samples // 2], y[:n_samples // 2]
X_test, y_test = X[n_samples // 2:], y[n_samples // 2:]

# #############################################################################
# Lasso
from sklearn.linear_model import Lasso

alpha = 0.1
lasso = Lasso(alpha=alpha)

y_pred_lasso = lasso.fit(X_train, y_train).predict(X_test)
r2_score_lasso = r2_score(y_test, y_pred_lasso)
print(lasso)
print("r^2 on test data : %f" % r2_score_lasso)

# #############################################################################
# ElasticNet
from sklearn.linear_model import ElasticNet

enet = ElasticNet(alpha=alpha, l1_ratio=0.7)

y_pred_enet = enet.fit(X_train, y_train).predict(X_test)
r2_score_enet = r2_score(y_test, y_pred_enet)
print(enet)
print("r^2 on test data : %f" % r2_score_enet)

m, s, _ = plt.stem(np.where(enet.coef_)[0], enet.coef_[enet.coef_ != 0],
                   markerfmt='x', label='Elastic net coefficients')
plt.setp([m, s], color="#2ca02c")
m, s, _ = plt.stem(np.where(lasso.coef_)[0], lasso.coef_[lasso.coef_ != 0],
                   markerfmt='x', label='Lasso coefficients')
plt.setp([m, s], color='#ff7f0e')
plt.stem(np.where(coef)[0], coef[coef != 0], label='true coefficients', markerfmt='bx')

plt.legend(loc='best')
plt.title("Lasso $R^2$: %.3f, Elastic Net $R^2$: %.3f"
          % (r2_score_lasso, r2_score_enet))
plt.show()
           
机器学习-04 基于sklearn 广义线性模型- Lasso回归Lasso回归坐标下降算法官方手册示例再现重要代码解释

示例二: 压缩感知_断层重建:

层析成像投影操作是线性变换。除了对应于线性回归的数据保真度项之外,我们还对图像的L1范数进行了惩罚,以考虑其稀疏性。由此产生的优化问题称为套索。我们使用class sklearn.linear_model.Lasso,它使用坐标下降算法。重要的是,与在此使用的投影运算符相比,该实现在稀疏矩阵上的计算效率更高。

# Author: Emmanuelle Gouillart <[email protected]>
# License: BSD 3 clause

import numpy as np
from scipy import sparse
from scipy import ndimage
from sklearn.linear_model import Lasso
from sklearn.linear_model import Ridge
import matplotlib.pyplot as plt


def _weights(x, dx=1, orig=0):
    x = np.ravel(x)
    floor_x = np.floor((x - orig) / dx).astype(np.int64)
    alpha = (x - orig - floor_x * dx) / dx
    return np.hstack((floor_x, floor_x + 1)), np.hstack((1 - alpha, alpha))


def _generate_center_coordinates(l_x):
    X, Y = np.mgrid[:l_x, :l_x].astype(np.float64)
    center = l_x / 2.
    X += 0.5 - center
    Y += 0.5 - center
    return X, Y


def build_projection_operator(l_x, n_dir):
    """ Compute the tomography design matrix.

    Parameters
    ----------

    l_x : int
        linear size of image array

    n_dir : int
        number of angles at which projections are acquired.

    Returns
    -------
    p : sparse matrix of shape (n_dir l_x, l_x**2)
    """
    X, Y = _generate_center_coordinates(l_x)
    angles = np.linspace(0, np.pi, n_dir, endpoint=False)
    data_inds, weights, camera_inds = [], [], []
    data_unravel_indices = np.arange(l_x ** 2)
    data_unravel_indices = np.hstack((data_unravel_indices,
                                      data_unravel_indices))
    for i, angle in enumerate(angles):
        Xrot = np.cos(angle) * X - np.sin(angle) * Y
        inds, w = _weights(Xrot, dx=1, orig=X.min())
        mask = np.logical_and(inds >= 0, inds < l_x)
        weights += list(w[mask])
        camera_inds += list(inds[mask] + i * l_x)
        data_inds += list(data_unravel_indices[mask])
    proj_operator = sparse.coo_matrix((weights, (camera_inds, data_inds)))
    return proj_operator


def generate_synthetic_data():
    """ Synthetic binary data """
    rs = np.random.RandomState(0)
    n_pts = 36
    x, y = np.ogrid[0:l, 0:l]
    mask_outer = (x - l / 2.) ** 2 + (y - l / 2.) ** 2 < (l / 2.) ** 2
    mask = np.zeros((l, l))
    points = l * rs.rand(2, n_pts)
    mask[(points[0]).astype(np.int), (points[1]).astype(np.int)] = 1
    mask = ndimage.gaussian_filter(mask, sigma=l / n_pts)
    res = np.logical_and(mask > mask.mean(), mask_outer)
    return np.logical_xor(res, ndimage.binary_erosion(res))


# Generate synthetic images, and projections
l = 128
proj_operator = build_projection_operator(l, l // 7)
data = generate_synthetic_data()
proj = proj_operator * data.ravel()[:, np.newaxis]
proj += 0.15 * np.random.randn(*proj.shape)

# Reconstruction with L2 (Ridge) penalization
rgr_ridge = Ridge(alpha=0.2)
rgr_ridge.fit(proj_operator, proj.ravel())
rec_l2 = rgr_ridge.coef_.reshape(l, l)

# Reconstruction with L1 (Lasso) penalization
# the best value of alpha was determined using cross validation
# with LassoCV
rgr_lasso = Lasso(alpha=0.001)
rgr_lasso.fit(proj_operator, proj.ravel())
rec_l1 = rgr_lasso.coef_.reshape(l, l)

plt.figure(figsize=(8, 3.3))
plt.subplot(131)
plt.imshow(data, cmap=plt.cm.gray, interpolation='nearest')
plt.axis('off')
plt.title('original image')
plt.subplot(132)
plt.imshow(rec_l2, cmap=plt.cm.gray, interpolation='nearest')
plt.title('L2 penalization')
plt.axis('off')
plt.subplot(133)
plt.imshow(rec_l1, cmap=plt.cm.gray, interpolation='nearest')
plt.title('L1 penalization')
plt.axis('off')

plt.subplots_adjust(hspace=0.01, wspace=0.01, top=1, bottom=0, left=0,
                    right=1)

plt.show()
           

即使将噪声添加到投影中,使用L1罚分进行的重建也会产生零误差的结果(所有像素都成功标记为0或1)。相比之下,L2惩罚(sklearn.linear_model.Ridge)对像素产生大量标记错误。与L1惩罚相反,在重建的图像上观察到重要的伪影。特别要注意的是,圆形假象将角落中的像素分开,与中央磁盘相比,投影造成的投影更少。

机器学习-04 基于sklearn 广义线性模型- Lasso回归Lasso回归坐标下降算法官方手册示例再现重要代码解释

重要代码解释

关于电子计算机扫描的输入与输出问题:

扫描所得信息经计算而获得每个体素的X射线衰减系数或吸收系数,再排列成矩阵,即数字矩阵(digital matrix),数字矩阵可存贮于磁盘或光盘中。经数字/模拟转换器(digital/analog converter)把数字矩阵中的每个数字转为由黑到白不等灰度的小方块,即像素(pixel),并按矩阵排列,即构成CT图像。所以,CT图像是重建图像。每个体素的X射线吸收系数可以通过不同的数学方法算出。

alpha = 0.1
lasso = Lasso(alpha=alpha)
y_pred_lasso = lasso.fit(X_train, y_train).predict(X_test)
           
  • 声明Lasso模型。
  • 利用fit()进行模型训练,使用predict()函数进行模型预测。