天天看點

機器學習自學筆記(2) -- 字典特征抽取

特征抽取

将任意資料轉化成可用于機器學習的特征資料。

字典特征提取

使用API

sklearn.feature_extraction

對字典提取時,使用

DictVectorizer

方法。

可以把字典轉化成二維數組(矩陣)。

示例:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer

def dict_demo():
    """
    字典特征抽取
    :return:
    """
    data = [{"city":"北京","tem":100},{"city":"上海","tem":53},{"city":"武漢","tem":65}]
    #執行個體化一個轉化類
    transfer = DictVectorizer(sparse=False)
    #調用feat_transform()
    data_new = transfer.fit_transform(data)
    print(transfer.get_feature_names())
    print(data_new)
    return None

if __name__ == '__main__':
    #字典特征抽取
    dict_demo()
           

結果:

機器學習自學筆記(2) -- 字典特征抽取

當然,

DictVectorizer(sparse=False)

中也可以不寫

sparse=False

,效果

機器學習自學筆記(2) -- 字典特征抽取