天天看點

NLP:利用DictVectorizer對使用字典存儲的資料進行特征抽取與向量化

輸出結果

NLP:利用DictVectorizer對使用字典存儲的資料進行特征抽取與向量化

實作代碼

#定義一組字典清單,用來表示多個資料樣本(每個字典代表一個資料樣本)

from sklearn.feature_extraction import DictVectorizer

measurements = [{'city': 'Shang Hai', 'temperature': 33.}, {'city': 'Bei Jing', 'temperature': 12.}, {'city': 'Las Vegas', 'temperature': 18.}]

vec = DictVectorizer()  #初始化DictVectorizer特征抽取器

print(vec.fit_transform(measurements).toarray()) #輸出轉化之後的特征矩陣

print(vec.get_feature_names())                   #輸出各個次元的特征含義

繼續閱讀