wordcloud和jieba的安裝都很簡單 都是pip install 直接安裝就行,但是在學校機房,那個詞雲就是安裝完就是報錯,很奇怪,自己的電腦很順利。!!!
然後 其實也不是自己寫的 就直接從網上找的例子,自己看了看 感覺能看懂 嘻嘻 好懶~
說說重點步驟吧
1、
def getText(text):#該函數用來替換文本中出現的特殊字元
txt = text
for ch in '!"#$%&()*+,-./:;<=>[email protected][\\]^_‘{|}~,。、 :':
txt = txt.replace(ch, "") #将文本中特殊字元替換為空格
return txt
先将文本中的特殊字元去除
2、
`
讀取文本
3、
s = re.compile('[email protected]片.+9879576219')#編寫正規表達式
message = re.sub(s,'',string)
将無關的字元變成空格
4、
# 繪制詞雲
def draw_wordcloud():
#讀入一個txt檔案
comment_text = open('F:\program\MyProjects\clustering\\fenci1.0\wordseg_result.txt','r').read()
#結巴分詞,生成字元串,如果不通過分詞,無法直接生成正确的中文詞雲
cut_text = " ".join(jieba.cut(comment_text))
d = path.dirname(__file__) # 目前檔案檔案夾所在目錄
color_mask = imread("Anne_Hathaway.png") # 讀取背景圖檔
cloud = WordCloud(
#設定字型,不指定就會出現亂碼
font_path="HYQiHei-25J.ttf",
#font_path=path.join(d,'simsun.ttc'),
#設定背景色
background_color='white',
#詞雲形狀
mask=color_mask,
#允許最大詞彙
max_words=2000,
#最大号字型
max_font_size=40
)
word_cloud = cloud.generate(cut_text) # 産生詞雲
word_cloud.to_file("pjl_cloud4.jpg") #儲存圖檔
# 顯示詞雲圖檔
plt.imshow(word_cloud)
plt.axis('off')
plt.show()
總結: 這個大體的功能就這些了 剩下的就是應用了 和前期處理 如何讓無用的資料不影響資料很關鍵!
加油加油哦 ccc