天天看點

wordcloud和jieba 的學習

wordcloud和jieba的安裝都很簡單 都是pip install 直接安裝就行,但是在學校機房,那個詞雲就是安裝完就是報錯,很奇怪,自己的電腦很順利。!!!

然後 其實也不是自己寫的 就直接從網上找的例子,自己看了看 感覺能看懂 嘻嘻 好懶~

說說重點步驟吧

1、

def getText(text):#該函數用來替換文本中出現的特殊字元
    txt = text
    for ch in '!"#$%&()*+,-./:;<=>[email protected][\\]^_‘{|}~,。、 :':
        txt = txt.replace(ch, "")   #将文本中特殊字元替換為空格
    return txt

           

先将文本中的特殊字元去除

2、

`

讀取文本

3、

s = re.compile('[email protected]片.+9879576219')#編寫正規表達式
message = re.sub(s,'',string)
           

将無關的字元變成空格

4、

# 繪制詞雲
def draw_wordcloud():
    #讀入一個txt檔案
    comment_text = open('F:\program\MyProjects\clustering\\fenci1.0\wordseg_result.txt','r').read()
    #結巴分詞,生成字元串,如果不通過分詞,無法直接生成正确的中文詞雲
    cut_text = " ".join(jieba.cut(comment_text))
    d = path.dirname(__file__) # 目前檔案檔案夾所在目錄
    color_mask = imread("Anne_Hathaway.png") # 讀取背景圖檔
    cloud = WordCloud(
        #設定字型,不指定就會出現亂碼
        font_path="HYQiHei-25J.ttf",
        #font_path=path.join(d,'simsun.ttc'),
        #設定背景色
        background_color='white',
        #詞雲形狀
        mask=color_mask,
        #允許最大詞彙
        max_words=2000,
        #最大号字型
        max_font_size=40
    )
    word_cloud = cloud.generate(cut_text) # 産生詞雲
    word_cloud.to_file("pjl_cloud4.jpg") #儲存圖檔
    #  顯示詞雲圖檔
    plt.imshow(word_cloud)
    plt.axis('off')
    plt.show()
           

總結: 這個大體的功能就這些了 剩下的就是應用了 和前期處理 如何讓無用的資料不影響資料很關鍵!

加油加油哦 ccc