【簡單總結】jieba分詞回顧與總結

一、安裝方法

自動安裝 pip install jieba
半自動安裝：下載下傳 http://pypi.python.org/pypi/jieba，解壓後運作 python setup.py install
手動安裝：将jieba目錄放置于目前目錄或sit-packages目錄下

二、jieba分詞簡單介紹

一、支援三種分詞模式與特點：

精準模式：試圖将句子最精确地切分開，适合文本分析
全模式：把句子中所有的可以成詞的詞語都掃描出來，速度非常快，但是不能解決歧義
搜尋引擎模式：在精确模式的基礎上，對長詞可以再次切分，提高召回率，适合用于搜尋引擎分詞

import jieba
 
s = u'jieba（結巴）是一個強大的分詞庫，完美支援中文分詞 '
cut = jieba.cut(s)
 
#三種模式
print( '【Output】精确模式：')
print (cut)
print ('/'.join(cut))
 
print( '【Output】全模式：')
print ('/'.join(jieba.cut(s,cut_all = True)))
 
print( '【Output】搜尋引擎模式：')
print('/'.join(jieba.cut_for_search(s)))

二、jieba分詞在進行中文文本分析是比較常用的工具，這裡主要是基于自學後得到的實作文本jieba分詞的常用流程：

加載自定義詞典——>擷取關鍵詞——>去除停用詞——>資料處理

1、加載自定義詞典

jieba分詞自帶詞典，可能不能包括一些專業詞彙，會造成分詞結果不準确，可以通過自定義詞典解決這一問題。

# 加載自定義詞典
jieba.load_userdict("newdic.txt")

其中“newdic.txt”是自定義詞典的路徑。其中自定義詞典的格式：一個詞占一行；每一行分三部分，一部分為詞語，另一部分為詞頻（可省略），最後為詞性（可省略），用空格隔開。

2、擷取關鍵詞

主要借助jieba.cut()和jieba.lcut()兩個函數完成，兩個函數生成的對象不同，要注意後續操作。

# jieba.cut 生成generator
# 全模式分詞
seg_list = jieba.cut("我來北京上學", cut_all=True)
print("Full Model " + '/'.join(seg_list))

# 精确模式 （預設）
seg_list = jieba.cut("我來北京上學", cut_all=False)

# jieba.lcut 生成List
tags = jieba.lcut(text)
tags_df = pd.DataFrame({'segment': tags})

3、去除停用詞

去除停用詞後可以更精準的進行文本分析，停用詞表可以借鑒網上的中文停用詞詞表。首先要加載本地停用詞表，然後針對不同的對象采用特定的方法進行停用詞去除。

# 去除停用詞
stopword = pd.read_csv("stopwords.txt", header=None, names=['words'], encoding='utf-8')
tags_df = tags_df[~tags_df['segment'].isin(stopword.words)]
print(tags_df)

4、資料處理

文本一般進行停用詞去除後就可以進行後續處理，jieba分詞處理文本後，所得到的關鍵詞是會存在重複的情況，這裡通過計算關鍵詞詞頻進行文本的資料處理，可以得到出現次數較多的關鍵詞。

# 詞頻計數
word_count = tags_df.groupby('segment')['segment'].count().sort_values(ascending=False)
print(word_count[:5])

三、應用執行個體：

1.詞性标注：

import jieba.posseg as pseg  
test_sent = "jieba分詞在進行中文文本分析是比較常用的工具，這裡主要是基于自學後得到的實作文本jieba分詞的常用流程："  
test_sent += "jieba分詞在進行中文文本分析是比較常用的工具，這裡主要是基于自學後得到的實作文本jieba分詞的常用流程："  
result = pseg.cut(test_sent)  
for w in result:  
    print(w.word, "/", w.flag, ", ",)  
print("\n========")

2.關鍵詞提取

import sys  
sys.path.append('../')  
import jieba  
import jieba.analyse  
from optparse import OptionParser  
USAGE = "usage: python extract_tags.py [file name] -k [top k]"  
parser = OptionParser(USAGE)  
parser.add_option("-k", dest="topK")  
opt, args = parser.parse_args()  
#'''
if len(args) < 1:  
    print(USAGE)  
    sys.exit(1)  
#'''   
file_name = args[0]
#file_name=u"story.txt"  
if opt.topK is None:  
    topK = 10  
else:  
    topK = int(opt.topK)   
content = open(file_name, 'rb').read()  
tags = jieba.analyse.extract_tags(content, topK=topK)  
print(",".join(tags) )

【簡單總結】jieba分詞【簡單總結】jieba分詞回顧與總結

【簡單總結】jieba分詞回顧與總結

一、安裝方法

二、jieba分詞簡單介紹

三、應用執行個體：

1.詞性标注：

2.關鍵詞提取

繼續閱讀

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

通俗了解查準率(precision)和查全率(recall)

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

人工智能如何有效地運用于自然語言處理

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡