【簡單總結】jieba分詞回顧與總結
一、安裝方法
- 自動安裝 pip install jieba
- 半自動安裝:下載下傳 http://pypi.python.org/pypi/jieba,解壓後運作 python setup.py install
- 手動安裝:将jieba目錄放置于目前目錄或sit-packages目錄下
二、jieba分詞簡單介紹
一、支援三種分詞模式與特點:
- 精準模式:試圖将句子最精确地切分開,适合文本分析
- 全模式:把句子中所有的可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義
- 搜尋引擎模式:在精确模式的基礎上,對長詞可以再次切分,提高召回率,适合用于搜尋引擎分詞
import jieba
s = u'jieba(結巴)是一個強大的分詞庫,完美支援中文分詞 '
cut = jieba.cut(s)
#三種模式
print( '【Output】精确模式:')
print (cut)
print ('/'.join(cut))
print( '【Output】全模式:')
print ('/'.join(jieba.cut(s,cut_all = True)))
print( '【Output】搜尋引擎模式:')
print('/'.join(jieba.cut_for_search(s)))
二、jieba分詞在進行中文文本分析是比較常用的工具,這裡主要是基于自學後得到的實作文本jieba分詞的常用流程:
加載自定義詞典——>擷取關鍵詞——>去除停用詞——>資料處理
1、加載自定義詞典
jieba分詞自帶詞典,可能不能包括一些專業詞彙,會造成分詞結果不準确,可以通過自定義詞典解決這一問題。
# 加載自定義詞典
jieba.load_userdict("newdic.txt")
其中“newdic.txt”是自定義詞典的路徑。其中自定義詞典的格式:一個詞占一行;每一行分三部分,一部分為詞語,另一部分為詞頻(可省略),最後為詞性(可省略),用空格隔開。
2、擷取關鍵詞
主要借助jieba.cut()和jieba.lcut()兩個函數完成,兩個函數生成的對象不同,要注意後續操作。
# jieba.cut 生成generator
# 全模式分詞
seg_list = jieba.cut("我來北京上學", cut_all=True)
print("Full Model " + '/'.join(seg_list))
# 精确模式 (預設)
seg_list = jieba.cut("我來北京上學", cut_all=False)
# jieba.lcut 生成List
tags = jieba.lcut(text)
tags_df = pd.DataFrame({'segment': tags})
3、去除停用詞
去除停用詞後可以更精準的進行文本分析,停用詞表可以借鑒網上的中文停用詞詞表。首先要加載本地停用詞表,然後針對不同的對象采用特定的方法進行停用詞去除。
# 去除停用詞
stopword = pd.read_csv("stopwords.txt", header=None, names=['words'], encoding='utf-8')
tags_df = tags_df[~tags_df['segment'].isin(stopword.words)]
print(tags_df)
4、資料處理
文本一般進行停用詞去除後就可以進行後續處理,jieba分詞處理文本後,所得到的關鍵詞是會存在重複的情況,這裡通過計算關鍵詞詞頻進行文本的資料處理,可以得到出現次數較多的關鍵詞。
# 詞頻計數
word_count = tags_df.groupby('segment')['segment'].count().sort_values(ascending=False)
print(word_count[:5])
三、應用執行個體:
1.詞性标注:
import jieba.posseg as pseg
test_sent = "jieba分詞在進行中文文本分析是比較常用的工具,這裡主要是基于自學後得到的實作文本jieba分詞的常用流程:"
test_sent += "jieba分詞在進行中文文本分析是比較常用的工具,這裡主要是基于自學後得到的實作文本jieba分詞的常用流程:"
result = pseg.cut(test_sent)
for w in result:
print(w.word, "/", w.flag, ", ",)
print("\n========")
2.關鍵詞提取
import sys
sys.path.append('../')
import jieba
import jieba.analyse
from optparse import OptionParser
USAGE = "usage: python extract_tags.py [file name] -k [top k]"
parser = OptionParser(USAGE)
parser.add_option("-k", dest="topK")
opt, args = parser.parse_args()
#'''
if len(args) < 1:
print(USAGE)
sys.exit(1)
#'''
file_name = args[0]
#file_name=u"story.txt"
if opt.topK is None:
topK = 10
else:
topK = int(opt.topK)
content = open(file_name, 'rb').read()
tags = jieba.analyse.extract_tags(content, topK=topK)
print(",".join(tags) )