一. NLTK中的詞典資源
詞典或詞典資源是一個詞或短語及其相關資訊的集合。
1. 詞彙清單語料庫
詞彙語料庫是UNIX中的/usr/dict/words檔案,被一些拼寫檢查程式所使用。可用來尋找文本語料中不常見的或拼寫錯誤的詞彙。
(1). 過濾文本
2. 停用語料詞庫
停用語料詞庫包括的是高頻詞彙,如the,to,和and,有時在進一步進行處理之前需要将它們從文檔中過濾。停用詞通常沒有什麼詞彙内容,但它們的出現會使區分文本變得困難。
(1)NLTK中的停用語料詞庫
(2)過濾停用詞
例:定義一個函數來計算文本中不包含在停用清單中的詞所占的比例。
3. 名字語料庫
名字語料庫包含8000個按性别分類的名字。男性和女性的名字存儲在單獨的檔案中。
(1)找到同時出現在兩個檔案中的名字即分辨不出性别的名字。
(2)研究男性與女性名字結尾的字母
4.表格詞典
表格詞典:在每一行含有一個詞及其一些性質
(1)CMU發音詞典
CMU發音詞典為語音合成器而設計。
對任意一個詞,詞典資源都有語音的代碼,不同的聲音有不同的标簽(音素)
(2)比較詞典
斯瓦蒂士核心詞清單:包含幾種語言的約200個常用詞的清單,語言辨別符使用ISO639雙字母碼。
通過使用entries()方法來指定一個語言連結清單來通路多語言中的同源詞,而且還可以把它轉換成一個簡單的詞典。
swadesh.fileids()獲得的是語言的類别。
swadesh.words('en')獲得的是英語語言下的詞清單。
可以使用該詞表實作一個小小的翻譯器(法語,德語,西班牙語翻譯成英文)