天天看點

Atitit nlp 自然語言處理的藝術 attilax著作 v2 t55.docx Atitit nlp 自然語言處理attilax總結 目錄 1.1. 主要範疇 1 1.2. 研究難點

Atitit nlp   自然語言處理的藝術 attilax著作 v2 t55.docx

Atitit nlp   自然語言處理attilax總結

目錄

1.1. 主要範疇 1

1.2. 研究難點 2

2. Ati涉及的領域(文檔 tts 分詞   抽取 摘要 檢索) 3

3. 中文分詞原理與實作 11 3

4. 第6章 資訊提取 271 4

5. 第7章 自動摘要 304 4

6. 第8章 文本分類 319 4

7. 第9章 文本傾向性分析 364 4

8. 機器翻譯 4

9. 第11章 語音識别 4

10. 資訊檢索 4

11. 應用 4

11.1. 問答系統  自動翻譯 4

12. Atitit NLP---資訊檢索概論方面的書籍目錄 4

12.1. Atitit 現代資訊檢索 4

12.2. 《資訊檢索導論》((美)曼甯...)【簡介_書評_線上閱讀】 - dangdang.html 5

12.3. Atitit 自然語言處理原理與實作 attilax總結 6

13. 參考 6

13.1. Atitit.資料檢索與網絡爬蟲與資料采集的原理概論 6

13.2. 推薦新書《自然語言處理原理與技術實作》 - 自然語言處理-煉數成金-Dataguru專業資料分析社群.html 7

    1. 主要範疇

編輯

文本朗讀(Text to speech)/語音合成(Speech synthesis)

語音識别(Speech recognition)

中文自動分詞(Chinese word segmentation)

詞性标注(Part-of-speech tagging)

句法分析(Parsing)

自然語言生成(Natural language generation)

文本分類(Text categorization)

資訊檢索(Information retrieval)

資訊抽取(Information extraction)  摘要

文字校對(Text-proofing)

問答系統(Question answering)

機器翻譯(Machine translation)

自動摘要(Automatic summarization)

文字蘊涵(Textual entailment)

    1. 研究難點

編輯

單詞的邊界界定

在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。

詞義的消歧

許多字詞不單隻有一個意思,因而我們必須選出使句意最為通順的解釋。

句法的模糊性

自然語言的文法通常是模棱兩可的,針對一個句子通常可能會剖析(Parse)出多棵剖析樹(Parse Tree),而我們必須要仰賴語意及前後文的資訊才能在其中選擇一棵最為适合的剖析樹。

有瑕疵的或不規範的輸入

例如語音處理時遇到外國口音或地方口音,或者在文本的進行中處理拼寫,文法或者光學字元識别(OCR)的錯誤。

語言行為與計劃

句子常常并不隻是字面上的意思;例如,“你能把鹽遞過來嗎”,一個好的回答應當是把鹽遞過去;在大多數上下文環境中,“能”将是糟糕的回答,雖說回答“不”或者“太遠了我拿不到”也是可以接受的。再者,如果一門課程去年沒開設,對于提問“這門課程去年有多少學生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。

  1. Ati涉及的領域(文檔 tts 分詞   抽取 摘要 檢索)

文本朗讀(Text to speech)/語音合成(Speech synthesis)

語音識别(Speech recognition)

中文自動分詞(Chinese word segmentation)

自然語言生成(Natural language generation)

文本分類(Text categorization)

問答系統(Question answering)

資訊檢索(Information retrieval)

資訊抽取(Information extraction)  摘要

自動摘要(Automatic summarization)

  1. 中文分詞原理與實作 11

2.2 查找詞典算法 13

2.2.1 标準Trie樹 14

2.2.2 三叉Trie樹 18

2.2.3 詞典格式 26

  1.  第6章 資訊提取 271
  2. 第7章 自動摘要 304
  3. 第8章 文本分類 319
  4. 第9章 文本傾向性分析 364
  5. 機器翻譯
  6. 第11章 語音識别
  7. 資訊檢索
  8. 應用
    1. 問答系統  自動翻譯
  9. Atitit NLP---資訊檢索概論方面的書籍目錄
    1. Atitit 現代資訊檢索

Line 1: 第1章 引言

Line 22: 第2章 使用者搜尋界面

Line 44: 第3章 資訊檢索模組化

Line 79: 第4章 檢索評價

Line 104: 第5章 相關回報與查詢擴充

Line 123: 第6章 文檔:語言及屬性

Line 160: 第7章 查詢:語言及屬性

Line 175: 第8章 文本分類

Line 210: 第9章 索引和搜尋

Line 238: 第10章 并行與分布式資訊檢索

Line 260: 第11章 Web檢索

Line 307: 第12章 Web爬取

Line 333: 第13章 結構化文字檢索

Line 360: 第14章 多媒體資訊檢索

Line 409: 第15章 企業搜尋

Line 444: 第16章 圖書館系統

Line 460: 第17章 數字圖書館

    1. 《資訊檢索導論》((美)曼甯...)【簡介_書評_線上閱讀】 - dangdang.html

第1章 布爾檢索

第2章 詞項詞典及倒排記錄表

第3章 詞典及容錯式檢索

第4章 索引建構

第5章 索引壓縮

第6章 文檔評分、詞項權重計算及向量空間模型

第7章 一個完整搜尋系統中的評分計算

第8章 資訊檢索的評價

第9章 相關回報及查詢擴充

第10章 XML檢索

第11章 機率檢索模型

第12章 基于語言模組化的資訊檢索模型

第13章 文本分類及樸素貝葉斯方法

第14章 基于向量空間模型的文本分類

第15章 支援向量機及文檔機器學習方法

    1. Atitit 自然語言處理原理與實作 attilax總結

1.1. 中文分詞原理與實作 11 1

1.2. 英文分析 194 2

1.3. 第6章 資訊提取 271 2

1.4. 第7章 自動摘要 304 2

1.5. 第8章 文本分類 319 2

1.6. 第9章 文本傾向性分析 364 2

1.7. 第10章 問答系統 374 2

1.8. 第11章 語音識别 413 2

1.9. 對自然語言處理的兩個學派(語言學派和統計學派 2

1.10. 《自然語言處理綜論》 3

1.11. 《統計自然語言處理基礎》(Foundations of Statistical Natural Language Processing) 3

1.12. 機器翻譯 3

1.13. Atitit 自然語言處理原理與實作 attilax總結 4

  1. 參考
    1. Atitit.資料檢索與網絡爬蟲與資料采集的原理概論

幾本自然語言處理入門書 _ 我愛自然語言處理.html

自然語言處理與計算語言學書籍彙總之五:機器翻譯 _ 我愛自然語言處理.html

參考資料

    1. 推薦新書《自然語言處理原理與技術實作》 - 自然語言處理-煉數成金-Dataguru專業資料分析社群.html

ref

(9+條消息)java的TTS(Text to Speech)的實作 - gudujohn的部落格 - CSDN部落格

用FreeTTS實作Java語音程式 - - ITeye部落格.html