天天看點

python 庫安裝方法及常用庫

python庫安裝方法:

方法一:setpu.py

1.下載下傳庫壓縮包,解壓,記錄下路徑:*:/**/……/

2.運作cmd,切換到*:/**/……/目錄下

3.運作setup.py build

4.然後輸入python,進入python子產品,驗證是否安裝成功

方法二:

1.Win + R 打開運作視窗,輸入cmd回車

2.找到pip安裝路徑——x:\Python xx\Scripts

3. 在指令行中切換至該目錄cd x:\Python xx\Scripts

4.輸入 pip install ***(庫名稱)

常用庫大全:

1.os——通過python實作作業系統中的功能:建立檔案夾、指定路徑等

2.爬取網頁

2.1 urllib——爬取網頁

  urllib.request

2.2 bs4——對網頁按照标簽提取資訊(需下載下傳)

2.3 re——(Regular Expression 正規表達式)

2.4 Requests 庫——擅長處理那些複雜的HTTP 請求、cookie、header(響應頭和請求頭)等内容的Python 第三方庫(https://github.com/kennethreitz/requests/tarball/master) 

2.5 smtplib——收發郵件

2.6 Selenium 庫是一個在WebDriver 上調用的API。WebDriver 有點兒像可以加載網站的浏覽器,但是它也可以像BeautifulSoup 對象一樣用來查找頁面元素,與頁面上的元素進行互動

(發送文本、點選等),以及執行其他動作來運作網絡爬蟲。

2.7 collections ——資料結構

2.8 import random

PhantomJS 是一個“無頭”(headless)浏覽器。它會把網站加載到記憶體并執行頁面上的JavaScript,但是它不會向使用者展示網頁的圖形界面。把Selenium 和PhantomJS 結合在一

起,就可以運作一個非常強大的網絡爬蟲了,可以處理cookie、JavaScrip、header,以及任何你需要做的事情。

3.資料存儲

3.1 pymysql——python存儲資料至mysql資料庫

3.2 xlrd,xlwt——将資料寫入excel的操作

4.檔案讀取

4.1 PDFMiner3K——取PDF 檔案   https://pypi.python.org/pypi/pdfminer3k

4.2 ython-docx 庫——持建立新文檔和讀取一些基本的檔案資料,如檔案大小和檔案标題,不支援正文讀取。

5.算法

5.1 NLTK——自然語言處理     www.nltk.org  統計分析、詞義分析——書籍:Natural Language Processing with Python

5.2 Pillow 和Tesseract——圖像識别與文字處理

  (http://pillow.readthedocs.org/)

  Tesseract 是目前公認最優秀、最精确的開源OCR 系統。Tesseract 是一個Python 的指令行工具,不是通過import語句導入的庫。安裝之後,要用tesseract 指令在Python 的外面運作。在Windows 系統上,下載下傳友善的可執行安裝檔案(https://code.google.com/p/tesseract-ocr/downloads/list)安裝即可。Tesseract 最大的缺點是對漸變背景色的處理。

  建立圖檔定位檔案:每個字元是什麼,以及每個字元的具體位置——線上工具Tesseract OCR Chopper(http://pp19dd.com/tesseract-ocr-chopper/),因為它不需要安裝,也沒有其他依賴,隻要有浏覽器就可以運作,而且用法很簡單:上傳圖檔,如果要增加新矩形就單擊“add”按鈕,還可以根據需要調整矩形的尺寸,最後把新生成的矩形定位檔案複制到一個新檔案裡就可以了。

  如果你對Tesseract 的其他訓練方法感興趣,甚至打算建立自己的驗證碼訓練檔案庫,或者想和全世界的Tesseract 愛好者分享自己對一種新字型的識别成果,那麼我推薦你仔細閱讀Tesseract的文檔(https://github.com/tesseract-ocr/tesseract/wiki)。

5.3 NumPy——因為NumPy 可以用數學方法把圖檔表示成巨大的像素數組,是以它可以流暢地配合Tesseract 完成任務。

6.JavaScript庫

6.1 jQuery 

6.2 Google Analytics

7.GUI庫

7.1 tkinter——python3

 本文轉自 技術花妞妞 51CTO部落格,原文連結:http://blog.51cto.com/xiaogongju/1975872