需求:
你有沒有遇到過不同資料庫之間資料對接的需求,比如:mysql資料庫裡的資料要儲存到oracle資料庫裡,或者是excel裡的資料要儲存到資料庫裡,或者是資料庫的資料要定時的儲存到檔案中等等資料對接的問題。下面就開始介紹一款軟體來幫助我們實作各種資料對接的問題,這将是一個系列的部落格,這篇隻是個開始,後面将陸續的通過執行個體來講解軟體如何使用,當然不可能面面俱到,很多功能還需要我們不斷的挖掘和完善。
工具介紹:
說了這麼多這個軟體到底是什麼呢?就是一個我們中文意思是水壺的英文單詞kettle,當然它的原意不是這樣的,它是“kettle e.t.t.l. envirnonment”隻取首字母的縮寫,這意味着它被設計用來幫助你實作你的ettl需要:抽取、轉換、裝入和加載資料。kettle也叫 pdi,在2006年 kettle 加入了開源的 bi 組織 pentaho, 正式命名為pdi,英文全稱為pentaho data integeration。這個工具也正如我們中文翻譯為水壺那樣,它希望把所有需要的資料放到一個水壺裡,然後以流的方式流出來。
功能介紹:
kettle可以建立兩種腳本檔案,一種是transformation(*.ktr),就是任務,比如抽取資料,合并修改後再存入資料庫什麼的。 另一種是job(*.kjb),就是用來調用transformation的,類似oracle裡的job調用存儲過程。如下面的圖分别是transformation腳本和job腳本。
上面兩張圖是兩種腳本,通過第二種腳本調用第一種腳本我們可以配置定時任務,可以指定時間讓系統自動執行資料抓取以及轉換,是不是很強大的工具,不着急,後面才是真正的開始,看看它到底能有多大學事。
運作環境:
如何啟動:
spoon是一個圖形使用者界面,它允許你運作轉換或者任務,其中轉換是用pan工具來運作,任務是用kitchen來運作。pan是一個資料轉換引擎,它可以執行很多功能,例如:從不同的資料源讀取、操作和寫入資料。kitchen是一個可以運作利用xml或資料資源庫描述的任務。通常任務是在規定的時間間隔内用批處理的模式自動運作。
下面是在不同的平台上運作spoon所支援的腳本:
spoon.bat:在windows 平台運作spoon。
spoon.sh:在 linux、apple osx、solaris 平台運作 spoon。
這篇就介紹到這裡,下一篇我們進入執行個體講解…