天天看點

資料對接—kettle使用之六

前面介紹了表輸入的插件,我們可以用它來查詢資料庫表裡的資料,那如果資料不在資料庫裡我們是不是沒沒有辦法擷取了呢?答案是否定的,這個軟體還提供了其它的插件可以讓我們輕松的擷取excel、xml、文本檔案等檔案裡的資料 ,下面我們就一起來簡單的了解一下這些插件:

1、 沒有空行:不往下一步驟發送空行

2、 輸出包括檔案名:輸出包含檔案名字段

3、 輸出包含行數:輸出字段包含行号

4、 格式:可以是dos、 unix或混合模式。unix行終止可以是回車、dos是回車或換行。混合模式則不驗證。

5、 編碼方式:預設編碼方式。unicode編碼方式有utf-8,utf-16

6、 記錄數量限制:設定讀取記錄的行數,0表示所有的。

7、 解析日期時是否嚴格要求:啟用時1月32将變為2月1号

8、 錯誤處理标簽:當錯誤發生時,錯誤處理标簽可以允許你指定這個步驟将重新做些什麼。

9、 忽略錯誤

10、跳過錯誤行:如果不跳過錯誤行,解析錯誤字段将是空的。

11、錯誤計數字段:在輸出流中增加一個字段,這個字段将包含錯誤發生的行數。

12、錯誤字段字段名:輸出流增加字段,該字段包含錯誤發生的字段名稱。

13、錯誤文本字段:輸出流增加字段,該字段包含解析錯誤發生字段的描述。

14、警告檔案目錄:當警告發生時,檔案将被放進該目錄,檔案名為:檔案名。<日期時間>.<錯誤檔案擴充>

15、錯誤檔案目錄:當錯誤發生時,檔案将被放進該目錄,檔案名為:檔案名.<日期時間>.<錯誤檔案擴充>

16、失敗行數檔案目錄:當解析發生錯誤,行号将被放進該目錄,檔案名将是:檔案名.<日期時間>.<錯誤行擴充>

17、過濾标簽:可以用來指定檔案檔案中要過濾的行。

18、過濾字元串:搜尋字元串,将符合條件的行從輸出中去掉。

19、過濾器位置: 0:起始位置。不填(<0):表示搜尋整個字元。

20、停止在過濾器:如果想在文本檔案遇到過濾字元時停止處理,就指定“y”。

資料對接—kettle使用之六

1、  工作表名稱

2、  起始行 :開始讀取的行。

3、  起始列:開始讀取的列。

4、  頭部:檢查工作表是否指定了一個頭部行。

5、  非空記錄:檢查是否不需要空行輸出。

6、  停在空記錄:當遇空行時停止讀取。

7、  檔案名稱字段:步驟輸出指定一個包含檔案名的字段。

8、  工作表名稱字段:步驟輸出指定一個包含工作表名稱的字段。

9、  行号列:指定輸出行号列字段名稱。

資料對接—kettle使用之六

1、  loop xpath:選擇/rows/row

2、  ignore comments:忽略注釋

3、  validate xml:驗證xml ,一般不驗證

4、  ignore empty file:忽略空檔案

5、  include filename in output:輸出步驟包含檔案名字段

6、  rownum in output:輸出包含行号字段。

資料對接—kettle使用之六

         從二進制kettlecube檔案中讀取資料行

資料對接—kettle使用之六

還有很多資料輸入插件,比如:microsoft access input、mondrian input、ldif input、email messages input、mongodb input、property input、rss input、json input、olap input、xbase輸入等等,這裡就不一一介紹了,如果用到了我們可以去深入學習一下,它們的圖示如下圖:

資料對接—kettle使用之六

總結:上面的這些插件基本上可以滿足我們擷取各種資訊來源的資料,通過腳本處理我們還可以将有用的資料輸出到指定好的檔案中,下一篇我們繼續了解輸出插件。