前面介紹了表輸入的插件,我們可以用它來查詢資料庫表裡的資料,那如果資料不在資料庫裡我們是不是沒沒有辦法擷取了呢?答案是否定的,這個軟體還提供了其它的插件可以讓我們輕松的擷取excel、xml、文本檔案等檔案裡的資料 ,下面我們就一起來簡單的了解一下這些插件:
1、 沒有空行:不往下一步驟發送空行
2、 輸出包括檔案名:輸出包含檔案名字段
3、 輸出包含行數:輸出字段包含行号
4、 格式:可以是dos、 unix或混合模式。unix行終止可以是回車、dos是回車或換行。混合模式則不驗證。
5、 編碼方式:預設編碼方式。unicode編碼方式有utf-8,utf-16
6、 記錄數量限制:設定讀取記錄的行數,0表示所有的。
7、 解析日期時是否嚴格要求:啟用時1月32将變為2月1号
8、 錯誤處理标簽:當錯誤發生時,錯誤處理标簽可以允許你指定這個步驟将重新做些什麼。
9、 忽略錯誤
10、跳過錯誤行:如果不跳過錯誤行,解析錯誤字段将是空的。
11、錯誤計數字段:在輸出流中增加一個字段,這個字段将包含錯誤發生的行數。
12、錯誤字段字段名:輸出流增加字段,該字段包含錯誤發生的字段名稱。
13、錯誤文本字段:輸出流增加字段,該字段包含解析錯誤發生字段的描述。
14、警告檔案目錄:當警告發生時,檔案将被放進該目錄,檔案名為:檔案名。<日期時間>.<錯誤檔案擴充>
15、錯誤檔案目錄:當錯誤發生時,檔案将被放進該目錄,檔案名為:檔案名.<日期時間>.<錯誤檔案擴充>
16、失敗行數檔案目錄:當解析發生錯誤,行号将被放進該目錄,檔案名将是:檔案名.<日期時間>.<錯誤行擴充>
17、過濾标簽:可以用來指定檔案檔案中要過濾的行。
18、過濾字元串:搜尋字元串,将符合條件的行從輸出中去掉。
19、過濾器位置: 0:起始位置。不填(<0):表示搜尋整個字元。
20、停止在過濾器:如果想在文本檔案遇到過濾字元時停止處理,就指定“y”。
1、 工作表名稱
2、 起始行 :開始讀取的行。
3、 起始列:開始讀取的列。
4、 頭部:檢查工作表是否指定了一個頭部行。
5、 非空記錄:檢查是否不需要空行輸出。
6、 停在空記錄:當遇空行時停止讀取。
7、 檔案名稱字段:步驟輸出指定一個包含檔案名的字段。
8、 工作表名稱字段:步驟輸出指定一個包含工作表名稱的字段。
9、 行号列:指定輸出行号列字段名稱。
1、 loop xpath:選擇/rows/row
2、 ignore comments:忽略注釋
3、 validate xml:驗證xml ,一般不驗證
4、 ignore empty file:忽略空檔案
5、 include filename in output:輸出步驟包含檔案名字段
6、 rownum in output:輸出包含行号字段。
從二進制kettlecube檔案中讀取資料行
還有很多資料輸入插件,比如:microsoft access input、mondrian input、ldif input、email messages input、mongodb input、property input、rss input、json input、olap input、xbase輸入等等,這裡就不一一介紹了,如果用到了我們可以去深入學習一下,它們的圖示如下圖:
總結:上面的這些插件基本上可以滿足我們擷取各種資訊來源的資料,通過腳本處理我們還可以将有用的資料輸出到指定好的檔案中,下一篇我們繼續了解輸出插件。