例子里用到的 org.htmlparser.Parser 是一個html 的解析器,可以在 sourceforge 上下載。
10年積累的成都做網(wǎng)站、網(wǎng)站設計經(jīng)驗,可以快速應對客戶對網(wǎng)站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡服務。我雖然不認識你,你也不認識我。但先網(wǎng)站設計后付款的網(wǎng)站建設流程,更有丹棱免費網(wǎng)站建設讓你可以放心的選擇與我們合作。這個例子使用 org.htmlparser.Parser 包來解析一個 html 格式的字符串,要解析的 html 字符串保存在conntentOld 字段里。
解析過程去除了 html 格式里所有標簽,并將結果保存在 content 字段里。
注意事項:
1. 需要事先將htmlparser.jar包 放在kettle 的 libext 目錄,kettle 在啟動時會自動加載libext 目錄下的所有 jar 包。
2. modified java script 步驟要選中 compatibility mode,并將 content 設置為輸出的字段。
代碼如下:
[@more@]var parser = new Packages.org.htmlparser.Parser( contentOld );