例子里用到的 org.htmlparser.Parser 是一個html 的解析器,可以在 sourceforge 上下載。

10年積累的
成都做網(wǎng)站、網(wǎng)站設計經(jīng)驗,可以快速應對客戶對網(wǎng)站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡服務。我雖然不認識你,你也不認識我。但先
網(wǎng)站設計后付款的網(wǎng)站建設流程,更有
丹棱免費網(wǎng)站建設讓你可以放心的選擇與我們合作。
這個例子使用 org.htmlparser.Parser 包來解析一個 html 格式的字符串,要解析的 html 字符串保存在conntentOld 字段里。
解析過程去除了 html 格式里所有標簽,并將結果保存在 content 字段里。
注意事項:
1. 需要事先將htmlparser.jar包 放在kettle 的 libext 目錄,kettle 在啟動時會自動加載libext 目錄下的所有 jar 包。
2. modified java script 步驟要選中 compatibility mode,并將 content 設置為輸出的字段。
代碼如下:
[@more@]var parser = new Packages.org.htmlparser.Parser( contentOld );
var visitor = new Packages.org.htmlparser.visitors.TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
var content = visitor.getExtractedText();
文章名稱:kettlemodifiedjavascript步驟的一個例子-創(chuàng)新互聯(lián)
本文地址:
http://weahome.cn/article/dgdcpg.html