使用jsoup对HTML文档进行解析简要介绍

这里只介绍如何使用jsoup的方法,其它代码略过。
首先下载jsoup
其次,看看下面示例代码;

/**
* 获取<script>标签中src地址或者获取<a>标签中href地址 
* String html 获取页面源代码 
* String rule 选择器规则 
*/ 
Set<String> links = new LinkedHashSet<String>();
... ...
Document doc = Jsoup.parse(html);
Elements clicks = doc.select(rule);
if (clicks.size() == 1) {
    if (rule.indexOf("src") > 0) {
        links.add(clicks.get(0).attr("src"));
    }
} else {
    for(Element et : clicks){
        links.add(et.attr("href"));
    }
}
... ...


参考文档:
jsoup官网选择器方法介绍
IBM知识库:使用 jsoup 对 HTML 文档进行解析和操作

发表评论