• 使用jsoup对HTML文档进行解析简要介绍

    这里只介绍如何使用jsoup的方法,其它代码略过。
    首先下载jsoup
    其次,看看下面示例代码;

    /**
    * 获取<script>标签中src地址或者获取<a>标签中href地址 
    * String html 获取页面源代码 
    * String rule 选择器规则 
    */ 
    Set<String> links = new LinkedHashSet<String>();
    ... ...
    Document doc = Jsoup.parse(html);
    Elements clicks = doc.select(rule);
    if (clicks.size() == 1) {
        if (rule.indexOf("src") > 0) {
            links.add(clicks.get(0).attr("src"));
        }
    } else {
        for(Element et : clicks){
            links.add(et.attr("href"));
        }
    }
    ... ...
    

    [Read More…]