Jsoup获取网页内容(并且解决中文乱码问题)

JAVA学习网 2020-11-24 07:34:01

1. 根据连接地址获取网页内容,解决中文乱码页面内容,请求失败后尝试3次

private static Document getPageContent(String urlStr) {
        for (int i = 1; i <= 3; i++) {
            try {
                URL url = new URL(urlStr);
                HttpURLConnection connection = (HttpURLConnection) url.openConnection();
                // 默认就是Get,可以采用post,大小写都行,因为源码里都toUpperCase了。
                connection.setRequestMethod("GET");
                // 是否允许缓存,默认true。
                connection.setUseCaches(Boolean.FALSE);
                // 是否开启输出输入,如果是post使用true。默认是false
                // connection.setDoOutput(Boolean.TRUE);
                // connection.setDoInput(Boolean.TRUE);
                // 设置请求头信息
                connection.addRequestProperty("Connection", "close");
                // 设置连接主机超时(单位:毫秒)
                connection.setConnectTimeout(8000);
                // 设置从主机读取数据超时(单位:毫秒)
                connection.setReadTimeout(8000);
                // 设置Cookie
                // connection.addRequestProperty("Cookie", "你的Cookies");
                // 开始请求
                int index = urlStr.indexOf("://") + 3;
                String baseUri = urlStr.substring(0, index) + url.getHost();
                Document doc = Jsoup.parse(connection.getInputStream(), "GBK", baseUri);
                if (doc != null) {
                    return doc;
                }
                Thread.sleep(3 * 1000);
                continue;
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return null;
    }

2. 解析网页数据,通过多种方式获取页面元素

    public static void main(String[] args) {
        String urlStr = "http://test.cn/a.html";// 静态页面链接地址
        Document doc = getPageContent(urlStr);
        if (doc != null) {
            // 1. 根据id查询元素
            Element e1 = doc.getElementById("id");
            // 2. 根据标签获取元素
            Elements e2 = doc.getElementsByTag("p");
            // 3. 根据class获取元素
            Element e3 = doc.getElementsByClass("class_p").first();
            // 4. 根据属性获取元素
            Element e4 = doc.getElementsByAttributeValue("href", "http://test.cn").first();
            // 5. 根据查询器获取元素(class 为writing的div下的p)
            Elements e5 = doc.select("div.writing>p");
            Elements es = doc.select("div .writing p");
            if (es != null && es.size() > 0) {
                for (Element p : es) {
                    String pStr = p.text().trim();
                    System.out.println(pStr);
                }
            }
        }
    }

 

阅读(2340) 评论(0)