最近使用Jsoup来抓取网页,并对网页进行解析,发现很好用。在抓取过程中遇到一个问题,有些页面总是报Timeout异常,开始想是不是被抓取网站对IP进行了限制,后来发现用HttpClient可以获取到内容。
原来我最开始使用Jsoup.connect(url).get();方法获取网页内容,这种方式使用的是默认超时时间3秒。
原来Jsoup是可以设置超时的,修改成如下就可以了:
Jsoup.connect(url).timeout(30000).get(); // 30S
本文共 294 字,大约阅读时间需要 1 分钟。
最近使用Jsoup来抓取网页,并对网页进行解析,发现很好用。在抓取过程中遇到一个问题,有些页面总是报Timeout异常,开始想是不是被抓取网站对IP进行了限制,后来发现用HttpClient可以获取到内容。
原来我最开始使用Jsoup.connect(url).get();方法获取网页内容,这种方式使用的是默认超时时间3秒。
原来Jsoup是可以设置超时的,修改成如下就可以了:
Jsoup.connect(url).timeout(30000).get(); // 30S
转载于:https://www.cnblogs.com/liwp_Stephen/p/3546426.html