关于jsoup的端口问题

The_end90 2014-12-19 03:11:19
由于需求原因,需要爬取很多网站的内容,使用的jsoup来爬取信息,在dos下查看端口号的状态,发现会有很多本机访问外部ip的80端口的本机端口状态为FIN_WAIT_1,这样对本机系统的性能有什么影响,或者说怎样来关闭这些没用的端口?下面是jsoup访问url的代码:
public Document requrstDocumnet(String url) {
Document doc = null;
try {
doc = Jsoup.connect(url).userAgent("浏览器user-agent").timeout(5000).get();
} catch (Exception e) {
// e.printStackTrace();
return null;
}
return doc;
}

还有就是设置了请求头信息的:
public Document getDoc(String url){
Document doc = null;
try {
doc = Jsoup.connect(url)
.header("Host", "www.google.com.hk")
.header("User-Agent", "浏览器user-agent")
.header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
.header("Accept-Language", "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3")
.header("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7")
.header("Connection", "keep-alive")
.cookie("auth", "token")
.timeout(5000)
.get();
} catch (IOException e) {
// e.printStackTrace();
return null;
}
return doc;
}

求指点。。。。
...全文
237 4 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
The_end90 2014-12-19
  • 打赏
  • 举报
回复
引用 2 楼 javaloverkehui 的回复:
我一般只用jsoup来分析网页, 而不用它模拟浏览器的各种信息. 我请求采用httpclient来请求. 还有,你说的这个端口状态, 我表示无法回答你, 没考虑过这个. 还有性能问题, 你觉得你应该说说你现在性能是个什么情况.


jsoup用着简单 所以就用这个了 就是因为不知道对性能有没有影响 所以才提问的,就目前用着感觉影响不大,如下图,状态为TIME_WAIT的端口 过了一段时间会自动关闭,但是状态为FIN_WAIT_1 的端口长时间没有关闭,具体多长的时间没有详细测试过,每次重启服务器后都会自动关闭
The_end90 2014-12-19
  • 打赏
  • 举报
回复
引用 1 楼 rui888 的回复:
和 端口状态为FIN_WAIT_1 这个有什么关系?
在爬取网站的时候会开启很多端口,有的端口过了一会就自动关闭了,但是有的端口很长时间都没关闭,状态显示就为FIN_WAIT_1
我意纵横 2014-12-19
  • 打赏
  • 举报
回复
我一般只用jsoup来分析网页, 而不用它模拟浏览器的各种信息. 我请求采用httpclient来请求. 还有,你说的这个端口状态, 我表示无法回答你, 没考虑过这个. 还有性能问题, 你觉得你应该说说你现在性能是个什么情况.
tony4geek 2014-12-19
  • 打赏
  • 举报
回复
和 端口状态为FIN_WAIT_1 这个有什么关系?

81,122

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧