云计算实战 ——爬虫部分

Aternjon 2013-12-23 02:14:50
第一部分: 需求分析

爬虫在项目中间的作用
• 分析用户的行为需要根据用户浏览网页的分类及特征来决定,所以获取网页内容需要爬虫
• 单线程爬虫难以满足项目的需求,需要多线程爬虫来处理
第二部分: 技术点
Wget与HttpClient
• Wget 是一个从网络上自动下载文件的自由工具 , 支持通过 HTTP 、 HTTPS 、 FTP 三个最常见的 TCP/IP 协议下载,并可以使用 HTTP 代理
• HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议

功能需求
• 分析网页内容取得词频

• 获取词与网页的对应关系
Page

第三部分: 代码实现
请参考视频和源码

私塾在线原创
...全文
310 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
阿衍 2013-12-23
  • 打赏
  • 举报
回复
顶一下。

4,451

社区成员

发帖
与我相关
我的任务
社区描述
云计算 云安全相关讨论
社区管理员
  • 云安全社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧