求助!如下功能该如何实现!
编写一个简单网络爬虫脚本,统计任一指定网页里特殊关键词,例如“学生”出现的次数,执行环境
为CentOS 6.9,使用wget抓取网页。
具体要求:
a、脚本输入参数为:关键字 指定页面URL
b、只统计网页<body>...</body>标记之间的内容;
c、统计子链接内容,但需要去除重复的链接(相同的子链接和子链接的父链接),统计连接深度为3;
指定页面URL
|____子页面1
| |____子页面1
| |____......
| |____子页面n
|____......
|
|____子页面n
|____子页面1
|____......
|____子页面n
d、在用户主目录下创建结果目录:名称为学号,权限设为755,结果目录下再创建content子目录,权
限同样设为755;
e、将wget download下来的网页按如下格式存储在结果目录的content子目录下,文件名称按如下格式
命名:
指定页面名称为 0.<url>
子页面名称为 0.x.<url>
子页面的子页面名称为 0.x.y.url
f、输出一个中间计算结果文件,名称为intermediate:存放在结果目录下,格式如下:
行号:<URL1><TAB><Key word><TAB><count>
行号:<URL2><TAB><Key word><TAB><count>
...
行号:<URLn><TAB><Key word><TAB><count>
g、输出结果文件,名称为result,存放在结果目录下,文件格式如下:
<keyword><TAB><total amount>
h、脚本需要考虑防错处理、效率和程序结构。