62,074
社区成员
发帖
与我相关
我的任务
分享
new WebClient().DownloadData(“你的网页");
的形式来访问自己的网页,把这个方法返回的 byte[ ] 保存到 html 文件中,然后查看。如果可以看到关键字,那就说明你的网页的静态部分可以了。
如果看不到一些关键文字,那么搜索引擎也看不到。这就说明你的网页在适应爬虫搜索方面是有问题了。需要赶紧改造。
假设你的页面是动态页面网站运行时生成的,在这样的网页中,你可以添加这样的前端内容<html>
<head>
......
</head>
<body>
<div class="abc">
<ul>
<li> xxxxxxxxxxxxxxxx</li>
<li> <a .....></a>
</ul>
</div>
........这以下才是真正的页面内容。
.......
........
</body
</html>
在body的开始,你的动态页面应该插入一部分静态内容,让爬虫可以看到而用户看不到。有些程序员可能会忽视这部分内容。