怎么通过关键字来爬网页?

enasp 2009-03-27 02:48:26

我们一般做爬虫都是给一个因定的地址,然后用正则获取需要的内容!能不能通过关键字把互联网上相关的网页都爬过来?

比如我要把“销售”二字相关的网页都爬过来!怎么爬? 是不是通过google就行?有没有相关代码
...全文
234 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
hhxx_cj 2009-03-28
  • 打赏
  • 举报
回复
没弄过,学习
帮顶
genius_tong 2009-03-28
  • 打赏
  • 举报
回复
up
enasp 2009-03-28
  • 打赏
  • 举报
回复
从IE的查看代码来看,并没有什么不同,可就是抓不下chinabyte的description

是不是有些网站做了这样屏蔽??
knight103 2009-03-27
  • 打赏
  • 举报
回复
见识了
niitnanfeng 2009-03-27
  • 打赏
  • 举报
回复
enasp 2009-03-27
  • 打赏
  • 举报
回复

这两者description有什么不一样,为啥新浪的能抓到,chinabyte的抓不到??


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<!--[30,59,1] published at 2009-03-27 16:27:16 from #194 by 2418-->
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>新浪首页</title>
<meta name="description" content="新浪网为全球用户24小时提供全面及时的中文资讯,内容覆盖国内外突发新闻事件、体坛赛事、娱乐时尚、产业资讯、实用信息等,设有新闻、体育、娱乐、财经、科技、房产、汽车等30多个内容频道,同时开设博客、视频、论坛等自由互动交流空间。">
<meta name="stencil" content="PGLS000022">
<meta name="publishid" content="30,59,1">
<meta http-equiv="X-UA-Compatible" content="IE=EmulateIE7" />
<meta name="verify-v1" content="6HtwmypggdgP1NLw7NOuQBI2TW8+CfkYCoyeB8IDbn8=" />


</head>





<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>ChinaByte比特网_报道IT中国,专注IT新闻、评论、信息化</title>
<meta http-equiv="Content-Language" content="zh-CN" />
<meta name="generator" content="MSHTML 6.00.2900.2604" />
<meta name="author" content="ChinaByte比特网_报道IT中国,专注IT新闻、评论、信息化" />
<meta name="Copyright" content="比特网 | 互联网 | 互联网的资讯平台、新闻窗口,为你展现互联网企业多姿多彩的载体" />
<meta name="description" content="ChinaByte比特网,作为中国IT产业的舆论高地和风向标,其原创新闻和评论每天被上百家门户、地方网站、行业网站及报刊争相转载、改编。全面的信息化和企业级IT内容为行业信息化、企业信息化工作者提供实用的资讯服务,拥有大批CIO、CTO等信息化决策读者人群。" />
<meta name="keywords" content="IT新闻,IT评论,IT财报,IT技术,IT博客,IT论坛,IT社区,信息化博客,信息化报道,IT产业,家电,通信,3g,TD,互联网新闻,互联网评论,cio,cto,ceo,应用案例,解决方案,服务器,刀片服务器,虚拟化,存储,网络,信息安全,路由器,交换机,台式机,笔记本,打印机,投影机,一体机,行业信息化,企业信息化,云计算,saas,固态存储,开源,ERP,CRM,IT服务管理,ITIL,企业数据中心,机房,UPS,布线,供电,绿色信息化,虚拟化" />
<link href="http://image.yesky.com/TLimages/chinabyte/css/cb_index_090220.css" type="text/css" rel="stylesheet" media="all" />
<link href="http://image.yesky.com/TLimages/chinabyte/css/headfloor_950_index_090220.css" type="text/css" rel="stylesheet" media="all" />
<base target="_blank" />
</head>


enasp 2009-03-27
  • 打赏
  • 举报
回复
不能通过post到google ? 把google的快照抓过来?
GabrielCNMao 2009-03-27
  • 打赏
  • 举报
回复
很占網絡哦,我宿舍那只在爬都被群毆
enasp 2009-03-27
  • 打赏
  • 举报
回复
我是爬网页
zzxap 2009-03-27
  • 打赏
  • 举报
回复
如果行,我也搞一个搜索引擎

110,534

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧