关于爬虫,各位大哥帮帮忙!

米娜Rose 2010-07-23 05:38:22
公司准备做类似搜索引擎功能的网站,

通过客户输入然后再到百度去找结果,

在把结果放到自己的网站,小妹没有接触过这类技术,不知该怎样去实现这个功能?



能否贴个代码?
...全文
93 13 打赏 收藏 转发到动态 举报
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
cuike519 2010-07-23
  • 打赏
  • 举报
回复
没做过,个人感觉不靠谱。。。

8楼基本说了主要过程,如果做不了就想办法和baidu合作吧。同一个IP频繁查询是不行的,客户端直接打开HttpRequest由于安全性应该是不行的。

[Quote=引用 10 楼 adengliuqing 的回复:]

引用 5 楼 cuike519 的回复:
通过客户的输入再去baidu搜索???这叫做搜索引擎???

另外我要提醒你,同一个IP频繁的访问baidu会被认为是机器人访问,会给你一个人眼可识别的字符串让你输入,输入正确才能继续搜索。所以你这条路是行不通的。

做搜索需要的资源很多包括硬件和软件,如果有兴趣,去找找java的开源项目比如:Nutch。

另外,上面的开源项目Nutch……
[/Quote]
zhouxingyu896 2010-07-23
  • 打赏
  • 举报
回复
有个软件叫做 火车头的 你参照看看

jhll 2010-07-23
  • 打赏
  • 举报
回复
关注中.........
米娜Rose 2010-07-23
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 cuike519 的回复:]
通过客户的输入再去baidu搜索???这叫做搜索引擎???

另外我要提醒你,同一个IP频繁的访问baidu会被认为是机器人访问,会给你一个人眼可识别的字符串让你输入,输入正确才能继续搜索。所以你这条路是行不通的。

做搜索需要的资源很多包括硬件和软件,如果有兴趣,去找找java的开源项目比如:Nutch。

另外,上面的开源项目Nutch里面有一个子项目hadoop(现在已经是独立项……
[/Quote]

目的是通过客户端输入从百度查询出结果然后再把一些不需要的结果过滤掉,不知这样是否可行?
wwfgu00ing 2010-07-23
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 myhope88 的回复:]
要么调用接口,要么就盗用,可通过httpWebReqeust和httpWebResponse来抓取,如果要返回一定的格式可用正则过滤下
[/Quote]
已验证过,绝对可以用
wuyq11 2010-07-23
  • 打赏
  • 举报
回复
网络爬虫对网页而言,重在采集内容
从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;
获取每个页面的源码保存在磁盘或者数据库里;
遍历抓下来的网页进行处理,比如提取正文,消重等;
根据用途把处理后的文本进行索引、分类、聚类等操作
WebRequest HttpWebRequest = null;
WebResponse HttpWebResponse = null;
HttpWebRequest = WebRequest.Create(url);
HttpWebResponse = HttpWebRequest.GetResponse();获取信息,再用正则格式化
http://topic.csdn.net/u/20090815/09/18bb26a5-7963-4e34-8a18-b76f4862946a.html
萤火架构 2010-07-23
  • 打赏
  • 举报
回复
直接提交给百度,显示百度的搜索界面,比较容易些
cuike519 2010-07-23
  • 打赏
  • 举报
回复
当然你放个框架显示baidu的搜索界面那另当别论。
cuike519 2010-07-23
  • 打赏
  • 举报
回复
通过客户的输入再去baidu搜索???这叫做搜索引擎???

另外我要提醒你,同一个IP频繁的访问baidu会被认为是机器人访问,会给你一个人眼可识别的字符串让你输入,输入正确才能继续搜索。所以你这条路是行不通的。

做搜索需要的资源很多包括硬件和软件,如果有兴趣,去找找java的开源项目比如:Nutch。

另外,上面的开源项目Nutch里面有一个子项目hadoop(现在已经是独立项目),这个项目目前Yahoo在支持,看上去很有前途。
lorinzhang 2010-07-23
  • 打赏
  • 举报
回复
关注.........
chenjianbo2007 2010-07-23
  • 打赏
  • 举报
回复
这个是google的接口
http://www.cnblogs.com/WuYisLLQ/archive/2007/12/26/985668.html

这个是内嵌百度的
http://topic.csdn.net/t/20040612/15/3086048.html
希望对你有帮助
myhope88 2010-07-23
  • 打赏
  • 举报
回复
要么调用接口,要么就盗用,可通过httpWebReqeust和httpWebResponse来抓取,如果要返回一定的格式可用正则过滤下
claymore1114 2010-07-23
  • 打赏
  • 举报
回复
应该 有相关接口 调用把

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧