社区
Web 开发
帖子详情
关于网络爬虫返回结果的问题
p13102568159
2008-12-18 08:19:26
刚开始做网络爬虫,都很不熟悉,希望大家帮忙:
就是找一个比较新的技术的网页,比如纳米技术,然后把与这个技术相关的所有网页的URL都下载到本地,在这些URL之间寻找联系,比如1网页和2网页连接,就返回1,不连接就返回0,最后得到的结果是这些URL之间的关系矩阵
最主要的问题是,怎么返回一个矩阵。
还有要实现这些功能用那个软件最好,.NET中的C#, JAVA,这两个我都学过,不知道用哪个更好些。。。
拜托大家了。。
...全文
181
6
打赏
收藏
关于网络爬虫返回结果的问题
刚开始做网络爬虫,都很不熟悉,希望大家帮忙: 就是找一个比较新的技术的网页,比如纳米技术,然后把与这个技术相关的所有网页的URL都下载到本地,在这些URL之间寻找联系,比如1网页和2网页连接,就返回1,不连接就返回0,最后得到的结果是这些URL之间的关系矩阵 最主要的问题是,怎么返回一个矩阵。 还有要实现这些功能用那个软件最好,.NET中的C#, JAVA,这两个我都学过,不知道用哪个更好些。。。 拜托大家了。。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
elias
2011-09-30
打赏
举报
回复
正要来接触网络爬虫技术,我也是C#和Java都OK,现在对爬虫仅仅是概念上的认识,希望给点建议,弱弱的问句有推荐的书看不?需要涉及到哪些技术?
p13102568159
2008-12-26
打赏
举报
回复
拜托大家了。。。
p13102568159
2008-12-19
打赏
举报
回复
能不能说一说具体的思想,或者我应该去着重看哪些书,我昨天个刚把ECLIPES装上,现在还是很迷茫,拜托2楼了。。。
lisl2003
2008-12-18
打赏
举报
回复
不懂
liuxiaoyun
2008-12-18
打赏
举报
回复
建议用JAVA,JAVA中的Hashtable和HashMap对存储、读取二维或多维的矩阵数据很方便的,如果要防止URL存储的重复的情况下,大多数情况可以用LinkedList
云想慕尘
2008-12-18
打赏
举报
回复
c#
网络
爬虫
常见
问题
汇总
网络
爬虫
常见
问题
汇总
问题
一:使用requests库或者urllib库获取源代码时无法正常显示中文 解决方法: (1)requests库的文本中有两种类型,一种是文本类型,使用text属性,一种是针对音频、视频、图片等二进制数据类型,使用content属性;一般
返回
的是text属性时会出现中文乱码现象,因此在输出
返回
之前需要显示的修改属性encoding,将其赋值为“utf-8”或者是appare...
网络
爬虫
是什么
网络
爬虫
是什么
网络
爬虫
又称
网络
蜘蛛、
网络
机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。
网络
爬虫
能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。 认识
爬虫
我们所熟悉的一系列搜索引擎都是大型的
网络
爬虫
,比如百度、搜狗、360浏览器、谷歌搜索等等。每个搜索引擎都拥有自己的
爬虫
程序,比如 360 浏览器的
爬虫
称作 360Spider,搜狗的
爬虫
叫做 Sogouspider。 百度搜索引擎,其实可以更形象地称之为百度蜘蛛(Baiduspider
什么是
网络
爬虫
?认识
网络
爬虫
网络
爬虫
( Web Crawler) 又称
网络
蜘蛛、
网络
机器人它是一种按照一定规则,自动浏览万维网的程序或脚本。通俗地讲,
网络
爬虫
就是一个模拟真人浏览万维网行为的程序这个程序可以代替真人自动请求万维网,并接收从万维网
返回
的数据。与真人浏览万维网相比,
网络
爬虫
能够浏览的信息量更大,效率也更高。其主要功能是按照一定的规则,自动地抓取互联网上的信息,并将这些信息存储在本地或者数据库中,以供后续的数据处理和分析。
网络
爬虫
通常被用于搜索引擎、数据挖掘、信息监控等领域。
Python
爬虫
——
网络
爬虫
简介
网络
爬虫
(Web Spider)又称“
网络
蜘蛛”或“
网络
机器人”,它是一种按照一定规则从互联网中获取网页内容的程序或者脚本。
网络
爬虫
会模拟人使用浏览器,上网自动抓取互联网中数据。Python
爬虫
指的是用 Python来编写
爬虫
程序。其他语言也可以编写
爬虫
,如 Java、PHP 、C/C++等,不过相比而言,Python 语法优美、代码简洁、开发效率高、支持多个
爬虫
模块,比如 urllib、requests、Bs4 等。Python 的请求模块和解析模块丰富成熟,并且还提供了强大的 Scrapy 框架,让编
1.认识
网络
爬虫
1.认识
网络
爬虫
网络
爬虫
爬虫
的合法性 HTTP协议 请求与响应(重点)
网络
爬虫
爬虫
的全名叫
网络
爬虫
,简称
爬虫
。他还有其他的名字,比如
网络
机器人,
网络
蜘蛛等等。
爬虫
就好像一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。 你可以这样理解,每个
爬虫
都是你的分身。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。 你每天使用的百度,其实就是利用了这种
爬虫
技术:每天放出无数
爬虫
到各个网站,把他们的信
Web 开发
81,092
社区成员
341,717
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章