想用C++写一个网络爬虫

d-o 2015-07-01 09:25:50

为了学习网络协议，数据库，我想到一个小项目：用C++写一个爬虫程序，把某个网站爬下来，放入数据库，再进行分析。不知道这个想法可行性怎么样，大家有什么建议？如果可行，会遇到哪些问题？

...全文

384 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

d-o 2015-07-01

打赏
举报

回复

引用 1 楼 mxway 的回复:

可以，但个人觉得把网站爬下来的内容放到数据库有些不妥，每个网页的内容很多。后期进行查询时会很浪费，何不把爬下来的内容直接存入到文件中。可能会遇到的问题： 1.解析出每个页面内容中的超链接。 2.判断页面是否已经访问过。

哦，本来想练数据库操作来着。这样的话，就把网页的一些重要信息保存在数据库就行了。比如吧访问过的网页的URL放进去，遇到新链接的时候查询下是不是有存档了。解析超链接的话，应该是先解析出字符串来，发送一个新的请求。这么一想，可能需要多线程，又牵扯到数据同步，需要搞的东西好多啊。

mxway 2015-07-01

打赏
举报

回复

可以，但个人觉得把网站爬下来的内容放到数据库有些不妥，每个网页的内容很多。后期进行查询时会很浪费，何不把爬下来的内容直接存入到文件中。可能会遇到的问题： 1.解析出每个页面内容中的超链接。 2.判断页面是否已经访问过。

ArdourCareful 2015-07-01

打赏
举报

回复

兄台在达内培训？？

写了一个网络爬虫，可以抓取网上的图片。需要给定初始网站即可。在vs2010中编译通过。编译后，运行即可，有惊喜哦！！！ //#include #include #include #include #include #include "winsock2.h" #include #include #include #pragma comment(lib,

1.认识网络爬虫网络爬虫爬虫的合法性 HTTP协议请求与响应(重点) 网络爬虫爬虫的全名叫网络爬虫，简称爬虫。他还有其他的名字，比如网络机器人，网络蜘蛛等等。爬虫就好像一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。你可以这样理解，每个爬虫都是你的分身。就像孙悟空拔了一撮汗毛，吹出一堆猴子一样。你每天使用的百度，其实就是利用了这种爬虫技术：每天放出无数爬虫到各个网站，把他们的信

网络爬虫又称网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。

网络爬虫是一种自动化的网络机器人，它遵循特定的算法，高效地访问网络，检索并收集网页数据。简而言之，爬虫是网络数据的“收割机”，能够在茫茫信息海洋中精准定位并抓取目标内容。其重要性不仅体现在搜索引擎的索引构建上，还广泛应用于市场研究、新闻聚合、学术研究等多个领域，极大地推动了大数据和机器学习等技术的发展。在搜索引擎领域，爬虫是核心组件之一，负责不断抓取新内容和更新旧内容，保证搜索引擎数据库的实时性和相关性。

网络爬虫的定义是什么？网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上，只要是浏览器(客户端)能做的事情，爬虫都能够做。网络爬虫在我们的生活中扮演怎样的角色？在数字化时代，信息如同潮水般汹涌而来。过去，我们可能依赖书籍、报纸或电视来获取信息，但这些渠道的信息量有限，而且筛选过的信息未必能满足我们的需求。如今，互联网为我们提供了海量的信息，但同时也带来了“信息过载”的问题。

65,210

社区成员

250,514

社区内容

发帖

与我相关

我的任务

c++ 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题，如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧

+ 用AI写文章