想用C++写一个网络爬虫

d-o 2015-07-01 09:25:50
为了学习网络协议,数据库,我想到一个小项目:用C++写一个爬虫程序,把某个网站爬下来,放入数据库,再进行分析。不知道这个想法可行性怎么样,大家有什么建议?如果可行,会遇到哪些问题?
...全文
322 3 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
d-o 2015-07-01
  • 打赏
  • 举报
回复
引用 1 楼 mxway 的回复:
可以,但个人觉得把网站爬下来的内容放到数据库有些不妥,每个网页的内容很多。后期进行查询时会很浪费,何不把爬下来的内容直接存入到文件中。 可能会遇到的问题: 1.解析出每个页面内容中的超链接。 2.判断页面是否已经访问过。
哦,本来想练数据库操作来着。这样的话,就把网页的一些重要信息保存在数据库就行了。比如吧访问过的网页的URL放进去,遇到新链接的时候查询下是不是有存档了。解析超链接的话,应该是先解析出字符串来,发送一个新的请求。这么一想,可能需要多线程,又牵扯到数据同步,需要搞的东西好多啊。
mxway 2015-07-01
  • 打赏
  • 举报
回复
可以,但个人觉得把网站爬下来的内容放到数据库有些不妥,每个网页的内容很多。后期进行查询时会很浪费,何不把爬下来的内容直接存入到文件中。 可能会遇到的问题: 1.解析出每个页面内容中的超链接。 2.判断页面是否已经访问过。
ArdourCareful 2015-07-01
  • 打赏
  • 举报
回复
兄台在达内培训??

65,189

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧