如何用c语言抓取网页中的数据?

Roderick_yj 2013-07-15 05:09:58
抓取网页数据的网址:http://www.dianping.com/search/category/1/10
只想截取网页中的店名和地址,但是在截取的时候就会出现如下代码的画面,请问大侠们该如何解决呢?(截取代码内容前面省略),网页代码很多没截取下来………
我是想把从网页中截取的店名和地址存入数据库的


alt="dianping.com" src="http://i1.dpfile.com/s/img/logo.gif" /></h1><p>对不起,您的访问存在某些问题。如果您是正常访问,请尝试以下方法:</p><ul><li><p class="c"><a href="#FAQ" onclick="var faq=document.getElementById('FAQ');if(faq.style.visibility=='visible'){faq.style.visibility='hidden'}else{faq.style.visibility='visible'}">点击此处查看常见访问问题</a>。</p></li><li><p class="c">请帮助我们填写一份<a href="http://www.dianping.com/alpacasurvey">用户反馈</a>,非常感谢!我们不会询问任何隐私信息,将根据您的回答寻求解决同类问题的方法。</p></li><li><p class="c">如果以上方法都不能解决您的问题,请与<a href="mailto:spam@dianping.com">spam@dianping.com</a>联系,并附上以下信息,我们会尽快处理:</p><p><textarea rows="10" cols="80">401
180.173.173.253


以下附上我的代码:
1 #include <stdio.h>
2 #include <stdlib.h>
3 #include <unistd.h>
4
5 #include <curl/curl.h>
6 #include <curl/easy.h>
7
8 FILE *fp; //定义FILE类型指针
9 //这个函数是为了符合CURLOPT_WRITEFUNCTION而构造的
10 //完成数据保存功能
11 size_t write_data(void *ptr, size_t size, size_t nmemb, void *stream)
12 {
13 int written = fwrite(ptr, size, nmemb, (FILE *)fp);
14 return written;
15 }
16
17 int main(int argc, char *argv[])
18 {
19 CURL *curl;
20
21 curl_global_init(CURL_GLOBAL_ALL);
22 curl=curl_easy_init();
23 curl_easy_setopt(curl, CURLOPT_URL, argv[1]);
24 curl_easy_setopt(curl, CURLOPT_HTTPGET, "?test=string");
25
26 if((fp=fopen(argv[2],"w"))==NULL)
27 {
28 curl_easy_cleanup(curl);
29 exit(1);
30 }
31 //CURLOPT_WRITEFUNCTION 将后继的动作交给write_data函数处理
32 curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_data);
33 curl_easy_perform(curl);
34 curl_easy_cleanup(curl);
35 exit(0);
36 }
...全文
1158 7 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
Roderick_yj 2013-07-16
  • 打赏
  • 举报
回复
不知道这样分合理不?望见谅!
Roderick_yj 2013-07-16
  • 打赏
  • 举报
回复
感谢2楼3楼4楼提供的帮助,谢谢!
兆帅 2013-07-16
  • 打赏
  • 举报
回复
wget+grep也可以吧,,,
Proteas 2013-07-16
  • 打赏
  • 举报
回复
可以参考下开源实现:https://github.com/hzzlzz/crawler
www_adintr_com 2013-07-15
  • 打赏
  • 举报
回复
struct curl_slist *slist=NULL; slist = curl_slist_append(slist, "User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.97 Safari/537.22"); curl_easy_setopt(curl, CURLOPT_HTTPHEADER, slist);
qq120848369 2013-07-15
  • 打赏
  • 举报
回复
带上user-agent就可以了: curl 'http://www.dianping.com/search/category/1/10' -A 'Mozilla/5.0 (Windows NT 6.1; rv:22.0) Gecko/20100101 Firefox/22.0'
猪头小哥 2013-07-15
  • 打赏
  • 举报
回复
必须用C语言么?

70,020

社区成员

发帖
与我相关
我的任务
社区描述
C语言相关问题讨论
社区管理员
  • C语言
  • 花神庙码农
  • 架构师李肯
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧