首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > C语言 >

怎么用c语言抓取网页中的数据

2013-07-16 
如何用c语言抓取网页中的数据?抓取网页数据的网址:http://www.dianping.com/search/category/1/10只想截取

如何用c语言抓取网页中的数据?
抓取网页数据的网址:http://www.dianping.com/search/category/1/10
只想截取网页中的店名和地址,但是在截取的时候就会出现如下代码的画面,请问大侠们该如何解决呢?(截取代码内容前面省略),网页代码很多没截取下来………
我是想把从网页中截取的店名和地址存入数据库的


alt="怎么用c语言抓取网页中的数据" src="http://i1.dpfile.com/s/img/logo.gif" /></h1><p>对不起,您的访问存在某些问题。如果您是正常访问,请尝试以下方法:</p><ul><li><p class="c"><a href="#FAQ" onclick="var faq=document.getElementById('FAQ');if(faq.style.visibility=='visible'){faq.style.visibility='hidden'}else{faq.style.visibility='visible'}">点击此处查看常见访问问题</a>。</p></li><li><p class="c">请帮助我们填写一份<a href="http://www.dianping.com/alpacasurvey">用户反馈</a>,非常感谢!我们不会询问任何隐私信息,将根据您的回答寻求解决同类问题的方法。</p></li><li><p class="c">如果以上方法都不能解决您的问题,请与<a href="mailto:spam@dianping.com">spam@dianping.com</a>联系,并附上以下信息,我们会尽快处理:</p><p><textarea rows="10" cols="80">401
180.173.173.253


以下附上我的代码:
   1 #include <stdio.h>
  2 #include <stdlib.h>
  3 #include <unistd.h>
  4 
  5 #include <curl/curl.h>
  6 #include <curl/easy.h>
  7 
  8 FILE *fp;  //定义FILE类型指针
  9 //这个函数是为了符合CURLOPT_WRITEFUNCTION而构造的
 10 //完成数据保存功能
 11 size_t write_data(void *ptr, size_t size, size_t nmemb, void *stream)
 12 {
 13     int written = fwrite(ptr, size, nmemb, (FILE *)fp);
 14     return written;
 15 }
 16 
 17 int main(int argc, char *argv[])
 18 {
 19     CURL *curl;
 20 
 21     curl_global_init(CURL_GLOBAL_ALL);
 22     curl=curl_easy_init();
 23     curl_easy_setopt(curl, CURLOPT_URL, argv[1]);
 24     curl_easy_setopt(curl, CURLOPT_HTTPGET, "?test=string");
 25 
 26     if((fp=fopen(argv[2],"w"))==NULL)
 27     {
 28         curl_easy_cleanup(curl);
 29         exit(1);
 30     }
 31 //CURLOPT_WRITEFUNCTION 将后继的动作交给write_data函数处理
 32     curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_data);
 33     curl_easy_perform(curl);


 34     curl_easy_cleanup(curl);
 35     exit(0);
 36 }
C Curl 行业数据 数据库
[解决办法]
带上user-agent就可以了:

curl 'http://www.dianping.com/search/category/1/10' -A 'Mozilla/5.0 (Windows NT 6.1; rv:22.0) Gecko/20100101 Firefox/22.0'
[解决办法]
struct curl_slist *slist=NULL;
slist = curl_slist_append(slist, "User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.97 Safari/537.22");
curl_easy_setopt(curl, CURLOPT_HTTPHEADER, slist);

[解决办法]
可以参考下开源实现:https://github.com/hzzlzz/crawler

热点排行