请教高手-网页采集问题

younet 2007-05-24 09:49:11
比如我想采集一个网站的数据,该网站把用户分成两类,一类是游客,一个是注册会员,有一部分信息游客是无法看到的,只有注册会员才能看到

我采集数据时,如何模拟出已经登录的状态。
即使在本地登录了,也没有用

<?php
function getFieldValue($regExt,$str)
{
preg_match_all($regExt, $str, $jf, PREG_SET_ORDER);
return $jf[0][1];
}
error_reporting(E_ALL ^ E_NOTICE ^ E_WARNING);
$id=$_REQUEST['id'];

$url = "http://www.91yuan.com/operate/userview/user_basicinfo.asp?id_r=1273128&levels=";
$str = file_get_contents($url);
//echo $str;

$regExt = "/<font color=\'.+\'>QQ  :<\/font><font color=\'.+\'>(.+)<\/font><br>/isU";
$intro = getFieldValue($regExt,$str);
echo "QQ = ".$intro."<br>";
?>

这样采集出来的结果是:QQ = 银卡/金卡会员可见

而实际情况是 QQ = 757224019

我怀疑是因为SESSION或COOKIE的问题

请问在采集时如何带上网站的SESSION或COOKIE?
...全文
325 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
codeworker999 2008-05-05
  • 打赏
  • 举报
回复
//设置cookie路经
$cookie_jar = tempnam('./tmp','cookie.txt');
//初始化
$ch = curl_init();
//设置参数
$url="登录页面";//http://www.xxx.com/logon.php
$vars="登录参数";//user=xxx&password=xxx
$options = array(CURLOPT_URL => $url,//$url登录页面
CURLOPT_HEADER => 0,
CURLOPT_NOBODY => 0,
CURLOPT_PORT => 80,
CURLOPT_RETURNTRANSFER => 1,
CURLOPT_FOLLOWLOCATION => 1,
CURLOPT_COOKIEJAR => $cookie_jar,
CURLOPT_COOKIEFILE => $cookie_jar,
CURLOPT_POST=1,
CURLOPT_POSTFIELDS=$vars,//var
CURLOPT_REFERER => $url);
//$response为返回的页面内容
$response = curl_exec($ch);

登录成功后,取页面
设置
$options = array(CURLOPT_URL => $url,//$url 请求页面
CURLOPT_HEADER => 0,
CURLOPT_NOBODY => 0,
CURLOPT_PORT => 80,
CURLOPT_RETURNTRANSFER => 1,
CURLOPT_FOLLOWLOCATION => 1,
CURLOPT_COOKIEJAR => $cookie_jar,//上面设置的$cookie_jar
CURLOPT_COOKIEFILE => $cookie_jar,,//上面设置的$cookie_jar
CURLOPT_REFERER => $url);
//$response为返回的请求页面内容
$response = curl_exec($ch);//$ch为上面初始化的$ch
iasky 2007-05-25
  • 打赏
  • 举报
回复
curl函数库
yanxw_227 2007-05-25
  • 打赏
  • 举报
回复
牛,学习一下!
tony-杨 2007-05-25
  • 打赏
  • 举报
回复
稻草人?

牛!
ImN1 2007-05-24
  • 打赏
  • 举报
回复
这年头真的什么都有,呵呵
xy_xiaxia 2007-05-24
  • 打赏
  • 举报
回复
COOKIE问题。你可以参考下现在的采集程序是怎么分析这些问题的。
下载个dedecms研究下。
ice_berg16 2007-05-24
  • 打赏
  • 举报
回复
http://www.tblog.com.cn/article.asp?id=336

21,886

社区成员

发帖
与我相关
我的任务
社区描述
从PHP安装配置,PHP入门,PHP基础到PHP应用
社区管理员
  • 基础编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧