求助!网页分页数据如何抓取?一个很奇怪的疑问,望解答

cdminer 2015-09-02 09:25:47
抓取http://search.10jqka.com.cn/stockpick/search?typed=1&preParams=&ts=1&f=1&qs=1&selfsectsn=&querytype=&searchfilter=&tid=stockpick&w=2014年4月18号+上证50+pe+pb这个网页的分页数据,点击下页那的源码是<a onclick="mylog('ts|1、qs|flip、tid|stockpick','pick','')" class="next " href="javascript:;" id="next">下页</a>,我用webBrowser来抓取,第一种方式是直接添加一个webBrowser控件,但是程序一直卡在while (webBrowser1.ReadyState != WebBrowserReadyState.Complete)这行,webBrowser1.ReadyState状态一直是interactive,我也试过去掉这条判断,延时执行后面的语句,但是始终找不到下页这个元素,感觉就是一直没有加载完成。

private void button1_Click(object sender, EventArgs e)
{
const string url = "http://search.10jqka.com.cn/stockpick/search?typed=1&preParams=&ts=1&f=1&qs=1&selfsectsn=&querytype=&searchfilter=&tid=stockpick&w=2014年4月18号+上证50+pe+pb";
webBrowser1.ScriptErrorsSuppressed = true;
webBrowser1.Navigate(url);
}
private void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
{
while (webBrowser1.ReadyState != WebBrowserReadyState.Complete)
{
Application.DoEvents();
}
foreach (HtmlElement element in webBrowser1.Document.All)
{
if (element.InnerText == "下页")
{
element.InvokeMember("click");//点击
}
}
}

第二种我是动态实例化一个WebBrowser对象,代码如下,这种方式代码可以顺利运行,但是我如何获取点击后的页面数据呢?这两种方式有什么不一样的?或者有其他方式能解决的也请指导一下,本人业余新手,谢谢!

public static void GetHisData(string url)
{
WebBrowser browser = new WebBrowser();
browser.ScriptErrorsSuppressed = true;
browser.Navigate(url);
while (browser.ReadyState != WebBrowserReadyState.Complete)
{
Application.DoEvents();
}
foreach (HtmlElement element in browser.Document.All)
{
if (element.InnerText == "下页")
{
element.InvokeMember("click");//点击
}
}
}
...全文
302 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
泡泡龙 2015-09-04
  • 打赏
  • 举报
回复
先用fiddler抓包弄清楚网页是怎么提交的
devmiao 2015-09-04
  • 打赏
  • 举报
回复
加上延迟看看,网页没有正确载入。
cdminer 2015-09-03
  • 打赏
  • 举报
回复
你好,谢谢回答,我试了你的代码,在获取的页面文件中检索不到"mylog('ts|1、qs|flip、tid|stockpick','pick','')",我当时是用火狐浏览器查的元素源文件,因为这个页面的页数是动态的,不是固定页数的,我理解是不是页数,包括下页这些元素都是js运行出来的结果,不知道我的理解是否正确?
ajianchina 2015-09-02
  • 打赏
  • 举报
回复
mylog这个js方法你完全能够解析拼接出新的url,所以就别用WebBrowser了,先给一个通过HttpWebRequest抓取页面文件的方法:

public static string UrlToString(string Url)
{
	HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
	request.Method = "GET";
	request.ContentType = "text/ html;charset=UTF-8";
	string str = string.Empty;
	HttpWebResponse response = (HttpWebResponse)request.GetResponse();
	using (Stream myResponseStream = response.GetResponseStream())
	{
		using (StreamReader myStreamReader = new StreamReader(myResponseStream, System.Text.Encoding.UTF8))
		{
			str = myStreamReader.ReadToEnd();
		}
	}
	return str;
}
然后你在抓到的文件中检索"mylog('ts|1、qs|flip、tid|stockpick','pick','')",根据mylog的方法逻辑重新拼出新的url,再次调用UrlToString方法抓取页面文件。

110,569

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧