求助！网页分页数据如何抓取？一个很奇怪的疑问，望解答

cdminer 2015-09-02 09:25:47

抓取http://search.10jqka.com.cn/stockpick/search?typed=1&preParams=&ts=1&f=1&qs=1&selfsectsn=&querytype=&searchfilter=&tid=stockpick&w=2014年4月18号+上证50+pe+pb这个网页的分页数据，点击下页那的源码是<a onclick="mylog('ts|1、qs|flip、tid|stockpick','pick','')" class="next " href="javascript:;" id="next">下页</a>，我用webBrowser来抓取，第一种方式是直接添加一个webBrowser控件，但是程序一直卡在while (webBrowser1.ReadyState != WebBrowserReadyState.Complete)这行，webBrowser1.ReadyState状态一直是interactive，我也试过去掉这条判断，延时执行后面的语句，但是始终找不到下页这个元素，感觉就是一直没有加载完成。



        private void button1_Click(object sender, EventArgs e)

        {

            const string url = "http://search.10jqka.com.cn/stockpick/search?typed=1&preParams=&ts=1&f=1&qs=1&selfsectsn=&querytype=&searchfilter=&tid=stockpick&w=2014年4月18号+上证50+pe+pb";

            webBrowser1.ScriptErrorsSuppressed = true;

            webBrowser1.Navigate(url);

       }

        private void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)

        {

            while (webBrowser1.ReadyState != WebBrowserReadyState.Complete)

            {                

                Application.DoEvents();

            }

            foreach (HtmlElement element in webBrowser1.Document.All)

            {

                if (element.InnerText == "下页")

                {

                    element.InvokeMember("click");//点击

                }

            }

        }

第二种我是动态实例化一个WebBrowser对象，代码如下，这种方式代码可以顺利运行，但是我如何获取点击后的页面数据呢？这两种方式有什么不一样的？或者有其他方式能解决的也请指导一下，本人业余新手，谢谢！



        public static void GetHisData(string url)

        {

            WebBrowser browser = new WebBrowser();            

            browser.ScriptErrorsSuppressed = true;

            browser.Navigate(url);

            while (browser.ReadyState != WebBrowserReadyState.Complete)

            {

                Application.DoEvents();

            }

            foreach (HtmlElement element in browser.Document.All)

            {

                if (element.InnerText == "下页")

                {                    

                    element.InvokeMember("click");//点击

                }

            }                

        }

...全文

371 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

泡泡龙 2015-09-04

打赏
举报

先用fiddler抓包弄清楚网页是怎么提交的

devmiao 2015-09-04

打赏
举报

加上延迟看看，网页没有正确载入。

cdminer 2015-09-03

打赏
举报

你好，谢谢回答，我试了你的代码，在获取的页面文件中检索不到"mylog('ts|1、qs|flip、tid|stockpick','pick','')"，我当时是用火狐浏览器查的元素源文件，因为这个页面的页数是动态的，不是固定页数的，我理解是不是页数，包括下页这些元素都是js运行出来的结果，不知道我的理解是否正确？

ajianchina 2015-09-02

打赏
举报

mylog这个js方法你完全能够解析拼接出新的url，所以就别用WebBrowser了，先给一个通过HttpWebRequest抓取页面文件的方法：


public static string UrlToString(string Url)
{
	HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
	request.Method = "GET";
	request.ContentType = "text/ html;charset=UTF-8";
	string str = string.Empty;
	HttpWebResponse response = (HttpWebResponse)request.GetResponse();
	using (Stream myResponseStream = response.GetResponseStream())
	{
		using (StreamReader myStreamReader = new StreamReader(myResponseStream, System.Text.Encoding.UTF8))
		{
			str = myStreamReader.ReadToEnd();
		}
	}
	return str;
}

然后你在抓到的文件中检索"mylog('ts|1、qs|flip、tid|stockpick','pick','')"，根据mylog的方法逻辑重新拼出新的url，再次调用UrlToString方法抓取页面文件。

Sqribble是一款云原生文档操作系统，以模板为可执行规则包，实现内容→结构→视觉→交付的全链路自动化。其五大子系统（模板仓库、内容引擎、布局渲染、交互编辑器、导出分发）协同运作，强调确定性排版与规则化约束，拒绝AI式不确定性。支持语义化内容导入、自动化布局校验、权限可控协作及PDF/网页链接双模交付，适用于市场、教育、咨询等需高频产出专业结构化文档的场景。

本文深入解析Sqribble的文档自动化系统，聚焦其以模板为核心、规则为驱动的云原生出版流水线。重点涵盖四大架构模块：模板与素材中央仓库、内容结构化引擎、确定性排版渲染引擎及安全交互编辑层；详述七步闭环工作流与12个实战避坑要点；强调其在PDF生成、字体嵌入、目录锚点、跨页表格、书签兼容等关键技术环节的工程实现机制，适用于市场运营、自由职业者、中小企业及教育场景。

Sqribble并非AI内容生成工具，而是一套基于模板驱动、云原生架构的文档自动化流水线系统。其核心能力包括HTML语义解析的内容注入、确定性排版引擎、结构化DOM建模、模板约束下的自动化布局，以及PDF工业级导出。系统通过模板仓库、内容转换引擎、布局渲染引擎和智能交付层四大模块，实现从结构化内容到专业PDF的高效、可复现、规模化生产，面向运营、市场、技术文档等需高频交付标准化文档的场景。

内容概要：本文档围绕“风储VSG-基于虚拟同步发电机的风储并网系统Simulink仿真”展开，系统介绍了采用虚拟同步发电机（VSG）控制策略的风电与储能联合并网系统的建模与仿真方法。通过Simulink平台构建完整的电力系统动态模型，重点实现VSG的关键控制逻辑，以提升新能源并网的稳定性、惯性响应与频率支撑能力。文档不仅涵盖核心仿真模型，还整合了大量相关前沿研究内容，如混合储能调频、微电网优化、电动汽车可调能力评估、智能算法在电力系统中的应用等，并提供丰富的Matlab/Simulink代码实例，具有较强的科研复现价值和技术参考意义。; 适合人群：具备电力系统基础理论知识和Matlab/Simulink仿真能力的研究生、科研人员及从事新能源发电、储能控制、智能电网等领域工作的工程技术人员；特别适用于正在开展风储协同控制、虚拟同步机、构网型变流器等相关课题研究的高校师生。; 使用场景及目标：① 深入理解虚拟同步发电机（VSG）在风储并网系统中的控制原理与技术优势；② 借助提供的仿真模型与代码完成科研论文复现、算法验证与系统性能测试；③ 探索新能源高渗透背景下提升电网稳定性的关键技术路径，包括惯量模拟、一次频率响应、储能协同控制等。; 阅读建议：建议读者按照文档结构循序渐进地学习，优先下载并运行配套的Simulink模型与Matlab代码，结合VSG控制策略的设计细节进行调试与分析，同时可关注公众号“荔枝科研社”获取完整资源包及持续的技术支持，以提升科研效率与创新能力。

数据库课设系统+实验报告.zip