代码优化

啾啾我 2015-09-15 09:43:01



 //文件名称

    public string FileName = DateTime.Now.ToString("yyyyMMddHHmmssffff");

    //count：总数 cg：成功 sb：失败 yc：异常 cf：重复

    public int count = 0, cg = 0, sb = 0, yc = 0, cf = 0;

    protected void Page_Load(object sender, EventArgs e)

    {

        DateTime timer = DateTime.Now;//记录此次采集开始计时   

        ArrayList titleList = GetMainPage();



        //创建一个临时表

        System.Data.DataTable dt = new System.Data.DataTable("Collecting");

        DataColumn dc1 = new DataColumn("Title", System.Type.GetType("System.String"));//标题

        DataColumn dc2 = new DataColumn("Price", System.Type.GetType("System.String"));//参考价

        DataColumn dc3 = new DataColumn("Contact", System.Type.GetType("System.String"));//联系方式

        DataColumn dc4 = new DataColumn("Time", System.Type.GetType("System.String"));//单条采集开始时间

        DataColumn dc5 = new DataColumn("Timer", System.Type.GetType("System.String"));//单条采集用时

        DataColumn dc6 = new DataColumn("State", System.Type.GetType("System.String"));//采集状态

        DataColumn dc7 = new DataColumn("Url", System.Type.GetType("System.String"));//所属url

        dt.Columns.Add(dc1);

        dt.Columns.Add(dc2);

        dt.Columns.Add(dc3);

        dt.Columns.Add(dc4);

        dt.Columns.Add(dc5);

        dt.Columns.Add(dc6);

        dt.Columns.Add(dc7);



        //读取txt文件的内容

        string txtFile = Server.MapPath("~/History/SetRepeatFile.txt");

        FileStream fs = new FileStream(txtFile, FileMode.Open, FileAccess.Read);

        StreamReader sr = new StreamReader(fs);

        string txtFileRead = "";

        string txtStr = sr.ReadToEnd();

        if (!string.IsNullOrEmpty(txtStr))

            txtFileRead = txtStr;

        sr.Close();

        fs.Close();



        string repeat = ""; //为不重复数据设置

        count = titleList.Count;//记录全部数据的总数

        for (int k = 0; k < count; k++)

        {

            //用于每条数据采集的用时

            DateTime startTime = DateTime.Now;

            try

            {                

                string content = GetPage(titleList[k].ToString());//读取网页源代码

                string xsState = Regex.Match(content, @"(?<=<span([\s\S]*)class=""pro_center_r""([\s\S]*)>([\s\S]*)销售状态：)(.[^<]*)").Value;

                xsState = Regex.Replace(xsState, @"<font(.*)>([^<].+?)", "$2");

                if (content == "" || content.IndexOf("该藏不存在") >= 0 || content.Length < 200 || xsState == "已售")

                {

                    sb++;

                    continue;

                }

                else

                {

                    DataRow dr = dt.NewRow();

                    string url = Regex.Match(content, @"(?<=\$\.getJSON\(\"")((?:http:\//usercenter.abc123.com/GetInfo.asp)(?:(?!\"").)*)(?=\"")").Groups[1].Value;

                    string content2 = GetPage(url);



                    string contact = Regex.Match(content2, @"(?<=Mobile\""\:(\""))((?:\d)(?:(?!\"").)*)(?=\"",)").Value;

                    Regex regex = new Regex("^1\\d{10}$");

                    if (

                        txtFileRead.IndexOf(contact) < 0 && //禁止已经采集过得号码

                        repeat.IndexOf(contact) < 0 && //禁止本次已经采集过得号码 

                        !string.IsNullOrEmpty(contact.ToLower()) && //禁止号码为空

                         regex.IsMatch(contact)//禁止非号码

                    )

                    {

                        repeat += "," + contact;

                    }

                    else

                    {

                        cf++;

                        continue; 

                    }                    

                    dr["Contact"] = contact;

                    

                    string title = Regex.Match(content, @"(?<=<div([\s\S]*)id=""pro_title""([\s\S]*)>.*</span>).*(?=[^<])").Value;

                    title = Regex.Replace(title, @"([\s| |/g])", "");

                    dr["Title"] = Regex.Match(title, @"(.[^<])*").Value;



                    string price = Regex.Match(content, @"(?<=>参考价：([\s\S]*)<span([\s\S]*)class=""price"">)([\s\S]+?)(?=<\/span>)").Value;

                    price = Regex.Replace(price, @"<font(.*)>([^<].+?)</font>", "$2", RegexOptions.IgnoreCase);

                    price = Regex.Replace(price, @"([\s| |/g])", "");

                    dr["Price"] = price;

                    //设置价格大于10万或议价 

                    string priceRen = "";

                    string priceRep = price.Replace("元", "");

                    if (Regex.IsMatch(priceRep, @"^\d*$"))

                    {

                        if (Convert.ToInt32(priceRep) >= 100000 || Convert.ToInt32(priceRep) <= 50)

                            priceRen = price;

                        else

                            priceRen = "";

                    }

                    else if (priceRep == "议价")

                        priceRen = price;

                    else

                        priceRen = "";

                  

                    dr["Time"] = DateTime.Now.ToString("yyyy-MM-dd HH:mm:ss:ffff");

                    TimeSpan ts = DateTime.Now - DateTime.Now;

                    dr["Timer"] = ts.Seconds.ToString() + "." + ts.Milliseconds.ToString() + "ms";

                    dr["State"] = "成功";

                    dr["Url"] = titleList[k].ToString();



                    if (priceRen != "")//禁止价格小于10万或非议价

                    {

                        dt.Rows.Add(dr);                        

                        cg++;

                    }

                    else

                        sb++;

                }

            }

            catch (Exception ex)

            {

                DAL.ErrorLog.WriteLog(ex);//记录异常信息

                yc++;

            }

        }

        if (dt.Rows.Count > 0)

        {

            //创建Excel文件存放数据

            CreateExcelFile(dt);

            //写入xml文件作为历史记录

            string cTime = timer.ToString();//此次采集时间       

            string c_count = titleList.Count.ToString();//采集总数

            TimeSpan tss = DateTime.Now - timer;

            string c_timer = tss.Minutes.ToString() + "." + tss.Seconds.ToString() + "s";

            string c_state = "<span>成功" + cg + "</span><span class=\"re\">过滤" + cf + "</span><span class=\"fail\">失败" + sb + "</span><span class=\"ero\">异常" + yc + "</span>";

            SetXmlFile(FileName, cTime, c_count, c_timer, c_state);

            //把联系方式写入到txt文档（主要是不采集已经采集过的号码数据）        

            StreamWriter sw = new StreamWriter(txtFile, true);

            sw.WriteLine("\r" + DateTime.Now.ToString("yyyy年MM月dd日 HH:mm:ss") + " 采集\r");

            sw.WriteLine(repeat.Substring(1));

            sw.WriteLine("\n");

            sw.Close();



            //绑定数据

            this.repCollectingList.DataSource = dt;

            this.repCollectingList.DataBind();

        }

        else

            Record.InnerHtml = "<p style=\"color:red; text-align:center;\">请检查采集设置，此次没有采集到任何数据哦！</p>";



 /// <summary>

    /// 获取页面的源代码

    /// </summary>

    /// <param name="url">定义的url页面</param>

    /// <returns></returns>

    private static string GetPage(string url)

    {

        string content = "";

        try

        {

            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);

            request.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)";

            HttpWebResponse response = (HttpWebResponse)request.GetResponse();

            Stream hwStream = response.GetResponseStream();

            Encoding eData = Encoding.Default; //页面都是gbk编码

            StreamReader sData = new StreamReader(hwStream, eData);

            content = sData.ReadToEnd();

            sData.Close();

        }

        catch (Exception)

        {

            content = "";

        }

        return content;

    }

我的代码有没有需要优化的地方，如果采集5k条数据用时要至少30分钟左右，就算是1k条也要用10分钟左右，不知道我的代码有什么不对的地方，请大神给看看（个人网络没有什么问题）。

...全文

168 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

net_xiaojian 2015-09-16

打赏
举报

值得学习！ //count：总数 cg：成功 sb：失败 yc：异常 cf：重复 public int count = 0, cg = 0, sb = 0, yc = 0, cf = 0; 这类的定义直接用英文单词了，也不用注释。

啾啾我 2015-09-15

打赏
举报

引用 3 楼 starfd 的回复:

List<string> urls = new List<string>();
int maxTasks = 10;//这并不代表实际就开了10个线程，实际开多少个是由你的ThreadPool.SetMaxThreads,ThreadPool.SetMinThreads决定的
int splitLength = urls.Count / maxTasks;
if (maxTasks % maxTasks != 0)
{
    splitLength++;
}
Parallel.For(0, maxTasks, i =>
{
    for (int j = 0; j < splitLength; j++)
    {
        var idx = j + i * splitLength;
        if (idx >= urls.Count)
        {
            break;
        }
        var url = urls[idx];
        //请求url
    }
});

这个是用Parallel做的例子

谢谢，我了解一下。

啾啾我 2015-09-15

打赏
举报

引用 4 楼 ajianchina 的回复:

用开源的NCrawler项目吧，非常高效的多线程网络爬虫，不仅可以分析处理HTML,还可对Text, PDF, 和IFilter文档进行分析处理。能够很方便抽取、使用和修改信息。项目地址： http://ncrawler.codeplex.com/ 下载去吧，至少你可以借鉴一下里面设计思路。

感谢，我去了解一下。

ajianchina 2015-09-15

打赏
举报

用开源的NCrawler项目吧，非常高效的多线程网络爬虫，不仅可以分析处理HTML,还可对Text, PDF, 和IFilter文档进行分析处理。能够很方便抽取、使用和修改信息。项目地址： http://ncrawler.codeplex.com/ 下载去吧，至少你可以借鉴一下里面设计思路。

娃都会打酱油了 2015-09-15

打赏
举报

List<string> urls = new List<string>();
int maxTasks = 10;//这并不代表实际就开了10个线程，实际开多少个是由你的ThreadPool.SetMaxThreads,ThreadPool.SetMinThreads决定的
int splitLength = urls.Count / maxTasks;
if (maxTasks % maxTasks != 0)
{
    splitLength++;
}
Parallel.For(0, maxTasks, i =>
{
    for (int j = 0; j < splitLength; j++)
    {
        var idx = j + i * splitLength;
        if (idx >= urls.Count)
        {
            break;
        }
        var url = urls[idx];
        //请求url
    }
});

这个是用Parallel做的例子

啾啾我 2015-09-15

打赏
举报

引用 1 楼 starfd 的回复:

你第一段代码是解析，第二段代码是抓取但两段代码并没有链接的地方，当然也可以猜测出来是抓数据后存入txt文件然后另一边从txt中读取出来并进行解析另外你这个慢也是正常的，你都是单线程在做事情，一般爬虫程序都是开多线程的你可以了解下Task如何用法，如果你的版本低于4.0的话，那就只能用Thread或者ThreadPool了

谢谢提示，我的txt文件主要是做采集的信息不能重复，实际上采集的数据是存放在excel文件中的，有没有比较适合我这个抓取的多线程执行的程序代码，我借鉴一下。感谢

娃都会打酱油了 2015-09-15

打赏
举报

你第一段代码是解析，第二段代码是抓取但两段代码并没有链接的地方，当然也可以猜测出来是抓数据后存入txt文件然后另一边从txt中读取出来并进行解析另外你这个慢也是正常的，你都是单线程在做事情，一般爬虫程序都是开多线程的你可以了解下Task如何用法，如果你的版本低于4.0的话，那就只能用Thread或者ThreadPool了

粒子群算法约束多目标优化 matlab代码

今天我们一起聊聊 Java 中代码优化的 30 个小技巧，希望会对你有所帮助。

前面介绍完了词法分析、语法分析和语义分析，以及各阶段如何利用符号表来实现代码合理性确认以及代码地址拉链式回填等工作。编译原理出于代码编译的模块化组装考虑，一般会在语义分析的阶段生成平台无关的中间代码，经过中间代码级的代码优化，而后作为输入进入代码生成阶段，产生最终运行机器平台上的目标代码，再经过一次目标代码级别的代码优化（一般和具体机器的硬件结构高度耦合，复杂且不通用）。故而出于理解编译原理的角度考

本文是 Unity优化篇系列的一篇文章，同时也包是含在『Unity系统学习专栏⭐️』里的文章。本专栏是我总结的Unity学习类的文章，适合Unity入门和进阶的小伙伴。订阅该专栏之后 Unity基础知识学习、Unity 进阶技巧、Unity 优化篇几个专栏的文章都可以查看。对Unity感兴趣的小伙伴千万不要错过哦，目前专栏正在优惠中，具体内容可以看该专栏的导航帖。本篇文章就来讲一下 Unity中的脚本代码优化策略，一起来学习一下吧！

循环就是程序中那些可能反复执行的代码序列。也正是由于这部分代码序列可能会被反复执行，所以在进行中间代码优化时应着重考虑循环优化，这对提高目标代码的效率起到很大的作用。为了进行循环优化，首先需要确定的是程序流图中哪些基本块构成一个循环。按照结构程序设计思想，程序员在编程时应使用高级语言所提供的结构性的循环语句来编写循环。而由高级语言的循环语句所形成的循环，是不难找出的。对于循环中的代码，可以实行代码外提、强度削弱和删除归纳变量等优化操作。