本人想用C#做一个信息抓取系统,想在新浪网上抓取新闻。前提是我已经在新浪网上已登陆的。请问应该怎么实现?
public static byte[] GetHtmlByBytes(string server, string URL, byte[] byteRequest, string cookie, out string header)
{
long contentLength;
HttpWebRequest httpWebRequest;
HttpWebResponse webResponse;
httpWebRequest = (HttpWebRequest)HttpWebRequest.Create(URL);
CookieContainer co = new CookieContainer();
co.SetCookies(new Uri(server), cookie);
httpWebRequest.CookieContainer = co;
httpWebRequest.ContentType = "application/x-www-form-urlencoded";
httpWebRequest.Accept = "application/x-shockwave-flash, image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*";
httpWebRequest.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)";
httpWebRequest.Headers.Add("Accept-Language", "zh-cn");
//是否支持重新定向
//httpWebRequest.AllowAutoRedirect = false;
httpWebRequest.Method = "GET";
httpWebRequest.Timeout = 15000;
httpWebRequest.ContentLength = byteRequest.Length;
webResponse = (HttpWebResponse)httpWebRequest.GetResponse();
//header = webResponse.Headers.ToString();
header = webResponse.Headers.Get("Set-Cookie");
if (string.IsNullOrEmpty(header))
{
header = cookie;
}
else
{
header = cookie + "," + header;
}
//getStream = webResponse.GetResponseStream();
Stream gzips = webResponse.GetResponseStream();
contentLength = webResponse.ContentLength;
byte[] outBytes = new byte[0];
outBytes = ReadFully(gzips);
gzips.Close();
return outBytes;
}
public static byte[] ReadFully(Stream stream)
{
byte[] buffer = new byte[128];
using (MemoryStream ms = new MemoryStream())
{
while (true)
{
int read = stream.Read(buffer, 0, buffer.Length);
if (read <= 0)
return ms.ToArray();
ms.Write(buffer, 0, read);
}
}
}
在前天我到公司就接到一个惊人的消息,说是新浪1.0的搜索接口关闭了,那我们的业务岂不是受很大影响,这个事太紧急了,大家在一起商讨该怎么办,跟新浪买2.0的接口肯定时间很长,最后决定抓取新浪网页的,新浪网页未...
利用webbrowser控件登录新浪微博抓取用户的信息,通过控制窗体解决webbrowser很耗缓存的问题
抓取新浪网24小时快讯,同时存入数据表与文件中。 程序使用了 selenium webdriver 模拟鼠标下拉行为获取页面内容,可惜本机测试只抓到了10天数据,新浪太小气。本程序修改一下对抓取其他下拉式网页有一定参考价值。...
PS:(本人长期出售超...由于微博接口更新后限制增大,这个代码已经不能用来爬数据了。如果只是为了收集数据可以咨询我的邮箱,如果是为了学习爬虫,建议改学phantomjs从网页中爬取微博的) 利用新浪API实现数据的抓...
一个用C#写的实现新浪微博结果的批量抓取
如标题,学习爬虫也有一段时间了,今天来...工具:Anaconda先进入该页,新浪新闻:http://news.sina.com.cn/china/往下翻,找到这样的最新消息先爬取单个页面的信息:(随便点一个进去),该新闻网址:http://news.s...
由于新浪微博的手机网页的访问加入了验证码,所以抓取新浪微博的后门行不通了,经过一系列的研究,最终使用selenium工具模仿浏览器行为访问新浪微博公众号,因为浏览器访问网页时是以访客的形式访问 ,所以避免了...
下面我以新浪军事新闻模块提取军事新闻的标题,将提取到的新闻标题保存到记事本上 staticvoidMain(string[]args){Stopwatchwatch=newStopwatch();watch.Start();WebClientwc=newWebCli...
C#实现web信息自动抓取 背景随着Internet的普及,网络信息正以极高的速度增长,在这么多数据中找到自己需要的信息是一件很繁琐的事情,找到需要的信息后如何获取也是件麻烦的事。这就需要Internet信息抓取程序来...
然而时至今日,设计一个完善的、功能强大的、能有效抓取到优质新闻的抓取系统,在技术实现上日趋复杂,因为有更多的问题需要解决。此次飞速的自动新闻系统升级,让我的此种感觉更加强烈,特写
各位大神们好,我想完全的获取新浪博客里面的内容。网页如下: 新浪提供了一个HTTPS格式,用于电脑访问。https://www.weibo.com/ssclhb 另一个是HTTP格式,用于手机访问。https://weibo.cn/ssclhb 手机端的由于有...
新浪微博的数据是分三段显示的。代码中只请求http://weibo.com/leijun#!/leijun?page=2&pre_page=1&end_id=3547112191461289&end_msign=-1只能获取第一段前15条微博。 代码需要访问三次才能将微博数据全部获取 ...
使用selenium爬虫抓取数据 文章目录使用selenium爬虫抓取数据@[toc]总体介绍Selenium安装安装火狐浏览器插件Katalon Recorder简单教程抓取网易房地产数据例子参考链接 总体介绍 Selenium 简单入门教程 使用 ...
欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给...
然而时至今日,设计一个完善的、功能强大的、能有效抓取到优质新闻的抓取系统,在技术实现上日趋复杂,因为有更多的问题需要解决。此次飞速的自动新闻系统升级,让我的此种感觉更加强烈,特写下此文,作为日后的回顾...
模拟登陆就是获取新浪服务器返回的登陆参数(cookies等),然后添加到爬虫的post请求中来伪装用户提交给新浪访客系统 首先感谢 Bgods(https://blog.csdn.net/songzhilian22/article/details/48396545) 敲代码的...
内容: 爬取某位明星的微博超话的上万条用户信息,对爬取的结果进行EDA分析与数据可视化,如分析用户年龄,性别分布、粉丝团的地区分布,词云打榜微博内容。 详细代码在Github:...
抓取新浪网的新闻栏目,如图所示: 使用 谷歌浏览器的查看源代码: 通过分析得知,我们所要找的内容在以下两个标签之间: 1 <!-- publish_helper name='要闻-新闻' p_id='1' t_id='850' d_id='1' -->...
导入的新浪博客中的图片地址链接到新浪网址,而在别的站点看新浪博客图片无法正常显示.为了解决这个问题,就要想办法将图片抓取到本地. 在Asp.net中抓取网络上的图片需要四个类:WebRequest、WebResponse、Stream、...
文章目录爬虫地址爬虫技术爬虫代码致谢 爬虫地址 ... 爬虫技术 参照其他几篇文章: 爬虫-中国银行卡-优惠商户活动数据(2018-11-15) 爬虫-新浪财经-信用卡优惠商店数据(2018-11-15) 爬虫代码 # -*-coding:utf...
摘要:本文介绍以小米Note发布的微博评论数据为对象,利用八爪鱼和微图工具从零散的微博数据中采集、分析生成一个清晰地用户画像吧。 想设计一款新的产品,你了解未来的用户是什么样吗?想提升服务质量,用户调研...
前段时间师姐给了我一个C#爬图的代码,很简单有效。我查了点资料,把代码搞懂了然后简化又扩展了一下使它能够爬取网页内容。现在把代码和过程放上来供有兴趣的朋友一起探讨。 这一部分只讲如何爬验证码图片。爬取...
去年底用 多线程+HtmlAgilityPack.dll 写了一个抓取“慧聪网” 公司信息的小程序,代码惨不忍赌。好在能抓到数据,速度也能让人忍受就很久没管了。 最近这段时间把这个小程序发给同事看着玩,没想到他老感兴趣了...
''' Created on 2017年2月22日 @author: test ''' import time #phantomjs导入包 from selenium import webdriver #xpath from lxml.html.clean import Cleaner import random ...if __name__ == '__main__'
其他部分改的差不多了,还有就是当微博中的字符含有{}等时,会提示字符串格式错误,这个也该需要改进的,,还没改进,程序还需要一个挂空线程的功能,保留现场,让程序可以继续爬取,而不是从头再爬。各种类 ...
但是存入数据库这部分还未完成,对于stockDate字段,其类型为Date,本想使用List.get()方法将List中的数据取出赋值给一个变量,从而存储在数据库中,但是对于Date类型的数据好像不能直接赋值给变量,故还需寻找解决...
功能是:获取新浪微博1000w用户的基本信息和每个爬取用户最近发表的50条微博,使用python编写,多进程爬取,将数据存储在了mongodb中 说明:获取新浪微博1000w用户的基本信息和每个爬取用户最近发表的50条微博 地址:...
分享一个新浪微博的爬虫,基于 Scrapy + MongoDB 实现,号称一小时可爬千万条数据。作者:LiuXingMing来源:http://blog.csdn.net/bone_ace/article/details/50903178项目地址:...
前面一直强调Python运用到网络爬虫方面非常有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简单介绍下Python是如何爬去网络数据的,文章知识非常简单,但是也分享给大家,就当简单入门吧!...
不会C#,不会GUI API 反正就是不会。 源代码里面也有了。python写的网上搜了一下都要注册,又懒得破解,干脆自己动手写了一个。也就100多行代码。不过之前没用过selenium,再加上python的格式真是哔了狗。还有他...