关于C#爬虫筛选网页内容问题

BXS_null 2018-04-14 11:47:21
最近想写一个C#的网络爬虫,但是在筛选网页内同的时候遇到了问题,需要筛选的内同如下
  <tr class="odd">
<td class="country"></td>
<td>183.159.93.132</td>
<td>18118</td>
<td>
浙江杭州
</td>
<td class="country">高匿</td>
<td>HTTPS</td>
<td class="country">
<div title="0.158秒" class="bar">
<div class="bar_inner fast" style="width:95%">

</div>
</div>
</td>
<td class="country">
<div title="0.031秒" class="bar">
<div class="bar_inner fast" style="width:99%">

</div>
</div>
</td>

<td>1小时</td>
<td>18-04-14 10:20</td>
</tr>

内容都在td里面,如果是用正则表达式的话我改怎样获取内容并且区分开他们?然后我百度了一下 ,发现beautifulsoup非常好用啊,但是C#能用这个吗? 还是说有没有其他的筛选方法,求大佬告知,谢谢!!
...全文
641 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
闭包客 2018-04-16
  • 打赏
  • 举报
回复
1、获取 htm 内容的问题,可以使用解析器:https://blog.csdn.net/closurer/article/details/73466685 2、代理 ip 都是有时效性的,公开的代理 ip 可以使用的估计不足 5%,访问不了很正常的。另外,用代理 ip 去访问公开这个代理 ip 的网站,也是很容易被识别的。
BXS_null 2018-04-16
  • 打赏
  • 举报
回复
引用 6 楼 closurer 的回复:
1、获取 htm 内容的问题,可以使用解析器:https://blog.csdn.net/closurer/article/details/73466685 2、代理 ip 都是有时效性的,公开的代理 ip 可以使用的估计不足 5%,访问不了很正常的。另外,用代理 ip 去访问公开这个代理 ip 的网站,也是很容易被识别的。
哇 感谢,这个解析器比正则表达式简便一点,不用写很长的正则表达式了
xuzuning 2018-04-14
  • 打赏
  • 举报
回复
去除 html 标签 非空(回车、换行算空)字符就是你要的数据
BXS_null 2018-04-14
  • 打赏
  • 举报
回复
又遇到新问题了亲们,大佬们!!!!我爬他们的Ip代理网站 最后爬了一次就爬不了了 爬了几万行数据吧,最后我进网站给我返回一个block ,应该就是不让我这个IP 访问了吧,然后我换从他们网站上爬下来的代理Ip访问,但是那些ip都访问不了怎么回事,几乎都是显示 “代理服务器出现问题,或者地址有误。”,为啥?是因为代理ip不行吗?还是其他原因 怎么解决,求带老告知,在此跪谢!!!
BXS_null 2018-04-14
  • 打赏
  • 举报
回复
引用 2 楼 wowfiowow 的回复:
py能做的net都可以做,不过net比较性冷淡,而且喜欢故弄玄虚,写法搞的比较繁琐而已
好吧 最后还是拼了一个超级长的正则表达式做的
橘子皮... 2018-04-14
  • 打赏
  • 举报
回复
py能做的net都可以做,不过net比较性冷淡,而且喜欢故弄玄虚,写法搞的比较繁琐而已

110,536

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧