社区
网络通信/分布式开发
帖子详情
如何抓取網頁的內容以便做分析呢
reedchen
2007-11-22 02:24:02
各位大俠,我要在寫一個程式抓取網頁的內容做分析,這個網頁有帳號和密碼,要怎麼做呢,小弟,謝謝先!
...全文
178
6
打赏
收藏
如何抓取網頁的內容以便做分析呢
各位大俠,我要在寫一個程式抓取網頁的內容做分析,這個網頁有帳號和密碼,要怎麼做呢,小弟,謝謝先!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
reedchen
2007-11-23
打赏
举报
回复
我用idhttp.get 顯示錯誤呢,錯誤如下;Invalid argument to date encode,那位高手可以指點,以前有看到可以用webbrowser顯示網頁內容,然後把顯示的內容copy到word檔,現在忘記怎麼做了,那位高手可以指點.謝謝!
reedchen
2007-11-23
打赏
举报
回复
各位大俠是否有代碼,可以給小弟看看嗎?謝謝!
boblaw
2007-11-22
打赏
举报
回复
楼主不会是做那个所谓月薪8K招聘贴的题目吧?呵呵
如LS所述,取源码.
然后可以用xml分析,也可以使用正则表达式来匹配,应该不会太难
brightyang
2007-11-22
打赏
举报
回复
用idhttp.get('url')把源码取出来
自已分析
如果熟悉xml就更好分析了
如果不会就自已解决,取想到的数据就行了
reedchen
2007-11-22
打赏
举报
回复
如果可以把網頁的內容抓下來存成txt檔案就比較容易分析呢,不知要怎麼做?
ideation_shang
2007-11-22
打赏
举报
回复
你这个应该不单单是抓取网页的问题
一个可以定制的爬虫
本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。 如果不修改配置是
抓取
新浪科技的内容,修改配置可以
抓取
指定的网站。 配置文件采用ini的格式. spider_config.ini蜘蛛的配置 1. maxThreads 爬虫的线程数 2. startURL 爬虫开始的URL 3. checkFilter 爬虫只
抓取
指定的URL(采用正则表达式匹配) 4. urlFilter 爬虫提供给
分析
器的URL(采用正则表达式匹配) sucker_config.ini 网页
分析
器的配置 1. maxThreads
分析
器的线程数 2. pattern parser匹配的正则表达式 3. parser 指定对应pattern的
分析
器 本程序支持自定义
分析
器。可以参照软件包中NewsParser.py的写法自己写个parser,前提是熟悉python。写好后运行compile编译承pyc就可以了
用C#
抓取
网页数据,轻松
分析
!
在当今互联网时代,网页数据的获取和
分析
对于很多行业都非常重要。而在这个过程中,使用C#编程语言来实现自动化网页
抓取
和数据
分析
已成为一种非常流行的方式。本文将从多个方面详细介绍如何使用C#来
抓取
网页内容并
分析
获取数据。一、什么是网页
抓取
网页
抓取
是指通过程序自动访问网站,获取其中的信息的过程。
如何用Python获取网页指定内容
如何用Python获取网页指定内容 文章目录如何用Python获取网页指定内容1.
抓取
网页源代码2.
抓取
一个网页源代码中的某标签内容3.
抓取
多个网页子标签的内容 Python用
做
数据处理还是相当不错的,如果你想要
做
爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能。 在我们开始之前,我们需要安装一些环境依赖包,打开命令行 确保电脑中具有python和pip,如果没有的话则需要自行进行安装 之后我们可使用pip安装必备模块 pip install requests
python如何获取网页内容_python如何获取网页内容
python如何获取网页内容发布时间:2020-09-21 15:15:32来源:亿速云阅读:62作者:小新这篇文章主要介绍了python如何获取网页内容,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。Python用
做
数据处理还是相当不错的,如果你想要
做
爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功...
网页内容
抓取
API,一键获取正文!
随着互联网的发展,数据已经成为企业决策和市场
分析
中不可或缺的一部分。但是,如何高效地获取网络上的数据却一直是个难题。幸运的是,现在有了网页正文内容
抓取
API,这个问题将变得更加容易解决。1.什么是网页正文内容
抓取
API?网页正文内容
抓取
API是一种用于从网页中提取数据的工具。通过使用这个API
网络通信/分布式开发
1,593
社区成员
32,964
社区内容
发帖
与我相关
我的任务
网络通信/分布式开发
Delphi 网络通信/分布式开发
复制链接
扫一扫
分享
社区描述
Delphi 网络通信/分布式开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章