如何提取http网页表格中的实时数据？

wanghammer 2003-08-20 09:07:50

www.teletext.co.uk上有很多实时的股票数据，如何解析出他们？

...全文

44 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

(1)本软件不能检查已发表文档，因为已发表的文档往往已经到处传播和引用开来。 ⑵.本软件的每检测400字需要6秒钟，一篇8000字的文档至少需要2分钟，需要一点点耐心。 ⑶.本软件检测结果存在误差，用更小的文档块进行检测，可以减少误差，但需要的时间会相应增加，经过我们在多家编辑部的试用情况，块数大小定为200-400字较为合适，此时误差率也是可以接受的，文档相似率一般是比实际的要低。 ⑷.如果某个相似块未显示，说明未检索到相似的文档。 ⑸.本软件每天检测字数不能超过10万字，否则服务器过载，将封锁IP。 ⑹.本软件后台数据库覆盖188亿个网页和490万篇论文。 ⑺.本软件检测文档不得超过4000字，如需要更长的文档支持，需要购买收费版。 ⑻.当软件未能联网时，软件检测按钮将变虚。 ⑼.本免费版由于服务器压力，有时候可能不能正常检测，出现这种情况，请速联系我们，或者由单位出面购买单位版或者豪华版。 ⑽．本软件检测结果只能作为一个参考，可以使用表格右键导出详细检查结果发送给被检查本人，本软件不对是否剽窃做结论，只是告诉你与现存文献相似度高于80%的文字比例所占文章总数比例是多少。 ⑾．我们将持续投入反剽窃的研究，本人已获批国家自科基金进一步反剽窃问题，我们将继续发表一系列论文，以及继续申请相关专利。软件不完善的地方敬请原谅。欢迎提供反馈意见，我们将持续升级本软件。我们的联系方式：runorsoft@163.com 我们的博客：http://hi.baidu.com/whusoft -------------------------------------------------------------------- 反剽窃系统是通过比对源文档和目标文档的相似性给出相似度结果的一种信息处理系统。由武汉大学信息管理学院出版科学系教师沈阳副教授研发的ROST 文档相似性检测工具可以有效检测论文的抄袭相似情况，经过六年的研发，终于推出了功能强劲的6.0版本，在定版过程中得到了武汉大学信息管理学院多位专家教授的宝贵意见。目前ROST 反剽窃系统6.0版已经投入多家单位进行使用，反应良好，最大程度地杜绝了有抄袭可能的论文发表问世。 ROST反剽窃系统的技术特点： 1．覆盖面广，通过混合引擎覆盖约188亿个网页和490万篇论文。系统采用自研的ROST WebSpider算法实现了对互联网和期刊网的广度覆盖。但需要提醒您的是，本反剽窃系统不能覆盖所有文献。 2．模糊检测，柔性匹配，不管抄袭者如何替换部分字符，删除部分标点符号，系统都能通过相似度来进行判定，让抄袭者无所遁形。系统采用自研的ROST Similar算法实现高速相似性检测和度量。系统采用自研的QingQing算法提取信息指纹，在P3、512MBPC上，分词速度为13MB/S，已在互联网提供评测版供业内评测。 3．引文及参考文献去除，使得误判的可能性降至最低。 4．分块检测机制，将文章的每一文本块与其他文档的相似度都精确的表示出来了，每一文本块约为200字至400字不等，以红色表示极度相似（相似度大于80%），一目了然，清晰醒目。 5．相似文档模块跟踪技术，可以通过简单操作直接定位相似文档模块位置，直观明了。 6．方便的结果分析功能，自动分析文档相似结果，给出评价意见。 7．支持多种文件格式的文档，包括PDF、DOC、PPT、XLS、TXT等文档。（PDF文件需另行安装ROST文件格式识别引擎） 8．可将分析结果进行存盘为专有数据文件，不用反复查找浪费时间。 9．应用范围广泛：可用于抄袭鉴定、科技查新、专利查新、引用查询、转载查询等多个领域，也可用于追查文献的流传图，绘制文献的传播发布路线。可以为多类学术机构、文献机构以及个人服务。多年来，学术界的论文著作抄袭剽窃事件屡见不鲜，这是摆在我们面前的一个重大课题。目前多是靠偶然发现后，在书山文海中逐步查找，费力劳神，时效性差，工作量极大。为促进学术事业的健康发展，采用有效科学手段，发现和打击学术腐败，极有必要进行反剽窃和相似信息检测系统的研发和推广，提升刊物和出版单位的学术信誉，净化学术风气。目前国外已深刻认识到学术腐败对科技创新的危害性，也采取了切实有效的技术措施，对侵犯知识产权或违反学术道德的不端行为加以取证。而国内只有极少数专家从事反剽窃的技术与理论研究。武汉大学信息管理学院出版科学系推出的ROST反剽窃系统技术先进，功能实用，是守住学术道德底线的有效工具，能将用户的学术及经济风险降至最低。研发人员还先后发现了剽窃省力、格式遗留、剽窃趋同、剽窃蔓延、剽窃习惯固定、相关引文剽窃等六种现象，总结了论文剽窃的主要方式，连续推出了三个原型系统，发表了《System of twice-gathering information and Research of information fingerprint Hashtrie》、《The Research of Anti-plagiarism Monitoring System Model》、《Research on Anti-plagiarism System and the Law of Plagiarism》等6篇相关论文，申请了“基于计算机网络的防转载或/和反剽窃监控方法”（专利号：200610019074.5）、“能加快反剽窃或转载文档检测速度的方法”（专利号：200610166577.5已授权）两项相关专利。

文章目录场景Code 场景有时候上网查阅资料，需要网页中表格内、指定行列的数据。如果表格小(操作的数据量小)，可以手动复制粘贴。但如果要操作的表格很大，那么可以使用程序自动执行遍历表格的操作，并提取数据。看懂以下教程需要会： JavaScript简单语法；浏览器DevTools(即F12快捷键呼出的界面)； Code 选中表格元素 F12调出DevTools，切换到控制台Console Ctrl+Shift+C，鼠标点击网页中的表格。之后在控制台输入$0，可以打印出最近一次在页面中选中

使用 Python 的 Camelot 包来自动化解析 PDF 中的有线框和无线框表格，代码简洁高效，而且可以把数据保存到 Excel、CSV 等文件中，便于对数据进行对比分析，极大地提高了数据处理的效率。【课程设计大纲】

本章我们将学习网络爬虫，其中包括学习Python中的BeautifulSoup库，它用于从网站中提取数据。本章包含以下主题。什么是网络爬虫。数据提取。从维基百科网站提取信息。1　什么是网络爬虫网络爬虫是指从网站提取数据的技术，该技术可以将非结构化数据转换为结构化数据。网络爬虫的用途是从网站提取数据，提取的数据可以存储到本地文件并保存在系统中，也可以将其以表格的形式存储到数据库中。网络爬虫使用HTT...

9. 如果需要批量提取多个网页的文字，可以使用 Excel 的「自动填充」功能，例如，在 A1 单元格中输入第一条公式，然后在 A2 单元格中输入第二条公式，并在 A2 单元格右下角拖动鼠标以自动填充剩余单元格。这个需求其实是采集数据，用第三方软件比较合适，当然，用excel也可以批量提取网页内特定文字。6. 按下 Enter 键后，Excel 会在指定单元格中提取该网页的所有 HTML 代码。1. 打开要提取的网页，并选中要提取的文字，例如一个表格里的数据。其中，改为要提取的网页的 URL。

3,055

社区成员

8,066

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章