想做一个HTML的文本抽取的工具，请教一些想法

cityyokel 2002-11-08 10:17:53

我想可能很多地方都要用到这样的小东西吧？
也权且当做对《编译原理》的一次复习吧，呵呵

但是，我对HTML还不是很熟悉。
大约有这么几个想法，请大家指教：
第一步是找到<TITLE>...</TITLE>，获取文件的标题。
第二步是替换<SCRIPT>...</SCRIPT>之间的所有文本为空格。（这里我仅直到可以在HTML源码中嵌入JAVA SCRIPT 和VB SCRIPT，他们的形式都是<SCRIPT LANGUE=...>...</SCRIPT>，所以，我只要找到开始的脚本标记和结束的脚本标记，再逐个替换即可。是否还有商榷之处，还请指教）
第三步，因为所有的合法的HTML标记都是“<”加上a~z、A~Z，或者是一个叹号“！”、百分号“％”，再以“>”封闭。所以，这些标记是我们要替换掉的，我们的任务是找出合法的标记，并替换之。
第四步，因为HTML有转意字符“<”、“>”、“&”等（其他的我还没有看到，请高手们指教），所以，我们还要将前三步抽取出来的文本中的这些转意字符替换为原来的字符。

这就是我暂时能想得到的，请高手们指教！

...全文

60 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

wind0209 2002-11-08

打赏
举报

回复

另存为TXT。

netak47 2002-11-08

打赏
举报

回复

你想学html的话，最好是买一本关于这方面的书，如《html4。0》
你写html文件，直接可以用windows带的记事本，不过我推荐用editplus这个工具，很好用！

cityyokel 2002-11-08

打赏
举报

回复

说的是！
不过你误解了我的想法！我只是想作一个已经保存在本地硬盘上的HTML文件而已！这里已经不考虑了这些动态生成的东西了。
没有办法，这些可以推迟考虑吧。
呵呵，谢谢
还有没有什么建议？

meizz 2002-11-08

打赏
举报

回复

其实不用那么麻烦：
<body onclick="alert(document.body.innerText)">
轻松搞定

方工 2002-11-08

打赏
举报

回复

你自己想做一个HTML解析器？工程太浩大了。对动态生成的文本如何处理？
地址栏输入
javascript:alert(document.documentElement.innerText)
利用DOM可以作很多事情

2.信息抽取：从给定文本中抽取重要的信息，比如，时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来，就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及...

直接切入正题，这是我09年到11年左右业余时间编写的项目，最初的想法很简单，做一个能拖拖拽拽就直接生成应用程序的工具，不用写代码，把能想到的业务操作全部封装起来，通过配置的方式把这些业务操作组织起来运行。...

在实际的工作流中，我们往往要处理大量的评论文本，下面的示例将多条用户评价集合在一个列表中，并利用 for 循环和文本概括（Summarize）提示词，将评价概括至小于 20 个词以下，并按顺序打印。虽然我们通过添加关键...

一研究方向基础研究：词法与句法分析：李正华、陈文亮、张民（苏州大学）语义分析：周国栋、李军辉（苏州大学）篇章分析：王厚峰、李素建（北京大学）语言认知模型：王少楠，宗成庆（中科院自动化...

这是一篇深度好文，观点因人而异，我觉得本文能给...然而，胶片中的文字毕竟只是提纲携领，无法充分阐述我的想法，为此，借周末一点闲暇，把《怎样做研究》写成一篇文章，与师友切磋。什么是科学科学是分科的

61,112

社区成员

60,730

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章