想做一个HTML的文本抽取的工具,请教一些想法

cityyokel 2002-11-08 10:17:53
我想可能很多地方都要用到这样的小东西吧?
也权且当做对《编译原理》的一次复习吧,呵呵

但是,我对HTML还不是很熟悉。
大约有这么几个想法,请大家指教:
第一步是找到<TITLE>...</TITLE>,获取文件的标题。
第二步是替换<SCRIPT>...</SCRIPT>之间的所有文本为空格。(这里我仅直到可以在HTML源码中嵌入JAVA SCRIPT 和VB SCRIPT,他们的形式都是<SCRIPT LANGUE=...>...</SCRIPT>,所以,我只要找到开始的脚本标记和结束的脚本标记,再逐个替换即可。是否还有商榷之处,还请指教)
第三步,因为所有的合法的HTML标记都是“<”加上a~z、A~Z,或者是一个叹号“!”、百分号“%”,再以“>”封闭。所以,这些标记是我们要替换掉的,我们的任务是找出合法的标记,并替换之。
第四步,因为HTML有转意字符“<”、“>”、“&”等(其他的我还没有看到,请高手们指教),所以,我们还要将前三步抽取出来的文本中的这些转意字符替换为原来的字符。

这就是我暂时能想得到的,请高手们指教!
...全文
60 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
wind0209 2002-11-08
  • 打赏
  • 举报
回复
另存为TXT。
netak47 2002-11-08
  • 打赏
  • 举报
回复
你想学html的话,最好是买一本关于这方面的书,如《html4。0》
你写html文件,直接可以用windows带的记事本,不过我推荐用editplus这个工具,很好用!
cityyokel 2002-11-08
  • 打赏
  • 举报
回复
说的是!
不过你误解了我的想法!我只是想作一个已经保存在本地硬盘上的HTML文件而已!这里已经不考虑了这些动态生成的东西了。
没有办法,这些可以推迟考虑吧。
呵呵,谢谢
还有没有什么建议?
meizz 2002-11-08
  • 打赏
  • 举报
回复
其实不用那么麻烦:
<body onclick="alert(document.body.innerText)">
轻松搞定
方工 2002-11-08
  • 打赏
  • 举报
回复
你自己想做一个HTML解析器?工程太浩大了。对动态生成的文本如何处理?
地址栏输入
javascript:alert(document.documentElement.innerText)
利用DOM可以作很多事情

61,112

社区成员

发帖
与我相关
我的任务
社区描述
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区管理员
  • HTML(CSS)社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧