想做一个HTML的文本抽取的工具,请教一些想法
我想可能很多地方都要用到这样的小东西吧?
也权且当做对《编译原理》的一次复习吧,呵呵
但是,我对HTML还不是很熟悉。
大约有这么几个想法,请大家指教:
第一步是找到<TITLE>...</TITLE>,获取文件的标题。
第二步是替换<SCRIPT>...</SCRIPT>之间的所有文本为空格。(这里我仅直到可以在HTML源码中嵌入JAVA SCRIPT 和VB SCRIPT,他们的形式都是<SCRIPT LANGUE=...>...</SCRIPT>,所以,我只要找到开始的脚本标记和结束的脚本标记,再逐个替换即可。是否还有商榷之处,还请指教)
第三步,因为所有的合法的HTML标记都是“<”加上a~z、A~Z,或者是一个叹号“!”、百分号“%”,再以“>”封闭。所以,这些标记是我们要替换掉的,我们的任务是找出合法的标记,并替换之。
第四步,因为HTML有转意字符“<”、“>”、“&”等(其他的我还没有看到,请高手们指教),所以,我们还要将前三步抽取出来的文本中的这些转意字符替换为原来的字符。
这就是我暂时能想得到的,请高手们指教!