如何分析HTML文件,生成一棵标记树?
我想实现自动格式化HTML文件的功能。也就是说,能够自动把任意HTML文件格式化为自动缩进的格式,例如:
<HTML>
<BODY>
<TABLE>
<TR>
<TD>
<P>
第一列
</P>
</TD>
......
</TR>
......
</TABLE>
</BODY>
</HTML>
为了实现这个功能,必须能够分析HTML文件,取出其中每一个标记,并创建一棵标记树。可是,由于存在单引号和双引号,以及它们的嵌套使用,要实现这个功能就有些困难了。
那位高人有比较好的算法?