关于解析html成tag树的讨论(欢迎各位专家)

老田低代码 2008-06-16 12:16:25
这段时间在做搜索引擎,决定采用Lucene.net。但是在网页抓取,解析方面一直很难找到比较理想的东西,后来自己写了个,经过测试www.sina.com.cn以及www.csdn.net等众多网站首页,完全能够实现将Html解析成tag数。
具体可以看我的文章:里面罗列了核心思想和算法《解析Html生成标签数》

但是不知道是否还有其他比较理想的算法。
希望各位讨论讨论,给点意见。
...全文
76 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
笨鸟工作室 2008-06-26
  • 打赏
  • 举报
回复
太客气了,你帮我解决问题,我都没分给你,呵呵
老田低代码 2008-06-25
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 mount_taiking 的回复:]
万一文件中有部分内空中含有 <a~z>类式的字符你是不是一块给当成TAG了?
[/Quote]
兄弟,就你一个人回复,所以这20分就给你了。

不过可以到:http://topic.csdn.net/u/20080616/12/3f18595f-84ae-4a2b-a872-ecabd43d0257.html去发表评论的。

这里被斑竹推荐了。目前人气比较好!
笨鸟工作室 2008-06-24
  • 打赏
  • 举报
回复
万一文件中有部分内空中含有<a~z>类式的字符你是不是一块给当成TAG了?
老田低代码 2008-06-23
  • 打赏
  • 举报
回复
我这20分给不出去了啊!!
我真的不想“无满意答案”来结帖子,所以只要有人进我的Blog去认真看了回来评论下,就结好了。。。
老田低代码 2008-06-16
  • 打赏
  • 举报
回复
http://blog.csdn.net/RonoTian/archive/2008/06/06/2517568.aspx

13,347

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 .NET技术前瞻
社区管理员
  • .NET技术前瞻社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧