社区
.NET技术前瞻
帖子详情
关于解析html成tag树的讨论(欢迎各位专家)
老田低代码
2008-06-16 12:16:25
这段时间在做搜索引擎,决定采用Lucene.net。但是在网页抓取,解析方面一直很难找到比较理想的东西,后来自己写了个,经过测试www.sina.com.cn以及www.csdn.net等众多网站首页,完全能够实现将Html解析成tag数。
具体可以看我的文章:里面罗列了核心思想和算法《解析Html生成标签数》
但是不知道是否还有其他比较理想的算法。
希望各位讨论讨论,给点意见。
...全文
76
5
打赏
收藏
关于解析html成tag树的讨论(欢迎各位专家)
这段时间在做搜索引擎,决定采用Lucene.net。但是在网页抓取,解析方面一直很难找到比较理想的东西,后来自己写了个,经过测试www.sina.com.cn以及www.csdn.net等众多网站首页,完全能够实现将Html解析成tag数。 具体可以看我的文章:里面罗列了核心思想和算法《解析Html生成标签数》 但是不知道是否还有其他比较理想的算法。 希望各位讨论讨论,给点意见。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
笨鸟工作室
2008-06-26
打赏
举报
回复
太客气了,你帮我解决问题,我都没分给你,呵呵
老田低代码
2008-06-25
打赏
举报
回复
[Quote=引用 3 楼 mount_taiking 的回复:]
万一文件中有部分内空中含有 <a~z>类式的字符你是不是一块给当成TAG了?
[/Quote]
兄弟,就你一个人回复,所以这20分就给你了。
不过可以到:http://topic.csdn.net/u/20080616/12/3f18595f-84ae-4a2b-a872-ecabd43d0257.html去发表评论的。
这里被斑竹推荐了。目前人气比较好!
笨鸟工作室
2008-06-24
打赏
举报
回复
万一文件中有部分内空中含有<a~z>类式的字符你是不是一块给当成TAG了?
老田低代码
2008-06-23
打赏
举报
回复
我这20分给不出去了啊!!
我真的不想“无满意答案”来结帖子,所以只要有人进我的Blog去认真看了回来评论下,就结好了。。。
老田低代码
2008-06-16
打赏
举报
回复
http://blog.csdn.net/RonoTian/archive/2008/06/06/2517568.aspx
JAVA杂谈
JAVA杂谈(一) 来学习Java也有两个年头了,永远不敢说...关于动态加载机制 学习Java比C++更容易理解OOP的思想,毕竟C++还混合了不少面向过程的
成
分。很多人都能背出来Java语言的特点,所谓的动态加载机制等等。当然概
基于jsp的影视创作论坛系统设计与实现(项目报告+答辩PPT+源代码+数据库+截图+部署视频)
中文名叫java服务器页面,是一种跨平台的动态网页技术,它实现了
HTML
语法中的java扩张,即在传统的网页
HTML
(标准通用标记语言的子集)文件中插入Java程序段和JSP标记(
tag
),再由web服务器中的JSP引擎来进行编译并...
转的一杂谈
网站架构(页面静态化,图片服务器分离,负载均衡)方案全
解析
文章分类:综合技术 1、
HTML
静态化其实大家都知道,效率最高、消耗最小的就是纯静态化的
html
页面,所以我们尽可能使我们的网站上的页面采用静态页面来...
如何用
html
2canvas +jsPDF更简单实现pdf防
• 必 关于多表分页业务逻辑处理 前言在平时我们写分页列表的时候,通常对于单表的分页,通过Mybatis分页插件结合Mysql的limit分页轻松完
成
单表的分页,但是也难免遇到多表的情况,多表需 题解 | #dom节点转
成
json...
近期风靡互联网的Deep Dream人工智能图像识别软件
声明:本译文包含六篇以上原外文内容,现汇合一处,附有大量的链接。实际上,我本可以将其拆分
成
多篇短文陆续发表,但我不想那样做。...
欢迎
转载本文,但请注明译文作者(我)和文章出处,尊重他人的辛苦劳动
成
.NET技术前瞻
13,347
社区成员
5,388
社区内容
发帖
与我相关
我的任务
.NET技术前瞻
.NET技术 .NET技术前瞻
复制链接
扫一扫
分享
社区描述
.NET技术 .NET技术前瞻
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章