发布一个HTML正文提取程序PHP版 HTMLExtractor

xjtdy88 2010-12-21 11:08:19
发布一个HTML正文提取程序HTMLExtractor,
程序主要是基于内容统计的方法,暂不包含自学习能力,仅是
一个分析程序而以,网上也有别人实现了的正文提取程序,不过
大部人都当宝,都不愿意公开完整代码,有些大人实现了一些简
单的,不过分析能力和识别能力都不太理想。所以自己做了一个
简单的,本来想用PHP DOM分析器,不过大部份网页都不规范,
缺个标签啥的都很正常,所以自已又造了个简单的轮子分析HTML标
签,功能比较简单,每个元素都生成一个对象,内存方面占用比较
高,不过在这里我只是为了实现,并没去做优化。因为我并不是在
做应用,所以希望不要让我改改成什么样去适用你们的业务(以前经常
有QQ加上让我把我的例子怎么改,很无语),
如果你们喜欢,可以和我一起开发完善他。

补充一下,因为写的着急,现在几个类的耦合性还比较大,下来再守善吧。

项目代码 http://code.google.com/p/html-extractor/
在线例子 http://dev.psm01.cn/c/html-extractor.php

帖上源码,说太长不让发,所以需要的自己去GOOGLE上检出来吧。
...全文
136 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
codeyell-com 2010-12-21
  • 打赏
  • 举报
回复
我用过最牛的
php simple dom
很好用。
ihefe 2010-12-21
  • 打赏
  • 举报
回复
友情帮顶
LKK 2010-12-21
  • 打赏
  • 举报
回复
谢谢了
xjtdy88 2010-12-21
  • 打赏
  • 举报
回复
嗯 ph psimple html dom 是非常牛。不错。

20,358

社区成员

发帖
与我相关
我的任务
社区描述
“超文本预处理器”,是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。PHP语法利用了C、Java和Perl,该语言的主要目标是允许web开发人员快速编写动态网页。
phpphpstorm 技术论坛(原bbs)
社区管理员
  • 开源资源社区
  • phpstory
  • xuzuning
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧