社区
C++ 语言
帖子详情
HtmlParser C++版
Super.Jiju
2008-10-16 09:15:59
手里有个语料库;
里面是html的源代码
现在想找个 html解释器之类的,可以提取正文;
即使不能提取正文,能去掉html的标签也可以,诸如<script> 这些东西;
网上看了下很多都是C#的;
到这里看看各位达人手里有没有现成的;
偶还不会正则表达式,没有的话就只能用C++慢慢死磕了;
谢谢一个先
...全文
1569
16
打赏
收藏
HtmlParser C++版
手里有个语料库; 里面是html的源代码 现在想找个 html解释器之类的,可以提取正文; 即使不能提取正文,能去掉html的标签也可以,诸如 这些东西; 网上看了下很多都是C#的; 到这里看看各位达人手里有没有现成的; 偶还不会正则表达式,没有的话就只能用C++慢慢死磕了; 谢谢一个先
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
16 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Super.Jiju
2008-10-22
打赏
举报
回复
已经搞定;
可以参考我的blog:
blog:
http://blog.csdn.net/jiju8484/archive/2008/10/21/3118839.aspx
http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!501.entry
Super.Jiju
2008-10-20
打赏
举报
回复
继续求答案
e_sharp
2008-10-17
打赏
举报
回复
UP
once_and_again
2008-10-17
打赏
举报
回复
[Quote=引用 3 楼 healer_kx 的回复:]
firefox里面的这部分估计也是C的。
[/Quote] vim --------> TOhtml
shuizhiyun
2008-10-17
打赏
举报
回复
如果不急的话,我有空可以写一个
ForestDB
2008-10-17
打赏
举报
回复
写得好的html也算xml吧,C++有xml的处理库。
DarknessTM
2008-10-17
打赏
举报
回复
正则就够了……
帅得不敢出门
2008-10-17
打赏
举报
回复
up
Super.Jiju
2008-10-17
打赏
举报
回复
[Quote=引用 6 楼 iambic 的回复:]
没找到合适的?你试过什么了?有没有试过lynx或者html2text?
[/Quote]
很多是针对中文的,
我处理的是英文数据
iambic
2008-10-17
打赏
举报
回复
另外建议学习下正则表达式。
iambic
2008-10-17
打赏
举报
回复
没找到合适的?你试过什么了?有没有试过lynx或者html2text?
Super.Jiju
2008-10-16
打赏
举报
回复
[Quote=引用 3 楼 healer_kx 的回复:]
firefox里面的这部分估计也是C的。
[/Quote]
求代码啊
Super.Jiju
2008-10-16
打赏
举报
回复
[Quote=引用 2 楼 iambic 的回复:]
有很多专门的程序,何必自己写。搜索下html2text,或者类似的关键字。
[/Quote]
没有找到合适的
healer_kx
2008-10-16
打赏
举报
回复
firefox里面的这部分估计也是C的。
iambic
2008-10-16
打赏
举报
回复
有很多专门的程序,何必自己写。搜索下html2text,或者类似的关键字。
chlaws
2008-10-16
打赏
举报
回复
没有
htmlparser
-
c++
htmlparser
c++
版
htmlparser
:cpp
htmlparser
实现
htmlparser
:cpp
htmlparser
实现
Clever Suite Internet 7.7
•
HtmlParser
(VCL) - Mac OSX support implemented; •SoapMessage (VCL) - full Apache XML security support, the canonicalization algorithm was improved •RAD Studio XE3 / Delphi XE3 and
C++
Builder ...
htmpparser
C++
htmlparser
是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html,而且不会出错。 毫不夸张地说,
htmlparser
就是目前最好的html解析和分析的工具。 ...
java开源包8
淘宝开放平台JAVA
版
SDK top4java 设计原则 容易维护扩展(不需要修改主类就可以添加新的API支持) 注入型解释器(依据不同的返回格式注入相应的解释器) 集中管理请求参数与参数映射 以运行时异常的方式来管理错误的...
C++ 语言
64,683
社区成员
250,491
社区内容
发帖
与我相关
我的任务
C++ 语言
C++ 语言相关问题讨论,技术干货分享,前沿动态等
复制链接
扫一扫
分享
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下
试试用AI创作助手写篇文章吧
+ 用AI写文章