HtmlParser C++版

Super.Jiju 2008-10-16 09:15:59
手里有个语料库;
里面是html的源代码
现在想找个 html解释器之类的,可以提取正文;

即使不能提取正文,能去掉html的标签也可以,诸如<script> 这些东西;
网上看了下很多都是C#的;

到这里看看各位达人手里有没有现成的;

偶还不会正则表达式,没有的话就只能用C++慢慢死磕了;

谢谢一个先
...全文
1569 16 打赏 收藏 转发到动态 举报
写回复
用AI写文章
16 条回复
切换为时间正序
请发表友善的回复…
发表回复
Super.Jiju 2008-10-22
  • 打赏
  • 举报
回复
已经搞定;
可以参考我的blog:

blog:
http://blog.csdn.net/jiju8484/archive/2008/10/21/3118839.aspx
http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!501.entry
Super.Jiju 2008-10-20
  • 打赏
  • 举报
回复
继续求答案
e_sharp 2008-10-17
  • 打赏
  • 举报
回复
UP
once_and_again 2008-10-17
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 healer_kx 的回复:]
firefox里面的这部分估计也是C的。
[/Quote] vim --------> TOhtml
shuizhiyun 2008-10-17
  • 打赏
  • 举报
回复
如果不急的话,我有空可以写一个
ForestDB 2008-10-17
  • 打赏
  • 举报
回复
写得好的html也算xml吧,C++有xml的处理库。
DarknessTM 2008-10-17
  • 打赏
  • 举报
回复
正则就够了……
帅得不敢出门 2008-10-17
  • 打赏
  • 举报
回复
up
Super.Jiju 2008-10-17
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 iambic 的回复:]
没找到合适的?你试过什么了?有没有试过lynx或者html2text?
[/Quote]

很多是针对中文的,
我处理的是英文数据
iambic 2008-10-17
  • 打赏
  • 举报
回复
另外建议学习下正则表达式。
iambic 2008-10-17
  • 打赏
  • 举报
回复
没找到合适的?你试过什么了?有没有试过lynx或者html2text?
Super.Jiju 2008-10-16
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 healer_kx 的回复:]
firefox里面的这部分估计也是C的。
[/Quote]

求代码啊
Super.Jiju 2008-10-16
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 iambic 的回复:]
有很多专门的程序,何必自己写。搜索下html2text,或者类似的关键字。
[/Quote]

没有找到合适的
healer_kx 2008-10-16
  • 打赏
  • 举报
回复
firefox里面的这部分估计也是C的。
iambic 2008-10-16
  • 打赏
  • 举报
回复
有很多专门的程序,何必自己写。搜索下html2text,或者类似的关键字。
chlaws 2008-10-16
  • 打赏
  • 举报
回复
没有

64,683

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧