如果利用C++从HTML文件中提取文字信息?

Awang_126 2010-08-07 05:03:06
如题!欢迎发言或者提供思路!谢谢!
...全文
457 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
Awang_126 2010-08-27
  • 打赏
  • 举报
回复
目前我已经采用手工解析的方法,能够处理utf8,unicode,gb2312和直接用原始unicode编码的页面了
ForestDB 2010-08-08
  • 打赏
  • 举报
回复
如果如同LZ所说的,只是要汉字,不考虑标记之类的东西,直接判断字符范围就可以了。
redleaves 2010-08-07
  • 打赏
  • 举报
回复
W3C有个libwww的库.据说可以解析出DOM.有了DOM就方便得多了.
如果是格式简单的信息用regexp也不错.不过性能不是很好.
手工解析也不错...
Awang_126 2010-08-07
  • 打赏
  • 举报
回复
谢谢各位的回答,还有什么思路吗?
jackyjkchen 2010-08-07
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 awang_126 的回复:]
我的意思是
比如有网址:http://topic.csdn.net/u/20100807/17/d48b6fcc-b04d-40f8-9e47-247d6dc165bc.html?98737
把这个网页上所有的汉字都提取出来组成一个字符串
[/Quote]
汉字有编码范围,找汉字范围即可,如果仅仅是找汉字的话,连正则都可以不用,但是不同编码汉字范围不一样,不通用
jackyjkchen 2010-08-07
  • 打赏
  • 举报
回复
正则最方便,你愿意手动匹配也可以
Awang_126 2010-08-07
  • 打赏
  • 举报
回复
我的意思是
比如有网址:http://topic.csdn.net/u/20100807/17/d48b6fcc-b04d-40f8-9e47-247d6dc165bc.html?98737
把这个网页上所有的汉字都提取出来组成一个字符串
ayw215 2010-08-07
  • 打赏
  • 举报
回复
lz说的文字信息是什么?
考虑下boost中的正则表达式吧

64,639

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧