如果利用C++从HTML文件中提取文字信息?

Awang_126 2010-08-07 05:03:06
如题!欢迎发言或者提供思路!谢谢!
...全文
169 点赞 收藏 8
写回复
8 条回复
Awang_126 2010年08月27日
目前我已经采用手工解析的方法,能够处理utf8,unicode,gb2312和直接用原始unicode编码的页面了
回复 点赞
ForestDB 2010年08月08日
如果如同LZ所说的,只是要汉字,不考虑标记之类的东西,直接判断字符范围就可以了。
回复 点赞
redleaves 2010年08月07日
W3C有个libwww的库.据说可以解析出DOM.有了DOM就方便得多了.
如果是格式简单的信息用regexp也不错.不过性能不是很好.
手工解析也不错...
回复 点赞
Awang_126 2010年08月07日
谢谢各位的回答,还有什么思路吗?
回复 点赞
jackyjkchen 2010年08月07日
[Quote=引用 2 楼 awang_126 的回复:]
我的意思是
比如有网址:http://topic.csdn.net/u/20100807/17/d48b6fcc-b04d-40f8-9e47-247d6dc165bc.html?98737
把这个网页上所有的汉字都提取出来组成一个字符串
[/Quote]
汉字有编码范围,找汉字范围即可,如果仅仅是找汉字的话,连正则都可以不用,但是不同编码汉字范围不一样,不通用
回复 点赞
jackyjkchen 2010年08月07日
正则最方便,你愿意手动匹配也可以
回复 点赞
Awang_126 2010年08月07日
我的意思是
比如有网址:http://topic.csdn.net/u/20100807/17/d48b6fcc-b04d-40f8-9e47-247d6dc165bc.html?98737
把这个网页上所有的汉字都提取出来组成一个字符串
回复 点赞
ayw215 2010年08月07日
lz说的文字信息是什么?
考虑下boost中的正则表达式吧
回复 点赞
发动态
发帖子
C++ 语言
创建于2007-09-28

3.1w+

社区成员

24.8w+

社区内容

C++ 语言相关问题讨论,技术干货分享
社区公告
暂无公告