如果利用C++从HTML文件中提取文字信息？

Awang_126 2010-08-07 05:03:06

如题！欢迎发言或者提供思路！谢谢！

...全文

520 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

Awang_126 2010-08-27

打赏
举报

回复

目前我已经采用手工解析的方法，能够处理utf8，unicode，gb2312和直接用原始unicode编码的页面了

ForestDB 2010-08-08

打赏
举报

回复

如果如同LZ所说的，只是要汉字，不考虑标记之类的东西，直接判断字符范围就可以了。

redleaves 2010-08-07

打赏
举报

回复

W3C有个libwww的库.据说可以解析出DOM.有了DOM就方便得多了.
如果是格式简单的信息用regexp也不错.不过性能不是很好.
手工解析也不错...

Awang_126 2010-08-07

打赏
举报

回复

谢谢各位的回答，还有什么思路吗？

jackyjkchen 2010-08-07

打赏
举报

回复

[Quote=引用 2 楼 awang_126 的回复:]
我的意思是
比如有网址：http://topic.csdn.net/u/20100807/17/d48b6fcc-b04d-40f8-9e47-247d6dc165bc.html?98737
把这个网页上所有的汉字都提取出来组成一个字符串
[/Quote]
汉字有编码范围，找汉字范围即可，如果仅仅是找汉字的话，连正则都可以不用，但是不同编码汉字范围不一样，不通用

jackyjkchen 2010-08-07

打赏
举报

回复

正则最方便，你愿意手动匹配也可以

Awang_126 2010-08-07

打赏
举报

回复

我的意思是
比如有网址：http://topic.csdn.net/u/20100807/17/d48b6fcc-b04d-40f8-9e47-247d6dc165bc.html?98737
把这个网页上所有的汉字都提取出来组成一个字符串

ayw215 2010-08-07

打赏
举报

回复

lz说的文字信息是什么？
考虑下boost中的正则表达式吧

2.2 基本输入/输出流听过HelloWorld.exe的自我介绍之后，大家已经知道了一个C++程序的任务就是描述数据和处理数据。这两大任务的对象都是数据，可现在的问题是，数据不可能无中生有地产生，C++程序也不可能凭空创造出来数据。那么，C++程序中的数据又从何而来呢？在现实世界中，国与国之间的交流是通过外交官来完成的。在C++世界中，也有负责应用程序跟外界进行数据交流的外交...

首先需要一些编码的基础知识，看了不少文章，这里直接给总结一下：先从ascii编码开始，ascii使用7位来表示128个基础字符，如大小写英文字母等等中国人通过对ascii编码进行扩展，发明了 GB2312 编码，以表示6000多个常用汉字。但是汉字很多，包括繁体和各种字符，于是产生了 GBK 编码，它包括了 GB2312 中的编码，同时扩充了很多。所以GB2312是GBK编码的子集。中国是个多民族国家，各个民族几乎都有自己独立的语言系统，为了表示那些字符，继续把 GBK 编码扩充为 GB18030

//怎么读取汉字 #include<stdio.h>#include<stdlib.h>int main(){ FILE *fp; if((fp=fopen("D:\\123.txt","r"))==NULL) { printf("Error!\n"); exit(0); } //假设d盘的123.txt中有四个汉字：好好学习，下面的部分输出第一个汉字 char ch...

当我们在处理Microsoft Word文档时，经常会遇到嵌入了Excel附件的情况。在这种情况下，我们可能需要提取嵌入式Excel文件并将其保存为单独的文件。在本文中，我们将探讨如何使用Python、Java、JavaScript、Go、C#和C++来提取Word文档中的Excel附件并识别文件名保存。

请问如何用c语言从txt文件中读取数据？请问如何用c语言从txt文件中读取数据？就是用空格分开的数据，例如：12//其中的in.txt就是你要读取数据的文件，当然把它和程序放在同一目录 - #include int main() { int data; FILE *fp=fopen("in.txt","r"); if(。fp) { printf("can't open file\n"); ret...

65,209

社区成员

250,518

社区内容

发帖

与我相关

我的任务

c++ 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题，如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧

+ 用AI写文章