社区
C++ 语言
帖子详情
如果利用C++从HTML文件中提取文字信息?
Awang_126
2010-08-07 05:03:06
如题!欢迎发言或者提供思路!谢谢!
...全文
483
8
打赏
收藏
如果利用C++从HTML文件中提取文字信息?
如题!欢迎发言或者提供思路!谢谢!
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
8 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Awang_126
2010-08-27
打赏
举报
回复
目前我已经采用手工解析的方法,能够处理utf8,unicode,gb2312和直接用原始unicode编码的页面了
ForestDB
2010-08-08
打赏
举报
回复
如果如同LZ所说的,只是要汉字,不考虑标记之类的东西,直接判断字符范围就可以了。
redleaves
2010-08-07
打赏
举报
回复
W3C有个libwww的库.据说可以解析出DOM.有了DOM就方便得多了.
如果是格式简单的信息用regexp也不错.不过性能不是很好.
手工解析也不错...
Awang_126
2010-08-07
打赏
举报
回复
谢谢各位的回答,还有什么思路吗?
jackyjkchen
2010-08-07
打赏
举报
回复
[Quote=引用 2 楼 awang_126 的回复:]
我的意思是
比如有网址:http://topic.csdn.net/u/20100807/17/d48b6fcc-b04d-40f8-9e47-247d6dc165bc.html?98737
把这个网页上所有的汉字都提取出来组成一个字符串
[/Quote]
汉字有编码范围,找汉字范围即可,如果仅仅是找汉字的话,连正则都可以不用,但是不同编码汉字范围不一样,不通用
jackyjkchen
2010-08-07
打赏
举报
回复
正则最方便,你愿意手动匹配也可以
Awang_126
2010-08-07
打赏
举报
回复
我的意思是
比如有网址:http://topic.csdn.net/u/20100807/17/d48b6fcc-b04d-40f8-9e47-247d6dc165bc.html?98737
把这个网页上所有的汉字都提取出来组成一个字符串
ayw215
2010-08-07
打赏
举报
回复
lz说的文字信息是什么?
考虑下boost中的正则表达式吧
基于
C++
的htm静态页面读取脚本
首先需要一些编码的基础知识,看了不少文章,这里直接给总结一下: 先从ascii编码开始,ascii使用7位来表示128个基础字符,如大小写英
文字
母等等
中
国人通过对ascii编码进行扩展,发明了 GB2312 编码,以表示6000多个常用汉字。 但是汉字很多,包括繁体和各种字符,于是产生了 GBK 编码,它包括了 GB2312
中
的编码,同时扩充了很多。所以GB2312是GBK编码的子集。
中
国是个多民族国家,各个民族几乎都有自己独立的语言系统,为了表示那些字符,继续把 GBK 编码扩充为 GB18030
你好,
C++
(5)如何输出数据到屏幕、从屏幕输入数据与读写
文件
?
2.2 基本输入/输出流 听过HelloWorld.exe的自我介绍之后,大家已经知道了一个
C++
程序的任务就是描述数据和处理数据。这两大任务的对象都是数据,可现在的问题是,数据不可能无
中
生有地产生,
C++
程序也不可能凭空创造出来数据。那么,
C++
程序
中
的数据又从何而来呢? 在现实世界
中
,国与国之间的交流是通过外交官来完成的。在
C++
世界
中
,也有负责应用程序跟外界进行数据交流的外交...
C/
C++
对汉字的读取
//怎么读取汉字 #include<stdio.h>#include<stdlib.h>int main(){ FILE *fp; if((fp=fopen("D:\\123.txt","r"))==NULL) { printf("Error!\n"); exit(0); } //假设d盘的123.txt
中
有四个汉字:好好学习,下面的部分输出第一个汉字 char ch...
c++
从txt
中
读取数据_教程合集 | MATLAB
文件
读写(以nc与txt为例)
周一到!我们又和大家见面啦!最近几周的主题是,有了数据,那我们怎么读写数据
文件
呢?气象
中
的特殊资料又有哪些处理方法呢?以txt和nc
文件
做引子,欢迎各位拍砖~No.1基础通用知识读写
文件
时有一些由c语言衍生出来的读取数据的相关知识,它们大都是相通的。1.1
文件
打开模式读取数据第一步!先打开一个数据
文件
。
文件
可以根据自己需要的不同,通过单个或组合使用以下符号的方式,在代...
革新文档管理:使用多种编程语言从 Word
中
提取
Excel 附件和
文件
名
当我们在处理Microsoft Word文档时,经常会遇到嵌入了Excel附件的情况。在这种情况下,我们可能需要
提取
嵌入式Excel
文件
并将其保存为单独的
文件
。在本文
中
,我们将探讨如何使用Python、Java、JavaScript、Go、C#和
C++
来
提取
Word文档
中
的Excel附件并识别
文件
名保存。
C++ 语言
65,186
社区成员
250,526
社区内容
发帖
与我相关
我的任务
C++ 语言
C++ 语言相关问题讨论,技术干货分享,前沿动态等
复制链接
扫一扫
分享
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下
试试用AI创作助手写篇文章吧
+ 用AI写文章