C++如何快速解析一个txt数据文件

csdn_Helper 2017-08-06 12:22:22

有一个英文字典文件（内容都是英文），txt格式，里面数据格式如下：
第1行：单词1
第2行：单词1的英文释义
第3行：单词1的词性（如名次、形容词）
第4行：单词2
第5行：单词2的英文释义
第6行：单词2的词性（如名次、形容词）
……
如此循环，有几十万行。现在要求：对每个单词，计算在释义里面引用了该单词的单词总数。请问如何高效的编写代码呢？求大神相助，给出伪代码也可以。

举个来说，比如词典如下：
dower
That with which one is gifted or endowed;
n
one
Being a single unit or entire being or thing and no more; not multifold;
adj
在这个例子中，one这个单词在dower的释义中被引用了，那么在释义中引用one的单词的数目为1

...全文

425 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

wh_ 2017-08-14

打赏
举报

回复

你这是按行来的，大小不定，只能一行一行地读了，如果是固定的结构体大小，你就可以定义一个结构体，然后那样解析就快了

赵4老师 2017-08-13

打赏
举报

回复

参考开源全文搜索引擎源代码片段。

csdn_Helper 2017-08-13

打赏
举报

回复

最后还是自己解决了。建立一个map，每个单词和它的定义，mapWordDef, 然后建立另一个mapWordCitation。遍历mapWordDef里面每个单词 for each word in mapWordDef for each definition in mapWordDef if(不是这个word的definiton 并且引用了该word) mapWordCitation 对应的word引用++；使用多线程把mapWordDef分成若干段，分别解析，提高了一些速度。不知道还有没有更好的办法

jena_wy 2017-08-07

打赏
举报

回复

解析回车加空格、特殊字符

srhouyu 2017-08-06

打赏
举报

回复

简单来说，用map记录整个文件里每个单词的出现次数。一个单词被引用的次数就是出现的次数减1。如果你还要考虑词的屈折变化，那是非常复杂的问题。看看CoreNLP或者NLTK。

本课程主要内容包括ZLM源码解析之main入口函数及流程、ZLM源码解析之事件轮询EventPoller、ZLM源码解析之TCP和UDP高并发、 ZLM源码解析之媒体服务器类TcpServer 、ZLM源码解析之媒体服务会话TcpSession等。

在实际工程中，经常遇到需要读取txt文件，txt文件中存的是一些小数或者整型数据，在C++中，可以利用string类和ifstream库文件对txt进行的读取，不过读回的数据经常是以字符串的形式返回，一般是txt的一行为一个字符...

(1) 这个程序需要做到将csv文件的内容读取进来解析，并将每一个联系人的数据进行打印；(2) 用户输入排序的属性key，将排序完成的结果打印出来；(3) 能够对错误格式的文件进行检测；(4) 能够对错误的数据进行容错；(5...

它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和...

一个项目在设计时会存在很多参数，比如data文件路径、外设名称与相关参数、文件储存路径等等，这些参数根据实际需要可能需要修改的频率比较频繁，如果放在程序里面不仅查找比较麻烦，而且每次修改完就得重新编译一次...

64,637

社区成员

250,559

社区内容

发帖

与我相关

我的任务

c++ 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题，如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧

+ 用AI写文章