C++如何快速解析一个txt数据文件

csdn_Helper 2017-08-06 12:22:22
有一个英文字典文件(内容都是英文),txt格式,里面数据格式如下:
第1行:单词1
第2行:单词1的英文释义
第3行:单词1的词性(如名次、形容词)
第4行:单词2
第5行:单词2的英文释义
第6行:单词2的词性(如名次、形容词)
……
如此循环,有几十万行。现在要求:对每个单词,计算在释义里面引用了该单词的单词总数。请问如何高效的编写代码呢?求大神相助,给出伪代码也可以。

举个来说,比如词典如下:
dower
That with which one is gifted or endowed;
n
one
Being a single unit or entire being or thing and no more; not multifold;
adj
在这个例子中,one这个单词在dower的释义中被引用了,那么在释义中引用one的单词的数目为1
...全文
425 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
wh_ 2017-08-14
  • 打赏
  • 举报
回复
你这是按行来的,大小不定,只能一行一行地读了,如果是固定的结构体大小,你就可以定义一个结构体,然后那样解析就快了
赵4老师 2017-08-13
  • 打赏
  • 举报
回复
参考开源全文搜索引擎源代码片段。
csdn_Helper 2017-08-13
  • 打赏
  • 举报
回复
最后还是自己解决了。建立一个map,每个单词和它的定义,mapWordDef, 然后建立另一个mapWordCitation。遍历mapWordDef里面每个单词 for each word in mapWordDef for each definition in mapWordDef if(不是这个word的definiton 并且引用了该word) mapWordCitation 对应的word引用++; 使用多线程把mapWordDef分成若干段,分别解析,提高了一些速度。 不知道还有没有更好的办法
jena_wy 2017-08-07
  • 打赏
  • 举报
回复
解析回车加空格、特殊字符
srhouyu 2017-08-06
  • 打赏
  • 举报
回复
简单来说,用map记录整个文件里每个单词的出现次数。一个单词被引用的次数就是出现的次数减1。如果你还要考虑词的屈折变化,那是非常复杂的问题。看看CoreNLP或者NLTK。

64,637

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧