去掉文本文档中相同的行

praylgjywjy 2010-04-09 10:39:24
文本文档的每一行都是一个字符串,有几万行这样的数据,里面有的行是重复的,请问:如何去掉重复的行?
每一行的格式如下:
2001:5000::2:5,2001:5000:200:a::2
2001:48d0:101:501::5,2001:48d0:101:501::56
2001:48d0:101:501::56,2001:48d0:4000:46::8
2001:48d0:4000:46::8,2001:468:e00:c02::1
2001:468:e00:c02::1,2001:468:e00:402::1
2001:468:e00:402::1,2001:468:e00:801::2
2001:468:e00:801::2,2001:470:0:72::2
2001:470:0:72::2,2001:504:13::11
2001:48d0:101:501::5,2001:48d0:101:501::56
2001:48d0:101:501::56,2001:48d0:4000:46::8
2001:48d0:4000:46::8,2001:468:e00:c02::1
...全文
182 15 打赏 收藏 转发到动态 举报
写回复
用AI写文章
15 条回复
切换为时间正序
请发表友善的回复…
发表回复
纠结的程序猿 2010-04-10
  • 打赏
  • 举报
回复
用PilotEdit,点“排序”按钮,再点按钮“删除重复的行”
http://topic.csdn.net/u/20100405/17/e86b8de1-3e61-4b6c-bb19-bbfe472b5a25.html
linyongzuo 2010-04-09
  • 打赏
  • 举报
回复
#include <set>
praylgjywjy 2010-04-09
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 classpatterns 的回复:]
C/C++ code
[/Quote]
有错误啊,'set' was not declared in this scope,你上面的头文件我都加了啊
ShineShineRedStar 2010-04-09
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 classpatterns 的回复:]

C/C++ code


#include <fstream>
#include <string>
uisng namespace std;
int main()
{
string date;
set<string> s;
set<string>::iterator iter;

ifstream inf("C:\\1.txt");
while (get……
[/Quote]UP.
dskit 2010-04-09
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 praylgjywjy 的回复:]
引用 3 楼 dskit 的回复:
sed -n ’G; /^\(.*\n\).*/d;h;P’ w

这是什么啊,能说的明白点吗?
[/Quote]

sed 一个命令, windows 下用 msys就可以完成这项工作了
十八道胡同 2010-04-09
  • 打赏
  • 举报
回复
1.可以使用set,自己会负责重复的情况

2.可以用哈希表,自己要判重
wangk 2010-04-09
  • 打赏
  • 举报
回复
……

set是什么楼主你都没明白。


for (iter = s.begin(); iter != s.end(); ++iter)
outf << *iter << endl;


这是将set里的所有元素输出到outf。

判断出现相同的值set已经内部实现了,你直接使用即可。
FingerStyle 2010-04-09
  • 打赏
  • 举报
回复
s.insert();

如果相同的就不插入。

所以s 中的东西没有重复的

for (iter = s.begin(); iter != s.end(); ++iter)
就是把s中的东西 写到文件里
praylgjywjy 2010-04-09
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 classpatterns 的回复:]
[/Quote]
请问 for (iter = s.begin(); iter != s.end(); ++iter)这句是判断出现相同的行然后就不读是吧?
praylgjywjy 2010-04-09
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 dskit 的回复:]
sed -n ’G; /^\(.*\n\).*/d;h;P’ w
[/Quote]
这是什么啊,能说的明白点吗?
FingerStyle 2010-04-09
  • 打赏
  • 举报
回复


#include <fstream>
#include <string>
uisng namespace std;
int main()
{
string date;
set<string> s;
set<string>::iterator iter;

ifstream inf("C:\\1.txt");
while (getline(inf, date))
{
s.insert(date);
}
inf.close();

ofstream outf;
outf.open("C:\\2.txt", fstream::out | fstream::app);
for (iter = s.begin(); iter != s.end(); ++iter)
{
outf << *iter << endl;
}
outf.close();
}
dskit 2010-04-09
  • 打赏
  • 举报
回复
sed -n ’G; /^\(.*\n\).*/d;h;P’ w
wangk 2010-04-09
  • 打赏
  • 举报
回复
用哈希表,或者导入到数据库进行查询。
FingerStyle 2010-04-09
  • 打赏
  • 举报
回复
给你给思路

set<string> s;

每次读取一行到string str;

s.insert(str);

然后把s里的string写到另一个文件里
linsen_519 2010-04-09
  • 打赏
  • 举报
回复
sed是 linux中 文本处理的命令 在终端中运行~ 十分强大哦 windows 俺不懂

如果是linux你在终端中打 这个命令:
sed -n'G; s/\n/&&/; /^\([-~]*\n\).*\n\1/d; s/\n//; h; P' 文件名称 >> 将结果导入新文件

这是个正则表达式,由于sed无法改变原文件,所以之能将去重复的东西导入新的文件里

如果你想通过一段code来 去重复的话 那方法太多了 相信你做的到
本软件提供了45大类共几百种针对txt文本文件的全文或者每一的批量处理或者批量替换操作,是您经常性处理文本文件的得力工具。 功能大类列表如下(每一大类又分别包含多项子功能): 1.强大的针对文本文档全文内容的批量字符或内容替换操作功能(跟Word的替换功能一样) 2.针对文本文档内容每一内容的特殊删除、特殊添加、统计分割功能 3.提取文本文档内容的指定的作为文本文件新文件名的功能 4.批量创建文本文档或文件夹 5.批量删除正文特定标记之前的所有内容 6.批量删除文档特定列 7.批量删除每首特定内容 8.批量在每首添加特定内容 9.批量在每添加分隔符 10.将源txt文件的内容对应替换目标txt的内容 11.批量删除成对标记内的内容 12.保留指定范围的文字 13.批量删除A存在于B的内容 14.批量/块替换 15.批量向txt正文插入日期时间文件名 16.批量截取每一的特定区域并删除或替换 17.批量向指定标记之前或者之后添加特定内容 18.批量删除特定信息、删除数字字母文空格回车符等 19.顺序颠倒 20.删除文首/文尾特定内容 21.提取指定标记后面的数字并统一保存 22.批量删除每一指定标记后的所有内容 23.提取关键字所在并保存 24.根据txt内容删除对应文件夹 25.多合并成一 26.将多个文档按列合并 27.在每首添加时间标记 28.不做改动重新保存 29.批量提取电子邮件地址 30.用源文件内容添加到目标来 31.批量递增替换特定内容 32.批量删除文档的日期时间 33.批量提取文本英文单词并分别统计词频数 34.批量去除文本文档的汉字间的空格而同时保留英文间的空格 35.批量下载已知网络地址的文件 36.将AB同时存在的关键词所在的B提取出来 37.2个内容文本文档对比,找出不同处 38.批量内对调 39.删除重复只留一 40.批量文本随机替换 41.批量筛查文本文件含特定内容的文件 42.批量提取文本文件特定内容或数据并保存 43.找出两个txt文档内容相同的部分并提取出来顺序保存 44.批量随机位置随机插入内容 45.剔除列表文件重复数据
本软件提供了45大类共几百种针对txt文本文件的全文或者每一的批量处理或者批量替换操作,是您经常性处理文本文件的得力工具。 功能大类列表如下(每一大类又分别包含多项子功能): 1.强大的针对文本文档全文内容的批量字符或内容替换操作功能(跟Word的替换功能一样) 2.针对文本文档内容每一内容的特殊删除、特殊添加、统计分割功能 3.提取文本文档内容的指定的作为文本文件新文件名的功能 4.批量创建文本文档或文件夹 5.批量删除正文特定标记之前的所有内容 6.批量删除文档特定列 7.批量删除每首特定内容 8.批量在每首添加特定内容 9.批量在每添加分隔符 10.将源txt文件的内容对应替换目标txt的内容 11.批量删除成对标记内的内容 12.保留指定范围的文字 13.批量删除A存在于B的内容 14.批量/块替换 15.批量向txt正文插入日期时间文件名 16.批量截取每一的特定区域并删除或替换 17.批量向指定标记之前或者之后添加特定内容 18.批量删除特定信息、删除数字字母文空格回车符等 19.顺序颠倒 20.删除文首/文尾特定内容 21.提取指定标记后面的数字并统一保存 22.批量删除每一指定标记后的所有内容 23.提取关键字所在并保存 24.根据txt内容删除对应文件夹 25.多合并成一 26.将多个文档按列合并 27.在每首添加时间标记 28.不做改动重新保存 29.批量提取电子邮件地址 30.用源文件内容添加到目标来 31.批量递增替换特定内容 32.批量删除文档的日期时间 33.批量提取文本英文单词并分别统计词频数 34.批量去除文本文档的汉字间的空格而同时保留英文间的空格 35.批量下载已知网络地址的文件 36.将AB同时存在的关键词所在的B提取出来 37.2个内容文本文档对比,找出不同处 38.批量内对调 39.删除重复只留一 40.批量文本随机替换 41.批量筛查文本文件含特定内容的文件 42.批量提取文本文件特定内容或数据并保存 43.找出两个txt文档内容相同的部分并提取出来顺序保存 44.批量随机位置随机插入内容 45.剔除列表文件重复数据 ……………
尹成Python27天从入门到实战项目!全课665节讲解详细易操作,助力实战项目能力成长,轻松、简单、易懂!day1  python入门与学习方法精确思维与用到才能记忆深刻课程简介课前介绍计算机简介与硬盘概念内存作用计算机小结编程语言简介操作系统简介python版本简介切换python版本修改环境变量交互式编程两种风格python3代码保存必须是utf-8使用IDE了解注释段落打印三引号注释多三个单引号python代码要严格对齐文输入字符错误简单数学表达式代码风格三种错误风格系统执指令运结果乱码交互式编程绘图绘制线段与圆形改变颜色绘制奥运五环小结习题day1plus python  常量变量数据类型 常量与变量区别标识符关键字输入输出id求地址type求类型python变量是地址赋值可以改变类型python主要数据类型复数数据类型自适应变长整数intdel作用连续赋值交互对称赋值字符串转化与输入输出编程wmv多拆分多归并成一规范用的常量算术运算符科学计数法与数字越界优先级结合性赋值运算符数据类型转换四舍五入数据提取时间处理作业day2   python字符串与绘图复习变量None变量参与运算没有赋值的情况不会改变绘制立方体绘制五角星时间计算强化实现贷款计算连续输入多个字符串加法与绘图实现显示线段长度数据函数使用快速查阅函数帮助字符串三种风格字符与编号文字符编号问题字符编号用途统一码转义字符意义转义字符用于字符串print高级用法字符串加法与转换字符串小结python所有的数据都是对象字符串格式化了解进制图形绘制重点作业以及学习认知方法day3   python运算符与ifelse逻辑语句第一天上午回顾第二天下午回顾1第二天回顾2.7习题解答2.11习题解答2.26作业KaliLinux简介3.4实现五边形面积计算3.7随机字符生成3.8实数误差与四舍五入3.18解答与特殊字符if简介与空格的作用if处理的是逻辑表达式关系运算符针对数值字符串的关系运算符if自动转化Bool类型随机数if缺点且运算符或运算符取反运算符短路效应身份运算符运算符优先级结合性概览pass语句潜台词翻译系统None用途指令翻译系统嵌套嵌套与elif对比以及注意细节习题解答绘图作业与重点day4  语音合成与逻辑循环回顾语音合成简单理解while控制次数WhileElseWhileElse实战whileFloat回顾与ifelse表达式赌博概率分类设计方法-一元二次方程嵌套求有序3个数闰年计算矩形区域随机数ifelse回文数判断10进制转化16进制16进制转十进制暴力穷举无限循环指令循环同步异步黑科技读写内存读写内存无限循环监测重点与作业day5  复杂逻辑循环while与whileelse编程风格循环控制图形绘制while猜数字输入输出重定向while习题分析可以退出的命令系统for初步简介跑分流程结合for循环小结forfor嵌套forfor分析break断循环contiune结束本次循环双层循环的break与continue分析break与contiue小结一闪一闪亮晶晶循环控制大小与位置对角线绘制圆形口顺时针运动循环等价作业与小结day6  函数实战回顾.算学费输入数据求最大精确划分思维解决最大次大交换数据实现按显示围棋棋盘绘制国际象棋绘制为什么要用函数函数的四种类型函数的一般形式必须用函数的理由-哥德巴赫函数的本质就是地址函数变量意义函数变量用途装饰器设计模式包含模式函数概念None函数默认参数与返回值作为参数名称参数与位置参数参数副本机制副本练习多个返回值全局变量与局部变量函数内部引用全局变量函数可以嵌套nolocal处理函数嵌套变量函数nonlocalnonlocal总结开房数据查询day7      函数实战与常用数据结构函数的两种类型函数的本质再分析函数地址切换切换功能ifelse配合地址筛选函数收费函数调用过程函数基本小结return小结位置参数与默认参数混合参数填充混合填充错误情况lambda匿名函数可变长函数字符串常识普及字符串特点字符串不可以修改内部字符list列表list用途tuple简介集合运算字典概念in与notin运算符构造表达式转换数据类型系统小结拓展查询作业day8   字符串实战简单回顾eval与exec简介字符串的简单规范字符串的截取字符串赋值规范字符串转义字符字符串常见运算符字符串格式化字符串格式化强化字符串编码简介dir与help查看str字符串函数第一个大写以及字符串居显示打印金字塔count统计字符串出现个数字符串编码注意事项解码失败判断字符串以什么为结束tab键转换find函数与rfind函数day9   字符串高级简单回顾..eval与exec简介字符串的简单规范字符串的截取字符串赋值规范字符串转义字符字符串常见运算符字符串格式化字符串格式化强化字符串编码简介dir与help查看str字符串函数第一个大写以及字符串居显示打印金字塔count统计字符串出现个数字符串编码注意事项解码失败判断字符串以什么为结束tab键转换find函数与rfind函数index函数与rindex函数字符串判断字符串间隔求长度以及左右填充字符串大小写取出最大最小字符替换去除空格简单切割换切割判断开头大小写切换以及填充0翻译表.字符串模板小结day10  字符串集合与语音识别实战回顾lset初始化风格set增加与去重set删除元素遍历set类型转化set无法操作单个元素的赋值set常见方法set常见运算符set关系运算符判断包含set集合判断frozenset字典的基本定义循环字典判断在不在实现插入与更新字典删除字典详解字典与set无法嵌套迭代器列表生成式生成器生成器节省内存用于循环生成器yield作用生成器简介测试游戏简介游戏初级修改键盘模拟语音控制游戏实现鼠标模拟代码规范函数简化重用列表与元组小结作业day11  阶段综合练习昨日回顾.堆栈函数模块引用系统模块引用与错误列表生成式的若干方法生成矩阵str与reprpython把输入输出设备当作文件处理写入文写入英文读取文读取英文读取错误写入错误处理文件缓存区文件读取若干种方式for循环按读取数据文件指针seektell数据结构与文件的交互数据查询并保存结果数据查询小结与数据day12downwithoutdata  数据处理开发大数据指令数据清洗的概念初级数据清洗密码排序次数统计QQ密码概率分布QQ号码分类器.开房数据清洗..区域划分省份划分年龄月份划分日划分day12up  数据实战简单回顾12系统默认编码文编码常见错误字符串切割抓取邮箱抓取用户名与密码排序密码文件统计次数排序.统计文件密码次数密码次数排序day13withoutdata  数据分类与list深入地区分类详解字典分类器数据简单归并数据如何切割数据加密数据解密指令执判断文件夹编程小结列表归并-删除列表归并-下标小结与作业day14down   面向对象编程与深浅拷贝面向对象与过程的差异self用途动态绑定增加属性方法重载运算符的概念有名对象与匿名对象重载运算符的返回值重载运算符多个类型类的拷贝是浅复制深浅拷贝函数调用参数副本原理函数调用可以改变list的元素不可以改变list指向对象当作参数的细节私有变量私有变量用于设计权限私有方法用于设计权限私有变量本质用类的方式读取文件数密码次数归并数据处理方法简介今日小结作业wmvday14up  暴力穷举与类回顾....排列组合暴力生成穷举密码密码破解必破生成器密码破解小结为啥使用类-代码重用类的一般形式详解self构造函数与析构函数构造函数初始化类的属性最简洁的UI设定窗体的位置以及大小类的实际用途day15down  面向对象数据搜索实战输入处理文本编辑器表格数据树状显示数据搜索可视化第一步实现查询窗体数据搜索可视化第二步实现搜索数据数据搜索可视化第三步实现显示窗体数据可视化第四步显示与搜索串联数据可视化终结作业小结day15up  面向对象设计与图像界面上设计一个类发短信类的方法设计一下短信发送邮件类的设计-设计发邮件类的多文件引用腾讯营销类的设计消息循环消息回掉函数机制lambda按下按钮标签显示文本文本输入框listcombobox选择列表day16up  面向对象与图形界面开发下设计一个类发短信类的方法设计一下短信发送邮件类的设计-设计发邮件类的多文件引用腾讯营销类的设计消息循环消息回掉函数机制lambda按下按钮标签显示文本文本输入框listcombobox选择列表day17  面向对象继承实战昨日小结.,.继承的概念多继承的概念多继承的覆盖私有变量不可以被继承Object类类的常见属性super解决父类重复初始化isinstance多态静态方法类方法数据工具1类的继承数据工具实现小结day18down  正则表达式正则表达式bB贪婪与非贪婪标签.标签解决提取标签名称提取QQ生成邮箱列表工具简单正则表达式编写常见的正则表达式复杂正则表达式编写复杂表达式代码验证作业与小结day18up 正则表达式实践为什么使用正则表达式正则表达式匹配.预编译的概念搜索技能搜索用在找出第一个邮箱手机提取findall字符串切割筛选正则表达式正则表达式替换单个字符判断括号选择一个字符正则表达式次数正则开头结尾括号与选择正则表达式特殊符号day19down 递归与爬虫实战函数递归模拟文件树文件树事件读取网页抓取邮箱抓取QQ提取http抓取邮箱简单程序框架实现抓取邮箱的框架核心两个函数完成广度遍历深度遍历作.业day19up 深度遍历与广度遍历正则表达式小结最简单递归递归顺序递归求和递归腾讯台阶面试题文件夹的函数遍历文件夹遍历文件夹有层次感栈模拟递归栈模拟递归遍历文件夹栈模拟递归遍历文件夹层次感普及网站提取概念栈修改的逻辑错误广度遍历 day20 正则 爬虫实战情简介提取页面信息提取股票代码提取股票代码下载功能下载股票批量下载股票抓取1页的股票数据抓取多个页面的股票抓取基金信息作业day21  网络编程与信息安全网络概念UDP协议UDP通信UDP远程控制TCP通信TCP控制测试网站后台网站密码破解作业 day22down  线程通信线程通信线程通信强化线程condition高级线程调度生产者消费者线程池延时线程with作用前台进程后台进程TLS线程独立存储作业day22up  多线程实战多线程核心目标并发主线程与小弟线程多线程解决加速多线程的加速线程冲突基于类实现多线程基于类实现多线程的顺序与乱序互斥锁解决线程冲突死锁-使用锁要注意Rlock解决一个线程反复加锁单线程死锁创建线程的三种风格信号量限制线程数量限定线程数量day23  多进程实战多线程回顾多进程拷贝代码多进程拷贝全局变量获取进程编号subprocess执LinuxShell信号Linux进程小结__name__进程mutiprocessing创建过程join作用进程不可以用全局变量共享数据进程同步进程pipe发送接收数据进程队列进程队列传输数据进程共享数据进程之间共享数组进程共享字典与list简单小结day23down  多进程多线程综合实战读取CSV写入csv单线程统计数多线程统计数多进程统计数多线程检索数据第一步多线程检索赵琳多线程检索找到通知其他人退出多线程检索开放数据并保存同一个文件作业day24up  多进程多线程综合实战多进程检索第一步多进程检索开房数据求平均市值多线程解决平均市值多进程统计平均市值单线程BFS抓取邮箱多线程并抓取邮箱多线程采集邮箱并保存csv归并多线程归并文件day25down 文件格式处理doc处理系统处理doc与docx文件处理的小结读取并写入xls与xlsx读取网络pdf文pdftelnet简介登陆Linux登陆Windows小结day25up  时间编程与单元测试时间的简单风格时间格式化抓取年月日计算时间差时间函数计算时间差date小结python2与3的差异内置函数筛选内置函数map内置的函数sorted新浪数据抓取实时文档测试单元测试函数单元测试一个类day26  综合实战播放音乐设置背景鬼程序协程简介协程传递数据wmv协程编号协程生产者消费者模式office自动化操作wordoffice办公自动化操作exceloffice办公自动化操作outlookoffice办公自动化access开发环境配置访问mdb格式访问accdb格式实现CGI程序显示页面环境变量cgi处理前后端day26down  破解wifi实战扫描wifi扫描网卡区分链接成功或者失败wifi密码爆破工具设计Linux破解简介day27down  飞机大战实战命令下脱裤创建一个pygame窗体窗体加载背景图片处理消息飞机移动实现基本框架飞机框架飞机销毁双机对战双机对战加载子弹双机与敌机出现发射子弹day27up  数据库实战jython的安装MySQL简介数据库的一般操作MySQL数据类型数据表的创建于删除数据的查询数据的插入数据的删除数据的更新联合查询字段一致数据查询排序排序与分组join与nullmysql用python编程查询数据python数据库增删查改项目简介other  异常与错误综合练习异常与错误的概念作业tryexcept解决异常不出错继续执密码破解工具进攻数据库爆破mysql异常else异常处理的标准公式弹出异常withas类使用异常继承自定义异常断言密码工具设计三个独立的类密码工具2类链接3类密码工具1类链接3类密码工具分析作业speech   语音识别问题解决语音识别解决None
Windows的通用应用程序的类名 使用API函数复制移动文件 使用API访问ListBox项 使用GetTempFileName创建一个唯一的临时文件 使用INI文件 使用INI文件保存、装载字体信息 使用TFileStream 使用TStream保存字符串 使用TTreeview显示目录 使窗体的关闭按钮失效 修改文本文件 允许在资源管理器拖放文件 减小EXE文件大小 列举驱动器 列出目录下的子目录 创建快捷方式 创建目录 删除文件到回收站 判断文件夹是否共享 剪贴板存放多个控件流 加载CDROM图标 压缩和解压流 取MP3的ID3-Tag 取Program files目录 取可执文件类型 取和文件类型关联的应用程序 取当前程序所在目录 取指定文件的版本信息 取文件修改日期 取文件日期 取文件最后访问日期 取文件版本号 取文件的所有者 取目录大小 取磁盘可用空间和总空间 取设置当前目录 取设置文件夹的日期 向Exe文件添加数据 向文件写添加文本 在TMemo光标位置插入一个文件 在Windows开始后自动运一个程序 在应用程序添加Exe文件并且执 在文件搜索字符串 在文件搜索指定文本 在文本文件搜索文本 将剪贴板复制到流和恢复 将文本文件赋值给一个字符串 将资源文件Rft文本装载到TRichEdit 将长文件名转换成短文件名 彻底删除文件 打开资源管理器且显示指定文件夹 捕获DOS应用程序的输出 改变TPageControls的颜色 改名、移动、删除文件或目录 显示‘打开方式’对话框 显示文件属性对话框 显示目录选择对话框 显示目录选择对话框并指定初始目录 替换正运的DLL 检查文件是否ASCII格式 检查文件是否在本地驱动器 检查文件是否已打开 检查文件是否正在使用 检查目录是否存在 比较两个文件是否相同 添加去掉路径名后的符号 添加文件到文档菜单 清空文档 获取文件类型 获得快捷方式信息 获得文件大小 计算文件的校验和 设置文件日期 读 table-textfile 到 StringGrid 读取二进制文件使用ASCII显示 转换OEM到ANSI 转换短文件名为长文件名 运一个程序或打开一个关联文件 返回UNC路径 通过CRC-32验证文件

64,637

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧