用Python处理大量txt文本数据时,出现字符丢失情况(为了编写一个程序删掉txt文件中的一些不必要的部分,结果很多正常的字符丢失)

gkj111111 2018-01-24 07:03:31
编写了为了将txt文件的一部分删掉的程序(将括号内的文字连同括号一起删除),当data很少的时候可以运行,稍微多一点就会出现数据丢失,输入大量数据的时候情况很严重
import codecs
list_delete=[]
list_delete1=['〔','(','[','(']
list_delete2=['〕',')',']',')']
dict1=codecs.open(r'a.txt','r','utf_8')#打开文件
temp_list=list(dict1)#将文件里的字存入列表
dict1.close()
list_dict=[]
for each in temp_list:
for a in range(len(each)):
list_dict.append(each[a])
length=len(list_dict)
print(length)
each=0
while length!=each:#获取列表长度(此长度可变),遍历与长度相等的所有字符
if list_dict[each] in list_delete1:#如果改字符为'〔','(','['则删除其与其后的字符直到'〕',')',']'出现
limit=8
while(limit>0):
limit-=1
list_dict.remove(list_dict[each])
length-=1
if list_dict[each] in list_delete2:
list_dict.remove(list_dict[each])
length-=1
break
else:
each+=1
print(each,length)
print(list_dict)
...全文
991 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
sanGuo_uu 2018-01-25
  • 打赏
  • 举报
回复
为什么要用codec,为什么要用remove? 直接 open用replace不好吗 并且,你原文件什么样子?想变成什么样子?
ppchaos 2018-01-25
  • 打赏
  • 举报
回复
utf-8的问题? 使用明确的字符编码试试
ppchaos 2018-01-25
  • 打赏
  • 举报
回复
utf-8的问题?
ppchaos 2018-01-25
  • 打赏
  • 举报
回复
utf-8的问题? 使用明确的字符编码试试

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧