python 读取txt文件的数据,插入oracle的编码问题

a1419362866 2017-11-04 12:11:31
已经插入四个批次,28936条记录,在插入第五个批次的时候报这个错了
Traceback (most recent call last):
File "F:/Python_prictice/day2/li_zi1.py", line 54, in <module>
line = f.read(buff) # 从文件中读取一段内容
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python35\lib\codecs.py", line 698, in read
return self.reader.read(size)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python35\lib\codecs.py", line 501, in read
newchars, decodedbytes = self.decode(data, self.errors)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x99 in position 0: invalid start byte
...全文
528 10 点赞 打赏 收藏 举报
写回复
10 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
a1419362866 2017-11-07
引用 7 楼 wandier 的回复:
源文件是不是dos格式,用dos2unix试下
我是自己练习玩的,数据库,文本类都是utf-8,谢谢您的意见啊
  • 打赏
  • 举报
回复
a1419362866 2017-11-07
引用 8 楼 ckc 的回复:
数据文件里有乱码 转码的时候出错了 如果以前插入的数据没错的话你的程序就不要改了,检查一下哪一行数据引发的错误 修改数据文件就可以了 当然也可以在程序里加上try判断一下如果有乱码进行相应差错处理
谢谢啦,我找到问题,我那个seek读的固定的字节书,把某个文字分开,导致下一个开始字节utf-8不能解析,换一种读取文件的方法就好了 with codecs.open('oracle_test.txt','rb','utf-8') as f:
  • 打赏
  • 举报
回复
ckc 2017-11-06
数据文件里有乱码 转码的时候出错了 如果以前插入的数据没错的话你的程序就不要改了,检查一下哪一行数据引发的错误 修改数据文件就可以了 当然也可以在程序里加上try判断一下如果有乱码进行相应差错处理
  • 打赏
  • 举报
回复
wandier 2017-11-06
源文件是不是dos格式,用dos2unix试下
  • 打赏
  • 举报
回复
a1419362866 2017-11-05
引用 5 楼 qq646748739 的回复:
coding=utf8改成coding:utf-8或coding=utf-8
试了也没效果
  • 打赏
  • 举报
回复
碧水幽幽泉 2017-11-05
coding=utf8改成coding:utf-8或coding=utf-8
  • 打赏
  • 举报
回复
碧水幽幽泉 2017-11-05
一个应该是python脚本的问题吧。
  • 打赏
  • 举报
回复
a1419362866 2017-11-04
日期不知道怎么插入,给了四个None..... lin[9] = None lin[14] = None lin[15] = None lin[22] = None
  • 打赏
  • 举报
回复
a1419362866 2017-11-04
# Author:Liu Jie # coding=utf8 import os import re import time from datetime import datetime import hashlib import cx_Oracle import random import _datetime,time import codecs starttime = _datetime.datetime.now() f = codecs.open('oracle_test.txt', 'rb',encoding='UTF-8') def writeDB(params): #print(len(params)) conn = cur = None try: stmt = """INSERT INTO ml_sadmpa_spc_apply_ltmp (topactualid, notificationno, ctpclaimno, comclaimno, op_branch_code, op_branch_name, op_code, op_name, kind, statrt_time, audit_code, audit_name, audit_descript, the_result, special_start_time, back_time, back_reason, isreopenctp, isreopencommercial, branch_code, ml_month, ml_year, ml_population_timestamp) VALUES (:1,:2,:3,:4,:5,:6,:7,:8,:9,:10,:11, :12,:13,:14,:15,:16,:17,:18,:19,:20,:21,:22,:23)""" conn = cx_Oracle.connect('amml', 'Liujie687092', '192.168.199.220:1521/claimamdb') cur = conn.cursor() cur.executemany(stmt, params) except cx_Oracle.connector.Error as e: print('ni ma de a a a a ') print(params) endtime = _datetime.datetime.now() times = (endtime - starttime).seconds print(times) print e finally: if cur: cur.close() if conn: conn.commit() # 如果数据库表类型是Innodb记的带个参数 conn.close() buff = 1024*1024 last = '' flag = 1 num = 0 while flag>0: num = num+1 f.seek(0,1) line = f.read(buff) # 从文件中读取一段内容 if len(line)==0: print('there is nothing') flag = 0 data = [] lines = re.split("\n", line) # 以回车(\n)分隔内容到数组中 if last == '': None else: lines[0] = str(last) + str(lines[0]) last = lines.pop() # 将数组最后一条数据剔除,并存到last变量中,到下次循环再处理 for lin in lines: lin = lin.rstrip() # 去除内容末尾的回车字符 if not lin: continue lin = lin.split('||') lin[0] = int(lin[0]) # sss = time.strftime('%Y-%m-%d %H:%M:%S',time.strptime(lin[9],'%Y-%m-%d %H:%M:%S')) lin[9] = None lin[14] = None lin[15] = None lin[22] = None if len(lin)==23: print('只有23个,没做删除操作') #print(len) elif len(lin)>=24: if len(lin)>24: print('这是大于24的') print(lin) a = len(lin)-23 while a>0: lin.remove(lin[22+a]) a = a-1 elif len(lin)<23: print('这是小于23的') #print(lin) b = 23 -len(lin) while b>0: lin.append() b = b-1 else: print('这是什么鬼,老衲也无能为力呐') lin = tuple(lin) data.append(lin) # 封装内容 if len(data) > 0: writeDB(data) time.sleep(random.random()) # 让Cpu随机休息0 <= n < 1.0 s print(num) f.close() endtime = _datetime.datetime.now() times = (endtime-starttime).seconds print(times)
  • 打赏
  • 举报
回复
qq_40608182 2017-11-04
  • 打赏
  • 举报
回复
相关推荐
发帖
Oracle
加入

1.6w+

社区成员

Oracle开发相关技术讨论
申请成为版主
帖子事件
创建了帖子
2017-11-04 12:11
社区公告
暂无公告