pymssql.Cursor.executemany 插入数据报"Violation of PRIMARY KEY constraint"该如何处理？

horizon668 2018-11-27 01:11:06

就一张表tb1,表中有6列，为了防止数据重复录入，我把6列都设置了主键
因为用execute一条条的来，太慢了，2200个文件，总共才270万不到的数据，用了接近3个小时。
尝试用executemany，但在运行是报错'''IntegrityError: (2627, b"Violation of PRIMARY KEY constraint 'PK_lgn'. Cannot insert duplicate key in object 'lgn'.DB-
Lib error message 20018, severity 14:\nGeneral SQL Server error: Check messages from the SQL Server\n")'''

1、我知道是由于主键设置，数据重复所致。请问，怎么能忽略掉错误，把不重复的数据插入进去呢？

2、另外我发现查询这张表时速度很慢，是否跟主键设置过多有关系？怎么优化这张表（在防止数据重复录入的前提下），谢谢各位

...全文

1538 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

horizon668 2018-12-03

打赏
举报

回复

最后的方案是：改用sqlite，用pandas读取新增数据和原始数据比对去重后，将增量数据插入sqlite。光插入耗时，270万条数据1分钟不到。

尘封记忆 2018-11-28

打赏
举报

回复

引用 3 楼 horizon668 的回复:

新的增量数据我能确定不重复，但怎么保证跟数据库里的存量数据也不重复呢，两者有重复的话

把数据库的数据读取到内存。

horizon668 2018-11-27

打赏
举报

回复

新的增量数据我能确定不重复，但怎么保证跟数据库里的存量数据也不重复呢，两者有重复的话

尘封记忆 2018-11-27

打赏
举报

回复

我对 sql 不是很熟悉，但是原理应该和mongo差不多。你最好把数据读取到内存，然后对每条信息和内存的数据主键先比对，不一样后，再插入输入，这样会比较快。比对 ---->一样删除/不一样留下 ---->不一样加入数据库

尘封记忆 2018-11-27

打赏
举报

回复

https://bbs.csdn.net/topics/392363056

pymssql 是Python语言用来连接微软 SQL SERVER 数据库的类库，实现了 Python DB API 2.0 。示例代码： import pymssql conn = pymssql.connect(host='SQL01', user='user', password='password', database='mydatabase') cur = conn.cursor() cur.execute('CREATE TABLE persons(id INT, name VARCHAR(100))') cur.executemany("INSERT INTO persons VALUES(%d, %s)", \ [ (1, 'John Doe'), (2, 'Jane Doe') ]) conn.commit() cur.execute('SELECT * FROM persons WHERE salesrep=%s', 'John Doe') row = cur.fetchone() while row: print "ID=%d, Name=%s" % (row[0], row[1]) row = cur.fetchone() conn.close()

已解决（Python向数据表中插入数据报错）(2627, b"Violation of PRIMARY KEY constraint ‘PK__TM_DATA___74039E9D27D6A68B’. Cannot insert duplicate key in object ‘dbo.TM_DATA_SUB’. The duplicate key value is (65413864).DB-Lib error message 20018, severity 14:\nGeneral SQL Server

cursor.execute()和cursor.executemany()是用Python向SQL server插入数据时最常使用的两种方式，后者的效率比前者高，但是两者对于传入数据的格式要求有一定的区别，这可能导致executemany()的性能损失。比如：有个列表中的数据全是以字符串形式储存的数字、时间、货币、图片，在使用executemany()时就必须把字符串转化成对应的Python数据格式传入，导致性能的减损。

用pymssql的fetchone接口从 sql server数据库中获取然后插入到另外的表中，会产生如下报错 pymssql._pymssql.OperationalError: Statement not executed or executed statement has no resultset 原因分析：怀疑是游标的问题可能是游标先查询，再插入时，该游标失效了，导致没有取到下一条结果数据初始化时，创建两个连接和游标，一个游标用来取数据，另一个游标用来插入数据，尝试后，发现可以成功运行了！.

cursor.execute()`和`cursor.executemany()`在向数据库插入数据时具有不同的功能和用途，它们的主要区别在于**执行效率、插入方式以及参数要求**等方面。- **`executemany()`**：使用`executemany()`可以实现单次数据库交互中插入多条记录，从而显著提高大量数据传输的效率。- **`execute()`**：通过循环调用`execute()`方法插入多条数据通常效率较低，因为每次循环都会与数据库进行一次交互。

37,743

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章