Python爬虫只更新更新过的数据

ktoya 2016-08-12 05:08:23
有一个爬虫,每5秒爬一个xml网页,
http://www.228cai.com/data/yp101.xml
把每行数据都传到数据库里
这个网页会一直更新,但有很多行在5秒内它是不更新的。
现在的做法很笨,删除数据库所有数据,再重新Insert全部,效率很慢。
现在想换成另外的做法,第一次爬的时候Insert所有数据,5秒后开始第二次爬虫以后只更新更新过的数据,求教做法。
...全文
834 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
混沌鳄鱼 2016-11-24
  • 打赏
  • 举报
回复
你这个数据非常简单量又不大。 第一、数据表建立主键防止重复插入。看着好象第三列应该可以做了个主键,或者第二列+第三列联合主键。 第二、建立内存缓存,比如用redis,或者就用sqlite:memory, 批量写入数据库
CDSoftwareWj 2016-08-15
  • 打赏
  • 举报
回复
放内存啊~~~,有变动再更改啊
羽飞 2016-08-13
  • 打赏
  • 举报
回复
这得排重啊,数据量有多大?看看能不能用内存做缓存,排下重,再插入到数据库
sanxiaochengyu 2016-08-12
  • 打赏
  • 举报
回复
如果有字段能标记是否有更新过,就比较简单,如果没有,只能通过和数据库里面的内容来比较的话,还是直接删除再插入比较简单

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧