scrapy 爬取小说保存的txt内容章节乱序，Pipeline中如何排序保存

newuserpy 2017-08-26 04:04:18

如题，items中已经设置了num进行章节计数用，各章节按顺序绑定了num。



import scrapy

class MyItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    num = scrapy.Field() 

    desc = scrapy.Field()

    dname = scrapy.Field()       

    pass

piprlin如下，



import codecs

import os

import pdb



class MyPipeline(object):

    def process_item(self, item, spider):

        base_dir = os.getcwd()

        fiename = base_dir + '/小说.txt'

        with open(fiename, "a",encoding='utf-8') as f: 

            f.write(item['dname'] + "\n")

            f.write(item['desc'] +"\n\n") 

       return item

请问应该如何对item进行排序保存。

...全文

1052 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

newuserpy 2017-08-31

打赏
举报

回复

自己看了下书，已经会了。结贴。

scrapy 小说爬取

根据上章scrapy爬取小说(二) 爬取的小说的章节是乱序的，所以需要章节排序。使用Item和Pipeline对最终结果排序修改items.py文件 import scrapy class NovelItem(scrapy.Item): # define the fields for your ...

喜欢用电纸书看小说，但苦于难以寻找网络小说的txt版本，加之最近学习了一下怎么用scrapy爬取网页数据，所以想到去使用scrapy框架来爬取笔趣阁小说存为txt文件，在爬取过程中对于并发请求的章节排序是一个难点，本...

由于scrapy使用异步下载，所以会出现下载小说章节的结果是乱序的。可以通过下面的方法将章节顺充传递给item，并保存起来：在解析主页得到所有章节信息（章节名、网址、还有顺序）后，通过Request()的cb_kwargs来传递...

scrapy爬取小说时极易遇到章节混乱以及重复等问题。爬取小说主页，并获得各个章节，因为只是一个页面，因此不会遇到排序和重复问题，然后利用pandas库进行数据清洗，再利用DataFrame的to_csv进行存储自动对其进行...

37,743

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章