入口模块

class moear_spider_zhihudaily.entry.ZhihuDaily(*args, **kwargs)[源代码]

基类:moear_api_common.base.SpiderBase

知乎日报爬虫插件

初始化默认配置参数,可在子类中进行覆盖

配置优先级为:用户元数据 > 具体Package配置 > Common全局默认配置

参数:usermeta (dict) – (可选,关键字参数)指定用户的package相关配置元数据, 如:定制书籍名(book_title)等
hook_custom_options()[源代码]

该方法返回当前类的自定义配置项,由基类在 __init__ 方法中调用, 调用点位于,Common默认全局配置完成后,用户元数据配置前

返回:返回当前类的自定义配置项
返回类型:dict
register(*args, **kwargs)[源代码]

调用方可根据主键字段进行爬虫的创建或更新操作

返回:返回符合接口定义的字典数据
返回类型:dict
crawl(*args, **kwargs)[源代码]

执行爬取操作,并阻塞直到爬取完成,返回结果数据。 此处考虑到 Scrapy 本身的并发特性,故通过临时文件方式做数据传递, 将临时路径传递到爬虫业务中,并在爬取结束后对文件进行读取、 JSON 反序列化,返回

返回:返回符合接口定义的字典对象
返回类型:dict
format(data, *args, **kwargs)[源代码]

将传入的Post列表数据进行格式化处理。此处传入的 data 格式即为 ZhihuDaily.crawl() 返回的格式,但具体内容可以不同,即此处保留了灵活度, 可以对非当日文章对象进行格式化,制作相关主题的合集书籍

参数:data (list) – 待处理的文章列表
返回:返回符合mobi打包需求的定制化数据结构
返回类型:dict