爬虫模块¶

class moear_spider_zhihudaily.spiders.zhihu_daily.ZhihuDailySpider(date=None, *args, **kwargs)[源代码]¶

基类：scrapy.spiders.Spider

知乎日报爬虫类，用于爬取&解析知乎日报页面&相关协议

参数:	date (str) – 爬取日期，命令行参数，默认为空，即爬取当日最新，内容格式：`yyyymmdd` output_file (str) – (可选，关键字参数)结果输出文件，用以将最终爬取到的数据写入到指定文件中，默认为 `moear_spider_zhihudaily` 下的 `build` 路径，建议仅作为测试时使用

description = '每天三次，每次七分钟。在中国，资讯类移动应用的人均阅读时长是 5 分钟，而在知乎日报，这个数字是 21'¶: 描述信息，长度无限制，Spider每次运行时更新

parse(response)[源代码]¶

根据对 start_urls 中提供链接的请求响应包内容，解析生成具体文章链接请求

参数:	response (Response) – 由 `Scrapy` 调用并传入的请求响应对象

parse_post(response)[源代码]¶

根据 ZhihuDailySpider.parse() 中生成的具体文章地址，获取到文章内容，并对其进行格式化处理，结果填充到对象属性 item_list 中

参数:	response (Response) – 由 `Scrapy` 调用并传入的请求响应对象

closed(reason)[源代码]¶

异步爬取全部结束后，执行此关闭方法，对 item_list 中的数据进行 JSON 序列化，并输出到指定文件中，传递给 ZhihuDaily.crawl()

参数:	reason (obj) – 爬虫关闭原因