爬虫模块¶
-
class
moear_spider_zhihudaily.spiders.zhihu_daily.ZhihuDailySpider(date=None, *args, **kwargs)[源代码]¶ 基类:
scrapy.spiders.Spider知乎日报爬虫类,用于爬取&解析知乎日报页面&相关协议
参数: -
name= 'zhihu_daily'¶ 来源名称,唯一,长度<255,用于文章源模型索引创建后不可修改
-
display_name= '知乎日报'¶ 显示名称,长度<255,Spider每次运行时更新
组件作者,Spider每次运行时更新
-
email= 'moore@moorehy.com'¶ 组件作者邮箱,Spider每次运行时更新
-
description= '每天三次,每次七分钟。在中国,资讯类移动应用的人均阅读时长是 5 分钟,而在知乎日报,这个数字是 21'¶ 描述信息,长度无限制,Spider每次运行时更新
-
parse(response)[源代码]¶ 根据对
start_urls中提供链接的请求响应包内容,解析生成具体文章链接请求参数: response (Response) – 由 Scrapy调用并传入的请求响应对象
-
parse_post(response)[源代码]¶ 根据
ZhihuDailySpider.parse()中生成的具体文章地址,获取到文章内容, 并对其进行格式化处理,结果填充到对象属性item_list中参数: response (Response) – 由 Scrapy调用并传入的请求响应对象
-
closed(reason)[源代码]¶ 异步爬取全部结束后,执行此关闭方法,对
item_list中的数据进行 JSON 序列化,并输出到指定文件中,传递给ZhihuDaily.crawl()参数: reason (obj) – 爬虫关闭原因
-