爬虫模块¶
-
class
moear_spider_zhihudaily.spiders.zhihu_daily.
ZhihuDailySpider
(date=None, *args, **kwargs)[源代码]¶ 基类:
scrapy.spiders.Spider
知乎日报爬虫类,用于爬取&解析知乎日报页面&相关协议
参数: -
name
= 'zhihu_daily'¶ 来源名称,唯一,长度<255,用于文章源模型索引创建后不可修改
-
display_name
= '知乎日报'¶ 显示名称,长度<255,Spider每次运行时更新
组件作者,Spider每次运行时更新
-
email
= 'moore@moorehy.com'¶ 组件作者邮箱,Spider每次运行时更新
-
description
= '每天三次,每次七分钟。在中国,资讯类移动应用的人均阅读时长是 5 分钟,而在知乎日报,这个数字是 21'¶ 描述信息,长度无限制,Spider每次运行时更新
-
parse
(response)[源代码]¶ 根据对
start_urls
中提供链接的请求响应包内容,解析生成具体文章链接请求参数: response (Response) – 由 Scrapy
调用并传入的请求响应对象
-
parse_post
(response)[源代码]¶ 根据
ZhihuDailySpider.parse()
中生成的具体文章地址,获取到文章内容, 并对其进行格式化处理,结果填充到对象属性item_list
中参数: response (Response) – 由 Scrapy
调用并传入的请求响应对象
-
closed
(reason)[源代码]¶ 异步爬取全部结束后,执行此关闭方法,对
item_list
中的数据进行 JSON 序列化,并输出到指定文件中,传递给ZhihuDaily.crawl()
参数: reason (obj) – 爬虫关闭原因
-