scrapy常用命令

  • 创建spider:scrapy genspider spider_name site_url
  • 执行spider:scrapy crawl spider_name
  • 接收参数:scrapy crawl spiderName -a parameter1=value1 -a parameter2=value2
  • 递归调用时常用参数:
    • dont_filter:不过滤相同的url请求。当需要重复调用同一url的时候,将此参数设为True,否则相同url的请求会被自动过滤掉,并且没有提示
      • yield scrapy.Request(url=url, callback=self.parse,dont_filter=True)

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注