- 创建spider:scrapy genspider spider_name site_url
- 执行spider:scrapy crawl spider_name
- 接收参数:scrapy crawl spiderName -a parameter1=value1 -a parameter2=value2
- 递归调用时常用参数:
- dont_filter:不过滤相同的url请求。当需要重复调用同一url的时候,将此参数设为True,否则相同url的请求会被自动过滤掉,并且没有提示
yield scrapy.Request(url=url, callback=self.parse,dont_filter=True)
- dont_filter:不过滤相同的url请求。当需要重复调用同一url的时候,将此参数设为True,否则相同url的请求会被自动过滤掉,并且没有提示