用 Scrapy 爬取一个理财网站,基本上每天都要爬两次来更新数据。
网站完全没有反爬虫机制,测试的时候,不换 user agent,不设置 DOWNLOAD_DELAY,不需要代理 IP,爬了好几次都没有被封。总共 2000 条左右的数据,基本 1 分钟就爬完了。
这种情况下是否有必要设置 DOWNLOAD_DELAY ?会不会给网站带来压力?如果需要,大家一般设置多少?
另外大家反爬虫一般都设置什么?萌新求老人带。
网站完全没有反爬虫机制,测试的时候,不换 user agent,不设置 DOWNLOAD_DELAY,不需要代理 IP,爬了好几次都没有被封。总共 2000 条左右的数据,基本 1 分钟就爬完了。
这种情况下是否有必要设置 DOWNLOAD_DELAY ?会不会给网站带来压力?如果需要,大家一般设置多少?
另外大家反爬虫一般都设置什么?萌新求老人带。