目标网站完全没有反爬机制，是否有必要设置 DOWNLOAD_DELAY？ - V2EX

Home Sign Up Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3044 days ago, the information mentioned may be changed or developed.

用 Scrapy 爬取一个理财网站，基本上每天都要爬两次来更新数据。
网站完全没有反爬虫机制，测试的时候，不换 user agent，不设置 DOWNLOAD_DELAY，不需要代理 IP，爬了好几次都没有被封。总共 2000 条左右的数据，基本 1 分钟就爬完了。
这种情况下是否有必要设置 DOWNLOAD_DELAY ？会不会给网站带来压力？如果需要，大家一般设置多少？
另外大家反爬虫一般都设置什么？萌新求老人带。

13 replies • 2018-01-18 16:39:48 +08:00

1

bazingaterry

Jan 17, 2018 via iPhone

1

现在没有反爬不代表将来没有，隐藏好自己也很重要。

如果对抓取速度没要求肯定是设置一下 download delay 或者限制一下并发，别把网站抓跨了得不偿失。

2

crab

Jan 17, 2018

1

除非你只爬完这次，不然日后还要继续爬，尽可能伪装成正常访客啊。
黑客入侵完都要帮忙做安全打补丁呢

3

frank065

OP

Jan 17, 2018

@bazingaterry @crab DOWNLOAD_DELAY 一般设置多少合适咧？除了常见的 1.设置 DOWNLOAD_DELAY 2.禁止 cookies 3.更换 user agent 4.代理 IP，请问还有其他常见的伪装技巧吗？

4

yanzixuan

Jan 17, 2018

适度吧。不要把人家玩坏了。逼别人上变态反爬。

5

Applenice

Jan 17, 2018

你就是装，也要装成 N 个人访问啊，人家哪天看到你天天爬数据，上了反爬，你还得改代码

6

HarveyDent

Jan 17, 2018

要，说不定数据一多，你的爬虫把他们网站拖垮了呢

7

voidtools

Jan 17, 2018 via Android

1

@crab 打补丁。建立共生关系搞一家人吗哈哈

8

leavic

Jan 17, 2018

只要一次爬完爬不挂，就算了吧。

9

Gimini

Jan 17, 2018

不反爬哪天发现了给你丢脏数据...

10

ilovebaicai

Jan 17, 2018

数据量不多，DOWNLOAD_DELAY 设置久一点，加一个 user-agent。如果有条件放几个代理 ip。说不好那天就把你 ip 封了。

11

Len1133

Jan 17, 2018

加上吧，别把人家搞的不舒服

12

beforeuwait

Jan 17, 2018

对啊，人家没有反爬，处于道义，不要影响别的用户正常访问，还是需要设置 delay 的

13

julyclyde

Jan 18, 2018

楼上说的对

About · Help · Advertise · Blog · API · FAQ · Solana · 1466 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 57ms · UTC 16:54 · PVG 00:54 · LAX 09:54 · JFK 12:54
♥ Do have faith in what you're doing.