python 用 request 库爬虫爬取淘宝详情页碰到了个奇葩问题 为了分析请求,我用的 fiddle,当开启 fiddle 代理,运行代码,无论请求多么频繁,都不会报错 拿掉代理,直接请求,稍稍频繁就报错,这是为什么呢?怎么解决? 下面是报错 requests.exceptions.ConnectionError: ('Connection aborted.', RemoteDisconnected('Remote end closed connection without response')) 代理就是个本地的代理,和 ip 没有关系,为什么有代理就行,没代理就完蛋? fiddle 对请求做了什么处理呢
1
jugelizi 2020-03-31 23:10:33 +08:00 via iPhone
证书吧
|
2
changwenrui2310 OP @jugelizi 已经移除对 SSL 的认证 verify=False,如果是证书有问题的话恐怕直接请求不到吧,我这里是请求频繁就拒绝
|
3
learningman 2020-03-31 23:27:09 +08:00 via Android
估计是用 js 做了反爬
|
4
changwenrui2310 OP @learningman 我不太明白,如果是做了反爬,为什么加个 fiddle 代理就能开爬呢?
|
5
None123 2020-03-31 23:30:28 +08:00
@learningman 这 tm 和 js 有什么关系 不懂就不要瞎说
|
6
None123 2020-03-31 23:34:07 +08:00
@changwenrui2310 改一下请求头
|
7
changwenrui2310 OP @None123 改什么呢?你的意思是每次请求都改一下?
|
8
ArJun 2020-03-31 23:48:57 +08:00
为啥要爬淘宝详情呢,直接调淘宝接口不行吗
|
9
None123 2020-03-31 23:50:02 +08:00
@changwenrui2310 headers
|
10
changwenrui2310 OP @None123 改 headers 的那个参数?
|
11
changwenrui2310 OP @ArJun 有些东西淘宝官方的接口没有
|
12
dxasqw 2020-04-01 09:46:35 +08:00 via iPhone
是不是提交了 gzip 的协议头,然后没有解压处理
|
13
learningman 2020-04-01 13:37:03 +08:00 via Android
@None123 如果说我在发送主请求的同时,js 补一个校验呢?
写爬虫第 1 步就是查 js 吧,不查你写个屁,年轻人不要太暴躁。 |
14
None123 2020-04-01 13:59:50 +08:00
@learningman 别逗 楼主这个问题和 js 没关系的
|
15
None123 2020-04-01 14:03:37 +08:00
@changwenrui2310 照着 游览器的该改
|