V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
kkkanoooo
V2EX  ›  Python

求助,有关爬论文的问题

  •  
  •   kkkanoooo · 2017-10-26 17:16:21 +08:00 · 2302 次点击
    这是一个创建于 2345 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我想爬 https://www.sigops.org/sosp/sosp17/program.html 这个网站的所有论文,自己写的时候发现论文的链接和实际点开的链接不一样,想求助大神指点一下思路。
    5 条回复    2017-10-30 12:48:27 +08:00
    konia
        1
    konia  
       2017-10-26 17:42:10 +08:00
    302 跳转吧,允许跳转应该就可以获取到了吧
    konia
        2
    konia  
       2017-10-26 17:49:54 +08:00   ❤️ 1
    比如
    > curl 'xxxxx/ft_gateway.cfm?id=3132758&ftid=1913909' -L -o x.pdf
    p2pCoder
        3
    p2pCoder  
       2017-10-26 17:57:23 +08:00
    https://dl.acm.org/ft_gateway.cfm?id=3132785&ftid=1913904&dwn=1&CFID=998859838&CFTOKEN=94606726
    会 302 跳转
    跳转 到
    http://delivery.acm.org/10.1145/3140000/3132785/p1-pei.pdf?ip=218.17.206.98&id=3132785&acc=OPENTOC&key=4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2EC42B82B87617960C&CFID=998859838&CFTOKEN=94606726&__acm__=1509011719_65cbe92e4daaceece431448128d58a22
    这个是 实际 的访问路劲
    跳转中 会设置 cookie,
    一般来说,用 requests 的自动跳转没有问题(默认自动跳转),但是 按我最近工作上的经验,自动跳转可能出问题,你可以 不让 自动 跳转,然后 获得 响应中 headers 中的 location,然后再构造请求。
    p2pCoder
        4
    p2pCoder  
       2017-10-26 18:09:50 +08:00   ❤️ 1
    你先用 requests 的 session 做,如果有问题,就 抓包,然后 设置 不允许 重定向,分步伪造请求。
    darfux
        5
    darfux  
       2017-10-30 12:48:27 +08:00
    ACM 目测加了 UA 检测,给你的爬虫套个 UA 就可以获得原始地址了(我已爬完 XD )
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5907 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 02:38 · PVG 10:38 · LAX 19:38 · JFK 22:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.