V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
0x663
V2EX  ›  问与答

关于爬虫的一个问题

  •  
  •   0x663 · 2023-03-28 11:15:36 +08:00 · 913 次点击
    这是一个创建于 613 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我用的 Java 的 Webmagic 去爬取一个页面,我如果用浏览器直接打开的话这个页面会跳到一个新页面是一个文档请求但是如果我用 webmagic 去获取这个页面的 html 的话发现是通过 window.location.href='./页面 id' 而不会去跳转到这个页面,如果我想获取这个页面,应该怎么去写呢
    4 条回复    2023-03-29 10:11:15 +08:00
    theOneMe
        1
    theOneMe  
       2023-03-28 11:18:41 +08:00
    那就用跳转后的那个路径不就行了
    centralpark
        2
    centralpark  
       2023-03-28 11:26:37 +08:00
    建议补充一些前端基础常识再来写爬虫
    0x663
        3
    0x663  
    OP
       2023-03-28 11:34:11 +08:00
    @theOneMe 这个路径是上个爬虫获取到的列表路径,然后通过这个列表路径再去创建新的爬虫
    xlh001
        4
    xlh001  
       2023-03-29 10:11:15 +08:00
    获取当前网站路径拼接一下啊
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2611 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:21 · PVG 19:21 · LAX 03:21 · JFK 06:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.