V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
hu5ky
V2EX  ›  问与答

使用 Python 抓取当前网站加载的 JS 地址问题

  •  
  •   hu5ky · Jun 12, 2019 · 1957 views
    This topic created in 2511 days ago, the information mentioned may be changed or developed.

    方案有两个:方案一是打开网站->读取源代码->匹配 SRC 内的 JS 地址(但是这样做的话实际上并没有完全抓取到) 方案二打开网站->监听浏览器 network->匹配内容存在.js 的地址(因为部分网站的 JS 后面还存在一串字符 test.js457244asd24 这样)

    目前的问题是浏览器 network 怎么监听呢?

    5 replies    2019-06-12 19:44:52 +08:00
    c4f36e5766583218
        1
    c4f36e5766583218  
       Jun 12, 2019
    <script ></script>
    这样吗?
    x66
        2
    x66  
       Jun 12, 2019
    如果你用 selenium 来爬的话,selenium-wire 是你想要的
    Jirajine
        3
    Jirajine  
       Jun 12, 2019 via Android
    mitm 抓包不好吗?
    hu5ky
        4
    hu5ky  
    OP
       Jun 12, 2019
    @Jirajine 已经在着手了
    hu5ky
        5
    hu5ky  
    OP
       Jun 12, 2019
    @x66 O 了,我去了解一下
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1481 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 17:06 · PVG 01:06 · LAX 10:06 · JFK 13:06
    ♥ Do have faith in what you're doing.