首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
dcalsky
V2EX  ›  问与答

爬虫,带样式的内容

  •  
  •   dcalsky · 166 天前 via Android · 451 次点击
    这是一个创建于 166 天前的主题,其中的信息可能已经有所发展或是发生改变。

    页面中有一些内容,我需要爬下来。但是这些内容里可能包含了文字,图片,表格等等奇怪的东西。如果不把样式也一起爬出来然后渲染,那么不带样式的内容就会很丑,而且也没法很好地自适应移动端。

    所以这种情况只能用 Puppeteer 等工具保存截图了对吗?而不是获取 html 代码。

    3 回复  |  直到 2019-08-05 16:50:30 +08:00
    dcalsky
        1
    dcalsky   166 天前 via Android
    内容里可能还有附件,那还得做个附件检测,然后自动 download 下来
    holajamc
        2
    holajamc   166 天前
    之前有一家的解决方法是保留 HTML 的 DOM 结构去教所有标签属性
    dcalsky
        3
    dcalsky   166 天前 via Android
    @holajamc 如果不带 css 的话,还是会很丑,甚至错位。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4359 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 21ms · UTC 03:34 · PVG 11:34 · LAX 19:34 · JFK 22:34
    ♥ Do have faith in what you're doing.