V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
rizon
V2EX  ›  程序员

大佬们,有什么好用的开源网页正文提取的库

  •  
  •   rizon ·
    othorizon · 322 天前 via iPhone · 3761 次点击
    这是一个创建于 322 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在有一个需要提取网页正文的需求。大佬们有什么觉得很好用的开源库啊。

    另外开源知识库产品也求个推荐。

    想要做一个网页爬取,正文提取,然后到知识库,最后 api 输出的组合。

    谢谢大佬们
    17 条回复    2024-02-06 19:47:57 +08:00
    zuoyouTU
        1
    zuoyouTU  
       322 天前
    如果目标页面格式清楚,用 selenium 或者 pytesseract 简单定制一下应该可以
    前者拿明文后者用 ocr 拿其他的
    zqjilove
        2
    zqjilove  
       322 天前
    gen 。github 、v2 里搜索一下,好像还是 v 友开发的。
    wbrobot
        3
    wbrobot  
       321 天前
    国外好用的都是收费 API
    国内以前有一个,后来没有了
    开源的需要自己改的东西太多了,以后有基于 AI 的可能会好很多
    Cloud200
        4
    Cloud200  
       321 天前
    Cloud200
        5
    Cloud200  
       321 天前
    rizon
        6
    rizon  
    OP
       321 天前
    我本以为正文提取的库挺多的,结果查了一下发现,这条路好像还没有趟的很好啊。目前看到一个最简单的方法就是基于标签的密度。
    FrankAdler
        7
    FrankAdler  
       321 天前
    DTCPSS
        10
    DTCPSS  
       321 天前   ❤️ 1
    rizon
        11
    rizon  
    OP
       321 天前
    @FrankAdler #7 对对对,就是这个思路,那些各类网页阅读器的思路。我试试这个如何
    rizon
        12
    rizon  
    OP
       321 天前
    @DTCPSS #10 这个看着蛮好用的诶,感谢兄弟。 火狐真棒,哈哈
    oaa
        13
    oaa  
       321 天前   ❤️ 2
    1 ) Readability ,https://github.com/mozilla/readability ,是一种基于规则的方法,被 Mozilla Firefox 浏览器的阅读模式使用,它通过检查 HTML 元素的标签名称、文本数量、链接密度以及满足主要内容标准的文本模式来提取主要内容

    2 ) DOM Distiller ,https://github.com/chromium/dom-distiller ,是 Google Chrome 浏览器的阅读模式,它是一种混合方法,使用了 Boilerpipe 分类器和一些规则,有点类似于 Readability

    3 ) Web2Text ,https://github.com/dalab/web2text ,是基于深度神经网络的分类器,使用了 CNN 模型和包括单词计数、标点符号存在和停用词数量等 128 个结构和文本特征来确定每个文本块是否属于主要内容

    4 ) Boilernet ,https://github.com/mrjleo/boilernet ,是基于深度神经网络的分类器,使用 LSTM 将网页的文本节点视为由单词和 DOM 树根路径组成的文本块序列
    好像还有个啥论文。。
    via https://twitter.com/Barret_China/status/1729889136520335606?s=20
    Immortal
        14
    Immortal  
       321 天前
    rod
    chingyat
        15
    chingyat  
       321 天前
    dyllen
        16
    dyllen  
       321 天前
    之前不记得哪里看的,哪些聚合网站好像是有用的密度分析方法做的。
    zqjilove
        17
    zqjilove  
       321 天前
    目前最靠谱的就是用 gpt
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5124 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 03:48 · PVG 11:48 · LAX 19:48 · JFK 22:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.