V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
taowen
V2EX  ›  分享创造

纯浏览器实现的 pdf 转 markdown

  •  
  •   taowen · 17 天前 · 898 次点击

    主要目的是提取纯文本方便 chatgpt

    https://gist.github.com/taowen/4ce9de62255ded695db106ded4aa18c1

    • pdf.js 可以提取所有的 TextItem 包括文本和包围盒
    • 根据包围盒可以大致判断一下是否换行了
    • 如果一行中包含了公式,那么一行会有很多个 TextItem ,这些行会称之为 complex 的行
    • 多个连续的 complex 行变成了 complex 块
    • 如果有 claude 3 haiku 的账号会对 complex 块做一次基于图片的 OCR 来清洗嘈杂的带公式的文本

    除了 pdf 还有几个纯浏览器的小工具方便用来提取纯文本

    2 条回复    2024-04-13 23:45:38 +08:00
    buyno1
        1
    buyno1  
       16 天前
    油管那个总提示 复制了 0 字符
    不知什么原因
    taowen
        2
    taowen  
    OP
       16 天前
    @buyno1 你得先点一下 youtube 的 “内容转文字” 按钮
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2510 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 12:04 · PVG 20:04 · LAX 05:04 · JFK 08:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.