V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
iwukong
V2EX  ›  程序员

有什么办法将 PDF 里的报表抓取出来,整理成 excel 的

  •  
  •   iwukong · 2020-07-31 22:24:53 +08:00 · 2450 次点击
    这是一个创建于 1336 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有什么办法将 PDF 里的报表抓取出来,整理成 excel 的

    比如披露易里的抓取 pdf 的报表
    第 1 条附言  ·  2020-08-03 22:25:13 +08:00
    要在线抓取披露易里的 PDF,然后提取里面数据,然后生成 EXCEL,不要下载下来的
    20 条回复    2020-08-04 22:03:50 +08:00
    redeemer1001
        1
    redeemer1001  
       2020-07-31 22:34:04 +08:00
    没有现成的话,找个 pdf 解析库呗…参考 pdf 格式规范…
    Adobe PDF file specification document available from Adobe website: “PDF Reference, Sixth Edition, Adobe Portable Document Format Version 1.7 November 2006”[http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf]. It is an intimidating 1310 pages document. I would strongly recommend reading Chapter 4 Graphics and sections 5.2 and 5.3 of the Text chapter 5.
    摘自 https://www.codeproject.com/Articles/570682/PDF-File-Writer-Csharp-Class-Library-Version-1-26
    shiny
        2
    shiny  
       2020-07-31 22:58:00 +08:00
    做过上教所和深交所的 pdf 解析入库,转文字后,正则匹配或者关键词匹配都比较容易实现。麻烦的地方是同类型报表虽然格式固定,但总有公司没有把格式写的完完全全一样。
    要是数据项第三方库有,用第三方的更省事,比如 tushare
    ladypxy
        3
    ladypxy  
       2020-07-31 23:01:16 +08:00 via iPhone
    Word 打开 pdf,直接复制到 excel
    gladuo
        4
    gladuo  
       2020-07-31 23:37:33 +08:00
    jumpshen
        5
    jumpshen  
       2020-07-31 23:44:41 +08:00 via iPhone
    正好也在查这方面的资料
    whileFalse
        6
    whileFalse  
       2020-08-01 10:04:29 +08:00
    OCR 试试?
    0ranger
        7
    0ranger  
       2020-08-01 10:29:41 +08:00 via iPhone
    白描 ocr 据说可以,不过我没成功
    whi147
        8
    whi147  
       2020-08-01 11:15:33 +08:00 via iPhone
    最近就在做这方面的代码,c++库有 mupdf 、xpdf,python 库有 pymupdf 、pdfplumber
    whi147
        9
    whi147  
       2020-08-01 11:16:30 +08:00 via iPhone
    还有 wxexcel
    hwlhwlxyz
        10
    hwlhwlxyz  
       2020-08-01 11:17:00 +08:00
    如果不是图片的话,我用过 tabula,还挺好用的,不知道你的格式是什么样子的。https://github.com/tabulapdf/tabula
    heguangyu5
        11
    heguangyu5  
       2020-08-01 12:08:47 +08:00 via iPhone
    mupdf +1

    mupdf 是个 c 库,还有很不错的文档,自身还带了几个实用工具,做格式转换、文字、图片、字体提取都很好用。
    iwukong
        13
    iwukong  
    OP
       2020-08-03 22:02:43 +08:00
    @dayeye2006199 这的花多少钱
    iwukong
        14
    iwukong  
    OP
       2020-08-03 22:11:55 +08:00
    @jumpshen 找到了吗
    iwukong
        15
    iwukong  
    OP
       2020-08-03 22:12:44 +08:00
    @ladypxy 1 万份咋办
    ladypxy
        16
    ladypxy  
       2020-08-03 22:23:56 +08:00
    @iwukong python 写个程序自动调用 word 啊,网上大把代码
    iwukong
        17
    iwukong  
    OP
       2020-08-03 22:26:51 +08:00
    @whi147 成功了吗 那些数据网站如何做的 wind chioce 理杏仁等
    dayeye2006199
        18
    dayeye2006199  
       2020-08-04 12:03:56 +08:00
    @iwukong 每月前 1000 页免费。1 百万页以下$1.5 每千页
    whi147
        19
    whi147  
       2020-08-04 12:16:42 +08:00 via iPhone
    @iwukong 工作代码不易公开,成功是肯定成功的,你就看下我用的几个库,自己也能摸索出来
    iwukong
        20
    iwukong  
    OP
       2020-08-04 22:03:50 +08:00
    @dayeye2006199 关键我是想要的是
    1.自动抓取网上的
    2.自动入库
    他这个只是每一个一个抓取吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5730 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 01:50 · PVG 09:50 · LAX 18:50 · JFK 21:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.