V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
aceseo
V2EX  ›  问与答

如何对大量 Excel 和 Worc 数据字段提取整理

  •  
  •   aceseo · 2017-09-16 17:21:58 +08:00 · 1468 次点击
    这是一个创建于 2659 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前我这边有个数据批量整理的的需求,接收到大量基于 Word 和 Excel 的表单字段,我需要将其整理相应的字段汇总输出成 Excel 进行分析在处理,整体数据在 50W 条左右,请问有相应的工具或者思路解决这个问题吗?

    目前想到的是 Python 和 VBA 处理 Excel,对于 Word 没有太好的方法

    3 条回复    2017-09-16 17:45:32 +08:00
    qlbr
        1
    qlbr  
       2017-09-16 17:27:59 +08:00
    把后缀名 docx 改成 rar, 解压, 然后看 word\document.xml 有没有你想要的东西吧
    053700
        2
    053700  
       2017-09-16 17:38:27 +08:00
    用 java 都可以做没理由用 python 做不出。楼主可以考虑用 java 做,有相关的轮子。
    oisc
        3
    oisc  
       2017-09-16 17:45:32 +08:00
    pandas
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2734 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 12:00 · PVG 20:00 · LAX 04:00 · JFK 07:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.