首页
注册
登录
zizek 最近的时间轴更新
zizek
V2EX 第 382091 号会员,加入于 2019-02-04 23:08:28 +08:00
zizek
提问
技术话题
好玩
工作信息
交易信息
城市相关
zizek 最近回复了
5 天前
回复了
BlackHole1
创建的主题
›
分享创造
›
[开源] 扫描件 PDF 转 Markdown / EPUB,自动修复 OCR 错误
初步用了一下 pdf-craft 的本地模型功能,发现它是把矢量 pdf 文档当成图片,重新 OCR 之后形成的文本。
请教一下,有这样一个需求,能用 pdf-craft 实现吗?
完全是矢量化的 pdf 文档,已经不需要识别了。只需要内容提取出来,生成 epub 。
其实现在 calibre 能够完成这样的转化,但缺点是,跨页的段落不能合并成一段,这样一句话就会被放在两个段落里。pdf-craft 似乎能够很好地合并段落,保持句子的完整性。
如果提供“直接处理矢量 pdf"的选项,那就能节省很多时间。不知是否可能?
»
zizek 创建的更多回复
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
5725 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms ·
UTC 02:06
·
PVG 10:06
·
LAX 19:06
·
JFK 22:06
Developed with
CodeLauncher
♥ Do have faith in what you're doing.