最近需要把 pdf 经过添加背景,提取相关内容作为文件名后把每页转为 jpg 图片,找来找去,C#语言只有 itext7 这一开源库比较好用些,不过缺乏转图片的功能,github 上有人在 itext7 基础上添加了这一功能: https://github.com/thombrink/itext7.pdfimage,可是在转换近程中发现几个 bug 导致无法成功转换,比如超过 300 页报错,无法识别字体名称以及转换成的图片缺少内容等。前 2 个 bug 试着改作者的源代码可以暂时解决,唯缺失内容这个,我不知道怎么改。当时提交了 issue 并联系了作者(详见 https://github.com/thombrink/itext7.pdfimage/issues ),可是一直未见解决办法的答复。不知道这里是否有人感兴趣能解决一下?
1
forgottencoast 2021-02-08 00:06:04 +08:00
一般缺失是因为没有识别出来,你可以去看看为什么没有识别出来内容,有可能是你的内容在 pdf 中的是以一种特别的组件存在的,所以没识别出来。如果是这种情况,你可以自己加。
|
2
cyersvet OP @forgottencoast 有个不识别的内容是边框,不知怎么加
|
3
forgottencoast 2021-02-08 13:28:25 +08:00
@cyersvet 你尝试把 pdf 做成只剩下那个边框,然后把代码下载到本地进行调试,然后在大概可能的位置断点,看看是什么原因无法识别。
|
4
VictorJing94 2021-02-20 15:53:58 +08:00
好像 Adobe 还是其他一个什么阅读器的 api 提供转换功能的....具体记不清了
|
5
MaiKuraki 2021-03-01 22:02:09 +08:00
nuget 上不是有很多吗,去搜搜
https://www.nuget.org/packages?q=pdf+to+jpg |
6
tangmanger 2021-04-09 11:44:07 +08:00
pdfium 你值得拥有,或者有一个 pdfviewer 二次封装的,但是有一个 bug,他在绘制图片用了 bitmap x86 有时候会抛出内存溢出,你可以试试
|
7
cyersvet OP @tangmanger 我最后就是用 pdfmium 解决的
|