pdf 转 txt 之后,需要抽取简介和结论两部分内容。
除了正则,有什么好的办法吗?
除了正则,有什么好的办法吗?
1
xupefei Dec 20, 2019 via iPhone
如果论文是双栏的,那准确度做不到 100%吧。
有时候 pdf 看起来是双栏,其实文本区域是在一起的。 如果有 latex 源码的话,可以用正则抽,准确度 100%。 |