扫描书籍PDF文件转Markdown/EPUB工具pdf-craft
项目简介本项目可将 PDF 一页一页读出,并使用 DocLayout-YOLO 混合我写的一个算法,将书页中的正文提取出来,并过滤掉页眉、页脚、脚注、页码等元素。在跨页过程中,会使用算法判断以妥善处理前后文跨页顺接问题,最终生成语义通顺的文本。书页会使用 OnnxOCR 进行文本识别。并使用 layoutreader 来确定符合人类习惯的阅读顺序。安装你需要 python 3.10 或以上(推