本文部分内容参考自账号「沉浸式翻译」


沉浸式翻译团队最近开源了他们PDF翻译工具——「BabelDOC PDF」 。BabelDOC 在很大程度上解决了 PDF 机翻中出现的排版乱码、串行等不可用的「老大难」 问题,可以直接输出对版的精准 PDF。

产品发布后,BabelDOC 一举冲进了 Github 全站全开发语言 Trending 榜的前三。

随后,BabelDOC 又上新了多语种支持功能,支持使用拉丁字母的语言翻译成简体中文、繁体中文、日文和韩文。同时,上线了中、日、韩三国文字之间的互译功能。

目前,免费用户每月可享 1000 页解析额度及 GLM-4-FLASH 翻译。Pro 用户最多可享受每月 10000 页解析额度,可以使用 DeepSeek 翻译模型。


Founder Park 正在搭建「AI 产品市集」社群,邀请从业者、开发人员和创业者,扫码加群: 

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯; 

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道

如果你想提交自己的产品,点击文末的「阅读原文」即可。



01 

BabelDOC 是如何实现「精准翻译+版式对版」 的?


我们先来看 BabelDOC 实现的效果。BabelDOC 能够完整地提取并翻译 PDF 中内嵌图表、脚注、公式等非文本元素,能实现译文与源文件之间像素级版式对齐。同时,BabelDOC 能够自动识别学术论文/招股书/行业白皮书等专业文档结构,确保翻译后布局与数据可视化效果,同原文档高度一致。

在技术方面,首先,BabelDOC 会完整地解析 PDF 的内容,包括读取文件头尾来了解 PDF 的结构、读取图片/文字等元素。在处理以上步骤后,BabelDOC PDF 引入了「AI 布局识别」技术,来辨认文本的布局、段落结构,以及一些复杂的内容排版情况,例如图片、表格和数学公式,并「记忆」下来。

接着,在布局识别完成后,提取文本并交给大语言模型进行翻译。

然后,把翻译好的文字同上面识别记录下来的排版情况进行比对,智能匹配对应的字体、行距等样式,确保文本能够适应新的布局。

当遇到图片和复杂公式时,BabelDOC PDF 会对其进行识别和解析。富文本的文字部分进行对应的翻译,公式则以原封不动地以字符形式保留。

最后,通过智能渲染的方式,将翻译好的文字调整好大小尺寸,将上面所提到的数学公式、图片、表格等重新排版一遍,写入新文档。

由此,做好翻译和排版复原 PDF 文档完成。



02 

PDF 翻译为什么那么复杂?

要了解 BabelDOC  PDF,我们需要花一点时间了解 PDF (Portable Document Format),这个堪称数字出版历史上最有影响的发明之一。

PDF 文档源自行业内响当当的 Adobe 公司,是该公司联合创始人约翰·沃诺克(John Warnock)于上世纪 90 年代初发明的,目的是为了解决文档不同设备上显示效果不一致的问题。PDF 问世后增加了大量交互、加密等功能,并于 2008 年被国际标准化组织(ISO)采纳为国际标准(ISO 32000-1:2008)。相比于常见的 。DOCX 格式文档,PDF 在可编辑性上略逊一筹,但有自己独特的优势,可以参考下表:

这些优缺点都源自 PDF 的文件结构。PDF 的文件结构可以理解为「一张充满二进制代码和文本的纸」,其架构如同枝繁叶茂的大树,结构是这样构成的——

  • 大树的根部是「文件头尾」:包含一系列二进制代码,让读文件的程序(包括 BabelDOC PDF)将其识别为二进制文件,而不是纯文本,并给出交叉引用表等资源的位置。

  • 大树的末端枝干是 Page Tree,又称「页面树」:每个分支代表 PDF 中的一个页面,记录了图片、文字等元素的「引用」情况

  • 大树的主干分叉部分是「交叉引用表」:当读文件的程序遇到交叉引用表,就如同看到了什么信息存放在哪里(页面树)的指路牌,可以顺藤摸瓜找到对应的信息

  • 大树的叶子、花朵、果实是「资源」:包含了组成文档所需的各种细节,如具体的字体、图像、颜色空间等

  • 大树的导管系统是「内容流」:记录了 PDF 页面的绘制指令,描述了程序如何在页面上还原出文本、图像等元素。

所以当一个程序打开 PDF 文档时,我们可以大致把打开的过程想象为下图的流程——

当然,这只是个形象的比喻,实际上的过程比这个复杂很多,大家能理解基本的原理就好。



更多阅读
Qwen 3 发布,开源正成为中国大模型公司破局的「最优解」
做浏览器、买Chrome、争AI OS,Perplexity也想「上牌桌」
Arc浏览器创始人专访:复盘Arc得失,想用Dia重新定义AI浏览器
王登科:我的朋友谢扬,他的Fellou,以及这个时代的创业者
OpenAI教你做Agent:2025年,评估标准和如何产品化是Agent的重点

转载原创文章请添加微信:founderparker

内容中包含的图片若涉及版权问题,请及时与我们联系删除