将 PDF DOC 翻译成英文:完整指南

将 PDF DOC 翻译成英文:完整指南

您可能已经做过这件事了。您收到了一份供应商手册、合同附件、研究论文或面向客户的宣传册,它们都是用另一种语言编写的。您需要快速地将PDF文档翻译成英文,于是您将其上传到一个免费工具,稍等片刻,然后下载了一个文件,它在技术上包含英文单词,但看起来已不再是您的原始文档了。

文本溢出表格。脚注出现在段落中间。标签偏离图表。如果文件最初是扫描件,有些线条甚至完全消失。

这种失败通常不仅仅是翻译问题。它关乎文档重建。在专业工作中,困难之处不仅在于语言转换。而在于保持结构完整,使翻译后的文件仍然可用、可审阅且可安全分发。

为什么您的文档格式在翻译过程中会损坏

一个简单的文本翻译器将PDF视为一个充满文本字符串的容器。一个真正的文档翻译器将其视为一个由文本框、表格、页眉、页脚、图像和间距规则组成的分层布局。这种差异就是为什么一个输出看起来可以接受,而另一个则像一个清理项目。

一张图表,左侧是组织良好的文档布局,右侧是混乱、损坏的布局。

PDF与纯文本不同

大多数损坏的翻译都是因为工具按照阅读顺序提取文本而忽略了布局模型。这对于一份单页备忘录可能没问题。但对于包含以下内容的文件则会彻底失败:

  • 嵌套表格,其中单元格顺序很重要
  • 两栏布局,例如报告或学术论文
  • 跨页重复的页眉和页脚
  • 需要保持配对的带标题图像
  • 在翻译开始前需要进行OCR的扫描页面

PDF还可以以屏幕上不明显的方式存储内容。看似一个整洁的段落,实际上可能是许多独立的定位文本对象。如果工具翻译了文字,但无法正确重建这些对象,您的格式就会损坏。

为什么这在实际工作中很重要

格式承载着意义。在法律文件中,一个移动的条款引用可能会减慢审阅速度。在技术文档中,一个损坏的表格可能会隐藏测量值或互换标签。在患者记录或合规文件中,结构是文档可靠性的一部分。

这就是为什么保留格式的翻译工具变得越来越重要的原因之一。根据Smallpdf的PDF翻译概述2023年全球文档翻译市场达到122亿美元,预计到2030年将增长至285亿美元,其中格式保留对超过70%的企业用户至关重要。同一消息来源指出,现代AI工具可以在保留格式的同时实现95%以上的准确率

实用规则:如果翻译后的文件需要发送、签署、审阅、发布或存档,布局保留就不是一个锦上添花的功能。它是翻译质量的一部分。

免费工具通常以可预测的方式失败

我一次又一次地看到相同的失败模式:

  1. 表格扁平化成段落。
  2. 翻译成英文后,换行符会增多。
  3. 字体替换不当,并导致文本框膨胀。
  4. 扫描文本在翻译开始前就部分缺失。

这些问题并非随机发生。它们源于使用了为快速文本转换而非结构化文档翻译而设计的工具。

为完美翻译准备您的文档

PDF在屏幕上看起来可能很干净,但仍然是一个糟糕的翻译候选。我见过一些文件,它们看起来完全可用,直到OCR漏掉了页脚一半的文本、表格边框合并,或者字体替换导致每个标题都跳到新的一行。如果目标是生成一个看起来仍然像原始文件的英文版本,那么准备工作就是翻译任务的一部分。

首先识别PDF类型

打开文件并尝试选择一个句子。

清晰的字符级文本选择通常意味着您拥有一个从Word、Google Docs、InDesign、Excel或其他创作工具导出的数字原生PDF。这些文件通常能更好地保留结构,因为文本、段落样式和对象位置仍然存在于页面视图之下。

如果页面表现得像一张扁平的图像,那么您拥有一个扫描PDF。这会改变工作流程。翻译质量现在取决于系统在翻译任何内容之前识别文本的能力,如果扫描件倾斜、对比度低或有手写标记,布局恢复就会变得更加困难。

防止布局损坏的预检

上传前,请像审阅生产文档一样审阅文件,而不仅仅是文本源。

  • 扫描质量:检查是否有模糊、页面倾斜、深色边缘、裁剪边距、打孔或装订附近的阴影。
  • 文本行为:测试您是否可以正常选择文本,或者字母是否在单词中间断裂。
  • 表格和表单:查找密集网格、合并单元格、复选框和间距紧密的字段。这些是翻译成英文后常见的故障点,因为文本扩展可能会导致回流。
  • 嵌入文本的图形:图表内部的标签、标注和屏幕截图通常需要单独处理。
  • 混合语言内容:包含多种语言、产品代码或缩写的页面需要仔细审查,因为语言检测可能会漂移。

这在技术文件中尤为重要。处理规格、合规表或多语言产品文档的团队应查阅这份关于产品规格翻译的指南,因为严格的布局和对单位敏感的内容几乎没有格式错误的空间。

上传前清理源文件

在此阶段进行的小修小补可以在审阅时节省更多时间。

  • 对于扫描PDF:如果可能,重新扫描。平直的页面、一致的对比度和可读的小文本能让OCR有更好的识别机会。
  • 对于数字PDF:如果文本选择损坏、字体渲染不一致或文件在之前的审批步骤中被扁平化,请从原始源文件重新导出。
  • 对于受保护的文件:如果您有权限,请移除编辑或提取限制。有些系统可以读取受保护的文件,但限制通常会干扰文本提取或输出生成。
  • 对于混合内容页面:标记包含签名、印章、手写笔记、图表或分层注释的页面,以便您知道在哪里仔细检查英文输出。
  • 对于已知原始文件的源文件:如果您有PDF背后的DOCX、PPTX或InDesign包,请将其放在手边。如果翻译后的PDF需要手动布局修复,您可能需要它。

一个可靠的PDF翻译流程从这一检查开始,因为上传是容易的部分。保留页面结构是将可用交付物与需要数小时清理的文件区分开来的关键。

如果源文件不稳定,翻译工具就会把精力花在重建页面上,而不是保留意义和布局。

从上传到输出的核心翻译工作流程

如果翻译后的英文文本出现表格破损、标注移位或页眉截断,即使PDF文件本身翻译得很干净,也可能在实际使用中失败。最有效的工作流程是将翻译和页面重建视为一个过程。

一个五步信息图,展示了DocuGlot文档翻译从上传文件到下载最终输出的工作流程。

步骤1 上传能为系统提供最多结构的文件

从包含实时文本、样式和对象边界的版本开始。如果您有原始DOCX文件和PDF文件,请首先上传DOCX文件,并使用PDF文件作为视觉参考。这通常能带来更好的文本提取和更少的后续布局修复工作。

如果PDF是唯一的来源,在发送之前请检查它是哪种类型的PDF。数字原生PDF通常能保留文本层、段落边界和表格几何结构。扫描PDF则迫使系统从页面图像中推断所有这些信息,这增加了出现换行符、合并单元格和文本框错位的可能性。

步骤2 考虑发布环境设置语言选项

对于干净的单语文件,自动检测是可行的。但对于包含产品名称、法律引文、双语页眉或混合表格的文档,我不会信任它。

当平台允许时,手动设置源语言。然后选择您的读者期望的英文变体,特别是如果文档将归档、打印或发送给客户。美式英语、英式英语和受控的企业英语通常需要不同的拼写、标点和术语选择。这些决定不仅影响可读性和行长,也因此影响布局。

步骤3 选择专为文档翻译而非纯文本转换设计的工作流程

通用AI翻译器可以生成不错的句子,但仍可能损坏文件结构。对于PDF文件,更好的选择是设计用于按区域提取文本、将相关内容保持在一起并将译文放回原始框架的平台。

如果您正在比较工具,这份关于格式化文件在线文档翻译器的指南提供了有用的参考标准。实际测试很简单。系统能否将标题、表格、图注和脚注保持在正确的位置,而无需您在翻译后进行全面的桌面出版处理?

步骤4 在翻译前让平台分析页面

这个阶段决定了输出是否可用。

一个好的系统会识别文本层,仅在需要时运行OCR,分离页面区域(如标题、段落、表格和旁注),然后以足够的上下文翻译这些单元,以保持术语一致性。之后,它会以相同的阅读顺序和相同的视觉限制重建页面。

免费工具常常跳过部分流程。它们会以错误的顺序提取文本,将表格内容扁平化为段落,或者忽略无法容纳更长英文文本的狭窄容器。这就是为什么翻译在孤立地阅读时可能很好,但作为文档却仍然失败的原因。

步骤5 以与下一审批步骤相符的格式导出

当文件需要保留演示文稿以供审阅、共享或存档使用时,下载翻译后的PDF。当法律、合规或产品团队在发布前仍需修改术语时,下载可编辑格式(如DOCX)。

在实践中,我通常会同时保留两者。PDF显示了页面是否经受住了翻译。可编辑文件为团队提供了一种受控的方式来修改措辞,而无需在每个页面上与布局作斗争。

一个可用的翻译不仅仅是准确的英文。它是在一个您的团队无需从头重建即可批准、编辑和发布的文件中返回的准确英文。

在实际生产中通常有效的方法

  • 如果可用,提供原始可编辑文件
  • 仅对需要OCR的扫描区域进行OCR处理
  • 对表格、页眉和图注进行基于区域的提取
  • 包含PDF和可编辑格式的输出选项
  • 由能够发现对布局敏感的术语问题的人员进行最后一遍检查
  • 将PDF文本粘贴到聊天工具中,丢失所有结构
  • 让系统在混合内容页面上猜测源语言
  • 将表格、表单和脚注视为标准正文
  • 当文档仍需要修订时,只下载PDF
  • 仅凭句子流畅度判断质量而不检查页面完整性

审阅和最终确定您的翻译文档

AI可以帮您走得很远,超出您的想象。但它仍不应该是审阅重要文档的最后一道关卡。

一只手拿着红笔,在显示AI翻译文本的数字平板屏幕上进行审阅标记。

先审阅意义,再审阅风格

一种常见的方法是检查是否有生硬的英文。这很有用,但不是我首先会检查的。

从以下几点开始:

  • 标题和章节编号:确保层级结构与原文保持一致。
  • 表格和标签:确认行、列和单位保持对齐。
  • 名称和代码:产品ID、法律参考文献、文章编号和零件编号应保持不变。
  • 重复术语:在技术或操作内容中,一个术语以三种不同方式翻译是一个警告信号。

如果这些元素稳定,再转向语气、可读性和句子流畅度。

检查布局可能隐藏错误的地方

一个文件可能看起来很精美,但仍然包含结构性错误。仔细审阅以下区域:

区域 需要检查什么
表格 单元格移位、内容合并、缺少标题
脚注 位置错误、编号中断、引用丢失
图表 未翻译的标签或分离的图例
表单 字段未对齐、条目被截断、文本重叠

如果结构误导读者,即使翻译在语法上正确,也可能是错误的。

了解何时仅靠AI审阅就足够

对于内部备忘录、供应商手册或非约束性参考文件,有重点的内部审阅通常就足够了。如果目的是理解而非出版,细微的文体问题通常不值得进行全面的人工编辑。

对于法律、医学或高度技术性内容,应升级至专业审阅人员。在这些文件中,标准不是“足以理解”,而是“足以信赖”。如果翻译的短语可能影响合规性、诊断、合同义务或操作程序,人工审阅是正确的选择。

简单的最后检查

按照以下顺序进行最后一遍检查:

  1. 将页数和主要章节与源文件进行比较。
  2. 打开所有包含表格或图表的页面。
  3. 查找所有本应被翻译但遗留的源语言术语。
  4. 以清晰的文件名导出或保存审阅后的版本。

最后一遍检查虽然简短,但它能防止最昂贵的错误:在任何人真正检查之前就发送一个看起来已完成的文件。

了解安全性、定价和周转时间

当您将PDF文档翻译成英文时,质量并非唯一的问题。您还在将文档本身委托给一项服务。

安全性并非可选项

如果文件包含合同、医疗记录、内部报告、财务资料或未发表的研究,请将安全性视为选择筛选条件。跳过任何让您对其处理实践进行猜测的服务。

寻找具备以下特点的服务:

  • 传输加密:文件从您的设备传输到平台的过程中,上传过程应受到保护。
  • 静态加密:存储的文件应保持受保护状态,直到删除。
  • 自动删除:临时存储不应变为无限期存储。
  • 明确的所有权边界:提供商应声明您的文档不会与第三方共享。

这些是基本要求,而非高级功能。

在您承诺之前,定价应是可见的

翻译定价因平台而异。有些服务按字数计费,有些按页数计费,有些则按整个文档计费,并有质量等级差异。最重要的是在上传完成前的透明度。

一个有用的衡量标准是服务是否能提前显示确切费用。如果您想了解这种模式的示例,这份关于文档翻译成本的页面展示了用户应期望的定价清晰度。

选择您的翻译级别

功能 基本级别 高级级别
最佳用例 简单文档、快速参考、内部使用 复杂布局、技术内容、面向外部的文件
速度 更快 较慢,处理更多上下文
术语一致性 适用于通用语言 更适用于专业措辞
布局敏感度 对标准文件表现稳健 对密集表格和复杂结构表现更好
交付后审阅需求 中等 仍需,但通常较轻

周转时间取决于文档复杂性

简短、干净的文件可以快速返回。大型报告、书籍长度的手稿和大量扫描的文档需要更长时间,因为OCR、布局分析和重建工作在考虑翻译质量之前就需要增加工作量。

这也是为什么最快的工具不总是最有用的。如果一项服务能快速返回英文文本,但却让您手动修复表格和重新格式化页面,那么总的周转时间将比乍看起来要长得多。

常见翻译问题

我能将非常大的PDF翻译成英文吗

可以,如果平台是为长文档设计的。主要问题不仅仅是页数。而是系统能否分块处理长内容,同时不丢失上下文或破坏布局。

密码保护的PDF怎么办

如果您有权限,请先移除密码或导出不受限制的副本。许多翻译工具无法可靠地处理受限制的文件。

我可以翻译非标准PDF文件吗

通常可以。许多文档翻译器也支持DOCX、TXT和Markdown等格式。如果布局保留很重要,当源格式包含比PDF导出更清晰的结构信息时,它会有所帮助。

如果输出有奇怪的错误,我该怎么办

检查源文件是否是扫描件、质量低劣或图像中嵌入了大量文本。然后审阅出现问题的特定页面。如果问题影响术语或关键含义,请将文件发送进行人工审阅,而不是盲目地修补孤立的行。

我可以使用API而不是网页上传器吗

对于自动化文档工作流程的团队来说,可以,但前提是API支持文档感知处理而非纯文本翻译。如果您正在比较自动化方法,了解Context.dev API是一个有用的示例,展示了在围绕集成进行构建之前值得审阅的实现细节类型。

翻译后的PDF可以立即发送吗

有时可以。对于低风险文档,或许可以。但对于合同、合规材料、医疗文件和技术说明,每次都应先进行审阅。


如果您需要一款专门用于翻译PDF和DOCX文件,同时保持页眉、表格、字体和布局完好的工具,DocuGlot值得一试。它支持100多种语言,处理从短文件到长手稿的各种文档,在您继续之前显示定价,并以相同格式返回文档,这样您就可以花更少的时间修复格式,更多的时间审阅翻译本身。

Tags

translate pdf doc to englishpdf translationdocument translationpreserve formattingai translation

Ready to translate your documents?

DocuGlot uses advanced AI to translate your documents while preserving formatting perfectly.

Start Translating