Тексты на перевод чаще всего нам присылают в форматах *.docx (Microsoft Word) и *.pdf. С первым обычно особых проблем не возникает, а вот о втором стоит поговорить подробнее. Если переводчик работает «с листа», то формат файла не имеет особого значения — смотри в оригинал и набирай текст перевода. Если же мы пользуемся «кошками», как ласково называют переводчики CAT-инструменты, то PDF-файл может подкинуть неприятный сюрприз. На первый взгляд, все нормально — PDF присутствует в списке поддерживаемых форматов любой CAT-программы. Но на практике далеко не каждую «пдфку» можно импортировать в проект без предварительной обработки или, как сейчас говорят, без «танцев с бубном». Давайте разбираться, кто виноват и что делать.

Что такое PDF?
Portable Document Format — универсальный формат электронных документов, созданный для представления полиграфической продукции в электронном виде. Документ PDF может быть сформирован в любой из множества разнообразных программ для полиграфии, проектирования, верстки, работы с графикой и может включать в себя текст, векторные и растровые изображения, ссылки, формы, мультимедийные вставки и другие объекты. Часто PDF-файл имеет сложную структуру, защиту, обрабатывается алгоритмами сжатия. Два файла PDF могут выглядеть на экране абсолютно одинаково, но при этом иметь разную структуру, параметры, отличаться по объему.

Просматривать PDF можно в браузерах или специальных программах, например, Adobe Reader, Sumatra PDF и других. Редактировать тоже можно, самая популярная программа — Adobe Acrobat. В ней можно изменять структуру файла, редактировать текст, вставлять комментарии и т. д.

Почему не все файлы PDF можно импортировать в CAT?
Я не программист, а всего лишь относительно «продвинутый» пользователь, поэтому попытаюсь объяснить ситуацию исходя из собственного опыта и понимания.

Формат PDF предназначен в первую очередь для визуального отображения документов — печати и просмотра. Говоря проще, CAT-программа видит его так же, как видим мы, — текст, изображения, графические элементы. Внутренняя структура документа, особенности разметки, скрытые элементы не всегда поддаются распознаванию.

Очень многое зависит от того, в какой программе была создана «пдфка». Если это Adobe Illustrator, который часто используют для верстки, то есть шанс, что все будет хорошо и мы увидим в редакторе CAT полноценные текстовые сегменты. Но и здесь не всегда все проходит гладко. Часто CAT-программа сегментирует текст не по предложениям, а по строкам, и переводчик вынужден склеивать сегменты перед началом работы. Бывает, что фрагменты текста меняются местами и в редакторе получается полная «каша».

Хуже всего, когда PDF-документ создан программой сканирования или слеплен вручную из сканов или фотографий текста. В этом случае ни одна «кошка» его не переварит без предварительного оптического распознавания символов.

Итак, если у нас в заказе PDF-файл, не спешите подтверждать сроки. Возможно, с документом придется изрядно повозиться, перед тем как приступить к переводу.

Что же делать?
Радикальный способ — создание документа «с нуля». То есть открываем чистый лист и начинаем рисовать структуру, глядя в оригинал. Если исходный документ содержит в основном абзацы и таблицы, это удобнее делать в Word. Нужно владеть основными приемами форматирования, уметь «вытаскивать» текст из исходного документа и работать с изображениями хотя бы на самом примитивном уровне. Если оригинальный текст в виде картинки, то нам понадобится средство для оптического распознавания текста (OCR).

Если исходник имеет более сложную структуру — множество графических и текстовых элементов, слои (когда один элемент накладывается поверх другого), — я предлагаю использовать Microsoft PowerPoint. Он есть практически у каждого пользователя, и освоить его не очень сложно. Простейшие манипуляции можно делать даже в бесплатной онлайн-версии PowerPoint или документах Google.

Итак, порядок действий такой — создаем исходный документ с чистого листа, переводим его в CAT, выгружаем, приводим в порядок и сохраняем в том же формате PDF. В результате наш клиент получает переведенный документ, визуально очень похожий на оригинал.

Точное соответствие вряд ли потребуется, да и добиться его сложно. Могут понадобиться специальные шрифты, да и качество вырезанных из оригинала изображений будет очень среднее. В общем, если клиенту нужно, например, полиграфическое качество, то он должен будет обратиться к профессиональному верстальщику.

Почему нельзя просто набрать документ в Word, без верстки?
Можно, конечно. Даже «ворд» не обязателен, можно это сделать в Блокноте. Точно так же можно поступить с любым товаром — можно красиво упаковать, а можно завернуть в газету. Мы же фрилансеры и сами вольны решать, в каком виде предоставлять нашу продукцию заказчику и стоит ли нам лишний раз напрягаться. А заказчик волен выбирать, что ему больше понравится.

А как же FineReader и прочие готовые решения?
Abbyy FineReader — мощный и серьезный инструмент для распознавания текста. Он очень неплохо справляется с документами, имеющими «линейную» структуру, то есть последовательно расположенные абзацы и несложные таблицы. Но, как показывает практика, после обработки «файнридером» мы неизбежно тратим время на приведение в порядок документа. Где-то что-то «уехало», где-то таблица расползлась по страницам, где-то вместо абзацев появились блоки текста в виде вставок. Причем, чем сложнее структура документа, тем более трудоемкая предстоит работа. Иной раз останавливаешься в середине процесса и понимаешь, что проще нарисовать все с нуля самому.

Не забываем также, что FineReader — программа платная и не самая дешевая. Стоит ли пользоваться ей или лучше освоить простейшие приемы верстки и почувствовать себя творцом прекрасного — каждый из нас решает сам.

Как научиться?
Приглашаю на интерактивный онлайн-курс «Технический арсенал переводчика». Первые три тренинга как раз посвящены работе в CAT и подготовке документов к переводу — верстке в Word и PowerPoint.
Узнать подробности и записаться можно здесь.