ОТ РЕДАКЦИИ САЙТА НЛП
Тема машинного перевода и т.н. постредактирования машинного перевода интересует и даже беспокоит переводчиков, справедливо опасающихся конкуренции с этого нового направления и наступления на их «материальные» права тех заказчиков, которые не останавливаются в своем желании все более и более сокращать издержки. Об этих вопросах надо говорить во весь голос – открыто, без купюр и экивоков.
Первый материал на эту тему был опубликован на нашем сайте около 3 месяцев назад по итогам прошедшего в Москве под водительством Константина Дранча семинара.
Сегодня мы предлагаем коллегами-переводчикам, да и другим участникам переводческого рынка ознакомиться с точкой зрения на эту проблему Светланы Световой, директора компании «Т-Сервис» (СПб), известной нам в роли независимого исследователя вопросов постредактирования МП, автора специализированного сайта www.pemt.ru, разработчика авторского курса по постредактированию машинного перевода.
***
Вопрос: Светлана, насколько хороши стали технологии машинного перевода, и какую реальную угрозу создают они «живым» письменным переводчикам?
Ответ: Если взять произвольный текст и сравнить результат МП для него, выполненный какой-либо системой лет 10 назад, и результат МП сейчас, то, скорее всего (но совсем не обязательно!) он окажется лучше с точки зрения общей гладкости, читабельности, терминологического покрытия. Но совсем не обязательно, повторю еще раз. Почему? Потому что качество результата МП складывается из нескольких составляющих, базовых из которых – три.
Первое – это уровень разработки конкретного модуля МП для данной языковой пары, второе – уровень базовой настройки для данной предметной области, третье – уровень настройки для конкретной документации конкретного заказчика (так называемое обучение МП).
Если какая-то система 10 лет назад была хорошо разработана и обучена для перевода именно нашего «произвольного» текста, а сейчас мы переведем его с помощью общедоступного онлайнового МП, то, вполне возможно, что современный результат нас не поразит, несмотря на все достижения.
Если же мы возьмем то же результат десятилетней давности и сравним его с результатом МП на современном обученном модуле, то, скорее всего, сильно поразит.
То есть я хочу сказать, что основа качественного МП – обучение. Хорошо обученная/постоянно обучаемая и настроенная/постоянно настраиваемая система МП создавала, создает и будет создавать «угрозу» в определенных областях (которых, надо признать, становится все больше) тем специализирующимся в них переводчиках, которые ее полностью игнорируют, несмотря на явные признаки того, что заказчики смотрят в сторону МП. А скорее следовало бы изучать новую ситуацию и отвечать лично для себя на кое-какие вопросы (собственно говоря, для этих целей я и создала сайт pemt.ru). И речь в первую очередь идет не о замене переводчиков даже самой хорошо обученной системой, а о включении МП в профессиональный переводческий процесс, в набор современных переводческих инструментов. Готовы ли к этому сами переводчики?
Вопрос: В каких областях и за счет каких своих особенностей МП создает конкуренцию «живым» переводчикам?
Ответ: Ранее все говорили только о «техническом» письменном переводе в общем смысле (инструкции, руководства, документация и пр.). Сейчас можно наблюдать движение МП в сторону предметных областей, в которых ранее его применение считалось немыслимым (юридические или медицинские тексты, например). Основных причин, как обычно, всего две – время и деньги. Что, собственно, верно для любой автоматизации в любой отрасли. Этими же причинами объяснялась первая технологическая волна в 80-х годах прошлого века, когда инструментарием переводчиков стали системы Translation Memory, с помощью которых перевод выполнялся быстрее и точнее, а матрица ТМ позволяла применять скидки к повторяющимся элементам текста и совпадениям с базами ТМ. Потом, когда базы ТМ у всех значительным образом пополнились и смогли служить хорошей основой для обучения систем МП, к технологии ТМ добавился статистический машинный перевод (SMT), ну а теперь и нейронный МП (NMT). Но мы все еще не говорим о «конкуренции», мы говорим о «гибридном» переводе, ведь никого пока не вытеснили, правда? Наоборот, возникают новые навыки и даже профессии, надо просто пробовать и решать лично для себя.
Вопрос: Обоснован ли снобизм «живых» переводчиков и их неверие в возможности МП? Ведь технологии будут развиваться, это очевидно. Вместе с тем, возникает извечный вопрос: «Ведь никогда машина не сможет передать тонкую материю духа и чувств, если они есть в тексте, или разобраться даже и в техническом тексте, если для его правильного понимания переводчику (а значит, и машине) нужны фоновые знания?»
Ответ: Если идти дальше в таких рассуждениях, то можно легко прийти к выводу, что чем больше будет у машины «фоновых знаний», тем лучше она сможет передавать «материю духа и чувств». На самом деле, никакие «машины» ни в чем не «разбираются» и ничего не «понимают». Они просто ищут, сравнивают, анализируют и устанавливают зависимости и связи. Для чего используются, как я говорила выше, результаты человеческого перевода, накопленные в базах ТМ или корпусах текстов. Если в материалах для обучения найдутся «тонкие материи духа и чувств», то проанализируют и их. Музыку ведь «машины» сочиняют уже довольно успешно, как следует «наслушавшись» разных произведений, это просто симуляция творческого процесса, как, впрочем, и машинный перевод.
Вопрос: Как организовано использование технологий МП? Какие программы МП (каких разработчиков) являются ведущими?
Ответ: Это все зависит от того, каковы ваши конкретные цели и условия применения МП, а также качество перевода предлагающихся систем для вашей (конкретной) языковой пары и предметной области, возможности и ограничения настройки (обучения). Поэтому нет единого рецепта и сценария. Тому, кто хочет внедрить МП, придется выстроить собственную логику тестирования различных систем, определить приоритеты, технические и лингвистические требования. Кому-то нужно автоматизировать процесс общения с клиентами на разных языках, кому-то процесс перевода внутри компании (чтобы сотрудники не ходили с конфиденциальной информацией на онлайновые сервисы МП), кому-то – традиционный процесс с выполнением постредактирования для увеличения объема переводов штатными и внештатными переводчиками.
Вопрос: Сколько стоит внедрение покупной программы в условиях компании со значительными объемами переводов и в переводческой компании? На самом ли деле ПК покупают за свои деньги профессиональные программы МП или используют бесплатный Google-переводчик, а заказчиков вводят в заблуждение, «надувая воздушные шарики» и преувеличивая свой реальный вклад в матчасть?
Ответ: Покупка и внедрение, обучение и обслуживание системы МП (особенно для целого набора языковых пар и предметных областей) – это не слишком дешевое удовольствие, хотя разброс цен на современном рынке велик. Насколько я вижу, многие ПК работают с МП от заказчика, а не внедряют собственные системы. Допускаю, что имеет место и использование общедоступных систем без какой-либо настройки (и по причине того, что настройка и поддержка МП обходится недешево, и по причине того, что для обучения необходимы большие массивы данных, принадлежащих не ПК, а ее заказчикам, на что далеко не все согласны). В любом случае, серьезные компании проводят серьезное тестирование и сравнение, прежде чем сделать выбор.
Вопрос: Сколько времени уходит на настройку?
Ответ: Это опять же зависит от ряда условий (наличие ресурсов для обучения МП, их объем, качество этих ресурсов (а это самое значительное требование, иначе «garbage in – garbage out»), наличие специалистов для тестирования и настройки и т. д.). Думаю, что средний срок реализации проекта от постановки задачи до получения готового настроенного модуля – 3-6 месяцев.
Вопрос: Насколько эффективно в смысле затрат и отдачи внедрение программы МП в компании (не переводческой)?
Ответ: Если все организовано грамотно, то очень эффективно. Не секрет, что объем информации, которая требует перевода, превышает возможности людей-переводчиков. И есть области применения, на которые переводчики вообще не должны и не могут тратить свое драгоценное время.
Кроме того, как я уже говорила, вторая основная причина внедрения МП в компаниях, помимо ускорения процесса получения перевода, это конфиденциальность. МП строго внутри организации – это требование уже по безопасности.
Вопрос: Какие на самом деле ожидания заказчиков от МП? Какая градация таких ожиданий? Очевидно, что только на начальных этапах заказчик может удовлетвориться МП as is, «чтобы просто понять, о чем идет речь», а потом его ожидания начинают расти и он хочет получить качество на уровне «живого» переводчика. Так это?
Ответ: Нет, это не так. «Чтобы понять, о чем идет речь» – это один сценарий применения МП (и здесь качество зависит от усилий разработчика и затрат на обучение, но уровень «живого переводчика» вряд ли достижим на 100%), а постредактирование МП (когда как раз ожидается «человеческое» качество) – совсем другой. И у них разная стоимость и сферы применения, в первом случае – вопросы к разработчику, во втором – к постредактору. Заказчики, которые серьезно внедряют МП, довольно хорошо это все себе представляют и не смешивают одно с другим.
Вопрос: Это подводит нас к группе вопросов о редактировании МП. Кстати, речь ведь идет именно о «редактировании», почему же в вашей среде прижилось выражение «постредактирование»?
Ответ: Да, чтобы отличать от собственно редактирования. Потому что постредактирование – это не перевод и не редактирование, а работа с уже готовым результатом перевода после того (отсюда «пост-»), как он системой МП сгенерирован. То есть перевод уже как бы есть, но еще не готов к использованию, его следует довести до требуемого уровня качества (этот процесс и называется «постредактированием МП»). Постредактирование заменяет этап перевода, а традиционное редактирование обязательно следует за ним, то есть за постредактором МП дополнительно смотрит текст и работает с ним «обычный» редактор. Ну и третья причина, как мне кажется, состоит в том, что «постредактирование МП» - это очень длинно, «МП» регулярно отпадает, остается термин «постредактирование», который все отлично понимают и без «МП», чего не было бы, если бы мы назвали процесс «редактированием МП», тогда бы все точно запутались в «редактированиях».
Вопрос: Итак, чем редактирование МП отличается от редактирования перевода, выполненного «живым» переводчиком? Очевидно, что иным набором типичных ошибок. Раскройте эти различия, пожалуйста.
Ответ: Это совсем другой навык. О чем прекрасно пишет в своей книге «Repairing Texts: Empirical Investigations of Machine Translation Post-Editing Processes (Translation Studies)» Ханс Крингс (Hans Krings). Эту книгу не устаю рекомендовать! Да, все верно, у МП совсем другой набор ошибок, чем у человека (причем у каждой системы МП свой). Но, помимо того, что постредактор должен уметь (постоянно тренируясь) эти ошибки видеть, он еще должен уметь их быстро исправлять (не затрачивая слишком много времени на раздумья о том, как все гениально переписать), то есть иметь так называемую стратегию постредактирования. Кроме того (о чем как раз подробно пишет Hans Krings), когнитивная нагрузка у постредактора намного выше, поскольку он имеет дело с тремя текстами (исходным, результатом МП и «идеальным» переводом у себя в голове). Он должен быть постоянно начеку, обязательно все перепроверять, постоянно принимать решения о том, что делать с результатом МП, обязательно перечитывать самого себя – и все это в условиях ограниченного времени. Интересно, что улучшение качества МП в этом смысле создает дополнительные проблемы для исполнителей, поскольку видимая гладкость может усыпить бдительность, особенно у неопытных постредакторов, или у тех, для кого данная специализация не является основной (можно пропустить терминологические изъяны, например). То есть все исследователи так или иначе сходятся во мнении, что при постредактировании знание предметной области, специализация – это основа основ.
Вопрос: Где находятся те, кого вы (я имею в виду под «вы» отрасль, заказчиков в этом сегменте) называете постредакторами? Это – фрилансеры, или они могут находиться в штате корпораций, которые у себя заводят МП?
Ответ: Поскольку в России это все началось не так давно, то постредактирование выполняют как внештатные, так и штатные переводчики; можно сказать, что в силу производственной необходимости становиться постредакторами на соответствующих проектах могут все, кто согласен. Переводчиков, которые публично называют себя «постредакторами», или даже «опытными постредакторами», я пока у нас не встречала. Видимо, в силу довольно малого престижа данного переводческого навыка (причем на фоне возрастающей востребованности, так что довольно интересная ситуация складывается!). Чаще всего это фрилансеры, которые соглашаются брать подобные заказы. У каждой компании своя база таких фрилансеров. В то же самое время «у них на Западе» постредакторы объявляют о себе более явно, у одной из «удовлетворенных свое работой» постредакторов я даже брала интервью, есть видео на эту тему на pemt.ru.
Вопрос: Очевидно, что для доведения текста, пришедшего из-под машины, до уровня «для публикации» (а заказчики, скорее всего, хотят именно этого, хотя на этапе выдачи ТЗ могут и о другом говорить) требуются хорошие знания двух языков, развитые навыки редактирования, прохождение специализированного обучения и время. Насколько выгодным для таких не последних в своей среде переводчиков являются предлагаемые сейчас на рынке отдельными (а сколько их, отдельных, интересно?) переводческими компаниями условия? И если для доведения МП до упомянутой и желаемой заказчиком кондиции нужно так много сил и времени живых редакторов, то в чем экономический цимус самых продвинутых технологий МП?
Ответ: Николай, тут Вы в самое больное место попали. Постредактор – это вообще-то в идеале очень опытный переводчик с отличным знанием предметной области, в которой осуществляется постредактирование. Навык постредактирования МП – это как бы надстройка над солидным переводческим базисом. Постредактор должен уметь работать быстро, принимать ответственные решения, быть специалистом с соответствующим набором навыков (потому что мы уже говорили про основные причины внедрения МП – повышение скорости процесса перевода при одновременном снижении его стоимости).
Но при этом ни для кого не секрет, что ROI на проектах с МП и постредактированием – результат внедрения системы специальных пониженных тарифов для постредакторов по сравнению с традиционным переводом, то есть – за счет исполнителя. Он как бы по определению должен работать быстрее и дешевле, потому что перевод – вот же он, он же уже есть. Я знаю, что некоторые заказчики, особенно на пилотных проектах по постредактированию, применяют стандартные ставки, без их снижения. Другие договариваются о специальных почасовых расценках. Опытные зарубежные постредакторы пишут в статьях и говорят в интервью о том, что им постепенно удается выходить в плюс, иногда даже в большой плюс, это вопрос времени и развития навыка. Но, к сожалению, распространена и практика применения МП на всех абсолютно проектах без разбору – исключительно для целей ценового давления. Дескать, теперь у нас МП-ориентированная компания – и извольте получить 40 рублей за страницу. Это, конечно, безобразие.
Вопрос: Как пытаются заказчики (ПК?) в их ТЗ постредакторам дифференцировать требования к качеству продукта постредактора? Ведь тут все в воздухе плавает и между «as is» и «для публикации» довольно большой диапазон, который не рассечен явно на сегменты, а качество продукта после редактора не измеришь линейкой или манометром.
Ответ: На практике выделились два уровня постредактирования МП: полное (full) – результат которого должен соответствовать всем критериям качества традиционного перевода (то есть применяются точно те же требования), и легкое (light) – это повышение уровня читабельности результата МП за счет незначительной правки (тут требования определяются конкретным заказчиком и имеющимся временем). Насколько я вижу, в 99% случаев от внешних исполнителей требуется полное постредактирование, в то время как легкое чаще всего выполняется штатными переводчиками или постредакторами внутри компаний, внедривших МП (срочно требуется перевести какой-то документ, качество на втором месте после скорости). Соответственно, «качество продукта после постредактора» в случае полного постредактирования измеряется той же «линейкой», что и при стандартной процедуре перевода человеком-переводчиком, в частности:
ну и так далее.
А искусство постредактора состоит в том, чтобы никаких «следов МП» не оставалось в результате его работы, и не могло быть замечено ни редактором, ни, тем более, заказчиком.
Вопрос: И последний, обобщающий вопрос: «Хорошо ли это для переводчиков или нет? Придется ли им расставаться со своими представлениями о письменном переводе как о творческом процессе или придется свыкаться с мыслью, что они – придатки к процессу, происходящему в ПК?»
Ответ: Я лично согласна с теми теоретиками и практиками, которые считают, что в ближайшем будущем четко определятся и закрепятся три уровня решения переводческих задач:
Соответственно, всем переводчикам придется так или иначе ответить лично для себя на вопрос, насколько приемлемо для них выполнение постредактирования МП, или они будут специализироваться в областях, где его нет и (скорее всего) не будет. Но это решение каждый принимает сам, нет единого подхода, следовательно, надо просто пробовать, особенно если в вашей предметной области о внедрении МП говорят все больше и больше, поскольку это уже серьезно.