Сергей Гладков о блеске и нищете "искусственного интеллекта" в МП

К этой странице прикреплены файлы для скачивания:

Статья С.Гладковаразмер файла: 60 КБ, скачан 61 раз

Тема машинного перевода продолжает привлекать внимание профессионального сообщества. Вниманию читателей сайта предлагаются две статьи Сергея Гладкова, руководителя переводческой компании LogrusGlobal, которые мы перепечатываем с любезного согласия автора. Сергей – выпускник МФТИ, поэтому разбирает вопрос применения «искусственного интеллекта», нейронных сетей применительно к системам машинного перевода с позиции очень подготовленного «технаря», и именно это, по нашему мнению, делает его статьи особенно интересными. Изначально они были опубликованы на сайте LogrusGlobal в декабре 2020 г. и январе 2021 г.

 



 

ЧТО СКРЫВАЕТ «ИИ»: ОН ПОВСЮДУ ВОКРУГ НАС — НО СУЩЕСТВУЕТ ЛИ ОН ВООБЩЕ?

 

С технологией машинного обучения, так же как с ядерной энергией, следует обращаться с осторожностью, и для ее применения обязательно должны быть предоставлены инструкции.

 

Величайший фокус, который ИИ удалось провернуть, состоит в том, что ему удалось убедить мир в своем существовании.
 

MIT Technology Review1


 

В середине прошлого века человечество открыло ядерную энергию. Люди радостно ухватились за возможность создания бомбы и строительства атомных электростанций, несмотря на недостаток серьезных исследований и глубокого понимания последствий — и природа этого явления преподнесла нам крайне тяжелые уроки. Сегодня мы оказались в аналогичной ситуации по отношению к искусственному интеллекту. Мы начали использовать ИИ до того, как сумели разобраться в том, что это такое и каковы последствия применения этой технологии, какую цену придется заплатить за ее использование и как ее правильно внедрять. Попытаемся реалистично взглянуть на то, с чем мы имеем дело и как с этим следует обращаться.

 

Обзор алгоритмов машинного обучения и их фундаментальных свойств

 

Вкратце рассмотрим основные идеи, на которых основаны современные системы нейронного машинного перевода (НМП).

В 2013 году чешский аспирант Томаш Миколов (Tomas Mikolov) изобрел алгоритм векторного представления слов (названный эмбеддингом) для преобразования слов в векторы из 512 чисел, представляющих вероятность встречи заданного слова в разных контекстах (отсюда не одно значение вероятности, а вектор эмбеддинга большой размерности) в очень большом корпусе текстов. Этот алгоритм получил название word2vec.

Удивительно, но эмбеддинги (векторы), созданные алгоритмом word2vec, демонстрировали определенные «семантические» свойства закодированных слов, как если бы они несли какую-либо информацию об их «значениях». В классическом примере эмбеддинг слова «мужчина» относился к эмбеддингу слова «женщина» примерно так же, как эмбеддинг слова «дядя» относился к эмбеддингу слова «тетя» — и более того, это свойство переносилось на результаты линейно-алгебраических операций с вложениями: например, слово «королева» как вектор в многомерном пространстве был близок к результату матричного вычитания эмбеддингов слова «мужчина» и слова «король».

Удивительно, но эмбеддинги (векторы), созданные алгоритмом word2vec, демонстрировали определенные «семантические» свойства закодированных слов, как если бы они несли какую-либо информацию об их «значениях». В классическом примере эмбеддинг слова «мужчина» относился к эмбеддингу слова «женщина» примерно так же, как эмбеддинг слова «дядя» относился к эмбеддингу слова «тетя» — и более того, это свойство переносилось на результаты линейно-алгебраических операций с вложениями: например, слово «королева» как вектор в многомерном пространстве был близок к результату матричного вычитания эмбеддингов слова «мужчина» и слова «король».

Для практических целей переводоведения важно понимать, что алгоритм построения эмбеддингов не производит семантического анализа слов, а «только» статистически фиксирует «семантику» в той мере, в которой она отражена в различных словоприменениях в текстах данного конкретного учебного корпуса. В определенном смысле этот метод позволяет улавливать следы смысла слов через их использование, но не сам смысл. (Представьте себе следы зайца на снегу. Скорее всего, по следам вы сможете получить представление о некоторых особенностях поведения животного, но ничего не узнаете об анатомии зайца и даже как он выглядит, — хотя сможете понять, что это небольшое животное с длинными задними и короткими передними лапами.)

Что же на самом деле удается зафиксировать при помощи эмбеддингов? Это не просто абстрактные философские рассуждения: этот вопрос напрямую связан с практическим применением машинного перевода. Действительно, при построении эмбеддингов фиксируются определенные аспекты, коррелирующие со «смыслом» посредством использования слов из учебного корпуса.

Современные алгоритмы машинного обучения на удивление эффективно улавливают особенности словоупотребления. Другие сложные методы были созданы для работы с эмбеддингами на последующих слоях энкодера, включая алгоритм «множественного внимания» (multi-head attention). Он предназначен для рассмотрения других слов в предложении, чтобы точнее кодировать слово, находящееся в определенном месте предложения. Для этого восемь «потоков анализа» оценивают каждое слово во входном предложении и в их связи со словом, которое требуется перевести.

Эти изобретательные (и другие, менее эффектные) алгоритмы позволили создать настоящее чудо сегодняшнего дня: современный машинный перевод нередко выглядит как достаточно гладкий текст, который буквально завораживает своей осмысленностью.

Тем не менее очень важно отметить следующие ключевые аспекты технологии машинного обучения:

 

  1. Для обучения одной модели требуются большие объемы данных — огромное количество текста, электроэнергии и вычислительных ресурсов. Обучение модели BERT требует нескольких часов, а для модели GPT-3 (с 7,5 миллиардами параметров, что в пять раз больше, чем у GPT-2) требуется 500 лет обучения на графическом процессоре Nvidia V100. Модель GPT-3 прошла обучение на суперкомпьютере и на самом большом корпусе текстов, который только можно было найти.
  2. Обученная модель представляет собой фиксированную коллекцию следов словоупотребления, взятых из конкретного корпуса — огромной «сборной солянки». Поэтому, учитывая саму природу языка (а важнейшие свойства человеческого языка — многозначность и двусмысленность), она эффективнее работает с наиболее часто употребляемыми словами и намного хуже справляется с редкими словами и их значениями, включая терминологию2.
  3. Алгоритм машинного перевода прогоняет исходные предложения через предварительно обученную модель, получая на выходе перевод, который во многих случаях гладко читается, при условии, что исходное предложение было правильно построено.

 

Если «все планеты расположились правильно» (выполнены все необходимые условия), то все это обеспечивает на выходе то самое чудо в виде по большей части грамматически правильных предложений. Невозможно устоять перед искушением воспользоваться всем этим, но что происходит на практике?

 

Переходим к практическим аспектам внедрения технологии

Несколько суровых фактов о текущем состоянии машинного перевода:

  1. Алгоритм МП анализирует исходный текст для перевода по одному предложению за раз. При этом он никак НЕ анализируют ни предыдущие, ни последующие предложения, не говоря уже о более широком контексте абзаца, документа и предметной области в целом.

...

Скачайте приложенный файл и дочитайте до конца (12 страниц).




 
Глобальные Технологии
работает на NetCat