Влияние нейронных сетей на развитие машинного перевода. «Яндекс» стал использовать в «Переводчике» нейросети для улучшения перевода. Проблемы использования NMT для бизнеса

Яндекс.Переводчик научился дружить с нейросетью и отдавать пользователям более качественные тексты. В Яндексе стали использовать гибридную систему перевода: изначально работала статистическая, а теперь её дополняет технология машинного обучения CatBoost. Правда есть одно но. Пока что лишь для перевода с английского на русский.

В Яндексе утверждают, что это самое популярное направление переводов, которое занимает 80% от общего числа.

CatBoost - умная штука, которая, получив две версии перевода сравнивает их, выбирая наиболее человекоподобную.

В статистической версии обычно перевод разбивается на отдельные фразы и слова. Нейроесть этого не делает, анализирую предложение в целом, учитывая по возможности контекст. Отсюда большая похожесть на человеческий перевод, ведь нейросеть может учесть согласования слов. Однако, у статистического подхода тоже есть свои преимущества, когда он не фантазирует, если видит редкое или непонятное слово. нейросеть же может проявить попытку креатива.

После сегодняшнего анонса должно сократить количество грамматических ошибок в автоматических переводах. Теперь они проходят через модель языка. Теперь не должны попадаться моменты в духе «папа пошла» или «сильный боль».

В веб-версии в данный момент пользователи могут выбрать ту версию перевода, которая им кажется наиболее правильной и удачно, для этого есть отдельный триггер.

Если вам интересны новости мира ИТ также сильно, как нам, подписывайтесь на наш Telegram-канал . Там все материалы появляются максимально оперативно. Или, может быть, вам удобнее ? Мы есть даже в .

Понравилась статья?

Или хотя бы оставить довольный комментарий, чтобы мы знали, какие темы наиболее интересны читателям. Кроме того, нас это вдохновляет. Форма комментариев ниже.

Что с ней так? Своё негодование вы можете высказать на [email protected]. Мы постараемся учесть ваше пожелание в будущем, чтобы улучшить качество материалов сайта. А сейчас проведём воспитательную работу с автором.



Машинный перевод с помощью нейросетей прошёл долгий путь с момента первых научных исследований на эту тему и до того момента, как компания Google заявила о полном переводе сервиса Google Translate на глубинное обучение .

Как известно, в основе нейронного переводчика механизм двунаправленных рекуррентных нейронных сетей (Bidirectional Recurrent Neural Networks), построенный на матричных вычислениях, который позволяет строить существенно более сложные вероятностные модели, чем статистические машинные переводчики. Однако всегда считалось, что нейронный перевод, как и статистический, требует для обучения параллельных корпусов текстов на двух языках. На этих корпусах обучается нейросеть, принимая человеческий перевод за эталонный.

Как теперь выяснилось, нейросети способны освоить новый язык для перевода даже без параллельного корпуса текстов! На сайте препринтов arXiv.org опубликованы сразу две работы на эту тему.

«Представьте, что вы даёте какому-то человеку много китайских книг и много арабских книг - среди них нет одинаковых - и этот человек обучается переводить с китайского на арабский. Это кажется невозможным, правда? Но мы показали, что компьютер способен на такое», - говорит Микель Артетксе (Mikel Artetxe), учёный, работающий в области компьютерных наук в Университете Страны Басков в Сан-Себастьяне (Испания).

Большинство нейросетей машинного перевода обучается «с учителем», в роли которого как раз выступает параллельный корпус текстов, переведённый человеком. В процессе обучения, грубо говоря, нейросеть делает предположение, сверяется с эталоном, и вносит необходимые настройки в свои системы, затем обучается дальше. Проблема в то, что для некоторых языков в мире нет большого количества параллельных текстов, поэтому они недоступны для традиционных нейросетей машинного перевода.


«Универсальный язык» нейронной сети Google Neural Machine Translation (GNMT). На левой иллюстрации разными цветами показаны кластеры значений каждого слова, справа внизу - смыслы слова, полученные для него из разных человеческих языков: английского, корейского и японского

Составив гигантский «атлас» для каждого языка, затем система пытается наложить один такой атлас на другой - и вот пожалуйста, у вас готово некое подобие параллельных текстовых корпусов!

Можно сравнить схемы двух предлагаемых архитектур обучения без учителя.


Архитектура предлагаемой системы. Для каждого предложения на языке L1 система учится чередованию двух шагов: 1) шумоподавление (denoising), которое оптимизирует вероятность кодирования зашумлённой версии предложения с общим энкодером и его реконструкции декодером L1; 2) обратный перевод (back-translation), когда предложение переводится в режиме вывода (то есть кодируется общим энкодером и декодируется декодером L2), а затем оптимизируется вероятность кодирования этого переведённого предложения с общим энкодером и восстановления оригинального предложения декодером L1. Иллюстрация: Микеля Артетксе и др.


Предлагаемая архитектура и цели обучения системы (из второй научной работы). Архитектура представляет собой модель перевода по предложениям, где и энкодер, и декодер работают на двух языках, в зависимости от идентификатора входного языка, который меняет местами поисковые таблицы. Вверху (автокодирование): модель обучается выполнять шумоподавление в каждом домене. Внизу (перевод): как и прежде, плюс мы кодируем с другого языка, используя в качестве входных данных перевод, произведённый моделью в предыдущей итерации (голубой прямоугольник). Зелёные эллипсы указывают термины в функции потерь. Иллюстрация: Гильома Лампла и др.

Обе научные работы используют заметно схожую методику с небольшими отличиями. Но в обоих случаях перевод осуществляется через некий промежуточный «язык» или, лучше сказать, промежуточное измерение или пространство. Пока что нейросети без учителя показывают не очень высокое качество перевода, но авторы говорят, что его легко повысить, если использовать небольшую помощь учителя, просто сейчас ради чистоты эксперимента этого не делали.

Работы представлены для Международной конференции по обучающим представлениям 2018 года (International Conference on Learning Representations). Ни одна из статей ещё не опубликована в научной прессе.

Проиндексированные поисковиками веб-сайты насчитывают более полу-миллиарда копий, а общее количество веб-страниц в десятки тысяч раз больше. Русскоязычный контент занимает 6% всего интернета.

Как перевести нужный текст быстро и так, чтобы сохранился заложенный смысл автором. Старые методы статистических модулей перевода контента работают весьма сомнительно, т.к. невозможно точно определить склонение слов, время и другое. Природа слов и связей между ними сложна, из-за чего результат иногда выглядел весьма неестественным.

Теперь в Яндексе применяют автоматических машинный перевод, что позволит повысить рост качества итогого текста. Скачать последнюю официальную версию браузера с новым встроенным переводом можно .

Гибридный перевод фраз и слов

Браузер от Яндекса единственный, кто способен перевести страницу в целом, а также слова и фразы по отдельности. Функция будет весьма полезна и тем пользователям, кто более-менее владеет иностранным языком, но иногда сталкивается с трудностями перевода.

Встроенный в механизм перевода слов нейросеть не всегда справлялась с поставленными задачами, т.к. редкие слова было крайне тяжело встроить в текст и сделать его читаемым. Теперь в приложение встроили гибридный метод с использованием старых технологий и новых.

Механизм такой: программа принимает выделенные предложения или слова, затем отдает их обеим модулям нейронной сети и статистическому переводчику, а встроенный алгоритм определяет какой результат лучше и затем отдает его пользователю.

Нейросетевой переводчик

Иностранный контент оформляется весьма специфично:

  • первые буквы слов в заголовках пишутся заглавными;
  • предложения строятся с упрощенной грамматикой, некоторые слова опускаются.

Навигационные меню на сайтах анализируются с учётом их расположения, например слово Back, правильно переводить назад (вернуться назад), а не спина.

Чтобы учесть все выше отмеченные особенности разработчики дополнительно обучили нейронную сеть, которая итак использует огромный массив текстовых данных. Теперь на качество перевода влияет расположение контента и его оформление.

Итоги применяемого перевода

Качество перевода можно измерить алгоритмом BLEU*, который сравнивает машинный и перевод от профессиональна. Шкала качества от 0 до 100%.

Чем лучше нейронный перевод, тем выше процент. Согласно этому алгоритму Яндекс браузер стал переводить в 1,7 раза лучше.

Сервис «Яндекс.Переводчик» стал использовать технологии нейронных сетей при переводе текстов, что позволяет повысить качество перевода, сообщили сайт в «Яндексе».

В закладки

Сервис работает по гибридной системе, объясняли в «Яндексе»: к статистической модели, которая работает в «Переводчике» с момента запуска, была добавлена технология перевода с помощью нейросети.

«В отличие от статистического переводчика, нейронная сеть не разбивает тексты на отдельные слова и фразы. Она получает на вход предложение целиком и выдаёт его перевод», - объяснил представитель компании. По его словам, такой подход позволяет учесть контекст и лучше передать смысл переводимого текста.

Статистическая модель, в свою очередь, лучше справляется с редкими словами и фразами, подчеркнули в «Яндексе». «Если смысл предложения непонятен, она не фантазирует, как это может делать нейросеть», - отметили в компании.

При переводе сервис использует обе модели, затем алгоритм машинного обучения сравнивает результаты и предлагает лучший, на его взгляд, вариант. «Гибридная система позволяет взять лучшее от каждого метода и повысить качество перевода», - говорят в «Яндексе».

В течение дня 14 сентября в веб-версии «Переводчика» должен появиться переключатель, с помощью которого можно будет сравнить переводы, выполненные гибридной и статистической моделями. При этом иногда сервис может не изменять тексты, отметили в компании: «Это значит, что гибридная модель решила, что статистический перевод лучше».