Интернет. Железо. Программы. Обзоры. Операционные системы. Wi-Fi

Нейросеть сделает перевод в «Яндекс.Браузере» корректнее. В «Яндекс.Переводчик» встроили нейросеть с фантазией Нейросетевой переводчик веб-страниц

Проиндексированные поисковиками веб-сайты насчитывают более полу-миллиарда копий, а общее количество веб-страниц в десятки тысяч раз больше. Русскоязычный контент занимает 6% всего интернета.

Как перевести нужный текст быстро и так, чтобы сохранился заложенный смысл автором. Старые методы статистических модулей перевода контента работают весьма сомнительно, т.к. невозможно точно определить склонение слов, время и другое. Природа слов и связей между ними сложна, из-за чего результат иногда выглядел весьма неестественным.

Теперь в Яндексе применяют автоматических машинный перевод, что позволит повысить рост качества итогого текста. Скачать последнюю официальную версию браузера с новым встроенным переводом можно .

Гибридный перевод фраз и слов

Браузер от Яндекса единственный, кто способен перевести страницу в целом, а также слова и фразы по отдельности. Функция будет весьма полезна и тем пользователям, кто более-менее владеет иностранным языком, но иногда сталкивается с трудностями перевода.

Встроенный в механизм перевода слов нейросеть не всегда справлялась с поставленными задачами, т.к. редкие слова было крайне тяжело встроить в текст и сделать его читаемым. Теперь в приложение встроили гибридный метод с использованием старых технологий и новых.

Механизм такой: программа принимает выделенные предложения или слова, затем отдает их обеим модулям нейронной сети и статистическому переводчику, а встроенный алгоритм определяет какой результат лучше и затем отдает его пользователю.

Нейросетевой переводчик

Иностранный контент оформляется весьма специфично:

  • первые буквы слов в заголовках пишутся заглавными;
  • предложения строятся с упрощенной грамматикой, некоторые слова опускаются.

Навигационные меню на сайтах анализируются с учётом их расположения, например слово Back, правильно переводить назад (вернуться назад), а не спина.

Чтобы учесть все выше отмеченные особенности разработчики дополнительно обучили нейронную сеть, которая итак использует огромный массив текстовых данных. Теперь на качество перевода влияет расположение контента и его оформление.

Итоги применяемого перевода

Качество перевода можно измерить алгоритмом BLEU*, который сравнивает машинный и перевод от профессиональна. Шкала качества от 0 до 100%.

Чем лучше нейронный перевод, тем выше процент. Согласно этому алгоритму Яндекс браузер стал переводить в 1,7 раза лучше.

Сервис «Яндекс.Переводчик» стал использовать технологии нейронных сетей при переводе текстов, что позволяет повысить качество перевода, сообщили сайт в «Яндексе».

В закладки

Сервис работает по гибридной системе, объясняли в «Яндексе»: к статистической модели, которая работает в «Переводчике» с момента запуска, была добавлена технология перевода с помощью нейросети.

«В отличие от статистического переводчика, нейронная сеть не разбивает тексты на отдельные слова и фразы. Она получает на вход предложение целиком и выдаёт его перевод», - объяснил представитель компании. По его словам, такой подход позволяет учесть контекст и лучше передать смысл переводимого текста.

Статистическая модель, в свою очередь, лучше справляется с редкими словами и фразами, подчеркнули в «Яндексе». «Если смысл предложения непонятен, она не фантазирует, как это может делать нейросеть», - отметили в компании.

При переводе сервис использует обе модели, затем алгоритм машинного обучения сравнивает результаты и предлагает лучший, на его взгляд, вариант. «Гибридная система позволяет взять лучшее от каждого метода и повысить качество перевода», - говорят в «Яндексе».

В течение дня 14 сентября в веб-версии «Переводчика» должен появиться переключатель, с помощью которого можно будет сравнить переводы, выполненные гибридной и статистической моделями. При этом иногда сервис может не изменять тексты, отметили в компании: «Это значит, что гибридная модель решила, что статистический перевод лучше».

Яндекс.Переводчик научился дружить с нейросетью и отдавать пользователям более качественные тексты. В Яндексе стали использовать гибридную систему перевода: изначально работала статистическая, а теперь её дополняет технология машинного обучения CatBoost. Правда есть одно но. Пока что лишь для перевода с английского на русский.

В Яндексе утверждают, что это самое популярное направление переводов, которое занимает 80% от общего числа.

CatBoost - умная штука, которая, получив две версии перевода сравнивает их, выбирая наиболее человекоподобную.

В статистической версии обычно перевод разбивается на отдельные фразы и слова. Нейроесть этого не делает, анализирую предложение в целом, учитывая по возможности контекст. Отсюда большая похожесть на человеческий перевод, ведь нейросеть может учесть согласования слов. Однако, у статистического подхода тоже есть свои преимущества, когда он не фантазирует, если видит редкое или непонятное слово. нейросеть же может проявить попытку креатива.

После сегодняшнего анонса должно сократить количество грамматических ошибок в автоматических переводах. Теперь они проходят через модель языка. Теперь не должны попадаться моменты в духе «папа пошла» или «сильный боль».

В веб-версии в данный момент пользователи могут выбрать ту версию перевода, которая им кажется наиболее правильной и удачно, для этого есть отдельный триггер.

Если вам интересны новости мира ИТ также сильно, как нам, подписывайтесь на наш Telegram-канал . Там все материалы появляются максимально оперативно. Или, может быть, вам удобнее ? Мы есть даже в .

Понравилась статья?

Или хотя бы оставить довольный комментарий, чтобы мы знали, какие темы наиболее интересны читателям. Кроме того, нас это вдохновляет. Форма комментариев ниже.

Что с ней так? Своё негодование вы можете высказать на [email protected]. Мы постараемся учесть ваше пожелание в будущем, чтобы улучшить качество материалов сайта. А сейчас проведём воспитательную работу с автором.

Яндекс запустил новую версию переводчика. Над переводом теперь будет работать гибридная система: кроме статистической модели, использовавшейся ранее, переводчик также будет использовать нейросеть. Об этом сообщается в блоге компании.

Существует несколько подходов к машинному переводу. Первый, самый распространенный подход, - статистический . Такой машинный перевод основывается на запоминании огромного количества информации, полученной из параллельных корпусов (одинаковых текстов на разных языках): это могут быть как отдельные слова, так и грамматические правила. Такой подход, однако, имеет очень важный недостаток: статистический машинный перевод запоминает информацию, но не понимает ее, поэтому такой перевод часто похож на много разных правильно переведенных кусочков, собранных в один не очень корректный с точки зрения грамматики и смысловой нагрузки текст.

Второй подход - нейросетевой . Он основан не на переводе отдельных слов и фраз, а целых предложений, и его главная цель - сохранить смысл, при этом добившись лучшего качества перевода с точки зрения грамматики. Такая технология перевода также может сохранять знания о языке, которые она получила в процессе обучения, - это позволяет ей справиться, например, с ошибками в согласовании падежа. Нейронный машинный перевод - сравнительно новый подход, однако, он уже успел себя зарекомендовать: с помощью нейросети Google Translate смог рекордного по качеству перевода.

С сегодняшнего дня Яндекс.Переводчик работает на основе гибридной системы. Такая система включает в себя статистический перевод, использованный сервисом ранее, и перевод на основе работы нейросети. Специальный алгоритм-классификатор, работающий на основе CatBoost (системе машинного обучения, разработанной Яндексом) выбирает из двух вариантов перевода (статистического и нейронного) лучший - и выдает его пользователю.

Подробнее о работе новой версии Яндекс.Переводчика вы можете прочитать в нашем с руководителем сервиса - британским компьютерным лингвистом Дэвидом Талботом.

Сейчас новая технология перевода доступна только при переводе с английского на русский (по словам компании, это самое популярное направление перевода). Во время работы с системой пользователь может переключиться между двумя моделями перевода (старого статистического и нового гибридного) и сравнить перевод старой и новой версии. В ближайшие месяцы разработчики Переводчика обещают включить и другие направления перевода.


Примеры перевода разных моделей, используемых в новой версии Яндекс.Переводчика

14.09.2017, Чт, 14:19, Мск , Текст: Валерия Шмырова

В сервисе «Яндекс.Переводчик» помимо статистического перевода стал доступен вариант перевода от нейросети. Ее преимущество в том, что она работает с целыми предложениями, лучше учитывает контекст и выдает согласованный, естественный текст. Однако когда нейросеть чего-то не понимает, она начинает фантазировать.

Запуск нейросети

Сервис «Яндекс.Переводчик» запустил нейронную сеть, которая поможет повысить качество перевода. Ранее перевод с одного языка на другой осуществлялся с помощью статистического механизма. Теперь процесс будет гибридным: свой вариант перевода будет предлагать и статистическая модель, и нейросеть. После этого алгоритм CatBoost, в основе которого лежит машинное обучение, будет выбирать лучший из полученных результатов.

Пока что нейросеть выполняет только перевод с английского на русский и только в веб-версии сервиса. По данным компании, в «Яндекс.Переводчике» запросы на англо-русский перевод составляют 80% всех запросов. В ближайшие месяцы разработчики намерены внедрить гибридную модель и в других направлениях. Чтобы пользователь мог сравнить переводы от разных механизмов, предусмотрен специальный переключатель.

Отличия от статистического переводчика

Принцип работы нейронной сети отличается от статистической модели перевода. Вместо того, чтобы переводить текст слово за словом, выражение за выражением, она работает с целыми предложениями, не разбивая их на части. Благодаря этому в переводе учитывается контекст и лучше передается смысл. Кроме того переведенное предложение получается согласованным, естественным, легким для чтения и восприятия. По словам разработчиков, его можно принять за результат работы переводчика-человека.

Перевод нейросети напоминает перевод человека

К особенностям нейросети относится склонность «фантазировать», когда ей что-то не понятно. Таким образом она пытается угадать правильный перевод.

У статистического переводчика есть свои преимущества: он удачнее переводит редкие слова и выражения - мало распространенные имена, топонимы и т. д. Кроме того, он не фантазирует в том случае, если смысл предложения не ясен. По словам разработчиков, статистическая модель лучше справляется с короткими фразами.

Другие механизмы

В «Яндекс.Переводчике» есть специальный механизм, который дорабатывает перевод нейросети, как и перевод статистического переводчика, корректируя в нем рассогласованные сочетания слов и орфографические ошибки. Благодаря этому пользователь не увидит в переводе сочетаний типа «папа пошла» или «сильный боль», уверяют разработчики. Этот эффект достигается за счет сравнения перевода с моделью языка - всеми знаниями о языке, накопленными системой.

В затруднительных случаях нейросеть склонна фантазировать

Модель языка содержит список слов и выражений языка, а также данные о частоте их употребления. Она нашла применение и за пределами «Яндекс.Переводчика». Например, при использовании «Яндекс.Клавиатуры» именно она угадывает, какое слово пользователь хочет набрать следующим, и предлагает ему готовые варианты. Например, модель языка понимает, что за «привет, как», скорее всего последуют варианты «дела» или «ты».

Что такое «Яндекс.Переводчик»

«Яндекс.Переводчик - сервис по переводу текстов с одного языка на другой от компании «Яндекс», начавший работу в 2011 г. Изначально он работал только с русским, украинским и английским языком.

За время существования сервиса количество языков увеличилось до 94 языка. Среди них присутствуют и экзотические, такие как коса или папьяменто. Перевод можно выполнить между любыми двумя языками.

В 2016 г. в «Яндекс.Переводчик» был добавлен вымышленный и искусственно созданный язык, на котором общаются эльфы в книгах Дж. Р. Р. Толкина.