Улучшенный фотоперевод от Яндекса

Яндекс обновил функцию фотоперевода — новая версия уже доступна в Браузере и Переводчике. Коротко расскажем, как всё устроено с точки зрения ML.

В вебе, а также в приложениях для iOS и Android, в Яндекс Переводчике применяется transformer-based модель перевода, которая получила рост качества в 10%. А в Яндекс Браузере и Умной камере используется модель перевода на основе YandexGPT. По метрике оценки качества её перевод улучшился до 79 баллов из 100. Человек по той же метрике получает 85 баллов.

Обновили и модель компьютерного зрения. Теперь модель лучше выделяет семантические блоки: абзацы, предложения, пункты в списках и так далее. Благодаря этому перевод становится точнее, а визуализация — лучше.

А ещё инженеры из Яндекса реализовали алгоритм затирания оригинального текста, чтобы фон выглядел так же, как и в оригинале. Для реализации затирания использовали алгоритм PatchMatch, а для повышения контраста — APCA (Advanced Perceptual Contrast Algorithm). Также применили Yandex Sans Text Cond с Medium начертанием и добавили контрастную полупрозрачную обводку вокруг букв. В результате чего сильно выросли все метрики по аспектам визуализации (читаемость, подбор фона, размер шрифта).

А что в итоге? Обновлённый фотоперевод обошёл Google Lens в качестве (50% против 39%), читаемости (90/100 против 86/100), соответствии размера текста (91/100 против 79/100) и подбора фона (88/100 против 43/100).

Такой вот новый фотоперевод. Делитесь в комментариях мнением о нём!

ML Underhood