ML Underhood — пост #289

Выкатили тестирование нового ИИ-агента для Android

Возможно, вы уже видели новости об этом в телеграм-каналах — подтверждаем: начались тесты нового ИИ-агента Яндекса. Он умеет выполнять многошаговые действия на смартфоне с Android по голосовой команде.

Например, агент может отправлять сообщения в мессенджерах без ручного ввода, находить информацию на устройстве, устанавливать приложения и переводить текст с экрана на разные языки. Для выполнения задачи достаточно голосовой команды, например: «Напиши Саше в Телеграме, что нужно купить молоко» или «Найди в Google Play приложение Яндекс Переводчик и установи его».

Алексей Цветков, руководитель службы продуктовой разработки R&D, рассказал подробнее, как агент выполняет задачу пользователя.

Пользователь задаёт запрос, скажем: «Найди товар на Яндекс Маркете и положи в корзину».

LLM переводит просьбу пользователя в цепочку атомарных действий на телефоне:

- получи список приложений;
- найди Яндекс Маркет;
- открой Яндекс Маркет;
- и так далее, пока задача не будет решена.

Агент построен на базе Android Assistant API и для принятия решения использует текстовое описание интерфейса — такое же API используют приложения для слабовидящих.

На стороне Android-клиента реализован MCP-интерфейс, который позволяет девайсу от имени пользователя выполнять простейшие команды: кликни сюда, свайпни здесь и так далее.

Задача модели — конвертировать сложносоставную команду в цепочку взаимосвязанных атомарных команд, опираясь на промежуточное состояние интерфейса.

Надеемся, что широкий тест поможет найти то, о чём мы ещё не догадались подумать, и быстрее превратить прототип в понятный и полезный продукт.

Записаться на тестирование можно в бета-версии поискового приложения «Яндекс — с Алисой AI» или через форму.

ML Underhood