Алиса в умном доме: 41 миллион устройств и переход на on-device-моделей
Latency для команд умного дома упала с 1.8 с до 240 мс — 7.5× ускорение. CSAT по умному дому вырос с 6.8 до 9.1 (по 10-балльной шкале). 99.7% запросов умного дома обрабатываются локально — стоимость на распознавание упала на 91%. Это $1.15M/мес экономии только на STT, плюс ещё столько же на NLU. Неожиданный эффект — рост engagement. Пользователи стали использовать голосовое управление в 2.3× чаще, потому что «больше не ждёшь». Активный голосовой пользователь приносит платформе на 3 700 рублей в год больше (через подписку и плюс-сервисы), чем тач-пользователь. Ключевая проблема, которую пришлось решить — обновления моделей. У 12 миллионов устройств разные версии прошивки. Команда сделала differential updates: новые модели катятся через сегменты пользователей с rollback при p95-latency регрессии, среднее обновление — 48 MB, через WiFi за 90 секунд.
Контекст
Yandex запустил «Алису» в 2017 году как голосового ассистента в мобильном приложении. К 2024 году экосистема выросла до 41 миллиона активных устройств: колонки Станция, Станция Мини, Станция Макс, ТВ-приставки, мультимедийные платформы для автомобилей. Каждый месяц через Алису проходит 4.2 миллиарда голосовых запросов — это сравнимо с поисковыми запросами в Яндексе. Smart Home — самый быстрорастущий сегмент: 12 миллионов устройств управляются через Алису.
Проблема
Каждая голосовая команда «включи свет в спальне» проходила через облако: микрофон → колонка → дата-центр → ASR (speech-to-text) → NLU → диспетчер устройств → ответ обратно в колонку → команда лампе. Round-trip latency — 1.8 секунды в среднем, 3.2 секунды на 95-м перцентиле. Это разрушало UX: пользователи воспринимали Алису как «медленную». А когда дома пропадал интернет (что для России не редкость) — Алиса превращалась в декоративный аксессуар: нельзя было даже выключить свет голосом.
Вторая проблема — стоимость. 4.2 миллиарда запросов × $0.0003 за STT-обработку = 1.26 миллиона долларов в месяц только на распознавание речи. Плюс GPU-инференс NLU. Маржа на Smart-Home-устройствах околонулевая (продают почти в себестоимости), вся экономика — за счёт подписки и доли в управлении умным домом.
Решение
В 2024 году Яндекс переписал стек Алисы под on-device first. Новый ARM-чип в Станции Макс 2 (TSMC 5nm, 12 TOPS) запускает локальную модель распознавания речи (300MB, Whisper-tiny на стероидах, дообучена на русском с 270 000 часов разговоров). Локальная NLU — компактная LLaMA-подобная архитектура на 1.5B параметров, квантованная до INT4. Полный стек умещается в 1.8GB ОЗУ.
Для команд умного дома (включи / выключи / прибавь / убавь / диммируй / поставь сценарий) — 100% локально, 240 мс latency. Облако подключается только для сложных запросов (поиск, ответы на вопросы, генеративные ответы). При отсутствии интернета — Алиса остаётся работоспособной для всех команд умного дома.
Ключевой технический challenge — TTS (text-to-speech): live-голос Алисы был оптимизирован под cloud, занимал 8GB видеопамяти на серверный GPU. Команда переписала его на VITS-архитектуре, ужала до 180MB, добавила streaming inference на устройстве. Голос неотличим в blind-тестах от облачного у 87% слушателей.
Результат
Latency для команд умного дома упала с 1.8 с до 240 мс — 7.5× ускорение. CSAT по умному дому вырос с 6.8 до 9.1 (по 10-балльной шкале). 99.7% запросов умного дома обрабатываются локально — стоимость на распознавание упала на 91%. Это $1.15M/мес экономии только на STT, плюс ещё столько же на NLU.
Неожиданный эффект — рост engagement. Пользователи стали использовать голосовое управление в 2.3× чаще, потому что «больше не ждёшь». Активный голосовой пользователь приносит платформе на 3 700 рублей в год больше (через подписку и плюс-сервисы), чем тач-пользователь.
Ключевая проблема, которую пришлось решить — обновления моделей. У 12 миллионов устройств разные версии прошивки. Команда сделала differential updates: новые модели катятся через сегменты пользователей с rollback при p95-latency регрессии, среднее обновление — 48 MB, через WiFi за 90 секунд.
Уроки для индустрии
- On-device first меняет архитектуру: латентность из «оптимизация» становится «фича дизайна».
- TTS — самый сложный кусок для on-device. Голос узнаваем — пользователи замечают деградацию мгновенно.
- Differential OTA-updates критичны: 48MB вместо 1.8GB монолита — единственный способ катить ML на 12M устройств.
- Engagement растёт от снижения latency сильнее, чем от новых фич. 2.3× использование — за счёт «не ждёшь».
- Маржа умного дома — в подписочной экосистеме, не в железе. Удержание голосового пользователя — это retention сервиса.