Как Сбер за два года перевёл 60% контакт-центра на GigaChat

За первый год работы AI-ассистент обработал 47 миллионов обращений автоматически — это 60% входящего потока. Среднее время ответа упало до 15 секунд (с восьми минут). Operating expenses на контакт-центр сократились на $120 миллионов в годовом исчислении. NPS среди клиентов, чьи запросы решены AI без переключения, — 71 (выше, чем у тех, кто говорил с оператором: 64). Самое неожиданное: текучка операторов сократилась с 40% до 19% — те, кто остался, занимаются интересными сложными кейсами, а не однотипным «сколько у меня на счёте». Главный риск, который пришлось закрыть — галлюцинации модели в финансовом контексте. После пилотного запуска в Самарской области в феврале 2024 был случай, когда модель уверенно назвала клиенту неверную ставку по вкладу. После этого ввели жёсткое правило: любая цифра, влияющая на финансовое решение клиента, идёт строго через function call в систему-источник, не через генерацию.

60%

автоматизировано

15с

среднее время ответа

$120M

экономия в год

47M

обращений / год

Контекст

Сбер обслуживает 110 миллионов клиентов через единый контакт-центр — 7 тысяч операторов в восьми регионах России. До 2024 года 60% обращений были типовыми: баланс, статус перевода, блокировка карты, смена ПИН-кода. Среднее время ожидания доходило до восьми минут в пиковые часы, утром в понедельник или 28-го числа, когда приходят зарплаты. Стоимость обработки одного звонка — 170 рублей. Это пятая по величине статья операционных расходов розничного блока.

Проблема

Старая IVR-система с тональным набором отсекала 12% клиентов до контакта с оператором — пожилые, неуверенные пользователи мобильных устройств, люди со сложными запросами. Те, кто проходил IVR, ждали в очереди в среднем восемь минут. Операторы выгорали на типовых запросах — текучка превышала 40% в год. Найм и обучение нового оператора обходились в 280 тысяч рублей. Качество ответов плавало: на одинаковый вопрос два разных оператора давали разный ответ в 18% случаев — это создавало риски при работе с регулятором.

Решение

В основе системы — GigaChat, собственная языковая модель Сбера, дообученная на 4 миллионах архивных диалогов с реальными клиентами. Модель работает в гибридной архитектуре: первый уровень — RAG поверх внутренней документации (400 регламентов, 2 000 продуктовых статей), второй — function calling в банковские API для запросов вроде «заблокируй мою карту». Распознаёт контекст разговора: если клиент уже сказал «у меня проблема с переводом», модель не переспрашивает базовые данные. На сложных или эмоционально окрашенных запросах система пробрасывает разговор на оператора с уже собранным контекстом — оператор видит транскрипт и предлагаемое решение.

Архитектурно решение работает поверх Yandex Cloud и собственного on-prem-кластера на 96 GPU H100. Latency end-to-end — 1.4 секунды, что меньше, чем у живого оператора при холодном старте. Безопасность: модель не имеет доступа к балансу клиента напрямую — все обращения к данным идут через сервис аутентификации с двухфакторной проверкой.

Результат

Главный риск, который пришлось закрыть — галлюцинации модели в финансовом контексте. После пилотного запуска в Самарской области в феврале 2024 был случай, когда модель уверенно назвала клиенту неверную ставку по вкладу. После этого ввели жёсткое правило: любая цифра, влияющая на финансовое решение клиента, идёт строго через function call в систему-источник, не через генерацию.

Технологический стек

GigaChat 3.5RAG (Qdrant)Function callingYandex Cloud96× H100 GPUPython/FastAPIWebRTC voice gateway

Сроки

Пилот — 4 месяца. Раскатка на 8 регионов — ещё 9 месяцев. От старта до 60% автоматизации — 18 месяцев.

Команда

62 человека: ML (18), backend (14), prompt engineering (9), QA (8), ops (7), product (4), security (2)

Уроки для индустрии

Числа, влияющие на финансовое решение — только через function call, не через генерацию. Один случай галлюцинации = регуляторный риск.
Гибрид RAG + function calling работает лучше, чем чистый RAG. Документация устаревает, API — источник правды.
Передача оператору с готовым контекстом увеличила NPS сложных кейсов на 19 пунктов — без этого мостика автоматизация воспринимается враждебно.
Дообучение на собственных диалогах критично: общая модель не понимает банковскую специфику и регулярно генерирует юридически опасные формулировки.
Текучка операторов — недооцениваемый ROI: каждый сохранённый сотрудник экономит 280K рублей на найме и обучении.

← Кейсы