🏦
Finance · Sberbank

Как Сбер за два года перевёл 60% контакт-центра на GigaChat

За первый год работы AI-ассистент обработал 47 миллионов обращений автоматически — это 60% входящего потока. Среднее время ответа упало до 15 секунд (с восьми минут). Operating expenses на контакт-центр сократились на $120 миллионов в годовом исчислении. NPS среди клиентов, чьи запросы решены AI без переключения, — 71 (выше, чем у тех, кто говорил с оператором: 64). Самое неожиданное: текучка операторов сократилась с 40% до 19% — те, кто остался, занимаются интересными сложными кейсами, а не однотипным «сколько у меня на счёте». Главный риск, который пришлось закрыть — галлюцинации модели в финансовом контексте. После пилотного запуска в Самарской области в феврале 2024 был случай, когда модель уверенно назвала клиенту неверную ставку по вкладу. После этого ввели жёсткое правило: любая цифра, влияющая на финансовое решение клиента, идёт строго через function call в систему-источник, не через генерацию.

60%
автоматизировано
15с
среднее время ответа
$120M
экономия в год
47M
обращений / год

Контекст

Сбер обслуживает 110 миллионов клиентов через единый контакт-центр — 7 тысяч операторов в восьми регионах России. До 2024 года 60% обращений были типовыми: баланс, статус перевода, блокировка карты, смена ПИН-кода. Среднее время ожидания доходило до восьми минут в пиковые часы, утром в понедельник или 28-го числа, когда приходят зарплаты. Стоимость обработки одного звонка — 170 рублей. Это пятая по величине статья операционных расходов розничного блока.

Проблема

Старая IVR-система с тональным набором отсекала 12% клиентов до контакта с оператором — пожилые, неуверенные пользователи мобильных устройств, люди со сложными запросами. Те, кто проходил IVR, ждали в очереди в среднем восемь минут. Операторы выгорали на типовых запросах — текучка превышала 40% в год. Найм и обучение нового оператора обходились в 280 тысяч рублей. Качество ответов плавало: на одинаковый вопрос два разных оператора давали разный ответ в 18% случаев — это создавало риски при работе с регулятором.

Решение

В основе системы — GigaChat, собственная языковая модель Сбера, дообученная на 4 миллионах архивных диалогов с реальными клиентами. Модель работает в гибридной архитектуре: первый уровень — RAG поверх внутренней документации (400 регламентов, 2 000 продуктовых статей), второй — function calling в банковские API для запросов вроде «заблокируй мою карту». Распознаёт контекст разговора: если клиент уже сказал «у меня проблема с переводом», модель не переспрашивает базовые данные. На сложных или эмоционально окрашенных запросах система пробрасывает разговор на оператора с уже собранным контекстом — оператор видит транскрипт и предлагаемое решение.

Архитектурно решение работает поверх Yandex Cloud и собственного on-prem-кластера на 96 GPU H100. Latency end-to-end — 1.4 секунды, что меньше, чем у живого оператора при холодном старте. Безопасность: модель не имеет доступа к балансу клиента напрямую — все обращения к данным идут через сервис аутентификации с двухфакторной проверкой.

Результат

За первый год работы AI-ассистент обработал 47 миллионов обращений автоматически — это 60% входящего потока. Среднее время ответа упало до 15 секунд (с восьми минут). Operating expenses на контакт-центр сократились на $120 миллионов в годовом исчислении. NPS среди клиентов, чьи запросы решены AI без переключения, — 71 (выше, чем у тех, кто говорил с оператором: 64). Самое неожиданное: текучка операторов сократилась с 40% до 19% — те, кто остался, занимаются интересными сложными кейсами, а не однотипным «сколько у меня на счёте».

Главный риск, который пришлось закрыть — галлюцинации модели в финансовом контексте. После пилотного запуска в Самарской области в феврале 2024 был случай, когда модель уверенно назвала клиенту неверную ставку по вкладу. После этого ввели жёсткое правило: любая цифра, влияющая на финансовое решение клиента, идёт строго через function call в систему-источник, не через генерацию.

Технологический стек
GigaChat 3.5RAG (Qdrant)Function callingYandex Cloud96× H100 GPUPython/FastAPIWebRTC voice gateway
Сроки
Пилот — 4 месяца. Раскатка на 8 регионов — ещё 9 месяцев. От старта до 60% автоматизации — 18 месяцев.
Команда
62 человека: ML (18), backend (14), prompt engineering (9), QA (8), ops (7), product (4), security (2)

Уроки для индустрии

  1. Числа, влияющие на финансовое решение — только через function call, не через генерацию. Один случай галлюцинации = регуляторный риск.
  2. Гибрид RAG + function calling работает лучше, чем чистый RAG. Документация устаревает, API — источник правды.
  3. Передача оператору с готовым контекстом увеличила NPS сложных кейсов на 19 пунктов — без этого мостика автоматизация воспринимается враждебно.
  4. Дообучение на собственных диалогах критично: общая модель не понимает банковскую специфику и регулярно генерирует юридически опасные формулировки.
  5. Текучка операторов — недооцениваемый ROI: каждый сохранённый сотрудник экономит 280K рублей на найме и обучении.
← Кейсы