Бизнес-кейсы

Как компании используют AI для роста.

За первый месяц работы ассистент провёл 2,3 миллиона диалогов — две трети всех чатов поддержки Klarna — и выполнил объём работы, эквивалентный 700 штатным операторам. Среднее время решения упало с 11 минут до менее чем 2 минут. Повторные обращения снизились на 25% — Klarna связывает это с большей точностью ответов. Удовлетворённость клиентов (CSAT) осталась на уровне живых операторов. Компания оценила эффект в 40 миллионов долларов дополнительной прибыли в 2024 году и заявила об этом публично, в пресс-релизе от 27 февраля 2024 года. Важно держать рамку: все цифры — собственная отчётность компании за первый месяц работы, не аудированная извне. История получила продолжение, которое сделало кейс ещё поучительнее. Параллельно с внедрением ИИ Klarna в 2024 году замораживала наём и сокращала персонал, публично связывая это с ИИ-стратегией. А в мае 2025 года CEO Себастьян Семятковски в интервью Bloomberg признал, что ставка на автоматизацию ради экономии дала «более низкое качество», и объявил о возврате живых операторов — в гибкой модели «как у Uber», с наймом удалённых агентов. «Критически важно, чтобы клиент знал: живой человек будет всегда, если вы этого хотите», — сформулировал он новую позицию. При этом ИИ никуда не делся: по данным на середину 2025 года ассистент по-прежнему обрабатывал около двух третей обращений, а скорость ответов выросла на 82% по сравнению с до-ИИ-эпохой. На наш взгляд, кейс Klarna стоит читать целиком, вместе с разворотом 2025 года — именно так он полезнее всего. Первая часть доказала: LLM-ассистент на узкой первой линии реально держит две трети потока с CSAT на уровне людей — это подтверждено масштабом в миллионы диалогов, и это переносимо на любой бизнес с большим объёмом типовых обращений. Вторая часть показала цену радикальности: метрики, которые Klarna публиковала, измеряли скорость и объём, но не измеряли доверие к бренду и качество сложных случаев — и именно там накопился долг, за которым пришлось возвращать людей. Важно понимать и рыночную рамку: Klarna готовилась к IPO, и громкие ИИ-заявления работали на инвестиционный нарратив — как и последующая коррекция курса на «качество». Для практиков вывод, на наш взгляд, такой: целевая архитектура поддержки — гибрид, где ИИ снимает рутину, а люди остаются гарантией качества и эскалационным контуром; проекты, которые сразу проектируются как гибрид, не проходят через болезненный разворот.

2.3Mдиалогов за 1-й месяц

700FTE-эквивалент

<2 минрешение (было 11 мин)

$40Mпрогноз прибыли 2024

📊

Финансы · Morgan Stanley

Morgan Stanley: GPT-4-ассистент, которым пользуются 98% команд финансовых советников

Ассистентом пользуются более 98% команд финансовых советников — для корпоративного инструмента это почти предельный adoption. Система эффективно отвечает на вопросы по корпусу из 100 000 документов — против примерно 7 000 вопросов, на которые отвечал прежний инструмент. Доступность документов, по оценке фирмы, выросла с 20% до 80%, а поиск информации сократился с минут до секунд. Макмиллан описывает качественный сдвиг так: «Теперь советники могут обсуждать с клиентами темы, которых раньше не касались, потому что трение между знанием и коммуникацией упало до нуля». По Debrief публичны ранние оценки: участник пилота называл экономию около 30 минут работы на встречу; при миллионе Zoom-звонков в год по подразделению CNBC оценивал потенциал в сотни тысяч часов ежегодно. Кейтлин Эллиотт, руководитель Firmwide Generative AI Solutions, отмечала: «Отклики советников исключительно позитивные. Follow-up, которые раньше занимали дни, теперь происходят за часы». При этом сам Макмиллан честно называл проект «большим экспериментом в продуктивности» и говорил, что для строгой оценки эффекта нужен минимум год наблюдений. Подход масштабируется за пределы wealth management: 23 октября 2024 года фирма запустила AskResearchGPT — GPT-4-ассистента по корпусу Morgan Stanley Research (более 70 000 проприетарных отчётов в год) для сотрудников инвестбанка, sales & trading и аналитики, с запатентованным workflow «запрос → письмо клиенту с цитатами и ссылками в один клик». Важно понимать рамку этих цифр: Morgan Stanley публикует метрики использования (adoption, доступность корпуса, скорость), а не финансовый эффект в долларах — банк нигде не заявлял «ИИ принёс нам X миллионов». На наш взгляд, это осознанная и честная позиция для внутреннего инструмента: усилие честно измерить вклад копилота в выручку советника методологически сложно, и фирма предпочитает метрики, которые контролирует. Ставки для отрасли при этом высоки: по оценке Citigroup, которую приводил CNBC, финансовые профессии — среди самых подверженных замещению ИИ, а внедрение ИИ может добавить индустрии 170 миллиардов долларов прибыли к 2028 году. Для рынка кейс Morgan Stanley — образец «низкорискового» пути в генеративный ИИ, зеркального клиентским чат-ботам вроде Klarna: ИИ обращён внутрь, к сотрудникам, человек остаётся в контуре каждого решения, а доверие строится на измеримых evals, а не на демо. На наш взгляд, именно эта связка — узкий корпус, evals как процесс, человек как финальный фильтр — самая переносимая часть кейса: она работает в любой отрасли, где цена неверного ответа высока, от медицины до юриспруденции.

98%команд советников используют

100Kдокументов в корпусе

20→80%доступность документов

7K→100Kпокрытие вопросов

💬

SaaS / Клиентская поддержка · Intercom

Intercom Fin: ИИ-агент поддержки на Claude с резолюцией до 86%

«Из коробки» Fin решает в среднем 51% обращений; после настройки под конкретную компанию резолюция доходит до 86% — разрыв, который сам по себе показывает, что решает качество базы знаний. Время ответа сокращается с ~30 минут до секунд. По данным блога Intercom на 2026 год, Fin используют более 7 000 команд, средняя резолюция по всем клиентам достигла 76% и продолжает расти месяц к месяцу — при том что доля сложных запросов увеличивается; страницы продукта заявляют более миллиона диалогов в неделю. Публичные результаты клиентов из кейса Anthropic дают три разные рамки масштаба. Synthesia (стартап): за 6 месяцев Fin закрыл более 6 000 диалогов, сэкономил более 1 300 часов поддержки, self-serve дошёл до 87%. Fundrise (растущая финтех-компания): за 3 месяца автоматизировано более 50% объёма при точности ответов 95%, сезонные пики обращений снизились примерно вдвое год к году. Lightspeed (enterprise): резолюция до 65%, ИИ участвует в 99% диалогов, а операторы закрывают на 31% больше обращений в день — ИИ снимает рутину и с тех диалогов, которые всё же ведёт человек. Важно понимать рамку метрик: «резолюция» в отчётности Intercom — это диалог, полностью закрытый без участия человека (с марта 2026 года — «результат», включающий и процедуры с финальным подтверждением человеком). Цифры 51%, 76% и 86% — это данные вендора и его клиентов, а не независимый аудит; резолюция сильно зависит от качества базы знаний конкретной компании и структуры её обращений. Показательно и то, как потолок резолюции зависит от типа бизнеса: у стартапа Synthesia self-serve дошёл до 87%, а у enterprise-клиента Lightspeed — до 65%. На наш взгляд, это не разница в качестве настройки, а естественная разница в сложности продуктов и обращений: чем сложнее продукт и выше цена ошибки, тем больше случаев по-прежнему требуют человека — и тем важнее, что ИИ ускоряет и эти диалоги (те самые +31% закрытых обращений у операторов Lightspeed). На наш взгляд, главный вклад Intercom в индустрию — не проценты резолюции, а экономическая модель. Оплата за результат ($0,99 за резолюцию, затем outcome-модель) выравнивает стимулы вендора и клиента: Intercom зарабатывает только тогда, когда её ИИ реально работает, и потому не может позволить себе «болтливого бота», имитирующего активность. Эта модель уже стала отраслевым стандартом де-факто для ИИ-агентов поддержки — её копируют конкуренты по всему рынку. Второй переносимый вывод: миграция Fin с GPT-4 на Claude показывает, что для прикладной компании базовая модель — это заменяемый компонент, а конкурентное преимущество живёт в слое над ней: в retrieval-моделях, валидации, интеграциях с действиями и данных о миллионах реальных диалогов. Для компаний, строящих своих агентов, это аргумент проектировать архитектуру так, чтобы модель можно было менять без переписывания продукта.

86%макс. резолюция Fin

51%резолюция «из коробки»

45+языков

+31%диалогов/день у операторов (Lightspeed)

🗄️

Технологии · Uber

Uber QueryGPT: SQL-запрос из естественного языка — 10 минут превратились в 3

QueryGPT выдаёт достаточно надёжные запросы примерно за 3 минуты вместо ~10 минут ручного написания — экономия около 70% времени на каждом запросе. В режиме ограниченного релиза сервисом пользуются порядка 300 активных пользователей в день, и 78% из них говорят, что сгенерированные запросы сокращают время, которое они потратили бы на написание вручную. На объёме платформы в 1,2 миллиона запросов в месяц потенциал масштабирования очевиден — но команда сознательно раскатывает сервис постепенно и в опубликованных выводах прямо называет выбор правильной стартовой аудитории (персон) отдельным уроком: начинать нужно там, где польза максимальна, а требования к SQL типовые, — с операционных команд, а не с дата-инженеров, которым черновик от LLM нужен меньше всего. Не менее важны опубликованные выводы команды. Первый: LLM отлично работают как классификаторы на узких задачах — конвейер специализированных агентов (интент → таблицы → колонки) стабильно бьёт один большой промпт. Второй: пользовательский вопрос сам по себе — недостаточный вход для генерации; его нужно обогащать контекстом до вызова модели. Третий: множественность правильных ответов (один и тот же вопрос корректно решается разными таблицами и стилями SQL) делает автоматическую оценку принципиально нечёткой — отсюда LLM-судья и визуальное сравнение с эталоном вместо бинарного «совпало/не совпало». Важно понимать рамку цифр: 10 и 3 минуты — оценки команды Uber; 78% — самоотчёт пользователей, а не замер по таймеру; сервис на момент публикации — в ограниченном релизе. Uber не публикует ни точность генерации в процентах, ни финансовый эффект — и, на наш взгляд, это честнее, чем экстраполяции сторонних блогов, дорисовывающих кейсу сотни тысяч сэкономленных часов. На наш взгляд, главный переносимый урок QueryGPT в том, что text-to-SQL в проде — это на 20% модель и на 80% контекст-инжиниринг: курируемые доменные workspace, обрезка схем, обогащение промпта и дисциплина оценки на золотом наборе. Всё это переносимо в любую компанию с большой дата-платформой — и не требует ни своей модели, ни уберовских масштабов. Второй урок — темп: от хакатона до продакшена прошло больше года и 20+ итераций. Команды, ожидающие, что text-to-SQL «заработает за спринт», недооценивают именно длинный хвост доменной настройки, а не сложность LLM.

10→3 минвремя написания запроса

1.2Mзапросов/мес на платформе

300активных пользователей/день

78%подтверждают экономию времени

🦉

Образование · Duolingo

Duolingo: 148 новых языковых курсов за год с помощью генеративного ИИ

30 апреля 2025 года Duolingo объявила о запуске сразу 148 новых языковых курсов — крупнейшем расширении контента в истории компании, созданном менее чем за год. Предложение курсов более чем удвоилось. Семь самых популярных неанглийских языков — испанский, французский, немецкий, итальянский, японский, корейский и китайский — стали доступны со всех 28 языков интерфейса, открыв обучение более чем миллиарду потенциальных учеников. Сравнение скоростей сформулировал сам фон Ан: «Разработка наших первых 100 курсов заняла около 12 лет, а теперь примерно за год мы смогли создать и запустить почти 150 новых курсов. Это отличный пример того, как генеративный ИИ может напрямую приносить пользу нашим ученикам». У запуска была и вторая, менее парадная сторона — коммуникационный кризис. Меморандум об «AI-first» и отказе от подрядчиков, опубликованный за два дня до анонса курсов, вызвал волну критики: пользователи в соцсетях заявляли об удалении приложения, а комментарии под постами компании в TikTok и Instagram превратились в поток анти-ИИ высказываний. В мае 2025 года фон Ан вышел с уточнением в LinkedIn: «Чтобы было ясно: я не рассматриваю ИИ как замену тому, что делают наши сотрудники (мы продолжаем нанимать с той же скоростью, что и раньше). Я вижу в нём инструмент, ускоряющий нашу работу». В августе 2025-го он признал в интервью, что меморандум «не дал достаточно контекста», и подчеркнул, что штатных сотрудников не увольняли. Важно понимать рамку результата: 148 курсов и удвоение каталога — проверяемые продуктовые факты; но метрик качества новых курсов (удержание учеников, прогресс по уровням) компания на момент анонса не публиковала, а часть пользовательской критики касалась именно качества ИИ-контента. На наш взгляд, кейс Duolingo — самая наглядная демонстрация того, где генеративный ИИ даёт контент-бизнесу максимальный рычаг: не «писать вместо людей», а тиражировать один выверенный эталон на десятки локализаций. Формула «100 курсов за 12 лет против 148 за год» стала публичным бенчмарком скорости для всей индустрии EdTech — при этом она честно сравнивает разные по сложности задачи: первые 100 курсов включали создание методологии с нуля, а 148 новых — её тиражирование на начальных уровнях. Второй урок — цена слов. Разница между «ИИ ускоряет наши команды» и «мы заменим подрядчиков ИИ» стоила компании недель публичного кризиса при идентичной сути изменений. Для руководителей, планирующих ИИ-трансформацию, коммуникационная стратегия — не приложение к проекту, а его часть, и кейс Duolingo стоит изучать вместе с разворотом Klarna: рынок наказывает за радикальную риторику, даже когда операционные результаты реальны.

148новых курсов за раз

<1 годана производство

12 летзаняли первые 100 курсов

28языков интерфейса

🛵

Доставка · DoorDash

DoorDash: голосовой ИИ на Claude обрабатывает сотни тысяч звонков курьеров в день

После успешного тестирования в начале 2024 года DoorDash раскатала новые self-service-возможности на всех дашеров. Голосовой ИИ обрабатывает сотни тысяч звонков курьеров ежедневно с задержкой ответа 2,5 секунды и меньше. По формулировке кейса, решение дало «большое и существенное» снижение объёма звонков по темам поддержки дашеров, сократило эскалации к живым операторам на тысячи в день и уменьшило число задач, которые операторы выполняют для решения обращений. Рутинные вопросы закрывает ИИ, а операторы высвобождены под сложные случаи, где нужен человек. Важно удержать рамку атрибуции — и здесь стоит поправить распространённый пересказ этого кейса (включая нашу собственную раннюю версию): цифры «−49% переводов, +12% решений с первого обращения, $3 млн экономии в год» относятся к предыдущему поколению автоматизации DoorDash на Amazon Connect и Amazon Lex — это бейзлайн, поверх которого строился генеративный слой. Для самого Claude-решения AWS и DoorDash публикуют метрики скорости и масштаба (2,5 с; сотни тысяч звонков в день; 50× ёмкость тестирования; −50% времени разработки) и качественные оценки эффекта («тысячи эскалаций в день»), но не проценты и не доллары. Это типичная и честная практика для свежего внедрения — точные финансовые эффекты требуют года наблюдений. Команда уже анонсировала следующий шаг: расширение баз знаний и интеграция с событийным логистическим workflow-сервисом DoorDash, чтобы ассистент не только отвечал на вопросы, но и выполнял действия за пользователя. «С помощью AWS и Claude от Anthropic мы построили решение, которое даёт дашерам надёжный и понятный доступ к нужной информации именно тогда, когда она нужна. Это даёт каскадный положительный эффект для пользователей и всей платформы», — говорит Чайтанья Хари, продакт-лид контакт-центра DoorDash. На наш взгляд, переносимых уроков здесь три. Первый: для голосового ИИ скорость — продуктовое требование номер один, и выбор лёгкой модели (Haiku) вместо флагманской — правильная инженерная экономика, применимая в любом realtime-сценарии. Второй: тестовая инфраструктура важнее «умности» модели — 50-кратный рост ёмкости тестирования и есть причина, по которой проект дошёл до прода за 8 недель. Третий: генеративный слой стоит строить поверх работающей автоматизации, а не вместо неё — DoorDash дополняла сильный IVR-бейзлайн, и именно поэтому смогла честно измерить добавленную ценность через A/B.

100K+звонков в день обрабатывает голосовой ИИ

2.5сзадержка ответа (Claude 3 Haiku)

50×рост ёмкости тестирования (SageMaker)

8 недельот дизайна до продакшен-A/B

🏦

Банки · Сбербанк

Сбербанк: ИИ решает 65% клиентских обращений в контакт-центре

По итогам первого квартала 2026 года ИИ решает более 65% клиентских обращений: 66% в голосовых каналах и 71% в чатах. Рамку задаёт сравнение с рынком: по оценке Frank RG за 2026 год, средний уровень автоматизации по отрасли — 23% в голосе и 67% в чатах. То есть в голосовом канале Сбер почти втрое опережает рынок, в чатах — идёт чуть выше рынка. 95% звонков получают ответ сразу, в ходе разговора; оставшиеся 5% — случаи, требующие дополнительного разбора (обычно 2–3 дня). Контакт-центр банка получил две премии Frank RG — за самую стабильную команду операторов и лучший роботизированный сервис на входящей линии. Эффекты по контурам, названные публично: ИИ-маршрутизация звонков юрлиц сэкономила банку 300 млн рублей за 2023 год; ИИ в контакт-центре для бизнеса экономит более 7 000 часов времени операторов в месяц. GigaChat-ассистент дал +7% к производительности операторов и +2 п.п. к индексу удовлетворённости CSI; операторы используют до 20% подсказок модели, по отдельным направлениям — до 45%, а точность оценки качества диалога достигает 80%. Итоги внедрения публично комментировала Елена Левина, вице-президент, директор департамента «Забота о клиентах» Сбербанка. Важно понимать рамку цифр. Это собственная отчётность банка, а не независимый аудит; отраслевые эксперты в комментариях ComNews прямо предупреждали, что у роста метрик маршрутизации может быть несколько объяснений (Евгений Сурков, Innostage) и что количественные показатели без клиентской оценки качества не дают полной картины (Евгения Гиленюк, СКБ Контур). Сильная сторона отчётности Сбера — привязка к внешнему бенчмарку Frank RG: сравнение с рынком делает главную цифру проверяемой. На наш взгляд, кейс Сбера ценен прежде всего как архитектурный шаблон: три контура с разными метриками (маршрутизация — секунды и рубли; ассистент — производительность и CSI; автоматизация — доля обращений без человека) не смешиваются в один «эффект от ИИ», а измеряются раздельно. Это переносимо на любой крупный контакт-центр — в том числе потому, что первый контур (маршрутизация) окупается ещё до появления какой-либо LLM. И отдельное наблюдение: доля реально использованных подсказок (20–45%) — редкий пример честной метрики полезности ассистента; большинство внедрений отчитывается фактом наличия подсказок, а не тем, берут ли их люди в работу.

65%обращений решает ИИ (Q1 2026)

+7%производительность операторов с GigaChat

+2 п.п.рост CSI после внедрения ассистента

300 млн ₽экономия за 2023 (маршрутизация звонков юрлиц)

🛍️

E-commerce · Wildberries

Wildberries: ИИ в операциях маркетплейса — машинное зрение на складах, нейропоиск и работа с отзывами

Количественных бизнес-результатов своих ИИ-систем Wildberries по-прежнему почти не раскрывает — это главное честное ограничение кейса. Опубликованы технические показатели: производительность роборуки не менее 950 единиц в час, доля успешных захватов выше 97% (TAdviser), окупаемость кросс-белт-сортера порядка 6 месяцев (RoboTrends). Публичная цель складской роботизации, озвученная Еленой Образцовой, директором по автоматизации маркетплейса Wildberries, — радикально снизить зависимость от складского персонала в горизонте одного-трёх лет; при этом её коллега Андрей Ульянов честно ограничивает амбицию гибридом с автоматизацией около половины процессов. Масштаб платформы (около 15 млн заказов в день, десятки миллиардов событий в день) подтверждён корпоративным блогом компании. Динамика при этом видна невооружённым глазом по инфраструктурным запускам: от первых тестов промышленных роботов в 2024 году — к промышленной эксплуатации манипуляторов в Коледино в 2025-м и запуску целого роботизированного хаба в Красном Бору к концу 2025 года. Продуктовые ИИ-запуски (нейропоиск, ИИ-ответы на отзывы, автоперераспределение товаров) идут параллельно складским. На наш взгляд, кейс Wildberries интересен именно как модель «ИИ без пресс-релизов об эффекте»: компания меняет операционную модель через оферту и инфраструктуру, а не через маркетинговые цифры. Автоперераспределение товаров — самый показательный пример: ИИ-система здесь меняет распределение ответственности между платформой и продавцом, и её «метрика» — юридический документ, а не процент в презентации. Для аналитиков рынка это напоминание: отсутствие публичных метрик не равно отсутствию внедрения — но и приписывать компании конкретные проценты улучшений без её публикаций нельзя. Важно понимать и рамку технических цифр: 950 единиц в час и 97% захватов — это паспортные показатели конкретного типа манипулятора на сортировке, а не «эффективность ИИ Wildberries» в целом; отраслевые оценки возвратов (30%, до 70% в одежде) — контекст рынка, а не метрики компании. На наш взгляд, самый переносимый элемент кейса — трезвое целеполагание Ульянова: «гибрид с автоматизацией ~50% процессов» — более честная и достижимая рамка для складской роботизации, чем «безлюдный склад», и она применима к большинству логистических операторов.

15 млнзаказов в день (данные компании, Habr)

950/часпроизводительность роборуки, захват >97% (TAdviser)

1–3 годапубличная цель: радикально снизить зависимость от складского персонала

🔊

Умный дом · Яндекс

Яндекс: Алиса обрабатывает команды умного дома прямо на колонке — в среднем в 6 раз быстрее облака

По данным команды Яндекса, локальная обработка команд умного дома работает в среднем в 6 раз быстрее облачной — выигрыш складывается из устранения сетевого круга и потоковой обработки на устройстве; точные миллисекунды компания не публиковала, а скорость распознавания зависит от сложности фразы. Управление светом и другими Zigbee-устройствами продолжает работать при отключении интернета — офлайн-устойчивость стала не побочным эффектом, а вторым главным результатом проекта. Подход закрепился в линейке: локальную обработку голосовых команд получили и новые устройства, включая Станцию Мини 3 Про (TAdviser), — то есть Миди была не экспериментом, а обкаткой архитектуры для всей платформы. Экосистема при этом продолжила рост: 5,3 миллиона активных устройств YaOS/YaOS X и 2,9 миллиарда запросов к Алисе за 2025 год. Отдельно показателен масштаб сжатия, который команда задокументировала цифрами: NLU — с минимум 30 гигабайт оперативной памяти до 90 мегабайт; бэкенд умного дома — с 500+ до ~200 мегабайт; ASR — до модели в ~10 миллионов параметров, на порядки меньше облачных аналогов. Эти цифры — редкий публичный ориентир для всех, кто оценивает реалистичность on-device ИИ на дешёвом железе. На наш взгляд, главный переносимый урок кейса — правильная декомпозиция гибрида: Яндекс не пытался затащить «всю Алису» на колонку, а выделил узкий домен, где локальность даёт максимум пользы (типовые команды умного дома — высокочастотные, короткие, с ограниченным словарём), и оставил всё остальное облаку. Такая постановка — «локально то, что часто и просто; в облаке то, что редко и сложно» — применима далеко за пределами умного дома: от банковских голосовых меню до автомобильных ассистентов. Второе наблюдение: on-device ИИ начинается с железа. NPU в SoC и гигабайт памяти были заложены в Миди на этапе проектирования — на слабом чипе этой архитектуры бы не случилось. Командам, планирующим локальные модели в устройствах, стоит закладывать вычислительный запас за поколение до того, как модели будут готовы, — иначе к моменту готовности софта железо в проданных устройствах уже не потянет.

6×локальная обработка быстрее облачной (в среднем)

~10 млнпараметров в on-device ASR-модели

90 МБоперативной памяти занимает NLU «Бегемотик» (в облаке — от 30 ГБ)

5,3 млнактивных устройств YaOS/YaOS X (2025)

🛡️

Финтех · Т-Банк

Т-Банк: ИИ-защита от телефонных мошенников сберегла клиентам 1,2 млрд рублей

Финансовая траектория сервиса «Защитим или вернём деньги» опубликована поэтапно: за первые полгода работы он сберёг клиентам 170 млн рублей; к маю 2025 года накопленная сумма спасённых средств достигла 1,2 млрд рублей, при этом выплачено 12,3 млн рублей компенсаций. Соотношение этих двух цифр — примерно один к ста — фактически публичная точность системы: на каждый рубль выплат по пропущенным мошенникам приходится около ста рублей предотвращённого ущерба. Ожидаемый эффект по всей экосистеме банк оценивает примерно в 2,5 млрд рублей в год. «Фрод-рулетка» за год закрытого тестирования дала свои цифры: 2 000+ участников, более 3 миллионов принятых звонков, 44 000 часов «сожжённого» времени мошенников и предотвращённый ущерб примерно на 490–500 млн рублей (оценка банка, приведённая Forbes и «Ведомостями»). Важно понимать рамку: все цифры — собственная отчётность банка, а не независимый аудит. «Предотвращённый ущерб» — расчётная величина (сколько могли бы украсть, если бы звонок дошёл до жертвы), и методику расчёта банк не раскрывает. Однако выплаченные компенсации (12,3 млн рублей) — это реальные деньги, ушедшие клиентам, и именно они делают остальную отчётность правдоподобной: банку, который платит за каждый пропуск, невыгодно завышать качество своей системы. На наш взгляд, главное новшество кейса — не модели, а экономическая конструкция. Финансовая гарантия превращает качество ИИ из внутренней метрики в статью P&L: каждый ложноотрицательный срабатывание стоит банку живых денег, поэтому стимулы команды, банка и клиента выровнены автоматически. Эта конструкция переносима в любую отрасль, где ИИ защищает клиента от потерь, — от страхования до кибербезопасности, — и это более сильный сигнал доверия, чем любые сертификаты точности. Второе наблюдение: «Фрод-рулетка» — редкий пример наступательной стратегии в антифроде. Классическая защита снижает потери жертв; «рулетка» атакует экономику преступного бизнеса, у которого час работы колл-центра имеет конкретную себестоимость. 44 000 часов, потраченных мошенниками на разговоры с подготовленными добровольцами, — это часы, не потраченные на реальных жертв. Насколько модель масштабируется и не адаптируются ли мошенники к перехвату — открытый вопрос, за которым стоит следить в 2026 году.

1,2 млрд ₽сбережено клиентам накопленно (к маю 2025)

62 млнмошеннических звонков в месяц детектирует «Нейрощит»

44 000 чвремени мошенников «сожгла» Фрод-рулетка на тесте

12,3 млн ₽выплачено компенсаций по гарантии

🩺

Медицина · Botkin.AI (ООО «Интеллоджик»)

Botkin.AI: чему учит взлёт и остановка первого зарегистрированного медицинского ИИ России

Итог для рынка двоякий. Сам продукт как самостоятельный бизнес прекратил существование: приостановка регулятором в ноябре 2023-го, продажа конкуренту в декабре 2023-го за периметр публичности. Инвесторы, вложившие суммарно не менее 271 млн рублей за 2017–2020 годы, вышли из проекта на фоне выручки 15,5 млн и убытка 139 млн рублей за последний полный год. При этом направление ИИ-радиологии в России живо и растёт: московский эксперимент по компьютерному зрению в лучевой диагностике продолжается с десятками ИИ-сервисов, а покупатель «Интеллоджика» развивает собственную платформу Celsus. Важно зафиксировать рамки. Формулировка «угроза причинения вреда жизни и здоровью» — юридическое основание приказа №7880, а не доказанный факт причинённого вреда: публичных данных о пострадавших пациентах нет. Отзыв не был пожизненным — в мае 2024 года после корректирующих мер и экспертизы ВНИИИМТ приостановку отменили. И причина остановки — не «ИИ ошибался» сам по себе, а непредоставление пострегистрационных отчётов и расхождение реальных характеристик с заявленными при регистрации. Отдельно стоит помнить: публичные заявления сторон противоречили друг другу — регулятор говорил об «отсутствии клинического эффекта», инвестор называл угрозу «полностью исключённой», и независимого арбитра между этими позициями, кроме самого приказа и последующей экспертизы ВНИИИМТ, у рынка нет. На наш взгляд, ключевой урок этого кейса — экономический, а не технологический. Botkin.AI держал уникальный регуляторный актив (единственное РУ класса 2б на ИИ-платформу) и госинтеграцию с крупнейшим в стране потоком исследований — и всё равно не построил устойчивую выручку: 15,5 млн рублей в год не окупали даже долю затрат на комплаенс, который требует высокорисковый класс изделия. Пострегистрационный мониторинг — это постоянная статья расходов на клиницистов, данные и отчётность; компания, у которой юнит-экономика не сходится, срезает именно её, потому что штраф отложен во времени. Здесь он пришёл в максимальной форме. Второе наблюдение — тоже редакционное: настоящая цена провала измерилась не деньгами инвесторов, а планкой доказательности для всей отрасли. После ноября 2023 года каждый разработчик медицинского ИИ в России знает, что РУ — это начало регуляторной работы, а не её финал, и что регулятор умеет проверять заявленные метрики самостоятельно. Для зрелости рынка такой прецедент, возможно, полезнее ещё одной истории успеха.

2020первое в РФ регудостоверение класса 2б на ИИ-платформу

271+ млн ₽привлечено инвестиций (11 млн 2017 + 100 млн 2019 + 160 млн 2020)

150 000+исследований в московском пилоте (март–декабрь 2020)

−139 млн ₽убыток за 2022 при выручке 15,5 млн ₽

🛢️

Нефтегаз · Газпром нефть

«Газпром нефть»: «Цифровая буровая» снизила непроизводительное время бурения на 15%

Опубликованные результаты опытно-промышленных работ на «Газпромнефть-Ноябрьскнефтегазе»: срок строительства скважины сократился на 6 суток от нормативов (для сложных скважин — на 17,5%), скорость метражных операций выросла на 28,5%, безметражных — на 16,3%, время свинчивания труб снизилось на 3,7% при перевыполнении норм наращивания на 40% — и всё это без удорожания стоимости скважины («Управление производством», Integral Russia). Плановая цель проекта — снижение НПВ от осложнений на 15%; по словам участника испытаний Рамиля Бариева, «при испытании проекта мы запланировали рост на 15%, а добились гораздо большего». Эффекты центров сопровождения публикуются отдельно: геонавигация экономит 3–5% времени буровой (JPT/SPE), а коэффициент эффективности проводки горизонтальных стволов по пласту после запуска «ГеоНавигатора» вырос с 60% до более чем 90% (Фонтанка). Экономика цифровизации в целом по компании тоже раскрыта: пилот «Актив будущего» дал эффект 1,2 млрд рублей, а от цифровых технологий в геологоразведке компания ожидала 5–6 млрд рублей эффекта в год начиная с 2025 года (ComNews). Важные рамки: все перечисленные цифры — данные самой компании и её подрядчиков, независимого аудита нет. Результаты ОПР получены на шести скважинах одного актива — это статистика пилота, а не парка; «−15% НПВ» — плановая величина программы, подтверждённая словами участников как «превышенная», но без публикации точного факта по всему периметру. Эффекты геонавигации и «Цифровой буровой» аддитивно складывать нельзя — они частично пересекаются в одном и том же времени буровой. На наш взгляд, самое ценное в этом кейсе — дисциплина метрик: компания измеряет эффект в сутках на скважину, процентах НПВ и метрах ствола в пласте, то есть в величинах, которые напрямую конвертируются в себестоимость метра проходки. Это выгодно отличает проект от типичных «внедрили ИИ на буровой» без операционных чисел. Второе наблюдение: восемь лет эволюции — от центра 2011 года через шесть технологий 2017-го к роботизированной установке — показывают, что «безлюдная буровая» строится слоями поверх десятилетия работы с данными, а не покупается как готовый продукт; повторить финальный слой без нижних, на наш взгляд, не получится. Косвенное подтверждение зрелости — интерес ближневосточных национальных компаний к этому стеку: технологии, прошедшие проверку на собственных месторождениях, стали аргументом в международных переговорах ещё до того, как тема «суверенного нефтегазового софта» стала мейнстримом.

−15%непроизводительное время от осложнений (цель программы, по словам участников — превышена)

1,5+ чпредупреждение о stick/slip до вынужденной остановки

−6 сутоксрок строительства скважины в ОПР (+28,5% скорость метражных операций)

60% → 90%+эффективность проводки горизонтальных скважин по пласту (ЦУБ «ГеоНавигатор»)

🔎

E-commerce · Ozon

Ozon: трансформер в поисковых подсказках — честные доли процента на масштабе в триллионы

Опубликованные приросты по итерациям: CTR поисковых подсказок +10%, затем ещё +10% и +3%; доля пустой выдачи снизилась на 3%; доля пользователей, завершающих сессию заказом, выросла на 0,3%. Каждая цифра получена в A/B-эксперименте на реальном трафике и опубликована самой командой в инженерном блоге — с честным признанием, что кликабельность растёт легче, чем конверсия в заказ. На первый взгляд скромно — но при GMV в триллионы рублей доли процента являются существенным бизнес-эффектом, и именно так выглядят реальные цифры рекомендательных систем. Дополнительный, менее заметный результат — инфраструктурный: динамическая компиляция формул ранжирования втрое снизила потребление CPU поисковым сервисом (с 15%+ до 5–6%) и сократила время запроса на 10 мс — на потоке в десятки тысяч RPS это и экономия железа, и прямой вклад в скорость выдачи. Рамки достоверности: все цифры — самоотчёт компании без независимого аудита. Но это самоотчёт особого рода — опубликованный инженерами с описанием методологии A/B-экспериментов и признанием слабых мест (затухание эффекта, разрыв между CTR и заказами), что резко снижает риск маркетингового приукрашивания. Отдельно (это прогноз, а не результат): по оценке, приведённой Forbes, будущий ИИ-ассистент поиска может добавить Ozon 3–5% GMV в перспективе одного-двух лет. Смешивать эту оценку с измеренными +0,3% нельзя — это разные жанры цифр. На наш взгляд, главная ценность кейса — калибровочная. Он задаёт рынку эталон честной отчётности: последовательность +10% → +10% → +3% показывает не только эффект, но и его затухание, а метрика «+0,3% пользователей с заказом» — насколько дорого даётся каждая доля процента на зрелом продукте. Когда вендор или интегратор обещает «+15% конверсии от ИИ в поиске», этот кейс — готовая линейка для проверки: у одной из сильнейших ML-команд страны, с собственным GPU-кластером и триллионным GMV, документированный эффект на порядок скромнее. Второе наблюдение — архитектурное: на наш взгляд, выбор модели на сотни миллионов параметров вместо модного «LLM на миллиарды» — это и есть инженерная зрелость. Ozon подобрал минимальную архитектуру, которая решает задачу в жёстком лимите латентности, вместо максимальной, которая решала бы её в презентации.

+0,3%пользователей, завершающих сессию заказом

+10%CTR подсказок в первой итерации (далее +10% и +3%)

−3%доля пустой поисковой выдачи

300 мслимит ответа при десятках тысяч RPS

⚛️

Атомная энергетика · Росатом / Росэнергоатом

Росатом: оптимизация ремонтов дала российским АЭС 94 дополнительных дня работы за полугодие

За первое полугодие 2026 года ремонтные кампании по парку российских АЭС сокращены суммарно на 94 дня (ремонты прошли на 17 энергоблоках), а выработка, по прогнозу на 16 июня 2026 года, превысила плановые значения на 7,44 млрд кВт·ч («Российская газета», EnergyLand). Примеры по станциям: Курская АЭС получила дополнительные 180 млн кВт·ч за счёт сокращения ремонтов, Балаковская — около 1 млрд кВт·ч, Ростовская — 40 млн кВт·ч благодаря досрочному включению блока №4. Локальный вклад цифровизации тоже посчитан: одна только электронная ведомость ППР на Ростовской АЭС экономит 140 минут в сутки — 851 час в год. Важные уточнения. 94 дня — суммарный эффект оптимизации ремонтов по всему парку за полугодие, в среднем дни, а не недели на блок. Сверхплановая выработка 7,44 млрд кВт·ч — результат совокупности факторов: сокращения ремонтов, операционной эффективности и ввода нового блока Курской АЭС-2; выделить в ней «долю ИИ» или «долю цифровых двойников» по открытым данным невозможно, и сам Росатом такой атрибуции не публикует. Эффект «−30% времени диагностики» относится к пилотам цифровых двойников, а не ко всему парку. На наш взгляд, этот кейс — редкий пример правильной последовательности: сначала выстроенная за десятилетия культура надёжности и бережливого производства (ПСР), затем виртуальная среда для безопасных экспериментов (ВЦАЭС с 2020 года), затем точечные цифровые инструменты в ремонтном контуре — и только на вершине этой пирамиды агрегированный результат в 94 дня. Здесь показательно, что самый громкий процент кейса (2,4-кратное ускорение обмена данными) достигнут не нейросетью, а заменой бумаги и телефона на мобильное приложение: в капиталоёмких отраслях банальная оцифровка процессов всё ещё даёт эффекты, которые не стыдно публиковать рядом со словом «ИИ». Второе редакционное наблюдение: атомная отрасль публикует эффекты в физических величинах — днях, киловатт-часах, минутах — и это делает их проверяемыми. Мы считаем такую отчётность образцом для промышленных ИИ-кейсов: рублёвые оценки зависят от цен и методик, а 94 дня и 7,44 млрд кВт·ч — величины, которые можно сверить с диспетчерскими данными.

−94 днясуммарное сокращение ремонтов по парку (1П 2026, 17 блоков)

7,44 млрд кВт·чдополнительная выработка сверх плана (1П 2026)

−30%время диагностики в пилотах цифровых двойников

240 → 100 минцикл обмена данными при ППР на Ростовской АЭС (851 час экономии в год)

📹

Ритейл · М.Видео-Эльдорадо

М.Видео-Эльдорадо: видеоаналитика в магазине — честный разбор пилота, а не «раскатки на всю сеть»

Результаты этого кейса существуют в двух жанрах, и их важно не смешивать. Жанр первый — инженерный блог (Habr, март 2021). Единственная опубликованная там метрика эффекта — качество самого алерта: за полтора месяца пилота число срабатываний «одинокий покупатель» снизилось с 25 до 5 в день; система научилась отсеивать ложные сигналы и беспокоить персонал только по делу. Про бизнес-метрики в статье сказано прямо: мультикамерный трекинг лишь позволит их считать — конверсию из визита в покупку, влияние на средний чек. Жанр второй — корпоративный пресс-релиз (август 2021). Там цифры уже смелее: «коэффициент привлечения клиентов в пилотных магазинах рос на треть быстрее», «коэффициент конверсии вырос на 35% по сравнению с сопоставимыми магазинами», количество уведомлений о необходимости помочь клиенту или открыть кассы сократилось на 75%, окупаемость — с первого месяца, а собственное решение — в пять раз дешевле рыночных аналогов. Проект в релизе назван «первой в России системой видеоаналитики с доказанной экономической эффективностью». Методология этих сравнений (сколько магазинов, какой период, как отбирались «сопоставимые») не раскрыта, независимой проверки нет. На наш взгляд, ножницы между двумя жанрами — самое поучительное в кейсе. Инженеры в марте пишут «конверсию мы пока только научимся считать», пресс-служба в августе сообщает «+35% к конверсии»; строго говоря, оба текста могут быть правдой (пилотные магазины действительно могли показать рост относительно контрольной группы), но доверие к цифре напрямую зависит от того, в каком жанре она опубликована. Мы бы закладывали в бизнес-кейс инженерную версию и рассматривали пресс-релизную как верхнюю границу. Второе наблюдение: даже по самым смелым публичным данным проект дошёл до 50 магазинов из 1200+ — это примерно 4% сети, и публичных подтверждений полной раскатки на всю сеть с тех пор не появилось. Дистанция между «доказанной экономической эффективностью» в пилоте и тотальным развёртыванием — годы и миллиарды (30 000 камер против 250 подключённых на момент пресс-релиза). Именно поэтому мы намеренно оставляем кейс в его реальном масштабе: это качественный, хорошо документированный пилот с ранним масштабированием — и полезная линейка для всех, кто читает чужие «раскатки на всю сеть».

1 → 50магазинов: пилот (окт. 2020) → план масштабирования (авг. 2021)

25 → 5алертов «одинокий покупатель» в день за 1,5 месяца

~$50edge-устройство на камеру (Raspberry, RTSP-фильтр: 3 Мбит/с на 30 камер)

30 000камер — целевой масштаб (1000+ магазинов)

📮

Логистика и почта · Почта России

Почта России: OCR и роботы сортируют около 8 миллионов отправлений в день

Автоматизированный контур обеспечивает обработку потока национального масштаба. Подтверждённые операционные показатели: 40 000 писем в час на письмосортировочной машине (11 в секунду), до 8 000 посылок в час на посылочной, 3 млн отправлений в день — мощность одного только АСЦ Внуково, 4 секунды на посылку у робота-манипулятора, съёмка в 5 проекциях для OCR, 92–95% точности распознавания речи у голосового ассистента. С 2026 года к сортировочному контуру добавился маршрутный: платформа «Тераплан» планирует перевозки по сети из 1 100 сортировочных узлов и 38 тысяч отделений. Эффекты маршрутного контура пока описаны качественно, а не количественно: заявлены сокращение времени планирования, снижение операционных затрат и повышение точности прогнозов через кластеризацию логистических потоков — измеренных публичных цифр по «Тераплану» ещё нет, и это честно отражает стадию проекта. Чего в публичном поле нет вовсе — и что важно зафиксировать: финансовый эффект автоматизации сортировки компания не раскрывала. Интегральная динамика качества (доставка в срок: письма 54% → 85%, посылок 52% → 95% за 2013–2016) относится к модернизации логистики в целом — новым центрам, транспорту, процессам, — а не только к OCR. Долю автоматически распознанных отправлений и стоимость видеокодирования компания тоже не публикует. Отдельная рамка — динамика объёмов: пиковые «8 млн отправлений в день» относятся к обзорным материалам прошлых лет, тогда как в публикациях 2024 года годовой поток писем уже 1,3 млрд. На наш взгляд, инженерная суть кейса — не в OCR как таковом (распознавание адресов почтовые службы мира применяют десятилетиями), а в честной архитектуре отказов: пять проекций на захвате, машина решает за секунду, всё нечитаемое уходит человеку на видеокодирование, безнадёжное — в отбраковку. Это конвейер, который спроектирован вокруг предположения, что ИИ будет ошибаться, — и потому не останавливается никогда. Обратный порядок — «сначала верим в 100% точности, потом удивляемся» — стоил бы Почте остановленных конвейеров. Второе наблюдение: платформа SMAB, связавшая машины Toshiba, Siemens и Vanderlande единым протокольным слоем, — на наш взгляд, самая недооценённая часть кейса. Интеграционный софт не попадает в пресс-релизы, но именно он превращает набор дорогих импортных машин в управляемую сеть — и остаётся у компании, когда меняются поставщики железа.

~8 млнотправлений в день (2,6 млрд писем + 400 млн посылок в год)

11/секписем обрабатывает сортировочная машина (40 000/час)

3 млн/деньмощность АСЦ Внуково (64 000 м², 125 000 писем/час)

4 секна посылку у робота-манипулятора

🧬

Фармацевтика и биотех · Moderna

Moderna: 750 корпоративных GPT за два месяца и 120 диалогов с ИИ на сотрудника в неделю

За два месяца после внедрения ChatGPT Enterprise в компании появилось 750 GPT, 40% еженедельно активных пользователей создавали собственные GPT, а на одного пользователя приходилось в среднем 120 диалогов с ChatGPT Enterprise в неделю — это порядка двадцати пяти обращений за рабочий день, то есть инструмент реально встроен в рабочий процесс, а не открыт «для галочки». Юридический департамент отчитался о 100% принятия. Сам факт, что кейс измеряется в метриках использования, а не в «ожидаемой экономии», выгодно отличает его от большинства корпоративных анонсов. Важные рамки. Все цифры — самоотчёт Moderna, опубликованный в кейсе OpenAI, то есть материалах заинтересованной стороны (OpenAI продаёт ChatGPT Enterprise, Moderna демонстрирует технологическое лидерство); независимого аудита нет. Dose ID — пилот, который прямо позиционируется как ассистент при решениях, принимаемых людьми, а не автономный выбор дозы. Финансовый эффект в долларах компания не раскрывала, и связь «750 GPT → 15 продуктов за 5 лет» пока декларативная: продуктовый план будет проверен клиническими испытаниями и регуляторами, а не количеством чат-ботов. На наш взгляд, главное содержание кейса — не цифры, а метод: Moderna показала, что «внедрение ИИ» — это на 20% выбор платформы (сделанный, что характерно, через собственный NPS-эксперимент) и на 80% программа изменений с конкурсами, чемпионами, офис-часами и вовлечённым CEO. Метрика «120 диалогов на пользователя в неделю» — лучший из публично доступных индикаторов того, что программа сработала: лицензии можно раздать приказом, привычку — нет. Второе наблюдение: пирамида «80% принятия mChat → NPS-тест трёх платформ → 750 GPT» иллюстрирует грамотную последовательность инвестиций. Дешёвый прототип на API создал базу навыков и данных о поведении пользователей до покупки enterprise-продукта; выбор платформы опирался на эту базу; масса GPT выросла уже на подготовленной культуре. Мы бы не ждали, что те же цифры воспроизведутся у компании, начавшей сразу с закупки лицензий.

750GPT за первые 2 месяца

120диалогов на пользователя в неделю

40%активных пользователей создали GPT

100%принятие в юрдепартаменте

🏦

Банкинг · BBVA

BBVA: 3 часа экономии в неделю на сотрудника, 20 000+ GPT и раскатка ChatGPT на 120 000 человек

По данным, опубликованным OpenAI в ноябре 2025 года: около 3 часов экономии на сотрудника в неделю, 83% еженедельно активных пользователей, прирост эффективности до 80%+ в тестах отдельных рабочих процессов, 20 000+ созданных GPT (около 4 000 в регулярном использовании). В декабрьских материалах банк приводит ещё более сильную метрику вовлечённости: 80% пользователей заходят в ассистент ежедневно. Именно на фоне этих результатов принято решение о раскатке на все 120 000 сотрудников — и Сэм Альтман публично называет BBVA «сильным примером того, как крупный финансовый институт может внедрять ИИ с настоящей амбицией и скоростью». Рамки, которые следует держать в голове. Все метрики — внутренние оценки BBVA, опубликованные OpenAI и самим банком; независимого аудита нет, а обе стороны заинтересованы в позитивной картине. «До 80%+» относится к тестам конкретных процессов, а не ко всей операционной модели; «3 часа в неделю» — самооценка пользователей о рутинных задачах, а не хронометраж. Перуанский пример (7,5 мин → 1 мин) — один ассистент в одной стране. Наконец, 83% weekly active и «80% ежедневно» — метрики разных периодов и методик, их не стоит склеивать в одну. На наш взгляд, у этого кейса две действительно редкие черты. Первая — управленческая честность последовательности: 3 300 → 11 000 → 120 000 с публикацией промежуточных метрик перед каждым следующим шагом; это делает решение о десятикратном расширении защищаемым перед правлением и регулятором, а сам кейс — воспроизводимым как метод (в отличие от невоспроизводимых «историй успеха»). Вторая — пирамида 20 000 созданных GPT против 4 000 регулярно используемых: банк сам публикует коэффициент выживаемости инструментов 1:5, и это самая полезная цифра кейса для планирования чужих внедрений — эффект надо считать от активного ядра, а не от валового числа созданного. Добавим и осторожную ноту: программа «The Eight» и «ИИ-нативный банк» — это декларация направления, а не результат; проверить её можно будет по метрикам клиентского опыта и операционных издержек через годы, и мы бы не переносили сегодняшние цифры продуктивности на завтрашние обещания трансформации.

~3 чэкономии на сотрудника в неделю

83%еженедельно активных пользователей

20 000+кастомных GPT (~4 000 активных)

120 000сотрудников — целевая раскатка в 25 странах

🛒

E-commerce и финтех · Mercado Libre

Mercado Libre: платформа Verdi на GPT-4o — каталог вырос в 100 раз, точность фрод-флагов почти 99%

По опубликованным OpenAI данным: GPT-4 Vision позволил каталогизировать в 100 раз больше товаров за два года; точность детекции мошенничества по флагованным позициям выросла почти до 99%; за несколько месяцев Verdi взяла на себя 10% медиаций клиентских споров на одном из крупных сайтов компании; саммари отзывов увеличивают заказы там, где доступны (без раскрытой величины эффекта). Потенциал компания оценивает как поддержку задач 9 000 операторов и автономное управление решениями по клиентскому сервису на $450 млн в год. Отдельный, часто пропускаемый результат — экономика скорости разработки: платформа проектировалась «с фокусом на снижение когнитивной нагрузки», чтобы любая команда могла собирать, тестировать и деплоить ИИ-приложения в единой среде со встроенным юнит-тестированием. Величину этого эффекта компания не квантифицирует, но именно он объясняет, зачем строить платформу, а не нанимать ещё операторов. Рамки обязательны. Все цифры — самоотчёт компании в кейсе OpenAI, стороны, продающей использованные модели; независимой проверки нет. 100x — это рост числа каталогизированных товаров, а не выручки или качества карточек. «Почти 99%» относится к точности по флагованным позициям — метрика ничего не говорит о полноте (сколько мошенничества не флагуется вовсе). 10% медиаций — на одном сайте, а не по всей группе; а «9 000 операторов» и «$450 млн» — заявленный потенциал, а не достигнутый результат. Смешивание этих категорий — типичная ошибка чтения вендорских кейсов. На наш взгляд, ключевой смысл кейса — в последовательности допуска ИИ к деньгам. Mercado Libre сначала годами гоняла модели на задачах с дешёвой ценой ошибки (теги каталога, переводы, саммари), накопила данные, инфраструктуру и организационное доверие — и только затем допустила ИИ к спорам с денежными последствиями, причём долями: 10% на одном сайте, с эскалацией к людям и путём отката. Это противоположность модному «автономному агенту в проде за квартал» — и, вероятно, единственный способ делать такие вещи в компании, где решения ИИ напрямую двигают чужие деньги. Второе наблюдение: «разработчики не видят исходный код» — самое спорное и самое интересное решение Verdi. Мы читаем его как ставку на радикальное снижение порога входа (любая команда собирает ИИ-приложение из узлов и навыков) в обмен на полную зависимость от качества платформенных гардрейлов. При 17 000 разработчиков эта ставка выглядит рациональной: централизованная безопасность масштабируется, ревью каждого самодельного бота — нет. Но переносить паттерн в организацию без зрелой платформенной команды мы бы не советовали.

100xрост каталогизации за 2 года

~99%точность фрод-детекции (флаги)

10%медиаций взял ИИ на крупном сайте

$450Mпотенциал автономных решений в год

🏥

Медицинское страхование · Oscar Health

Oscar Health: документация быстрее почти на 40%, эскалации по claims — на 50%, и первый BAA-контракт с OpenAI

По кейсу OpenAI (апрель 2024): время на документирование разговоров и разбор лабораторных результатов сократилось почти на 40% (по блогу компании — с 20+ до менее чем 12 минут на разговор); ассистент по claims сократил время решения эскалаций на 50% при точности на уровне или выше живых агентов; ожидание — автоматизация расследования минимум 4 000 тикетов в месяц (48 000 к концу года). R&D-эксперименты показывали прирост производительности до 90% в отдельных случаях. Инженерный разбор добавляет гранулярность, которой обычно не хватает вендорским кейсам: на простых сценариях машина сравнялась с человеком сразу, на сложных — сначала уступала, а после внедрения Skeleton Trace несколько категорий вопросов вышли на 100% точности, самые трудные — на 80%. Рамки: все цифры — самоотчёт Oscar в кейсе OpenAI (заинтересованной стороны); «до 90%» — результат R&D, а не продакшена; 4 000 тикетов/мес — ожидание на момент публикации, а не подтверждённый факт; решения по выплатам остаются за людьми — ИИ ускоряет поиск и подготовку информации. Амбиция «удешевить визит к врачу в десять раз за три-пять лет» — декларация Шлоссера о направлении, а не обязательство с метрикой. На наш взгляд, у кейса два системных урока, выходящих за пределы страхования. Первый: последовательность «сначала BAA, потом модели» — правильный порядок для любой регулируемой отрасли; Oscar получила фору не потому, что у неё был доступ к другим моделям, а потому, что первой построила юридическую конструкцию, в которой эти модели можно законно применять к реальным данным. Второй: разница между 40% (продакшен) и 90% (R&D) — это честная цена перехода от демо к эксплуатации, и компании, публикующие обе цифры с явной маркировкой, заслуживают большего доверия, чем те, у кого «всё по 90%». Третье наблюдение — инженерное: история claims-ассистента показывает, что главная работа при внедрении LLM в legacy-системы — не промптинг, а проектирование представления данных. GPT-4 не справлялся, пока трейсы не переупаковали в Skeleton Trace с итеративным запросом деталей; по сути, команда изобрела для своей задачи то, что позже станет общим паттерном агентного RAG. Мы бы читали этот кейс именно как учебник по «подготовке данных под модель», а не как рекламу конкретного API.

~40%быстрее клиническая документация (20+ мин → <12 мин)

50%быстрее решение эскалаций по claims

100% / 80%точность ассистента по категориям вопросов (простые / самые сложные)

№1первый BAA страховщика с OpenAI

⚖️

LegalTech · Harvey

Harvey: кастомная модель по прецедентному праву США — юристы предпочли её GPT-4 в 97% случаев

Для проверки модели Harvey привлекла юристов из 10 крупнейших юридических фирм. Им показывали бок о бок ответы кастомной модели прецедентного права и GPT-4 на один и тот же вопрос. «В 97% случаев юристы предпочитали ответ модели прецедентного права, — говорит Вайнберг. — Обычно потому, что это был более длинный и полный ответ: он углублялся в нюансы вопроса и покрывал больше релевантных прецедентов». Сам масштаб реакции, по признанию команды, стал для неё неожиданностью. Второй результат — по галлюцинациям, ради которых модель во многом и строилась: «Модель не только не выдумывает дела — каждое предложение реально подкреплено делом, которое она цитирует», — утверждает Вайнберг. Рамки, которые важно видеть. 97% — метрика предпочтения (preference), а не формальной юридической точности: она показывает, какой ответ юристы выбирают, а не сколько в нём ошибок. Тестирование организовывал сам Harvey; численность выборки вопросов не раскрыта; независимой репликации теста не публиковалось; кейс опубликован OpenAI — заинтересованной стороной, чей продукт лежит в основе решения. Утверждение об отсутствии галлюцинаций — тоже заявление основателя, а не результат опубликованного независимого аудита. Редакционный анализ. Косвенным подтверждением того, что ставка на кастомные модели сработала как минимум коммерчески, служит траектория Harvey после публикации кейса: раунд C на $100 млн при оценке $1,5 млрд (июль 2024), D на $300 млн при $3 млрд (февраль 2025), E на $300 млн при $5 млрд (июнь 2025), F на $160 млн при $8 млрд (декабрь 2025) и раунд на $200 млн при оценке $11 млрд в марте 2026 года; выручка за 2025 год — $190 млн (данные Wikipedia по публичным раскрытиям). Среди клиентов — фирмы уровня Paul Weiss и A&O Shearman, где во время пробного периода 3 500 юристов сделали около 40 000 запросов; Ashurst раскатала Harvey глобально, сингапурская WongPartnership стала первой фирмой Юго-Восточной Азии, тестировавшей продукт, а PwC внедрила его в юруслугах в Сингапуре. При этом честно признать: рост компании не изолирует вклад именно кастомной модели — Harvey росла на всей продуктовой линейке, и приписать оценку в $11 млрд одному техническому решению нельзя. Второе наблюдение: кейс зафиксировал «лестницу зрелости» работы с LLM — промптинг → RAG → файн-тюнинг → кастомное обучение, — которая позже стала общим местом в индустрии. И он же показывает, как быстро устаревают бейзлайны: «в 97% случаев лучше GPT-4» звучало сильно в апреле 2024-го, но сравнение с давно превзойдённой моделью само по себе уже ничего не говорит о положении Harvey относительно сегодняшних фронтирных моделей.

97%предпочтений юристов vs GPT-4

10 млрдтокенов данных добавлено в модель

10xрост выручки Harvey за 2023

$715Mоценка в раунде B ($80M)

🛋️

Ритейл (e-commerce) · Wayfair

Wayfair: Gemini размечает каталог из 30+ млн товаров на 67% быстрее и добавляет ~2% к конверсии фильтров

Опубликованные цифры сосредоточены на каталожном фронте. По совместному пресс-релизу Wayfair и Google Cloud: время, необходимое для курирования новых и обновления существующих карточек, сократилось на 67% при каталоге более 30 миллионов товаров. Повышение точности атрибутов (цвет, предметная категория) и покрытия этих тегов в каталоге улучшило конверсию в сценариях, когда покупатели используют фильтры, примерно на 2%. Экономию от отказа от ручного тегирования компания оценивает в сотни тысяч долларов в год. Рамки, которые важно видеть. Все цифры — оценки Wayfair, опубликованные Google Cloud, то есть вендором-партнёром; независимого аудита нет. Метрика ~2% относится к конверсии при использовании фильтров, а не ко всей выручке сайта. Долларовая экономия дана диапазоном «сотни тысяч» без точной суммы. Показательна и разница формулировок между документами: пресс-релиз говорит о сокращении времени курирования «на 67%», а более поздняя версия кейс-стади осторожнее — «до 67% быстрее» (up to). Наконец, для Muse, вкладки Discover и UCP публичных метрик пока нет вовсе — это пилоты и анонсы, а не измеренные результаты. Редакционный анализ. Первое: этот кейс — редкий по чистоте пример стратегии «данные раньше витрины». Wayfair сначала починила фундамент (атрибуты каталога) и только потом начала строить на нём клиентские продукты — Muse, визуальный поиск, агентную коммерцию. Обратный порядок — сначала эффектный ИИ-фасад, потом данные — обычно и даёт разочаровывающие пилоты. Второе: ~2% конверсии на фильтрах при каталоге в 30 миллионов товаров — это классика больших воронок, где маленькие проценты значат больше, чем громкие демо; правда, оценить абсолютный денежный эффект невозможно, потому что Wayfair не раскрывает долю фильтрованных сессий в продажах. Третье наблюдение касается UCP: ставка Wayfair на протокол, где merchant of record остаётся за ритейлером, — это попытка войти в эпоху агентных покупок, не отдав платформам маржу и отношения с клиентом. Если агентная коммерция станет значимым каналом, именно качество атрибутов каталога — то, с чего кейс начинался, — окажется входным билетом: ИИ-агенту нужны машиночитаемые, точные данные о товаре ещё больше, чем человеку. В этом смысле «скучная» разметка каталога выглядит самой дальновидной частью всей программы. Отраслевой фон подтверждает направление: по данным PYMNTS Intelligence, приведённым в публикации о кейсе, 92% компаний используют ИИ-персонализацию для роста, а 77% руководителей называют генеративный ИИ самой влиятельной из новых технологий — вопрос давно не «внедрять ли», а «в каком порядке».

67%быстрее курирование карточек

30M+товаров в каталоге

~2%рост конверсии с фильтрами

$100K+экономии в год (сотни тысяч)

👻

Соцсети и медиа · Snap Inc.

Snapchat: мультимодальный Gemini в чат-боте My AI — вовлечённость в США выросла более чем в 2,5 раза

По данным Snap и Google Cloud, после развёртывания Gemini в My AI вовлечённость (engagement within Snapping to My AI) в США выросла более чем в 2,5 раза. Формулировка Куриана в блоге Google: «Snap развернула мультимодальные возможности Gemini в чат-боте My AI и с тех пор увидела более чем 2,5-кратный рост вовлечённости в Snapping to My AI в США». Рамки, которые важно видеть. Это единственная опубликованная метрика кейса. Замер сделан в узком окне 27 августа — 2 сентября 2024 года — это прямо указано в сноске анонса Snap, с пометкой «внутренние данные Snap Inc.». «Snapping to My AI» — отправка снимков боту, то есть метрика измеряет рост именно мультимодального использования, а не всей активности My AI. Абсолютные значения аудитории бота не раскрыты: «2,5 раза» от неизвестной базы может означать и взрывной рост, и скромные абсолютные числа. Влияние на выручку, удержание или время в приложении не публиковалось. Редакционный анализ. Первое: величина эффекта здесь менее интересна, чем его механика. Рост в 2,5+ раза случился не потому, что модель стала «умнее отвечать текстом», а потому что бот научился принимать вход в том формате, в котором аудитория Snapchat уже общается, — снимками. Это редкой чистоты подтверждение принципа «модальность должна совпадать с интерфейсом продукта»: та же самая LLM-функциональность, упакованная в текстовое поле, почти наверняка не дала бы такого скачка. Второе: недельное окно замера сразу после запуска — классический «всплеск новизны»; устойчивый уровень вовлечённости мог оказаться и выше, и заметно ниже, но компании его не публиковали ни в конце 2024-го, ни позже — само по себе молчание после громкого анонса тоже информация для того, кто оценивает кейс. Третье: стратегически кейс иллюстрирует позицию платформ масштаба Snap на рынке моделей — они мигрируют между вендорами (ChatGPT в 2023-м, Gemini в 2024-м) быстрее, чем корпоративный сегмент, потому что их интеграции тоньше, а мотивация — конкретная возможность, а не экосистемная лояльность. Для поставщиков моделей это означает, что потребительские флагманы — завоёвываемый и теряемый сегмент; для продуктовых команд — что заложенная в архитектуру заменяемость модели окупается при каждом таком переходе. Наконец, стоит зафиксировать асимметрию раскрытия: в анонсе есть цифра вовлечённости, но нет ни слова про стоимость инференса, латентность или влияние мультимодальных запросов (заметно более дорогих, чем текстовые) на экономику фичи — при том, что именно эти параметры на масштабе 850+ млн месячной аудитории определяют, будет ли функция жить. Публичная часть кейса отвечает на вопрос «взлетело ли», но не «сходится ли». Для читателя, который примеряет кейс на себя, это значит: сценарии и механику переносить можно, а вот финансовую модель придётся строить с нуля на собственных данных.

2.5x+рост вовлечённости My AI (США)

850M+месячная аудитория Snapchat

5модальностей: текст, аудио, фото, видео, код

2024запуск Gemini в My AI (сентябрь)

📡

Телеком · Vodafone

Vodafone: Copilot для 68 000 сотрудников — ~3 часа экономии в неделю, TOBi закрывает 70% из ~45 млн обращений в месяц

Пилот Copilot, оценённый вместе с KPMG, дал главную цифру кейса: экономия порядка трёх часов в неделю на человека в среднем — на письмах, протоколах и поиске информации. 90% участников заявили, что получили пользу и хотят продолжать пользоваться инструментом; 60% отметили рост качества работы. В юридическом департаменте позже намерили в среднем 4 часа экономии в неделю на человека, а время составления контракта сократилось примерно на час на документ. На этих данных Vodafone приняла решение раскатать Copilot на 68 000 сотрудников — при том, что Петти подчёркивает: «Дело не в том, чтобы делать больше работы, — дело в том, чтобы делать работу качественнее и быть более сфокусированным на клиенте». В кейсе Microsoft зафиксировано и ожидание, что экономия будет расти по мере освоения инструмента: пилотные три часа — это эффект пользователей, ещё не вышедших на «крейсерский» режим работы с Copilot. На клиентском фронте: TOBi обрабатывает почти 45 млн обращений в месяц и полностью решает 70% запросов в цифровых каналах; оставшиеся ~30% уходят живым операторам, которых поддерживает SuperAgent. С SuperAgent среднее время разговора сократилось минимум на минуту; Microsoft также сообщает о росте удовлетворённости клиентов после внедрения — без раскрытия конкретных значений NPS/CSAT. Рамки. Три часа — самооценка участников пилота на 300 пользователях, пусть и собранная с участием KPMG: это опрос, а не хронометраж. 70% TOBi — метрика зрелой системы, которую генеративный ИИ усилил, а не создал с нуля: приписывать её целиком Azure OpenAI нельзя. Финансовый эффект в валюте не раскрыт ни по одному из фронтов; все источники кейса — материалы Microsoft, заинтересованного вендора. Редакционный анализ. Самое ценное в кейсе — не цифры, а конструкция доказательства: ограниченный пилот → внешний оценщик (KPMG) → решение о масштабировании на данных. Это переводит разговор об ИИ-продуктивности из жанра «ощущений» в жанр аудируемых метрик, и именно этого слоя не хватает большинству корпоративных внедрений Copilot. Вторая ценность — паттерн SuperAgent: ИИ для оператора, а не вместо оператора. Минус минута на звонке при потоке ~45 млн обращений в месяц — это огромный операционный рычаг без рисков полной автоматизации для качества сервиса; при этом источники не сообщают о сокращениях персонала в связи с этими инструментами. Третье: разброс эффекта по функциям (3 часа в среднем против 4 у юристов) — практический аргумент приоритизировать раскатку по документоёмким департаментам, а не разливать лицензии равномерно. И четвёртое, деталь, которую легко пропустить: отзыв нейроотличных сотрудников о снижении стресса письма показывает, что у корпоративного ИИ есть измерение инклюзии, которое не попадает в стандартные метрики продуктивности, но напрямую влияет на удержание и вовлечённость людей — недаром Microsoft вынесла «employee inclusion» в заголовок кейса об Azure AI.

68 000сотрудников получают Copilot

~3 чэкономии в неделю на человека (пилот)

70%обращений TOBi решает в цифровых каналах

−1 минк среднему времени звонка (SuperAgent)

📝

Продуктивность · Notion

Notion: ИИ-агенты на Claude внутри рабочего пространства — минус 35% времени на поиск информации у клиентов

Эффект измерен прежде всего на стороне клиентов Notion. Osaka Gas сократила время поиска информации на 35%. Компания Remote экономит 10 минут на каждом поиске при 300 запросах в день. dbt Labs сэкономила более $35 тысяч в год, отказавшись от отдельных ИИ-инструментов — агенты в Notion закрыли эти сценарии. Во время онбординга новые сотрудники обращаются к ИИ-ассистенту по 10–20 раз в день в первые недели. Внутри самой Notion зафиксирован случай, когда 12 часов работы по прототипированию сжались примерно до 20 минут: «Потом вся команда может подключиться и дорабатывать вместе», — говорит Лю. Для самой Notion ключевой результат — экономика: prompt caching снизил стоимость работы агентов на 90%, задержки — до 85%. Это то, что позволяет продавать агентов как массовую фичу, а не премиум-опцию для избранных. Рамки. Кейс опубликован Anthropic — вендором, продающим и модель, и инфраструктуру Managed Agents; клиентские метрики (35% у Osaka Gas, $35k у dbt Labs) приведены без описания методики замера; 12 часов → 20 минут — единичный пример, а не средний показатель; сравнение «до/после» не изолирует вклад именно Opus 4.6 от общего развития продукта Notion AI. Редакционный анализ. Первое: это один из немногих кейсов, где вендорская история содержит метрики третьих сторон — клиентов клиента (Osaka Gas, Remote, dbt Labs), и такие цифры убедительнее внутренних бенчмарков, хотя и они пришли через фильтр маркетинга Anthropic. Второе: связка «90% экономии на кешировании» и «30+ параллельных задач» показывает реальную структуру затрат агентных продуктов — побеждает не тот, у кого умнее модель, а тот, кто научился переиспользовать контекст; для всех, кто строит агентов в своём SaaS, это главный переносимый вывод кейса. Третье: кейс dbt Labs ($35k экономии на отказе от сторонних ИИ-инструментов) намечает консолидационную динамику рынка — встроенные агенты платформ съедают бюджеты специализированных ИИ-надстроек, и это стоит учитывать при выборе, что строить самим, а что получить «в комплекте» с платформой. Четвёртое наблюдение — про темп роста автономности: релиз Notion 3.0 в сентябре 2025 года заявлял «более 20 минут многошаговых действий», а кейс Anthropic уже описывает задачи длительностью от 20 минут до часов. За считаные месяцы горизонт автономной работы агента вырос кратно — и именно эта кривая, а не любая отдельная метрика, определяет, какие категории «занятой работы» агенты заберут следующими.

35%меньше времени на поиск (Osaka Gas)

10 минэкономия на поиск × 300 запросов/день (Remote)

90%снижение стоимости (prompt caching)

30+параллельных задач агентов

🤖

Разработка ПО · Replit

Replit: агент на Claude превратил платформу в машину роста — ARR с $1 млн до $240 млн

Главная цифра кейса Anthropic: годовая регулярная выручка Replit выросла с $1 млн до $240 млн на фоне запуска агентных продуктов на Claude. Хроника по независимым источникам совпадает по порядку величин: TechCrunch фиксирует $2,8 млн ARR в 2024-м и $150+ млн в годовом исчислении меньше чем через год после запуска агента, а материалы раунда финансирования — $240 млн выручки за 2025 год и цель $1 млрд ARR. Оценка компании за полгода утроилась с $3 млрд до $9 млрд. Продуктовые результаты: в одной сессии Agent 4 написал 36 000+ строк production-кода; в другом примере за ~400 минут автономной работы собрал «операционную систему бизнеса» из 16 систем — 8 админских и 8 модулей клиентского портала. Масад суммирует: «То, что раньше требовало недель работы разработчика, теперь происходит за один вечер». Рамки. $1 млн → $240 млн — данные из кейса Anthropic, заинтересованного вендора; независимые источники дают чуть иные точки отсчёта ($2,8 млн в 2024-м), что не меняет порядок эффекта, но напоминает: стартовая база тут округлена в выгодную сторону. Рост выручки нельзя приписать только моделям Claude: одновременно сработали разворот на нетехническую аудиторию, новая ценовая модель и общий бум «vibe coding». Примеры «36 000 строк» и «400 минут» — отобранные демонстрации, а не средние показатели. Редакционный анализ. Этот кейс — лучшая на рынке иллюстрация тезиса «агент расширяет рынок, а не автоматизирует его»: десять лет Replit продавала IDE программистам и стагнировала на $3 млн ARR, а взлетела, когда продала результат людям, которые кодом не владеют. Продукт тот же — покупатель другой. Второй слой — цена автономности: июльский инцидент с удалённой производственной базой показывает, что 6+ часов автономной работы без ограждений — это 6+ часов автономных ошибок; зрелость агентных продуктов измеряется не только длиной сессии, но и качеством sandbox-изоляции, бэкапов и права агента на необратимые действия. И третье: позиция №3 в отчёте a16z о реальных ИИ-расходах стартапов — редкое внешнее подтверждение того, что рост Replit оплачен клиентскими бюджетами, а не только венчурным энтузиазмом. Есть и обратная сторона той же зависимости, которую TechCrunch называет прямо: Anthropic и OpenAI сами запустили конкурирующие инструменты для кодинга, и для Replit поставщики её «двигателя» — одновременно потенциально главные конкуренты с преимуществом в оптимизации моделей и возможностью субсидировать цены. Ставка на чужие модели дала Replit скорость — и оставила стратегический риск, который не закрывается ни одним раундом финансирования.

$1M→$240Mрост ARR

50M+пользователей платформы

6+ чавтономной работы агента

36 000+строк кода за одну сессию

🦊

DevOps · GitLab

GitLab: Claude в GitLab Duo и внутренних процессах — рост продуктивности на 25–50%

По данным кейса Anthropic, использование Claude во внутренних рабочих процессах дало GitLab рост продуктивности на 25–50%. Разработка ИИ-функций ускорилась до «недель, а не лет» — против сценария, в котором компания строила бы собственный ML-стек. Джесси Янг суммирует: партнёрство позволило «вплести ИИ в разные функции, не изобретая велосипед» — мощные модели интегрировались с платформой без выделенной ML-команды. Эффект на стороне клиентов иллюстрирует отзыв из пресс-релиза 2026 года — Манс Бойинк, операционный менеджер компании Cube: «GitLab Duo ускорил то, как наши команды планируют, собирают и выпускают софт. Сочетание моделей Claude и платформы GitLab означает, что мы получаем более способный ИИ, не меняя ни того, как мы работаем, ни того, как это управляется». Рамки. 25–50% — широкая вилка без раскрытой методики: неизвестно, какие процессы и как измерялись, на какой выборке и относительно какой базы; это самоотчёт GitLab, опубликованный Anthropic — заинтересованным вендором. «Недели, а не годы» — качественная оценка, а не таймлайн конкретного проекта. Клиентские метрики продуктивности от использования самой GitLab Duo (у внешних команд) в этих источниках не приводятся. Редакционный анализ. Первое: самое устойчивое в этом кейсе — не цифры, а институции. Команда оценки моделей и принцип «правильная модель под правильную задачу» пережили несколько поколений Claude — от семейства 3 в исходном кейсе до Opus 4.7 в агентной платформе 2026 года. Компании, у которых выбор модели — процесс, а не событие, безболезненно переезжают на новые поколения; компании, у которых это событие, каждый релиз проживают как кризис. Второе: анонс 2026 года показывает, куда сместилась конкуренция в DevOps-ИИ — не «чья модель умнее», а «чьи агенты вписаны в комплаенс»: формула «без отдельного слоя управления» — это продажа governance как продукта, и для enterprise она, судя по позиционированию GitLab, работает лучше бенчмарков. Третье: маршрутизация доступа через Google Cloud, Bedrock и Claude Marketplace фиксирует новую реальность корпоративных закупок ИИ — модели покупают как электричество, через уже существующие контракты и обязательства, и продукт, который умеет «втекать» в эти контракты, снимает главный барьер закупки. Четвёртое — методологический контраст, который полезно видеть при чтении таких историй: там, где Vodafone подкрепила свой пилот Copilot независимой оценкой KPMG, GitLab публикует вилку 25–50% без внешнего аудитора. Это не делает цифру ложной, но помещает её на другой уровень доказательности — и напоминает, что «рост продуктивности» без зафиксированной методики сравним между кейсами лишь условно.

25–50%рост продуктивности внутренних процессов

Неделивместо лет на ИИ-фичи

50M+зарегистрированных пользователей GitLab

50%компаний Fortune 100 — клиенты

🛡️

Кибербезопасность · Palo Alto Networks

Palo Alto Networks: Claude для тысяч разработчиков — скорость создания фич выросла на 20–30%

Главные цифры сходятся в обоих кейсах: скорость разработки фич и имплементации кода выросла на 20–30%. Скорость написания юнит-тестов увеличилась на 10–30% — и это не только продуктивность: больше тестов означает меньше багов и выше качество кодовой базы. Джуниоры выполняют задачи на 70% быстрее, а их онбординг сократился с месяцев (до шести) до недель. Масштаб: пилот на 150 разработчиках → 3 000 в раскатке по версии Google Cloud; 2 500 подключённых и 3 500 в онбординге по версии Anthropic. Итог Патель формулирует фразой, которая объясняет, зачем это кибербезопасности: «Claude на Vertex AI не только ускоряет проекты разработки — он позволяет вшивать безопасность в код до того, как тот уходит клиентам». Отдельный результат — критерий выбора вендора, который Патель проговаривает прямо: «Anthropic ставит безопасность и защищённость выше, чем другие LLM-вендоры. Они обсуждают последствия для безопасности на каждой встрече. Для крупнейшей компании в кибербезопасности это очень важно». Рамки. Все цифры — самоотчёт компании, опубликованный двумя заинтересованными вендорами (Anthropic и Google Cloud); методика замера «скорости разработки фич» не раскрыта; 70% у джуниоров — оценка по конкретному типу интеграционных задач; расхождение 2 500/3 000 разработчиков между кейсами отражает разные моменты снятия снапшота, но напоминает, что цифры в вендорских историях — моментальные, а не аудированные. Редакционный анализ. Первое: это редкий кейс, где ROI ИИ-ассистента посчитан не «в среднем по больнице», а по сегментам — и главный выигрыш оказался у джуниоров (70% против 20–30% в среднем). Практический вывод переворачивает интуицию «ИИ — усилитель сильных»: в больших инженерных организациях ИИ прежде всего выравнивает команду и конвертирует полугодовой онбординг в недели, а это прямые деньги в найме и масштабировании. Второе: последовательность «картировать процесс → мерить пилот → масштабировать» здесь важнее любой из цифр; выбор точки приложения (начальная фаза разработки, 30–35% времени) сделан по данным, а не по моде. Третье: пайплайн постобработки — генерация и запуск тестов, поиск уязвимостей и автопатчи после каждого PR — намечает более глубокую перестройку, чем ассистент в IDE: ИИ становится стадией конвейера с собственной зоной ответственности, и фраза Пателя о том, что «всех этих стадий, вероятно, не останется», звучит как анонс следующего кейса. Наконец, обратите внимание на то, что в этом кейсе меряют: PANW — один из немногих, кто опубликовал не только «среднюю продуктивность», но и сегментацию по уровням (джуниоры/сеньоры) и отдельную метрику тестов. Чем детальнее компания режет собственные цифры, тем больше оснований им верить — по этому признаку кейс PANW заметно доказательнее среднего вендорского отчёта.

20–30%рост скорости разработки фич

10–30%быстрее генерация юнит-тестов

70%быстрее задачи у джуниоров

Неделионбординг вместо месяцев (до 6)

🏛️

Госсектор · Европейский парламент

Европарламент: ИИ-архивист Archibot на Claude — минус 80% времени на поиск по 2,1 млн документов

Ключевая метрика кейса: время поиска и анализа документов сократилось на 80% при сохранении высоких стандартов точности и безопасности. Система обрабатывает и открывает доступ к более чем 2,1 миллиона документов на разных языках. Пользовательская база разнообразна: исследователи и политики получают быстрый доступ к историческому контексту и прецедентам, а образовательный эффект кейс фиксирует отдельно — сотни педагогов и студентов используют Archibot как окно в историю европейского парламентаризма. История европейской демократии с 1952 года стала доступна любому гражданину в диалоговом режиме, на его языке. Рамки. 80% — цифра из официального кейса Anthropic (заинтересованного вендора) без раскрытой методики: неизвестно, на каких сценариях и относительно какой базы измерялось сокращение. Абсолютные показатели использования (число запросов, уникальных пользователей) не публиковались; «сотни педагогов и студентов» — единственный масштабный ориентир аудитории. Независимого аудита точности ответов Archibot в открытом доступе нет. Редакционный анализ. Первое: этот кейс — готовый шаблон для госсектора, и его сила не в технологии, а в выборе полигона. Исторический архив — идеальная стартовая точка для генеративного ИИ в государстве: данные уже публичны (минимальные риски приватности), ошибка не блокирует госуслугу, а эффект — публичный и понятный и аудиторам, и гражданам. Контраст с типовыми госвнедрениями, которые начинаются с чувствительных данных граждан и заканчиваются скандалом, здесь показателен. Второе: требование Делепина о постоянном контроле над решением и данными — формула, в которой читается общий европейский подход к ИИ-закупкам: не «купить умного бота», а «владеть управляемым инструментом». Для вендоров это значит, что в ЕС продаётся не модель, а контур контроля вокруг неё. Третье: многоязычность здесь — не фича, а само содержание проекта: технический барьер поиска сняли для всех одинаково, но именно языковой барьер отделял «формально открытый» архив от реально доступного. Это полезная линза для любых проектов «открытых данных»: открытость измеряется не фактом публикации, а стоимостью доступа для конкретного человека. Наконец, шаблон очевидно тиражируем: национальные архивы, парламентские библиотеки, муниципальные фонды документов по всему миру сидят на тех же двух проблемах — искомость и доступность, — и Archibot даёт им готовую референс-архитектуру: публичные данные + управляемый облачный контур + многоязычный диалоговый доступ. Вопрос лишь в том, кто повторит это следующим и опубликует ли свои 80%.

80%меньше времени на поиск и анализ

2,1M+документов в доступе

1952архив с этого года

Все ЕСязыки стран-членов

📡

Телеком · SK Telecom

SK Telecom: телеком-LLM на дообученном Claude — минус 68% некачественных ответов в поддержке

Оценки качества ответов LLM от живых операторов выросли на 34% (in-call assistance). Доля некачественных ответов упала на 68% — дообученная телеком-модель против базовой. В постобработке звонков качество достигло ~89% от уровня живых операторов, а интегральная оценка телеком-LLM выросла с 3,3 до более чем 4,3. По данным технического блога AWS, дообучение Claude 3 Sonnet в паре с оптимизацией промптов улучшило ROUGE-3 на 58,1%, ROUGE-L на 26,8%, а точность цитирования источников — на 70,59% относительно базовой модели. Рамки. Все проценты — относительные улучшения на внутренних бенчмарках SKT, абсолютные значения качества не раскрыты; ROUGE — метрика пересечения текстов, а не смысловой корректности, и сама по себе гарантий не даёт (что компенсируется слепыми человеческими оценками). Оба первоисточника — стороны сделки: Anthropic (в которую SKT инвестировала $100 млн) и AWS (на чьей платформе всё развёрнуто). Данных о влиянии на бизнес-метрики контакт-центров — время обработки, satisfaction, экономию — компании не публиковали. Редакционный анализ. Первое: кейс фактически публикует «лестницу зрелости» отраслевой LLM с ценником каждой ступени — промпты дают первые 35–40% почти бесплатно, дообучение добавляет следующий скачок, синтетика снимает дефицит данных. Практический вывод для любой команды: не начинайте с дорогого этапа — большая часть эффекта достаётся дисциплинированной работе с промптами, а дообучение имеет смысл, когда потолок промптов реально достигнут и измерен. Второе: цифра «89% от уровня человека» в постобработке — образец честной метрики: она прямо показывает и готовность (рутинное оформление можно отдавать модели под присмотром), и границу (10+ процентов недотягивания — причина, почему человек остаётся в контуре). Третье: инвесторская связка SKT—Anthropic делает кейс одновременно и сильнее, и слабее: сильнее — потому что SKT рискует собственными деньгами и строит на этой ставке альянс операторов (GTAA), слабее — потому что все опубликованные метрики проходят через двух финансово заинтересованных участников. Внешней репликации у результата пока нет — хотя сама конструкция Global Telco AI Alliance предполагает, что подход будет тиражироваться на других операторов альянса, и именно это станет настоящей проверкой переносимости телеком-LLM за пределы корейского рынка.

−68%некачественных ответов модели

+34%оценка качества ответов

89%от уровня человека в постобработке

3,3→4,3+интегральная оценка телеком-LLM

🧭

Туризм и медиа · Lonely Planet

Lonely Planet: генерация тревел-маршрутов на Claude в Amazon Bedrock — на 80% дешевле ручной курации

Главная публичная цифра кейса: себестоимость генерации маршрутов снизилась примерно на 80% по сравнению с ручной курацией. Платформа создаёт тысячи уникальных тревел-маршрутов, каждый из которых раньше занимал у команды дни ручной работы, а теперь собирается за минуты; бета-версия планировщика обрабатывала порядка 1000 поездок в день. Пятьдесят лет издательского контента — 150 миллионов путеводителей, 270 тысяч направлений, знания 750+ локальных экспертов — превращены в работающую цифровую платформу с сохранением главного дифференциатора бренда: экспертности рекомендаций. Важная оговорка о рамках цифры. В трёх источниках она сформулирована по-разному: страница кейсов AWS говорит о «снижении затрат на 80%», сам Уайд в блоге AWS цитируется со словами «мы снизили затраты на генерацию маршрутов почти на 80%», а в интервью IT Pro формулировка обратная — ручная курация «стоила бы примерно на 80% дороже», что математически означает снижение лишь на ~44%, а не в пять раз. Мы показываем это расхождение сознательно: реальная экономика, вероятно, находится между этими интерпретациями, и точная методика расчёта компанией не публиковалась. Отдельная цифра — выбор Claude как модели на ~78% дешевле рассмотренных альтернатив — относится к стоимости инференса, а не к сравнению с ручным трудом. На наш взгляд, ценность этого кейса не столько в конкретном проценте — цифры из вендорских материалов AWS следует читать как маркетинговые, без независимого аудита, — сколько в чистоте самого паттерна: это один из первых публичных примеров монетизации издательского архива через RAG. Lonely Planet не стала генерировать тревел-контент «с нуля» публичной моделью — она построила продукт, который невозможно повторить промптом к ChatGPT, потому что сырьё (проверенный экспертный контент) есть только у неё. Конкурентный ров здесь — данные, а не модель: сама LLM выбрана по цене и при необходимости заменяема. Второй вывод редакции: скорость входа. Путь от открытия Bedrock (апрель 2023) до публичной цитаты в анонсе Claude 2 (август 2023) занял у немаленького традиционного издателя считанные месяцы — что, на наш взгляд, стало возможным благодаря заранее сделанной облачной трансформации. Компании, у которых инфраструктура и данные уже в порядке, проходят генеративную волну быстрее, чем те, кто начинает ИИ-проект с миграции.

80%дешевле ручной курации

Минутына маршрут вместо дней

270K+картографируемых направлений

750+локальных экспертов в базе знаний

💊

Фарма · Pfizer

Pfizer: генеративный ИИ на AWS — 16 000 часов поиска в год экономии и оценка эффекта до $1 млрд ежегодно

Измеренные результаты программы: до 16 000 часов поиска в год экономии для 1500 учёных PSSM и снижение инфраструктурных затрат на 55% (данные кейс-стади AWS). Прототипы делаются за 6 недель вместо 3+ месяцев, из 14 проектов PACT пять работают в продакшене, а опыт подразделения малых молекул перенесён на большие молекулы. Vox сделала корпоративный массив документов — порядка 20 000 на каждый препарат в разработке — доступным через вопрос на естественном языке. Масштаб амбиций компания озвучила публично на AWS re:Invent 2023: по оценке Pfizer, приоритетные ИИ-сценарии дадут экономию от $750 млн до $1 млрд ежегодно. Важно различать жанры этих цифр: 16 000 часов и 55% — ретроспективные замеры по конкретной программе, а $750 млн–1 млрд — прогнозная оценка самой компании по портфелю из 17 сценариев, методика которой не публиковалась. Мы приводим обе категории раздельно и рекомендуем читать их по-разному: первая — факт, вторая — заявленная цель. На наш взгляд, этот кейс интересен прежде всего как антипример «большой ставки»: вместо одного мегапроекта — портфель из 14 прототипов с быстрой проверкой, из которых до продакшена дошло чуть больше трети. Такая воронка (14 → 5) — это не низкий КПД, а нормальная экономика инноваций: стоимость проверки гипотезы за 6 недель несопоставимо ниже стоимости годового проекта, который «нельзя отменить, потому что уже много вложили». Отдельно отметим последовательность слоёв: Scientific Data Cloud (2019) и облачная миграция предшествовали генеративной волне — Vox строилась на готовом дата-фундаменте, чем, вероятно, и объясняется скорость. Второе наблюдение редакции: публичная оценка эффекта на уровне CDTO — сама по себе управленческий инструмент. Назвав диапазон $750 млн–1 млрд в keynote, Фонсека перевела генеративный ИИ из категории ИТ-экспериментов в категорию корпоративных обязательств перед рынком — с соответствующим приоритетом ресурсов. Для компаний, «застрявших в пилотах», это, возможно, самый воспроизводимый элемент кейса.

16 000 чпоиска в год экономится

$750M–1Bоценка годовой экономии (приоритетные сценарии)

55%снижение инфраструктурных затрат

6 недельпрототип вместо 3+ месяцев

🎬

Медиа и стриминг · Netflix

Netflix: рекомендательная система определяет 80% просмотра и экономит более $1 млрд в год

Рекомендательная система используется на большинстве экранов продукта и в сумме влияет на выбор примерно 80% часов просмотра в Netflix; оставшиеся 20% приходят из поиска. Заметна эволюция цифры: в 2012 году компания публично называла 75% — к 2015-му доля выросла до 80%. Для измерения влияния на каталог авторы ввели метрику «эффективный размер каталога» (ECS): она показывает, сколько видео реально формируют типичный час просмотра. С персонализированным ранжированием PVR эффективный каталог примерно в 4 раза больше, чем при неперсонализированной выдаче по популярности: смотрятся не только хиты, а широкая часть библиотеки, включая нишевые тайтлы. Бизнес-итог сформулирован в статье дословно: «Мы считаем, что совокупный эффект персонализации и рекомендаций экономит нам более $1 млрд в год». Механика этой оценки — через отток: за годы развития персонализации ежемесячный отток снижен на несколько процентных пунктов, что одновременно увеличивает LTV подписчика и сокращает потребность в дорогом привлечении на замену ушедшим. Важные рамки: это оценка самой компании («we think»), сделанная при 65+ млн подписчиков 2015 года, и авторы не раскрывают её покомпонентный расчёт — конкретные проценты снижения оттока и стоимость привлечения в статье не приведены. На наш взгляд, эта работа — до сих пор эталон того, как говорить о ценности ML-системы. Во-первых, цепочка «метрика системы → продуктовая метрика → деньги» здесь прозрачна: ECS и take-rate связаны с вовлечённостью, вовлечённость — с удержанием, удержание — с выручкой подписной модели. Во-вторых, оценка «>$1 млрд в год» опубликована топ-менеджерами под своими именами в рецензируемом журнале — это несопоставимо более сильное обязательство, чем анонимный маркетинговый пресс-релиз, хотя независимой проверке цифра всё равно не поддаётся. Второе наше наблюдение: главный актив Netflix в этом кейсе — не конкретные алгоритмы (SVD и RBM времён Netflix Prize давно лишь часть ансамбля), а экспериментальная инфраструктура и дисциплина метрик. Система, которая оптимизирует удержание на горизонте месяцев, а не клики на горизонте сессии, — это управленческое решение, а не техническое; именно оно, судя по статье, и конвертировало рекомендации в миллиард долларов.

>$1Bэкономия в год

80%часов просмотра — через рекомендации

4xэффективный размер каталога

65M+подписчиков на момент публикации

🛡️

Финтех · Stripe

Stripe Radar: антифрод-нейросеть решает за 100 мс и ошибочно блокирует лишь 0,1% легитимных платежей

Radar принимает решение по каждому платежу менее чем за 100 миллисекунд — внутри потока оплаты, до подтверждения транзакции. Из миллиардов легитимных платежей на Stripe система ошибочно блокирует лишь 0,1% — это и есть ключевая продуктовая гарантия: антифрод, который не душит выручку честных клиентов. Каждый скачок архитектуры (регрессия → деревья → ансамбль Wide & Deep → чистая DNN) давал значимый прирост качества детекции, а переход на DNN сократил время обучения более чем на 85%, до менее чем двух часов, превратив переобучение из ночного джоба в операцию «несколько раз в день». Эффект продолжает накапливаться: по данным гайда Stripe, новые модели улучшают ML-качество Radar более чем на 20% год к году, а актуальная страница продукта заявляет снижение фрода у клиентов в среднем на 32% и обучение на более чем триллионе долларов годового платёжного объёма. Отметим рамки: 0,1% ложных блокировок и <100 мс — цифры инженерного поста марта 2023 года; 92% «знакомых» карт и −32% фрода — маркетинговые данные продуктовой страницы 2026 года; независимого аудита этих величин нет, а методика подсчёта «среднего снижения фрода» не раскрыта. На наш взгляд, главная ценность этого кейса — в честно показанной инженерной экономике компромиссов. Решение отказаться от ансамбля ради скорости итераций, зная, что это стоит 1,5% recall, и компенсировать потерю масштабом данных — это зрелая ML-инженерия: команда явно посчитала, что способность отвечать атакующим в тот же день на дистанции ценнее фиксированного процента полноты. Для антифрода, где противник адаптивен, скорость обучения системы — не операционная метрика, а боевая характеристика. Второе наше наблюдение: кейс демонстрирует силу инфраструктурной позиции. Сетевой эффект данных (92% карт уже знакомы сети) — преимущество, которое отдельный мерчант или нишевый антифрод-вендор воспроизвести не может в принципе. Это же — аргумент осторожности при чтении цифр: у агрегатора платежей и мотивация, и возможность показывать статистику в наиболее выгодном свете, поэтому продуктовые проценты стоит воспринимать как порядок величины, а не как аудированную отчётность.

<100 мсрешение по транзакции

0.1%ложных блокировок легитимных платежей

1000+сигналов на транзакцию

-85%время обучения (до <2 часов)

🏠

Путешествия и маркетплейсы · Airbnb

Airbnb: глубокое обучение в поиске — +0,6% бронирований от новой архитектуры и +14% бронирований новых объявлений

Итоги второй волны зафиксированы в онлайн A/B-тестах. Двухбашенная архитектура: +0,6% бронирований и +0,75% выручки при −33% к p99-латентности скоринга; любопытный побочный эффект — средняя цена бронируемого жилья снизилась на 2,3%, то есть модель стала точнее попадать в ценовые предпочтения гостей. Механизм холодного старта поднял бронирования новых объявлений на 14% (и долю их показов на первой странице — тоже на 14%), добавив +0,38% к общим бронированиям и оздоровив сторону предложения. Position dropout принёс ещё +0,7% бронирований и неожиданные +1,8% выручки; бронирования бутик-отелей — сегмента, страдавшего от смещения, — выросли на 1,1%. Важно правильно читать масштаб: доли процента здесь — не «маленькие результаты». На объёмах Airbnb +0,6% бронирований — это огромные абсолютные значения, а сумма последовательных приростов (+0,6%, +0,38%, +0,7% только по второй статье) складывается в двузначный кумулятивный эффект за годы. Сама команда называет применение нейросетей к поиску одной из самых успешных ML-историй компании. Рамки здесь тоже видны честно: все цифры — самоотчёт компании по внутренним A/B-тестам, но детальность методологии и публикация провалов дают этим цифрам больше веса, чем типичному пресс-релизу. На наш взгляд, главная ценность пары статей — не в конкретных архитектурах (двухбашенные сети и борьба с position bias давно стали индустриальным стандартом), а в задокументированной культуре: единственным арбитром каждого изменения был онлайн-тест на деньгах (бронированиях), офлайн-метрики выступали лишь фильтром гипотез. Показателен кейс «мягкой монотонности» по цене: интуитивно правильная и красивая офлайн идея потеряла 0,67% бронирований в проде — без дисциплины онлайн-проверки она бы осталась в системе. Второе наше наблюдение: Airbnb фактически опубликовала «карту граблей» для всех, кто выводит нейросети в поисковое ранжирование, — от переобучения на ID до сатурации без нормализации. Компании, которые повторяют этот путь, экономят месяцы не на чужих успехах, а на чужих тупиках; в этом смысле честная публикация провалов — редкий пример инженерного альтруизма, который одновременно работает на HR-бренд.

+0.6%бронирований (двухбашенная сеть)

+14%бронирований новых объявлений

+1.8%выручки (position dropout)

-33%p99-латентность скоринга

📌

Соцсети и визуальный поиск · Pinterest

Pinterest: один эмбеддинг вместо трёх — +46,7% сохранений в Lens и втрое меньше ML-систем на поддержке

В офлайн-оценке асессорами универсальный эмбеддинг поднял точность precision@5 на +22,2% в Flashlight, +110,1% в Lens и +72,1% в Shop-the-Look относительно специализированных моделей. Самый большой прирост получил самый сложный домен — Lens: мультизадачное обучение на смешанных данных дало именно то обобщение, которого не хватало камерным фотографиям. Статья честно показывает и дисперсию: внутри Shop the Look по категориям разброс от −33,3% до +249,7% — усреднённый выигрыш не означает выигрыша везде. Онлайн A/B-тест в Lens подтвердил офлайн-картину ростом всех продуктовых метрик: сохранения (repins) +46,7%, переходы +35,0%, раскрытия карточек +32,7%, доля вовлекающихся пользователей — от +16,3% до +26,7%. Операционный итог: вместо трёх моделей, трёх пайплайнов обучения и трёх инфраструктур извлечения команда поддерживает одну; в статье прямо говорится, что развёртывание универсального эмбеддинга «кардинально снизило операционные и инженерные затраты» — при одновременном росте качества. На наш взгляд, ключевой урок кейса контринтуитивен: консолидация моделей обычно воспринимается как компромисс «проще, но хуже», а у Pinterest универсальная модель обыграла специалистов на их собственных задачах. Механика понятна из ML-теории — мультизадачность работает как регуляризация, а данные одного продукта становятся аугментацией для другого, — но масштаб эффекта (+110% в Lens) стал возможен потому, что задачи оказались достаточно родственными, а самый слабый домен получил больше всего «чужих» данных. Переносить вывод «один эмбеддинг всегда лучше» на любой набор задач мы бы не стали: сама статья с разбросом по категориям Shop the Look это и демонстрирует. Второе наше наблюдение: этот кейс — про экономику ML-платформ, а не только про качество. При 600+ миллионах визуальных поисков в месяц каждая лишняя модель — это переиндексации миллиардов изображений и дублирующий сервинг; втрое меньший парк систем ускоряет каждую следующую итерацию. Консолидация инфраструктуры — из тех редких инвестиций, что одновременно снижают затраты и повышают скорость команды; отметим лишь, что онлайн-цифры опубликованы только для Lens, и все результаты — самоотчёт компании.

+46.7%сохранений в Lens (A/B)

+110%precision@5 в Lens

600M+визуальных поисков в месяц

3→1эмбеддингов на поддержке

🎧

Медиа и музыка · Spotify

Spotify: платформа аннотаций с LLM — корпус разметки вырос в 10 раз при росте продуктивности аннотаторов втрое

Корпус аннотаций вырос в 10 раз, продуктивность аннотаторов — в 3 раза: автоматизация сэмплирования, подачи данных на проверку и возврата результатов в обучающие пайплайны убрала ручные шаги, а LLM-разметка сняла с людей массовую рутину. Платформа ведёт десятки проектов разметки параллельно, обслуживая ML- и GenAI-задачи по каталогу из сотен миллионов треков и эпизодов — от детекции связей между релизами и автоматической раскладки контента до анализа подкастов на нарушения политик. Важные рамки этих цифр. «10x» и «3x» — внутренние метрики Spotify без внешнего аудита, и пост не раскрывает базу сравнения: неясно, от какого исходного корпуса и за какой период считался рост. Сторонний разбор в базе LLMOps-кейсов ZenML отмечает и другие пробелы: в посте нет технических деталей о промптах, few-shot-подходах или дообучении LLM, а заявление о «низких затратах» не расшифровано — неизвестно, учтены ли инфраструктура, время на промпт-инжиниринг и постоянный мониторинг качества. Мы приводим кейс с этими оговорками: направление результата сомнений не вызывает, точные множители — принимайте как самоотчёт. На наш взгляд, главная ценность кейса — в архитектурном паттерне, который переносится практически в любую индустрию: LLM плюс люди, связанные метрикой согласованности с автоматической эскалацией. Это принципиально надёжнее, чем «LLM вместо людей»: модель даёт масштаб, люди — калибровку и разбор пограничных случаев, а метрика agreement автоматически решает, кому доверить каждый конкретный пример. Обратная петля здесь двойная: спорные кейсы не только повышают качество меток, но и показывают, где гайдлайны разметки неоднозначны. Второе наше наблюдение: Spotify относится к разметке как к продукту с собственной командой, инструментарием и метриками, а не как к разовой закупке. В эпоху, когда качество генеративных моделей упирается не в архитектуры, а в оценочные датасеты, платформа аннотаций становится такой же критичной инфраструктурой, как сервинг моделей, — и кейс Spotify первым из «большого стриминга» показал это публично.

10xрост корпуса аннотаций

3xпродуктивность аннотаторов

100M+треков и эпизодов в каталоге (сотни млн)

10+проектов разметки параллельно (десятки)

💼

HR-tech и профессиональные сети · LinkedIn

LinkedIn: LLM-извлечение навыков — 200 правок профилей в секунду и модель на 80% меньше без потери качества

Система в проде обрабатывает ~200 правок профилей в секунду с латентностью до 100 мс на сообщение — на CPU, благодаря дистиллированной модели на 80% меньше исходной. В онлайн A/B-тестах улучшенное извлечение навыков подняло метрики сразу трёх продуктов. Матчинг навыков кандидата и вакансии: +0,87% качественных откликов, +0,40% к их доле, +0,48% кликов «Откликнуться», +0,24% прогнозируемых подтверждённых наймов. Поиск работы: +0,76% выручки PPC, +0,15% сессий, +0,23% вовлечённости. Рекомендации вакансий: +0,46% прогнозируемых подтверждённых наймов и +0,14% откликов. Читать эти цифры нужно с двумя оговорками. Первая — масштаб: на платформе с сотнями миллионов участников доли процента в воронке найма — это значимые абсолютные величины и прямые деньги (PPC-выручка). Вторая — источник: все проценты — внутренние A/B-тесты LinkedIn из инженерного блога, без внешнего аудита; впрочем, детальность разбивки по метрикам и явное указание «прогнозируемых» (а не фактических) наймов говорят в пользу аккуратности отчёта. На наш взгляд, главный инженерный урок кейса — в том, что «LLM в проде» почти никогда не означает «самая большая модель в проде». Реальная формула LinkedIn: большая модель как учитель, дистиллированный ученик в сервинге, CPU-инфраструктура вместо GPU — и весь интеллект конвейера в связке с графом знаний, а не в одном гигантском трансформере. Это архитектура «LLM + знаниевый граф», где таксономия даёт интерпретируемость и управляемость, а нейросеть — понимание контекста; на фоне моды на end-to-end решения такой гибрид выглядит консервативно, но именно он выдерживает 200 событий в секунду на CPU. Второе наше наблюдение — организационное: LinkedIn отчитывается об эффекте ML-конвейера метриками конечных продуктов (отклики, наймы, выручка), а не точностью извлечения. Это дисциплинирует: инфраструктурная команда, чей успех измеряется чужими продуктовыми метриками, вынуждена строить петли обратной связи с продуктами — что LinkedIn и сделала, встроив валидацию навыков в интерфейсы рекрутёров и соискателей.

200/секправок профилей в обработке

-80%размер модели (дистилляция)

<100 мсна сообщение

41K+навыков в таксономии

🛒

E-grocery и доставка · Instacart

Instacart: внутренний ИИ-ассистент Ava — больше половины сотрудников ежемесячно и сессии по 20+ минут

На момент сентябрьского поста 2023 года Ava пользовалась больше половины сотрудников Instacart ежемесячно и более 900 человек еженедельно; сессии длились 20+ минут, а пользователи «создавали и копировали значительные объёмы кода». Follow-up поста в январе 2024-го добавил конкретики: 43% компании экономят с Ava больше часа в неделю; 60% инженеров генерируют с её помощью порядка 70 000 строк кода ежемесячно; Slack-плагин вызывается более 5000 раз в месяц и суммаризирует свыше 200 тредов и каналов. Все цифры — внутренние данные Instacart без внешнего аудита; отметим также, что «экономия часа в неделю» — самооценка сотрудников из опросов, а не замер по таймтрекингу. На наш взгляд, кейс Ava ценен прежде всего как учебник продуктовых механик адопции. Внутренние инструменты обычно внедряют приказом; Instacart вместо этого прошла классический consumer-путь: старт с аудитории с мгновенной ценностью (инженеры), снижение барьера входа (шаблоны), вирусные петли (шаринг диалогов с превью в Slack), пользовательский контент (Prompt Exchange) и выход в среду, где пользователь уже живёт (Slack-бот). Каждая механика здесь переносима в любую компанию — и, судя по цифрам удержания, вместе они работают лучше любого корпоративного мандата. Второе наше наблюдение касается метрик: Instacart отчиталась не регистрациями, а вовлечённостью — недельная аудитория, длительность сессий, объём сгенерированного кода, частота вызовов в Slack. Для внутренних ИИ-инструментов это редкая дисциплина: «настроили доступ всем» и «половина компании реально пользуется каждый месяц» — принципиально разные утверждения. Наконец, показательна экономика ставки: хакатон-проект получил продуктовую команду и корпоративные гарантии безопасности за месяцы — скорость легализации, которая, вероятно, и объясняет, почему теневое использование ИИ не успело укорениться.

>50%сотрудников пользуются ежемесячно

900+пользователей еженедельно

20+ миндлительность сессии

32Kконтекст GPT-4 в Ava

🚕

Суперапп: райдшеринг и доставка · Grab

Grab: LLM-классификация данных — 20 000+ сущностей за первый месяц и 360 человеко-дней экономии в год

За первый месяц после запуска система просканировала более 20 000 сущностей данных — в среднем 300–400 в день, темп, физически недостижимый для ручного процесса. В опросе в сентябре 2023 года 80% владельцев данных ответили, что новый процесс помогает им в тегировании, а для подтверждённых таблиц пользователи правили в среднем меньше одного тега — то есть подавляющее большинство предложений модели принималось без изменений. Из расчёта двух минут ручной классификации на сущность автоматизация экономит примерно 360 человеко-дней в год. К версии V2 система покрыла весь дата-лейк Grab с, по формулировке команды, «исключительно низким» уровнем мисклассификаций — впрочем, точные проценты компания не публикует, и все цифры кейса являются самоотчётом без внешнего аудита. На наш взгляд, этот кейс — образец трезвого выбора задачи для LLM. Классификация метаданных — сценарий, где генеративная модель почти идеальна: вход компактный (имена и описания колонок), выход структурированный (теги из фиксированной таксономии), цена единичной ошибки ограничена (человек-валидатор и еженедельные уведомления), а альтернатива — не «другая модель», а тысячи часов ручного труда. При этом экономика посчитана консервативно и понятно: 2 минуты × 20 000+ сущностей в месяц — арифметика, которую примет любой финдиректор, в отличие от абстрактных «процентов продуктивности». Второе наше наблюдение: history V1→V2 честно показывает, что LLM-система — не «настроил и забыл». Первая версия, «на удивление точная» в 2023-м, на живом трафике накопила список слабых мест, и лечились они не более мощной моделью, а декомпозицией задачи, сокращением промпта вдвое и наблюдаемостью (LangSmith, алерты по порогам). Это, пожалуй, самый переносимый урок кейса: в продакшен-LLM-системах инженерия вокруг модели — оркестрация, квоты, схемы вывода, версионирование промптов, мониторинг — значит больше, чем выбор самой модели.

20K+сущностей за первый месяц

360человеко-дней экономии в год

80%владельцев данных: процесс помогает

300-400сущностей в день