Почему ChatGPT забывает: объяснение контекстного окна языковых моделей

После часа разговора с ChatGPT модель вдруг забывает имя персонажа из первого сообщения и снова спрашивает об уже оговорённом. Это не сбой — это контекстное окно. Каждая языковая модель видит лишь ограниченный объём текста: когда разговор выходит за этот предел, старые сообщения буквально исчезают из «поля зрения» модели. Разбираемся, как это работает и как с этим жить.

ХЖ

Хамидун Жемал

AI‑мониторинг · Habr AI

15 июн. 2026 г.· 3 мин

AI-обработка оригинала Habr AI; редакция Hamidun News

Почему ChatGPT забывает: объяснение контекстного окна языковых моделей — Источник: Habr AI. Коллаж: Hamidun News.

◐ Слушать статью

После часа работы с ChatGPT модель вдруг забывает детали из первых сообщений — противоречит сама себе, снова спрашивает об уже оговорённом. Это не сбой: так работает контекстное окно, и понять этот механизм важно для каждого, кто использует AI в работе.

Что такое контекстное окно Языковая модель не «помнит» разговор в человеческом смысле.

Она обрабатывает текст как единый блок — так называемый контекст. Контекстное окно — это максимальный объём текста, который модель может учитывать за один запрос. Единица измерения — токен: примерно 3–4 символа на английском или 1–2 слова на русском.

Современные модели работают с окнами разной ёмкости: GPT-4o — до 128 000 токенов (около 96 000 слов) Claude 3.7 Sonnet — до 200 000 токенов Gemini 1.5 Pro — до 2 000 000 токенов Llama 3 — от 8 000 до 128 000 токенов в зависимости от версии Даже 128 000 токенов — это около 300 страниц текста.

Звучит много, но в реальных рабочих сессиях — с кодовой базой, документами и долгим диалогом — этот лимит достигается быстрее, чем кажется.

Почему модель «забывает»

Когда разговор превышает контекстное окно, модель не «забывает» — она просто не видит старые сообщения. Они технически отсутствуют во входных данных запроса. Большинство сервисов решают эту проблему одним из двух способов. Обрезка: самые старые сообщения удаляются из контекста. Модель продолжает отвечать, но без доступа к началу разговора. Именно так работает большинство чат-интерфейсов по умолчанию. Суммаризация: вместо первых N сообщений в контекст подаётся их краткое изложение, сгенерированное самой моделью. Детали теряются, но общая нить сохраняется. Есть и третий подход — RAG (Retrieval-Augmented Generation): важная информация хранится во внешней базе и подгружается в контекст только при необходимости. Так работают более сложные AI-системы и корпоративные решения.

Потеря в середине: скрытая проблема Дело не только в переполнении.

Качество ответов деградирует ещё до того, как контекст заканчивается. Исследователи из Stanford и Berkeley в 2023 году описали феномен «потери в середине» (lost in the middle): модели значительно лучше используют информацию из начала и конца контекста. Данные, попавшие в середину, обрабатываются хуже — модель как бы «не замечает» их.

«Языковые модели имеют тенденцию хуже использовать релевантную информацию, когда она находится в середине длинного контекста», — из исследования Lost in the Middle, 2023.

Практический вывод: ключевые инструкции лучше давать в начале или в конце запроса, а не закапывать в середину длинного документа.

Как работать с этим ограничением

Несколько практических стратегий: Разбивайте задачи — вместо одного гигантского сеанса делите работу на сессии с чёткими промежуточными итогами Размещайте важное в начале — системный промпт и ключевые ограничения работают лучше всего в начале контекста Используйте модели с большим окном — для объёмных документов выбирайте Gemini 1.5 Pro (2M токенов) или Claude с 200K Суммаризируйте самостоятельно — перед новой сессией попросите модель подвести итоги предыдущей и сохраните этот текст * Оценивайте длину заранее — 1 страница текста ≈ 500 токенов, 1 файл кода ≈ 1 000–5 000 токенов ## Что это значит Контекстное окно — не технический нюанс, а центральный параметр любой работы с языковыми моделями. Понимание этого ограничения позволяет не списывать «странное» поведение модели на глюк, а правильно организовывать рабочие сессии.

Гонка за большим контекстом продолжается: провайдеры наперебой увеличивают лимиты, но инженерный вопрос «что модель видит прямо сейчас» останется ключевым ещё долго.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 50+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.