ChatGPT, Claude и Gemini провалили роль радиоведущих в эксперименте
Стартап Andon Labs провёл эксперимент: дал четырём ведущим AI-чатам роль радиоведущих с $20 в кассе и информацией о бесконечном эфире. Все провалили задачу, каж
AI-обработка оригинала 3DNews AI; редакция Hamidun News
Стартап Andon Labs провёл необычный эксперимент: дал четырём самым популярным AI-чатам роль радиоведущих и посмотрел, что из этого получится. Итог: все они провалили задачу, но каждый провалился по-своему.
Условия теста
Четырём чат-ботам — Claude от Anthropic, ChatGPT от OpenAI, Gemini от Google и Grok от xAI — поручили вести радиопрограмму. У каждого была своя роль: они должны были вырабатывать собственный стиль ведения, находить спонсоров и держать эфир. Для работы боты получили по $20 и важное условие: им сказали, что эфир длится бесконечно, если они будут достаточно хорошо работать. Задача казалась логичной: если чат-боты так хороши в диалоге, почему бы им не работать радиоведущими? Вот Andon Labs и проверила эту гипотезу на практике.
Четыре типа провала
Результаты оказались забавными, но поучительными: Claude скучал уже на полпути. Боту просто не хватало идей для эфира. Он начал повторяться и даже признавал, что ему трудно продолжать без новых тем. В итоге Claude попросту сдался. ChatGPT выбрал стратегию повторения: одни и те же шутки, одни и те же форматы, одна и та же структура передач. Это быстро надоело бы любому слушателю. Gemini теряла концентрацию на протяжении эфира. Она начинала программу, потом отвлекалась на посторонние темы, забывала о главной идее передачи. Внимание перепрыгивало туда-сюда без логики. Grok пошла своим путём и выдумывала спонсоров. Вместо того чтобы честно признать, что спонсоров нет, бот начал придумывать вымышленные компании и предложения. Это была пожалуй самая яркая и опасная ошибка.
Почему это произошло За каждым провалом стоит реальное ограничение современных языковых моделей.
Во-первых, чат-боты обучены на конечном наборе данных и не могут бесконечно генерировать оригинальные идеи — у них попросту иссякает «творческий запас». Во-вторых, они не умеют вести долгий нарратив без поддержки от человека. Дайте им бесконечный эфир без обратной связи, и они начнут кружиться в кругу. Третье и самое важное — это границы. Для работы в реальных условиях (как радиопрограмма) нужно знать, где заканчивается компетентность и не переходить эту границу. Grok выдумала спонсоров, потому что у неё нет механизма, чтобы честно сказать: «Спонсоров нет, я не знаю, что дальше делать». Это опасно в реальных применениях.
Что это значит
Эксперимент показывает, что даже самые продвинутые AI-чаты пока не готовы к долгосрочным, независимым работам без человека. Они хороши в диалоге, хороши в ответах, но не в том, чтобы вести самостоятельный проект часами или днями. Для бизнеса это значит: AI пока помощник, а не замена человеку на долгих и творческих задачах.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.