Издание · проверено редакцией

Together AI Blog

Источник AI-новостей. Материалы автоматически отбираются и адаптируются редакцией Hamidun News.

11 материалов в Hamidun·Последний: 21 мая· Активен·together.ai ↗

Последние публикации

Together AI представила ATLAS: спекулятор, который ускоряет LLM в 4 раза
LLMTogether AI Blog

Together AI представила ATLAS: спекулятор, который ускоряет LLM в 4 раза

Новая технология adaptive-learning speculator ATLAS от Together AI ускоряет LLM inference в 4 раза без ручной настройки — автоматически адаптируется к рабочей нагрузке пользователя.

2026-05-21·2 мин
Together AI запустила самообслуживаемые GPU-кластеры Instant Clusters на NVIDIA H100 и B200
LLMTogether AI Blog

Together AI запустила самообслуживаемые GPU-кластеры Instant Clusters на NVIDIA H100 и B200

Together AI официально запустила Instant Clusters — самообслуживаемые GPU-кластеры на базе NVIDIA H100 и B200, которые развёртываются за минуты и готовы к production без долгих согласований.

2026-05-21·3 мин
Together AI увеличила лимиты Batch Inference API в 3000 раз и снизила цены на 50%
LLMTogether AI Blog

Together AI увеличила лимиты Batch Inference API в 3000 раз и снизила цены на 50%

Batch Inference API теперь работает с 30 млрд токенов (вместо 10 млн) и обходится вдвое дешевле, чем real-time API. Поддерживает все 40+ моделей платформы.

2026-05-21·2 мин
Together AI расширила платформу: обучение моделей на 100B+ параметрах
LLMTogether AI Blog

Together AI расширила платформу: обучение моделей на 100B+ параметрах

Платформа fine-tuning Together AI теперь обучает самые мощные открытые модели — DeepSeek-R1, Qwen3-235B и Llama 4 — с поддержкой расширенных контекстов и интеграцией Hugging Face.

2026-05-21·3 мин
FlashAttention-3 ускорит трансформеры вдвое при 75% загрузке GPU
LLMTogether AI Blog

FlashAttention-3 ускорит трансформеры вдвое при 75% загрузке GPU

Together AI выпустила FlashAttention-3 — алгоритм, который ускоряет трансформеры в 1.5-2 раза и использует 75% производительности GPU H100, поддерживая низкую точность FP8.

2026-05-21·2 мин
Together AI добилась 90% ускорения обучения на NVIDIA Blackwell
LLMTogether AI Blog

Together AI добилась 90% ускорения обучения на NVIDIA Blackwell

Together AI анонсировала доступ к GPU-кластерам NVIDIA Blackwell с собственной оптимизацией, достигнув 90% ускорения обучения Llama 70B и 15,264 токена в секунду на GPU.

2026-05-21·3 мин
ThunderKittens от Together AI: новый язык для эффективных GPU kernels
LLMTogether AI Blog

ThunderKittens от Together AI: новый язык для эффективных GPU kernels

Together AI представила ThunderKittens — язык программирования для GPU kernels, который пишется как PyTorch, но работает как чистый CUDA. На H100 код работает даже быстрее классического FlashAttention2.

2026-05-21·3 мин
DSGym: фреймворк для тренировки data science агентов с 90+ научными задачами
LLMTogether AI Blog

DSGym: фреймворк для тренировки data science агентов с 90+ научными задачами

Together AI опубликовала DSGym — единый фреймворк для оценки и обучения LLM-агентов на data science задачах. Включает 90+ биоинформатических задач и 92 Kaggle соревнования, на синтетических данных натренирована 4B модель

2026-05-21·2 мин
Together AI объяснил, почему облако для AI — совсем другая архитектура
LLMTogether AI Blog

Together AI объяснил, почему облако для AI — совсем другая архитектура

AI-стартапы типа Cursor итерируют еженедельно и потребляют GPU как веб-приложения 2012-го. Together AI разобралась, какой облако должно быть, чтобы вытянуть скорость AI-native компаний.

2026-05-21·2 мин
Together AI: как ядерные оптимизации закрывают разрыв между моделями и GPU
LLMTogether AI Blog

Together AI: как ядерные оптимизации закрывают разрыв между моделями и GPU

Команда ядерных оптимизаций Together AI создала технологию, которая ускоряет работу GPU на 2–3x. За неделю они адаптировали ядра для новых Blackwell GPU — работу, которую NVIDIA делала год.

2026-05-21·3 мин
FlashAttention-4: как Together AI ускорила внимание на GPU Blackwell
LLMTogether AI Blog

FlashAttention-4: как Together AI ускорила внимание на GPU Blackwell

Together AI представила FlashAttention-4 — оптимизацию алгоритма внимания для GPU Blackwell, которая достигает 1605 TFLOPs/s и работает в 2.7 раза быстрее, чем Triton.

2026-05-21·2 мин