MarkTechPost
Источник AI-новостей. Материалы автоматически отбираются и адаптируются редакцией Hamidun News.
Последние публикации

Talkie-1930: исследователи выпустили 13B-модель без знаний об интернете и Второй мировой
Talkie-1930 — открытая 13B-модель, обученная только на англоязычных текстах до 1931 года, чтобы изучать историческое мышление, утечки данных и способность ИИ обобщать вне эпохи.

MarkTechPost показал, как собрать лёгкого VLA-агента с латентной моделью мира и MPC
В новом туториале MarkTechPost разбирает, как построить упрощённого embodied-агента: он работает по RGB-кадрам, учит латентную модель мира и планирует действия через MPC.

Arcee AI выпустила Trinity Large Thinking — открытую модель рассуждения для ИИ-агентов
Arcee AI открыла веса Trinity Large Thinking по лицензии Apache 2.0 и сделала ставку на длинные агентные сценарии, многошаговое рассуждение и уверенную работу с инструментами.

NVIDIA показала полный пайплайн оптимизации модели с FastNAS pruning и fine-tuning
NVIDIA выпустила практический гайд по Model Optimizer: в одном Colab-ноутбуке показаны обучение ResNet20, FastNAS pruning под лимит FLOPs и восстановление качества через fine-tuning.

TII выпустила Falcon Perception — 0,6B-модель для сегментации и поиска объектов по тексту
TII открыла Falcon Perception — компактную 0,6-миллиардную vision-language-модель, которая ищет и сегментирует объекты по обычному тексту и на сложных запросах обходит SAM 3.

Google DeepMind позволила LLM переписать алгоритмы игровой теории и обойти экспертов
Google DeepMind показала, что AlphaEvolve может переписывать код алгоритмов для игр с неполной информацией и находить решения, которые на большинстве тестов сильнее ручных экспертных вариантов.

Z.AI показала, как собрать production-ready агентные системы на GLM-5 с tool calling
Z.AI выпустила подробный туториал по GLM-5: от настройки SDK и OpenAI-совместимого API до streaming, tool calling, JSON-вывода и multi-turn агента для продакшена.

Netflix открыла Void — модель для удаления объектов из видео с учетом физики сцены
Команда Netflix и INSAIT выложила в open source Void — систему, которая удаляет объекты из видео и одновременно пересчитывает падения, поддержку предметов и другие физические последствия.

Как искусственный интеллект помогает брендам одежды проектировать моду будущего
Алгоритмы уже помогают модным брендам быстрее создавать коллекции, прогнозировать тренды, снижать перепроизводство и персонализировать покупки, но вместе с этим ставят вопросы об авторстве и труде.

Как собрать пайплайн Netflix Void для удаления объектов из видео с помощью CogVideoX
В подробном разборе показано, как развернуть модель Netflix Void, скачать нужные чекпойнты, подготовить входные данные и запустить удаление объектов из видео через CogVideoX.

Gladstone Institutes представили MaxToki — ИИ-модель, предсказывающую старение клеток
Модель MaxToki от Gladstone Institutes учится видеть не «снимок» клетки, а её траекторию во времени, оценивает ускорение старения и подсказывает мишени для вмешательства.

TinyFish запустила единую веб-платформу для AI-агентов с Search, Fetch, Browser и Agent
TinyFish объединила поиск, рендеринг страниц, браузерные сессии и автономные веб-воркфлоу в одной платформе для AI-агентов с единым API-ключом и общим пулом кредитов.

Google добавила Skills в Chrome и превратила AI-промпты в сценарии на один клик
Google запустила в Chrome функцию Skills: пользователи Gemini смогут сохранять часто используемые промпты как повторяемые сценарии и запускать их в браузере одним кликом.

Google DeepMind представила Gemini Robotics-ER 1.6 для автономии и чтения приборов роботами
Google DeepMind обновила Gemini Robotics-ER до версии 1.6: модель для роботов лучше понимает пространство, несколько видеопотоков и умеет читать сложные промышленные приборы.

MarkTechPost разобрал полный цикл обучения больших языковых моделей: от данных до деплоя
MarkTechPost выпустил подробный разбор того, как сегодня строят LLM: от предобучения на огромных корпусах до SFT, RLHF, оптимизации логики рассуждений и продакшен-развертывания.

Google представила Gemini 3.1 Flash TTS — модель речи с управлением, диалогами и 70+ языками
Google запустила Gemini 3.1 Flash TTS в превью: модель озвучивает текст на 70+ языках, поддерживает диалоги с двумя голосами и позволяет управлять подачей через аудиотеги.

Mem0 и OpenAI: как собрать универсальный слой долгосрочной памяти для AI-агентов
Новый туториал разбирает связку Mem0, моделей OpenAI и ChromaDB: из обычных диалогов она извлекает факты, хранит их по user_id, ищет по смыслу и подмешивает в ответы агента.

SmolAgents: как собрать мультиагентную AI-систему с кодом и динамической оркестрацией
Разбор реализации на SmolAgents показывает, как лёгкие AI-агенты исполняют код, вызывают инструменты, работают с памятью и координируют задачи внутри одной системы.

NetKet и JAX: как собрать Transformer-модель для фрустрированных спиновых систем
Гайд показывает, как с помощью NetKet, JAX и архитектуры Transformer собрать исследовательский VMC-пайплайн для моделирования фрустрированной спиновой цепочки J1-J2.

OpenAI представила GPT-Rosalind — ИИ-модель для биологии, геномики и разработки лекарств
OpenAI запустила GPT-Rosalind — специализированную модель для биологии и фармы, которая помогает ускорять разработку лекарств, анализ геномных данных и планирование экспериментов.

Google представила Auto-Diagnose — ИИ-систему для поиска причин сбоев интеграционных тестов
Google представила Auto-Diagnose — систему на базе Gemini 2.5 Flash, которая сама разбирает логи упавших интеграционных тестов и с точностью 90,14% находит корневую причину сбоя.

OpenAI GPT-OSS: запуск open-weight моделей в Colab с MXFP4 и продвинутым инференсом
Новый гайд объясняет, как поднять openai/gpt-oss-20b в Google Colab: установить зависимости для Transformers, проверить GPU, включить MXFP4-квантование и выстроить рабочий пайплайн инференса.

Anthropic выпустила Claude Opus 4.7 для агентного программирования, зрения и автономных задач
Anthropic представила Claude Opus 4.7 — обновление флагманской модели с заметным приростом в агентном кодинге, анализе детализированных изображений и длинных автономных задачах.

PrismML Bonsai: как запустить 1-битную модель на CUDA с GGUF, JSON и RAG
В новом туториале по PrismML Bonsai разобрали, как запустить Bonsai-1.7B на GPU через CUDA и GGUF, измерить скорость, настроить чат, строгий JSON-вывод и базовый RAG-сценарий.

xAI запустила отдельные Grok API для распознавания и синтеза речи для корпоративных разработчиков
xAI вынесла голосовой стек Grok в отдельные API: Speech-to-Text и Text-to-Speech для бизнеса с агрессивными ценами, мультиязычностью и ставкой на рынок голосовых приложений.

NVIDIA выпустила Ising — первое открытое семейство ИИ-моделей для квантово-классических систем
NVIDIA представила Ising — открытое семейство ИИ-моделей для калибровки квантовых процессоров и коррекции ошибок, чтобы приблизить полезные гибридные квантово-классические системы.

Почему LoRA ломается в продакшене и как RS-LoRA спасает дообучение моделей
LoRA отлично справляется со стилем и форматом, но при дообучении новым фактам теряет сигнал; RS-LoRA решает проблему, меняя формулу масштабирования на более стабильную.

OpenKB и OpenRouter показали, как собрать локальную ИИ-базу знаний с поиском на Llama
Новый туториал объясняет, как развернуть локальную базу знаний на OpenKB, подключить открытую модель через OpenRouter и безопасно настроить поиск без хардкода ключей.

OpenAI и Magika показали, как собрать пайплайн для распознавания файлов и анализа угроз
В гайде показан практический пайплайн, где Magika определяет реальный тип файла по байтам, а OpenAI помогает интерпретировать результат и выделять потенциальные риски.

Meta представила Sapiens2 — единую модель компьютерного зрения для позы, сегментации и 3D
Meta Reality Labs выпустила Sapiens2 — семейство vision-моделей для анализа человека, которое из одной архитектуры решает позу, сегментацию, геометрию поверхности и 3D-карты. *Meta признана экстремистской организацией и