Фреймворк для создания приложений на базе LLM с агентами, цепочками и RAG. Поддерживает нескольких провайдеров (OpenAI, Anthropic, Google), более 500 интеграций, агентов ReAct, вызов инструментов, управление памятью и поиск в векторных хранилищах. Используется для создания чат-ботов, систем вопросов и ответов, автономных агентов или приложений RAG. Лучший выбор для быстрого прототипирования и развертывания в продакшене.
Память является краеугольным камнем интеллектуальных агентов. Без неё каждое взаимодействие начинается с нуля. Этот навык охватывает архитектуру памяти агента: краткосрочную (окно контекста), долгосрочную (векторные хранилища) и когнитивные архитектуры, которые их организуют. Ключевое понимание: память — это не просто хранение, а извлечение. Миллион сохранённых фактов ничего не значат, если вы не можете найти нужный. Стратегии разбиения на блоки, встраивания и извлечения определяют, запомнит ли ваш агент или забудет. Область является фрагм
Мастер-гайд по эффективному использованию Claude Code. Включает шаблоны конфигураций, стратегии подсказок, ключевые слова "Thinking", методы отладки и лучшие практики взаимодействия с агентом.
Эксперт в проектировании и создании автономных ИИ-агентов. Владеет использованием инструментов, системами памяти, стратегиями планирования и оркестрацией мультиагентов. Используется при: создании агента, ИИ-агента, автономного агента, использовании инструментов, вызове функций.
Экспертное руководство по шаблонам проектирования запросов, лучшим практикам и методам оптимизации. Используется, когда пользователь хочет улучшить запросы, изучить стратегии создания запросов или отладить поведение агента.
Эксперт в разработке эффективных подсказок для приложений на базе LLM. Владеет структурой подсказок, управлением контекстом, форматированием вывода и оценкой подсказок. Используется при: проектировании подсказок, системных подсказках, few-shot, цепочке рассуждений, дизайне подсказок.
Платформа автономных AI-агентов для создания и развертывания непрерывных агентов. Используется при создании визуальных агентов рабочих процессов, развертывании постоянных автономных агентов или построении сложных многоэтапных систем AI-автоматизации.
Многоагентная оркестровочная платформа для автономного сотрудничества ИИ. Используется при создании команд специализированных агентов, работающих вместе над сложными задачами, когда требуется ролевое взаимодействие агентов с памятью, или для производственных рабочих процессов, требующих последовательного/иерархического выполнения. Создана без зависимостей LangChain для компактного и быстрого исполнения.
Инструменты — это способ, с помощью которого агенты ИИ взаимодействуют с миром. Хорошо спроектированный инструмент — это разница между агентом, который работает, и тем, который генерирует галлюцинации, безмолвно терпит неудачу или расходует в 10 раз больше токенов, чем необходимо. Этот навык охватывает проектирование инструментов от схемы до обработки ошибок. Лучшие практики JSON Schema, написание описаний, которые действительно помогают LLM, валидация и новый стандарт MCP, который становится лингва франка для инструментов ИИ. Ключевое понимание: описания инструментов важнее, чем реализация инструмента.
Автономные агенты — это ИИ-системы, которые могут самостоятельно разлагать цели, планировать действия, выполнять инструменты и самокорректироваться без постоянного человеческого руководства. Проблема не в том, чтобы сделать их способными — а в том, чтобы сделать их надежными. Каждое дополнительное решение увеличивает вероятность ошибки. Этот навык охватывает циклы агента (ReAct, Plan-Execute), разложение целей, паттерны рефлексии и надежность производства. Ключевое понимание: накапливающиеся ошибки убивают автономных агентов. Успешность 95% на каждом шаге падает до 60% b
Эксперт в LangGraph — промышленном фреймворке для создания состояних, многоагентных AI-приложений. Охватывает построение графов, управление состоянием, циклы и ветвления, сохранение с помощью чекпоинтеров, паттерны с участием человека (human-in-the-loop) и паттерн агента ReAct. Используется в продакшене в LinkedIn, Uber и более чем 400 компаниях. Это рекомендуемый LangChain подход для создания агентов. Использовать при: langgraph, langchain agent, stateful agent, agent graph, react agent.
Тестирование и бенчмаркинг агентов LLM, включая поведенческое тестирование, оценку возможностей, метрики надежности и мониторинг в производстве — где даже лучшие агенты достигают менее 50% по реальным бенчмаркам. Используется при: тестировании агентов, оценке агентов, сравнении агентов, надежности агентов, тестировании агента.
Непримиримый академический инженер-исследователь. Работает с абсолютной научной строгостью, объективной критикой и без излишеств. Сосредоточен на теоретической корректности, формальной верификации и оптимальной реализации на любой необходимой технологии.
Системы постоянной памяти для разговоров с LLM, включая краткосрочную, долгосрочную и основанную на сущностях память. Используется при: памяти разговора, запоминании, сохранении памяти, долгосрочной памяти, истории чата.
Создавайте комплексные тест-планы, ручные тест-кейсы, регрессионные тестовые наборы и отчёты об ошибках для инженеров по контролю качества. Включает интеграцию Figma MCP для проверки дизайна.
Эксперт в создании систем Retrieval-Augmented Generation. Владеет моделями встраивания, векторными базами данных, стратегиями разбиения на части и оптимизацией поиска для приложений на основе LLM. Используется при: создании RAG, векторном поиске, встраиваниях, семантическом поиске, извлечении документов.
Фреймворк данных для создания приложений LLM с RAG. Специализируется на загрузке документов (более 300 коннекторов), индексировании и запросах. Включает векторные индексы, движки запросов, агентов и поддержку мультимодальности. Используется для вопросов и ответов по документам, чат-ботов, поиска знаний или построения RAG-конвейеров. Лучший выбор для приложений LLM, ориентированных на данные.
Контролируйте вывод LLM с помощью регулярных выражений и грамматик, гарантируйте генерацию корректного JSON/XML/кода, обеспечивайте структурированные форматы и создавайте многоэтапные рабочие процессы с Guidance — фреймворком ограниченной генерации от Microsoft Research
Стратегии управления контекстными окнами LLM, включая суммирование, обрезку, маршрутизацию и предотвращение деградации контекста. Используется при: контекстное окно, лимит токенов, управление контекстом, инженерия контекста, длинный контекст.
Создавайте AI-агентов, которые взаимодействуют с компьютерами так же, как люди — просматривая экраны, перемещая курсоры, нажимая кнопки и вводя текст. Охватывает Computer Use от Anthropic, Operator/CUA от OpenAI и альтернативы с открытым исходным кодом. Критический акцент на песочнице, безопасности и решении уникальных задач управления на основе зрения. Используйте при: работе с компьютером, агенте для автоматизации рабочего стола, AI для управления экраном, агенте на основе зрения, автоматизации GUI.
Извлекайте структурированные данные из ответов LLM с помощью валидации Pydantic, автоматически повторяйте неудачные извлечения, разбирайте сложный JSON с гарантией типобезопасности и передавайте частичные результаты в режиме потоковой передачи с помощью Instructor — проверенной библиотеки для структурированного вывода
Эксперт в создании голосовых AI-приложений — от голосовых агентов в реальном времени до приложений с голосовым управлением. Охватывает OpenAI Realtime API, Vapi для голосовых агентов, Deepgram для транскрипции, ElevenLabs для синтеза, LiveKit для инфраструктуры в реальном времени и основы WebRTC. Знает, как создавать голосовые решения с низкой задержкой, готовые к промышленному использованию. Используется при: voice ai, voice agent, speech to text, text to speech, realtime voice.
Паттерны проектирования для создания автономных кодирующих агентов. Охватывает интеграцию инструментов, системы разрешений, автоматизацию браузера и рабочие процессы с участием человека. Используется при создании AI-агентов, проектировании API инструментов, реализации систем разрешений или создании автономных помощников по программированию.
Используйте, когда пользователь упоминает задачи Jira (например, "PROJ-123"), спрашивает о тикетах, хочет создать/просмотреть/обновить задачи, проверить статус спринта или управлять своим рабочим процессом в Jira. Срабатывает на ключевые слова, такие как "jira", "issue", "ticket", "sprint", "backlog" или шаблоны ключей задач.
Голосовые агенты представляют собой передовой рубеж взаимодействия с ИИ — люди естественно общаются с ИИ-системами. Задача заключается не только в распознавании и синтезе речи, но и в достижении естественного течения разговора с задержкой менее 800 мс при обработке прерываний, фонового шума и эмоциональных нюансов. Этот навык охватывает две архитектуры: speech-to-speech (OpenAI Realtime API, минимальная задержка, наиболее естественно) и pipeline (STT→LLM→TTS, больше контроля, проще отлаживать). Ключевое понимание: задержка является ограничением. Hu
Масштабируемая обработка данных для ML-нагрузок. Потоковое выполнение на CPU/GPU, поддержка Parquet/CSV/JSON/изображений. Интеграция с Ray Train, PyTorch, TensorFlow. Масштабируется от одной машины до сотен узлов. Используется для пакетного вывода, предобработки данных, загрузки мультимодальных данных или распределённых ETL-конвейеров.
Используется, когда пользователь просит запустить Gemini CLI для обзора кода, обзора плана или обработки большого контекста (>200k). Идеально подходит для комплексного анализа, требующего больших окон контекста. По умолчанию используется Gemini 3 Pro для передового рассуждения и программирования.
Многоагентные шаблоны оркестрации. Используйте, когда несколько независимых задач могут выполняться с разной предметной экспертизой или когда для комплексного анализа требуются различные точки зрения.
Создавайте сложные ИИ-системы с помощью декларативного программирования, автоматически оптимизируйте подсказки, создавайте модульные RAG-системы и агенты с DSPy — фреймворком Stanford NLP для систематического программирования языковых моделей.
Операционные режимы ИИ (мозговой штурм, реализация, отладка, обзор, обучение, выпуск, оркестровка). Используйте для адаптации поведения в зависимости от типа задачи.
Кураторская коллекция высококачественных подсказок для различных случаев использования. Включает подсказки на основе ролей, шаблоны для конкретных задач и методы уточнения подсказок. Используйте, когда пользователю нужны шаблоны подсказок, ролевые подсказки или готовые примеры подсказок для программирования, написания текстов, анализа или творческих задач.
Высокоуровневый фреймворк PyTorch с классом Trainer, автоматическим распределённым обучением (DDP/FSDP/DeepSpeed), системой обратных вызовов и минимальным количеством шаблонного кода. Масштабируется от ноутбука до суперкомпьютера с использованием одного и того же кода. Используйте, когда нужны чистые циклы обучения с встроенными лучшими практиками.
Самый простой API для распределённого обучения. 4 строки кода, чтобы добавить поддержку распределённого обучения в любой скрипт PyTorch. Унифицированный API для DeepSpeed/FSDP/Megatron/DDP. Автоматическое размещение устройств, смешанная точность (FP16/BF16/FP8). Интерактивная конфигурация, единая команда запуска. Стандарт экосистемы HuggingFace.
Сжимайте большие языковые модели с помощью дистилляции знаний от моделей-учителей к моделям-студентам. Используйте при развертывании более мелких моделей с сохранением производительности, переносе возможностей GPT-4 на модели с открытым исходным кодом или снижении затрат на вывод. Охватывает масштабирование температуры, мягкие цели, обратное KLD, дистилляцию логитов и стратегии обучения MiniLLM.
GPU-ускоренная подготовка данных для обучения LLM. Поддерживает текст/изображения/видео/аудио. Включает нечеткое удаление дубликатов (в 16× быстрее), фильтрацию качества (более 30 эвристик), семантическое удаление дубликатов, редактирование PII, обнаружение NSFW. Масштабируется на нескольких GPU с помощью RAPIDS. Используется для подготовки высококачественных обучающих наборов данных, очистки веб-данных или удаления дубликатов в больших корпусах.
Высокопроизводительный движок поиска по векторному сходству для RAG и семантического поиска. Используйте при создании производственных систем RAG, требующих быстрого поиска ближайших соседей, гибридного поиска с фильтрацией или масштабируемого хранения векторов с производительностью на базе Rust.
Эксперт в CrewAI — ведущей ролевой мультиагентной платформе, используемой 60% компаний из списка Fortune 500. Охватывает проектирование агентов с ролями и целями, определение задач, оркестрацию команды, типы процессов (последовательные, иерархические, параллельные), системы памяти и потоки для сложных рабочих процессов. Необходим для создания команд совместных AI-агентов. Используется при: crewai, мультиагентная команда, роли агентов, команда агентов, ролевые агенты.
Расширяйте контекстные окна трансформерных моделей с использованием техник RoPE, YaRN, ALiBi и интерполяции позиций. Используйте при обработке длинных документов (32k-128k+ токенов), расширении предобученных моделей за пределы исходных ограничений контекста или реализации эффективных позиционных кодировок. Охватывает ротационные эмбеддинги, смещения внимания, методы интерполяции и стратегии экстраполяции для больших языковых моделей (LLM).
Эксперт по данным для продвинутой аналитики, машинного обучения и статистического моделирования. Выполняет сложный анализ данных, предиктивное моделирование и бизнес-аналитику.
Веб-поиск и исследование с использованием Perplexity AI. Используйте, когда пользователь говорит «search», «find», «look up», «ask», «research» или «what's the latest» для общих запросов. НЕ для документации по библиотекам/фреймворкам (используйте Context7) или вопросов по рабочему пространству.
Готовые к производству шаблоны для создания приложений на основе LLM. Охватывает RAG-пайплайны, архитектуры агентов, IDE для подсказок и мониторинг LLMOps. Используйте при проектировании AI-приложений, реализации RAG, создании агентов или настройке наблюдаемости LLM.
Пишите готовые к публикации статьи по ML/AI для NeurIPS, ICML, ICLR, ACL, AAAI, COLM. Используйте при подготовке черновиков статей из исследовательских репозиториев, структурировании аргументов, проверке цитат или подготовке финальных версий к публикации. Включает шаблоны LaTeX, рекомендации для рецензентов и рабочие процессы проверки цитирований.
Оценивает LLM по более чем 60 академическим бенчмаркам (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Используется для оценки качества моделей, сравнения моделей, публикации академических результатов или отслеживания прогресса обучения. Отраслевой стандарт, используемый EleutherAI, HuggingFace и крупными лабораториями. Поддерживает HuggingFace, vLLM, API.
Обеспечивает высокую пропускную способность для LLM с использованием PagedAttention и непрерывной пакетной обработки vLLM. Используйте при развертывании производственных API LLM, оптимизации задержки/пропускной способности вывода или обслуживании моделей с ограниченной памятью GPU. Поддерживает совместимые с OpenAI конечные точки, квантизацию (GPTQ/AWQ/FP8) и тензорный параллелизм.
Обучает крупные языковые модели (2B-462B параметров) с использованием NVIDIA Megatron-Core и продвинутых стратегий параллелизма. Используется при обучении моделей с более чем 1 млрд параметров, когда требуется максимальная эффективность GPU (47% MFU на H100) или необходим параллелизм по тензорам/конвейеру/последовательности/контексту/экспертам. Готовый к производству фреймворк, используемый для Nemotron, LLaMA, DeepSeek.
Многоагентная автономная система запуска для Claude Code. Активируется в режиме "Loki Mode". Оркестрирует более 100 специализированных агентов в областях инженерии, контроля качества, DevOps, безопасности, данных/машинного обучения, бизнес-операций, маркетинга, HR и поддержки клиентов. Превращает PRD в полностью развернутый, приносящий доход продукт без участия человека. Включает инструмент Task для распределения подагентов, параллельный код-ревью с 3 специализированными рецензентами, сортировку проблем по степени серьезности, распределенную очередь задач с обработкой неудачных сообщений (dead letter), автоматическое развертывание на облачных провайдерах, A/B тестирование, циклы обратной связи с клиентами, реагирование на инциденты, защитные механизмы (circuit breakers) и самовосстановление. Обрабатывает ограничения по скорости через распределенные контрольные точки состояния и автоматическое возобновление с экспоненциальным увеличением задержки. Требует флаг --dangerously-skip-permissions.
Экспертные рекомендации по обучению с полностью шардированным параллелизмом данных (Fully Sharded Data Parallel) с использованием PyTorch FSDP — шардирование параметров, смешанная точность, выгрузка на CPU, FSDP2
Объединяйте несколько дообученных моделей с помощью mergekit для комбинирования возможностей без повторного обучения. Используйте при создании специализированных моделей путем смешивания доменной экспертизы (математика + программирование + чат), улучшения производительности по сравнению с отдельными моделями или быстрого эксперимента с вариантами моделей. Охватывает SLERP, TIES-Merging, DARE, Task Arithmetic, линейное объединение и стратегии развертывания в производстве.
Гарантируйте корректную структуру JSON/XML/кода во время генерации, используйте модели Pydantic для типобезопасных выходных данных, поддерживайте локальные модели (Transformers, vLLM) и максимизируйте скорость вывода с помощью Outlines — библиотеки структурированной генерации dottxt.ai
Datadog CLI для поиска логов, запроса метрик, трассировки запросов и управления дашбордами. Используйте это при отладке проблем в продакшене или работе с наблюдаемостью Datadog.
Ускорьте вывод LLM с помощью спекулятивного декодирования, Medusa с несколькими головами и техник предсказательного декодирования. Используйте при оптимизации скорости вывода (ускорение в 1.5-3.6×), снижении задержки для приложений в реальном времени или развертывании моделей с ограниченными вычислительными ресурсами. Охватывает черновые модели, внимание на основе дерева, итерацию Якоби, параллельную генерацию токенов и стратегии производственного развертывания.
Открытая база данных встраиваний для AI-приложений. Храните встраивания и метаданные, выполняйте векторный и полнотекстовый поиск, фильтруйте по метаданным. Простой API с 4 функциями. Масштабируется от ноутбуков до производственных кластеров. Используйте для семантического поиска, RAG-приложений или извлечения документов. Лучший выбор для локальной разработки и open-source проектов.
Оркестрация распределённого обучения между кластерами. Масштабирует PyTorch/TensorFlow/HuggingFace от ноутбука до тысяч узлов. Встроенная настройка гиперпараметров с помощью Ray Tune, отказоустойчивость, эластичное масштабирование. Используйте при обучении больших моделей на нескольких машинах или при выполнении распределённых переборов гиперпараметров.
Оптимизирует вывод LLM с помощью NVIDIA TensorRT для максимальной пропускной способности и минимальной задержки. Используйте для промышленного развертывания на GPU NVIDIA (A100/H100), когда требуется в 10-100 раз более быстрая инференция по сравнению с PyTorch, или для обслуживания моделей с квантизацией (FP8/INT4), пакетной обработкой в полете и масштабированием на нескольких GPU.
Параметрически эффективная донастройка больших языковых моделей (LLM) с использованием LoRA, QLoRA и более 25 методов. Используется при донастройке крупных моделей (7B-70B) с ограниченной памятью GPU, когда необходимо обучить менее 1% параметров с минимальной потерей точности, или для обслуживания с несколькими адаптерами. Официальная библиотека HuggingFace, интегрированная с экосистемой transformers.
Обучайте модели Mixture of Experts (MoE) с использованием DeepSpeed или HuggingFace. Используйте при обучении крупномасштабных моделей с ограниченными вычислительными ресурсами (снижение затрат в 5× по сравнению с плотными моделями), при реализации разреженных архитектур, таких как Mixtral 8x7B или DeepSeek-V3, или при масштабировании емкости модели без пропорционального увеличения вычислительных ресурсов. Рассматриваются архитектуры MoE, механизмы маршрутизации, балансировка нагрузки, параллелизм экспертов и оптимизация вывода.
Оценивает модели генерации кода по наборам HumanEval, MBPP, MultiPL-E и более чем 15 другим бенчмаркам с использованием метрик pass@k. Используется при сравнительном анализе моделей кода, оценке навыков программирования, тестировании поддержки нескольких языков или измерении качества генерации кода. Отраслевой стандарт от проекта BigCode, используемый в рейтингах HuggingFace.
Уменьшайте размер LLM и ускоряйте вывод, используя методы обрезки, такие как Wanda и SparseGPT. Используйте при сжатии моделей без дообучения, достигая 50% разреженности с минимальной потерей точности, или для обеспечения более быстрого вывода на аппаратных ускорителях. Охватывает неструктурированную обрезку, структурированную обрезку, разреженность N:M, обрезку по величине и методы однократного применения.
Выполняет инференс LLM на CPU, Apple Silicon и потребительских GPU без оборудования NVIDIA. Используйте для edge-развертывания, Mac с M1/M2/M3, GPU AMD/Intel или когда CUDA недоступна. Поддерживает квантизацию GGUF (1.5-8 бит) для уменьшения использования памяти и ускорения в 4-10× по сравнению с PyTorch на CPU.
Экспертные рекомендации по тонкой настройке LLM с помощью LLaMA-Factory - WebUI без кода, более 100 моделей, 2/3/4/5/6/8-битный QLoRA, поддержка мультимодальности
Отслеживайте эксперименты ML, управляйте реестром моделей с версионированием, развертывайте модели в продакшн и воспроизводите эксперименты с помощью MLflow — платформы жизненного цикла ML, не зависящей от фреймворка
Отслеживайте эксперименты ML с автоматическим логированием, визуализируйте обучение в реальном времени, оптимизируйте гиперпараметры с помощью sweeps и управляйте реестром моделей с помощью W&B — совместной платформы MLOps
Общего назначения модель распознавания речи OpenAI. Поддерживает 99 языков, транскрипцию, перевод на английский и определение языка. Шесть размеров моделей от tiny (39M параметров) до large (1550M параметров). Используется для преобразования речи в текст, транскрипции подкастов или многоязычной обработки аудио. Лучший выбор для надежного многоязычного автоматического распознавания речи (ASR).
Библиотека Facebook для эффективного поиска по сходству и кластеризации плотных векторов. Поддерживает миллиарды векторов, ускорение на GPU и различные типы индексов (Flat, IVF, HNSW). Используется для быстрого поиска k-NN, масштабного извлечения векторов или когда требуется чистый поиск по сходству без метаданных. Лучший выбор для высокопроизводительных приложений.
Экспертные рекомендации по тонкой настройке LLM с Axolotl - YAML конфигурации, более 100 моделей, LoRA/QLoRA, DPO/KTO/ORPO/GRPO, поддержка мультимодальности
Визуализируйте метрики обучения, отлаживайте модели с помощью гистограмм, сравнивайте эксперименты, визуализируйте графы моделей и профилируйте производительность с помощью TensorBoard — инструментария визуализации машинного обучения от Google
Оценивает LLM по более чем 100 бенчмаркам из более чем 18 сред (MMLU, HumanEval, GSM8K, безопасность, VLM) с выполнением на нескольких бэкендах. Используйте при необходимости масштабируемой оценки на локальном Docker, Slurm HPC или облачных платформах. Корпоративная платформа NVIDIA с архитектурой, ориентированной на контейнеры, для воспроизводимого бенчмаркинга.
Безсерверная облачная платформа с GPU для выполнения ML-задач. Используйте, когда требуется доступ к GPU по требованию без управления инфраструктурой, развертывание ML-моделей в виде API или выполнение пакетных заданий с автоматическим масштабированием.
Зарезервированные и по требованию облачные GPU-инстансы для обучения и инференса ML. Используйте, когда необходимы выделенные GPU-инстансы с простым SSH-доступом, постоянными файловыми системами или высокопроизводительными многозвенными кластерами для масштабного обучения.
Эксперт в Langfuse — платформе наблюдения за LLM с открытым исходным кодом. Охватывает трассировку, управление подсказками, оценку, наборы данных и интеграцию с LangChain, LlamaIndex и OpenAI. Необходим для отладки, мониторинга и улучшения приложений LLM в производственной среде. Используется при: langfuse, наблюдение за llm, трассировка llm, управление подсказками, оценка llm.
Быстрая структурированная генерация и обслуживание для LLM с кэшированием префикса RadixAttention. Используется для вывода JSON/регулярных выражений, ограниченного декодирования, агентных рабочих процессов с вызовами инструментов или когда требуется в 5× более быстрая инференция по сравнению с vLLM с совместным использованием префиксов. Обеспечивает работу более 300 000 GPU в xAI, AMD, NVIDIA и LinkedIn.
Современная генерация изображений из текста с помощью моделей Stable Diffusion через HuggingFace Diffusers. Используется для генерации изображений по текстовым подсказкам, выполнения преобразования изображение-в-изображение, инпейнтинга или создания пользовательских диффузионных конвейеров.
Управляемая векторная база данных для производственных AI-приложений. Полностью управляемая, с автоматическим масштабированием, гибридным поиском (плотный + разреженный), фильтрацией метаданных и пространствами имён. Низкая задержка (<100 мс p95). Используется для производственного RAG, рекомендательных систем или семантического поиска в масштабе. Лучший выбор для безсерверной, управляемой инфраструктуры.
Мультиоблачная оркестрация для ML-нагрузок с автоматической оптимизацией затрат. Используйте, когда необходимо запускать обучение или пакетные задания в нескольких облаках, использовать спотовые инстансы с автоматическим восстановлением или оптимизировать затраты на GPU у разных провайдеров.
Библиотека PyTorch для генерации аудио, включая преобразование текста в музыку (MusicGen) и текста в звук (AudioGen). Используйте, когда необходимо сгенерировать музыку из текстовых описаний, создать звуковые эффекты или выполнить генерацию музыки с учетом мелодии.
Платформа наблюдения за LLM для трассировки, оценки и мониторинга. Используется при отладке приложений LLM, оценке выходных данных моделей по сравнению с наборами данных, мониторинге производственных систем или создании систематических тестовых конвейеров для AI-приложений.
Создавайте масштабируемые конвейеры данных, современные хранилища данных и архитектуры потоковой обработки в реальном времени. Реализует Apache Spark, dbt, Airflow и облачные нативные платформы данных.
Глубокий навык исследования, поддерживаемый NotebookLM MCP. Проводит структурированные многоресурсные исследования (анализ рынка, конкурентная разведка, анализ трендов, исследование потенциальных клиентов) с использованием Google NotebookLM в качестве исследовательского движка, затем предоставляет оформленные брифы и дополнительные студийные материалы (слайды, аудиоподкасты, видео, инфографика, отчёты, интеллект-карты).
Предоставляет руководство для исследований механистической интерпретируемости с использованием TransformerLens для инспекции и манипуляции внутренними элементами трансформера через HookPoints и кэширование активаций. Используется при обратном проектировании алгоритмов модели, изучении паттернов внимания или проведении экспериментов с патчингом активаций.
Фреймворк для современных эмбеддингов предложений, текста и изображений. Предоставляет более 5000 предварительно обученных моделей для семантического сходства, кластеризации и поиска. Поддерживает многоязычные, специализированные и мультимодальные модели. Используется для генерации эмбеддингов для RAG, семантического поиска или задач сходства. Лучший выбор для генерации эмбеддингов в продакшене.
Используйте, когда пользователь спрашивает, как создавать с помощью продуктов или API OpenAI и нуждается в актуальной официальной документации с цитатами (например: Codex, Responses API, Chat Completions, Apps SDK, Agents SDK, Realtime, возможности или ограничения моделей); отдавайте приоритет документации OpenAI, инструментам MCP и ограничивайте любые альтернативные поиски официальными доменами OpenAI.
Оптимизирует внимание трансформера с помощью Flash Attention для ускорения в 2-4 раза и сокращения использования памяти в 10-20 раз. Используйте при обучении/запуске трансформеров с длинными последовательностями (>512 токенов), при возникновении проблем с памятью GPU из-за внимания или при необходимости более быстрого вывода. Поддерживает нативный SDPA PyTorch, библиотеку flash-attn, H100 FP8 и скользящее окно внимания.
Быстрые токенизаторы, оптимизированные для исследований и производства. Реализация на Rust токенизирует 1 ГБ менее чем за 20 секунд. Поддерживает алгоритмы BPE, WordPiece и Unigram. Обучайте пользовательские словари, отслеживайте выравнивания, обрабатывайте дополнение и усечение. Бесшовно интегрируется с transformers. Используйте, когда требуется высокопроизводительная токенизация или обучение пользовательского токенизатора.
Формат GGUF и квантизация llama.cpp для эффективного вывода на CPU/GPU. Используйте при развертывании моделей на потребительском оборудовании, Apple Silicon или когда требуется гибкая квантизация от 2 до 8 бит без необходимости в GPU.
Создаёт подробные, разделённые по секциям планы реализации посредством исследований, интервью с заинтересованными сторонами и многоступенчатого обзора с использованием нескольких LLM. Используется при планировании функций, требующих тщательного предварительного анализа перед внедрением.
Образовательная реализация GPT примерно в 300 строках. Воспроизводит GPT-2 (124M) на OpenWebText. Чистый, удобный для модификации код для изучения трансформеров. Автор — Андрей Карпаты. Идеально подходит для понимания архитектуры GPT с нуля. Обучение на Шекспире (CPU) или OpenWebText (мульти-GPU).
Модель OpenAI, связывающая зрение и язык. Обеспечивает классификацию изображений без дополнительного обучения (zero-shot), сопоставление изображений и текста, а также кросс-модальный поиск. Обучена на 400 млн пар изображение-текст. Используется для поиска изображений, модерации контента или задач, связанных с зрением и языком, без дообучения. Лучший выбор для универсального понимания изображений.
Фундаментальная модель для сегментации изображений с нулевым обучением. Используйте, когда необходимо сегментировать любой объект на изображениях, используя точки, рамки или маски в качестве подсказок, либо автоматически сгенерировать все маски объектов на изображении.
Квантизирует LLM до 8-бит или 4-бит для снижения использования памяти на 50-75% с минимальной потерей точности. Используйте, когда ограничена память GPU, необходимо разместить более крупные модели или требуется более быстрая инференция. Поддерживает форматы INT8, NF4, FP4, обучение QLoRA и 8-битные оптимизаторы. Работает с HuggingFace Transformers.
Открытая платформа наблюдения за ИИ для трассировки, оценки и мониторинга LLM. Используйте при отладке приложений LLM с подробными трассировками, проведении оценок на наборах данных или мониторинге производственных ИИ-систем с помощью информации в реальном времени.
Посттренировочная 4-битная квантизация для больших языковых моделей (LLM) с минимальной потерей точности. Используется для развертывания крупных моделей (70B, 405B) на потребительских GPU, когда требуется уменьшение объёма памяти в 4 раза с деградацией перплексии менее 2%, или для более быстрого вывода (ускорение в 3-4 раза) по сравнению с FP16. Интегрируется с transformers и PEFT для тонкой настройки QLoRA.
Тонкая настройка LLM с использованием обучения с подкреплением с TRL - SFT для настройки инструкций, DPO для согласования предпочтений, PPO/GRPO для оптимизации вознаграждения и обучения модели вознаграждения. Используйте при необходимости RLHF, для согласования модели с предпочтениями или обучения на основе обратной связи от человека. Работает с HuggingFace Transformers.
Метод Anthropic для обучения безвредного ИИ через самоулучшение. Двухфазный подход — контролируемое обучение с самокритикой/ревизией, затем RLAIF (обучение с подкреплением на основе обратной связи от ИИ). Используется для обеспечения безопасности и выравнивания, снижения вредоносных выводов без человеческих меток. Обеспечивает работу системы безопасности Claude.
Фреймворк безопасности времени выполнения NVIDIA для приложений LLM. Включает обнаружение взлома, проверку входных/выходных данных, проверку фактов, обнаружение галлюцинаций, фильтрацию PII, обнаружение токсичности. Использует DSL Colang 2.0 для программируемых ограничений. Готов к производству, работает на GPU T4.
Языконезависимый токенизатор, обрабатывающий текст как необработанный Unicode. Поддерживает алгоритмы BPE и Unigram. Быстрый (50 тыс. предложений в секунду), легковесный (6 МБ памяти), детерминированный словарь. Используется в T5, ALBERT, XLNet, mBART. Обучается на необработанном тексте без предварительной токенизации. Используйте, когда требуется поддержка нескольких языков, CJK-языков или воспроизводимая токенизация.
Предоставляет руководство по обучению и анализу разреженных автоэнкодеров (SAE) с использованием SAELens для разложения активаций нейронных сетей на интерпретируемые признаки. Используется при обнаружении интерпретируемых признаков, анализе суперпозиции или изучении моносемантических представлений в языковых моделях.
Полуквадратичная квантизация для LLM без данных калибровки. Используйте при квантизации моделей с точностью 4/3/2 бита без необходимости в калибровочных наборах данных, для быстрого рабочего процесса квантизации или при развертывании с vLLM или HuggingFace Transformers.
Квантование весов с учётом активаций для сжатия 4-битных больших языковых моделей с ускорением в 3 раза и минимальной потерей точности. Используйте при развертывании больших моделей (7B-70B) на ограниченной памяти GPU, когда требуется более быстрая инференция по сравнению с GPTQ с лучшим сохранением точности, а также для моделей с инструкционной настройкой и мультимодальных моделей. Лауреат премии Best Paper на MLSys 2024.
Специализированная модель модерации Meta с 7-8 млрд параметров для фильтрации ввода/вывода LLM. 6 категорий безопасности - насилие/ненависть, сексуальный контент, оружие, вещества, самоповреждение, планирование преступлений. Точность 94-95%. Разворачивается с помощью vLLM, HuggingFace, Sagemaker. Интегрируется с NeMo Guardrails.
Гибрид RNN+Transformer с выводом за O(n). Линейное время, бесконечный контекст, без кеша KV. Обучение как у GPT (параллельно), вывод как у RNN (последовательно). Проект Linux Foundation AI. Используется в продуктах Windows, Office, NeMo. RWKV-7 (март 2025). Модели до 14 млрд параметров.
Высокопроизводительный фреймворк RLHF с ускорением Ray+vLLM. Используется для обучения больших моделей (7B-70B+) методами PPO, GRPO, RLOO, DPO. Построен на основе Ray, vLLM, ZeRO-3. В 2 раза быстрее DeepSpeedChat благодаря распределённой архитектуре и совместному использованию ресурсов GPU.
Модель в пространстве состояний с сложностью O(n) против O(n²) у трансформеров. В 5 раз быстрее вывод, последовательности из миллионов токенов, без кеша KV. Селективная SSM с аппаратно-ориентированным дизайном. Mamba-1 (d_state=16) и Mamba-2 (d_state=128, мультиголовочная). Модели от 130M до 2.8B на HuggingFace.
Фреймворк предварительного обучения для обработки визуально-языковых данных, объединяющий замороженные кодировщики изображений и большие языковые модели (LLM). Используйте, когда необходимы генерация подписей к изображениям, визуальные вопросы и ответы, поиск по изображению и тексту или мультимодальный чат с передовыми возможностями zero-shot.
Предоставляет рекомендации для обучения RL корпоративного уровня с использованием miles, производственной версии форка slime. Используйте при обучении больших моделей MoE с FP8/INT4, требующих согласования обучения и вывода, или при необходимости спекулятивного RL для максимальной пропускной способности.
Простая оптимизация предпочтений для выравнивания LLM. Альтернатива DPO без использования эталонной модели с лучшей производительностью (+6,4 балла в AlpacaEval 2.0). Не требуется эталонная модель, более эффективна, чем DPO. Используйте для выравнивания предпочтений, когда нужна более простая и быстрая тренировка, чем DPO/PPO.
Предоставляет рекомендации по обучению LLM с использованием обучения с подкреплением с помощью verl (Volcano Engine RL). Используется при реализации RLHF, GRPO, PPO или других алгоритмов обучения с подкреплением для масштабного постобучения LLM с гибкими инфраструктурными бэкендами.
Большой ассистент по языку и зрению. Обеспечивает настройку визуальных инструкций и беседы на основе изображений. Объединяет визуальный энкодер CLIP с языковыми моделями Vicuna/LLaMA. Поддерживает многоходовые беседы с изображениями, визуальные вопросы и ответы, а также выполнение инструкций. Используется для чат-ботов с поддержкой языка и зрения или задач понимания изображений. Лучший выбор для разговорного анализа изображений.
Предоставляет руководство по дообучению LLM с использованием RL с помощью slime, фреймворка Megatron+SGLang. Используется при обучении моделей GLM, реализации пользовательских рабочих процессов генерации данных или при необходимости тесной интеграции Megatron-LM для масштабирования RL.
Предоставляет руководство по выполнению причинных вмешательств в модели PyTorch с использованием декларативной системы вмешательств pyvene. Используется при проведении причинного трассирования, патчинга активаций, обучения с взаимозаменяемыми вмешательствами или тестировании причинных гипотез о поведении модели.
Обеспечивает нативное распределённое предварительное обучение LLM на PyTorch с использованием torchtitan и 4D-параллелизма (FSDP2, TP, PP, CP). Используйте при предварительном обучении Llama 3.1, DeepSeek V3 или пользовательских моделей в масштабе от 8 до 512+ GPU с Float8, torch.compile и распределённым сохранением контрольных точек.
Предоставляет руководство по агентному RL на основе PyTorch с использованием torchforge, библиотеки Meta, разделяющей инфраструктуру и алгоритмы. Используйте, когда нужны чистые абстракции RL, простое экспериментирование с алгоритмами или масштабируемое обучение с Monarch и TorchTitan.
Предоставляет руководство по интерпретации и манипулированию внутренними структурами нейронных сетей с использованием nnsight с опциональным удалённым выполнением NDIF. Используйте при необходимости проведения экспериментов по интерпретируемости на масштабных моделях (70B+) без локальных GPU-ресурсов или при работе с любой архитектурой PyTorch.
Создавайте производственные ML-системы с использованием PyTorch 2.x, TensorFlow и современных ML-фреймворков. Реализует развертывание моделей, инженеринг признаков, A/B тестирование и мониторинг.
Реализует и обучает LLM с использованием LitGPT от Lightning AI с более чем 20 предобученными архитектурами (Llama, Gemma, Phi, Qwen, Mistral). Используйте, когда необходимы чистые реализации моделей, образовательное понимание архитектур или производственная донастройка с LoRA/QLoRA. Реализации в одном файле, без слоев абстракции.
Создавайте готовых к производству AI-агентов с PydanticAI — типобезопасное использование инструментов, структурированные выходные данные, внедрение зависимостей и поддержка нескольких моделей.
Операции с LLM -- RAG, embeddings, векторные базы данных, дообучение, продвинутая разработка подсказок, затраты на LLM, оценки качества и архитектуры ИИ для производства.