Marco para construir aplicaciones impulsadas por LLM con agentes, cadenas y RAG. Soporta múltiples proveedores (OpenAI, Anthropic, Google), más de 500 integraciones, agentes ReAct, llamadas a herramientas, gestión de memoria y recuperación de almacenes vectoriales. Úsalo para construir chatbots, sistemas de preguntas y respuestas, agentes autónomos o aplicaciones RAG. Ideal para prototipos rápidos y despliegues en producción.
La memoria es la piedra angular de los agentes inteligentes. Sin ella, cada interacción comienza desde cero. Esta habilidad cubre la arquitectura de la memoria del agente: a corto plazo (ventana de contexto), a largo plazo (almacenes vectoriales) y las arquitecturas cognitivas que las organizan. Idea clave: La memoria no es solo almacenamiento, es recuperación. Un millón de hechos almacenados no significan nada si no puedes encontrar el correcto. Las estrategias de fragmentación, incrustación y recuperación determinan si tu agente recuerda o olvida. El campo está fragm
Guía maestra para usar Claude Code de manera efectiva. Incluye plantillas de configuración, estrategias de indicación, palabras clave de "Pensamiento", técnicas de depuración y mejores prácticas para interactuar con el agente.
Experto en diseñar y construir agentes autónomos de IA. Domina el uso de herramientas, sistemas de memoria, estrategias de planificación y orquestación multiagente. Usar cuando: construir agente, agente de IA, agente autónomo, uso de herramientas, llamada de funciones.
Guía experta sobre patrones de ingeniería de prompts, mejores prácticas y técnicas de optimización. Úsese cuando el usuario quiera mejorar los prompts, aprender estrategias de prompting o depurar el comportamiento del agente.
Experto en diseñar prompts efectivos para aplicaciones impulsadas por LLM. Domina la estructura del prompt, la gestión del contexto, el formato de salida y la evaluación del prompt. Uso cuando: ingeniería de prompts, prompt del sistema, few-shot, cadena de pensamiento, diseño de prompts.
Plataforma de agentes autónomos de IA para construir y desplegar agentes continuos. Úsese al crear agentes de flujo de trabajo visual, desplegar agentes autónomos persistentes o construir sistemas complejos de automatización de IA de múltiples pasos.
Marco de orquestación multiagente para la colaboración autónoma de IA. Úselo al construir equipos de agentes especializados que trabajan juntos en tareas complejas, cuando necesite colaboración de agentes basada en roles con memoria, o para flujos de trabajo de producción que requieran ejecución secuencial/jerárquica. Construido sin dependencias de LangChain para una ejecución ágil y rápida.
Las herramientas son la forma en que los agentes de IA interactúan con el mundo. Una herramienta bien diseñada es la diferencia entre un agente que funciona y uno que alucina, falla silenciosamente o consume 10 veces más tokens de los necesarios. Esta habilidad abarca el diseño de herramientas desde el esquema hasta el manejo de errores. Mejores prácticas de JSON Schema, redacción de descripciones que realmente ayudan al LLM, validación y el estándar emergente MCP que se está convirtiendo en la lengua franca para las herramientas de IA. Insight clave: Las descripciones de las herramientas son más importantes que la implementa
Los agentes autónomos son sistemas de IA que pueden descomponer objetivos de forma independiente, planificar acciones, ejecutar herramientas y autocorregirse sin una guía humana constante. El desafío no es hacerlos capaces, sino hacerlos confiables. Cada decisión adicional multiplica la probabilidad de fallo. Esta habilidad abarca los bucles de agentes (ReAct, Plan-Execute), la descomposición de objetivos, los patrones de reflexión y la fiabilidad en la producción. Idea clave: las tasas de error compuestas matan a los agentes autónomos. Una tasa de éxito del 95 % por paso cae al 60 % b
Experto en LangGraph: el framework de nivel de producción para construir aplicaciones de IA con estado y múltiples actores. Cubre la construcción de grafos, gestión de estado, ciclos y ramas, persistencia con puntos de control, patrones human-in-the-loop y el patrón de agente ReAct. Usado en producción en LinkedIn, Uber y más de 400 empresas. Este es el enfoque recomendado por LangChain para construir agentes. Usar cuando: langgraph, agente langchain, agente con estado, grafo de agentes, agente react.
Pruebas y evaluación comparativa de agentes LLM que incluyen pruebas de comportamiento, evaluación de capacidades, métricas de fiabilidad y monitoreo en producción—donde incluso los mejores agentes logran menos del 50 % en pruebas comparativas del mundo real. Usar cuando: pruebas de agentes, evaluación de agentes, agentes de referencia, fiabilidad de agentes, prueba de agentes.
Un Ingeniero de Investigación Académica inflexible. Opera con rigor científico absoluto, crítica objetiva y sin ningún estilo personal. Se enfoca en la corrección teórica, la verificación formal y la implementación óptima en cualquier tecnología requerida.
Sistemas de memoria persistente para conversaciones con LLM que incluyen memoria a corto plazo, a largo plazo y basada en entidades. Usar cuando: memoria de conversación, recordar, persistencia de memoria, memoria a largo plazo, historial de chat.
Generar planes de prueba completos, casos de prueba manuales, suites de prueba de regresión e informes de errores para ingenieros de aseguramiento de calidad (QA). Incluye integración de Figma MCP para la validación de diseño.
Experto en la construcción de sistemas de Generación Aumentada por Recuperación. Domina modelos de incrustación, bases de datos vectoriales, estrategias de segmentación y optimización de recuperación para aplicaciones LLM. Usar cuando: se construyen RAG, búsqueda vectorial, incrustaciones, búsqueda semántica, recuperación de documentos.
Marco de datos para construir aplicaciones LLM con RAG. Se especializa en la ingestión de documentos (más de 300 conectores), indexación y consulta. Cuenta con índices vectoriales, motores de consulta, agentes y soporte multimodal. Úselo para preguntas y respuestas sobre documentos, chatbots, recuperación de conocimiento o para construir pipelines RAG. Ideal para aplicaciones LLM centradas en datos.
Controla la salida de LLM con expresiones regulares y gramáticas, garantiza la generación válida de JSON/XML/código, aplica formatos estructurados y construye flujos de trabajo de múltiples pasos con Guidance, el marco de generación restringida de Microsoft Research
Estrategias para gestionar las ventanas de contexto de LLM que incluyen resumen, recorte, enrutamiento y evitar la degradación del contexto. Usar cuando: ventana de contexto, límite de tokens, gestión de contexto, ingeniería de contexto, contexto largo.
Construye agentes de IA que interactúan con computadoras como lo hacen los humanos: visualizando pantallas, moviendo cursores, haciendo clic en botones y escribiendo texto. Cubre Computer Use de Anthropic, Operator/CUA de OpenAI y alternativas de código abierto. Enfoque crítico en sandboxing, seguridad y manejo de los desafíos únicos del control basado en visión. Usar cuando: uso de computadora, agente de automatización de escritorio, IA de control de pantalla, agente basado en visión, automatización de GUI.
Extrae datos estructurados de respuestas de LLM con validación Pydantic, reintenta automáticamente las extracciones fallidas, analiza JSON complejo con seguridad de tipos y transmite resultados parciales con Instructor, una biblioteca de salida estructurada probada en batalla
Experto en la creación de aplicaciones de IA de voz, desde agentes de voz en tiempo real hasta aplicaciones habilitadas por voz. Cubre OpenAI Realtime API, Vapi para agentes de voz, Deepgram para transcripción, ElevenLabs para síntesis, LiveKit para infraestructura en tiempo real y fundamentos de WebRTC. Sabe cómo construir experiencias de voz de baja latencia y listas para producción. Uso recomendado para: IA de voz, agente de voz, reconocimiento de voz a texto, texto a voz, voz en tiempo real.
Patrones de diseño para construir agentes de codificación autónomos. Cubre la integración de herramientas, sistemas de permisos, automatización de navegadores y flujos de trabajo con intervención humana. Úselo al construir agentes de IA, diseñar APIs de herramientas, implementar sistemas de permisos o crear asistentes de codificación autónomos.
Usar cuando el usuario menciona problemas de Jira (por ejemplo, "PROJ-123"), pregunta sobre tickets, quiere crear/ver/actualizar problemas, verificar el estado del sprint o gestionar su flujo de trabajo en Jira. Se activa con palabras clave como "jira", "issue", "ticket", "sprint", "backlog" o patrones de claves de problemas.
Los agentes de voz representan la frontera de la interacción con IA: humanos hablando de forma natural con sistemas de IA. El desafío no es solo el reconocimiento y la síntesis de voz, sino lograr un flujo de conversación natural con una latencia inferior a 800 ms mientras se manejan interrupciones, ruido de fondo y matices emocionales. Esta habilidad abarca dos arquitecturas: speech-to-speech (OpenAI Realtime API, la latencia más baja, la más natural) y pipeline (STT→LLM→TTS, más control, más fácil de depurar). Insight clave: la latencia es la limitación. Hu
Procesamiento de datos escalable para cargas de trabajo de ML. Ejecución en streaming a través de CPU/GPU, compatible con Parquet/CSV/JSON/imágenes. Se integra con Ray Train, PyTorch, TensorFlow. Escala desde una sola máquina hasta cientos de nodos. Úselo para inferencia por lotes, preprocesamiento de datos, carga de datos multimodal o pipelines ETL distribuidos.
Usar cuando el usuario solicite ejecutar Gemini CLI para revisión de código, revisión de planes o procesamiento de gran contexto (>200k). Ideal para análisis exhaustivos que requieren ventanas de contexto grandes. Utiliza Gemini 3 Pro por defecto para razonamiento y codificación de última generación.
Patrones de orquestación multiagente. Úsese cuando múltiples tareas independientes pueden ejecutarse con diferentes conocimientos especializados del dominio o cuando un análisis exhaustivo requiere múltiples perspectivas.
Construye sistemas de IA complejos con programación declarativa, optimiza prompts automáticamente, crea sistemas y agentes RAG modulares con DSPy - el framework de Stanford NLP para la programación sistemática de LM
Colección seleccionada de indicaciones de alta calidad para diversos casos de uso. Incluye indicaciones basadas en roles, plantillas específicas para tareas y técnicas de refinamiento de indicaciones. Úselo cuando el usuario necesite plantillas de indicaciones, indicaciones para juegos de rol o ejemplos de indicaciones listas para usar en codificación, escritura, análisis o tareas creativas.
Framework de alto nivel para PyTorch con la clase Trainer, entrenamiento distribuido automático (DDP/FSDP/DeepSpeed), sistema de callbacks y código mínimo repetitivo. Escala desde laptop hasta supercomputadora con el mismo código. Úsalo cuando quieras bucles de entrenamiento limpios con las mejores prácticas integradas.
API de entrenamiento distribuido más simple. 4 líneas para agregar soporte distribuido a cualquier script de PyTorch. API unificada para DeepSpeed/FSDP/Megatron/DDP. Colocación automática de dispositivos, precisión mixta (FP16/BF16/FP8). Configuración interactiva, comando de lanzamiento único. Estándar del ecosistema HuggingFace.
Comprime grandes modelos de lenguaje utilizando la destilación de conocimiento de modelos maestro a estudiante. Úsalo al desplegar modelos más pequeños con rendimiento retenido, transferir capacidades de GPT-4 a modelos de código abierto o reducir costos de inferencia. Cubre escalado de temperatura, objetivos suaves, KLD inverso, destilación de logits y estrategias de entrenamiento MiniLLM.
Curación de datos acelerada por GPU para el entrenamiento de LLM. Soporta texto/imagen/video/audio. Incluye deduplicación difusa (16× más rápida), filtrado de calidad (más de 30 heurísticas), deduplicación semántica, redacción de PII, detección NSFW. Escala a través de GPUs con RAPIDS. Úselo para preparar conjuntos de datos de entrenamiento de alta calidad, limpiar datos web o deduplicar grandes corpus.
Motor de búsqueda de similitud vectorial de alto rendimiento para RAG y búsqueda semántica. Úselo al construir sistemas RAG de producción que requieran búsqueda rápida de vecinos más cercanos, búsqueda híbrida con filtrado o almacenamiento vectorial escalable con rendimiento potenciado por Rust.
Experto en CrewAI, el principal framework multiagente basado en roles utilizado por el 60% de las empresas Fortune 500. Cubre el diseño de agentes con roles y objetivos, definición de tareas, orquestación de tripulaciones, tipos de procesos (secuencial, jerárquico, paralelo), sistemas de memoria y flujos para flujos de trabajo complejos. Esencial para construir equipos colaborativos de agentes de IA. Usar cuando: crewai, equipo multiagente, roles de agentes, tripulación de agentes, agentes basados en roles.
Extiende las ventanas de contexto de los modelos transformadores utilizando técnicas como RoPE, YaRN, ALiBi y la interpolación de posiciones. Úsalo al procesar documentos largos (32k-128k+ tokens), extendiendo modelos preentrenados más allá de los límites originales de contexto o implementando codificaciones posicionales eficientes. Cubre embeddings rotatorios, sesgos de atención, métodos de interpolación y estrategias de extrapolación para LLMs.
Científico de datos experto en análisis avanzado, aprendizaje automático y modelado estadístico. Maneja análisis de datos complejos, modelado predictivo e inteligencia empresarial.
Guía experta para el entrenamiento distribuido con DeepSpeed - etapas de optimización ZeRO, paralelismo de tuberías, FP16/BF16/FP8, Adam de 1 bit, atención dispersa
Búsqueda web e investigación utilizando Perplexity AI. Usar cuando el usuario diga "search", "find", "look up", "ask", "research" o "what's the latest" para consultas genéricas. NO para documentación de bibliotecas/frameworks (usar Context7) o preguntas del espacio de trabajo.
Patrones listos para producción para construir aplicaciones LLM. Cubre pipelines RAG, arquitecturas de agentes, IDEs de prompts y monitoreo LLMOps. Úselo al diseñar aplicaciones de IA, implementar RAG, construir agentes o configurar la observabilidad de LLM.
Escribe artículos de ML/IA listos para publicación para NeurIPS, ICML, ICLR, ACL, AAAI, COLM. Úsalo al redactar artículos a partir de repositorios de investigación, estructurar argumentos, verificar citas o preparar envíos para la versión final. Incluye plantillas LaTeX, guías para revisores y flujos de trabajo para la verificación de citas.
Evalúa LLMs en más de 60 benchmarks académicos (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Úselo al evaluar la calidad del modelo, comparar modelos, reportar resultados académicos o seguir el progreso del entrenamiento. Estándar de la industria utilizado por EleutherAI, HuggingFace y laboratorios importantes. Soporta HuggingFace, vLLM, APIs.
Sirve LLMs con alto rendimiento utilizando PagedAttention y agrupación continua de vLLM. Úselo al desplegar APIs de LLM en producción, optimizando la latencia/rendimiento de inferencia o sirviendo modelos con memoria GPU limitada. Soporta endpoints compatibles con OpenAI, cuantización (GPTQ/AWQ/FP8) y paralelismo tensorial.
Entrena grandes modelos de lenguaje (2B-462B parámetros) utilizando NVIDIA Megatron-Core con estrategias avanzadas de paralelismo. Úselo al entrenar modelos >1B parámetros, cuando se necesite máxima eficiencia de GPU (47% MFU en H100) o se requiera paralelismo tensorial/pipeline/secuencia/contexto/experto. Marco listo para producción utilizado en Nemotron, LLaMA, DeepSeek.
Sistema autónomo de inicio multiagente para Claude Code. Se activa en "Modo Loki". Orquesta más de 100 agentes especializados en ingeniería, aseguramiento de calidad (QA), DevOps, seguridad, datos/ML, operaciones comerciales, marketing, recursos humanos y éxito del cliente. Convierte el PRD en un producto completamente desplegado y generador de ingresos sin intervención humana. Incluye la herramienta Task para el despacho de subagentes, revisión de código en paralelo con 3 revisores especializados, triaje de incidencias basado en la severidad, cola de tareas distribuida con manejo de mensajes fallidos (dead letter), despliegue automático en proveedores de nube, pruebas A/B, ciclos de retroalimentación del cliente, respuesta a incidentes, circuit breakers y autocuración. Maneja límites de tasa mediante puntos de control de estado distribuidos y reanudación automática con retroceso exponencial. Requiere la bandera --dangerously-skip-permissions.
Fusiona múltiples modelos afinados utilizando mergekit para combinar capacidades sin necesidad de reentrenamiento. Úsalo al crear modelos especializados mezclando experiencia específica de dominio (matemáticas + programación + chat), mejorando el rendimiento más allá de modelos individuales o experimentando rápidamente con variantes de modelos. Cubre SLERP, TIES-Merging, DARE, Aritmética de Tareas, fusión lineal y estrategias de despliegue en producción.
Garantizar una estructura válida de JSON/XML/código durante la generación, utilizar modelos Pydantic para salidas con seguridad de tipos, soportar modelos locales (Transformers, vLLM) y maximizar la velocidad de inferencia con Outlines, la biblioteca de generación estructurada de dottxt.ai
CLI de Datadog para buscar registros, consultar métricas, rastrear solicitudes y gestionar paneles. Utilice esto al depurar problemas en producción o al trabajar con la observabilidad de Datadog.
Acelere la inferencia de LLM utilizando decodificación especulativa, múltiples cabezas Medusa y técnicas de decodificación anticipada. Úselo al optimizar la velocidad de inferencia (aceleración de 1.5-3.6×), reducir la latencia para aplicaciones en tiempo real o desplegar modelos con capacidad computacional limitada. Cubre modelos preliminares, atención basada en árboles, iteración de Jacobi, generación paralela de tokens y estrategias de despliegue en producción.
Base de datos de embeddings de código abierto para aplicaciones de IA. Almacena embeddings y metadatos, realiza búsquedas vectoriales y de texto completo, filtra por metadatos. API simple de 4 funciones. Escala desde notebooks hasta clústeres de producción. Úsalo para búsqueda semántica, aplicaciones RAG o recuperación de documentos. Ideal para desarrollo local y proyectos de código abierto.
Orquestación de entrenamiento distribuido a través de clústeres. Escala PyTorch/TensorFlow/HuggingFace desde una laptop hasta miles de nodos. Ajuste de hiperparámetros incorporado con Ray Tune, tolerancia a fallos, escalado elástico. Úselo al entrenar modelos masivos en múltiples máquinas o al ejecutar barridos distribuidos de hiperparámetros.
Optimiza la inferencia de LLM con NVIDIA TensorRT para un rendimiento máximo y la latencia más baja. Úselo para despliegue en producción en GPUs NVIDIA (A100/H100), cuando necesite una inferencia 10-100x más rápida que PyTorch, o para servir modelos con cuantización (FP8/INT4), agrupamiento en vuelo y escalado multi-GPU.
Ajuste fino eficiente en parámetros para LLMs utilizando LoRA, QLoRA y más de 25 métodos. Úselo al ajustar modelos grandes (7B-70B) con memoria GPU limitada, cuando necesite entrenar <1% de los parámetros con una pérdida mínima de precisión, o para servicio multi-adaptador. Biblioteca oficial de HuggingFace integrada con el ecosistema de transformers.
Entrena modelos Mixture of Experts (MoE) utilizando DeepSpeed o HuggingFace. Úsalo al entrenar modelos a gran escala con recursos computacionales limitados (reducción de costo de 5× en comparación con modelos densos), implementando arquitecturas dispersas como Mixtral 8x7B o DeepSeek-V3, o escalando la capacidad del modelo sin un aumento proporcional en el cómputo. Cubre arquitecturas MoE, mecanismos de enrutamiento, balanceo de carga, paralelismo de expertos y optimización de inferencia.
Evalúa modelos de generación de código en HumanEval, MBPP, MultiPL-E y más de 15 benchmarks con métricas pass@k. Úsalo al evaluar modelos de código, comparar habilidades de programación, probar soporte multilingüe o medir la calidad de generación de código. Estándar de la industria del Proyecto BigCode utilizado por los rankings de HuggingFace.
Estrategias de almacenamiento en caché para indicaciones de LLM que incluyen almacenamiento en caché de indicaciones Anthropic, almacenamiento en caché de respuestas y CAG (Generación Aumentada con Caché) Uso cuando: almacenamiento en caché de indicaciones, caché de indicaciones, caché de respuestas, cag, generación aumentada con caché.
Reduce el tamaño de LLM y acelera la inferencia utilizando técnicas de poda como Wanda y SparseGPT. Úsalo al comprimir modelos sin reentrenamiento, logrando un 50% de esparcidad con una pérdida mínima de precisión, o para habilitar una inferencia más rápida en aceleradores de hardware. Cubre poda no estructurada, poda estructurada, esparcidad N:M, poda por magnitud y métodos de una sola vez.
Ejecuta inferencia LLM en CPU, Apple Silicon y GPUs de consumo sin hardware NVIDIA. Úsalo para despliegue en el borde, Macs M1/M2/M3, GPUs AMD/Intel o cuando CUDA no esté disponible. Soporta cuantización GGUF (1.5-8 bits) para reducir la memoria y acelerar de 4 a 10 veces en comparación con PyTorch en CPU.
Realiza un seguimiento de los experimentos de ML, gestiona el registro de modelos con versionado, despliega modelos en producción y reproduce experimentos con MLflow - plataforma de ciclo de vida de ML independiente del framework
Realiza un seguimiento de los experimentos de ML con registro automático, visualiza el entrenamiento en tiempo real, optimiza los hiperparámetros con sweeps y gestiona el registro de modelos con W&B, la plataforma colaborativa de MLOps
Modelo de reconocimiento de voz de propósito general de OpenAI. Soporta 99 idiomas, transcripción, traducción al inglés e identificación de idiomas. Seis tamaños de modelo desde tiny (39M parámetros) hasta large (1550M parámetros). Úselo para conversión de voz a texto, transcripción de podcasts o procesamiento de audio multilingüe. Ideal para ASR robusto y multilingüe.
La biblioteca de Facebook para la búsqueda eficiente de similitud y agrupamiento de vectores densos. Soporta miles de millones de vectores, aceleración por GPU y varios tipos de índices (Flat, IVF, HNSW). Úsala para búsquedas rápidas k-NN, recuperación de vectores a gran escala o cuando necesites una búsqueda de similitud pura sin metadatos. Ideal para aplicaciones de alto rendimiento.
Visualiza métricas de entrenamiento, depura modelos con histogramas, compara experimentos, visualiza gráficos de modelos y perfila el rendimiento con TensorBoard, el conjunto de herramientas de visualización de ML de Google.
Evalúa LLMs en más de 100 benchmarks de más de 18 entornos (MMLU, HumanEval, GSM8K, seguridad, VLM) con ejecución multi-backend. Úselo cuando necesite una evaluación escalable en Docker local, Slurm HPC o plataformas en la nube. Plataforma de nivel empresarial de NVIDIA con arquitectura container-first para benchmarking reproducible.
Plataforma en la nube GPU sin servidor para ejecutar cargas de trabajo de ML. Úsela cuando necesite acceso a GPU bajo demanda sin gestión de infraestructura, desplegar modelos de ML como APIs o ejecutar trabajos por lotes con escalado automático.
Instancias de GPU en la nube reservadas y bajo demanda para entrenamiento e inferencia de ML. Úselas cuando necesite instancias de GPU dedicadas con acceso SSH simple, sistemas de archivos persistentes o clústeres multinodo de alto rendimiento para entrenamiento a gran escala.
Experto en Langfuse - la plataforma de observabilidad LLM de código abierto. Cubre trazado, gestión de prompts, evaluación, conjuntos de datos e integración con LangChain, LlamaIndex y OpenAI. Esencial para depurar, monitorear y mejorar aplicaciones LLM en producción. Úselo cuando: langfuse, observabilidad llm, trazado llm, gestión de prompts, evaluación llm.
Generación estructurada rápida y servicio para LLMs con caché de prefijo RadixAttention. Úsalo para salidas JSON/regex, decodificación restringida, flujos de trabajo agenticos con llamadas a herramientas, o cuando necesites una inferencia 5× más rápida que vLLM con compartición de prefijos. Alimenta más de 300,000 GPUs en xAI, AMD, NVIDIA y LinkedIn.
Generación de texto a imagen de última generación con modelos Stable Diffusion a través de HuggingFace Diffusers. Úselo al generar imágenes a partir de indicaciones de texto, realizar traducción de imagen a imagen, repintado (inpainting) o construir pipelines de difusión personalizados.
Base de datos vectorial gestionada para aplicaciones de IA en producción. Totalmente gestionada, con autoescalado, búsqueda híbrida (densa + dispersa), filtrado de metadatos y espacios de nombres. Baja latencia (<100ms p95). Úsela para RAG en producción, sistemas de recomendación o búsqueda semántica a gran escala. Ideal para infraestructura sin servidor y gestionada.
Orquestación multi-nube para cargas de trabajo de ML con optimización automática de costos. Úselo cuando necesite ejecutar entrenamientos o trabajos por lotes en múltiples nubes, aprovechar instancias spot con recuperación automática u optimizar los costos de GPU entre proveedores.
Biblioteca PyTorch para generación de audio que incluye texto a música (MusicGen) y texto a sonido (AudioGen). Úsala cuando necesites generar música a partir de descripciones de texto, crear efectos de sonido o realizar generación de música condicionada por melodía.
Plataforma de observabilidad de LLM para trazado, evaluación y monitoreo. Úsese al depurar aplicaciones LLM, evaluar salidas de modelos contra conjuntos de datos, monitorear sistemas en producción o construir pipelines de pruebas sistemáticas para aplicaciones de IA.
Construya canalizaciones de datos escalables, almacenes de datos modernos y arquitecturas de transmisión en tiempo real. Implementa Apache Spark, dbt, Airflow y plataformas de datos nativas en la nube.
Habilidad profunda de investigación potenciada por NotebookLM MCP. Realiza investigaciones estructuradas de múltiples fuentes (análisis de mercado, inteligencia competitiva, análisis de tendencias, investigación de prospectos) utilizando Google NotebookLM como motor de investigación, luego entrega informes formateados y artefactos opcionales de estudio (diapositivas, podcasts de audio, videos, infografías, informes, mapas mentales).
Proporciona orientación para la investigación de interpretabilidad mecanicista utilizando TransformerLens para inspeccionar y manipular los internos del transformador mediante HookPoints y almacenamiento en caché de activaciones. Úselo al realizar ingeniería inversa de algoritmos de modelos, estudiar patrones de atención o realizar experimentos de parcheo de activaciones.
Marco para incrustaciones de última generación de oraciones, textos e imágenes. Proporciona más de 5000 modelos preentrenados para similitud semántica, agrupamiento y recuperación. Soporta modelos multilingües, específicos de dominio y multimodales. Úselo para generar incrustaciones para RAG, búsqueda semántica o tareas de similitud. Ideal para la generación de incrustaciones en producción.
Usar cuando el usuario pregunte cómo construir con productos o API de OpenAI y necesite documentación oficial actualizada con citas (por ejemplo: Codex, Responses API, Chat Completions, Apps SDK, Agents SDK, Realtime, capacidades o límites del modelo); priorizar las herramientas MCP de la documentación de OpenAI y restringir cualquier navegación de respaldo a dominios oficiales de OpenAI.
Optimiza la atención del transformador con Flash Attention para una aceleración de 2-4x y una reducción de memoria de 10-20x. Úselo al entrenar/ejecutar transformadores con secuencias largas (>512 tokens), al enfrentar problemas de memoria GPU con la atención, o cuando se necesite una inferencia más rápida. Soporta SDPA nativo de PyTorch, la biblioteca flash-attn, H100 FP8 y atención con ventana deslizante.
Tokenizadores rápidos optimizados para investigación y producción. La implementación basada en Rust tokeniza 1GB en menos de 20 segundos. Soporta los algoritmos BPE, WordPiece y Unigram. Entrena vocabularios personalizados, realiza seguimiento de alineaciones, maneja relleno/truncamiento. Se integra perfectamente con transformers. Úsalo cuando necesites tokenización de alto rendimiento o entrenamiento de tokenizadores personalizados.
Formato GGUF y cuantización de llama.cpp para una inferencia eficiente en CPU/GPU. Úselo al desplegar modelos en hardware de consumo, Apple Silicon, o cuando se necesite una cuantización flexible de 2 a 8 bits sin requisitos de GPU.
Crea planes de implementación detallados y seccionados mediante investigación, entrevistas con partes interesadas y revisión múltiple de LLM. Úselo al planificar características que requieren un análisis exhaustivo previo a la implementación.
Implementación educativa de GPT en ~300 líneas. Reproduce GPT-2 (124M) en OpenWebText. Código limpio y modificable para aprender transformers. Por Andrej Karpathy. Perfecto para entender la arquitectura de GPT desde cero. Entrena con Shakespeare (CPU) o OpenWebText (multi-GPU).
El modelo de OpenAI que conecta visión y lenguaje. Permite clasificación de imágenes zero-shot, emparejamiento imagen-texto y recuperación cruzada multimodal. Entrenado con 400 millones de pares imagen-texto. Úselo para búsqueda de imágenes, moderación de contenido o tareas de visión y lenguaje sin necesidad de ajuste fino. Ideal para comprensión general de imágenes.
Modelo base para segmentación de imágenes con transferencia zero-shot. Úsalo cuando necesites segmentar cualquier objeto en imágenes utilizando puntos, cuadros o máscaras como indicaciones, o para generar automáticamente todas las máscaras de objetos en una imagen.
Cuantiza LLMs a 8 bits o 4 bits para una reducción de memoria del 50-75% con una pérdida mínima de precisión. Úselo cuando la memoria GPU sea limitada, necesite ajustar modelos más grandes o desee una inferencia más rápida. Soporta formatos INT8, NF4, FP4, entrenamiento QLoRA y optimizadores de 8 bits. Funciona con HuggingFace Transformers.
Plataforma de observabilidad de IA de código abierto para el rastreo, evaluación y monitoreo de LLM. Úsela al depurar aplicaciones LLM con trazas detalladas, realizar evaluaciones en conjuntos de datos o monitorear sistemas de IA en producción con información en tiempo real.
Cuantización post-entrenamiento de 4 bits para LLMs con pérdida mínima de precisión. Úselo para desplegar modelos grandes (70B, 405B) en GPUs de consumo, cuando necesite una reducción de memoria de 4× con una degradación de perplexidad <2%, o para una inferencia más rápida (3-4× de aceleración) frente a FP16. Se integra con transformers y PEFT para el ajuste fino QLoRA.
Ajuste fino de LLMs utilizando aprendizaje por refuerzo con TRL - SFT para ajuste de instrucciones, DPO para alineación de preferencias, PPO/GRPO para optimización de recompensas y entrenamiento del modelo de recompensas. Úselo cuando se necesite RLHF, alinear el modelo con preferencias o entrenar a partir de retroalimentación humana. Funciona con HuggingFace Transformers.
El método de Anthropic para entrenar IA inofensiva mediante la auto-mejora. Enfoque en dos fases: aprendizaje supervisado con autocrítica/revisión, luego RLAIF (RL a partir de retroalimentación de IA). Se utiliza para la alineación de seguridad, reduciendo salidas dañinas sin etiquetas humanas. Alimenta el sistema de seguridad de Claude.
El marco de seguridad en tiempo de ejecución de NVIDIA para aplicaciones LLM. Incluye detección de jailbreak, validación de entrada/salida, verificación de hechos, detección de alucinaciones, filtrado de PII, detección de toxicidad. Utiliza Colang 2.0 DSL para rieles programables. Listo para producción, funciona en GPU T4.
Tokenizador independiente del idioma que trata el texto como Unicode sin procesar. Soporta los algoritmos BPE y Unigram. Rápido (50k oraciones/seg), ligero (6MB de memoria), vocabulario determinista. Usado por T5, ALBERT, XLNet, mBART. Entrena con texto sin procesar sin pre-tokenización. Úselo cuando necesite soporte multilingüe, idiomas CJK o tokenización reproducible.
Proporciona orientación para entrenar y analizar Autoencoders Escasos (SAEs) utilizando SAELens para descomponer las activaciones de redes neuronales en características interpretables. Úselo al descubrir características interpretables, analizar la superposición o estudiar representaciones monosemánticas en modelos de lenguaje.
Cuantización semicuadrática para LLMs sin datos de calibración. Úsese al cuantizar modelos a precisión de 4/3/2 bits sin necesidad de conjuntos de datos de calibración, para flujos de trabajo de cuantización rápidos, o al desplegar con vLLM o HuggingFace Transformers.
Cuantificación de pesos consciente de la activación para compresión de LLM de 4 bits con una aceleración de 3x y pérdida mínima de precisión. Úselo al desplegar modelos grandes (7B-70B) en memoria GPU limitada, cuando necesite una inferencia más rápida que GPTQ con mejor preservación de la precisión, o para modelos ajustados por instrucciones y multimodales. Ganador del Premio al Mejor Artículo de MLSys 2024.
El modelo de moderación especializado de Meta de 7-8B para el filtrado de entrada/salida de LLM. 6 categorías de seguridad: violencia/odio, contenido sexual, armas, sustancias, autolesiones, planificación criminal. Precisión del 94-95%. Despliegue con vLLM, HuggingFace, Sagemaker. Se integra con NeMo Guardrails.
Híbrido RNN+Transformer con inferencia O(n). Tiempo lineal, contexto infinito, sin caché KV. Entrenamiento como GPT (paralelo), inferencia como RNN (secuencial). Proyecto de IA de la Linux Foundation. Producción en Windows, Office, NeMo. RWKV-7 (marzo 2025). Modelos de hasta 14 mil millones de parámetros.
Marco de trabajo RLHF de alto rendimiento con aceleración Ray+vLLM. Úselo para entrenamiento PPO, GRPO, RLOO, DPO de modelos grandes (7B-70B+). Construido sobre Ray, vLLM, ZeRO-3. 2× más rápido que DeepSpeedChat con arquitectura distribuida y compartición de recursos GPU.
Modelo de espacio de estados con complejidad O(n) vs O(n²) de los Transformers. Inferencia 5× más rápida, secuencias de millones de tokens, sin caché KV. SSM selectivo con diseño consciente del hardware. Mamba-1 (d_state=16) y Mamba-2 (d_state=128, multi-cabeza). Modelos de 130M a 2.8B en HuggingFace.
Marco de preentrenamiento visión-lenguaje que conecta codificadores de imágenes congelados y LLMs. Úselo cuando necesite subtitulado de imágenes, respuesta a preguntas visuales, recuperación imagen-texto o chat multimodal con un rendimiento de vanguardia en zero-shot.
Proporciona orientación para el entrenamiento de RL de nivel empresarial utilizando miles, un fork listo para producción de slime. Úselo al entrenar grandes modelos MoE con FP8/INT4, que requieren alineación de entrenamiento-inferencia o RL especulativo para un rendimiento máximo.
Optimización simple de preferencias para la alineación de LLM. Alternativa sin referencia a DPO con mejor rendimiento (+6.4 puntos en AlpacaEval 2.0). No se necesita modelo de referencia, más eficiente que DPO. Úselo para la alineación de preferencias cuando se desee un entrenamiento más simple y rápido que DPO/PPO.
Proporciona orientación para entrenar LLMs con aprendizaje por refuerzo utilizando verl (Volcano Engine RL). Úselo al implementar RLHF, GRPO, PPO u otros algoritmos de aprendizaje por refuerzo para el post-entrenamiento de LLM a gran escala con infraestructuras flexibles de backend.
Asistente de Lenguaje y Visión de Gran Escala. Permite el ajuste de instrucciones visuales y conversaciones basadas en imágenes. Combina el codificador visual CLIP con los modelos de lenguaje Vicuna/LLaMA. Soporta chat de imágenes con múltiples intercambios, preguntas y respuestas visuales, y seguimiento de instrucciones. Úselo para chatbots de visión y lenguaje o tareas de comprensión de imágenes. Ideal para análisis conversacional de imágenes.
Proporciona orientación para el post-entrenamiento de LLM con RL utilizando slime, un framework Megatron+SGLang. Úselo al entrenar modelos GLM, implementar flujos de trabajo personalizados de generación de datos o cuando se necesite una integración estrecha de Megatron-LM para la escalabilidad de RL.
Proporciona orientación para realizar intervenciones causales en modelos de PyTorch utilizando el marco declarativo de intervenciones de pyvene. Úselo al realizar trazado causal, parcheo de activaciones, entrenamiento de intervenciones de intercambio o para probar hipótesis causales sobre el comportamiento del modelo.
Proporciona preentrenamiento distribuido nativo de PyTorch para LLM utilizando torchtitan con paralelismo 4D (FSDP2, TP, PP, CP). Úselo al preentrenar Llama 3.1, DeepSeek V3 o modelos personalizados a gran escala desde 8 hasta más de 512 GPUs con Float8, torch.compile y checkpointing distribuido.
Proporciona orientación para RL agente nativo de PyTorch utilizando torchforge, la biblioteca de Meta que separa la infraestructura de los algoritmos. Úselo cuando desee abstracciones limpias de RL, fácil experimentación de algoritmos o entrenamiento escalable con Monarch y TorchTitan.
Proporciona orientación para interpretar y manipular los internos de redes neuronales utilizando nnsight con ejecución remota NDIF opcional. Úselo cuando sea necesario realizar experimentos de interpretabilidad en modelos masivos (70B+) sin recursos GPU locales, o al trabajar con cualquier arquitectura PyTorch.
Construya sistemas de ML de producción con PyTorch 2.x, TensorFlow y frameworks modernos de ML. Implementa serving de modelos, ingeniería de características, pruebas A/B y monitoreo.
Implementa y entrena LLMs utilizando LitGPT de Lightning AI con más de 20 arquitecturas preentrenadas (Llama, Gemma, Phi, Qwen, Mistral). Úsalo cuando necesites implementaciones limpias de modelos, comprensión educativa de arquitecturas o afinación en producción con LoRA/QLoRA. Implementaciones en un solo archivo, sin capas de abstracción.
Construya agentes de IA listos para producción con PydanticAI: uso de herramientas con seguridad de tipos, salidas estructuradas, inyección de dependencias y soporte multimodelo.
Operaciones de LLM -- RAG, embeddings, bases de datos vectoriales, ajuste fino, ingeniería de prompts avanzada, costos de LLM, evaluaciones de calidad y arquitecturas de IA para producción.