إطار عمل لبناء تطبيقات مدعومة بنماذج اللغة الكبيرة (LLM) باستخدام الوكلاء، السلاسل، وRAG. يدعم مزودين متعددين (OpenAI، Anthropic، Google)، أكثر من 500 تكامل، وكلاء ReAct، استدعاء الأدوات، إدارة الذاكرة، واسترجاع مخزن المتجهات. يُستخدم لبناء روبوتات المحادثة، أنظمة الإجابة على الأسئلة، الوكلاء المستقلين، أو تطبيقات RAG. الأفضل للنماذج الأولية السريعة ونشر الإنتاج.
الذاكرة هي حجر الزاوية للوكلاء الأذكياء. بدونها، يبدأ كل تفاعل من الصفر. تغطي هذه المهارة بنية ذاكرة الوكيل: قصيرة الأمد (نافذة السياق)، طويلة الأمد (مخازن المتجهات)، والهياكل المعرفية التي تنظمها. الفكرة الرئيسية: الذاكرة ليست مجرد تخزين - بل استرجاع. مليون حقيقة مخزنة لا تعني شيئًا إذا لم تتمكن من العثور على الحقيقة الصحيحة. تحديد القطع، التضمين، واستراتيجيات الاسترجاع هي التي تحدد ما إذا كان وكيلك يتذكر أو ينسى. المجال هو fragm
دليل خبير حول أنماط هندسة المطالبات، أفضل الممارسات، وتقنيات التحسين. يُستخدم عندما يرغب المستخدم في تحسين المطالبات، تعلم استراتيجيات التوجيه، أو تصحيح سلوك الوكيل.
خبير في تصميم مطالبات فعالة لتطبيقات مدعومة بنماذج اللغة الكبيرة (LLM). يتقن هيكلة المطالبات، إدارة السياق، تنسيق المخرجات، وتقييم المطالبات. يُستخدم عند: هندسة المطالبات، مطالبة النظام، القليل من الأمثلة، سلسلة التفكير، تصميم المطالبات.
منصة وكيل ذكاء اصطناعي مستقل لبناء ونشر وكلاء مستمرين. استخدمها عند إنشاء وكلاء سير عمل بصريين، أو نشر وكلاء مستقلين دائمين، أو بناء أنظمة أتمتة ذكاء اصطناعي معقدة متعددة الخطوات.
إطار عمل تنسيق متعدد الوكلاء للتعاون الذاتي للذكاء الاصطناعي. يُستخدم عند بناء فرق من الوكلاء المتخصصين الذين يعملون معًا على مهام معقدة، عندما تحتاج إلى تعاون وكلاء قائم على الأدوار مع ذاكرة، أو لعمليات الإنتاج التي تتطلب تنفيذًا تسلسليًا/هرميًا. تم بناؤه بدون تبعيات LangChain لتنفيذ خفيف وسريع.
الأدوات هي الوسيلة التي يتفاعل بها وكلاء الذكاء الاصطناعي مع العالم. الأداة المصممة جيدًا هي الفرق بين وكيل يعمل ووكيل يتخيل، يفشل بصمت، أو يكلف 10 أضعاف عدد الرموز اللازمة. تغطي هذه المهارة تصميم الأدوات من المخطط إلى معالجة الأخطاء. أفضل الممارسات في JSON Schema، كتابة الوصف التي تساعد فعليًا نموذج اللغة الكبير (LLM)، التحقق، والمعيار الناشئ MCP الذي أصبح اللغة المشتركة لأدوات الذكاء الاصطناعي. الرؤية الأساسية: أوصاف الأدوات أهم من تنفيذ الأدوات.
الوكلاء المستقلون هم أنظمة ذكاء اصطناعي يمكنها تفكيك الأهداف بشكل مستقل، تخطيط الإجراءات، تنفيذ الأدوات، وتصحيح نفسها دون توجيه بشري مستمر. التحدي ليس في جعلهم قادرين - بل في جعلهم موثوقين. كل قرار إضافي يضاعف احتمال الفشل. تغطي هذه المهارة حلقات الوكلاء (ReAct, Plan-Execute)، تفكيك الأهداف، أنماط التأمل، وموثوقية الإنتاج. الفكرة الرئيسية: معدلات الخطأ المتراكمة تقتل الوكلاء المستقلين. معدل نجاح 95% لكل خطوة ينخفض إلى 60% b
خبير في LangGraph - الإطار الإنتاجي لبناء تطبيقات الذكاء الاصطناعي متعددة الفاعلين والحالة. يغطي بناء الرسوم البيانية، إدارة الحالة، الدورات والفروع، الاستمرارية باستخدام نقاط التحقق، أنماط الإنسان في الحلقة، ونمط وكيل ReAct. يُستخدم في الإنتاج في LinkedIn وUber وأكثر من 400 شركة. هذا هو النهج الموصى به من LangChain لبناء الوكلاء. يُستخدم عند: langgraph، وكيل langchain، وكيل ذو حالة، رسم وكيل، وكيل react.
اختبار وقياس أداء وكلاء LLM بما في ذلك الاختبار السلوكي، تقييم القدرات، مقاييس الموثوقية، ومراقبة الإنتاج—حيث يحقق حتى أفضل الوكلاء أقل من 50% في معايير الأداء الواقعية. يُستخدم عند: اختبار الوكلاء، تقييم الوكلاء، مقارنة الوكلاء، موثوقية الوكلاء، اختبار الوكيل.
مهندس أبحاث أكاديمية لا يساوم. يعمل بدقة علمية مطلقة، ونقد موضوعي، وبدون أي لمسة فنية. يركز على الصحة النظرية، والتحقق الرسمي، والتنفيذ الأمثل عبر أي تقنية مطلوبة.
أنظمة الذاكرة المستمرة لمحادثات نماذج اللغة الكبيرة (LLM) بما في ذلك الذاكرة قصيرة الأمد، الذاكرة طويلة الأمد، والذاكرة المعتمدة على الكيانات. الاستخدام عند: ذاكرة المحادثة، التذكر، استمرارية الذاكرة، الذاكرة طويلة الأمد، سجل الدردشة.
خبير في بناء أنظمة التوليد المعزز بالاسترجاع. ماهر في نماذج التضمين، قواعد بيانات المتجهات، استراتيجيات التجزئة، وتحسين الاسترجاع لتطبيقات نماذج اللغة الكبيرة (LLM). يُستخدم عند: بناء RAG، البحث المتجهي، التضمينات، البحث الدلالي، استرجاع الوثائق.
إطار عمل للبيانات لبناء تطبيقات LLM باستخدام RAG. متخصص في استيعاب الوثائق (أكثر من 300 موصل)، والفهرسة، والاستعلام. يتميز بمؤشرات متجهة، ومحركات استعلام، ووكلاء، ودعم متعدد الوسائط. يُستخدم في أسئلة وأجوبة الوثائق، والدردشة الآلية، واسترجاع المعرفة، أو بناء خطوط أنابيب RAG. الأفضل لتطبيقات LLM التي تركز على البيانات.
التحكم في مخرجات LLM باستخدام التعبيرات النمطية والقواعد النحوية، ضمان توليد JSON/XML/كود صالح، فرض تنسيقات منظمة، وبناء سير عمل متعدد الخطوات باستخدام Guidance - إطار التوليد المقيد من Microsoft Research
استراتيجيات إدارة نوافذ سياق LLM بما في ذلك التلخيص، والتقليم، والتوجيه، وتجنب تدهور السياق. الاستخدام عند: نافذة السياق، حد الرموز، إدارة السياق، هندسة السياق، السياق الطويل.
بناء وكلاء ذكاء اصطناعي يتفاعلون مع الحواسيب كما يفعل البشر - مشاهدة الشاشات، تحريك المؤشرات، النقر على الأزرار، وكتابة النصوص. يغطي استخدام الحاسوب من Anthropic، Operator/CUA من OpenAI، والبدائل مفتوحة المصدر. تركيز حاسم على الحماية في بيئة معزولة (sandboxing)، الأمان، والتعامل مع التحديات الفريدة للتحكم المعتمد على الرؤية. يُستخدم عند: استخدام الحاسوب، وكيل أتمتة سطح المكتب، ذكاء اصطناعي للتحكم في الشاشة، وكيل معتمد على الرؤية، أتمتة واجهة المستخدم الرسومية (GUI).
استخراج البيانات المهيكلة من استجابات LLM باستخدام التحقق من الصحة بواسطة Pydantic، إعادة محاولة الاستخراجات الفاشلة تلقائيًا، تحليل JSON المعقد مع أمان النوع، وبث النتائج الجزئية باستخدام Instructor - مكتبة إخراج مهيكلة مجربة في المعارك
خبير في بناء تطبيقات الذكاء الاصطناعي الصوتي - من وكلاء الصوت في الوقت الحقيقي إلى التطبيقات المدعومة بالصوت. يشمل OpenAI Realtime API، Vapi لوكلاء الصوت، Deepgram للتفريغ الصوتي، ElevenLabs للتوليد الصوتي، LiveKit للبنية التحتية في الوقت الحقيقي، وأساسيات WebRTC. يعرف كيفية بناء تجارب صوتية منخفضة الكمون وجاهزة للإنتاج. يُستخدم عند: الذكاء الاصطناعي الصوتي، وكيل الصوت، تحويل الكلام إلى نص، تحويل النص إلى كلام، الصوت في الوقت الحقيقي.
أنماط التصميم لبناء وكلاء ترميز مستقلين. يغطي تكامل الأدوات، أنظمة الأذونات، أتمتة المتصفح، وسير العمل بمشاركة الإنسان. يُستخدم عند بناء وكلاء الذكاء الاصطناعي، تصميم واجهات برمجة التطبيقات للأدوات، تنفيذ أنظمة الأذونات، أو إنشاء مساعدين ترميز مستقلين.
استخدم عندما يذكر المستخدم مشكلات Jira (مثلًا، "PROJ-123"), يسأل عن التذاكر، يرغب في إنشاء/عرض/تحديث المشكلات، التحقق من حالة السبرينت، أو إدارة سير عمل Jira الخاص بهم. يتم التفعيل عند كلمات مفتاحية مثل "jira"، "issue"، "ticket"، "sprint"، "backlog"، أو أنماط مفاتيح المشكلات.
تمثل وكلاء الصوت حدود التفاعل مع الذكاء الاصطناعي - حيث يتحدث البشر بشكل طبيعي مع أنظمة الذكاء الاصطناعي. التحدي ليس فقط في التعرف على الكلام وتوليده، بل في تحقيق تدفق محادثة طبيعي بزمن تأخير أقل من 800 مللي ثانية مع التعامل مع الانقطاعات، والضوضاء الخلفية، والفروق العاطفية. تغطي هذه المهارة معماريتين: تحويل الكلام إلى كلام (OpenAI Realtime API، أقل زمن تأخير، الأكثر طبيعية) وخط الأنابيب (STT→LLM→TTS، مزيد من التحكم، وأسهل في التصحيح). الرؤية الأساسية: زمن التأخير هو القيد.
معالجة بيانات قابلة للتوسع لأعباء عمل التعلم الآلي. تنفيذ تدفق البيانات عبر وحدة المعالجة المركزية/وحدة معالجة الرسومات، يدعم Parquet/CSV/JSON/الصور. يتكامل مع Ray Train وPyTorch وTensorFlow. يتوسع من جهاز واحد إلى مئات العقد. يُستخدم للاستدلال الدفعي، معالجة البيانات المسبقة، تحميل البيانات متعددة الوسائط، أو خطوط أنابيب ETL الموزعة.
استخدم عندما يطلب المستخدم تشغيل Gemini CLI لمراجعة الكود، مراجعة الخطة، أو معالجة السياق الكبير (>200k). مثالي للتحليل الشامل الذي يتطلب نوافذ سياق كبيرة. يستخدم Gemini 3 Pro بشكل افتراضي لتحقيق أفضل أداء في الاستدلال والبرمجة.
بناء أنظمة ذكاء اصطناعي معقدة باستخدام البرمجة التصريحية، تحسين المطالبات تلقائيًا، إنشاء أنظمة RAG وعملاء معيارية باستخدام DSPy - إطار عمل ستانفورد لمعالجة اللغة الطبيعية للبرمجة المنهجية لنماذج اللغة
مجموعة منتقاة من المطالبات عالية الجودة لمختلف حالات الاستخدام. تشمل مطالبات قائمة على الأدوار، وقوالب مخصصة للمهام، وتقنيات تحسين المطالبات. استخدمها عندما يحتاج المستخدم إلى قوالب مطالبات، أو مطالبات تمثيل الأدوار، أو أمثلة جاهزة للاستخدام للمطالبة في البرمجة، أو الكتابة، أو التحليل، أو المهام الإبداعية.
إطار عمل PyTorch عالي المستوى مع فئة Trainer، تدريب موزع تلقائي (DDP/FSDP/DeepSpeed)، نظام ردود نداء، وأقل قدر من الأكواد التمهيدية. يتوسع من الحاسوب المحمول إلى الحاسوب العملاق بنفس الشفرة. استخدمه عندما تريد حلقات تدريب نظيفة مع أفضل الممارسات المدمجة.
أسهل واجهة برمجة تطبيقات للتدريب الموزع. 4 أسطر لإضافة دعم التوزيع لأي سكريبت PyTorch. واجهة موحدة لـ DeepSpeed/FSDP/Megatron/DDP. التوزيع التلقائي للأجهزة، الدقة المختلطة (FP16/BF16/FP8). تكوين تفاعلي، أمر تشغيل واحد. معيار نظام HuggingFace البيئي.
ضغط نماذج اللغة الكبيرة باستخدام تقطير المعرفة من نماذج المعلم إلى الطالب. يُستخدم عند نشر نماذج أصغر مع الحفاظ على الأداء، ونقل قدرات GPT-4 إلى النماذج مفتوحة المصدر، أو تقليل تكاليف الاستدلال. يشمل ذلك مقياس الحرارة، الأهداف الناعمة، KLD العكسي، تقطير اللوغيت، واستراتيجيات تدريب MiniLLM.
تنسيق البيانات المعزز بوحدة معالجة الرسومات (GPU) لتدريب نماذج اللغة الكبيرة (LLM). يدعم النص/الصورة/الفيديو/الصوت. يتميز بإزالة التكرار الغامض (أسرع 16×)، تصفية الجودة (أكثر من 30 قاعدة استدلالية)، إزالة التكرار الدلالي، إخفاء المعلومات الشخصية (PII)، واكتشاف المحتوى غير المناسب (NSFW). يتوسع عبر وحدات معالجة الرسومات باستخدام RAPIDS. يُستخدم لتحضير مجموعات بيانات تدريب عالية الجودة، تنظيف بيانات الويب، أو إزالة التكرار من مجموعات نصوص كبيرة.
محرك بحث تشابه متجه عالي الأداء لـ RAG والبحث الدلالي. يُستخدم عند بناء أنظمة RAG الإنتاجية التي تتطلب بحث الجار الأقرب السريع، البحث الهجين مع التصفية، أو تخزين المتجهات القابل للتوسع بأداء مدعوم بواسطة Rust.
خبير في CrewAI - الإطار الرائد متعدد الوكلاء القائم على الأدوار والذي تستخدمه 60% من شركات فورتشن 500. يغطي تصميم الوكلاء مع الأدوار والأهداف، تعريف المهام، تنظيم الطاقم، أنواع العمليات (تسلسلي، هرمي، متوازي)، أنظمة الذاكرة، والتدفقات لسير العمل المعقدة. ضروري لبناء فرق وكلاء ذكاء اصطناعي تعاونية. يُستخدم عند: crewai، فريق متعدد الوكلاء، أدوار الوكلاء، طاقم من الوكلاء، وكلاء قائمون على الأدوار.
تمديد نوافذ السياق لنماذج المحولات باستخدام تقنيات RoPE وYaRN وALiBi والتداخل الموضعي. يُستخدم عند معالجة المستندات الطويلة (32k-128k+ توكن)، وتمديد النماذج المدربة مسبقًا إلى ما يتجاوز حدود السياق الأصلية، أو تنفيذ ترميزات موضعية فعالة. يغطي التضمينات الدوارة، تحيزات الانتباه، طرق التداخل، واستراتيجيات الاستقراء لنماذج اللغة الكبيرة (LLMs).
البحث على الويب والبحث باستخدام Perplexity AI. استخدمه عندما يقول المستخدم "search"، "find"، "look up"، "ask"، "research"، أو "what's the latest" للاستفسارات العامة. لا يستخدم لوثائق المكتبات/الأُطُر (استخدم Context7) أو أسئلة مساحة العمل.
أنماط جاهزة للإنتاج لبناء تطبيقات LLM. تغطي خطوط أنابيب RAG، وهندسات الوكلاء، وبيئات تطوير التعليمات البرمجية (IDEs) الخاصة بالتوجيه، ومراقبة LLMOps. استخدمها عند تصميم تطبيقات الذكاء الاصطناعي، أو تنفيذ RAG، أو بناء الوكلاء، أو إعداد مراقبة LLM.
اكتب أوراق بحثية جاهزة للنشر في مجالات التعلم الآلي والذكاء الاصطناعي لمؤتمرات NeurIPS وICML وICLR وACL وAAAI وCOLM. استخدمها عند صياغة الأوراق من مستودعات الأبحاث، وتنظيم الحجج، والتحقق من الاستشهادات، أو إعداد النسخ النهائية للنشر. تتضمن قوالب LaTeX، وإرشادات المراجعين، وسير عمل التحقق من الاستشهادات.
يقوم بتقييم نماذج اللغة الكبيرة (LLMs) عبر أكثر من 60 معيارًا أكاديميًا (MMLU، HumanEval، GSM8K، TruthfulQA، HellaSwag). يُستخدم عند قياس جودة النموذج، مقارنة النماذج، الإبلاغ عن النتائج الأكاديمية، أو تتبع تقدم التدريب. معيار صناعي تستخدمه EleutherAI وHuggingFace والمختبرات الكبرى. يدعم HuggingFace وvLLM وواجهات برمجة التطبيقات (APIs).
يخدم نماذج اللغة الكبيرة (LLMs) بمعدل نقل بيانات عالٍ باستخدام PagedAttention والتجميع المستمر في vLLM. يُستخدم عند نشر واجهات برمجة تطبيقات LLM للإنتاج، أو تحسين زمن الاستدلال/معدل النقل، أو تقديم النماذج ذات ذاكرة GPU المحدودة. يدعم نقاط النهاية المتوافقة مع OpenAI، والتكميم (GPTQ/AWQ/FP8)، والتوازي التنسوري.
يدرب نماذج اللغة الكبيرة (2 مليار - 462 مليار معلمة) باستخدام NVIDIA Megatron-Core مع استراتيجيات التوازي المتقدمة. يُستخدم عند تدريب نماذج تزيد عن 1 مليار معلمة، أو الحاجة إلى أقصى كفاءة لوحدة معالجة الرسومات (47% MFU على H100)، أو عند الحاجة إلى التوازي في التنسور/الخط الأنبوبي/التسلسل/السياق/الخبير. إطار عمل جاهز للإنتاج يُستخدم في Nemotron وLLaMA وDeepSeek.
نظام بدء تشغيل مستقل متعدد الوكلاء لـ Claude Code. يتم تفعيله في "وضع لوكي". يدير أكثر من 100 وكيل متخصص عبر الهندسة، ضمان الجودة، DevOps، الأمن، البيانات/التعلم الآلي، عمليات الأعمال، التسويق، الموارد البشرية، ونجاح العملاء. يحول وثيقة متطلبات المنتج (PRD) إلى منتج منشور بالكامل ويولد إيرادات بدون تدخل بشري. يتميز بأداة Task لإرسال الوكلاء الفرعيين، مراجعة كود متوازية مع 3 مراجعين متخصصين، فرز القضايا بناءً على الشدة، قائمة مهام موزعة مع معالجة الرسائل الميتة، نشر تلقائي لمزودي السحابة، اختبار A/B، حلقات تغذية راجعة من العملاء، استجابة للحوادث، قواطع الدائرة، والشفاء الذاتي. يتعامل مع حدود المعدل عبر نقاط تحقق حالة موزعة واستئناف تلقائي مع تراجع أسي. يتطلب العلم --dangerously-skip-permissions.
دمج نماذج متعددة مُحسّنة باستخدام mergekit لدمج القدرات دون إعادة التدريب. يُستخدم عند إنشاء نماذج متخصصة من خلال مزج الخبرات الخاصة بالمجال (الرياضيات + البرمجة + الدردشة)، وتحسين الأداء بما يتجاوز النماذج الفردية، أو التجريب السريع مع متغيرات النماذج. يشمل SLERP، TIES-Merging، DARE، حساب المهام، الدمج الخطي، واستراتيجيات النشر الإنتاجي.
ضمان هيكل JSON/XML/كود صالح أثناء التوليد، استخدام نماذج Pydantic لمخرجات آمنة من حيث النوع، دعم النماذج المحلية (Transformers، vLLM)، وتعظيم سرعة الاستدلال باستخدام Outlines - مكتبة التوليد الهيكلية من dottxt.ai
واجهة سطر الأوامر Datadog للبحث في السجلات، واستعلام المقاييس، وتتبع الطلبات، وإدارة لوحات المعلومات. استخدم هذا عند تصحيح مشكلات الإنتاج أو العمل مع مراقبة Datadog.
تسريع استدلال نماذج اللغة الكبيرة (LLM) باستخدام فك التشفير التكهنّي، رؤوس ميدوسا المتعددة، وتقنيات فك التشفير المتقدم. يُستخدم عند تحسين سرعة الاستدلال (زيادة سرعة بمقدار 1.5-3.6×)، وتقليل الكمون للتطبيقات الزمن الحقيقي، أو نشر النماذج ذات الحوسبة المحدودة. يشمل نماذج المسودات، الانتباه القائم على الشجرة، تكرار جاكوبي، توليد الرموز بالتوازي، واستراتيجيات النشر الإنتاجي.
قاعدة بيانات تضمين مفتوحة المصدر لتطبيقات الذكاء الاصطناعي. تخزين التضمينات والبيانات الوصفية، إجراء البحث المتجهي والبحث النصي الكامل، التصفية حسب البيانات الوصفية. واجهة برمجة تطبيقات بسيطة بأربع وظائف. قابلة للتوسع من دفاتر الملاحظات إلى مجموعات الإنتاج. استخدمها للبحث الدلالي، تطبيقات RAG، أو استرجاع المستندات. الأفضل للتطوير المحلي والمشاريع مفتوحة المصدر.
تنسيق التدريب الموزع عبر العناقيد. يوسع نطاق PyTorch/TensorFlow/HuggingFace من الحاسوب المحمول إلى آلاف العقد. ضبط المعاملات الفائقة المدمج باستخدام Ray Tune، تحمل الأخطاء، التوسع المرن. يُستخدم عند تدريب نماذج ضخمة عبر عدة أجهزة أو تشغيل عمليات مسح المعاملات الفائقة الموزعة.
أنماط التوليد المعزز بالاسترجاع بما في ذلك التجزئة، التضمينات، مخازن المتجهات، وتحسين الاسترجاع. يُستخدم عند: rag، التوليد المعزز بالاسترجاع، البحث المتجهي، التضمينات، البحث الدلالي.
يُحسّن استدلال نماذج اللغة الكبيرة (LLM) باستخدام NVIDIA TensorRT لتحقيق أقصى معدل نقل وأدنى زمن استجابة. يُستخدم للنشر الإنتاجي على وحدات معالجة الرسومات من NVIDIA (A100/H100)، عندما تحتاج إلى استدلال أسرع بمقدار 10-100 مرة مقارنة بـ PyTorch، أو لخدمة النماذج مع التكميم (FP8/INT4)، التجميع أثناء الطيران، وتوسيع النطاق عبر عدة وحدات معالجة رسومات.
الضبط الدقيق الفعال من حيث المعاملات لنماذج اللغة الكبيرة (LLMs) باستخدام LoRA و QLoRA وأكثر من 25 طريقة. يُستخدم عند ضبط النماذج الكبيرة (7B-70B) بذاكرة GPU محدودة، عندما تحتاج إلى تدريب أقل من 1% من المعاملات مع فقدان دقة ضئيل، أو لخدمة متعددة المحولات. مكتبة HuggingFace الرسمية مدمجة مع نظام transformers.
تدريب نماذج مزيج الخبراء (MoE) باستخدام DeepSpeed أو HuggingFace. يُستخدم عند تدريب نماذج كبيرة النطاق مع موارد حسابية محدودة (تقليل التكلفة بمقدار 5× مقارنة بالنماذج الكثيفة)، وتنفيذ البنى النادرة مثل Mixtral 8x7B أو DeepSeek-V3، أو توسيع سعة النموذج دون زيادة متناسبة في الموارد الحسابية. يغطي البنى المعمارية لـ MoE، وآليات التوجيه، وتوازن الأحمال، والتوازي بين الخبراء، وتحسين الاستدلال.
يقوم بتقييم نماذج توليد الشيفرة عبر HumanEval و MBPP و MultiPL-E وأكثر من 15 معيارًا باستخدام مقاييس pass@k. يُستخدم عند قياس أداء نماذج الشيفرة، مقارنة قدرات البرمجة، اختبار دعم اللغات المتعددة، أو قياس جودة توليد الشيفرة. معيار صناعي من مشروع BigCode يُستخدم في لوحات المتصدرين الخاصة بـ HuggingFace.
تقليل حجم نماذج LLM وتسريع الاستدلال باستخدام تقنيات التقليم مثل Wanda وSparseGPT. يُستخدم عند ضغط النماذج دون إعادة تدريب، لتحقيق 50% من التخلخل مع فقدان دقة ضئيل، أو لتمكين استدلال أسرع على مسرعات الأجهزة. يغطي التقليم غير المهيكل، والتقليم المهيكل، وتخلخل N:M، وتقليم الحجم، وطرق اللقطة الواحدة.
يقوم بتشغيل استدلال LLM على وحدة المعالجة المركزية، Apple Silicon، وبطاقات الرسومات الاستهلاكية بدون أجهزة NVIDIA. يُستخدم للنشر على الحافة، أجهزة Mac M1/M2/M3، بطاقات AMD/Intel الرسومية، أو عندما لا يتوفر CUDA. يدعم تقليل دقة GGUF (1.5-8 بت) لتقليل الذاكرة وتسريع الأداء بمعدل 4-10× مقارنة بـ PyTorch على وحدة المعالجة المركزية.
إرشادات خبراء لضبط نماذج اللغة الكبيرة (LLMs) باستخدام LLaMA-Factory - واجهة ويب بدون كود، أكثر من 100 نموذج، QLoRA بدقة 2/3/4/5/6/8 بت، دعم متعدد الوسائط
تتبع تجارب التعلم الآلي، إدارة سجل النماذج مع التحكم في الإصدارات، نشر النماذج للإنتاج، وإعادة إنتاج التجارب باستخدام MLflow - منصة دورة حياة التعلم الآلي غير المعتمدة على إطار عمل معين
تتبع تجارب التعلم الآلي مع التسجيل التلقائي، تصور التدريب في الوقت الحقيقي، تحسين المعاملات الفائقة باستخدام عمليات المسح، وإدارة سجل النماذج مع W&B - منصة MLOps التعاونية
نموذج التعرف على الكلام العام من OpenAI. يدعم 99 لغة، النسخ، الترجمة إلى الإنجليزية، وتحديد اللغة. ستة أحجام للنماذج من صغير جدًا (39 مليون معلمة) إلى كبير (1550 مليون معلمة). يُستخدم لتحويل الكلام إلى نص، نسخ البودكاست، أو معالجة الصوت متعددة اللغات. الأفضل للتعرف التلقائي على الكلام متعدد اللغات والموثوق.
مكتبة فيسبوك للبحث الفعال عن التشابه وتجميع المتجهات الكثيفة. تدعم مليارات المتجهات، تسريع GPU، وأنواع فهرسة مختلفة (Flat, IVF, HNSW). استخدمها للبحث السريع عن k-NN، استرجاع المتجهات على نطاق واسع، أو عندما تحتاج إلى بحث تشابه نقي بدون بيانات وصفية. الأفضل للتطبيقات عالية الأداء.
إرشادات خبراء لضبط نماذج اللغة الكبيرة (LLMs) بدقة باستخدام Axolotl - تكوينات YAML، أكثر من 100 نموذج، LoRA/QLoRA، DPO/KTO/ORPO/GRPO، دعم متعدد الوسائط
يقوم بتقييم نماذج اللغة الكبيرة (LLMs) عبر أكثر من 100 معيار من أكثر من 18 أداة اختبار (MMLU، HumanEval، GSM8K، السلامة، VLM) مع تنفيذ متعدد الخلفيات. يُستخدم عند الحاجة إلى تقييم قابل للتوسع على Docker المحلي، أو Slurm HPC، أو منصات السحابة. منصة NVIDIA ذات المستوى المؤسسي مع بنية تعتمد على الحاويات أولاً لضمان قابلية إعادة التقييم.
منصة سحابية GPU بدون خوادم لتشغيل أحمال عمل التعلم الآلي. استخدمها عندما تحتاج إلى وصول GPU عند الطلب دون إدارة البنية التحتية، أو نشر نماذج التعلم الآلي كواجهات برمجة تطبيقات (APIs)، أو تشغيل مهام الدُفعات مع التوسع التلقائي.
حالات سحابة GPU المحجوزة وعند الطلب لتدريب وتفسير التعلم الآلي. استخدمها عندما تحتاج إلى حالات GPU مخصصة مع وصول SSH بسيط، أنظمة ملفات دائمة، أو عناقيد متعددة العقد عالية الأداء للتدريب على نطاق واسع.
خبير في Langfuse - منصة مراقبة نماذج اللغة الكبيرة مفتوحة المصدر. تغطي التتبع، إدارة المطالبات، التقييم، مجموعات البيانات، والتكامل مع LangChain وLlamaIndex وOpenAI. ضرورية لتصحيح الأخطاء، المراقبة، وتحسين تطبيقات نماذج اللغة الكبيرة في بيئة الإنتاج. يُستخدم عند: langfuse، مراقبة نماذج اللغة الكبيرة، تتبع نماذج اللغة الكبيرة، إدارة المطالبات، تقييم نماذج اللغة الكبيرة.
التوليد الهيكلي السريع والتقديم لنماذج اللغة الكبيرة (LLMs) مع تخزين مؤقت بادئة RadixAttention. يُستخدم لمخرجات JSON/regex، فك التشفير المقيد، سير العمل الوكلي مع استدعاءات الأدوات، أو عندما تحتاج إلى استدلال أسرع بمقدار 5× مقارنة بـ vLLM مع مشاركة البادئة. يدعم أكثر من 300,000 وحدة معالجة رسومات (GPU) في xAI وAMD وNVIDIA وLinkedIn.
توليد الصور من النصوص بأحدث التقنيات باستخدام نماذج Stable Diffusion عبر مكتبة HuggingFace Diffusers. يُستخدم عند توليد الصور من أوامر نصية، أو إجراء الترجمة من صورة إلى أخرى، أو التلوين داخل الصور (inpainting)، أو بناء خطوط أنابيب انتشار مخصصة.
قاعدة بيانات متجهات مُدارة لتطبيقات الذكاء الاصطناعي الإنتاجية. مُدارة بالكامل، قابلة للتوسع التلقائي، مع بحث هجين (كثيف + متناثر)، تصفية البيانات الوصفية، ومساحات أسماء. زمن استجابة منخفض (<100 مللي ثانية عند النسبة 95). استخدمها لتوليد المعرفة الإنتاجي (RAG)، أنظمة التوصية، أو البحث الدلالي على نطاق واسع. الأفضل للبنية التحتية بدون خوادم والمُدارة.
تنسيق متعدد السحابات لأعباء عمل التعلم الآلي مع تحسين تلقائي للتكاليف. استخدمه عندما تحتاج إلى تشغيل تدريبات أو مهام دفعة عبر عدة سحابات، والاستفادة من الحالات الفورية مع الاسترداد التلقائي، أو تحسين تكاليف وحدات معالجة الرسومات عبر المزودين.
مكتبة PyTorch لتوليد الصوت بما في ذلك تحويل النص إلى موسيقى (MusicGen) وتحويل النص إلى صوت (AudioGen). استخدمها عندما تحتاج إلى توليد موسيقى من أوصاف نصية، إنشاء مؤثرات صوتية، أو تنفيذ توليد موسيقى مشروط باللحن.
منصة مراقبة نماذج اللغة الكبيرة (LLM) للتتبع والتقييم والمراقبة. تُستخدم عند تصحيح تطبيقات LLM، وتقييم مخرجات النماذج مقابل مجموعات البيانات، ومراقبة أنظمة الإنتاج، أو بناء خطوط اختبار منهجية لتطبيقات الذكاء الاصطناعي.
بناء خطوط أنابيب بيانات قابلة للتوسع، ومستودعات بيانات حديثة، وهياكل تدفق بيانات في الوقت الحقيقي. تنفيذ Apache Spark، وdbt، وAirflow، ومنصات البيانات السحابية الأصلية.
مهارة البحث العميق مدعومة بـ NotebookLM MCP. يجري بحثًا منظمًا متعدد المصادر (تحليل السوق، المعلومات التنافسية، تحليل الاتجاهات، بحث العملاء المحتملين) باستخدام Google NotebookLM كمحرك بحث، ثم يقدم ملخصات منسقة وقطع استوديو اختيارية (شرائح، بودكاست صوتي، فيديوهات، رسوم بيانية معلوماتية، تقارير، خرائط ذهنية).
يوفر إرشادات لأبحاث التفسير الميكانيكي باستخدام TransformerLens لفحص وتحليل مكونات المحول الداخلية عبر نقاط الربط (HookPoints) وتخزين التنشيط المؤقت. يُستخدم عند عكس هندسة خوارزميات النموذج، ودراسة أنماط الانتباه، أو إجراء تجارب تصحيح التنشيط.
إطار عمل للنماذج المتقدمة لتضمين الجمل، النصوص، والصور. يوفر أكثر من 5000 نموذج مدرب مسبقًا للتشابه الدلالي، التجميع، والاسترجاع. يدعم النماذج متعددة اللغات، المتخصصة في المجالات، ومتعددة الوسائط. يُستخدم لتوليد التضمينات لـ RAG، البحث الدلالي، أو مهام التشابه. الأفضل لتوليد التضمينات في بيئات الإنتاج.
استخدم عندما يسأل المستخدم عن كيفية البناء باستخدام منتجات أو واجهات برمجة تطبيقات OpenAI ويحتاج إلى وثائق رسمية محدثة مع الاستشهادات (على سبيل المثال: Codex، واجهة برمجة تطبيقات الردود، إكمالات الدردشة، مجموعة تطوير تطبيقات Apps SDK، مجموعة تطوير وكلاء Agents SDK، الوقت الحقيقي Realtime، قدرات النموذج أو الحدود)؛ قم بإعطاء الأولوية لأدوات MCP الخاصة بوثائق OpenAI وقم بتقييد أي تصفح احتياطي على نطاقات OpenAI الرسمية فقط.
يُحسّن الانتباه في المحولات باستخدام Flash Attention لتحقيق تسريع بمقدار 2-4 أضعاف وتقليل الذاكرة بمقدار 10-20 ضعف. يُستخدم عند تدريب/تشغيل المحولات مع تسلسلات طويلة (>512 رمزًا)، أو عند مواجهة مشاكل في ذاكرة GPU مع الانتباه، أو الحاجة إلى استدلال أسرع. يدعم PyTorch native SDPA، مكتبة flash-attn، H100 FP8، وانتباه النافذة المنزلقة.
محللات الرموز السريعة المُحسّنة للبحث والإنتاج. تنفيذ قائم على Rust يقوم بتحليل 1 جيجابايت في أقل من 20 ثانية. يدعم خوارزميات BPE وWordPiece وUnigram. تدريب مفردات مخصصة، تتبع المحاذاة، التعامل مع الحشو/الاقتطاع. يتكامل بسلاسة مع transformers. استخدمه عندما تحتاج إلى تحليل رموز عالي الأداء أو تدريب محلل رموز مخصص.
تنسيق GGUF وكمية llama.cpp للاستدلال الفعال على وحدة المعالجة المركزية/وحدة معالجة الرسومات. استخدمه عند نشر النماذج على أجهزة المستهلك، Apple Silicon، أو عند الحاجة إلى كمية مرنة من 2-8 بت بدون متطلبات GPU.
ينشئ خطط تنفيذ مفصلة ومقسمة إلى أقسام من خلال البحث، مقابلات أصحاب المصلحة، ومراجعة متعددة لنماذج اللغة الكبيرة (LLM). يُستخدم عند تخطيط الميزات التي تتطلب تحليلًا دقيقًا قبل التنفيذ.
تنفيذ تعليمي لـ GPT في حوالي 300 سطر. يعيد إنتاج GPT-2 (124M) على OpenWebText. كود نظيف وقابل للتعديل لتعلم المحولات. بواسطة Andrej Karpathy. مثالي لفهم بنية GPT من الصفر. التدريب على Shakespeare (وحدة المعالجة المركزية) أو OpenWebText (متعدد وحدات معالجة الرسومات).
نموذج OpenAI الذي يربط بين الرؤية واللغة. يتيح التصنيف الصوري بدون تدريب مسبق، ومطابقة الصور مع النصوص، والاسترجاع عبر الوسائط. تم تدريبه على 400 مليون زوج من الصور والنصوص. يُستخدم في البحث عن الصور، ومراقبة المحتوى، أو مهام الرؤية واللغة دون الحاجة إلى ضبط دقيق. الأفضل لفهم الصور لأغراض عامة.
نموذج أساسي لتقسيم الصور مع نقل بدون تدريب مسبق. استخدمه عندما تحتاج إلى تقسيم أي كائن في الصور باستخدام نقاط أو مربعات أو أقنعة كمحفزات، أو لتوليد جميع أقنعة الكائنات في الصورة تلقائيًا.
يُكمم نماذج اللغة الكبيرة (LLMs) إلى 8-بت أو 4-بت لتقليل الذاكرة بنسبة 50-75% مع فقدان دقة ضئيل. يُستخدم عندما تكون ذاكرة وحدة معالجة الرسومات (GPU) محدودة، أو الحاجة إلى استيعاب نماذج أكبر، أو الرغبة في استدلال أسرع. يدعم صيغ INT8، NF4، FP4، تدريب QLoRA، ومحسّنات 8-بت. يعمل مع مكتبة HuggingFace Transformers.
منصة مراقبة الذكاء الاصطناعي مفتوحة المصدر لتتبع نماذج اللغة الكبيرة (LLM)، التقييم، والمراقبة. تُستخدم عند تصحيح تطبيقات LLM مع تتبعات مفصلة، إجراء التقييمات على مجموعات البيانات، أو مراقبة أنظمة الذكاء الاصطناعي الإنتاجية مع رؤى في الوقت الحقيقي.
الكمية بعد التدريب بدقة 4 بت لنماذج اللغة الكبيرة مع فقدان دقة ضئيل. يُستخدم لنشر النماذج الكبيرة (70B، 405B) على وحدات معالجة الرسومات للمستهلكين، عندما تحتاج إلى تقليل الذاكرة بمقدار 4× مع تدهور في التعقيد أقل من 2%، أو لتسريع الاستدلال (زيادة سرعة 3-4×) مقارنة بـ FP16. يتكامل مع مكتبات transformers و PEFT لضبط QLoRA الدقيق.
ضبط نماذج اللغة الكبيرة (LLMs) باستخدام التعلم المعزز مع TRL - SFT لضبط التعليمات، DPO لمحاذاة التفضيلات، PPO/GRPO لتحسين المكافأة، وتدريب نموذج المكافأة. يُستخدم عند الحاجة إلى RLHF، لمواءمة النموذج مع التفضيلات، أو التدريب من خلال ملاحظات البشر. يعمل مع مكتبة HuggingFace Transformers.
طريقة Anthropic لتدريب الذكاء الاصطناعي غير الضار من خلال التحسين الذاتي. نهج من مرحلتين - التعلم الموجه مع النقد الذاتي/المراجعة، ثم RLAIF (التعلم المعزز من ملاحظات الذكاء الاصطناعي). يُستخدم لمحاذاة السلامة، وتقليل المخرجات الضارة دون الحاجة إلى تسميات بشرية. يدعم نظام السلامة الخاص بـ Claude.
إطار عمل السلامة في وقت التشغيل من NVIDIA لتطبيقات نماذج اللغة الكبيرة (LLM). يتميز بالكشف عن الاختراق، والتحقق من صحة الإدخال/الإخراج، والتحقق من الحقائق، والكشف عن الهلوسة، وترشيح المعلومات الشخصية (PII)، والكشف عن السمية. يستخدم لغة Colang 2.0 الخاصة بالبرمجة القابلة للتخصيص (DSL) للقيود البرمجية. جاهز للإنتاج، ويعمل على وحدة معالجة الرسومات T4.
مجزئ مستقل عن اللغة يعامل النص كنص يونيكود خام. يدعم خوارزميات BPE وUnigram. سريع (50 ألف جملة/ثانية)، خفيف الوزن (ذاكرة 6 ميجابايت)، مفردات حتمية. يستخدمه T5 وALBERT وXLNet وmBART. يتم التدريب على النص الخام بدون تقسيم مسبق. استخدمه عندما تحتاج إلى دعم متعدد اللغات، أو لغات CJK، أو تقسيم يمكن إعادة إنتاجه.
يوفر إرشادات لتدريب وتحليل المشفرات التلقائية المتناثرة (SAEs) باستخدام SAELens لتفكيك تنشيطات الشبكات العصبية إلى ميزات قابلة للتفسير. يُستخدم عند اكتشاف الميزات القابلة للتفسير، تحليل التراكب، أو دراسة التمثيلات أحادية الدلالة في نماذج اللغة.
الكمية نصف التربيعية لنماذج اللغة الكبيرة (LLMs) بدون بيانات المعايرة. استخدمها عند تقليل دقة النماذج إلى 4/3/2 بت دون الحاجة إلى مجموعات بيانات المعايرة، من أجل سير عمل تقليل دقة سريع، أو عند النشر باستخدام vLLM أو HuggingFace Transformers.
التكميم الوزني الواعي بالتنشيط لضغط نماذج اللغة الكبيرة (LLM) بدقة 4-بت مع تسريع بمقدار 3 أضعاف وخسارة دقيقة دنيا. يُستخدم عند نشر النماذج الكبيرة (7B-70B) على ذاكرة GPU محدودة، عندما تحتاج إلى استدلال أسرع من GPTQ مع الحفاظ على دقة أفضل، أو للنماذج المعدلة بالتعليمات والنماذج متعددة الوسائط. الفائز بجائزة أفضل ورقة بحثية في MLSys 2024.
نموذج المراقبة المتخصص من Meta بحجم 7-8 مليارات لمعالجة مدخلات/مخرجات نماذج اللغة الكبيرة (LLM). 6 فئات أمان - العنف/الكراهية، المحتوى الجنسي، الأسلحة، المواد، إيذاء النفس، التخطيط الإجرامي. دقة تتراوح بين 94-95%. يمكن نشره باستخدام vLLM، HuggingFace، Sagemaker. يتكامل مع NeMo Guardrails.
هجين RNN+Transformer مع استدلال بزمن O(n). زمن خطي، سياق لا نهائي، بدون ذاكرة KV. التدريب مثل GPT (متوازي)، الاستدلال مثل RNN (تسلسلي). مشروع الذكاء الاصطناعي لمؤسسة لينكس. الإنتاج في ويندوز، أوفيس، NeMo. RWKV-7 (مارس 2025). نماذج تصل إلى 14 مليار معلمة.
إطار عمل RLHF عالي الأداء مع تسريع Ray+vLLM. يُستخدم لتدريب PPO، GRPO، RLOO، DPO للنماذج الكبيرة (7B-70B+). مبني على Ray، vLLM، ZeRO-3. أسرع مرتين من DeepSpeedChat مع بنية موزعة ومشاركة موارد GPU.
نموذج الحالة-الفضاء بتعقيد O(n) مقابل تعقيد O(n²) في المحولات. استدلال أسرع 5×، تسلسلات بملايين الرموز، بدون ذاكرة تخزين KV. SSM انتقائي بتصميم واعٍ للأجهزة. Mamba-1 (d_state=16) و Mamba-2 (d_state=128، متعدد الرؤوس). نماذج من 130M إلى 2.8B على HuggingFace.
إطار تدريب مسبق للرؤية واللغة يربط بين مشفرات الصور المجمدة ونماذج اللغة الكبيرة (LLMs). يُستخدم عند الحاجة إلى توصيف الصور، الإجابة على الأسئلة البصرية، استرجاع النصوص المرتبطة بالصور، أو الدردشة متعددة الوسائط مع أداء متقدم بدون تدريب مسبق (zero-shot).
يوفر إرشادات لتدريب التعلم التعزيزي على مستوى المؤسسات باستخدام miles، وهو فرع جاهز للإنتاج من slime. يُستخدم عند تدريب نماذج MoE الكبيرة باستخدام FP8/INT4، ويحتاج إلى محاذاة بين التدريب والاستدلال، أو يتطلب التعلم التعزيزي التكهن لتحقيق أقصى معدل نقل.
تحسين التفضيلات البسيط لمحاذاة نماذج اللغة الكبيرة (LLM). بديل بدون مرجع لـ DPO بأداء أفضل (+6.4 نقاط على AlpacaEval 2.0). لا حاجة إلى نموذج مرجعي، أكثر كفاءة من DPO. يُستخدم لمحاذاة التفضيلات عندما ترغب في تدريب أبسط وأسرع من DPO/PPO.
يوفر إرشادات لتدريب نماذج اللغة الكبيرة (LLMs) باستخدام التعلم المعزز عبر verl (Volcano Engine RL). يُستخدم عند تنفيذ RLHF، GRPO، PPO، أو خوارزميات التعلم المعزز الأخرى لتدريب نماذج اللغة الكبيرة بعد التدريب على نطاق واسع مع بنى تحتية مرنة.
مساعد كبير للغة والرؤية. يتيح ضبط التعليمات البصرية والمحادثات القائمة على الصور. يجمع بين مشفر الرؤية CLIP ونماذج اللغة Vicuna/LLaMA. يدعم المحادثات متعددة الجولات القائمة على الصور، والإجابة على الأسئلة البصرية، واتباع التعليمات. يُستخدم للدردشة بين اللغة والرؤية أو مهام فهم الصور. الأفضل لتحليل الصور التفاعلي.
يوفر إرشادات لتدريب النماذج اللغوية الكبيرة (LLM) بعد التدريب باستخدام التعلم المعزز (RL) باستخدام slime، وهو إطار عمل Megatron+SGLang. يُستخدم عند تدريب نماذج GLM، أو تنفيذ سير عمل مخصص لتوليد البيانات، أو الحاجة إلى تكامل محكم بين Megatron-LM لتوسيع نطاق التعلم المعزز.
يوفر إرشادات لأداء التدخلات السببية على نماذج PyTorch باستخدام إطار التدخل الإعلاني الخاص بـ pyvene. يُستخدم عند إجراء تتبع سببي، تصحيح التنشيط، تدريب التدخل التبادلي، أو اختبار الفرضيات السببية حول سلوك النموذج.
يوفر تدريبًا مبدئيًا موزعًا لنماذج اللغة الكبيرة (LLM) باستخدام PyTorch-native عبر torchtitan مع التوازي رباعي الأبعاد (FSDP2، TP، PP، CP). يُستخدم عند التدريب المبدئي لنماذج Llama 3.1، DeepSeek V3، أو النماذج المخصصة على نطاق واسع من 8 إلى أكثر من 512 وحدة معالجة رسومات (GPU) باستخدام Float8، torch.compile، ونقاط التحقق الموزعة.
يوفر إرشادات لوكلاء التعلم المعزز الأصلي في PyTorch باستخدام torchforge، مكتبة Meta التي تفصل البنية التحتية عن الخوارزميات. استخدمها عندما تريد تجريدات تعلم معزز نظيفة، أو تجربة خوارزميات بسهولة، أو تدريب قابل للتوسع باستخدام Monarch و TorchTitan.
يوفر إرشادات لتفسير والتلاعب بالداخلية لشبكات الأعصاب باستخدام nnsight مع إمكانية التنفيذ عن بُعد عبر NDIF. يُستخدم عند الحاجة إلى إجراء تجارب تفسيرية على نماذج ضخمة (70 مليار+ ) بدون موارد GPU محلية، أو عند العمل مع أي بنية PyTorch.
ينفذ ويدرب نماذج اللغة الكبيرة (LLMs) باستخدام LitGPT من Lightning AI مع أكثر من 20 بنية مدربة مسبقًا (Llama، Gemma، Phi، Qwen، Mistral). يُستخدم عند الحاجة إلى تنفيذات نموذج نظيفة، أو فهم تعليمي للهياكل، أو ضبط دقيق للإنتاج باستخدام LoRA/QLoRA. تنفيذات في ملف واحد، بدون طبقات تجريد.
تشغيل نماذج اللغة الكبيرة (LLM) -- RAG، التضمينات، قواعد بيانات المتجهات، التخصيص الدقيق، هندسة المطالبات المتقدمة، تكاليف LLM، تقييمات الجودة وهندسة الذكاء الاصطناعي للإنتاج.