أطلقت شركة “علي بابا” (Alibaba) نموذج ذكاء اصطناعي يمكنه قراءة مشاعر البشر، وذلك في خطوة تهدف إلى التفوق على أحدث نماذج شركة “أوبن إيه آي” OpenAI الأميركية.
واستعرض باحثون في مختبر “تونجي” التابع للشركة الصينية نموذجهم مفتوح المصدر R1-Omni، الذي يمكنه استنتاج مشاعر الشخص من ملامح وجهه خلال مقطع فيديو، بالإضافة إلى وصف ملابسه وبيئته المحيطة، بحسب “بلومبرغ”.
ويضيف هذا النموذج بُعداً جديداً لفهم الرؤية الحاسوبية، وهو نسخة محسّنة من نموذج مفتوح المصدر آخر يُدعى HumanOmni، الذي طوّره الباحث الرئيسي نفسه، جياشينج تشاو.
كيف يعمل نموذج R1-Omni؟
يعتمد نموذج R1-Omni من شركة Alibaba على تقنية التعلم المعزز مع المكافأة القابلة للتحقق (RLVR)، وهو نموذج ذكاء اصطناعي متعدد الوسائط قادر على فهم المشاعر البشرية من خلال تحليل الصور، والفيديو، والصوت.
ويعمل هذا النموذج على تحسين 3 جوانب رئيسية في التعرف على المشاعر، وهي التفسير، إذ يساعد في فهم المشاعر بناء على إشارات مرئية وصوتية بدقة من خلال تقديم نتائج أكثر موثوقية مقارنة بالنماذج السابقة.
درَّب الفريق البحثي النموذج الجديد على مقاطع فيديو واقعية، حيث خضع في مراحله الأولى لتدريب مكثف على 580 مقطع فيديو من مجموعتَي بيانات رئيسيتين؛ الأولى هي Explainable Multimodal Emotion Reasoning (EMER) التي تركز على شرح كيفية اشتقاق المشاعر، أما الثانية فهي HumanOmni والتي تحتوي على بيانات مصنفة يدوياً للمشاعر.
بعد ذلك، دخل النموذج مرحلة تدريب متقدمة باستخدام RLVR، حيث استفاد من نظام مكافآت ذكي يعزز دقته، مثل مكافآت الدقة (R_acc) لضمان التنبؤ الصحيح بالمشاعر، ومكافآت التنسيق (R_format) للحفاظ على إجابات منظمة وسهلة الفهم.
كما تم اختبار نموذج R1-Omni على مقطع فيديو يظهر فيه مشهد لشارع هادئ حيث تقف امرأة شابة ترتدي سترة دافئة، وتنظر للأسفل بتفكير واضح.
وأظهر التحليل الذي أجراه النموذج أن تعابير وجهها تتغير تدريجياً من الارتباك والدهشة إلى الغضب البسيط، مما يعكس تحولاً عاطفياً تدريجياً.
وقدَّم النموذج وصفاً تفصيلياً للمشهد، موضحاً أن تعابير الوجه والتغيرات الصوتية تدل على حالة داخلية من التوتر والتفكير المعمق، وفي النهاية، صنَّف النموذج المشاعر الأساسية في المشهد على أنها “الدهشة”، بينما كان التصنيف الحقيقي وفقاً لمراجعي البيانات “محايداً”.
ويعكس هذا التباين بين تصنيف النموذج والتصنيف البشري بعض التحديات التي تواجه نماذج الذكاء الاصطناعي في فهم المشاعر الدقيقة، خاصة عندما تكون الإشارات العاطفية غير واضحة أو متناقضة.
ومع ذلك، فإن قدرة النموذج على تحليل المشاعر بناء على إشارات مرئية وصوتية متعددة تجعله خطوة مهمة نحو تطوير أنظمة ذكاء اصطناعي أكثر ذكاء ووعياً بالسياق العاطفي البشري.
خطوات منظمة
وتسعى Alibaba لتعزيز مكانتها في مجال الذكاء الاصطناعي، خاصة بعد الظهور البارز لشركة “ديب سيك” (DeepSeek) في يناير الماضي.
وتعمل الشركة الرائدة في التجارة الإلكترونية حالياً على إصدار أدوات وتطبيقات ذكاء اصطناعي جديدة في عدة مجالات، حيث قامت بمقارنة نموذجها Qwen مع نموذج DeepSeek، وأبرمت شراكة كبيرة مع شركة أبل لتوفير الذكاء الاصطناعي على أجهزة “آيفون” داخل الصين، والآن تسعى لمنافسة OpenAI أيضاً.
ويتوفر نموذج R1-Omni للمستخدمين للتنزيل مجانا عبر منصة Hugging Face. وتُعتبر محاولات تحقيق الذكاء العاطفي، الذي يمكّن الحواسيب من التعرف على المشاعر الإنسانية والاستجابة لها، منتشرة بالفعل.
وتُستخدم تلك التقنية لمساعدة روبوتات الدردشة في خدمة العملاء على اكتشاف الإحباط، وللسيارات في اكتشاف السائقين الذين يغلبهم النعاس خلف عجلات القيادة.
وكانت OpenAI أطلقت نموذجها GPT-4.5 في وقت سابق من هذا العام، مشيرة إلى أنه أفضل في تحديد والاستجابة للإشارات الدقيقة في مطالبات المستخدمين الكتابية، ولكنه يأتي بتكلفة عالية؛ حيث يتوفر مبدئياً فقط للمستخدمين الذين يدفعون 200 دولار شهرياً ضمن باقة الاشتراك ChatGPT Pro.
في المقابل، وفي ظل حرب الأسعار لجذب العملاء في الصين، تطرح “علي بابا” نموذجها الجديد مجاناً للجميع.