Imagen إيماجين: تقنية من جوجل تحول النص إلى صورة واقعية إبداعية

كشفت شركة جوجل Google عبر مدونتها الرسمية عن نموذجين جديدين طورهما فريق البحث في الشركة Google Research اعتمادا على تقنيات الذكاء الصناعي AI والتعلم الآلي ML، وهما إيماجين Imagen وبارتي Parti القادرين على إنشاء صورا واقعية من النصوص أو تحويل النص إلى صورة، لكن كليهما يستخدمان أساليب مختلفة.

كيف تعمل نماذج تحويل النص إلى صورة ؟

وتعتمد نماذج تحويل النص إلى صورة على تقنيات الذكاء الصناعي والتعلم الآلي، بحيث يقدم الأشخاص وصفا نصيا لينتج النموذج أو البرمجية صورا واقعية أو إبداعية تتطابق مع الوصف قد الإمكان، بحيث يمكن للمستخدم كتابة نص تفاحة ترتدي قبعة على سبيل المثال أو قطة تجلس على أريكة، مع إمكانية إنشاء صورا أكثر تعقيدا بناء على الوصف في النص.

الذكاء الصناعي يحسم حالات التسلل في مباريات كأس العالم 2022

وقالت جوجل أنه خلال السنوات الماضية دربت نماذج التعلم الآلي ML على مجموعات بيانات صور كبيرة مع أوصاف نصية مقابلة، وهو ما أدى إلى إمكانية إنتاج صورا عالية الجودة مع دعم نطاق أوسع من الأوصاف، كما أشارت جوجل إلى تحقيق نماذج أخرى مثل DALL-E 2 من Open AI اختراقا كبيرا في هذا المجال.

ما هي تقنية إيماجين Imagen من جوجل ؟

ويعتمد نموذج إيماجين Imagen لتحويل النص إلى الصورة على نماذج التعلم الآلي والذكاء الصناعي السابقة القادرة على معالجة الكلمات وفهم سياق الجملة أو ربطها معا في جملة واحدة، وهو الأمر الأساسي لكيفية تحويل النص إلى صورة، وذلك من خلال تحويل نمط من النقاط العشوائية إلى صور، وهي الصور التي تقول جوجل أنها تبدأ بدقة منخفضة ثم تزاداد تدريجيا مع الوقت، والتي شهدت نجاحا كبيرا مؤخرا في معالجة الصور والصوت لتحسين دقة الصورة على سبيل المثال وإعادة تلوين الصور بالأبيض والأسود وتحرير مناطق محددة من الصور وإلغاء اقتصاص الصور وتوليف النص إلى كلام. أما عن نموذج الذكاء الصناعي بارتي Parti القادر أيضا على تحويل النص إلى صورة، فإن طريقة عمله تعتمد على تحويل مجموعة من الصور إلى سلسلة من مدخلات الشفرة البرمجية على غرار قطع الألغاز، ومن ثم إنشاء صورة جديدة، وقالت جوجل أن هذا النهج يستفيد من البنية التحتية لنماذج اللغات الكبيرة مثل PaLM وهو أمر بالغ الأهمية للتعامل مع مطالبات النص الطويلة والمعقدة وإنتاج صور عالية الجودة.

هل نماذج الذكاء الصناعي من جوجل مثالية؟

وذكرت جوجل بعض القيود لنماذج تحويل النص إلى صورة التي طورتها، حيث قالت أنها غير قادرة حتى الآن على إنتاج صور تتضمن عددا محددا من العناصر مثل عشرة تفاحات، كما لا يمكنها وضعها بدقة بناء على أوصاف مكانية مخددة، مثل كرة حمراء على يسار كتلة زرقاء بها مثلث أصفر، وأن هذه النماذج تتعثر كلما كانت النصوص أو المطالبات أكثر تعقيدا، لكنها أكدت أنها تعمل على علاج هذا القصور. كما أكدت جوجل Google أنها ستستمر في تطوير أفكارا جديدة تجمع بين أفضل ما في كلا النموذجين إيماجين Imagen وبارتي Parti، بالإضافة لتعزيز المميزات بما في ذلك القدرة على تعديل الصور وإنشائها تفاعليا من خلال النص.

مخاطر نماذج تحويل النص إلى صورة

وأشارت جوجل Google إلى إدراكها لمخاطر نماذج تحويل النص إلى الصورة اعتمادا على تقنيات الذكاء الصناعي AI والتعلم الآلي ML، والتي تتضمن مخاطر تتعلق بالمعلومات المضللة والتحيز والسلامة، كما قالت أنها تجري دائما مناقشات حول ممارسات الذكاء الصناعي المسؤولة عن تطوير هذه النماذج واستخدامها بأمان، وأنها تضيف الآن علامات مائية تتيح للآخرين التعرف على الصور التي انتجها نموذجي الذكاء الصناعي Imagen أو Parti، بالإضافة لفهم تحيزات النماذج أفضل لضمان تمثيل كافة الناس والثقافات.

هذا المقال ظهر اولا على موقع صدى التقنية