محرك تحويل النص إلى صورة DALL-E

ماهو ال DALL-E ؟

أصدرت شركة أوبن إيه آي OpenAI، إحدى الشركات الرائدة في مجال تطوير الذكاء الاصطناعي ابتكارا غريبا ورائعا هو الDALL-E، ويسمى ايضا GPT-3،حيث قامت بتدريب شبكة عصبية تقوم بإنشاء صور من التعليقات النصية لمجموعة واسعة من المفاهيم التي يمكن التعبير عنها بلغة طبيعية. ففي أوائل شهر يناير قفزة OpenAI، إلى الأمام في قدراتها: لرسم توضيحي لفجل دايكون صغير في توتو يمشي مع كلب. وأيضًا ، أرنب يرتدي بيجاما يشاهد التلفاز ، وجمبريًا يرتدي بدلة يستخدم آلة حاسبة ومجموعة متنوعة من التركيبات الغريبة الأخرى وكلها مرسومة بسلسلة خوارزميات جديدة تسمى DALL-E. يمكن للبرنامج إنشاء مجموعة متنوعة من الرسومات والصور بناءً على مطالبات نصية بسيطة. قد تبدو الرسومات بسيطة (بعضها أفضل من البعض الآخر)، لكنها نوع من التقدم الذي يسلط الضوء على كيفية استمرار الذكاء الاصطناعي في اكتساب قدرات شبيهة بقدرات الإنسان.

حيث تأخذ هذه الشبكة العصبية العملاقة المكونة من 12 مليار متغير تعليقًا نصيًا مثلا اذا اخترت النص (“كرسي بذراعين على شكل أفوكادو”) تنتج الصور المولدة بالذكاء الاصطناعي:

https://openai.com/blog/dall-e/

واذا ماقمت بالبحث عن هذه الصور في مكان ما وكتبت العبارة نفسها في محرك البحث المرئي من Google لفهم ما إذا كان يتم العثور على هذه الصور التي تظهر،فكانت النتائج غير متضمنه لتلك التي ينتجها الذكاء الاصطناعي في نتائج البحث هذه. لان الصور لم يتم التقاطها ولا تصميمها من قبل.

كيف تم بناء DALL-E؟

للأسف ، ليس لدينا الكثير من التفاصيل حول هذا الأمر حتى الآن لأن OpenAI لم تنشر بحثًا كاملاً بعد. ولكن في جوهرها ، تستخدم DALL-E نفس بنية الشبكة العصبية الجديدة المسؤولة عن العديد من التطورات الحديثة في ML: the Transformer. المحولات ، التي تم اكتشافها في عام 2017 ، هي نوع من الشبكات العصبية التي يمكن توسيع نطاقها وتدريبها على مجموعات بيانات ضخمة. لقد كانوا ثوريين بشكل خاص في معالجة اللغة الطبيعية (فهم أساس نماذج مثل BERT و T5 و GPT-3 وغيرها) ،وتحسين جودة نتائج بحث Google ، والترجمة ، وحتى في التنبؤ بهياكل البروتينات. يتم تدريب معظم نماذج اللغات الكبيرة هذه على مجموعات بيانات نصية ضخمة مثل ال (Wikipedia or crawls of the web). ما يجعل DALL- E فريدًا هو أنه تم تدريبه على تسلسلات كانت عبارة عن مزيج من الكلمات والبكسل (ربما كانت تحتوي على صور وتعليقات توضيحية).

ما مدى ذكاء DALL-E؟

في حين أن هذه النتائج مثيرة للإعجاب ، فعندما نقوم بتدريب نموذج على مجموعة بيانات ضخمة ، يكون مهندس التعلم الآلي محقًا في السؤال عما إذا كانت النتائج عالية الجودة فقط لأنها تم نسخها أو حفظها من المصدر. لإثبات أنه ليس مجرد تكرار للصور ، فقد طلب من OpenAI على تقديم بعض المتطلبات الغير العادية مثلا : “رسم احترافي عالي الجودة لسلاحف الزرافة ” كانت النتائج كما يلي:

https://openai.com/blog/dall-e/

مثال اخر “حلزون مصنوع من قيثارة.”

https://openai.com/blog/dall-e/

من الصعب تخيل أن النموذج قد اظهر العديد من هجينة الزرافة والسلاحف في مجموعة بيانات التدريب الخاصة به ، مما يجعل النتائج أكثر إثارة للإعجاب. علاوة على ذلك ، فإن هذه التصاميم الغريبة تلمح إلى شيء أكثر روعة حول قدرته على أداء “الاستدلال البصري بدون طلقة”.

الاستدلال البصري بدون طلقة

عادةً في التعلم الآلي ، نقوم بتدريب النماذج من خلال إعطائهم آلاف أو ملايين الأمثلة على المهام التي نريدهم أن يقوموا بتشكيلها ونأمل أن تتعلم هذا النمط. لتدريب نموذج يحدد سلالات الكلاب ، على سبيل المثال ، قد نعرض على شبكة عصبية آلاف الصور للكلاب المصنفة حسب السلالة ثم نختبر قدرتها على تمييز صور جديدة للكلاب. تتعتبر مهمة ذات نطاق محدود تبدو غريبة تقريبًا مقارنة بأحدث مآثر شركة OpenAI من ناحية أخرى ، فإن التعلم بدون طلقة هو قدرة النماذج على أداء المهام التي لم يتم تدريبهم بشكل خاص على القيام بها. على سبيل المثال، تم تدريب DALL-E على إنشاء صور من التسميات التوضيحية. ولكن باستخدام موجه النص الصحيح ، يمكنه أيضًا تحويل الصور إلى رسومات غريبة.

مثلا المطلوب في الصورة التالية: “الرسم في الأسفل لنفس القطة بالضبط في الجزء العلوي”

https://openai.com/blog/dall-e/

يمكنه أيضًا عرض نص مخصص على لافتات الشوارع مثلا في الصورة ادناه مطلوب تحديد “واجهة متجر مكتوب عليها كلمة ” openai . وبهذه الطريقة ،يمكن لـ DALL-E أن يتصرف تقريبًا مثل مرشح Photoshop ، على الرغم من أنه لم يتم تصميمه خصيصًا للعمل بهذه الطريقة

https://openai.com/blog/dall-e/

بعبارة أخرى ، يمكن القيام بأكثر من مجرد رسم صورة جميلة للتعليق يمكنه أيضًا ، بمعنى ما ، الإجابة على الأسئلة بصريًا. لاختبار قدرة التفكير البصري، فعندما طلب منه إجراء اختبار الذكاء البصري. في الأمثلة أدناه ، كان على النموذج إكمال الزاوية اليمنى السفلية للشبكة ، باتباع النمط المخفي للاختبار لقطة شاشة لاختبار الذكاء المرئي OpenAI المستخدمة لاختبار DALL-E

https://openai.com/blog/dall-e/

كيف يمكن لـ DALL-E أن يفيد البشرية؟

حيث انه يُظهر الإبداع ، وينتج صورًا مفاهيمية مفيدة للمنتج والأزياء والتصميم الداخلي. لقد عرضت مجموعة فرعية فقط من الصور التي تم إنتاجها لكل مطالبة ، لكنها الأكثر تطابقًا مع الطلب. وقد أظهروا بوضوح أن DALL-E يمكن أن يدعم العصف الذهني الإبداعي ، أو زيادة المصممين البشريين ، إما بمبتدئين للفكر أو يومًا ما إنتاج صور مفاهيمية نهائية. سيحدد الوقت ما إذا كان هذا سيحل محل الأشخاص الذين يؤدون هذه المهام أو سيكون مجرد أداة أخرى لتعزيز الكفاءة والإبداع.

ماذا يعنى ذلك؟

اذا ما هو التالي؟ إذا استخدمت ألف جملة بدلاً من جملة واحدة ، فسأقوم بكتابة كتاب. وهل يمكن أن يحول هذا الكتاب إلى كتاب مصور أو فكاهي؟ إذا أردت منه أن يرسم بيكاتشو بدلاً من الأفوكادو ، فهل يمكنه رسم مغامرات بيكاتشو؟ عندما أقول خذ سيفًا ضوئيًا في يده ، هل يمكنه تحويل شيء أنتجته الثقافة الشعبية الحديثة ليس في الواقع إلى رسم وإعطائه لبيكاتشو؟ هل يمكنه عمل رسوم متحركة إذا كان يرسم 24 إطارًا في الثانية او انتاج فيلم إذا كان ينتج 24 إطارًا من الصور؟

أعتقد أننا بحاجة للاستعداد لرؤية مثل هذه الأشياء في السنوات القادمة.

المصادر

شاهد ايضا

http://iraqispace.com/%d8%ac%d9%8a%d9%84-z-%d9%88%d9%85%d8%b9%d8%a7%d9%86%d8%a7%d8%aa%d9%87%d9%85-%d9%85%d8%b9-%d8%a7%d9%84%d8%a7%d8%ad%d8%a8%d8%a7%d8%b7-%d8%a7%d9%84%d8%b0%d9%8a-%d9%8a%d8%a8%d8%af%d9%88-%d8%ae%d8%b7%d9%8a/

ماهو ال DALL-E ؟

كيف تم بناء DALL-E؟

ما مدى ذكاء DALL-E؟

الاستدلال البصري بدون طلقة

كيف يمكن لـ DALL-E أن يفيد البشرية؟

ماذا يعنى ذلك؟

المصادر

1 فكرة عن “محرك تحويل النص إلى صورة DALL-E”

اترك تعليقاً إلغاء الرد

ماهو ال DALL-E ؟

كيف تم بناء DALL-E؟

ما مدى ذكاء DALL-E؟

الاستدلال البصري بدون طلقة

كيف يمكن لـ DALL-E أن يفيد البشرية؟

ماذا يعنى ذلك؟

المصادر

مقالات قد تعجبك

1 فكرة عن “محرك تحويل النص إلى صورة DALL-E”

اترك تعليقاً إلغاء الرد