لماذا تتسابق شركات الذكاء الإصطناعي مثل جوجل نحو ريديت؟

فجأة احتلت ريديت Reddit المنصة البالغة من العمر 29 عاما مقدمة نتائج بحث جوجل، وعقدت اتفاقا مع ألفابت بقيمة 60 مليون دولار سنويا في فبراير الماضي، ثم اتفاقا مماثلا مع OpenAI قبل أيام قليلة.

هذا السباق المحموم على منصة الشركة الأمريكية التي طرحت أسهمها لأول مرة هذا العام، تجعل منها أكثر من مجرد شبكة اجتماعية أخرى.

اتفاقيات الذكاء الإصطناعي مع Reddit

في فبراير، أعلنت جوجل عن اتفاقية بقيمة 60 مليون دولار سنويًا مع ريديت تسمح لجوجل بتدريب أنظمة الذكاء الاصطناعي الخاصة بها على بيانات المنصة.

وقبل أسابيع قليلة أعلنت شركة OpenAI عن اتفاقية مماثلة ومربحة بالمثل بلا شك، في اطار عقد مطورة شات جي بي تي لسلسلة من الإتفاقيات مع منصات إخبارية أيضا.

لماذا أصبحت أكبر وأقوى شركات الذكاء الاصطناعي في العالم مهووسة بموقع المنتدى العتيق الذي يعتبره معظم المستخدمين التقليديين بالوعة متحيزة ومليئة بالأكاذيب؟

يعود الأمر كله إلى كيفية تدريب نماذج اللغات الكبيرة اليوم، ومن خلال مصادفة كيفية إعداد الموقع، صادف أن قام Reddit بإنشاء بيانات التدريب المثالية لمطوري نماذج اللغات الكبيرة LLM.

وتركب الشركة التي يبلغ عمرها 29 عامًا هذه الموجة من الاهتمام في بحر من الربحية الهائلة بتكلفة كبيرة على المستخدمين.

ميزة Reddit التي لا تملكها مواقع الويب الأخرى

لمواصلة التقدم، تحتاج نماذج اللغات الكبيرة (LLMs) مثل ChatGPT من OpenAI و Gemini من جوجل إلى الاستمرار في استيعاب كميات وفيرة من اللغة المكتوبة.

إقرأ أيضا:مشكلة كتابات الذكاء الإصطناعي وعيبها الأكبر

وقد حصلت هذه النماذج بالفعل على بيانات من ويكيبيديا، وكل كتاب منشور تقريبًا، وكل موقع ويب متاح للجمهور وأي بيانات لغوية أخرى متاحة بشكل عام.

وقد أعطى منصات الذكاء الإصطناعي بعض القدرات المذهلة، ومع ذلك، فإن الكثير من بيانات التدريب هذه لا تلتقط اللغة البشرية العامية، أي أنواع الكلمات العامية التي ينتجها الأشخاص عندما يرسلون رسائل نصية مع صديق أو يكتبون بريدًا إلكترونيًا إلى زميل.

وهذا جزء من السبب الذي يجعل مخرجات أنظمة مثل ChatGPT و Gemini غالبًا ما تكون صارمة ورسمية بشكل مفرط.

تظهر العبارات الرسمية كثيرًا في الكتابة باستخدام الذكاء الاصطناعي، لدرجة أن الباحثين يستخدمونها لتتبع انتشار الكتابة باستخدام الذكاء الاصطناعي في المجلات وعلى مواقع الويب.

لكي يبدو الأمر أشبه بالبشر، تحتاج هذه النماذج والمنصات بشدة إلى المزيد من الكتابة البشرية الأصيلة، كي تتكلم مثل البشر وتقدم مقالات وأجوبة اكثر بشرية.

ولسوء الحظ بالنسبة لـ OpenAI وجوجل، فإن الكثير من هذه الكتابة محجوبة في أماكن خاصة، ستكون سلاسل الواتساب، والرسائل النصية، ورسائل البريد الإلكتروني الشخصية، وغير ذلك الكثير بمثابة منجم ذهب لهذا النوع من الكتابة العامية، لكن معظم الأشخاص لا يرغبون في تسليم سجل الدردشة بالكامل إلى OpenAI.

حتى لو تمكنت هذه الشركات من الوصول إلى كل هذا النوع من البيانات لأغراض التدريب، فسيظل لديهما مشكلة أخرى، معظم الكتابة العامية غير مرشحة وغير مشروحة.

إقرأ أيضا:أكذوبة الخصوصية في محرك بحث DuckDuckGo

يقوم الناس بتدوين ما يريدون قوله في هذه اللحظة، دون أن يقوم أحد بتقييم جودة ما ينتجونه، كما أنهم يتكلمون بالعامية وببساطة في ريديت ومنصات التواصل المشابهة.

وهذا ما لا تقدمه الكتب المنشورة ولا مواقع الأخبار ولا منصات الويكي، حيث المحتوى فيها رسمي وأعلى جودة، من الكتابة العامية الموجودة على ريديت.

أجوبة ريديت طبيعية أكثر

رديت هو موقع يمكنك المشاركة فيها بهوية مجهولة، يمكن لأي شخص إنشاء حساب بسرعة ونشر معلومات حول أي نوع من المواضيع، والكتابة بأسماء مستعارة.

يشجع هذا عدم الكشف عن هويته على الكتابة غير الرسمية، والتي غالبًا ما تكون لاذعة وغير مفلترة، وبعيدًا عن الالتزام بالمرونة والأداء، من المرجح أن يشارك مستخدمو Reddit الكتابة والخبرات الأولية وغير المفلترة مقارنة بمستخدمي الشبكات الاجتماعية المرتبطة بالأسماء مثل انستقرام أو X.

وقد لاحظ الناس كل يوم، حتى أن العديد من الأشخاص غير المشاركين في المنصة بدأوا في إلحاق “Reddit” بنهاية استعلاماتهم على جوجل، سعيًا للعثور على معلومات غير مصفاة من أشخاص حقيقيين بدلاً من مقالات تحسين محركات البحث (SEO) التي تتلاعب بنتائج جوجل التقليدية.

يشارك الناس هناك تجارب حقيقية مع المنتجات والخدمات التي يستخدمونها فيما الإعلانات والمنشورات التي تبدو ترويجية تنشر ولكنها لا تحصل على تصويتات كثيرة.

إقرأ أيضا:استخدامات أداة سورا Sora OpenAI لإنشاء مقاطع الفيديو بالذكاء الإصطناعي

تميل المشاركات الأكثر إقناعًا أو نقاشًا بأناقة – أو تلك التي تعكس إجماع المجتمع – إلى الحصول على تأييد، يميل الهراء والتسويق والآراء المتطرفة عديمة الفائدة إلى التصويت السلبي أو الإزالة، ويميل المشرفون المتطوعون إلى حذف أكثر المشرفين فظاعة.

نظام التصويت في ريديت

لكن لدى ريديت أيضًا شيئًا آخر يجعله ذو قيمة كبيرة لتدريب الذكاء الاصطناعي، حيث يمكن لمستخدمي المنصة التصويت على جودة كل مشاركة على المنصة، إما برفعها إلى أعلى سلسلة المناقشة أو دفنها.

تظهر الأبحاث أن Reddit هو ثاني أكثر مواقع التواصل الاجتماعي الموثوقة للأخبار، وأن مقالاته التي تم التصويت عليها تميل إلى أن تكون أكثر دقة من الناحية الواقعية من تلك التي تم التصويت عليها بشكل سلبي.

عد نظام التصويت هذا – المفتوح للجماهير – فريدًا من نوعه بين منصات الإنترنت، وتمتلك ويكيبيديا نظامًا مشابهًا للتحرير الجماعي، ولكن في النهاية تقوم مجموعة صغيرة من حراس البوابة باتخاذ القرار النهائي بشأن ما يجري على المنصة، ولا تحتوي معظم المنصات على نظام تصنيف الجودة على الإطلاق.

إن إخفاء الهوية والطبيعة غير الرسمية لمنصة Reddit بالإضافة إلى تغطيتها الموسعة لكل شيء بدءًا من ركوب الدراجات إلى الرسوم المتحركة توفر مصدرًا قيمًا للكتابة العامية، والتي تعكس نوع الاتصالات غير الرسمية التي قد يرغب الأشخاص في استخدام الذكاء الإصطناعي لإنشائها.

وتعد أصوات ريديت مصدرًا طبيعيًا لنوع بيانات التعلم المعزز التي تحتاجها هذه المنصات، ويمكن من خلال التعاون مع المنصة الحصول على البيانات التي يريدونها.

يبدو الأمر كما لو أن موقع Reddit قد بدأ منذ ما يقرب من 30 عامًا في إنشاء النوع الدقيق من مجموعة البيانات التي ستحتاجها شركات الذكاء الإصطناعي.

ماذا وراء أزمة احتلال Reddit مراتب أعلى في نتائج بحث جوجل؟

رابط Reddit Pixel Wars واحصائيات حروب البكسل على ريديت

تسريب خوارزمية جوجل و 14000 عامل في ترتيب مواقع الويب

دمج الذكاء الاصطناعي في جوجل: هل يقلص زيارات المواقع الإلكترونية؟

ماذا وراء أزمة احتلال Reddit مراتب أعلى في نتائج بحث جوجل؟