عالميًا: مسارات معالجة البيانات الضخمة المشغّلة لأنظمة الذكاء الاصطناعي التوليدي الكبرى قائمة بحكم تصميمها على انتهاكاتٍ جماعية للخصوصية

قالت منظمة العفو الدولية اليوم في تقرير موجز جديد إن الشركات تستخرج كميات هائلة من البيانات المتاحة عبر الإنترنت عبر تقنيات غير مشروعة لاستخلاص البيانات من الانترنت بهدف تطوير منتجات ذكاء اصطناعي توليدي خاصة بها، بطريقة تتيح انتهاكًا واسع النطاق للخصوصية، ما يجعل هذه الأنظمة غير مشروعة بحكم تصميمها.

يوثق التقرير بعنوان غير مشروعة بحكم تصميمها: كشف التكلفة الحقوقية للذكاء الاصطناعي التوليدي مخاطر جسيمة في عمليات استخلاص بيانات مواقع الانترنت على نطاقٍ واسع ومعالجتها واستخدام ذلك لبناء هذه الأنظمة وتدريبها، وتتضمّن هذه المخاطر انتهاكات للحق في الخصوصية، بحكم تصميم هذه العمليات، إلى جانب الآثار السلبية على البيئة والمجتمعات المهمشة تاريخيًا.

وقالت ليكيتا بانرجي، رئيسة مختبر المساءلة الخوارزمية في منظمة العفو الدولية: “تقدّم الشركات حول العالم منتجات الذكاء الاصطناعي التوليدي تحت غطاء الكفاءة والتطور، ولكن في الحقيقة، تكرّس هذه الأنظمة الانتهاكات واسعة النطاق للخصوصية عن طريق تقنيات غير مشروعة لاستخلاص البيانات من الإنترنت؛ وهي عملية مؤتمتة لاستخراج البيانات من مواقع الإنترنت، ويشمل ذلك البيانات الشخصية، مثل الصور والنشاط على وسائل التواصل الاجتماعي، وذلك بهدف تدريب نماذج الذكاء الاصطناعي”.

“أتاحت مسارات معالجة البيانات القائمة على الاستخراج، والخيارات التصميمية المتأصلة التي تتخذها شركات التكنولوجيا، وسلاسل الإمداد الاستغلالية، المستخدمة لبناء أنظمة ذكاء اصطناعي توليدي، إطارًا مفاهيميًا للتطوير التكنولوجي يفتح الباب أمام خطر انتهاكات واسعة النطاق لحقوق الإنسان”.

وبحثت منظمة العفو الدولية في النماذج المشغّلة لبعض أكثر أدوات الذكاء الاصطناعي شعبية القائمة بذاتها والمتاحة للعامة، بما في ذلك نموذج جي بي تي 3 (GPT3) الذي تقدمه شركة أوبن إي آي (Open AI)، وجيميني (Gemini) التابع لشركة غوغل (Google)، ولاما (Llama) التابع لشركة ميتا (Meta)، وديب سيك (DeepSeek)، وأدوات تقدمها ميدجيرني (Midjourney) وستيبل ديفيوجن (Stable Diffusion).

تعتمد هذه الأنظمة على استخراج المعلومات من مليارات المنشورات والصور العامة على الإنترنت، وفي كثير من الأحيان دون الحصول على الموافقة الصريحة من الأفراد الذين ينشئونها أو يظهرون فيها. ولا يقتصر هذا النهج على انتهاك الخصوصية بحكم تصميمه، ولكن مع اتساع نطاق مجموعات البيانات التي تشغّل نماذج الذكاء الاصطناعي، يتفاقم كذلك المحتوى التمييزي والقائم على الكراهية في مخرجاتها، عدا عن تفاقم الصور النمطية السلبية والانحيازات، لا سيّما تلك القائمة على أساس العرق أو النوع الاجتماعي.

هذه الخيارات ليست حتميّة. يجب علينا مناهضة خيارات التصميم المعتمدة لدى الشركات التي تطوّر أنظمة الذكاء الاصطناعي التوليدي بالاعتماد على بيانات تدريبية مستخرجة على نطاق واسع وبدون موافقة المستخدمين، بما في ذلك البيانات الشخصية.

–

^{ليكيتا بانرجي، رئيسة مختبر المساءلة الخوارزمية في منظمة العفو الدولية}

تعدّ التحيّزات العرقية، والقائمة على النوع الاجتماعي، والثقافية من السمات المتكررة في أنظمة الذكاء الاصطناعي التوليدي، وهو ما نتج عن البيانات التدريبية التي تُستخلص بشكلٍ كبير من الإنترنت، وبالتالي هي ملوّثة بتحيّزات قائمة على أرض الواقع تضرّ بمجتمعات مهمشة تاريخيًا. علاوةً على ذلك، تنطوي أنظمة الذكاء الاصطناعي التوليدي على خطر المساس بحرية التفكير، فهي قادرة على التأثير على أفكار المستخدمين وتشكيل معتقداتهم الشخصية عن طريق المقترحات التنبؤية. ينطبق ذلك بصفة خاصة على النماذج الأضخم التي تعتمد على بيانات تدريب واسعة النطاق.

وأضافت ليكيتا بانرجي: “هذه الخيارات ليست حتميّة. يجب علينا مناهضة خيارات التصميم المعتمدة لدى الشركات التي تطوّر أنظمة الذكاء الاصطناعي التوليدي بالاعتماد على بيانات تدريبية مستخرجة على نطاق واسع وبدون موافقة المستخدمين، بما في ذلك البيانات الشخصية”،

“هذه واحدة من أكثر الممارسات فداحة لدى شركات الذكاء الاصطناعي التي تعمل دون اكتراث لحقوق الإنسان، ويجب التصدي لها بشكلٍ عاجل. إن اعتماد مسار مختلف للتطوير التكنولوجي أمر ممكن إذا ما بادرت السلطات بالتحرك العاجل لتصحيح المسار”.

تكلفة بيئية باهظة

مع تسارع التطور وتوسع نطاقه في شركات الذكاء الاصطناعي التوليدي، تتزايد متطلبات البنى التحتية وما يرتبط بها من تكاليف بيئية.

تستلزم الاحتياجات الأعلى لمعالجة البيانات، فيما يخص النماذج الأكبر، رقائق تستهلك كميات أكبر من الطاقة، ومراكز بيانات أكبر، وبالتالي، تتطلب مزيدًا من الطاقة والمياه لتفعيلها وتشغيلها. ويؤدي إنتاج الذكاء الاصطناعي التوليدي في الكثير من الأحيان إلى أثر سلبي على المجتمعات المهمشة تاريخيًا، حيث تُستغل الأراضي والموارد التي تمتلكها هذه المجتمعات لبناء مراكز البيانات وتلبية متطلبات معالجة البيانات.

ذكر تقرير غوغل للاستدامة لعام 2024 تسجيل زيادة هائلة تُقدّر بنسبة 48% في انبعاثات الشركة لغازات الدفيئة منذ 2019، ويُعزى ذلك إلى انبعاثات مراكز البيانات وسلاسل الإمداد. وعلى نحوٍ مشابه، ازدادت انبعاثات مايكروسوفت (Microsoft)، بنسبة 29 بالمئة ما بين عامي 2020 و2024، وذلك بسبب مراكز البيانات المنفّذة لعمليات داعمة للذكاء الاصطناعي.

وقد أدّى الاستخدام المكثف للموارد في إنتاج الذكاء الاصطناعي التوليدي إلى أن تُبدي مجتمعات محلية، من سيريوس في تشيلي، وكيريتارو في المكسيك، وصولًا إلى أريزونا في الولايات المتحدة الأمريكية، مقاومةً لإقامة مراكز للبيانات في المناطق التي تعاني أصلًا على نحو كبير من الجفاف وانقطاعات للتيار الكهربائي.

وفي سياق عملية البحث، راسلت منظمة العفو الدولية كلّ من غوغل وأوبن إي آي، وميتا، وستابيليتي إي آي (Stability AI)، وميدجيرني، وديبسيك، لمنحهم الفرصة للرد على نتائج التقرير البحثي الموجز التي تنص على أن نماذجهم تعتمد على تقنيات غير مشروعة لاستخلاص البيانات من الإنترنت، فضلًا عن العديد من المخاوف الأخرى المتعلقة بحقوق الإنسان.

كما راسلت منظمة العفو الدولية كل من شركة إنتل (Intel) وشركة في إم وير (VMware) بشأن مخاطر التمييز المُجحف بشكلٍ خاص، وشركات غوغل ومايكروسوفت وأمازون (Amazon) بشأن الأضرار البيئية المرتبطة بأنظمة الذكاء الاصطناعي التوليدي الخاصة بها والبنى التحتية التابعة لتلك الأنظمة. وحتى وقت النشر، لم تتلقّ منظمة العفو الدولية ردودًا سوى من مايكروسوفت، وأمازون، وإنتل، وأوبن إي آي، وميتا. ويتضمّن التقرير الموجز ملخصًا لردودهم.

تدعو منظمة العفو الدولية الدول لحظر أنظمة الذكاء الاصطناعي التوليدي القائمة بذاتها التي بُنيت باستخدام تقنيات غير مشروعة لاستخلاص بيانات من الإنترنت، متمثلة في جمع بيانات التدريب على نطاق واسع وبكميات ضخمة عبر الإنترنت. يتعيّن على الشركات أن توقف على الفور الممارسة المتمثلة في استخلاص البيانات الشخصية من الإنترنت بصورة غير مشروعة وبدون موافقة أصحابها لأغراض تدريب الذكاء الاصطناعي، ويجب على الدول محاسبة الشركات لتورّطها في أيّ انتهاكات لحقوق الإنسان مرتبطة بخياراتها التصميمية والتجارية.

خلفية

يقدّم التقرير الموجز تحليلًا حقوقيًا لـ’مسار معالجة البيانات‘ الذي يشغّل منتجات الذكاء الاصطناعي التوليدي، ويشمل ذلك مراحل الاستحواذ على البيانات، وتحليلها، ومعالجتها، وهي مراحل تلعب دورًا بالغ الأهمية فيما يخص التشغيل العام لهذه الأنظمة. ويتضمن ذلك على وجه التحديد إلقاء نظرة فاحصة على محدّدات الخيارات التصميمية وتداعياتها في سياق بيانات تدريب نماذج الذكاء الاصطناعي التوليدي، مع التركيز على طرق جمع البيانات ومصادرها، ومعالجتها، وتوسيع نطاق عمل النماذج وما تنتجه من بيانات.

تعرّف منظمة العفو الدولية أدوات الذكاء الاصطناعي القائمة بذاتها بصفتها منتجات طُوّرت، واستُخدمت، وروّج لها حصرًا وبشكل خاص لما تقدمه من قدرات الذكاء الاصطناعي التوليدي، مثل محادثات الروبوتات الآلية، وأدوات توليد الصور ومقاطع الفيديو والمقاطع الصوتية والنصوص، وما إلى ذلك. ولا يشمل ذلك المنتجات التي تتضمن الذكاء الاصطناعي التوليدي كميزة أو وظيفة إضافية ضمن حزمة أوسع من المنتجات، كما هو الحال على سبيل المثال مع برامج معالجة النصوص التي تتضمن ميزات اختيارية تقدّم أدوات ذكاء اصطناعي توليدي.