آینده هوش مصنوعی به پایگاه داده رایگان معلم دبیرستان متکی است

این معلم 40 ساله و بازیگر آموزش دیده دو سال پیش به LAION کمک کرد.

در مقابل یک خانه حومه شهر در حومه شهر هامبورگ در شمال آلمان، تنها یک کلمه – “LAION” – با مداد روی صندوق پستی خط خورده است. این تنها نشانه ای است که نشان می دهد خانه متعلق به شخصی است که پشت یک تلاش عظیم جمع آوری داده ها در مرکز رونق هوش مصنوعی است که توجه جهان را به خود جلب کرده است.

آن شخص، معلم دبیرستان کریستف شوهمان است و LAION، مخفف “شبکه باز هوش مصنوعی در مقیاس بزرگ”، پروژه اشتیاق او است. زمانی که شوهمان فیزیک و علوم کامپیوتر را به نوجوانان آلمانی آموزش نمی‌دهد، با تیم کوچکی از داوطلبان کار می‌کند تا بزرگترین مجموعه داده آموزشی رایگان هوش مصنوعی جهان را بسازد، که قبلاً در تولیدکننده‌های تبدیل متن به تصویر مانند Imagen و Stable گوگل استفاده شده است. انتشار.

پایگاه‌های داده‌ای مانند LAION برای تولیدکننده‌های متن به تصویر هوش مصنوعی مرکزی هستند، که برای مقادیر عظیمی از مواد بصری مورد استفاده برای ساختارشکنی و ایجاد تصاویر جدید به آن‌ها متکی هستند. معرفی این محصولات در اواخر سال گذشته یک رویداد تغییر پارادایم بود: مسابقه تسلیحاتی هوش مصنوعی بخش فناوری را به سمت هایپردرایو سوق داد و مسائل اخلاقی و قانونی بی‌شماری را مطرح کرد. در عرض چند ماه، شکایت‌هایی علیه شرکت‌های مولد هوش مصنوعی Stability AI و Midjourney به دلیل نقض حق نسخه‌برداری تشکیل شد و منتقدان زنگ خطر را در مورد تصاویر خشونت‌آمیز، جنسی، و در غیر این صورت مشکل‌ساز در مجموعه داده‌های خود به صدا درآوردند، که به ارائه سوگیری‌هایی متهم شده‌اند. کاهش آن تقریبا غیرممکن است.

اما اینها نگرانی های شومن نیست. او فقط می خواهد داده ها را آزاد کند.

زبان بزرگ

این معلم 40 ساله و هنرپیشه آموزش دیده، دو سال پیش پس از حضور در سرور Discord برای علاقه مندان به هوش مصنوعی، LAION را پیدا کرد. اولین تکرار از OpenAI’s DALL-E، یک مدل یادگیری عمیق که تصاویر دیجیتالی را از اعلان های زبان تولید می کند – مثلاً، تصویری از یک مرغ صورتی نشسته روی مبل در پاسخ به چنین درخواستی – به تازگی منتشر شده بود، و شوهمان هر دو بود. الهام گرفته و نگران این است که شرکت های بزرگ فناوری را تشویق کند تا داده های بیشتری را اختصاصی کنند.

شوهمان گفت: “من فوراً فهمیدم که اگر این روی یک، دو یا سه شرکت متمرکز شود، اثرات بسیار بدی برای جامعه خواهد داشت.”

در پاسخ، او و سایر اعضای سرور تصمیم گرفتند یک مجموعه داده منبع باز ایجاد کنند تا به آموزش مدل های انتشار تصویر به متن کمک کند، فرآیندی چند ماهه شبیه به آموزش یک زبان خارجی با میلیون ها کارت فلش. این گروه از کد HTML خام جمع‌آوری‌شده توسط Common Crawl غیرانتفاعی کالیفرنیا برای مکان‌یابی تصاویر در سراسر وب و مرتبط کردن آنها با متن توصیفی استفاده کرد. از هیچ گونه مراقبت دستی یا انسانی استفاده نمی کند.

در عرض چند هفته، شومن و همکارانش 3 میلیون جفت تصویر-متن داشتند. پس از سه ماه، آنها یک مجموعه داده با 400 میلیون جفت منتشر کردند. این تعداد اکنون بیش از 5 میلیارد است که LAION را به بزرگترین مجموعه داده رایگان از تصاویر و شرح ها تبدیل می کند.

با افزایش شهرت LAION، تیم بدون دستمزد کار کرد و در سال 2021 یک کمک مالی از شرکت یادگیری ماشینی Hugging Face دریافت کرد. سپس یک روز، یک مدیر سابق صندوق تامینی وارد گفتگوی Discord شد.

عماد مستقيم پيشنهاد پرداخت هزينه‌هاي توان محاسباتي را داد. او می‌خواست کسب‌وکار AI مولد منبع باز خود را راه‌اندازی کند و مشتاق بود برای آموزش محصولش از LAION استفاده کند. تیم در ابتدا این پیشنهاد را مسخره کردند و او را برای آشپزی بردند.

شومن گفت: «در ابتدا بسیار مشکوک بودیم، اما پس از چهار هفته یا بیشتر، به پردازنده‌های گرافیکی در فضای ابری دسترسی پیدا کردیم که معمولاً حدود 9000 دلار یا 10000 دلار قیمت داشتند.

هنگامی که Mostaque هوش مصنوعی پایداری را در سال 2022 راه اندازی کرد، از مجموعه داده های LAION برای Stable Diffusion، تولیدکننده تصویر شاخص هوش مصنوعی آن استفاده کرد و دو تن از محققان سازمان را استخدام کرد. یک سال بعد، این شرکت در حال حاضر به دنبال یک ارزش گذاری 4 میلیارد دلاری است که عمدتاً به لطف داده های موجود توسط LAION است. شومن به نوبه خود از LAION سودی نبرده است و می گوید که علاقه ای به این کار ندارد. او گفت: “من هنوز معلم دبیرستان هستم. پیشنهادهای شغلی از انواع مختلف شرکت ها را رد کرده ام، زیرا می خواستم این کار مستقل بماند.”

نفت جدید؟

بسیاری از تصاویر و پیوندها در پایگاه‌های اطلاعاتی مانند LAION، در برخی موارد برای چندین دهه، در معرض دید ساده وب قرار دارند. رونق هوش مصنوعی طول کشید تا ارزش واقعی آن آشکار شود، زیرا هرچه مجموعه داده بزرگتر و متنوع تر باشد و کیفیت تصاویر در آن بالاتر باشد، تصویر تولید شده توسط هوش مصنوعی واضح تر و دقیق تر خواهد بود.

این درک، به نوبه خود، تعدادی از سؤالات قانونی و اخلاقی را در مورد اینکه آیا می توان از مطالب در دسترس عموم برای تغذیه پایگاه های داده استفاده کرد – و اگر پاسخ مثبت است، آیا باید به سازندگان پول پرداخت شود، ایجاد کرده است.

برای ساخت LAION، بنیانگذاران داده های بصری شرکت هایی مانند Pinterest، Shopify و Amazon Web Services – که در مورد اینکه آیا استفاده LAION از محتوای آنها ناقض شرایط خدمات آنها است یا خیر – و همچنین تصاویر کوچک YouTube، تصاویر پلتفرم های نمونه کارها مانند DeviantArt و EyeEm، عکس‌هایی از وب‌سایت‌های دولتی از جمله وزارت دفاع ایالات متحده، و محتوای سایت‌های خبری مانند Daily Mail و The Sun.

اگر از شوهمان بپرسید، او می‌گوید که هر چیزی که به صورت آنلاین در دسترس باشد، بازی منصفانه است. اما در حال حاضر هیچ مقررات هوش مصنوعی در اتحادیه اروپا وجود ندارد، و قانون آینده هوش مصنوعی، که زبان آن در اوایل تابستان امسال نهایی می‌شود، درباره گنجاندن مطالب دارای حق چاپ در مجموعه‌های کلان داده حکمی نخواهد داشت. در عوض، قانون‌گذاران در حال بحث در مورد اینکه آیا باید مقرراتی را لحاظ کنند که شرکت‌های تولیدکننده‌های هوش مصنوعی را ملزم می‌کند افشا کنند که چه موادی در مجموعه‌های داده‌ای که محصولاتشان آموزش دیده‌اند را فاش کنند، بنابراین به سازندگان آن مواد این امکان را می‌دهند که اقدامی انجام دهند.

دراگوس تودوراچه، عضو پارلمان اروپا به بلومبرگ گفت، ایده اصلی پشت این ماده ساده است: “به عنوان یک توسعه دهنده هوش مصنوعی مولد، شما موظف هستید که مطالب دارای حق چاپ را که در آموزش الگوریتم ها استفاده کرده اید مستند کنید و شفاف باشید.”

چنین مقرراتی برای هوش مصنوعی پایداری مشکلی ایجاد نمی کند، اما می تواند برای دیگر تولیدکنندگان متن به تصویر مشکل ساز باشد – شوهمان گفت: “هیچکس نمی داند که Open AI در واقع از چه چیزی برای آموزش DALL-E 2 استفاده کرده است.” نمونه ای از نحوه قفل کردن داده های عمومی توسط شرکت های فناوری همچنین وضعیت موجود در جمع آوری داده ها را تغییر می دهد.

“این به یک سنت در این زمینه تبدیل شده است که فرض کنیم شما نیازی به رضایت ندارید یا نیازی به اطلاع دادن به مردم ندارید، یا حتی لازم نیست آنها از آن آگاه باشند. این احساس حق وجود دارد که هر چه که باشد. در وب، می‌توانید آن را خزیده و در یک مجموعه داده قرار دهید.»

اگرچه LAION مستقیماً مورد شکایت قرار نگرفته است، اما در دو شکایت از آن نام برده شده است: یکی متهم کردن Stability و Midjourney به استفاده از تصاویر دارای حق چاپ توسط هنرمندان برای آموزش مدل های خود، و دیگری توسط Getty Images علیه ثبات، که ادعا می کند 12 میلیون تصویر آن خراشیده شده است. توسط LAION و برای آموزش Stable Diffusion استفاده می شود.

از آنجایی که LAION منبع باز است، نمی توان فهمید که کدام یا چند شرکت دیگر از مجموعه داده استفاده کرده اند. گوگل اذعان کرده است که از LAION برای کمک به آموزش مدل‌های تبدیل متن به تصویر Imagen و Parti AI استفاده کرده است. شومن معتقد است که سایر شرکت های بزرگ بی سر و صدا همین کار را می کنند و به سادگی آن را فاش نمی کنند.

بدترین وب

شوهمان در حالی که پسرش Minecraft را بازی می‌کرد، در اتاق نشیمن نشسته بود، LAION را به یک «قایق تحقیقاتی کوچک» در بالای «سونامی بزرگ فناوری اطلاعات» تشبیه کرد و نمونه‌هایی از آنچه در زیر وجود دارد را برای نمایش به جهان می‌گرفت.

او درباره پایگاه داده LAION گفت: «این مقدار ناچیزی از آنچه در اینترنت به صورت عمومی در دسترس است است. “به دست آوردن آن واقعاً آسان است زیرا حتی ما با بودجه 10000 دلاری اهداکنندگان می توانیم این کار را انجام دهیم.”

اما آنچه به صورت عمومی در دسترس است همیشه آن چیزی نیست که عموم مردم می خواهند – یا از نظر قانونی مجاز به دیدن هستند. علاوه بر عکس‌های SFW از گربه‌ها و ماشین‌های آتش‌نشانی، مجموعه داده LAION حاوی میلیون‌ها تصویر از هرزه‌نگاری، خشونت، برهنگی کودکان، میم‌های نژادپرستانه، نمادهای نفرت، هنر دارای حق چاپ و آثار حذف شده از وب‌سایت‌های شرکت‌های خصوصی است. شومن گفت که از هرگونه برهنگی کودک در مجموعه داده LAION بی‌اطلاع است، اگرچه اذعان کرد که این داده‌ها را عمیقاً بررسی نکرده است. او گفت که اگر در مورد چنین محتوایی مطلع شود، بلافاصله پیوندهای مربوط به آن را حذف خواهد کرد.

شوهمن قبل از شروع مونتاژ پایگاه داده با وکلا مشورت کرد و یک ابزار خودکار را برای فیلتر کردن محتوای غیرقانونی اجرا کرد، اما او علاقه کمتری به پاکسازی دارایی های LAION دارد تا یادگیری از آنها. او گفت: «ما می‌توانستیم خشونت را از روی داده‌هایی که منتشر کرده‌ایم فیلتر کنیم، اما تصمیم گرفتیم این کار را نکنیم زیرا توسعه نرم‌افزار تشخیص خشونت را سرعت می‌بخشد.» LAION یک فرم حذف برای درخواست حذف عکس ها ارائه می دهد، اما مجموعه داده قبلا هزاران بار دانلود شده است.

به نظر می‌رسد محتوای توهین‌آمیز برداشته‌شده از LAION در Stable Diffusion ادغام شده است، جایی که علیرغم فیلترهایی که اخیراً سفت شده‌اند، تولید عکس‌های جعلی از سر بریدن یا تصاویر هولوکاست توسط دولت اسلامی آسان است. برخی کارشناسان بر این باورند که چنین مطالبی می‌تواند سوگیری‌هایی را در خود تولیدکننده هوش مصنوعی ایجاد کند: ابزارهایی مانند Dall-E-2 و Stable Diffusion به دلیل بازتولید کلیشه‌های نژادی مورد انتقاد قرار گرفته‌اند، حتی زمانی که یک پیام متنی به معنای نژاد سوژه نیست.

چنین تعصباتی باعث شد که گوگل تصمیم بگیرد Imagen را که در LAION آموزش دیده بود را منتشر نکند.

هنگامی که برای اظهار نظر تماس گرفتیم، هوش مصنوعی پایداری گفت که Stable Diffusion را در زیرمجموعه‌ای از پایگاه داده LAION آموزش داده است. این شرکت در ایمیلی نوشت: «به مدل مجموعه داده‌ای بسیار متنوع‌تر و گسترده‌تر از مجموعه داده‌های SD اصلی بدهد» و افزود که آنها سعی کردند «محتوای بزرگسالان را با استفاده از فیلتر NSFW LAION حذف کنند».

حتی حامیان هوش مصنوعی مبتنی بر منبع باز در مورد پیامدهای آموزش هوش مصنوعی بر روی مجموعه داده های انتخاب نشده هشدار می دهند. به گفته Yacine Jernite، که تیم یادگیری ماشین و جامعه در Hugging Face را رهبری می‌کند، ابزارهای مولد هوش مصنوعی مبتنی بر داده‌های آلوده، تعصبات آن را منعکس خواهند کرد. این مدل انعکاسی بسیار مستقیم از چیزی است که بر روی آن آموزش دیده است.

Jernite اضافه کرد که معرفی نرده‌های محافظ پس از راه‌اندازی محصول کافی نیست، زیرا کاربران همیشه راه‌هایی برای دور زدن اقدامات ایمنی پیدا می‌کنند. این همان چیزی است که زمانی اتفاق می‌افتد که شما از مدلی استفاده کنید که برای تقلید از کارهایی که مردم در اینترنت انجام می‌دهند به طور کلی آموزش دیده است و سپس می‌گویید: “خوب، اما این کار را نکن.” مردم راهی برای ادامه این کار پیدا خواهند کرد.”

گیل الباز، موسس سازمان غیرانتفاعی Common Crawl، شک دارد که آیا “خط مستقیمی وجود دارد که بتوان از مجموعه های آموزشی به آنچه تولید می شود ترسیم کرد” و در عوض این روند را به هنرمندی تشبیه می کند که برای الهام گرفتن به موزه ها می رود اما از ساختن آن منع می شود. کپی آثار هنری در عوض، او گفت: “برای جامعه مهم است که تصمیم بگیرد چه موارد استفاده قانونی هستند یا غیر قانونی.”

تنها به جامعه واگذار نخواهد شد. از آنجایی که قانون‌گذاران در اروپا قوانینی را برای استفاده از هوش مصنوعی تدوین می‌کنند، آنها با این واقعیت دست و پنجه نرم می‌کنند که داده‌هایی که اکنون برای رونق فعلی هوش مصنوعی استخراج می‌شوند، سال‌ها در یک منطقه خاکستری قانونی تولید شده‌اند که اکنون تحت بررسی جدی قرار گرفته است. . تودوراچ، عضو پارلمان اروپا گفت: «هوش مصنوعی بدون سال‌ها انباشت داده‌ها در این سطح از پیچیدگی امکان‌پذیر نبود.

اما از نظر شوهمن، این مجموعه داده‌ها نیستند که باید نظارت شوند. از نظر او، بدترین سناریو برای هوش مصنوعی سناریویی است که در آن Big Tech بتواند توسعه‌دهندگان را با تطبیق ابزارهای آن‌ها با یک چارچوب نظارتی کنار بگذارد. او هشدار داد: “اگر ما سعی کنیم کارها را کند کنیم و بیش از حد تنظیم کنیم، این خطر بزرگ وجود دارد که در نهایت، تنها چند شرکت بزرگ می توانند تمام الزامات رسمی را انجام دهند.”

(به جز عنوان، این داستان توسط کارکنان NDTV ویرایش نشده است و از یک فید سندیکایی منتشر شده است.)