در مقابل یک خانه حومه شهر در حومه شهر هامبورگ در شمال آلمان، تنها یک کلمه – “LAION” – با مداد روی صندوق پستی خط خورده است. این تنها نشانه ای است که نشان می دهد خانه متعلق به شخصی است که پشت یک تلاش عظیم جمع آوری داده ها در مرکز رونق هوش مصنوعی است که توجه جهان را به خود جلب کرده است.
آن شخص، معلم دبیرستان کریستف شوهمان است و LAION، مخفف “شبکه باز هوش مصنوعی در مقیاس بزرگ”، پروژه اشتیاق او است. زمانی که شوهمان فیزیک و علوم کامپیوتر را به نوجوانان آلمانی آموزش نمیدهد، با تیم کوچکی از داوطلبان کار میکند تا بزرگترین مجموعه داده آموزشی رایگان هوش مصنوعی جهان را بسازد، که قبلاً در تولیدکنندههای تبدیل متن به تصویر مانند Imagen و Stable گوگل استفاده شده است. انتشار.
پایگاههای دادهای مانند LAION برای تولیدکنندههای متن به تصویر هوش مصنوعی مرکزی هستند، که برای مقادیر عظیمی از مواد بصری مورد استفاده برای ساختارشکنی و ایجاد تصاویر جدید به آنها متکی هستند. معرفی این محصولات در اواخر سال گذشته یک رویداد تغییر پارادایم بود: مسابقه تسلیحاتی هوش مصنوعی بخش فناوری را به سمت هایپردرایو سوق داد و مسائل اخلاقی و قانونی بیشماری را مطرح کرد. در عرض چند ماه، شکایتهایی علیه شرکتهای مولد هوش مصنوعی Stability AI و Midjourney به دلیل نقض حق نسخهبرداری تشکیل شد و منتقدان زنگ خطر را در مورد تصاویر خشونتآمیز، جنسی، و در غیر این صورت مشکلساز در مجموعه دادههای خود به صدا درآوردند، که به ارائه سوگیریهایی متهم شدهاند. کاهش آن تقریبا غیرممکن است.
اما اینها نگرانی های شومن نیست. او فقط می خواهد داده ها را آزاد کند.
زبان بزرگ
این معلم 40 ساله و هنرپیشه آموزش دیده، دو سال پیش پس از حضور در سرور Discord برای علاقه مندان به هوش مصنوعی، LAION را پیدا کرد. اولین تکرار از OpenAI’s DALL-E، یک مدل یادگیری عمیق که تصاویر دیجیتالی را از اعلان های زبان تولید می کند – مثلاً، تصویری از یک مرغ صورتی نشسته روی مبل در پاسخ به چنین درخواستی – به تازگی منتشر شده بود، و شوهمان هر دو بود. الهام گرفته و نگران این است که شرکت های بزرگ فناوری را تشویق کند تا داده های بیشتری را اختصاصی کنند.
شوهمان گفت: “من فوراً فهمیدم که اگر این روی یک، دو یا سه شرکت متمرکز شود، اثرات بسیار بدی برای جامعه خواهد داشت.”
در پاسخ، او و سایر اعضای سرور تصمیم گرفتند یک مجموعه داده منبع باز ایجاد کنند تا به آموزش مدل های انتشار تصویر به متن کمک کند، فرآیندی چند ماهه شبیه به آموزش یک زبان خارجی با میلیون ها کارت فلش. این گروه از کد HTML خام جمعآوریشده توسط Common Crawl غیرانتفاعی کالیفرنیا برای مکانیابی تصاویر در سراسر وب و مرتبط کردن آنها با متن توصیفی استفاده کرد. از هیچ گونه مراقبت دستی یا انسانی استفاده نمی کند.
در عرض چند هفته، شومن و همکارانش 3 میلیون جفت تصویر-متن داشتند. پس از سه ماه، آنها یک مجموعه داده با 400 میلیون جفت منتشر کردند. این تعداد اکنون بیش از 5 میلیارد است که LAION را به بزرگترین مجموعه داده رایگان از تصاویر و شرح ها تبدیل می کند.
با افزایش شهرت LAION، تیم بدون دستمزد کار کرد و در سال 2021 یک کمک مالی از شرکت یادگیری ماشینی Hugging Face دریافت کرد. سپس یک روز، یک مدیر سابق صندوق تامینی وارد گفتگوی Discord شد.
عماد مستقيم پيشنهاد پرداخت هزينههاي توان محاسباتي را داد. او میخواست کسبوکار AI مولد منبع باز خود را راهاندازی کند و مشتاق بود برای آموزش محصولش از LAION استفاده کند. تیم در ابتدا این پیشنهاد را مسخره کردند و او را برای آشپزی بردند.
شومن گفت: «در ابتدا بسیار مشکوک بودیم، اما پس از چهار هفته یا بیشتر، به پردازندههای گرافیکی در فضای ابری دسترسی پیدا کردیم که معمولاً حدود 9000 دلار یا 10000 دلار قیمت داشتند.
هنگامی که Mostaque هوش مصنوعی پایداری را در سال 2022 راه اندازی کرد، از مجموعه داده های LAION برای Stable Diffusion، تولیدکننده تصویر شاخص هوش مصنوعی آن استفاده کرد و دو تن از محققان سازمان را استخدام کرد. یک سال بعد، این شرکت در حال حاضر به دنبال یک ارزش گذاری 4 میلیارد دلاری است که عمدتاً به لطف داده های موجود توسط LAION است. شومن به نوبه خود از LAION سودی نبرده است و می گوید که علاقه ای به این کار ندارد. او گفت: “من هنوز معلم دبیرستان هستم. پیشنهادهای شغلی از انواع مختلف شرکت ها را رد کرده ام، زیرا می خواستم این کار مستقل بماند.”
نفت جدید؟
بسیاری از تصاویر و پیوندها در پایگاههای اطلاعاتی مانند LAION، در برخی موارد برای چندین دهه، در معرض دید ساده وب قرار دارند. رونق هوش مصنوعی طول کشید تا ارزش واقعی آن آشکار شود، زیرا هرچه مجموعه داده بزرگتر و متنوع تر باشد و کیفیت تصاویر در آن بالاتر باشد، تصویر تولید شده توسط هوش مصنوعی واضح تر و دقیق تر خواهد بود.
این درک، به نوبه خود، تعدادی از سؤالات قانونی و اخلاقی را در مورد اینکه آیا می توان از مطالب در دسترس عموم برای تغذیه پایگاه های داده استفاده کرد – و اگر پاسخ مثبت است، آیا باید به سازندگان پول پرداخت شود، ایجاد کرده است.
برای ساخت LAION، بنیانگذاران داده های بصری شرکت هایی مانند Pinterest، Shopify و Amazon Web Services – که در مورد اینکه آیا استفاده LAION از محتوای آنها ناقض شرایط خدمات آنها است یا خیر – و همچنین تصاویر کوچک YouTube، تصاویر پلتفرم های نمونه کارها مانند DeviantArt و EyeEm، عکسهایی از وبسایتهای دولتی از جمله وزارت دفاع ایالات متحده، و محتوای سایتهای خبری مانند Daily Mail و The Sun.
اگر از شوهمان بپرسید، او میگوید که هر چیزی که به صورت آنلاین در دسترس باشد، بازی منصفانه است. اما در حال حاضر هیچ مقررات هوش مصنوعی در اتحادیه اروپا وجود ندارد، و قانون آینده هوش مصنوعی، که زبان آن در اوایل تابستان امسال نهایی میشود، درباره گنجاندن مطالب دارای حق چاپ در مجموعههای کلان داده حکمی نخواهد داشت. در عوض، قانونگذاران در حال بحث در مورد اینکه آیا باید مقرراتی را لحاظ کنند که شرکتهای تولیدکنندههای هوش مصنوعی را ملزم میکند افشا کنند که چه موادی در مجموعههای دادهای که محصولاتشان آموزش دیدهاند را فاش کنند، بنابراین به سازندگان آن مواد این امکان را میدهند که اقدامی انجام دهند.
دراگوس تودوراچه، عضو پارلمان اروپا به بلومبرگ گفت، ایده اصلی پشت این ماده ساده است: “به عنوان یک توسعه دهنده هوش مصنوعی مولد، شما موظف هستید که مطالب دارای حق چاپ را که در آموزش الگوریتم ها استفاده کرده اید مستند کنید و شفاف باشید.”
چنین مقرراتی برای هوش مصنوعی پایداری مشکلی ایجاد نمی کند، اما می تواند برای دیگر تولیدکنندگان متن به تصویر مشکل ساز باشد – شوهمان گفت: “هیچکس نمی داند که Open AI در واقع از چه چیزی برای آموزش DALL-E 2 استفاده کرده است.” نمونه ای از نحوه قفل کردن داده های عمومی توسط شرکت های فناوری همچنین وضعیت موجود در جمع آوری داده ها را تغییر می دهد.
“این به یک سنت در این زمینه تبدیل شده است که فرض کنیم شما نیازی به رضایت ندارید یا نیازی به اطلاع دادن به مردم ندارید، یا حتی لازم نیست آنها از آن آگاه باشند. این احساس حق وجود دارد که هر چه که باشد. در وب، میتوانید آن را خزیده و در یک مجموعه داده قرار دهید.»
اگرچه LAION مستقیماً مورد شکایت قرار نگرفته است، اما در دو شکایت از آن نام برده شده است: یکی متهم کردن Stability و Midjourney به استفاده از تصاویر دارای حق چاپ توسط هنرمندان برای آموزش مدل های خود، و دیگری توسط Getty Images علیه ثبات، که ادعا می کند 12 میلیون تصویر آن خراشیده شده است. توسط LAION و برای آموزش Stable Diffusion استفاده می شود.
از آنجایی که LAION منبع باز است، نمی توان فهمید که کدام یا چند شرکت دیگر از مجموعه داده استفاده کرده اند. گوگل اذعان کرده است که از LAION برای کمک به آموزش مدلهای تبدیل متن به تصویر Imagen و Parti AI استفاده کرده است. شومن معتقد است که سایر شرکت های بزرگ بی سر و صدا همین کار را می کنند و به سادگی آن را فاش نمی کنند.
بدترین وب
شوهمان در حالی که پسرش Minecraft را بازی میکرد، در اتاق نشیمن نشسته بود، LAION را به یک «قایق تحقیقاتی کوچک» در بالای «سونامی بزرگ فناوری اطلاعات» تشبیه کرد و نمونههایی از آنچه در زیر وجود دارد را برای نمایش به جهان میگرفت.
او درباره پایگاه داده LAION گفت: «این مقدار ناچیزی از آنچه در اینترنت به صورت عمومی در دسترس است است. “به دست آوردن آن واقعاً آسان است زیرا حتی ما با بودجه 10000 دلاری اهداکنندگان می توانیم این کار را انجام دهیم.”
اما آنچه به صورت عمومی در دسترس است همیشه آن چیزی نیست که عموم مردم می خواهند – یا از نظر قانونی مجاز به دیدن هستند. علاوه بر عکسهای SFW از گربهها و ماشینهای آتشنشانی، مجموعه داده LAION حاوی میلیونها تصویر از هرزهنگاری، خشونت، برهنگی کودکان، میمهای نژادپرستانه، نمادهای نفرت، هنر دارای حق چاپ و آثار حذف شده از وبسایتهای شرکتهای خصوصی است. شومن گفت که از هرگونه برهنگی کودک در مجموعه داده LAION بیاطلاع است، اگرچه اذعان کرد که این دادهها را عمیقاً بررسی نکرده است. او گفت که اگر در مورد چنین محتوایی مطلع شود، بلافاصله پیوندهای مربوط به آن را حذف خواهد کرد.
شوهمن قبل از شروع مونتاژ پایگاه داده با وکلا مشورت کرد و یک ابزار خودکار را برای فیلتر کردن محتوای غیرقانونی اجرا کرد، اما او علاقه کمتری به پاکسازی دارایی های LAION دارد تا یادگیری از آنها. او گفت: «ما میتوانستیم خشونت را از روی دادههایی که منتشر کردهایم فیلتر کنیم، اما تصمیم گرفتیم این کار را نکنیم زیرا توسعه نرمافزار تشخیص خشونت را سرعت میبخشد.» LAION یک فرم حذف برای درخواست حذف عکس ها ارائه می دهد، اما مجموعه داده قبلا هزاران بار دانلود شده است.
به نظر میرسد محتوای توهینآمیز برداشتهشده از LAION در Stable Diffusion ادغام شده است، جایی که علیرغم فیلترهایی که اخیراً سفت شدهاند، تولید عکسهای جعلی از سر بریدن یا تصاویر هولوکاست توسط دولت اسلامی آسان است. برخی کارشناسان بر این باورند که چنین مطالبی میتواند سوگیریهایی را در خود تولیدکننده هوش مصنوعی ایجاد کند: ابزارهایی مانند Dall-E-2 و Stable Diffusion به دلیل بازتولید کلیشههای نژادی مورد انتقاد قرار گرفتهاند، حتی زمانی که یک پیام متنی به معنای نژاد سوژه نیست.
چنین تعصباتی باعث شد که گوگل تصمیم بگیرد Imagen را که در LAION آموزش دیده بود را منتشر نکند.
هنگامی که برای اظهار نظر تماس گرفتیم، هوش مصنوعی پایداری گفت که Stable Diffusion را در زیرمجموعهای از پایگاه داده LAION آموزش داده است. این شرکت در ایمیلی نوشت: «به مدل مجموعه دادهای بسیار متنوعتر و گستردهتر از مجموعه دادههای SD اصلی بدهد» و افزود که آنها سعی کردند «محتوای بزرگسالان را با استفاده از فیلتر NSFW LAION حذف کنند».
حتی حامیان هوش مصنوعی مبتنی بر منبع باز در مورد پیامدهای آموزش هوش مصنوعی بر روی مجموعه داده های انتخاب نشده هشدار می دهند. به گفته Yacine Jernite، که تیم یادگیری ماشین و جامعه در Hugging Face را رهبری میکند، ابزارهای مولد هوش مصنوعی مبتنی بر دادههای آلوده، تعصبات آن را منعکس خواهند کرد. این مدل انعکاسی بسیار مستقیم از چیزی است که بر روی آن آموزش دیده است.
Jernite اضافه کرد که معرفی نردههای محافظ پس از راهاندازی محصول کافی نیست، زیرا کاربران همیشه راههایی برای دور زدن اقدامات ایمنی پیدا میکنند. این همان چیزی است که زمانی اتفاق میافتد که شما از مدلی استفاده کنید که برای تقلید از کارهایی که مردم در اینترنت انجام میدهند به طور کلی آموزش دیده است و سپس میگویید: “خوب، اما این کار را نکن.” مردم راهی برای ادامه این کار پیدا خواهند کرد.”
گیل الباز، موسس سازمان غیرانتفاعی Common Crawl، شک دارد که آیا “خط مستقیمی وجود دارد که بتوان از مجموعه های آموزشی به آنچه تولید می شود ترسیم کرد” و در عوض این روند را به هنرمندی تشبیه می کند که برای الهام گرفتن به موزه ها می رود اما از ساختن آن منع می شود. کپی آثار هنری در عوض، او گفت: “برای جامعه مهم است که تصمیم بگیرد چه موارد استفاده قانونی هستند یا غیر قانونی.”
تنها به جامعه واگذار نخواهد شد. از آنجایی که قانونگذاران در اروپا قوانینی را برای استفاده از هوش مصنوعی تدوین میکنند، آنها با این واقعیت دست و پنجه نرم میکنند که دادههایی که اکنون برای رونق فعلی هوش مصنوعی استخراج میشوند، سالها در یک منطقه خاکستری قانونی تولید شدهاند که اکنون تحت بررسی جدی قرار گرفته است. . تودوراچ، عضو پارلمان اروپا گفت: «هوش مصنوعی بدون سالها انباشت دادهها در این سطح از پیچیدگی امکانپذیر نبود.
اما از نظر شوهمن، این مجموعه دادهها نیستند که باید نظارت شوند. از نظر او، بدترین سناریو برای هوش مصنوعی سناریویی است که در آن Big Tech بتواند توسعهدهندگان را با تطبیق ابزارهای آنها با یک چارچوب نظارتی کنار بگذارد. او هشدار داد: “اگر ما سعی کنیم کارها را کند کنیم و بیش از حد تنظیم کنیم، این خطر بزرگ وجود دارد که در نهایت، تنها چند شرکت بزرگ می توانند تمام الزامات رسمی را انجام دهند.”
(به جز عنوان، این داستان توسط کارکنان NDTV ویرایش نشده است و از یک فید سندیکایی منتشر شده است.)