یکی از قابل توجهترین ویژگیهای مدلهای هوش مصنوعی مولد امروزی، حجم فوقالعاده عظیم دادهای است که بر روی آنها آموزش میبینند. به عنوان مثال، شرکت متا اعلام کرد که مدل Llama 3 آنها بر روی ۱۵ تریلیون توکن آموزش دیده است، که تقریباً معادل ۴۴ ترابایت فضای دیسک است. در مدلهای زبان بزرگ، این معمولاً به معنای استفاده از ترابایتها متن از اینترنت است، اگرچه نسلهای جدید مدلهای چندرسانهای روی ویدیو، صدا و تصاویر نیز آموزش میبینند.
اینترنت، مانند اقیانوسهای سیاره زمین، همیشه به عنوان منبعی بیپایان در نظر گرفته شده است. این فضا نهتنها در ابتدا بسیار گسترده است، بلکه روزانه میلیاردها کاربر متن، صدا، تصویر و ویدیوهای جدید به آن اضافه میکنند. با این حال، اخیراً پژوهشگران شروع به بررسی تأثیر مصرف گسترده داده توسط مدلهای هوش مصنوعی کردهاند.
نویسندگان مقالهای از ابتکار منشأ دادهها، یک گروه داوطلب متشکل از پژوهشگران هوش مصنوعی از سراسر جهان، از جمله متخصصانی از دانشگاههایی مانند MIT و هاروارد و مشاورانی از شرکتهایی مانند Salesforce و Cohere، نوشتهاند: «در یک سال (۲۰۲۳-۲۰۲۴) موجی از محدودیتهای دادهای از منابع وب مشاهده شده است.» برای برخی از بزرگترین و محبوبترین مجموعههای دادههای باز که معمولاً برای آموزش مدلهای بزرگ هوش مصنوعی استفاده میشوند، اکنون تا ۴۵ درصد از دادهها محدود شدهاند. آنها افزودند: «اگر این محدودیتها رعایت یا اجرا شوند، به سرعت تنوع، تازگی و قوانین مقیاسپذیری سیستمهای هوش مصنوعی عمومی را دچار سوگیری خواهند کرد.»
اگر به این موضوع از منظر سازمان خود نگاه میکنید، ممکن است به سؤالاتی مانند اینها فکر کنید:
- – اگر قصد دارید مدل درونسازمانی خود را آموزش دهید، آیا همچنان به منابع بزرگ داده عمومی و باکیفیت از وب آزاد دسترسی خواهید داشت؟
- با افزایش اندازه مدل و دادههای آموزشی آن، پاسخ به پرسشهای کاربران به تدریج کندتر و گرانتر میشود. چگونه میتوانید بهترین توازن بین بهبود مدل و ارائه نتایج سریع و مقرونبهصرفه را پیدا کنید؟
یک گلوگاه در افق
مشاهده اینکه مدلهای هوش مصنوعی به دادههای بیشتری نیاز دارند و در عین حال منابع داده عمومی به طور فزایندهای محدود میشوند، یک پرسش اساسی را مطرح میکند: آیا تولید دادههای جدید میتواند با تقاضای روزافزون مدلهای هوش مصنوعی که بزرگتر میشوند، همگام شود؟ یک مقاله تحقیقاتی از *Epoch AI* که خود را به عنوان “تیمی از دانشمندان که آینده هوش مصنوعی را بررسی میکنند” معرفی کرده است، نشان میدهد که مدلهای هوش مصنوعی ممکن است تا سال ۲۰۲۶ تمام منابع متن عمومی تولیدشده توسط انسان را به عنوان بخشی از دادههای آموزشی خود مصرف کنند.
یکی از مقالات کلیدی در زمینه تحقیقات هوش مصنوعی *درس تلخ* نام دارد که بیان میکند بهترین روش برای بهبود هوش مصنوعی در چهار دهه گذشته به دو محور ساده خلاصه میشود: داده بیشتر و قدرت محاسباتی بیشتر. اگر مدلهای هوش مصنوعی به نقطهای برسند که پیشرفت آنها نیاز به دادهای بیش از آنچه انسانها تاکنون به اینترنت بارگذاری کردهاند داشته باشد، چه اتفاقی خواهد افتاد؟
«در اینجا یک گلوگاه جدی وجود دارد.» تمای بشیروغلو، یکی از نویسندگان مقاله تحقیقاتی Epoch، به *Associated Press* گفت: «اگر با محدودیتهای مربوط به میزان دادهای که در اختیار دارید روبهرو شوید، دیگر نمیتوانید مدلهای خود را به طور کارآمد مقیاسپذیر کنید. و مقیاسبندی مدلها احتمالاً مهمترین راه برای گسترش قابلیتها و بهبود کیفیت خروجی آنها بوده است.»
داده مصنوعی، از دست رفتن نسل به نسل و فروپاشی مدل
یکی از گزینهها برای شرکتهای هوش مصنوعی که با این گلوگاه داده مواجه میشوند، استفاده از «داده مصنوعی» است. این دادهها توسط سیستمهای هوش مصنوعی برای شبیهسازی دادههای ایجادشده توسط انسان تولید میشوند. نگرانی در اینجاست که دادهای که توسط هوش مصنوعی ایجاد میشود، ممکن است خطاهای موجود در دادههای آموزشی انسانی را تقلید یا حتی افزایش دهد، چرا که هم نواقص داده اصلی انسانی و هم توهمات جدیدی که توسط خود هوش مصنوعی ایجاد شدهاند را خواهد داشت.
نگرانی دیگر این است که اینترنت به سرعت با محتوای جدیدی پر میشود که نه توسط انسانها بلکه توسط سیستمهای هوش مصنوعی تولید شدهاند. زمانی که هوش مصنوعی با دادههایی آموزش ببیند که خود توسط هوش مصنوعی تولید شده، یک اثر جالب ایجاد میشود.
اگر عکسی را در اینستاگرام پست کنید، آن عکس را کپی کرده و سپس کپی آن را به عنوان پست جدید آپلود کنید، چه اتفاقی میافتد؟ شاید در سه یا چهار بار اول تشخیص تفاوت سخت باشد، اما به تدریج، تصویر جلوی چشمان شما کیفیت خود را از دست میدهد و شروع به تخریب میکند.
تصویر اصلی پستشده توسط هنرمند *پیت اشتون* به این شکل به نظر میرسید:
نظر شما در مورد این مطلب چیه؟
ارسال دیدگاه