devzone

فرار مغزها: نبرد David vs Goliath

فرار مغزها: نبرد David vs Goliath

نگرانی‌هایی وجود دارد که سیستم‌های هوش مصنوعی مولد (GenAI) با گسترش خود، ممکن است با کمبود داده‌های جدید مواجه شوند. داده‌های مصنوعی یک گزینه است، اما استفاده از داده‌های تولیدشده توسط هوش مصنوعی برای آموزش خود هوش مصنوعی می‌تواند عملکرد مدل را کاهش دهد. شاید راه‌حل بهتری وجود داشته باشد.…

- اندازه متن +

نگرانی‌هایی وجود دارد که سیستم‌های هوش مصنوعی مولد (GenAI) با گسترش خود، ممکن است با کمبود داده‌های جدید مواجه شوند. داده‌های مصنوعی یک گزینه است، اما استفاده از داده‌های تولیدشده توسط هوش مصنوعی برای آموزش خود هوش مصنوعی می‌تواند عملکرد مدل را کاهش دهد. شاید راه‌حل بهتری وجود داشته باشد. آیا می‌توان با بهبود کیفیت داده‌ها، کاهش کمیت داده‌ها را جبران کرد؟

یکی از قابل توجه‌ترین ویژگی‌های مدل‌های هوش مصنوعی مولد امروزی، حجم فوق‌العاده عظیم داده‌ای است که بر روی آن‌ها آموزش می‌بینند. به عنوان مثال، شرکت متا اعلام کرد که مدل Llama 3 آن‌ها بر روی ۱۵ تریلیون توکن آموزش دیده است، که تقریباً معادل ۴۴ ترابایت فضای دیسک است. در مدل‌های زبان بزرگ، این معمولاً به معنای استفاده از ترابایت‌ها متن از اینترنت است، اگرچه نسل‌های جدید مدل‌های چندرسانه‌ای روی ویدیو، صدا و تصاویر نیز آموزش می‌بینند.

اینترنت، مانند اقیانوس‌های سیاره زمین، همیشه به عنوان منبعی بی‌پایان در نظر گرفته شده است. این فضا نه‌تنها در ابتدا بسیار گسترده است، بلکه روزانه میلیاردها کاربر متن، صدا، تصویر و ویدیوهای جدید به آن اضافه می‌کنند. با این حال، اخیراً پژوهشگران شروع به بررسی تأثیر مصرف گسترده داده توسط مدل‌های هوش مصنوعی کرده‌اند.

نویسندگان مقاله‌ای از ابتکار منشأ داده‌ها، یک گروه داوطلب متشکل از پژوهشگران هوش مصنوعی از سراسر جهان، از جمله متخصصانی از دانشگاه‌هایی مانند MIT و هاروارد و مشاورانی از شرکت‌هایی مانند Salesforce و Cohere، نوشته‌اند: «در یک سال (۲۰۲۳-۲۰۲۴) موجی از محدودیت‌های داده‌ای از منابع وب مشاهده شده است.» برای برخی از بزرگ‌ترین و محبوب‌ترین مجموعه‌های داده‌های باز که معمولاً برای آموزش مدل‌های بزرگ هوش مصنوعی استفاده می‌شوند، اکنون تا ۴۵ درصد از داده‌ها محدود شده‌اند. آن‌ها افزودند: «اگر این محدودیت‌ها رعایت یا اجرا شوند، به سرعت تنوع، تازگی و قوانین مقیاس‌پذیری سیستم‌های هوش مصنوعی عمومی را دچار سوگیری خواهند کرد.»

اگر به این موضوع از منظر سازمان خود نگاه می‌کنید، ممکن است به سؤالاتی مانند این‌ها فکر کنید:

  • – اگر قصد دارید مدل درون‌سازمانی خود را آموزش دهید، آیا همچنان به منابع بزرگ داده عمومی و باکیفیت از وب آزاد دسترسی خواهید داشت؟
  •  با افزایش اندازه مدل و داده‌های آموزشی آن، پاسخ به پرسش‌های کاربران به تدریج کندتر و گران‌تر می‌شود. چگونه می‌توانید بهترین توازن بین بهبود مدل و ارائه نتایج سریع و مقرون‌به‌صرفه را پیدا کنید؟

یک گلوگاه در افق

مشاهده اینکه مدل‌های هوش مصنوعی به داده‌های بیشتری نیاز دارند و در عین حال منابع داده عمومی به طور فزاینده‌ای محدود می‌شوند، یک پرسش اساسی را مطرح می‌کند: آیا تولید داده‌های جدید می‌تواند با تقاضای روزافزون مدل‌های هوش مصنوعی که بزرگ‌تر می‌شوند، همگام شود؟ یک مقاله تحقیقاتی از *Epoch AI* که خود را به عنوان “تیمی از دانشمندان که آینده هوش مصنوعی را بررسی می‌کنند” معرفی کرده است، نشان می‌دهد که مدل‌های هوش مصنوعی ممکن است تا سال ۲۰۲۶ تمام منابع متن عمومی تولیدشده توسط انسان را به عنوان بخشی از داده‌های آموزشی خود مصرف کنند.

یکی از مقالات کلیدی در زمینه تحقیقات هوش مصنوعی *درس تلخ* نام دارد که بیان می‌کند بهترین روش برای بهبود هوش مصنوعی در چهار دهه گذشته به دو محور ساده خلاصه می‌شود: داده بیشتر و قدرت محاسباتی بیشتر. اگر مدل‌های هوش مصنوعی به نقطه‌ای برسند که پیشرفت آنها نیاز به داده‌ای بیش از آنچه انسان‌ها تاکنون به اینترنت بارگذاری کرده‌اند داشته باشد، چه اتفاقی خواهد افتاد؟

«در اینجا یک گلوگاه جدی وجود دارد.» تمای بشیروغلو، یکی از نویسندگان مقاله تحقیقاتی Epoch، به *Associated Press* گفت: «اگر با محدودیت‌های مربوط به میزان داده‌ای که در اختیار دارید روبه‌رو شوید، دیگر نمی‌توانید مدل‌های خود را به طور کارآمد مقیاس‌پذیر کنید. و مقیاس‌بندی مدل‌ها احتمالاً مهم‌ترین راه برای گسترش قابلیت‌ها و بهبود کیفیت خروجی آنها بوده است.»

داده مصنوعی، از دست رفتن نسل به نسل و فروپاشی مدل

یکی از گزینه‌ها برای شرکت‌های هوش مصنوعی که با این گلوگاه داده مواجه می‌شوند، استفاده از «داده مصنوعی» است. این داده‌ها توسط سیستم‌های هوش مصنوعی برای شبیه‌سازی داده‌های ایجادشده توسط انسان تولید می‌شوند. نگرانی در اینجاست که داده‌ای که توسط هوش مصنوعی ایجاد می‌شود، ممکن است خطاهای موجود در داده‌های آموزشی انسانی را تقلید یا حتی افزایش دهد، چرا که هم نواقص داده اصلی انسانی و هم توهمات جدیدی که توسط خود هوش مصنوعی ایجاد شده‌اند را خواهد داشت.

نگرانی دیگر این است که اینترنت به سرعت با محتوای جدیدی پر می‌شود که نه توسط انسان‌ها بلکه توسط سیستم‌های هوش مصنوعی تولید شده‌اند. زمانی که هوش مصنوعی با داده‌هایی آموزش ببیند که خود توسط هوش مصنوعی تولید شده، یک اثر جالب ایجاد می‌شود.

اگر عکسی را در اینستاگرام پست کنید، آن عکس را کپی کرده و سپس کپی آن را به عنوان پست جدید آپلود کنید، چه اتفاقی می‌افتد؟ شاید در سه یا چهار بار اول تشخیص تفاوت سخت باشد، اما به تدریج، تصویر جلوی چشمان شما کیفیت خود را از دست می‌دهد و شروع به تخریب می‌کند.

تصویر اصلی پست‌شده توسط هنرمند *پیت اشتون* به این شکل به نظر می‌رسید:

 

کپی نودم (90th ) به این شکل به نظر می‌رسید:

تصویر از پیت اشتون

این اثر به عنوان “از دست رفتن نسل به نسل” شناخته می‌شود و کاهش کیفیتی را که بین داده اصلی و کپی‌ها یا تراکنش‌هایی که انجام می‌دهید، نشان می‌دهد. این اثر محدود به تصاویر بصری نیست. در سال ۱۹۶۹، آهنگساز آلوین لوسیِر یک ضبط از خود در حال خواندن یک پاراگراف متن تهیه کرد. سپس آن ضبط را روی نوار پخش کرد و خود آن ضبط را دوباره ضبط کرد، فرآیندی که به طور مکرر تکرار کرد. همانطور که نویسنده و محقق موسیقی، ادوارد استریکلند، نوشت، زبان اصلی به تدریج بیشتر و بیشتر غیرقابل درک می‌شود و در نهایت به صداهای بی‌معنی تبدیل می‌شود که تحت تأثیر تون اتاقی است که ضبط در آن انجام شده است.

سؤالی که با رشد مدل‌های زبان بزرگ مطرح شده این است که اگر آن‌ها از داده‌های جدید برای آموزش خالی شوند یا اگر بخش بیشتری از داده‌هایی که از وب مصرف می‌کنند، خود توسط یک سیستم GenAI مبتنی بر مدل زبان بزرگ تولید شده باشد، چه اتفاقی خواهد افتاد. همانطور که یک مقاله در نیویورک تایمز اشاره کرد، هوش مصنوعی که بیش از حد با داده‌های مصنوعی آموزش دیده باشد، می‌تواند با پدیده‌ای به نام “فروپاشی مدل” روبه‌رو شود، که کاهش شدید در قابلیت‌های آن است.

آموزش از کتاب درسی

هر چقدر داده‌های آموزشی بهتر باشد، مدل هوشمندتر خواهد بود
با این حال، نمونه‌هایی از آموزش با داده‌های مصنوعی وجود دارد که امیدهایی برای آینده ایجاد می‌کند. تا پیش از این، به نظر می‌رسید که قابلیت‌های مدل هوش مصنوعی به نوعی به اندازه آن مدل‌ها وابسته است و قابلیت‌های آن‌ها هم‌راستا با مقیاسشان رشد می‌کند. همانطور که ریچ ساتون در مقاله *The Bitter Lesson* نوشت، محققان می‌خواستند راه‌های هوشمندانه‌ای برای بهبود دانش هوش مصنوعی پیدا کنند، اما به طور مکرر با پیشرفت‌هایی مواجه می‌شدند که عمدتاً از افزودن داده و محاسبات بیشتر ناشی می‌شد. قدرتمندترین مدل‌ها ابتدا بر روی میلیون‌ها، سپس میلیاردها و بعد صدها میلیارد پارامتر آموزش دیده‌اند. همانطور که جاناتان فرانکل از MosaicML در پادکست ما گفت، این امر برای جامعه دانشگاهی و متن‌باز اندکی ناامیدکننده بود، زیرا به نظر می‌رسید که برای دستیابی به نتایج پیشرفته به مقدار زیادی داده و محاسبات (و بنابراین زمان و پول) نیاز دارید.

اما اخیراً مدل‌های کوچک‌تر و کوچک‌تر توانسته‌اند با مدل‌های عظیم و بنیادی در برخی از آزمون‌های استاندارد رقابت کنند. سه مقاله از تحقیقات مایکروسافت این مسیر بالقوه را مورد بررسی قرار داده‌اند. جدیدترین نمونه، Phi-1، به خصوص برای افرادی در Stack Overflow جالب است، زیرا از داده‌های جامعه ما به عنوان بخشی از مجموعه داده‌های آموزشی خود استفاده می‌کند… خوب، نوعی از آن.

این مدل 1.3 میلیارد پارامتر دارد، که تقریباً 1% اندازه مدل پشت ChatGPT اصلی است، بسیار کوچک‌تر از GPT4 و به اندازه‌ای فشرده است که می‌توان آن را روی یک گوشی هوشمند پیشرفته اجرا کرد. به جای تکیه بر مجموعه داده آموزشی عظیم — مثلاً تمام متن‌های اینترنت — نویسندگان این مقاله بر کیفیت داده‌ها تمرکز کرده‌اند. این کار پیرو تحقیقاتی است که نشان داده‌اند آموزش بر روی یک مجموعه بسیار کوچک از داستان‌های کوتاه، که به طور خاص برای تنظیم دقیق به سوی هدف خاصی طراحی شده‌اند، به یک مدل بسیار کوچک این امکان را داده که سطح شگفت‌انگیزی از استدلال و توانایی زبانی بدست آورد.

در مورد Phi-1، از مثال‌های کدنویسی استفاده شده، اما نه تنها از متنی که در مجموعه داده‌های بزرگ و عمومی وجود دارد. همانطور که نویسندگان توضیح می‌دهند، مجموعه داده‌های استاندارد که برای آموزش مدل‌ها در زمینه کدنویسی استفاده می‌شود، چندین مشکل دارند:

– بسیاری از نمونه‌ها خودکفا نیستند، به این معنی که به ماژول‌ها یا فایل‌های دیگری که خارج از اسنیپت هستند وابسته‌اند، که این امر بدون زمینه اضافی فهم آن‌ها را دشوار می‌کند.
– نمونه‌های معمول هیچ محاسبه معنی‌داری ندارند، بلکه معمولاً شامل کدهای بی‌اهمیت یا معمولی هستند، مانند تعریف متغیرها، تنظیم پارامترها یا پیکربندی عناصر رابط کاربری.
– نمونه‌هایی که شامل منطق الگوریتمی هستند معمولاً در داخل توابع پیچیده یا بد مستند مدفون می‌شوند، که یادگیری یا پیگیری آن‌ها را دشوار می‌کند.
– مثال‌ها تمایل دارند به برخی موضوعات یا استفاده‌ها گرایش داشته باشند که منجر به توزیع نامتعادل مفاهیم و مهارت‌های کدنویسی در مجموعه داده می‌شود.

همانطور که آن‌ها می‌نویسند، “فقط می‌توان تصور کرد که چقدر برای یک یادگیرنده انسانی ناامیدکننده و ناکارآمد خواهد بود که بخواهد مهارت‌های کدنویسی را از این مجموعه‌های داده بیاموزد، زیرا باید با نویز، ابهام و ناتمامی در داده‌ها مواجه شود. ما فرض می‌کنیم که این مسائل همچنین بر عملکرد مدل‌های زبانی تأثیر می‌گذارد، زیرا سیگنال‌هایی که زبان طبیعی را به کد تبدیل می‌کنند کاهش می‌یابند. ما گمان می‌کنیم که مدل‌های زبانی از یک مجموعه داده آموزشی که ویژگی‌هایی مشابه آنچه یک انسان به عنوان یک “کتاب درسی خوب” درک می‌کند برخوردار باشد، سود خواهند برد: باید واضح، خودکفا، آموزنده و متعادل باشد.”

برای بهبود کیفیت داده‌ها، نویسندگان نمونه‌های کدنویسی از The Stack و Stack Overflow را به عنوان مبنا استفاده کردند و سپس از GPT3.4 و GPT4 خواستند که شناسایی کنند کدام اسنیپت‌ها بهترین “ارزش آموزشی برای یک دانش‌آموز که هدفش یادگیری مفاهیم پایه کدنویسی است” را دارند. به عبارت دیگر، آن‌ها از بهترین بخش‌های داده از منابعی مانند Stack Overflow استفاده کردند تا به یکی از مدل‌های بنیادی پیشرفته امروزی کمک کنند تا داده‌های مصنوعی تولید کند که بتوان از آن‌ها برای آموزش یک مدل بسیار کوچک‌تر و قابل دسترس‌تر استفاده کرد.

کیفیت و ساختار به اندازه کمیت اهمیت دارند

GPT3.5، Replit، Palm2 و دیگران در یک چالش استاندارد کدنویسی. این موضوع باعث شد که آندریا کارپاتی، یک کارشناس برجسته برنامه هوش مصنوعی تسلا که اکنون در OpenAI مشغول به کار است، اظهار کند: “ما احتمالاً شاهد کارهای خلاقانه بیشتری برای ‘کاهش مقیاس’ خواهیم بود: اولویت دادن به کیفیت و تنوع داده‌ها به جای کمیت، تولید بیشتر داده‌های مصنوعی، و مدل‌های کوچک اما با قابلیت‌های بالا که به طور تخصصی کار می‌کنند.”

یافته‌های این مقاله یکی دیگر از باورهای مرکزی Stack Overflow را در مورد این دوران جدید GenAI تایید می‌کند: اهمیت کیفیت بر کمیت. یک و نیم دهه‌ای که جامعه ما به سوال پرسیدن، ارائه پاسخ و حفظ بالاترین کیفیت پایگاه داده‌ها پرداخته است، داده‌های ما را به طور منحصر به فردی ارزشمند کرده است.

یادگیری نحوه شکل دادن سوالات و پاسخ‌های عالی در مورد کد، به نظر می‌رسد که یک مهارت منحصر به فرد در دوران GenAI است. همانطور که مارک زاکربرگ در یک مصاحبه پادکستی اخیر گفت:

“چیزی که در 18 ماه گذشته به نوعی نتیجه شگفت‌انگیزی بود این است که مشخص شد کدنویسی برای بسیاری از حوزه‌ها اهمیت دارد، نه فقط کدنویسی. حتی اگر مردم سوالات مربوط به کدنویسی نپرسند، آموزش مدل‌ها با استفاده از کدنویسی به آن‌ها کمک می‌کند که در پاسخ دادن به سوالات دقیق‌تر شوند و به آن‌ها کمک می‌کند تا در بسیاری از حوزه‌های مختلف استدلال کنند. این یکی از مثال‌هایی است که برای LLaMa-3، واقعاً تمرکز کردیم که آن را با استفاده از کدنویسی زیادی آموزش دهیم، زیرا این کار آن را در تمام این موارد بهتر می‌کند، حتی اگر مردم در ابتدا سوالات کدنویسی نپرسند.”

این همه برای سازمان شما چه معنایی دارد؟ نکته اصلی این است که حتی اگر شما اکنون به شدت در حال سرمایه‌گذاری برای وارد کردن GenAI به تولید نیستید، بهترین راه برای ایجاد یک پایه برای کار با این تکنولوژی در آینده این است که روش‌هایی برای سازمان‌دهی و بهینه‌سازی اطلاعات درون شرکت خود پیدا کنید، به طوری که دستیارهای هوش مصنوعی در آینده بتوانند به کارکنان شما کمک کنند تا هم تولیدی و هم دقیق باشند.

اگر می‌خواهید بیشتر در مورد نحوه سازمان‌دهی دانش درون شرکت خود بیاموزید یا نحوه کمک به مشتریانی مانند مایکروسافت و بلومبرگ برای ساخت و نگهداری پایگاه‌های دانش داخلی‌شان را یاد بگیرید، از Stack Overflow برای تیم‌ها بازدید کنید.

Avatar photo
درباره نویسنده

محمد حسین صیادی

موسس و سردبیر

نظر شما در مورد این مطلب چیه؟

ارسال دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

×