ایلان ماسک، مانند بسیاری از کارشناسان پیشرو در زمینه هوش مصنوعی، بر این باور است که دیگر دادههای دنیای واقعی برای آموزش مدلهای هوش مصنوعی در اختیار نداریم. به گفته او، «ما عملاً مجموع دانش بشری را برای آموزش هوش مصنوعی تمام کردهایم.» این اظهارنظر در یک گفتگو با مارک پن، رئیس هیئت مدیره Stagwell، در پلتفرم X در روز چهارشنبه مطرح شد و ماسک بر این نکته تأکید داشت که این اتفاق عمدتاً در سال گذشته رخ داده است.
ماسک، که مالک شرکت هوش مصنوعی xAI است، همانند ایلیا سوتسکِور، دانشمند ارشد پیشین OpenAI، نظرات مشابهی را مطرح کرده است. سوتسکِور در سخنرانی خود در کنفرانس NeurIPS در دسامبر گذشته به اصطلاح «اوج دادهها» اشاره کرد و پیشبینی کرد که کمبود دادههای آموزشی کافی به زودی نیاز به تغییرات عمده در روشهای توسعه مدلها را به وجود خواهد آورد.
ماسک نیز به این نکته اشاره کرد که آینده هوش مصنوعی به سمت استفاده از دادههای مصنوعی، یعنی دادههایی که خود مدلها تولید میکنند، خواهد رفت. او گفت: «تنها راه تکمیل دادههای واقعی، استفاده از دادههای مصنوعی است، جایی که خود هوش مصنوعی دادههای آموزشی را تولید میکند.» به نظر او، با این روش، هوش مصنوعی قادر خواهد بود خود را ارزیابی و اصلاح کند و به این ترتیب فرآیند یادگیری خود را بهبود دهد.
این روند استفاده از دادههای مصنوعی نه تنها در شرکتهایی مانند xAI، بلکه در سایر غولهای فناوری مانند مایکروسافت، متا، OpenAI و Anthropic نیز در حال اجراست. به گفته گارتنر، تا سال 2024، 60% از دادههای استفاده شده در پروژههای هوش مصنوعی و تحلیلها به صورت مصنوعی تولید خواهند شد. برای مثال، مدل Phi-4 مایکروسافت و مدلهای Gemma گوگل همگی از دادههای مصنوعی در کنار دادههای واقعی برای آموزش استفاده کردهاند. همچنین، مدل Claude 3.5 Sonnet از Anthropic و مدلهای Llama از متا نیز با استفاده از دادههای مصنوعی بهینهسازی شدهاند.
مزایای استفاده از دادههای مصنوعی واضح است. این روش میتواند هزینهها را به طور قابل توجهی کاهش دهد. به عنوان مثال، استارتاپ Writer اعلام کرده که مدل Palmyra X 004 خود، که عمدتاً از دادههای مصنوعی ساخته شده، تنها 700 هزار دلار هزینه داشته است. این در حالی است که هزینه توسعه مدلهای مشابه از OpenAI به حدود 4.6 میلیون دلار میرسد.
با این حال، استفاده از دادههای مصنوعی بدون چالش نیست. برخی تحقیقات نشان میدهند که دادههای مصنوعی میتوانند باعث کاهش خلاقیت و افزایش سوگیری در مدلها شوند. این مسأله به این دلیل است که مدلها دادههای مصنوعی را از دادههای واقعی و موجود تولید میکنند و اگر این دادهها شامل سوگیریها یا محدودیتهای خاصی باشند، خروجیهای مدلها نیز از همین مشکلات رنج خواهند برد. این موضوع میتواند کارکرد مدلهای هوش مصنوعی را به طور جدی تحت تأثیر قرار دهد.
نتیجهگیری:
با پیشرفتهای روزافزون در زمینه هوش مصنوعی، به نظر میرسد که ما به نقطهای رسیدهایم که دادههای دنیای واقعی برای آموزش مدلها دیگر کافی نیستند. این چالش، هم فرصتهایی برای نوآوری در زمینه تولید دادههای مصنوعی فراهم میکند و هم خطراتی از نظر سوگیری و کاهش خلاقیت در مدلها به همراه دارد.
در این مسیر، استفاده از دادههای مصنوعی میتواند به عنوان راهی برای گسترش قابلیتهای هوش مصنوعی مطرح شود، اما در عین حال نیازمند نظارت دقیق و کنترلهای بیشتری است تا از مشکلات مرتبط با سوگیریها و کارکرد نادرست مدلها جلوگیری شود. به نظر میرسد که در آینده، صنعت هوش مصنوعی باید راهحلهای هوشمندانهتری برای ترکیب دادههای واقعی و مصنوعی پیدا کند تا به پایداری و عملکرد بهینه دست یابد.
نظر شما در مورد این مطلب چیه؟
ارسال دیدگاه