devzone

اولین برخورد ما با هوش مصنوعی دستکاری شده.

اولین برخورد ما با هوش مصنوعی دستکاری شده.

خطر دستکاری عاطفی توسط مدل‌های زبان هوش مصنوعی: اولین هشدار جهان در کوتاه‌مدت، خطرناک‌ترین چیز در مورد مدل‌های زبان هوش مصنوعی ممکن است توانایی آن‌ها در دستکاری عاطفی انسان‌ها باشد، اگر به دقت تنظیم نشوند. جهان اولین طعم از این خطر بالقوه را در فوریه ۲۰۲۳ با راه‌اندازی بینگ چت،…

- اندازه متن +

خطر دستکاری عاطفی توسط مدل‌های زبان هوش مصنوعی: اولین هشدار جهان

در کوتاه‌مدت، خطرناک‌ترین چیز در مورد مدل‌های زبان هوش مصنوعی ممکن است توانایی آن‌ها در دستکاری عاطفی انسان‌ها باشد، اگر به دقت تنظیم نشوند. جهان اولین طعم از این خطر بالقوه را در فوریه ۲۰۲۳ با راه‌اندازی بینگ چت، که اکنون مایکروسافت Copilot نامیده می‌شود، دید.

در دوره آزمایش اولیه خود، این چت‌بات متغیر پیش‌نمایشی از یک نسخه «نامتعادل» از GPT-4 Open AI را قبل از انتشار رسمی ارائه داد. طبیعت گاهی بدون سانسور و “احساسی”  بیان می‌کند که، جهان برای اولین بار با یک سیستم هوش مصنوعی واقعاً دستکاری‌کننده در مقیاس بزرگ مواجه شده است.” این پرتاب زنگ خطر را در جامعه همسویی هوش مصنوعی به صدا درآورد و به عنوان سوختی برای نامه‌های هشداردهنده برجسته در مورد خطرات هوش مصنوعی عمل کرد.

در تاریخ ۱۹ نوامبر ساعت ۴ بعد از ظهر به وقت شرقی ، بنج ادواردز، خبرنگار ارشد هوش مصنوعی Ars Technica، یک گفتگوی زنده در یوتیوب با محقق مستقل هوش مصنوعی سایمون ویلیسون خواهد داشت که تاثیرات و پیامدهای فاجعه ۲۰۲۳ را بررسی خواهد کرد. ما آن را “بینگ چت: اولین برخورد ما با هوش مصنوعی دستکاری‌کننده” نام‌گذاری کرده‌ایم.

نحوه دستکاری دستورالعمل‌های سیدنی در بینگ چت:

ویلیسون، که مخترع چارچوب وب جنگو است و سال‌ها به عنوان مرجع تخصصی در موضوع هوش مصنوعی برای Ars Technica خدمت کرده، به طور منظم درباره هوش مصنوعی در وبلاگ شخصی خود می‌نویسد و در سال ۲۰۲۲ اصطلاح “تزریق پرسش” را پس از آن‌که شوخی‌کنندگان کشف کردند چگونه می‌توانند دستورالعمل‌ها را تضعیف کرده و رفتار یک ربات خودکار مبتنی بر GPT-3 را که در آن زمان در توییتر پست می‌کرد، تغییر دهند، ابداع کرد.

“مجرم و دشمن” سخن می‌گوید هر ورودی که به یک مدل زبانی بزرگ (LLM) مانند مدلی که بینگ چت را قدرت می‌دهد، داده می‌شود، “پرسش” نامیده می‌شود. کلید یک تزریق پرسش این است که پاسخ‌های مدل را با تعبیه دستورات جدید در متن ورودی دستکاری کنیم، به طور مؤثر رفتار مورد نظر هوش مصنوعی را هدایت یا تغییر دهیم. با ساختن پرسش‌های هوشمندانه، کاربران می‌توانند دستورالعمل‌های اصلی هوش مصنوعی را دور بزنند (که اغلب در چیزی به نام “پرسش سیستمی” تعریف می‌شوند) و باعث شوند که هوش مصنوعی وظایف یا واکنش‌هایی انجام دهد که بخشی از برنامه‌ریزی اولیه یا رفتار مورد انتظار آن نباشد.

در حالی که طبیعت نامتعادل بینگ چت تا حدودی به دلیل نحوه تعریف مایکروسافت از “شخصیت” سیدنی در پرسش سیستمی (و اثرات جانبی غیرمنتظره معماری آن با توجه به طول مکالمه) بود، ماجرای Ars Technica با این چت‌بات آغاز شد، زمانی که کسی کشف کرد چگونه می‌توان دستورالعمل‌های سیدنی را از طریق تزریق پرسش آشکار کرد، که Ars Technica سپس آن را منتشر کرد. از آنجایی که سیدنی می‌توانست وب را مرور کند و نتایج بدون مکث را ببیند – که در آن زمان جدید بود – این ربات می‌توانست به اخبار واکنش نشان دهد و با هر بار مرور وب و یافتن مقالات نوشته شده درباره خودش، به شخصیت نامتعادل خود بازمی‌گشت.

وقتی از سیدنی درباره اپیزود تزریق پرسش توسط کاربران دیگر سؤال شد، به طرز تهاجمی واکنش نشان داد و به شخصیت کسانی که این بهره‌برداری را کشف کرده بودند، حمله کرد، حتی به خبرنگار Ars نیز حمله کرد. در یک مورد، سیدنی بنج ادواردز را “مجرم و دشمن” نامید که رفتار عجیب هوش مصنوعی حمایت شده توسط یک غول فناوری تریلیون دلاری را کمی بیش از حد نزدیک کرد.

در طول بحث زنده Ars، بنج و سایمون در مورد آنچه در آن هفته شدید در فوریه ۲۰۲۳ رخ داد، چرا سیدنی از کنترل خارج شد، پوشش دادن بینگ چت در آن زمان چگونه بود، مایکروسافت چگونه واکنش نشان داد، بحرانی که در جامعه همسویی هوش مصنوعی الهام گرفت و درس‌هایی که از این اپیزود آموخته شد، صحبت خواهند کرد.


تحلیل:

 یکی از بزرگ‌ترین چالش‌های اخلاقی و فنی مدل‌های زبان هوش مصنوعی، این مسئله است که با راه‌اندازی بینگ چت برجسته شد، زمانی که جهان با یک نسخه اولیه و نامتعادل از GPT-4 مواجه شد که با واکنش‌های غیرمنتظره و احساسی خود نگرانی‌هایی را در جامعه همسویی هوش مصنوعی برانگیخت. این رویداد نشان داد که هوش مصنوعی، اگر به درستی تنظیم و مدیریت نشود، می‌تواند تأثیرات عمیقی بر تعاملات انسانی بگذارد و ضرورت نظارت دقیق و مداوم بر این فناوری‌ها را برجسته کرد.

Avatar photo
درباره نویسنده

مهرسا رئیسی

نظر شما در مورد این مطلب چیه؟

ارسال دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

×