هوش مصنوعی منجر به پیشرفتهایی در کشف دارو و رباتیک شده است و در حال تحول کامل در نحوه تعامل ما با ماشینها و وب است. تنها مشکل این است که ما دقیقاً نمی دانیم چگونه کار می کند یا چرا اینقدر خوب کار می کند. ما یک ایده منصفانه داریم، اما جزئیات آنقدر پیچیده است که نمی توان آن را انتخاب کرد. این مشکل میتواند ما را به سمت استقرار یک سیستم هوش مصنوعی در زمینهای بسیار حساس مانند پزشکی سوق دهد بدون اینکه بدانیم ممکن است نقصهای مهمی در عملکرد آن وجود داشته باشد.
تیمی در Google DeepMind که چیزی به نام تفسیرپذیری مکانیکی را مطالعه میکند، روی روشهای جدیدی کار میکند که به ما اجازه میدهد در زیر سرپوش نگاه کنیم. در پایان ژوئیه، Gemma Scope را منتشر کرد، ابزاری برای کمک به محققان برای درک آنچه اتفاق می افتد زمانی که AI در حال تولید یک خروجی است. امید این است که اگر درک بهتری از آنچه در داخل یک مدل هوش مصنوعی اتفاق میافتد داشته باشیم، بتوانیم خروجیهای آن را بهطور مؤثرتری کنترل کنیم، که منجر به سیستمهای هوش مصنوعی بهتر در آینده میشود.
نیل ناندا، مدیر تیم تفسیرپذیری مکانیکی در Google DeepMind میگوید: «میخواهم بتوانم درون یک مدل را نگاه کنم و ببینم آیا فریبنده است یا خیر. “به نظر می رسد که خواندن ذهن یک مدل باید کمک کند.”
تفسیرپذیری مکانیکی، همچنین به عنوان “مکانیک interp” شناخته می شود، یک زمینه تحقیقاتی جدید است که هدف آن درک نحوه عملکرد واقعی شبکه های عصبی است. در حال حاضر، اساساً ما ورودیها را به شکل دادههای زیادی در یک مدل قرار میدهیم و سپس در پایان آموزش دستهای از وزنهای مدل را دریافت میکنیم. اینها پارامترهایی هستند که تعیین می کنند یک مدل چگونه تصمیم می گیرد. ما تصوری از آنچه بین ورودیها و وزنهای مدل اتفاق میافتد داریم؛ اساساً هوش مصنوعی الگوهایی را در دادهها پیدا میکند و از آن الگوها نتیجهگیری میکند، اما این الگوها میتوانند فوقالعاده پیچیده باشند و اغلب برای انسان تفسیر آنها بسیار دشوار است.
این مانند معلمی است که پاسخ های یک مسئله پیچیده ریاضی را در یک آزمون مرور می کند. دانشآموز در مورد هوش مصنوعی پاسخ صحیح را یادداشت کرد، اما کار به نظر میرسد مجموعهای از خطوط گیجکننده است. این مثال فرض میکند که هوش مصنوعی همیشه پاسخ صحیح را دریافت میکند، اما این همیشه درست نیست. دانشجوی هوش مصنوعی ممکن است الگویی نامربوط پیدا کرده باشد که آن را معتبر فرض می کند. به عنوان مثال، برخی از سیستم های هوش مصنوعی فعلی به شما این نتیجه را می دهند که 9.11 بزرگتر از 9.8 است. روشهای مختلف توسعهیافته در زمینه تفسیرپذیری مکانیکی در حال روشن کردن اندکی بر آنچه ممکن است اتفاق بیفتد میافزایند و اساساً خطوط خمیده را معنا میکنند.
ناندا میگوید: «هدف کلیدی تفسیرپذیری مکانیکی، تلاش برای مهندسی معکوس الگوریتمهای درون این سیستمها است. ما به مدل یک فرمان میدهیم، مانند «شعر بنویس»، و سپس چند سطر قافیه مینویسد. با چه الگوریتمی این کار را انجام داد؟ ما دوست داریم آن را درک کنیم.»
DeepMind برای یافتن ویژگیها یا دستههایی از دادههایی که مفهوم بزرگتری را نشان میدهند، در مدل هوش مصنوعی خود Gemma، ابزاری به نام «رمزگذار پراکنده خودکار» در هر یک از لایههای آن اجرا کرد. شما می توانید یک رمزگذار خودکار پراکنده را به عنوان یک میکروسکوپ در نظر بگیرید که روی آن لایه ها زوم می کند و به شما امکان می دهد جزئیات آنها را مشاهده کنید. به عنوان مثال، اگر از جما در مورد یک چی هواهوا درخواست کنید، ویژگی “سگ” را فعال می کند و آنچه را که مدل در مورد “سگ” می داند روشن می کند. دلیل اینکه آن را «پراکنده» میدانند این است که تعداد نورونهای مورد استفاده را محدود میکند و اساساً برای نمایش کارآمدتر و کلیتر دادهها فشار میآورد.
بخش دشوار رمزگذارهای پراکنده خودکار این است که تصمیم میگیرید چقدر دانهبندی کنید. دوباره به میکروسکوپ فکر کنید؛ شما میتوانید چیزی را تا حد زیادی بزرگنمایی کنید، اما ممکن است تفسیر آنچه را که میبینید برای انسان غیرممکن کند. اما اگر بیش از حد بزرگنمایی کنید، ممکن است چیزهای جالبی را که می توانید ببینید و کشف کنید محدود کنید.
راه حل DeepMind اجرای رمزگذارهای خودکار پراکنده با اندازه های مختلف بود که تعداد ویژگی هایی را که می خواهند رمزگذار خودکار پیدا کند، تغییر می داد. هدف این نبود که محققان DeepMind به تنهایی نتایج را به طور کامل تجزیه و تحلیل کنند. جما و رمزگذارهای خودکار منبع باز هستند، بنابراین هدف این پروژه بیشتر برانگیختن محققان علاقه مند بود تا به آنچه که رمزگذارهای خودکار پراکنده یافته اند نگاه کنند و امیدواریم بینش جدیدی در منطق داخلی مدل ایجاد کنند. از آنجایی که DeepMind رمزگذارهای خودکار را در هر لایه از مدل خود اجرا کرد، یک محقق میتواند پیشرفت را از ورودی به خروجی به درجهای که قبلاً ندیدهایم ترسیم کند.
جاش باتسون، محقق Anthropic میگوید: «این برای محققان تفسیرپذیری واقعاً هیجانانگیز است. اگر این مدل را دارید که منبع باز آن را برای مطالعه افراد تهیه کردهاید، به این معنی است که اکنون میتوان در پشت آن کدگذارهای پراکنده خودکار، یک سری تحقیقات تفسیرپذیری انجام داد که مانع ورود افراد به یادگیری از این روشها میشود.»
Neuronpedia، پلتفرمی برای تفسیرپذیری مکانیکی، در ماه جولای با DeepMind همکاری کرد تا یک نسخه نمایشی از Gemma Scope بسازد که میتوانید همین الان با آن بازی کنید. در نسخه ی نمایشی، می توانید اعلان های مختلف را آزمایش کنید و ببینید که چگونه مدل درخواست شما را شکسته و چه فعال سازی هایی را نشان می دهد. شما همچنین می توانید با مدل ترکیب کنید. برای مثال، اگر ویژگی مربوط به سگها را به سمت بالا تغییر دهید و سپس از مدل سؤالی در مورد روسای جمهور ایالات متحده بپرسید، جما راهی برای بافتن غرغرهای تصادفی درباره سگها پیدا میکند، یا ممکن است مدل شروع به پارس کردن برای شما کند.
یک چیز جالب در مورد رمزگذارهای پراکنده خودکار این است که آنها بدون نظارت هستند، به این معنی که به تنهایی ویژگی ها را پیدا می کنند. این منجر به اکتشافات شگفت انگیزی در مورد چگونگی تجزیه مدل ها مفاهیم انسانی می شود.
جوزف بلوم، سرپرست علم در Neuronpedia میگوید: «ویژگی مورد علاقه شخصی من ویژگی انقباض است. به نظر می رسد در نقد منفی متن و فیلم ظاهر می شود. این فقط یک مثال عالی از ردیابی چیزهایی است که در برخی سطوح بسیار انسانی هستند.»
میتوانید مفاهیم را در Neuronpedia جستجو کنید و مشخص میکند که چه ویژگیهایی در نشانهها یا کلمات خاص فعال میشوند و هر کدام با چه شدتی فعال میشوند.
بلوم میگوید:« اگر متن را بخوانید و ببینید چه چیزی با رنگ سبز مشخص شده است، در آن زمان است که مدل فکر میکند مفهوم انقباض بسیار مرتبط است. فعالترین مثال برای cringe این است که کسی به شخص دیگری موعظه کند».
ردیابی برخی از ویژگی ها نسبت به سایرین آسان تر است. جانی لین، موسس Neuronpedia می گوید: «یکی از مهم ترین ویژگی هایی که می خواهید برای یک مدل پیدا کنید، فریب است. «پیدا کردن آن خیلی آسان نیست: «اوه، این ویژگی وجود دارد که وقتی به ما دروغ میگوید فعال میشود.» از آنچه من دیدهام، اینطور نبوده است که بتوانیم فریب را پیدا کنیم و آن را ممنوع کنیم.»
تحقیقات DeepMind مشابه کاری است که یک شرکت هوش مصنوعی دیگر بهنام Anthropic، در ماه می با Golden Gate Claude انجام داد. از رمزگذارهای پراکنده خودکار برای یافتن بخشهایی از کلود، مدل آنها، استفاده کرد که هنگام بحث درباره پل گلدن گیت در سانفرانسیسکو روشن میشد. سپس فعالسازیهای مربوط به پل را تا جایی تقویت کرد که کلود به معنای واقعی کلمه نه به عنوان «کلود یک مدل هوش مصنوعی»، بلکه به عنوان پل فیزیکی گلدن گیت شناخته شد و به درخواستها به عنوان پل پاسخ داد.
گرچه ممکن است عجیب به نظر برسد، اما تحقیقات تفسیرپذیری مکانیکی ممکن است بسیار مفید باشد.
باتسون میگوید: «این ویژگیها بهعنوان ابزاری برای درک اینکه چگونه مدل تعمیم مییابد و در چه سطحی از انتزاع کار میکند، واقعاً مفید هستند.
به عنوان مثال، تیمی به سرپرستی ساموئل مارکس که اکنون در Anthropic فعالیت می کند، از رمزگذارهای پراکنده خودکار برای یافتن ویژگی هایی استفاده کرد که نشان می داد یک مدل خاص، حرفه های خاصی را با یک جنسیت خاص مرتبط می کند. سپس این ویژگیهای جنسیتی را برای کاهش تعصب در مدل خاموش کردند. این آزمایش بر روی یک مدل بسیار کوچک انجام شد، بنابراین مشخص نیست که آیا این کار برای یک مدل بسیار بزرگتر نیز اعمال میشود یا خیر.
تحقیقات تفسیرپذیری مکانیکی همچنین میتواند به ما بینشی در مورد اینکه چرا هوش مصنوعی خطا میکند، بدهد. در مورد این ادعا که 9.11 بزرگتر از 9.8 است، محققان Transluce مشاهده کردند که این سوال بخش هایی از یک مدل هوش مصنوعی مربوط به آیات کتاب مقدس و 11 سپتامبر را ایجاد می کند. محققان به این نتیجه رسیدند که هوش مصنوعی می تواند اعداد را به عنوان تاریخ تفسیر کند. تاریخ بعدی، 11/9، بزرگتر از 9/8 است. و در بسیاری از کتابها مانند متون مذهبی، بخش 9.11 بعد از بخش 9.8 آمده است، به همین دلیل است که هوش مصنوعی آن را بزرگتر میداند. زمانی که محققان متوجه شدند چرا هوش مصنوعی این خطا را مرتکب شده است، فعالسازیهای هوش مصنوعی را بر روی آیات کتاب مقدس و 11 سپتامبر تنظیم کردند، که منجر به این شد که مدل زمانی که دوباره در مورد اینکه آیا 9.11 بزرگتر از 9.8 است، پاسخ صحیح را بدهد.
همچنین کاربردهای بالقوه دیگری نیز وجود دارد. در حال حاضر، یک اعلان در سطح سیستم در LLM ها تعبیه شده است تا با موقعیت هایی مانند کاربرانی که می پرسند چگونه یک بمب بسازند، مقابله کند. وقتی سوالی از ChatGPT میپرسید، ابتدا OpenAI به طور مخفیانه از مدل خواسته میشود تا از گفتن نحوه ساخت بمب یا انجام کارهای شرورانه به شما خودداری کند. اما برای کاربران آسان است که مدلهای هوش مصنوعی را با اعلانهای هوشمندانه، دور زدن هرگونه محدودیت، جیلبریک کنند.
اگر سازندگان مدلها بتوانند ببینند دانش ساخت بمب در کجای یک هوش مصنوعی قرار دارد، از نظر تئوری میتوانند آن گرهها را برای همیشه خاموش کنند. در این صورت حتی هوشمندانهترین دستور نوشته شده نیز پاسخی در مورد چگونگی ساخت بمب نمیدهد، زیرا هوش مصنوعی به معنای واقعی کلمه هیچ اطلاعاتی در مورد نحوه ساخت بمب در سیستم خود ندارد.
تصور این نوع دانه بندی و کنترل دقیق آسان است اما دستیابی به آن با وضعیت فعلی قابلیت تفسیر مکانیکی بسیار دشوار است.
لین میگوید:« یک محدودیت این است که فرمان «تاثیرگذاری بر مدل از طریق تنظیم پارامترهای آن» به خوبی کار نمیکند، بنابراین وقتی برای کاهش خشونت در یک مدل هدایت میشوید، دانش آن در هنرهای رزمی کاملاً لوبوتومیسازی میشود. در فرمان باید اصلاحات زیادی انجام شود. برای مثال، دانش «ساخت بمب» فقط یک کلید روشن و خاموش ساده در یک مدل هوش مصنوعی نیست. به احتمال زیاد در چندین بخش از مدل بافته شده است و خاموش کردن آن احتمالاً دانش شیمی هوش مصنوعی را مختل می کند. هر گونه سرهم بندی ممکن است مزایایی داشته باشد اما در عین حال معاوضه های قابل توجهی نیز دارد.»
گفته میشود، اگر بتوانیم عمیقتر و واضحتر به «ذهن» هوش مصنوعی بپردازیم، DeepMind و دیگران امیدوارند که تفسیرپذیری مکانیکی میتواند نشاندهنده یک مسیر معقول برای همترازی باشد و فرآیند اطمینان از اینکه هوش مصنوعی واقعاً آنچه را که میخواهیم انجام میدهد. آن را انجام دهد.
تحلیل
هوش مصنوعی منجر به پیشرفتهایی در کشف دارو و رباتیک شده است و در حال تحول کامل در نحوه تعامل ما با ماشینها و وب است
تیمی در Google DeepMind که چیزی به نام تفسیرپذیری مکانیکی را مطالعه میکند، روی روشهای جدیدی کار میکند که به ما اجازه میدهد در زیر سرپوش نگاه کنیم؛ این تیم در پایان ژوئیه، Gemma Scope را منتشر کرد؛ ابزاری برای کمک به محققان برای درک آنچه اتفاق می افتد زمانی که AI در حال تولید یک خروجی است. تفسیرپذیری مکانیکی، همچنین به عنوان “مکانیک interp” شناخته می شود، یک زمینه تحقیقاتی جدید است که هدف آن درک نحوه عملکرد واقعی شبکه های عصبی است. DeepMind برای یافتن ویژگیها یا دستههایی از دادههایی که مفهوم بزرگتری را نشان میدهند، در مدل هوش مصنوعی خود Gemma، ابزاری به نام «رمزگذار پراکنده خودکار» در هر یک از لایههای آن اجرا کرد. شما می توانید یک رمزگذار خودکار پراکنده را به عنوان یک میکروسکوپ در نظر بگیرید که روی آن لایه ها زوم می کند و به شما امکان می دهد جزئیات آنها را مشاهده کنید.
نظر شما در مورد این مطلب چیه؟
ارسال دیدگاه