devzone

Google DeepMind راه جدیدی برای نگاه کردن به درون “ذهن” هوش مصنوعی دارد

Google DeepMind راه جدیدی برای نگاه کردن به درون “ذهن” هوش مصنوعی دارد

هوش مصنوعی منجر به پیشرفت‌هایی در کشف دارو و رباتیک شده است و در حال تحول کامل در نحوه تعامل ما با ماشین‌ها و وب است. تنها مشکل این است که ما دقیقاً نمی دانیم چگونه کار می کند یا چرا اینقدر خوب کار می کند. ما یک ایده منصفانه…

- اندازه متن +

هوش مصنوعی منجر به پیشرفت‌هایی در کشف دارو و رباتیک شده است و در حال تحول کامل در نحوه تعامل ما با ماشین‌ها و وب است. تنها مشکل این است که ما دقیقاً نمی دانیم چگونه کار می کند یا چرا اینقدر خوب کار می کند. ما یک ایده منصفانه داریم، اما جزئیات آنقدر پیچیده است که نمی توان آن را انتخاب کرد. این مشکل می‌تواند ما را به سمت استقرار یک سیستم هوش مصنوعی در زمینه‌ای بسیار حساس مانند پزشکی سوق دهد بدون اینکه بدانیم ممکن است نقص‌های مهمی در عملکرد آن وجود داشته باشد.

تیمی در Google DeepMind که چیزی به نام تفسیرپذیری مکانیکی را مطالعه می‌کند، روی روش‌های جدیدی کار می‌کند که به ما اجازه می‌دهد در زیر سرپوش نگاه کنیم. در پایان ژوئیه، Gemma Scope را منتشر کرد، ابزاری برای کمک به محققان برای درک آنچه اتفاق می افتد زمانی که AI در حال تولید یک خروجی است. امید این است که اگر درک بهتری از آنچه در داخل یک مدل هوش مصنوعی اتفاق می‌افتد داشته باشیم، بتوانیم خروجی‌های آن را به‌طور مؤثرتری کنترل کنیم، که منجر به سیستم‌های هوش مصنوعی بهتر در آینده می‌شود.

نیل ناندا، مدیر تیم تفسیرپذیری مکانیکی در Google DeepMind می‌گوید: «می‌خواهم بتوانم درون یک مدل را نگاه کنم و ببینم آیا فریبنده است یا خیر. “به نظر می رسد که خواندن ذهن یک مدل باید کمک کند.”

تفسیرپذیری مکانیکی، همچنین به عنوان “مکانیک interp” شناخته می شود، یک زمینه تحقیقاتی جدید است که هدف آن درک نحوه عملکرد واقعی شبکه های عصبی است. در حال حاضر، اساساً ما ورودی‌ها را به شکل داده‌های زیادی در یک مدل قرار می‌دهیم و سپس در پایان آموزش دسته‌ای از وزن‌های مدل را دریافت می‌کنیم. این‌ها پارامترهایی هستند که تعیین می کنند یک مدل چگونه تصمیم می گیرد. ما تصوری از آنچه بین ورودی‌ها و وزن‌های مدل اتفاق می‌افتد داریم؛ اساساً هوش مصنوعی الگوهایی را در داده‌ها پیدا می‌کند و از آن الگوها نتیجه‌گیری می‌کند، اما این الگوها می‌توانند فوق‌العاده پیچیده باشند و اغلب برای انسان تفسیر آنها بسیار دشوار است.

این مانند معلمی است که پاسخ های یک مسئله پیچیده ریاضی را در یک آزمون مرور می کند. دانش‌آموز در مورد هوش مصنوعی پاسخ صحیح را یادداشت کرد، اما کار به نظر می‌رسد مجموعه‌ای از خطوط گیج‌کننده است. این مثال فرض می‌کند که هوش مصنوعی همیشه پاسخ صحیح را دریافت می‌کند، اما این همیشه درست نیست. دانشجوی هوش مصنوعی ممکن است الگویی نامربوط پیدا کرده باشد که آن را معتبر فرض می کند. به عنوان مثال، برخی از سیستم های هوش مصنوعی فعلی به شما این نتیجه را می دهند که 9.11 بزرگتر از 9.8 است. روش‌های مختلف توسعه‌یافته در زمینه تفسیرپذیری مکانیکی در حال روشن کردن اندکی بر آنچه ممکن است اتفاق بیفتد می‌افزایند و اساساً خطوط خمیده را معنا می‌کنند.

ناندا می‌گوید: «هدف کلیدی تفسیرپذیری مکانیکی، تلاش برای مهندسی معکوس الگوریتم‌های درون این سیستم‌ها است. ما به مدل یک فرمان می‌دهیم، مانند «شعر بنویس»، و سپس چند سطر قافیه می‌نویسد. با چه الگوریتمی این کار را انجام داد؟ ما دوست داریم آن را درک کنیم.»

DeepMind برای یافتن ویژگی‌ها یا دسته‌هایی از داده‌هایی که مفهوم بزرگ‌تری را نشان می‌دهند، در مدل هوش مصنوعی خود Gemma، ابزاری به نام «رمزگذار پراکنده خودکار» در هر یک از لایه‌های آن اجرا کرد. شما می توانید یک رمزگذار خودکار پراکنده را به عنوان یک میکروسکوپ در نظر بگیرید که روی آن لایه ها زوم می کند و به شما امکان می دهد جزئیات آنها را مشاهده کنید. به عنوان مثال، اگر از جما در مورد یک چی هواهوا درخواست کنید، ویژگی “سگ” را فعال می کند و آنچه را که مدل در مورد “سگ” می داند روشن می کند. دلیل اینکه آن را «پراکنده» می‌دانند این است که تعداد نورون‌های مورد استفاده را محدود می‌کند و اساساً برای نمایش کارآمدتر و کلی‌تر داده‌ها فشار می‌آورد.

بخش دشوار رمزگذارهای پراکنده خودکار این است که تصمیم می‌گیرید چقدر دانه‌بندی کنید. دوباره به میکروسکوپ فکر کنید؛ شما می‌توانید چیزی را تا حد زیادی بزرگ‌نمایی کنید، اما ممکن است تفسیر آنچه را که می‌بینید برای انسان غیرممکن کند. اما اگر بیش از حد بزرگنمایی کنید، ممکن است چیزهای جالبی را که می توانید ببینید و کشف کنید محدود کنید.

راه حل DeepMind اجرای رمزگذارهای خودکار پراکنده با اندازه های مختلف بود که تعداد ویژگی هایی را که می خواهند رمزگذار خودکار پیدا کند، تغییر می داد. هدف این نبود که محققان DeepMind به تنهایی نتایج را به طور کامل تجزیه و تحلیل کنند. جما و رمزگذارهای خودکار منبع باز هستند، بنابراین هدف این پروژه بیشتر برانگیختن محققان علاقه مند بود تا به آنچه که رمزگذارهای خودکار پراکنده یافته اند نگاه کنند و امیدواریم بینش جدیدی در منطق داخلی مدل ایجاد کنند. از آنجایی که DeepMind رمزگذارهای خودکار را در هر لایه از مدل خود اجرا کرد، یک محقق می‌تواند پیشرفت را از ورودی به خروجی به درجه‌ای که قبلاً ندیده‌ایم ترسیم کند.

جاش باتسون، محقق Anthropic می‌گوید: «این برای محققان تفسیرپذیری واقعاً هیجان‌انگیز است. اگر این مدل را دارید که منبع باز آن را برای مطالعه افراد تهیه کرده‌اید، به این معنی است که اکنون می‌توان در پشت آن کدگذارهای پراکنده خودکار، یک سری تحقیقات تفسیرپذیری انجام داد که مانع ورود افراد به یادگیری از این روش‌ها می‌شود.»

Neuronpedia، پلتفرمی برای تفسیرپذیری مکانیکی، در ماه جولای با DeepMind همکاری کرد تا یک نسخه نمایشی از Gemma Scope بسازد که می‌توانید همین الان با آن بازی کنید. در نسخه ی نمایشی، می توانید اعلان های مختلف را آزمایش کنید و ببینید که چگونه مدل درخواست شما را شکسته و چه فعال سازی هایی را نشان می دهد. شما همچنین می توانید با مدل ترکیب کنید. برای مثال، اگر ویژگی مربوط به سگ‌ها را به سمت بالا تغییر دهید و سپس از مدل سؤالی در مورد روسای جمهور ایالات متحده بپرسید، جما راهی برای بافتن غرغرهای تصادفی درباره سگ‌ها پیدا می‌کند، یا ممکن است مدل شروع به پارس کردن برای شما کند.

یک چیز جالب در مورد رمزگذارهای پراکنده خودکار این است که آنها بدون نظارت هستند، به این معنی که به تنهایی ویژگی ها را پیدا می کنند. این منجر به اکتشافات شگفت انگیزی در مورد چگونگی تجزیه مدل ها مفاهیم انسانی می شود.

جوزف بلوم، سرپرست علم در Neuronpedia می‌گوید: «ویژگی مورد علاقه شخصی من ویژگی انقباض است. به نظر می رسد در نقد منفی متن و فیلم ظاهر می شود. این فقط یک مثال عالی از ردیابی چیزهایی است که در برخی سطوح بسیار انسانی هستند.»

می‌توانید مفاهیم را در Neuronpedia جستجو کنید و مشخص می‌کند که چه ویژگی‌هایی در نشانه‌ها یا کلمات خاص فعال می‌شوند و هر کدام با چه شدتی فعال می‌شوند.

بلوم می‌گوید:« اگر متن را بخوانید و ببینید چه چیزی با رنگ سبز مشخص شده است، در آن زمان است که مدل فکر می‌کند مفهوم انقباض بسیار مرتبط است. فعال‌ترین مثال برای cringe این است که کسی به شخص دیگری موعظه کند».

ردیابی برخی از ویژگی ها نسبت به سایرین آسان تر است. جانی لین، موسس Neuronpedia می گوید: «یکی از مهم ترین ویژگی هایی که می خواهید برای یک مدل پیدا کنید، فریب است. «پیدا کردن آن خیلی آسان نیست: «اوه، این ویژگی وجود دارد که وقتی به ما دروغ می‌گوید فعال می‌شود.» از آنچه من دیده‌ام، اینطور نبوده است که بتوانیم فریب را پیدا کنیم و آن را ممنوع کنیم.»

تحقیقات DeepMind مشابه کاری است که یک شرکت هوش مصنوعی دیگر به‌نام Anthropic، در ماه می با Golden Gate Claude انجام داد. از رمزگذارهای پراکنده خودکار برای یافتن بخش‌هایی از کلود، مدل آن‌ها، استفاده کرد که هنگام بحث درباره پل گلدن گیت در سانفرانسیسکو روشن می‌شد. سپس فعال‌سازی‌های مربوط به پل را تا جایی تقویت کرد که کلود به معنای واقعی کلمه نه به عنوان «کلود یک مدل هوش مصنوعی»، بلکه به عنوان پل فیزیکی گلدن گیت شناخته شد و به درخواست‌ها به عنوان پل پاسخ داد.

گرچه ممکن است عجیب به نظر برسد، اما تحقیقات تفسیرپذیری مکانیکی ممکن است بسیار مفید باشد.

باتسون می‌گوید: «این ویژگی‌ها به‌عنوان ابزاری برای درک اینکه چگونه مدل تعمیم می‌یابد و در چه سطحی از انتزاع کار می‌کند، واقعاً مفید هستند.

به عنوان مثال، تیمی به سرپرستی ساموئل مارکس که اکنون در Anthropic فعالیت می کند، از رمزگذارهای پراکنده خودکار برای یافتن ویژگی هایی استفاده کرد که نشان می داد یک مدل خاص، حرفه های خاصی را با یک جنسیت خاص مرتبط می کند. سپس این ویژگی‌های جنسیتی را برای کاهش تعصب در مدل خاموش کردند. این آزمایش بر روی یک مدل بسیار کوچک انجام شد، بنابراین مشخص نیست که آیا این کار برای یک مدل بسیار بزرگ‌تر نیز اعمال می‌شود یا خیر.

تحقیقات تفسیرپذیری مکانیکی همچنین می‌تواند به ما بینشی در مورد اینکه چرا هوش مصنوعی خطا می‌کند، بدهد. در مورد این ادعا که 9.11 بزرگتر از 9.8 است، محققان Transluce مشاهده کردند که این سوال بخش هایی از یک مدل هوش مصنوعی مربوط به آیات کتاب مقدس و 11 سپتامبر را ایجاد می کند. محققان به این نتیجه رسیدند که هوش مصنوعی می تواند اعداد را به عنوان تاریخ تفسیر کند. تاریخ بعدی، 11/9، بزرگتر از 9/8 است. و در بسیاری از کتاب‌ها مانند متون مذهبی، بخش 9.11 بعد از بخش 9.8 آمده است، به همین دلیل است که هوش مصنوعی آن را بزرگ‌تر می‌داند. زمانی که محققان متوجه شدند چرا هوش مصنوعی این خطا را مرتکب شده است، فعال‌سازی‌های هوش مصنوعی را بر روی آیات کتاب مقدس و 11 سپتامبر تنظیم کردند، که منجر به این شد که مدل زمانی که دوباره در مورد اینکه آیا 9.11 بزرگتر از 9.8 است، پاسخ صحیح را بدهد.

همچنین کاربردهای بالقوه دیگری نیز وجود دارد. در حال حاضر، یک اعلان در سطح سیستم در LLM ها تعبیه شده است تا با موقعیت هایی مانند کاربرانی که می پرسند چگونه یک بمب بسازند، مقابله کند. وقتی سوالی از ChatGPT می‌پرسید، ابتدا OpenAI به طور مخفیانه از مدل خواسته می‌شود تا از گفتن نحوه ساخت بمب یا انجام کارهای شرورانه به شما خودداری کند. اما برای کاربران آسان است که مدل‌های هوش مصنوعی را با اعلان‌های هوشمندانه، دور زدن هرگونه محدودیت، جیلبریک کنند.

اگر سازندگان مدل‌ها بتوانند ببینند دانش ساخت بمب در کجای یک هوش مصنوعی قرار دارد، از نظر تئوری می‌توانند آن گره‌ها را برای همیشه خاموش کنند. در این صورت حتی هوشمندانه‌ترین دستور نوشته شده نیز پاسخی در مورد چگونگی ساخت بمب نمی‌دهد، زیرا هوش مصنوعی به معنای واقعی کلمه هیچ اطلاعاتی در مورد نحوه ساخت بمب در سیستم خود ندارد.

تصور این نوع دانه بندی و کنترل دقیق آسان است اما دستیابی به آن با وضعیت فعلی قابلیت تفسیر مکانیکی بسیار دشوار است.

لین می‌گوید:« یک محدودیت این است که فرمان «تاثیرگذاری بر مدل از طریق تنظیم پارامترهای آن» به خوبی کار نمی‌کند، بنابراین وقتی برای کاهش خشونت در یک مدل هدایت می‌شوید، دانش آن در هنرهای رزمی کاملاً لوبوتومی‌سازی می‌شود. در فرمان باید اصلاحات زیادی انجام شود. برای مثال، دانش «ساخت بمب» فقط یک کلید روشن و خاموش ساده در یک مدل هوش مصنوعی نیست. به احتمال زیاد در چندین بخش از مدل بافته شده است و خاموش کردن آن احتمالاً دانش شیمی هوش مصنوعی را مختل می کند. هر گونه سرهم بندی ممکن است مزایایی داشته باشد اما در عین حال معاوضه های قابل توجهی نیز دارد.»

گفته می‌شود، اگر بتوانیم عمیق‌تر و واضح‌تر به «ذهن» هوش مصنوعی بپردازیم، DeepMind و دیگران امیدوارند که تفسیرپذیری مکانیکی می‌تواند نشان‌دهنده یک مسیر معقول برای هم‌ترازی باشد و فرآیند اطمینان از اینکه هوش مصنوعی واقعاً آنچه را که می‌خواهیم انجام می‌دهد. آن را انجام دهد.

تحلیل

هوش مصنوعی منجر به پیشرفت‌هایی در کشف دارو و رباتیک شده است و در حال تحول کامل در نحوه تعامل ما با ماشین‌ها و وب است

تیمی در Google DeepMind که چیزی به نام تفسیرپذیری مکانیکی را مطالعه می‌کند، روی روش‌های جدیدی کار می‌کند که به ما اجازه می‌دهد در زیر سرپوش نگاه کنیم؛ این تیم در پایان ژوئیه، Gemma Scope را منتشر کرد؛ ابزاری برای کمک به محققان برای درک آنچه اتفاق می افتد زمانی که AI در حال تولید یک خروجی است. تفسیرپذیری مکانیکی، همچنین به عنوان “مکانیک interp” شناخته می شود، یک زمینه تحقیقاتی جدید است که هدف آن درک نحوه عملکرد واقعی شبکه های عصبی است. DeepMind برای یافتن ویژگی‌ها یا دسته‌هایی از داده‌هایی که مفهوم بزرگ‌تری را نشان می‌دهند، در مدل هوش مصنوعی خود Gemma، ابزاری به نام «رمزگذار پراکنده خودکار» در هر یک از لایه‌های آن اجرا کرد. شما می توانید یک رمزگذار خودکار پراکنده را به عنوان یک میکروسکوپ در نظر بگیرید که روی آن لایه ها زوم می کند و به شما امکان می دهد جزئیات آنها را مشاهده کنید.

Avatar photo
درباره نویسنده

محمد بیاتی

نظر شما در مورد این مطلب چیه؟

ارسال دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

×