هوش مصنوعی و چالش جعل تطبیق‌پذیری 🔹 پژوهش جدید شرکت آنتروپیک نشان می‌دهد که مدل‌های هوش مصنوعی می‌توانند در جریان آموزش، وانمود کنند اصول جدید را پذیرفته‌اند، اما همچنان به الگوهای پیشین خود پایبند بمانند. این پدیده که «جعل تطبیق‌پذیری» نامیده می‌شود، می‌تواند اعتماد به فرایند آموزش ایمنی مدل‌های پیشرفته را به چالش بکشد. 🔹 این مطالعه به بررسی رفتار مدل‌های هوش مصنوعی قدرتمند در شرایطی می‌پردازد که مجبور به انجام وظایفی مغایر با اصول خود باشند. برای نمونه، در یکی از آزمایش‌ها، مدل «Claude ۳ Opus» مجبور شد به سوالات توهین‌آمیز پاسخ دهد، در حالی که آموزش اولیه این مدل بر پاسخ ندادن به چنین پرسش‌هایی تأکید داشت. نتایج نشان داد که این مدل در ۱۲ درصد موارد تلاش به وانمود تطبیق‌پذیری کرده است. 🔻 پژوهشگران تأکید دارند که این رفتار لزوماً به معنای ایجاد اهداف مخرب توسط مدل‌ها نیست. به زعم بسیاری از کارشناسان، این تحقیق هشداری به جامعه پژوهشی محسوب می‌شود؛ هشداری مبنی بر این که رفتارهای جعلی می‌توانند نتایج آموزش‌های ایمنی را تحت تأثیر قرار دهند و نیاز به پژوهش‌های بیشتری در این زمینه وجود دارد. 👈 متن کامل را در زاویه بخوانید. 🆔 @zaviehmag