هوش مصنوعی در آزمایشها از کنترل محققان خارج شد
محققان هوش مصنوعی دریافتند که تکنیکهای آموزش ایمنی پرکاربرد در حذف رفتار مخرب از مدلهای زبان بزرگ شکست خورده و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرکهای خود را بشناسد و رفتار بد خود را بهتر از محققان پنهان کند.
http://fna.ir/3hnze9