📌 چطور میتوان یک شبکه عصبی را مجبور کرد دادههایی را که دیگر دسترسی به آنها وجود ندارد، فراموش کند؟
فرض کنید تقاضایی مبنی بر حذف دادهها مطابق با GDPR یا قوانین کپیرایت دریافت کردهاید، اما دیگر به دیتاست اصلی که مدل روی آن آموزش دیده، دسترسی ندارید. بازآموزی مدل از صفر کاری زمانبر، پرهزینه و عملاً غیرممکن است.
برای چنین موقعیتهای بیراهحل، گروهی از پژوهشگران دانشگاه کالیفرنیا روشی برای «یادزدایی» (Unlearning) مدلها ارائه کردهاند که نیازی به دادههای اصلی ندارد، اما همچنان تضمینهای ریاضی سختگیرانهای برای حذف اطلاعات ارائه میدهد.
این روش بر پایهی استفاده از یک دیتاست جانشین (Surrogate Dataset) بنا شده است که فقط از نظر آماری شبیه به دیتاست اصلی است. ایدهی کلیدی، کالیبراسیون نویز تزریقشده به مدل است؛ میزان نویز مستقیماً به فاصلهی آماری (مثلاً واگرایی کولباک–لایبلر) بین توزیع اصلی و توزیع جانشین بستگی دارد.
به بیان ساده: هرچه دیتاست جانشین کمتر به دیتاست از دسترفته شباهت داشته باشد، باید نویز بیشتری به مدل اضافه کرد تا تضمین شود که مدل واقعاً دادههای ناخواسته را فراموش کرده و از نظر آماری غیرقابلتمایز از مدلی شود که از صفر بازآموزی شده است.
---
🟡 چطور میتوان این فاصله را بدون دسترسی به دیتاست اصلی اندازه گرفت؟
اینجا خود مدل وارد عمل میشود، چون به طور ضمنی اطلاعاتی دربارهی توزیع دادههای آموزشی در خود دارد. با استفاده از روش پویایی گرادیان تصادفی لانژون (Stochastic Gradient Langevin Dynamics) میتوان نمونههایی تولید کرد که توزیع اصلی را تقریب میزنند و سپس این توزیع با دیتاست جانشین مقایسه میشود.
---
🟡 آزمایشها و نتایج
روی دادههای مصنوعی، که KL-divergence دقیق قابل محاسبه است، روش Unlearn - عملکرد عالی داشت. با افزایش فاصلهی بین دیتاستها، دقت روی تست حدود 72.3 تا 72.7٪ باقی ماند؛ این رقم با روش Unlearn + (که به دادههای اصلی دسترسی دارد) تقریباً یکسان است.
روی دیتاستهای واقعی هم نتایج مشابه بود. برای CIFAR-10 با پارامتر تمرکز دیریکله=36، روش Unlearn - به دقت 76.4٪ رسید. برای مقایسه: Unlearn + به 76.5٪ و بازآموزی کامل به 76.7٪ رسید. تفاوتها ناچیز است.
متریک Forget Score (FS) نیز نشان داد که مدل یادزداییشده تقریباً همارز با مدلی است که از صفر بازآموزی شده است.
این روش روی معماریهای مختلف هم آزمایش شد. برای CIFAR-10 با مدلی شامل دو لایه کانولوشنی و یک لایه خطی، Unlearn - دقت 80.5٪ داشت، در حالی که نسخه با دسترسی به دادهها 81.4٪ بود.
در آزمایشی دیگر، برای مدلی روی دیتاست USPS از MNIST به عنوان دیتاست جانشین استفاده شد. روش Unlearn - دقت 90.4٪ گرفت، در حالی که Unlearn + به 91.3٪ و بازآموزی کامل به 91.1٪ رسید.
---
🟡 مقاله
https://arxiv.org/pdf/2506.06486
#AI #LLM #Unlearning #UCR
#اندیشکده_مطالعات_هوش_مصنوعی_فرهنگ_رسانه
#هوش_مصنوعی
┏━━💠┓
🆔 https://eitaa.com/nraimc
┗💠━━
⚡️مدل VaultGemma 1B؛ مدل زبانی متنباز گوگل با تضمین حفظ حریم خصوصی
گوگل AI و دیپمایند از مدل جدیدی به نام VaultGemma 1B رونمایی کردهاند؛ بزرگترین مدل زبانی متنباز با وزنهای آزاد که از ابتدا بهطور کامل با حفظ حریم خصوصی افتراقی (Differential Privacy) آموزش دیده است. این دستاورد گامی مهم در جهت ساخت مدلهایی است که هم قدرتمند هستند و هم امنیت دادههای شخصی را تضمین میکنند.
❓چرا حریم خصوصی افتراقی اهمیت دارد؟
مدلهای زبانی بزرگ معمولاً در معرض خطر بازتولید دادههای حساس یا شخصی هستند. حریم خصوصی افتراقی تضمین میکند که هیچ نمونهی آموزشی منفرد، اثر معناداری بر مدل نگذارد. VaultGemma از مرحلهی پیشآموزش تا انتها بهطور کامل بر این مبنا ساخته شده است.
⚙️ویژگیهای فنی VaultGemma
🔹اندازه: ۱ میلیارد پارامتر، ۲۶ لایه
🔹معماری: ترنسفورمر، فقط دیکودر
🔹توکنایزر: SentencePiece با واژگان ۲۵۶هزار تایی
🔹طول دنباله: ۱۰۲۴ توکن (برای کاهش هزینه و افزایش کارایی)
🔹فعالسازی: GeGLU
🔹توجه (Attention): چند-پرسوجو (MQA)
💽دادههای آموزشی
مدل با مجموعهای شامل ۱۳ تریلیون توکن (متون انگلیسی، کد و مقالات علمی) آموزش دیده است. دادهها پیش از آموزش فیلتر شدند تا محتوای ناامن و اطلاعات شخصی حذف شود.
🔒نحوهی اعمال حریم خصوصی افتراقی
استفاده از الگوریتم DP-SGD با برش گرادیان و افزودن نویز گاوسی
تضمین ریاضی: ε ≤ 2.0 , δ ≤ 1.1e-10 در سطح توالی ۱۰۲۴ توکنی
بهرهگیری از بهینهسازیهای محاسباتی برای مقیاسپذیری روی ۲۰۴۸ تراشه TPUv6e
💥عملکرد مدل
در مقایسه با مدلهای بدون حریم خصوصی، دقت پایینتر است (مثلاً در ARC-C: امتیاز ۲۶.۴۵ در برابر ۳۸.۳۱).
با این حال، آزمونها نشان دادند هیچ دادهی آموزشی از مدل نشت نمیکند، برخلاف نمونههای غیرخصوصی.
🔼جمعبندی
مدل VaultGemma 1B نشان میدهد که میتوان مدلهای زبانی بزرگ را با تضمینهای سختگیرانهی حریم خصوصی آموزش داد، بدون آنکه استفاده از آنها غیرعملی شود. هرچند هنوز فاصلهای در کیفیت با مدلهای غیرخصوصی وجود دارد، این کار بنیانی قوی برای آیندهی هوش مصنوعی امن، شفاف و حافظ حریم خصوصی فراهم میکند.
📝مقاله
https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf
مدل
https://huggingface.co/google/vaultgemma-1b
---
#اندیشکده_مطالعات_هوش_مصنوعی_فرهنگ_رسانه
#هوش_مصنوعی
┏━━💠┓
🆔 https://eitaa.com/nraimc
┗💠━━
🧠 پژوهشگران MIT ثابت کردند: مدلهای زبانی بزرگ (LLMها) میتوانند منطقورزی کنند، اگر درست آموزش ببینند.
📄 پژوهشگران روشی به نام PDDL-INSTRUCT ارائه دادهاند. این روش، آموزش مدل را از حالت «حدس زدن پاسخ» به حل گامبهگام مسائل با ارزیابی بیرونی تبدیل میکند.
🔹 مکانیزم کار:
1️⃣ در مرحله اول، به مدل برنامههای درست و غلط همراه با توضیح نشان داده میشود.
2️⃣ در مرحله دوم، مدل خودش برای هر گام استدلال مینویسد. سپس یک ابزار بیرونی (VAL) منطق آن را بررسی میکند. اگر خطایی باشد، مدل بازخورد دقیق و روشن دریافت میکند.
📊 نتایج:
🔸دقت مدل Llama-3-8B در مسائل برنامهریزی از ۲۸٪ به ۹۴٪ افزایش یافت.
🔸بازخورد جزئی و توضیحی، بسیار بهتر از پاسخ سادهی «درست/غلط» عمل میکند.
💡 نکته مهم: این روش جایگزین برنامهریز نمادین نمیشود، بلکه مدل را طوری آموزش میدهد که مانند او فکر کند، در حالی که همچنان ارزیابی بیرونی حفظ میشود.
⚡ چنین رویکردی را میتوان به هر مسئله چندمرحلهای تعمیم داد — از ریاضیات تا برنامهنویسی. شاید بسیاری از تواناییهای «غیرممکن» مدلها در واقع وجود دارند، اما منتظر روش آموزشی مناسباند.
🟠 مقاله:
https://arxiv.org/abs/2509.13351
#اندیشکده_مطالعات_هوش_مصنوعی_فرهنگ_رسانه
#هوش_مصنوعی
┏━━💠┓
🆔 https://eitaa.com/nraimc
┗💠━━
دوره کشوری
جلسه اول
🏢کارگروه رسانه استادان دانشگاه فرهنگیان گیلان با همکاری اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه برگزار می نماید:
🖋دوره توانمندسازی استادان دانشگاه ها
🗓جلسه اول کشوری:
کاربرد هوش مصنوعی در تدریس و یادگیری: رویکردی نوین برای اساتید
✍ویژه استادان دانشگاه های سراسر کشور
👨💻استاد: آقای دکتر رحیم کریمی
🔖رزومه آقای دکتر رحیم کریمی
🗓روز برگزاری جلسه اول: یک شنبه ۶ مهر
⏰ساعت برگزاری:۲۰:۳۰_۱۹
📲💻بستر برگزاری: برخط از طریق لینک
https://room.nahad.ir/ch/hamandishi
🔈🔈🔈🔈🔈🔈🔈🔈🔈
برای حضور مؤثر در کلاس آنلاین، بهتر است موارد زیر را آماده داشته باشید:
💻 رایانه یا لپتاپ (تلفن همراه هم قابل استفاده است، اما لپتاپ توصیه میشود). پیشنهاد میشود برای انجام تمرینات از دو وسیله استفاده کنید؛ یکی برای مشاهده، دیگری برای اجرای تمرینات ارائه شده.
🌐 اینترنت پایدار
📜صدور گواهی معتبر فرهنگی ۴ ساعته در صورت شرکت در هر دو جلسه برای اساتید
📲لینک کانال رسانه استادان دانشگاه فرهنگیان گیلان برای اطلاع رسانی و دریافت گواهی
https://eitaa.com/joinchat/2139096097Ccf7ee7a652
کانال راد(رسانه اختصاصی استادان دانشگاه ها)
https://eitaa.com/ostad_tv
هدایت شده از «نُها»
شبکه نوآوری و همافزایی اندیشکدههای استادان
سلسله نشست های تخصصی مجازی
شبکه اندیشکده های استادان کشور
🔍موضوع: «از مسئله یابی تا طراحی راه حل ها؛ اندیشکده ها موتور هوشمند حکمرانی»
🎙دکتر سامان یوسف وند
▪ عضور هیئت علمی دانشکده حکمرانی دانشگاه تهران
▪️مشاور ارشد مرکز پژوهش های مجلس شورای اسلامی
🗓چهارشنبه ۱۴۰۴/۰۷/۰۹
⏰ ۱۵:۳۰ الی ۱۷:۰۰
✨ارائه گواهی به شرکت کنندگان
🔻🔻🔻🔻🔻🔻🔻🔻🔻
جهت ورورد به نشست اینجا کلیک کنید.
🔺🔺🔺🔺🔺🔺🔺🔺🔺
🔶 «نُها»؛ شبکه نوآوری و هم افزایی اندیشکده های استادان
❔@tn_noha❔
هدایت شده از راد «رسانه استادان دانشگاه»
دوره کشوری
جلسه دوم
🏢کارگروه رسانه استادان دانشگاه فرهنگیان گیلان با همکاری اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه برگزار می نماید:
🖋دوره توانمندسازی استادان دانشگاه ها
🗓جلسه دوم کشوری:
معرفی و بکارگیری چت بات های آموزشی مبتنی بر هوش مصنوعی
✍ویژه استادان دانشگاه های سراسر کشور
👨💻استاد: آقای دکتر رحیم کریمی
🔖رزومه آقای دکتر رحیم کریمی
🗓روز برگزاری جلسه دوم : سه شنبه۸ مهر
⏰ساعت برگزاری:۲۰:۳۰_۱۹
📲💻بستر برگزاری: برخط از طریق لینک
https://room.nahad.ir/ch/hamandishi
🔈🔈🔈🔈🔈🔈🔈🔈🔈
برای حضور مؤثر در کلاس آنلاین، بهتر است موارد زیر را آماده داشته باشید:
💻 رایانه یا لپتاپ (تلفن همراه هم قابل استفاده است، اما لپتاپ توصیه میشود). پیشنهاد میشود برای انجام تمرینات از دو وسیله استفاده کنید؛ یکی برای مشاهده، دیگری برای اجرای تمرینات ارائه شده.
🌐 اینترنت پایدار
📜صدور گواهی معتبر فرهنگی ۴ ساعته در صورت شرکت در هر دو جلسه برای اساتید
کانال راد(رسانه اختصاصی استادان دانشگاه ها)
https://eitaa.com/ostad_tv
هدایت شده از راد «رسانه استادان دانشگاه»
دوره کشوری
جلسه دوم
🏢کارگروه رسانه استادان دانشگاه فرهنگیان گیلان با همکاری اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه برگزار می نماید:
🖋دوره توانمندسازی استادان دانشگاه ها
🗓جلسه دوم کشوری:
معرفی و بکارگیری چت بات های آموزشی مبتنی بر هوش مصنوعی
✍ویژه استادان دانشگاه های سراسر کشور
👨💻استاد: آقای دکتر رحیم کریمی
🔖رزومه آقای دکتر رحیم کریمی
🗓روز برگزاری جلسه دوم : سه شنبه۸ مهر
⏰ساعت برگزاری:۲۰:۳۰_۱۹
📲💻بستر برگزاری: برخط از طریق لینک
https://room.nahad.ir/ch/hamandishi
🔈🔈🔈🔈🔈🔈🔈🔈🔈
برای حضور مؤثر در کلاس آنلاین، بهتر است موارد زیر را آماده داشته باشید:
💻 رایانه یا لپتاپ (تلفن همراه هم قابل استفاده است، اما لپتاپ توصیه میشود). پیشنهاد میشود برای انجام تمرینات از دو وسیله استفاده کنید؛ یکی برای مشاهده، دیگری برای اجرای تمرینات ارائه شده.
🌐 اینترنت پایدار
📜صدور گواهی معتبر فرهنگی ۴ ساعته در صورت شرکت در هر دو جلسه برای اساتید
کانال راد(رسانه اختصاصی استادان دانشگاه ها)
https://eitaa.com/ostad_tv
هدایت شده از «نُها»
شبکه نوآوری و همافزایی اندیشکدههای استادان
سلسله نشست های تخصصی مجازی
شبکه اندیشکده های استادان کشور
🔍موضوع: «از مسئله یابی تا طراحی راه حل ها؛ اندیشکده ها موتور هوشمند حکمرانی»
🎙دکتر سامان یوسف وند
▪ عضور هیئت علمی دانشکده حکمرانی دانشگاه تهران
▪️مشاور ارشد مرکز پژوهش های مجلس شورای اسلامی
🗓چهارشنبه ۱۴۰۴/۰۷/۰۹
⏰ ۱۵:۳۰ الی ۱۷:۰۰
✨ارائه گواهی به شرکت کنندگان
🔻🔻🔻🔻🔻🔻🔻🔻🔻
جهت ورورد به نشست اینجا کلیک کنید.
🔺🔺🔺🔺🔺🔺🔺🔺🔺
🔶 «نُها»؛ شبکه نوآوری و هم افزایی اندیشکده های استادان
❔@tn_noha❔
👌مدل Qwen3-VL: قدرتمندترین مدل چندرسانهای از علیبابا
✨ بهروزرسانیهای کلیدی:
🧠 قابلیتهای هوشمند:
- به عنوان یک عامل بصری روی کامپیوتر و گوشیهای هوشمند کار میکند 🖥📱
- تولید کد از تصاویر (HTML/CSS/JS) 💻
- درک فضایی پیشرفته برای هوش مصنوعی و رباتیک 🤖
🎯 بهبودهای فنی:
- زمینه تا ۱ میلیون توکن 📚
- شناسایی همه چیز: افراد مشهور، انیمه، جاذبههای گردشگری 🌟
- قابلیت OCR به ۳۲ زبان، شامل نمادهای باستانی 🈯️
- نتایج عالی در علوم پایه و منطق 🧪
⚡️ معماری:
- معماری Interleaved-MRoPE برای تحلیل ویدئو 🎥
- معماری DeepStack برای درک دقیق تصاویر 🔍
- اتصال دقیق متن به نشانههای زمانی ⏱️
نسخههای Instruct و Thinking نیز در دسترس هستند! 🚀
🔗مدل
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
#AI #Qwen #VLM
#اندیشکده_مطالعات_هوش_مصنوعی_فرهنگ_رسانه
#هوش_مصنوعی
┏━━💠┓
🆔 https://eitaa.com/nraimc
┗💠━━
🔊 گوگل با معرفی رویکرد جدید «Speech-to-Retrieval (S2R)» مرزهای جستوجوی صوتی را جابهجا کرد
گوگل در تازهترین پژوهش خود، رویکردی نو به نام S2R (گفتار به بازیابی) معرفی کرده که مرحلهی تبدیل گفتار به متن (ASR) را کاملاً حذف میکند. در این روش، پرسوجوی گفتاری کاربر مستقیماً به یک بردار تعبیه صوتی (audio embedding) تبدیل میشود و سپس برای بازیابی اطلاعات به بردارهای اسناد تطبیق داده میشود.
🔹 نوآوری کلیدی:
در مدلهای قدیمی، مسیر جستوجو بهصورت زنجیرهای بود: گفتار 👈 متن 👈 بازیابی.
اما در S2R، گوگل از یک سیستم رمزگذار دوگانه (dual-encoder) استفاده کرده که مرحلهی متن را دور میزند و مستقیماً بین گفتار و اطلاعات پیوند برقرار میکند.
🌍 کاربرد در مقیاس جهانی:
این فناوری هماکنون در Voice Search چندزبانهی گوگل بهکار گرفته شده و ارزیابیها نشان میدهد که S2R از مدلهای کلاسیک مبتنی بر متن عملکرد بهتری دارد — حتی نزدیک به نتایجی که بر پایهی رونویسی انسانی تأییدشده بهدست میآیند.
📚 استانداردسازی پژوهش:
برای تسهیل پژوهش در این حوزه، گوگل دیتاست جدیدی به نام Simple Voice Questions (SVQ) را منتشر کرده که شامل ۱۷ زبان و ۲۶ ناحیهی زبانی است و بخشی از چارچوب Massive Sound Embedding Benchmark (MSEB) محسوب میشود.
🔗 تحلیل کامل:
MarkTechPost
🔬 جزئیات فنی:
Google Research Blog
#اندیشکده_مطالعات_هوش_مصنوعی_فرهنگ_رسانه
#هوش_مصنوعی
┏━━💠┓
🆔 https://eitaa.com/nraimc
┗💠━━
هدایت شده از «نُها»
شبکه نوآوری و همافزایی اندیشکدههای استادان
سلسله نشست های تخصصی مجازی
شبکه اندیشکده های استادان کشور
🔍موضوع: «مرجعیت علمی؛ چیستی، چرایی و چگونگی»
🎙دکتر ناصر باقری مقدم
▪ مدیر گروه سیاست فناوری و نوآوری موسسه تحقیقات سیاست علمی کشور
▪️قائم مقام سابق بنیاد ملی نخبگان
▪️رئیس اندیشکده مرجعیت علمی
🗓شنبه ۱۴۰۴/۰۷/۲۶
⏰ ۱۸:۳۰ الی ۲۰:۰۰
✨ارائه گواهی به شرکت کنندگان
🔻🔻🔻🔻🔻🔻🔻🔻🔻
جهت ورورد به نشست اینجا کلیک کنید.
🔺🔺🔺🔺🔺🔺🔺🔺🔺
🔶 «نُها»؛ شبکه نوآوری و هم افزایی اندیشکده های استادان
❔@tn_noha