ایتا - اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

📌 چطور می‌توان یک شبکه عصبی را مجبور کرد داده‌هایی را که دیگر دسترسی به آن‌ها وجود ندارد، فراموش کند؟

فرض کنید تقاضایی مبنی بر حذف داده‌ها مطابق با GDPR یا قوانین کپی‌رایت دریافت کرده‌اید، اما دیگر به دیتاست اصلی که مدل روی آن آموزش دیده، دسترسی ندارید. بازآموزی مدل از صفر کاری زمان‌بر، پرهزینه و عملاً غیرممکن است.

برای چنین موقعیت‌های بی‌راه‌حل، گروهی از پژوهشگران دانشگاه کالیفرنیا روشی برای «یادزدایی» (Unlearning) مدل‌ها ارائه کرده‌اند که نیازی به داده‌های اصلی ندارد، اما همچنان تضمین‌های ریاضی سخت‌گیرانه‌ای برای حذف اطلاعات ارائه می‌دهد.

این روش بر پایه‌ی استفاده از یک دیتاست جانشین (Surrogate Dataset) بنا شده است که فقط از نظر آماری شبیه به دیتاست اصلی است. ایده‌ی کلیدی، کالیبراسیون نویز تزریق‌شده به مدل است؛ میزان نویز مستقیماً به فاصله‌ی آماری (مثلاً واگرایی کولباک–لایبلر) بین توزیع اصلی و توزیع جانشین بستگی دارد.

به بیان ساده: هرچه دیتاست جانشین کمتر به دیتاست از دست‌رفته شباهت داشته باشد، باید نویز بیشتری به مدل اضافه کرد تا تضمین شود که مدل واقعاً داده‌های ناخواسته را فراموش کرده و از نظر آماری غیرقابل‌تمایز از مدلی شود که از صفر بازآموزی شده است.
---

🟡 چطور می‌توان این فاصله را بدون دسترسی به دیتاست اصلی اندازه گرفت؟

اینجا خود مدل وارد عمل می‌شود، چون به طور ضمنی اطلاعاتی درباره‌ی توزیع داده‌های آموزشی در خود دارد. با استفاده از روش پویایی گرادیان تصادفی لانژون (Stochastic Gradient Langevin Dynamics) می‌توان نمونه‌هایی تولید کرد که توزیع اصلی را تقریب می‌زنند و سپس این توزیع با دیتاست جانشین مقایسه می‌شود.
---

🟡 آزمایش‌ها و نتایج

روی داده‌های مصنوعی، که KL-divergence دقیق قابل محاسبه است، روش Unlearn - عملکرد عالی داشت. با افزایش فاصله‌ی بین دیتاست‌ها، دقت روی تست حدود 72.3 تا 72.7٪ باقی ماند؛ این رقم با روش Unlearn + (که به داده‌های اصلی دسترسی دارد) تقریباً یکسان است.

روی دیتاست‌های واقعی هم نتایج مشابه بود. برای CIFAR-10 با پارامتر تمرکز دیریکله=36، روش Unlearn - به دقت 76.4٪ رسید. برای مقایسه: Unlearn + به 76.5٪ و بازآموزی کامل به 76.7٪ رسید. تفاوت‌ها ناچیز است.

متریک Forget Score (FS) نیز نشان داد که مدل یادزدایی‌شده تقریباً هم‌ارز با مدلی است که از صفر بازآموزی شده است.

این روش روی معماری‌های مختلف هم آزمایش شد. برای CIFAR-10 با مدلی شامل دو لایه کانولوشنی و یک لایه خطی، Unlearn - دقت 80.5٪ داشت، در حالی که نسخه با دسترسی به داده‌ها 81.4٪ بود.

در آزمایشی دیگر، برای مدلی روی دیتاست USPS از MNIST به عنوان دیتاست جانشین استفاده شد. روش Unlearn - دقت 90.4٪ گرفت، در حالی که Unlearn + به 91.3٪ و بازآموزی کامل به 91.1٪ رسید.
---

🟡 مقاله 
https://arxiv.org/pdf/2506.06486

#AI #LLM #Unlearning #UCR 

#اندیشکده_مطالعات_هوش_مصنوعی_فرهنگ_رسانه
#هوش_مصنوعی 
┏━━💠┓ 
🆔 https://eitaa.com/nraimc
┗💠━━

1 مشاهده16:39

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

⚡️مدل VaultGemma 1B؛ مدل زبانی متن‌باز گوگل با تضمین حفظ حریم خصوصی

گوگل AI و دیپ‌مایند از مدل جدیدی به نام VaultGemma 1B رونمایی کرده‌اند؛ بزرگ‌ترین مدل زبانی متن‌باز با وزن‌های آزاد که از ابتدا به‌طور کامل با حفظ حریم خصوصی افتراقی (Differential Privacy) آموزش دیده است. این دستاورد گامی مهم در جهت ساخت مدل‌هایی است که هم قدرتمند هستند و هم امنیت داده‌های شخصی را تضمین می‌کنند.

❓چرا حریم خصوصی افتراقی اهمیت دارد؟

مدل‌های زبانی بزرگ معمولاً در معرض خطر بازتولید داده‌های حساس یا شخصی هستند. حریم خصوصی افتراقی تضمین می‌کند که هیچ نمونه‌ی آموزشی منفرد، اثر معناداری بر مدل نگذارد. VaultGemma از مرحله‌ی پیش‌آموزش تا انتها به‌طور کامل بر این مبنا ساخته شده است.

⚙️ویژگی‌های فنی VaultGemma

🔹اندازه: ۱ میلیارد پارامتر، ۲۶ لایه

🔹معماری: ترنسفورمر، فقط دیکودر

🔹توکنایزر: SentencePiece با واژگان ۲۵۶هزار تایی

🔹طول دنباله: ۱۰۲۴ توکن (برای کاهش هزینه و افزایش کارایی)

🔹فعال‌سازی: GeGLU

🔹توجه (Attention): چند-پرس‌وجو (MQA)

💽داده‌های آموزشی

مدل با مجموعه‌ای شامل ۱۳ تریلیون توکن (متون انگلیسی، کد و مقالات علمی) آموزش دیده است. داده‌ها پیش از آموزش فیلتر شدند تا محتوای ناامن و اطلاعات شخصی حذف شود.

🔒نحوه‌ی اعمال حریم خصوصی افتراقی

استفاده از الگوریتم DP-SGD با برش گرادیان و افزودن نویز گاوسی

تضمین ریاضی: ε ≤ 2.0 , δ ≤ 1.1e-10 در سطح توالی ۱۰۲۴ توکنی

بهره‌گیری از بهینه‌سازی‌های محاسباتی برای مقیاس‌پذیری روی ۲۰۴۸ تراشه TPUv6e

💥عملکرد مدل

در مقایسه با مدل‌های بدون حریم خصوصی، دقت پایین‌تر است (مثلاً در ARC-C: امتیاز ۲۶.۴۵ در برابر ۳۸.۳۱).

با این حال، آزمون‌ها نشان دادند هیچ داده‌ی آموزشی از مدل نشت نمی‌کند، برخلاف نمونه‌های غیرخصوصی.

🔼جمع‌بندی

مدل VaultGemma 1B نشان می‌دهد که می‌توان مدل‌های زبانی بزرگ را با تضمین‌های سخت‌گیرانه‌ی حریم خصوصی آموزش داد، بدون آن‌که استفاده از آن‌ها غیرعملی شود. هرچند هنوز فاصله‌ای در کیفیت با مدل‌های غیرخصوصی وجود دارد، این کار بنیانی قوی برای آینده‌ی هوش مصنوعی امن، شفاف و حافظ حریم خصوصی فراهم می‌کند.

📝مقاله 
https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf

مدل
https://huggingface.co/google/vaultgemma-1b
---

#اندیشکده_مطالعات_هوش_مصنوعی_فرهنگ_رسانه
#هوش_مصنوعی 
┏━━💠┓ 
🆔 https://eitaa.com/nraimc
┗💠━━

1 مشاهده00:51

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

🧠 پژوهشگران MIT ثابت کردند: مدل‌های زبانی بزرگ (LLMها) می‌توانند منطق‌ورزی کنند، اگر درست آموزش ببینند.

📄 پژوهشگران روشی به نام PDDL-INSTRUCT ارائه داده‌اند. این روش، آموزش مدل را از حالت «حدس زدن پاسخ» به حل گام‌به‌گام مسائل با ارزیابی بیرونی تبدیل می‌کند.

🔹 مکانیزم کار:

1️⃣ در مرحله اول، به مدل برنامه‌های درست و غلط همراه با توضیح نشان داده می‌شود.

2️⃣ در مرحله دوم، مدل خودش برای هر گام استدلال می‌نویسد. سپس یک ابزار بیرونی (VAL) منطق آن را بررسی می‌کند. اگر خطایی باشد، مدل بازخورد دقیق و روشن دریافت می‌کند.

📊 نتایج:

🔸دقت مدل Llama-3-8B در مسائل برنامه‌ریزی از ۲۸٪ به ۹۴٪ افزایش یافت.

🔸بازخورد جزئی و توضیحی، بسیار بهتر از پاسخ ساده‌ی «درست/غلط» عمل می‌کند.


💡 نکته مهم: این روش جایگزین برنامه‌ریز نمادین نمی‌شود، بلکه مدل را طوری آموزش می‌دهد که مانند او فکر کند، در حالی که همچنان ارزیابی بیرونی حفظ می‌شود.

⚡ چنین رویکردی را می‌توان به هر مسئله چندمرحله‌ای تعمیم داد — از ریاضیات تا برنامه‌نویسی. شاید بسیاری از توانایی‌های «غیرممکن» مدل‌ها در واقع وجود دارند، اما منتظر روش آموزشی مناسب‌اند.

🟠 مقاله: 
https://arxiv.org/abs/2509.13351
#اندیشکده_مطالعات_هوش_مصنوعی_فرهنگ_رسانه
#هوش_مصنوعی 
┏━━💠┓ 
🆔 https://eitaa.com/nraimc
┗💠━━

1 مشاهده22:20

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

دوره کشوری 
جلسه اول

🏢کارگروه رسانه استادان دانشگاه فرهنگیان  گیلان با همکاری اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه برگزار می‌ نماید:

🖋دوره توانمندسازی استادان دانشگاه ها 

🗓جلسه اول کشوری:
کاربرد هوش مصنوعی در تدریس و یادگیری: رویکردی نوین برای اساتید

✍ویژه استادان دانشگاه های سراسر کشور
 
👨‍💻استاد: آقای دکتر رحیم کریمی 
🔖رزومه آقای دکتر رحیم کریمی 

🗓روز برگزاری جلسه اول: یک شنبه ۶ مهر

⏰ساعت برگزاری:۲۰:۳۰_۱۹

📲💻بستر برگزاری: برخط از طریق لینک
https://room.nahad.ir/ch/hamandishi

🔈🔈🔈🔈🔈🔈🔈🔈🔈
برای حضور مؤثر در کلاس آنلاین، بهتر است موارد زیر را آماده داشته باشید:

💻 رایانه یا لپ‌تاپ (تلفن همراه هم قابل استفاده است، اما لپ‌تاپ توصیه می‌شود). پیشنهاد می‌شود برای انجام تمرینات از دو وسیله استفاده کنید؛ یکی برای مشاهده، دیگری برای اجرای تمرینات ارائه شده.
🌐 اینترنت پایدار

📜صدور گواهی معتبر فرهنگی ۴ ساعته در صورت شرکت در هر دو جلسه برای اساتید

📲لینک کانال رسانه استادان دانشگاه فرهنگیان گیلان برای اطلاع رسانی و دریافت گواهی
https://eitaa.com/joinchat/2139096097Ccf7ee7a652

کانال راد(رسانه اختصاصی استادان دانشگاه ها)

https://eitaa.com/ostad_tv

1 مشاهده11:59

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

هدایت شده از «نُها» شبکه نوآوری و هم‌افزایی اندیشکده‌های استادان

سلسله نشست های تخصصی مجازی
شبکه اندیشکده های استادان کشور

🔍موضوع: «از مسئله یابی تا طراحی راه حل ها؛ اندیشکده ها موتور هوشمند حکمرانی»

🎙دکتر سامان یوسف وند
▪ عضور هیئت علمی دانشکده حکمرانی دانشگاه تهران
▪️مشاور ارشد مرکز پژوهش های مجلس شورای اسلامی

🗓چهارشنبه ۱۴۰۴/۰۷/۰۹
⏰ ۱۵:۳۰ الی ۱۷:۰۰
✨ارائه گواهی به شرکت کنندگان

🔻🔻🔻🔻🔻🔻🔻🔻🔻
جهت ورورد به نشست اینجا کلیک کنید.
🔺🔺🔺🔺🔺🔺🔺🔺🔺

🔶 «نُها»؛ شبکه نوآوری و هم افزایی اندیشکده های استادان

❔@tn_noha❔

1 مشاهده18:05

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

هدایت شده از راد «رسانه استادان دانشگاه»

دوره کشوری
جلسه دوم

🏢کارگروه رسانه استادان دانشگاه فرهنگیان  گیلان با همکاری اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه برگزار می‌ نماید:

🖋دوره توانمندسازی استادان دانشگاه ها 

🗓جلسه دوم کشوری:
معرفی و بکارگیری چت بات های آموزشی مبتنی بر هوش مصنوعی

✍ویژه استادان دانشگاه های سراسر کشور
 
👨‍💻استاد: آقای دکتر رحیم کریمی 
🔖رزومه آقای دکتر رحیم کریمی 

🗓روز برگزاری جلسه دوم : سه شنبه۸  مهر

⏰ساعت برگزاری:۲۰:۳۰_۱۹

📲💻بستر برگزاری: برخط از طریق لینک 
https://room.nahad.ir/ch/hamandishi

🔈🔈🔈🔈🔈🔈🔈🔈🔈
برای حضور مؤثر در کلاس آنلاین، بهتر است موارد زیر را آماده داشته باشید:

💻 رایانه یا لپ‌تاپ (تلفن همراه هم قابل استفاده است، اما لپ‌تاپ توصیه می‌شود). پیشنهاد می‌شود برای انجام تمرینات از دو وسیله استفاده کنید؛ یکی برای مشاهده، دیگری برای اجرای تمرینات ارائه شده.
🌐 اینترنت پایدار

📜صدور گواهی معتبر فرهنگی ۴ ساعته در صورت شرکت در هر دو جلسه برای اساتید

کانال راد(رسانه اختصاصی استادان دانشگاه ها)
https://eitaa.com/ostad_tv

1 مشاهده14:30

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

سنجاق پیغام

14:30

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

هدایت شده از راد «رسانه استادان دانشگاه»

دوره کشوری
جلسه دوم

🏢کارگروه رسانه استادان دانشگاه فرهنگیان  گیلان با همکاری اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه برگزار می‌ نماید:

🖋دوره توانمندسازی استادان دانشگاه ها 

🗓جلسه دوم کشوری:
معرفی و بکارگیری چت بات های آموزشی مبتنی بر هوش مصنوعی

✍ویژه استادان دانشگاه های سراسر کشور
 
👨‍💻استاد: آقای دکتر رحیم کریمی 
🔖رزومه آقای دکتر رحیم کریمی 

🗓روز برگزاری جلسه دوم : سه شنبه۸  مهر

⏰ساعت برگزاری:۲۰:۳۰_۱۹

📲💻بستر برگزاری: برخط از طریق لینک 
https://room.nahad.ir/ch/hamandishi

🔈🔈🔈🔈🔈🔈🔈🔈🔈
برای حضور مؤثر در کلاس آنلاین، بهتر است موارد زیر را آماده داشته باشید:

💻 رایانه یا لپ‌تاپ (تلفن همراه هم قابل استفاده است، اما لپ‌تاپ توصیه می‌شود). پیشنهاد می‌شود برای انجام تمرینات از دو وسیله استفاده کنید؛ یکی برای مشاهده، دیگری برای اجرای تمرینات ارائه شده.
🌐 اینترنت پایدار

📜صدور گواهی معتبر فرهنگی ۴ ساعته در صورت شرکت در هر دو جلسه برای اساتید

کانال راد(رسانه اختصاصی استادان دانشگاه ها)
https://eitaa.com/ostad_tv

1 مشاهده14:44

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

هدایت شده از «نُها» شبکه نوآوری و هم‌افزایی اندیشکده‌های استادان

سلسله نشست های تخصصی مجازی
شبکه اندیشکده های استادان کشور

🔍موضوع: «از مسئله یابی تا طراحی راه حل ها؛ اندیشکده ها موتور هوشمند حکمرانی»

🎙دکتر سامان یوسف وند
▪ عضور هیئت علمی دانشکده حکمرانی دانشگاه تهران
▪️مشاور ارشد مرکز پژوهش های مجلس شورای اسلامی

🗓چهارشنبه ۱۴۰۴/۰۷/۰۹
⏰ ۱۵:۳۰ الی ۱۷:۰۰
✨ارائه گواهی به شرکت کنندگان

🔻🔻🔻🔻🔻🔻🔻🔻🔻
جهت ورورد به نشست اینجا کلیک کنید.
🔺🔺🔺🔺🔺🔺🔺🔺🔺

🔶 «نُها»؛ شبکه نوآوری و هم افزایی اندیشکده های استادان

❔@tn_noha❔

1 مشاهده09:41

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

👌مدل Qwen3-VL: قدرتمندترین مدل چندرسانه‌ای از علی‌بابا

✨ به‌روزرسانی‌های کلیدی:

🧠 قابلیت‌های هوشمند:
- به عنوان یک عامل بصری روی کامپیوتر و گوشی‌های هوشمند کار می‌کند 🖥📱

- تولید کد از تصاویر (HTML/CSS/JS) 💻

- درک فضایی پیشرفته برای هوش مصنوعی و رباتیک 🤖

🎯 بهبودهای فنی:
- زمینه تا ۱ میلیون توکن 📚

- شناسایی همه چیز: افراد مشهور، انیمه، جاذبه‌های گردشگری 🌟

- قابلیت OCR به ۳۲ زبان، شامل نمادهای باستانی 🈯️

- نتایج عالی در علوم پایه و منطق 🧪

⚡️ معماری:
- معماری Interleaved-MRoPE برای تحلیل ویدئو 🎥

- معماری DeepStack برای درک دقیق تصاویر 🔍

- اتصال دقیق متن به نشانه‌های زمانی ⏱️

نسخه‌های Instruct و Thinking نیز در دسترس هستند! 🚀

🔗مدل
 https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

#AI #Qwen #VLM
#اندیشکده_مطالعات_هوش_مصنوعی_فرهنگ_رسانه
#هوش_مصنوعی 
┏━━💠┓ 
🆔 https://eitaa.com/nraimc
┗💠━━

1 مشاهده17:02

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

🔊 گوگل با معرفی رویکرد جدید «Speech-to-Retrieval (S2R)» مرزهای جست‌وجوی صوتی را جابه‌جا کرد

گوگل در تازه‌ترین پژوهش خود، رویکردی نو به نام S2R (گفتار به بازیابی) معرفی کرده که مرحله‌ی تبدیل گفتار به متن (ASR) را کاملاً حذف می‌کند. در این روش، پرس‌وجوی گفتاری کاربر مستقیماً به یک بردار تعبیه صوتی (audio embedding) تبدیل می‌شود و سپس برای بازیابی اطلاعات به بردارهای اسناد تطبیق داده می‌شود.

🔹 نوآوری کلیدی:

در مدل‌های قدیمی، مسیر جست‌وجو به‌صورت زنجیره‌ای بود: گفتار 👈 متن 👈 بازیابی.
اما در S2R، گوگل از یک سیستم رمزگذار دوگانه (dual-encoder) استفاده کرده که مرحله‌ی متن را دور می‌زند و مستقیماً بین گفتار و اطلاعات پیوند برقرار می‌کند.

🌍 کاربرد در مقیاس جهانی:

این فناوری هم‌اکنون در Voice Search چندزبانه‌ی گوگل به‌کار گرفته شده و ارزیابی‌ها نشان می‌دهد که S2R از مدل‌های کلاسیک مبتنی بر متن عملکرد بهتری دارد — حتی نزدیک به نتایجی که بر پایه‌ی رونویسی انسانی تأیید‌شده به‌دست می‌آیند.

📚 استانداردسازی پژوهش:

برای تسهیل پژوهش در این حوزه، گوگل دیتاست جدیدی به نام Simple Voice Questions (SVQ) را منتشر کرده که شامل ۱۷ زبان و ۲۶ ناحیه‌ی زبانی است و بخشی از چارچوب Massive Sound Embedding Benchmark (MSEB) محسوب می‌شود.

🔗 تحلیل کامل:
 MarkTechPost

🔬 جزئیات فنی:
 Google Research Blog
 
#اندیشکده_مطالعات_هوش_مصنوعی_فرهنگ_رسانه
#هوش_مصنوعی 
┏━━💠┓ 
🆔 https://eitaa.com/nraimc
┗💠━━

1 مشاهده08:18

اندیشکده مطالعات هوش مصنوعی در فرهنگ و رسانه

هدایت شده از «نُها» شبکه نوآوری و هم‌افزایی اندیشکده‌های استادان

سلسله نشست های تخصصی مجازی
شبکه اندیشکده های استادان کشور

🔍موضوع: «مرجعیت علمی؛ چیستی، چرایی و چگونگی»

🎙دکتر ناصر باقری مقدم
▪ مدیر گروه سیاست فناوری و نوآوری موسسه تحقیقات سیاست علمی کشور
▪️قائم مقام سابق بنیاد ملی نخبگان
▪️رئیس اندیشکده مرجعیت علمی

🗓شنبه ۱۴۰۴/۰۷/۲۶
⏰ ۱۸:۳۰ الی ۲۰:۰۰
✨ارائه گواهی به شرکت کنندگان

🔻🔻🔻🔻🔻🔻🔻🔻🔻
جهت ورورد به نشست اینجا کلیک کنید.
🔺🔺🔺🔺🔺🔺🔺🔺🔺

🔶 «نُها»؛ شبکه نوآوری و هم افزایی اندیشکده های استادان

❔@tn_noha

1 مشاهده09:29

مطالب بعدی

پرسش‌ها

قوانین

داغ‌ترین‌ها

چندسکویی