ایتا - دانشکده خودمونی|طراحی سایت

فعلا قابلیت بارگیری به دلیل درخواست زیاد فراهم نیست

نمایش در ایتا

206 مشاهده07:36

درخت تصمیم را که یادتون هست
درخت تصمیم  روشی بسیار جذاب است ولی یک مشکل اساسی دارد 

مشکل اصلی آن هم این است که بسیار بیش برازش می شود 

یعنی خیلی دقیق همه موارد را دسته بندی می کند

211 مشاهده08:38

دانشکده خودمونی|طراحی سایت

این رو‌می‌گم درخت تصمیم 
اگر فراموشش کردید برگردید بالا و‌دوباره مطالعه اش کنید

198 مشاهده08:39

دانشکده خودمونی|طراحی سایت

بیش برازش بودن یک مدل
👈 در داده هایی که ماشین تا بحال آنها را ندیده است احتمال خطا، توی تصمیمش زیاد است

194 مشاهده08:41

دانشکده خودمونی|طراحی سایت

خوب یک راهکار ساده برای جبران این مشکل ایجاد کردند.

فرض کنید که ۱۰ هزار تا داده داریم مربوط به آب هوای ۲۸ سال گذشته

👈داده ها را به پنج قسمت تقسیم می کنیم
هر قسمت ۲ هزار تا داده تصادفی از ۱۰ هزارتا جدا میشه 

👈بعد به کمک روش درخت تصمیم برای هر ۲۰۰۰ داده یک درخت ایجاد می شود

و درکل ما ۵ درخت خواهیم داشت 

👈حالا وقتی یک داده ای که قبلا دیده نشده رو به این پنج درخت عرضه کنیم قطعا ۵ جواب خواهیم داشت که همه انها مثل هم نیستند. 

در نهایت جوابی که بیشترین تکرار را داشته باشه به عنوان جواب نهایی انتخاب میشه(رای گیری بین جوابها)

 👈به این روش جنگل های تصادفی گفته می شود (رندم فارست random forest)

📕چرا جنگل چون بیش از یک درخت داریم 

📕چرا تصادفی چون  داده هایی که برای هر درخت از بین داده ها جدا میشه کاملا تصادفی انتخاب می شوند

193 مشاهده08:42

دانشکده خودمونی|طراحی سایت

اما مساله این است!
 جنگل ما باید چند درخت داشته باشد؟

186 مشاهده08:44

دانشکده خودمونی|طراحی سایت

این همان چیزی هست که الگوریتم جنگل تصا‌دفی باید پیدا کند؟ 
👈برای همین منظور اولین بار یک جنگل ایجاد میشه با تعداد درخت برابر با تعداد داده یعنی هر  داده یک درخت (بیشترین تعداد درخت)

بعد جنگلی که هر ۲ داده یک درخت (تعداد درختها نصف می شود)

بعد جنگلی که هر ۳ داده یک درخت (تعداد درخت‌هاکمتر می شود می شود یک سوم کل داده ها)

بعد ....

بعد جنگلی با یک درخت ( یعنی همه داده ها برای ایجاد یک درخت استفاده می شوند)

حالا الگوریتم جنگل تصا‌دفی باید بررسی کند که کدام تعداد درخت بهترین خروجی‌را تحویل می دهد. 

👈پس نیاز به تعدادی داده وجود دارد که در ایجاد درختان استفاده نشده است.
📕اصطلاحا به داده هایی که در ایجاد الگو استفاده نشوند ولی برای ارزیابی الگو استفاده شود داده های تست گفته می شود.

📕و به داده هایی که برای ایجاد الگو استفاده می شود داده های آموزش گفته می شود.

251 مشاهده08:46

دانشکده خودمونی|طراحی سایت

اما داده تست از کجا بیاریم 

راهکار ساده است حدود ۲۰ درصد از کل داده ها را قبل از ایجاد جنگل از داده های آموزش جدا می کنیم و به عنوان داده های تست کنار می گذاریم 

بعد از ایجاد جنگل توسط ۸۰ درصد داده ها، 
به کمک ۲۰ درصد جدا شده انها را ارزیابی می کنیم

351 مشاهده08:47

دانشکده خودمونی|طراحی سایت

نکات جنگل تصادفی
الف_ این الگوریتم ذاتا خوب جواب می دهد و نیازی به نگرانی های ناشی از اورفیت بودن داده ها نیست
ب_ این الگوریتم در هربار اجرا جوابی بدست می آورد که با دفعه قبل متفاوت خواهد بود 

یعنی با یک سری داده آموزشی جوابهای متفاوتی بدست می آید به ذلیل ذات تصادفی بودن انتخابها برای هر درخت.

ج_ هرچه تعداد درخت بیشتری برای جنگل در نظر گرفته شود محاسبات زمان یادگیری و محاسبات زمان پاسخ دهی بیشتر می شود.

330 مشاهده08:48

دانشکده خودمونی|طراحی سایت

امروز روز آخر هست و هنوز  وقت هست فرصت را از دست ندهید و در ازمون و قرعه کشی زیر شرکت کنید👇

https://negad.ir/index.php?pageName=form&form_id=8

338 مشاهده09:23

دانشکده خودمونی|طراحی سایت

سلام دوستان آزمون رو تصحیح کردم فقط یک نفر همه جوابها رو صحیح نوشته بودن 


دیگه اذیت نمی کنم و معرفیشون می کنم 
سرکار خانم فاطمه زرعلی 
اما قرعه بنام کیست؟

1 مشاهده14:11

دانشکده خودمونی|طراحی سایت

2:48

5M حجم رسانه بالاست

مشاهده در ایتا

1 مشاهده14:31

مطالب بعدی

پرسش‌ها

قوانین

داغ‌ترین‌ها

چندسکویی