درخت تصمیم را که یادتون هست
درخت تصمیم روشی بسیار جذاب است ولی یک مشکل اساسی دارد
مشکل اصلی آن هم این است که بسیار بیش برازش می شود
یعنی خیلی دقیق همه موارد را دسته بندی می کند
بیش برازش بودن یک مدل
👈 در داده هایی که ماشین تا بحال آنها را ندیده است احتمال خطا، توی تصمیمش زیاد است
خوب یک راهکار ساده برای جبران این مشکل ایجاد کردند.
فرض کنید که ۱۰ هزار تا داده داریم مربوط به آب هوای ۲۸ سال گذشته
👈داده ها را به پنج قسمت تقسیم می کنیم
هر قسمت ۲ هزار تا داده تصادفی از ۱۰ هزارتا جدا میشه
👈بعد به کمک روش درخت تصمیم برای هر ۲۰۰۰ داده یک درخت ایجاد می شود
و درکل ما ۵ درخت خواهیم داشت
👈حالا وقتی یک داده ای که قبلا دیده نشده رو به این پنج درخت عرضه کنیم قطعا ۵ جواب خواهیم داشت که همه انها مثل هم نیستند.
در نهایت جوابی که بیشترین تکرار را داشته باشه به عنوان جواب نهایی انتخاب میشه(رای گیری بین جوابها)
👈به این روش جنگل های تصادفی گفته می شود (رندم فارست random forest)
📕چرا جنگل چون بیش از یک درخت داریم
📕چرا تصادفی چون داده هایی که برای هر درخت از بین داده ها جدا میشه کاملا تصادفی انتخاب می شوند
این همان چیزی هست که الگوریتم جنگل تصادفی باید پیدا کند؟
👈برای همین منظور اولین بار یک جنگل ایجاد میشه با تعداد درخت برابر با تعداد داده یعنی هر داده یک درخت (بیشترین تعداد درخت)
بعد جنگلی که هر ۲ داده یک درخت (تعداد درختها نصف می شود)
بعد جنگلی که هر ۳ داده یک درخت (تعداد درختهاکمتر می شود می شود یک سوم کل داده ها)
بعد ....
بعد جنگلی با یک درخت ( یعنی همه داده ها برای ایجاد یک درخت استفاده می شوند)
حالا الگوریتم جنگل تصادفی باید بررسی کند که کدام تعداد درخت بهترین خروجیرا تحویل می دهد.
👈پس نیاز به تعدادی داده وجود دارد که در ایجاد درختان استفاده نشده است.
📕اصطلاحا به داده هایی که در ایجاد الگو استفاده نشوند ولی برای ارزیابی الگو استفاده شود داده های تست گفته می شود.
📕و به داده هایی که برای ایجاد الگو استفاده می شود داده های آموزش گفته می شود.
اما داده تست از کجا بیاریم
راهکار ساده است حدود ۲۰ درصد از کل داده ها را قبل از ایجاد جنگل از داده های آموزش جدا می کنیم و به عنوان داده های تست کنار می گذاریم
بعد از ایجاد جنگل توسط ۸۰ درصد داده ها،
به کمک ۲۰ درصد جدا شده انها را ارزیابی می کنیم
نکات جنگل تصادفی
الف_ این الگوریتم ذاتا خوب جواب می دهد و نیازی به نگرانی های ناشی از اورفیت بودن داده ها نیست
ب_ این الگوریتم در هربار اجرا جوابی بدست می آورد که با دفعه قبل متفاوت خواهد بود
یعنی با یک سری داده آموزشی جوابهای متفاوتی بدست می آید به ذلیل ذات تصادفی بودن انتخابها برای هر درخت.
ج_ هرچه تعداد درخت بیشتری برای جنگل در نظر گرفته شود محاسبات زمان یادگیری و محاسبات زمان پاسخ دهی بیشتر می شود.
امروز روز آخر هست و هنوز وقت هست فرصت را از دست ندهید و در ازمون و قرعه کشی زیر شرکت کنید👇
https://negad.ir/index.php?pageName=form&form_id=8
سلام دوستان آزمون رو تصحیح کردم فقط یک نفر همه جوابها رو صحیح نوشته بودن
دیگه اذیت نمی کنم و معرفیشون می کنم
سرکار خانم فاطمه زرعلی
اما قرعه بنام کیست؟