کسب اطلاعات (درخت تصمیم)
در نظریه اطلاعات و یادگیری ماشین، کسب اطلاعات (به انگلیسی: information gain) مترادف واگرایی کولبک-لیبلر است؛ یعنی میزان اطلاعات کسبشده درباره یک متغیر تصادفی یا سیگنال از مشاهده متغیر تصادفی دیگر. با این حال، در زمینه درختهای تصمیمگیری، این اصطلاح مترادف با اطلاعات متقابل است، که مقدار انتظاری شرطی واگرایی کولبک-لیبلر از توزیع احتمال تکمتغیره از یک متغیر از توزیع شرطی این متغیر با شرط اینکه دیگری داده شود.
کسب اطلاعات یک متغیر تصادفی X که از مشاهده یک متغیر تصادفی A وقتیکه مقدار را میگیرد به صورت
مقدار انتظاری کسب اطلاعات برابر اطلاعات متقابل از X و A است، یعنی کاهش انتروپی X که توسط یادگیری حالت متغیر تصادفی A به دست میآید.
در یادگیری ماشین، از این مفهوم برای تعریف ترتیب ترجیحی ویژگیها برای بررسی سریعترین روش کاهش حالت X است. چنین ترتیبی (که بستگی به بررسی ویژگیهای قبلی در هر مرحله دارد) یک درخت تصمیم نامیده میشود، و در حوزه یادگیری ماشین که یادگیری درخت تصمیم نامیده میشود، اعمال میشود. معمولا ویژگی با اطلاعات متقابل بالا باید به دیگر ویژگیها ترجیح داده شود.[چرا؟]
تعریف عمومی[ویرایش]
به صورت عام، کسب اطلاعات انتظاری برابر کاهش انتروپی اطلاعات Η از یک حالت پیشین به یک حالت است که اطلاعاتی گرفته است، به این صورت:
که در آن برابر انتروپی شرطی موقعی است که مقدار ویژگی را داشته باشیم.
این موضوع به صورت بدیهی موقعی قابل قبول است که انتروپی Η به صورت مقدار عدمقطعیت یک متغیر تصادفی تفسیر شود: با یادگیری (یا فرض) درباره ، عدمقطعیت ما درباره کاهش مییابد (یعنی مثبت است)، مگر آنکه مستقل از باشد که در این حالت، است، یعنی است.
تعریف صوری[ویرایش]
فرض کنید که T به یک مجموعه از مثالهای آموزشی اشاره کند، که هر کدام حالت را دارد که در آن برابر مقدار ویژگی با ویژگی مثال و y برابر برچسب کلاس متناظر است. میزان کسب اطلاعات یک ویژگی a به صورت انتروپی شانون به این صورت تعریف میشود. برای یک مقدار v که ویژگی a آن را گرفته است، فرض کنید که
اطلاعات متقابل برابر انتروپی کلی برای یک ویژگی است اگر برای هرکدام از مقادیر ویژگی یک طبقهبندی یکتا برای ویژگی نتیجه شده قابل ساخت باشد. در این حالت، انتروپیهای نسبی که از انتروپی کلی کم میشود برابر 0 است. بخصوص، مقادیر یک افراز از دادههای مجموعه آموزشی T به زیرمجموعههای متقابل انحصاری و کامل شاملشونده است، که یک توزیع احتمالی طبقهای را روی مقادیر از ویژگی a القا میکند. این توزیع به این صورت است:. در این نمایش، کسب اطلاعات T با داشتن a را میتوان به صورت تفاضل بین انتروپی شانون غیرشرطی از T و انتروپی انتظاری T با این شرط که T با داده شدن a را بتوان به صورت تفاضل بین انتروپی شانون غیرشرطی T و انتروپی انتظاری T مشروط بر a تعریف کرد، که در آن مقدار انتظاری نسبت به توزیع القاشده روی مقادیر a به دست میآید.
مزیتها[ویرایش]
کسب اطلاعات خصیصه اساسی است که با آن تصمیم گرفته میشود که آیا یک ویژگی باید برای شکستن یک گره استفاده شود یا نه. ویژگی که شکست بهینه دارد، یعنی، بیشترین مقدار کسب اطلاعات در یک گره از یک درخت تصمیم به عنوان ویژگی برای شکستن گره استفاده میشود.
مفهوم تابع کسب اطلاعات تحت الگوریتم C4.5 برای تولید درختهای تصمیم، و انتخاب شکست بهینه برای یک گره درخت تصمیم قرار میگیرد.[۱] بعضی از مزیتها شامل:
- هم با متغیر پیوسته و هم گسسته میتواند کار کند.
- به دلیل عامل –[p ∗ log(p)] در تعریف انتروپی که در بالا آمد، گرههای برگ که تعداد نمونه کمتری دارند دارای وزن کمتری خواهند بود، و علاقه به آن است که بقیه داده را به گروههای بزرگتر ولی همگن تقسیم کنیم. و بنابراین، مادامیکه به سمت عمق درخت فرو میرویم، مجموعه داده همگنتر میشود. این دیدگاه پایدارتر است و تاثیرگذارترین ویژگیها را در گرهها انتخاب میکند.[۲]
عیوب و راهحلها[ویرایش]
اگرچه کسب اطلاعات معمولا یک معیار خوب برای تصمیمگیری در مورد ارتباط یک ویژگی است، بیعیب نیست. یک مشکل قابل ذکر وقتی رخ میدهد که کسب اطلاعات به ویژگیهایی اعمال شود که میتواند مقادیر متمایز زیادی بپذیرند. برای مثال، فرض کنید که کسی میخواهد یک درخت تصمیم برای دادهای بسازد که توصیف کننده مشتریان یک کسبوکار هستند. از کسب اطلاعات اکثرا برای تصمیمگیری در مورد آنکه کدام ویژگی مرتبطترین است استفاده میشود، از اینرو از آنها میتوان در نزدیکی ریشه درخت آزمون گرفت. یکی از ویژگیهای ورودی میتواند شماره عضویت مشتری باشد، اگر آنها اعضای برنامه عضویت یک کسبوکار باشند. این ویژگی دارای اطلاعات متقابل زیادی است، زیرا این ویژگی به صورت یکتا هر مشتری را شناسایی میکند، اما ما نمیخواهیم که آن را در درخت تصمیم شامل کنیم. دلیل آن بیشبرازش است، یعنی تصمیمگیری در مورد چگونگی تعامل با یک مشتری براساس شماره عضویت برای تعمیم آن به مشتریانی که قبلا ندیدهایم نامحتمل است. این موضوع وقتیکه نمونههایی که تست میشوند دارای ویژگی چندگانه با مقادیر بسیار متمایزاند هم پیش میآید. در این حالت، این منجر به آن میشود که کسب اطلاعات هر کدام از این ویژگیها بسیار بیشتر از ویژگیهایی باشد که مقادیر متمایز زیاد ندارد.
برای جلوگیری از این مشکل، آقای راس کوینلان پیشنهاد کرده است که در عوض ویژگی با بیشترین نسبت کسب اطلاعات از بین ویژگیهایی که کسب اطلاعاتشان برابر میانگین یا بیشتر است، انتخاب شود.[۳] این موضوع درخت تصمیم را دربرابر درنظر گرفتن ویژگیهایی با مقادیر متمایز بسیار بزرگ متوازن میکند، درحالیکه مزیت غیرعادلانه به ویژگیهایی نمیدهد که مقدار اطلاعات بسیار کم دارند، زیرا مقدار اطلاعات برابر یا بالاتر از کسب اطلاعات است.[۴]
پانویس[ویرایش]
- ↑ Larose, Daniel T. (2014). Discovering Knowledge in Data: An Introduction to Data Mining (به انگلیسی). Hoboken, New Jersey: Wiley. pp. 174–179. ISBN 9780470908747.
- ↑ "machine learning - Why we use information gain over accuracy as splitting criterion in decision tree?". Data Science Stack Exchange. Retrieved 2021-12-09.
- ↑ Quinlan, J. Ross (1986). "Induction of Decision Trees". Machine Learning. 1 (1): 81–106. doi:10.1007/BF00116251.
- ↑ Milman, Oren (August 6, 2018). "What is the range of information gain ratio?". Stack Exchange. Retrieved 2018-10-09.
منابع[ویرایش]
مشارکتکنندگان ویکیپدیا. «Information gain (decision tree)». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۳ ژوئیهٔ ۲۰۲۲.