:رابطه ۱-۱
که در آن:
JM(i,j)=فاصله Jeffries-Matusita بین دو کلاس i و j
a(i,j)=0.125T[M(i)_M(j)]*Inv[A(i,j)]*[M(i)_M(j)]+ 0.5ln{det(A(i,j)))/(det(S(i)*det(S(j))}1/2 : رابطه ۱-۲
M= بردار میانگین و S = ماتریس کوواریانس هست.
نتیجه حاصل از این فرمول بین ۰ و ۲ متغــیر است که هرچه این معیار به صفر نزدیکتر باشد میزان تفکیکپذیری کمتر و هرچه به ۲ نزدیکتر باشد تفکیکپذیری دو طبقه از یکدیگر بیشتر هست. این نتایج میتواند در تعیین طبقاتی که از یکدیگر تفکیکپذیری کافی ندارند (معمولاً کمتر از ۱) و بنابراین باید در یکدیگر ادغام شوند بکار آیند.
۱-۴-۱۴- روشهای طبقه بندی نظارتشده
طبقه بندی نظارتشده تحت یکسری الگوریتم یا طبقه بندی کننده های مختلف بر اساس نمونههای تعلیمی و با انجام محاسبات آماری متفاوت بر روی آنها صورت میگیرد که در زیر به چند مورد آن اشاره می شود:
۱-۴-۱۴-۱- طبقه بندی و رگرسیون درختی[۳۷] (CART)
برای پیش بینی پیامدها[۳۸] مورد مطالعه از مدلها و روشهای مختلف میتوان استفاده نمود. به این مدلها بهطور عمومی نام مدلهای پیش بینی اطلاق می شود. براساس اینکه نوع متغیر پاسخ کمی یا مــتغیر طبقه بندی شده باشد، باید از روشهای مرتبط با آن استفاده نمود. وقتی پیامد مورد استفاده کمی باشد عمدتاً از روشهای رگرسیونی یا مدلهای عمومی رگرسیونی استفاده میگردد. در این خانواده روش رگرسیونی یا مدلهای عمومی رگرسیونی[۳۹] استفاده میگردد. در این خانواده روش رگرسیونی چند متغیره و روش تحلیل تمایزی[۴۰] قرار میگیرند. این روشها نیازمند پیشفرض رابطه خطی بین متغیر/ متغیرهای پیش بینی کننده[۴۱] با پیامدها هست. در حالتی که متغیر پاسخ متغیر طبقه بندی شده باشد، میتوان بهطور معمول از روشهای رگرسیون لجستیک (دوجملهای یا چندجملهای) یا لگاریتم خطی[۴۲] استفاده نمود. در این روشها نیز به پیشفرض رابطه خطی بین متغیرها نیاز هست. بهعنوان مثال در رگرسیون لجستیک باید رابطه خطی بین متغیرهای مستقل و لجیت متغیر پاسخ وجود داشته باشد.
روشهای درخت تصمیمگیری[۴۳] که در برخی متون با نام قسمتبندی مکرر[۴۴] مشخص گردیده اولین بار در پیش بینی و شناسایی بازاریابی محصولات مورد استفاده قرار گرفت. طبقه بندی و رگرسیون درختی (CART) یکی از روشهای طبقه بندی است که اولین بار توسط برایمن و همکاران[۴۵] (۱۹۸۴) ابداع و توسعه یافت. اینروش میتواند در پیشبینی پیامدهای کمی (درخت رگرسیونی) یا طبقه بندی شده (درخت طبقهبندی) مورد استفاده قرار گیرد. روش طبقه بندی و رگرسیون درختی از طریق مجموعه ای از شرطهای منطقی[۴۶] (بجای رابطه خطی)، پیامد مورد مطالعه را پیشبینی یا طبقه بندی مینماید.
ساختار مدل طبقه بندی درختی و اصطلاحات رایج
یک مدل طبقه بندی و رگرسیون درختی متشکل از چند شاخه[۴۷] و چند گره[۴۸] است. در شکل ۱ گرهها و شاخهها مشاهده میگردد. اولین گره که مشتمل بر کلیه نمونهها یا مشـــاهدات است گره والد[۴۹] نامیده می شود. مابقی گرهها گره فرزند[۵۰] نامیده میشوند. سپس بر اساس وضعیت یکی از متغیرهای پیشبینی کننده، دو شاخه شکل میگیرد و این وضعیت ادامه مییابد تا به گره انتهایی که معمولاً شامل گروه های هموژن از طبقات مختلف پیامد است، ختم گردد (کشتکار، ۱۳۸۵).
شکل ۱-۱- ساختار کلی مدل طبقهبندی رگرسیون درختی
ساختن مدل طبقه بندی درختی[۵۱]:
برای ساخت مدل طبقه بندی درختی مناسب برای مجموعه ای از متغیرهای پیش بینی کننده، باید به این موارد توجه نمود:
۱ – دقت پیشبینی مدل: معمولاً سه اندازه برای تعیین دقت پیش بینی یا طبقه بندی مدل طبقه بندی درختی و رگرسیونی وجود دارد (برایمن و همکاران،۱۹۸۴).
الف: برآورد جایگزینی مجدد[۵۲]: در برخی منابع به این اندازه هزینـه طبقه بندی نـادرست[۵۳] نیز میگوینـــد (StatSoft Inc, 2005) که عبارت است از سهم نمونههایی که بهدرستی طبقه بندی نشدهاند. بهعنوان مثال چنانچه پیامد مورد مطالعه در مدل یک متغیر دو وضعیتی باشد، وضعیت پیامد منتظره و مشاهده شده را در یک جدول دو در دو خلاصه نموده و اگر توافق بین دو وضعیت مشاهده شده و منتظره a و c و عدم توافق b و d باشد. این اندازه از رابطه زیر قابل محاسبه است:
رابطه ۱- ۳: |
چنانچه x بردار اندازهگیریها، d(x) قاعده طبقه بندی و N تعداد مشاهدات باشد، برآورد جایگزینی مجدد یا R(d) از رابطه زیر به دست می آید:
رابطه ۱- ۴: |
این نوع شیوه برآورد در پیش بینی پیامد مورد مطالعه اعتبار کمی دارد. با افزایش شاخهبندی[۵۴] مدل که منجر به افزایش تعداد گرههای پایانی میگردد دقت پیش بینی افزایش یافته و هزینه طبقه بندی نادرست یا برآورد جایگزینی مجدد کاهش مییابد. در شدیدترین شکل ممکن هر گره پایانی شامل فقط یک نمونه یا مشاهده بوده که در این وضعیت هزینه طبقه بندی نادرست به صفر تقلیل مییابد (برایمن و همکاران،۱۹۸۴).
ب: برآورد نمونه آزمون[۵۵]: در این شیوه از تعیین دقت پیش بینی، کل نمونهها بهطور مستقل به دو بخش نمونه آموزشی[۵۶] (L1) و نمونه آزمون (L2) تقسیم میگردد. مدل براساس نمونه آموزشی ساخته شده و دقت آن با بهره گرفتن از نمونه آزمون تعیین و ارزیابی میگردد. توصیه بر این است که نسبت بین نمونه آموزشی به نمونه آزمون ۲ به ۱ باشد. به عبارت دیگر بهتر است دو سوم کل نمونه را به نمونه آموزشی و یک سوم را به نمونه آزمون اختصاص داد. چنانچه N2 حجم نمونه آزمون باشد، برآورد نمونه آزمون از رابطه زیر محاسبه می شود:
رابطه ۱- ۵: |
این نوع شیوه اشکال روش قبلی را ندارد. به عبارت دیگر با افزایش گرههای پایانی تا یک آستانه مشخص مقدار این اندازه کاهش یافته و سپس بیش از آن مقدار، این برآورد افزایش مییابد. بنابراین مناسبترین مدل برای پیش بینی، تعداد گرهها در وضعیتی است که مقدار برآورد آزمون حداقل باشد. البته استفاده از این اندازه بهعنوان معیار دقت در نمونههای بزرگ قابل انجام است و اینروش برای نمونههای کوچک مناسب نمی باشد.
ج: برآورد اعتباربخشی با زیرمجموعههای نمونه[۵۷]: در اینروش کل نمونه بهصورت تصادفی به V زیرمجموعه مساوی طبقه بندی شده (LV …… L1) و نمونههای (L- LV) بهعنوان نمونه آموزشی در ساخت مدل مورد استفاده قرار گرفته و زیرمجموعه باقیمانده بهعنوان نمونه آزمون مورد استفاده قرار میگیرد. برآورد نمونه آزمون در اینروش از رابطه زیر به دست می آید.