روش گروه جفتی وزن‌دار با میانگین حسابی

از ویکی‌پدیا، دانشنامهٔ آزاد

روش گروه جفتی وزن‌دار با میانگین حسابی (به انگلیسی: Weighted Pair Group Method with Arithmetic Mean (WPGMA)) یک متد ساده خوشه‌بندی سلسله مراتبی تجمعی (از پایین به بالا) می‌باشد که هدف آن، ایجاد یک درخت ریشه‌دار (که به آن دندروگرام می‌گویند) می‌باشد که ساختار موجود در یک ماتریس زوج‌فاصله را نشان می‌دهد.[۱] این متد را به رابرت آر. سوکال و چارلز دانکن میشنر نسبت می‌دهند.

متد جفت گروه وزن‌دار با میانگین حسابی، شبیه به نوع بی‌وزن آن، یعنی متد جفت گروه بدون وزن با میانگین حسابی است که به‌طور عمده بر مبنای توده کردن داده‌ها یا خوشه‌بندی سلسله مراتبی مخصوصاً برای ساخت درخت فیلوژنتیک در بیوانفورماتیک به کار می‌رود.[۲]

الگوریتم[ویرایش]

همان‌طور که در ابتدای کار ذکر شد، الگوریتم جفت گروه وزن‌دار با میانگین حسابی، با استفاده از یک درخت ریشه دار به نام دندوگرام، ساختار موجود در یک ماتریس زوج‌فاصله را نشان می‌دهد. اگر این ماتریس، یک ماتریس باشد، این الگوریتم شامل گام می‌باشد؛ در هر گام، نزدیک‌ترین دو خوشه، در اینجا فرض کنید و ، به یک خوشه سطح بالاتر ترکیب‌می‌شوند. سپس فاصلهٔ آن با یک خوشهٔ دیگر فرضی به نام ، از طریق میانگین حسابی فاصلهٔ بین ، و ، حساب می‌شود:[۱]

مثال[ویرایش]

اگر فرض کنیم متد جفت گروه وزن‌دار با میانگین حسابی، روی یک ماتریس کار می‌کند، در نتیجه شامل گام می‌باشد که در مثال زیر، یک ماتریس ۴ * ۴ داده‌شده، بررسی می‌شود.

گام اول[ویرایش]

فرض کنید ۴ المان داریم و ماتریس زیر به نام Dist (مخفف فاصله) که نشان‌دهندهٔ فاصلهٔ بین هردو المان را نشان می‌دهد و همچنین نشان‌دهندهٔ فاصلهٔ بین ۲ گره در درخت دندوگرام باشد:

جدول Dist
a1 a2 a3 a4
a1 ۰ ۱۵ ۱۹ ۲۹
a2 ۱۵ ۰ ۲۸ ۳۲
a3 ۱۹ ۲۸ ۰ ۲۶
a4 ۲۹ ۳۲ ۲۶ ۰

در این جدول، کوتاه‌ترین فاصله بین ۲ المان مختلف, متعلق بین و و برابر با ۱۵ می‌باشد.

بروزرسانی درخت دندوگرام[ویرایش]

حال فرض کنید گره‌ای که و را به‌هم متصل‌می‌کند، نام دارد. در نتیجه به درخت دندوگرام، گره را اضافه می‌کنیم که فاصله این گره با و از راه زیر محاسبه می‌شود:

بروزرسانی ماتریس[ویرایش]

با متصل کردن و ، تعداد سطر و ستون ماتریس اولیه یک واحد کاهش می‌یابد و همچنین مقادیر المان‌های ماتریس با تغییراتی مواجه می‌شود که در ذیل توضیح داده‌شده‌است:

که ماتریس بروزرسانی‌شده و ادامهٔ روند در قسمت بعدی مشخص شده‌است

گام دوم[ویرایش]

در گام دوم، نتیجه حاصل از گام اول را ادامه می‌دهیم:

جدول Dist
(a1, a2) a3 a4
(a1, a2) ۰ ۲۳٫۵ ۳۰٫۵
a3 ۲۳٫۵ ۰ ۲۶
a4 ۳۰٫۵ ۲۶ ۰

در این جدول، کوتاه‌ترین فاصله بین ۲ المان مختلف, متعلق بین و و برابر با ۲۳٫۵ می‌باشد که در درخت دندوگرام، منظور از ، گره می‌باشد.

بروزرسانی درخت دندوگرام[ویرایش]

حال فرض کنید گره‌ای که و را به‌هم متصل‌می‌کند، نام دارد. در نتیجه به درخت دندوگرام، گره را اضافه می‌کنیم که فاصله این گره با ، و از راه زیر محاسبه می‌شود:

و فاصلهٔ بین و برابر است با:

بروزرسانی ماتریس[ویرایش]

با متصل کردن و , تعداد سطر و ستون ماتریس اولیه یک واحد کاهش می‌یابد و همچنین مقادیر المان‌های ماتریس با تغییراتی مواجه می‌شود که در ذیل توضیح داده‌شده‌است:

گام سوم[ویرایش]

در گام سوم، نتیجه حاصل از گام دوم را ادامه می‌دهیم:

جدول Dist
(a1, a2), a3)) a4
(a1, a2), a3)) ۰ ۲۸٫۵
a4 ۲۸٫۵ ۰

در این جدول، کوتاه‌ترین فاصله بین ۲ المان مختلف, متعلق بین و و برابر با ۲۸٫۵ می‌باشد که در درخت دندوگرام، منظور از ، گره می‌باشد.

بروزرسانی درخت دندوگرام[ویرایش]

حال فرض کنید گره‌ای که و را به‌هم متصل‌می‌کند، نام دارد. در نتیجه به درخت دندوگرام، گره را اضافه می‌کنیم که فاصله این گره با ، ، و از راه زیر محاسبه می‌شود:

و فاصلهٔ بین و برابر است با:

بروزرسانی ماتریس[ویرایش]

با متصل کردن و , تعداد سطر و ستون ماتریس اولیه یک واحد کاهش می‌یابد و تبدیل به یک ماتریس می‌شود که دارای مقدار صفر است.

دندوگرام حاصل[ویرایش]

در شکل زیر، دندوگرام حاصل از مثال مطرح‌شده را مشاهده می‌کنید.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ رابرت آر. سوکال، چارلز دانکن میشنر. «a statistical method for evaluating systematic relationships».
  2. Pavel Pevzner, Neil Jones (۲۰۰۴). «An Introduction to Bioinformatics Algorithms».