درجہ بندی بمقابلہ پارٹیشنل کلسٹرنگ

کلسٹرنگ ڈیٹا کا تجزیہ کرنے اور اسی طرح کے ڈیٹا کے گروپس میں تقسیم کرنے کے لئے مشین سیکھنے کی ایک تکنیک ہے۔ اسی گروپ کے ڈیٹا کے گروپس یا سیٹ کو کلسٹر کے نام سے جانا جاتا ہے۔ کلسٹر تجزیہ کلسٹرنگ الگورتھم پر نظر ڈالتا ہے جو کلسٹروں کی خود بخود شناخت کرسکتا ہے۔ درجہ بندی اور پارٹیشنل کلسٹرنگ الگورتھم کی دو ایسی کلاسیں ہیں۔ درجہ بندی کے کلسٹرنگ الگورتھم ڈیٹا کو کلسٹروں کے درجہ بندی میں توڑ دیتے ہیں۔ جزوی الگورتھم سیٹ کردہ ڈیٹا کو باہمی ناجائز حص partوں میں تقسیم کرتے ہیں۔

ہیراارکیکل کلسٹرنگ کیا ہے؟

ہائریکیکل کلسٹرنگ الگورتھم یا تو چھوٹے کلسٹرز کو بڑے میں ضم کرنے یا بڑے کلسٹرز کو چھوٹے میں تقسیم کرنے کے چکر کو دہراتا ہے۔ کسی بھی طرح ، یہ کلسٹروں کا ایک درجہ بندی پیدا کرتا ہے جسے ڈینڈگرام کہتے ہیں۔ اجتماعی کلسٹرنگ کی حکمت عملی بڑے لوگوں میں ضم ہونے والے کلسٹرز کے نیچے والے نقطہ نظر کا استعمال کرتی ہے ، جبکہ تفرقہ انگیز کلسٹرنگ کی حکمت عملی چھوٹے لوگوں میں تقسیم ہونے کے اوپر نیچے کے نقطہ نظر کا استعمال کرتی ہے۔ عام طور پر ، لالچی نقطہ نظر کا فیصلہ کرنے میں استعمال ہوتا ہے کہ کون سے بڑے / چھوٹے کلسٹر ضم ہونے / تقسیم کرنے کے لئے استعمال ہوتے ہیں۔ یوکلیڈین فاصلہ ، مین ہٹن کا فاصلہ اور کوسائن کی مماثلت ہندسوں کے اعداد و شمار کے لئے مماثلت کے سب سے زیادہ استعمال شدہ پیمائش ہیں۔ غیر عددی اعداد و شمار کے لئے ، میٹرک جیسے ہامنگ فاصلہ استعمال ہوتا ہے۔ یہ نوٹ کرنا ضروری ہے کہ درجہ بند جھلکنے کے لئے حقیقی مشاہدات (مثالوں) کی ضرورت نہیں ہے ، کیونکہ صرف فاصلوں کا میٹرکس ہی کافی ہے۔ ڈینڈگرامگرام جھرمٹ کی ایک مرئی نمائندگی ہے ، جو درجہ بندی کو بہت واضح طور پر دکھاتا ہے۔ صارف مختلف کلسٹرنگ حاصل کرسکتا ہے جس کی بنیاد پر ڈینڈگرام کو کاٹا جاتا ہے۔

پارٹیشنل کلسٹرنگ کیا ہے؟

پارٹیشنل کلسٹرنگ الگورتھم مختلف پارٹیشنز تیار کرتے ہیں اور پھر ان کا اندازہ کچھ معیار کے ذریعہ کرتے ہیں۔ ان کو غیر انسانی قرار بھی دیا جاتا ہے کیونکہ ہر ایک مثال کے طور پر باہمی طور پر باہمی خصوصی کلسٹر میں رکھا جاتا ہے۔ چونکہ کلسٹرز کا صرف ایک سیٹ ایک مخصوص پارٹینیکل کلسٹرنگ الگورتھم کا آؤٹ پٹ ہوتا ہے ، لہذا صارف کو مطلوبہ تعداد میں کلسٹر (جس میں عام طور پر k کہا جاتا ہے) کو ان پٹ کرنے کی ضرورت ہوتی ہے۔ سب سے زیادہ عام طور پر استعمال ہونے والی پارٹیشنل کلسٹرنگ الگورتھم میں سے ایک K-means کلسٹرنگ الگورتھم ہے۔ صارف کو شروع کرنے سے پہلے کلسٹر (k) کی تعداد فراہم کرنے کی ضرورت ہوتی ہے اور الگورتھم پہلے k پارٹیشنوں کے مراکز (یا سینٹروڈ) کا آغاز کرتا ہے۔ مختصر طور پر ، کے ذرائع کلسٹرنگ الگورتھم پھر موجودہ مراکز کی بنیاد پر ممبروں کو تفویض کرتا ہے اور موجودہ ممبروں پر مبنی مراکز کا دوبارہ تخمینہ لگاتا ہے۔ یہ دونوں مراحل اس وقت تک دہرائے جاتے ہیں جب تک کہ ایک خاص انٹرا کلسٹر مماثلت والے معروضی فنکشن اور انٹر کلسٹر میں مختلف فرق کے مقصد کو بہتر نہ بنایا جائے۔ لہذا ، مراکز کی سمجھدار ابتدائیہ جزوی کلسٹرنگ الگورتھم سے معیار کے نتائج حاصل کرنے میں ایک بہت اہم عنصر ہے۔

درجہ بندی اور پارٹیشنل کلسٹرنگ میں کیا فرق ہے؟

درجہ بندی اور پارٹیشنل کلسٹرنگ کے چلانے کے وقت ، مفروضات ، ان پٹ پیرامیٹرز اور اس کے نتیجے میں کلسٹرز میں کلیدی اختلافات ہیں۔ عام طور پر ، پارٹمنٹل کلسٹرنگ درجہ بند کلسٹرنگ سے تیز تر ہوتی ہے۔ ہیرارکلیکل کلسٹرنگ میں صرف ایک مماثلت کے اقدام کی ضرورت ہوتی ہے ، جبکہ جزوی کلسٹرنگ میں مضبوط مفروضات کی ضرورت ہوتی ہے جیسے کلسٹروں کی تعداد اور ابتدائی مراکز۔ ہیرارکلیکل کلسٹرنگ میں کسی بھی ان پٹ پیرامیٹرز کی ضرورت نہیں ہوتی ہے ، جب کہ پارٹیکل کلسٹرنگ الگورتھم کو چلانے کے لئے کلسٹر کی تعداد کی ضرورت ہوتی ہے۔ ہیرارکلیکل کلسٹرنگ کلسٹرز کی ایک بہت زیادہ معنی خیز اور ساپیکٹو ڈویژن لوٹاتی ہے لیکن بالکل K کلسٹروں میں بٹوارہ کلسٹرنگ کے نتائج۔ درجہ بندی سے متعلق کلسٹرنگ الگورتھم جب تک مماثلت کی پیمائش کے مطابق اس کی وضاحت کی جاسکے تو زمرہ دارانہ اعداد و شمار کے ل more زیادہ موزوں ہیں۔