Іерархічныя супраць частковых кластараў

Кластэрызацыя - гэта тэхналогія машыннага навучання для аналізу дадзеных і падзелу на групы падобных дадзеных. Гэтыя групы або наборы падобных дадзеных вядомыя як кластары. Аналіз кластараў разглядае алгарытмы кластаравання, якія дазваляюць аўтаматычна ідэнтыфікаваць кластары. Іерархічныя і частковыя два такія класы алгарытмаў кластавання. Алгарытмы іерархічнага кластавання распадаюць дадзеныя на іерархію кластараў. Частковыя алгарытмы дзеляць набор дадзеных на ўзаемна супярэчлівыя раздзелы.

Што такое іерархічная кластара?

Алгарытмы іерархічнага кластаравання паўтараюць цыкл альбо аб'яднання меншых кластараў у больш буйныя, альбо падзелу вялікіх кластараў на меншыя. У любым выпадку яна стварае іерархію кластараў, званую дэндаграмай. Агламерацыйная стратэгія кластэрызацыі выкарыстоўвае падыход знізу ўверх да больш буйным, у той час як стратэгія падзялення кластараў выкарыстоўвае падыход зверху ўніз, каб падзяліць на меншыя. Як правіла, прагны падыход выкарыстоўваецца пры вызначэнні, якія вялікія / меншыя кластары выкарыстоўваюцца для зліцця / дзялення. Эўклідавая адлегласць, адлегласць на Манхэтэне і косінуснае падабенства - некаторыя з найбольш часта выкарыстоўваюцца метрык падабенства для лікавых дадзеных. Для не лікавых дадзеных выкарыстоўваюцца такія паказчыкі, як адлегласць Хэмінга. Важна адзначыць, што для іерархічнай кластарацыі не патрэбныя фактычныя назіранні (выпадкі), таму што дастаткова толькі матрыцы адлегласцей. Дэндаграма - гэта візуальнае прадстаўленне кластараў, якое вельмі ярка адлюстроўвае іерархію. Карыстальнік можа атрымаць розныя кластарызацыі ў залежнасці ад узроўню скарачэння дэндаграмы.

Што такое частковае кластараванне?

Алгарытмы клавіравання частковых генеруюць розныя раздзелы, а затым ацэньваюць іх па нейкім крытэрыі. Яны таксама называюцца негіерархічнымі, бо кожны асобнік змяшчаецца ў дакладна адзін з k узаемавыключальных кластараў. Паколькі толькі адзін набор кластараў - гэта выснова тыповага алгарытму кластэрнага раздзела, карыстачу неабходна ўвесці патрэбную колькасць кластараў (звычайна іх называюць k). Адзін з найбольш часта выкарыстоўваюцца алгарытмаў кластэрнага раздзела - гэта алгарытм кластавання к-сродкаў. Карыстальнік павінен прадаставіць колькасць кластараў (k) перад пачаткам, і алгарытм спачатку ініцыюе цэнтры (або цэнтрыды) k раздзелаў. У двух словах, алгарытм кластаравання k-азначае, што прызначае ўдзельнікаў на аснове бягучых цэнтраў і пераацэньвае цэнтры на аснове бягучых членаў. Гэтыя два этапы паўтараюцца, пакуль не будуць аптымізаваны пэўная мэтавая функцыя падабенства ўнутры кластара і мэтавая функцыя непадобнасці паміж кластэрамі. Такім чынам, разумная ініцыялізацыя цэнтраў з'яўляецца вельмі важным фактарам для атрымання якасных вынікаў з алгарытмаў частковага кластавання.

У чым розніца паміж іерархічным і частковым кластарам?

Іерархічныя і частковыя кластарызацыі маюць ключавыя адрозненні ў часе працы, здагадках, уводных параметрах і выніковых кластарах. Звычайна кластэрызацыя на частках адбываецца хутчэй, чым іерархічная кластэрызацыя. Іерархічная кластэрызацыя патрабуе толькі меры падабенства, у той час як частковае кластэрызацыя патрабуе больш моцных здагадак, такіх як колькасць кластараў і пачатковыя цэнтры. Іерархічная кластэрызацыя не патрабуе ніякіх уваходных параметраў, у той час як алгарытмы частковай кластэрацыі патрабуюць колькасці кластараў, каб пачаць працаваць. Іерархічная кластэрызацыя вяртае значна больш змястоўны і суб'ектыўны падзел кластараў, але частковае кластаванне прыводзіць да дакладнасці да кластараў. Алгарытмы іерархічнага кластаравання больш падыходзяць для катэгарычных дадзеных, пакуль нельга вызначыць меру падабенства.