Локоть әдісі (кластерлеу) - Elbow method (clustering) - Wikipedia

Дисперсияны түсіндірді. «Шынтақ» қызыл шеңбермен көрсетілген. Сондықтан таңдалған кластерлер саны 4 болуы керек.

Жылы кластерлік талдау, шынтақ әдісі Бұл эвристикалық жылы қолданылған мәліметтер жиынтығындағы кластерлер санын анықтау. Әдіс графикті салудан тұрады вариацияны түсіндірді кластерлер санына тәуелді және қисықтың локті қолданылатын кластерлер саны ретінде. Дәл осы әдісті мәліметтерге негізделген басқа модельдердегі параметрлер санын таңдау үшін қолдануға болады, мысалы негізгі компоненттер деректер жиынтығын сипаттау үшін.

Бұл әдісті спекуляция арқылы іздеуге болады Роберт Л. Торндайк 1953 ж.[1]

Түйсік

«Шынтақты» немесе «қисық тізесі «кесу нүктесі ретінде әдеттегі эвристикалық болып табылады математикалық оңтайландыру нүктені таңдау үшін кірістің төмендеуі енді қосымша шығындарға тұрарлық емес. Кластерлеу кезінде бұл басқа кластерді қосу деректерді модельдеуді жақсартпайтындай етіп бірнеше кластерді таңдау керек дегенді білдіреді.

Түйсік - бұл кластерлердің санын көбейту үйлесімділікті жақсартады (вариация туралы көбірек түсіндіріңіз), өйткені көптеген параметрлер (көп кластерлер) қолдану керек, бірақ бұл белгілі бір сәтте тым жарасымды, ал шынтақ бұны көрсетеді. Мысалы, берілгендерден тұратын мәліметтер берілген к белгіленген топтар - мысалы, к -дан артық шоғырланған нүктелер к кластерлер вариацияны көбірек «түсіндіреді» (өйткені ол кішірек, тығыз кластерлерді қолдана алады), бірақ бұл өте орынды, өйткені ол таңбаланған топтарды бірнеше кластерге бөледі. Идея мынада: бірінші кластерлер көп ақпарат қосады (көптеген вариацияларды түсіндіреді), өйткені деректер іс жүзінде сол көптеген топтардан тұрады (сондықтан бұл кластерлер қажет), бірақ кластерлер саны нақты топтардың санынан асып кетсе деректер қосылса, ақпарат күрт төмендейді, өйткені бұл тек нақты топтарды бөлу. Бұл жағдай орын алса, түсіндірілген вариация графигінде кластерлерге қарағанда күрт локте болады: жылдам өседі. к (жеткіліксіз кейін) баяу өседі к (тым жарасымды аймақ).

Іс жүзінде өткір локте болмауы мүмкін, және эвристикалық әдіс ретінде мұндай «шынтақ» әрдайым бірмәнді түрде анықтала алмайды.[2]

Вариация өлшемдері

Әр түрлі шаралар бар «вариацияны түсіндірді «локте әдісінде қолданылады. Көбінесе вариябұл санымен анықталады варияnce, ал қолданылатын коэффициент - бұл топ арасындағы дисперсияның жалпы дисперсияға қатынасы. Сонымен қатар, бір топтық дисперсияның топ ішіндегі дисперсияға қатынасын қолданады, бұл бір бағытты болып табылады АНОВА F-тест статистикасы.[3]

Сондай-ақ қараңыз

Әдебиеттер тізімі

  1. ^ Роберт Л. Торндайк (Желтоқсан 1953). «Отбасында кім бар?». Психометрика. 18 (4): 267–276. дои:10.1007 / BF02289263.
  2. ^ Қараңыз, мысалы, Кетчен, кіші, Дэвид Дж.; Шок, Кристофер Л. (1996). «Стратегиялық басқару зерттеулерінде кластерлік анализді қолдану: талдау және сын». Стратегиялық басқару журналы. 17 (6): 441–458. дои:10.1002 / (SICI) 1097-0266 (199606) 17: 6 <441 :: AID-SMJ819> 3.0.CO; 2-G.[өлі сілтеме ]
  3. ^ Мысалы, 6-суретті қараңыз