Rinkos segmentavimo metodai. Rinkos segmentavimo metodai Klasterių segmentavimo metodas

Dirbu el. pašto rinkodaros srityje svetainėje MailChimp.com. Padedame klientams kurti informacinius biuletenius savo reklamos auditorijai. Kiekvieną kartą, kai kas nors mūsų darbą vadina „pašto kimšimu“, jaučiu nemalonų šaltį širdyje.

Kodėl? Taip, nes el. pašto adresai nebėra juodos dėžės, kurias bombarduojate žinutėmis kaip granatos. Ne, el. pašto rinkodaroje (kaip ir kitose internetinio kontakto formose, įskaitant tviterius, Facebook įrašus ir Pinterest kampanijas), įmonės įgyja įžvalgų apie tai, kaip auditorija įsitraukia individualiu lygiu, stebėdama paspaudimus, internetinius užsakymus, būsenų paskirstymą socialiniuose tinkluose, ir tt Šie duomenys nėra tik trukdžiai. Jie apibūdina jūsų auditoriją. Tačiau neišmanantiems šios operacijos yra panašios į graikų kalbos išmintį. Arba esperanto.

Kaip renkate operacijų duomenis iš savo klientų (naudotojų, prenumeratorių ir kt.) ir naudojate jų duomenis, kad geriau suprastumėte savo auditoriją? Kai bendrauji su daugybe žmonių, sunku ištirti kiekvieną klientą atskirai, ypač jei jie visi su tavimi susisiekia skirtingai. Net jei teoriškai galėtumėte pasiekti kiekvieną asmeniškai, praktiškai tai mažai tikėtina.

Turite pasirinkti savo klientų bazę ir rasti vidurį tarp atsitiktinio bombardavimo ir individualizuotos rinkodaros kiekvienam klientui. Vienas iš būdų pasiekti šią pusiausvyrą yra naudoti grupes klientų rinkai segmentuoti, kad galėtumėte kreiptis į skirtingus klientų bazės segmentus naudodami skirtingą tikslinį turinį, pasiūlymus ir pan.

Klasterinė analizė – tai įvairių objektų rinkimas ir suskirstymas į panašių objektų grupes. Dirbdami su šiomis grupėmis – nustatydami, ką jų nariai turi bendro ir kuo jie išsiskiria – galite daug sužinoti apie turimų duomenų maišalynę. Šios žinios padės priimti geresnius sprendimus ir detaliau nei anksčiau.

Šiame kontekste klasterizavimas vadinamas tiriamuoju duomenų gavyba, nes šie metodai padeda „ištraukti“ informaciją apie ryšius didžiuliuose duomenų rinkiniuose, kurių neįmanoma užfiksuoti vizualiai. O atrasti ryšius socialinėse grupėse praverčia bet kurioje industrijoje – rekomenduoti filmus pagal tikslinės auditorijos įpročius, identifikuoti nusikalstamumo centrus mieste ar pateisinti finansines investicijas.

Vienas iš mano mėgstamiausių klasterizavimo būdų yra vaizdų grupavimas: vaizdo failų, kurie kompiuteriui atrodo „vienodai“, sujungimas. Pavyzdžiui, vaizdų prieglobos paslaugose, tokiose kaip „Flickr“, vartotojai sukuria daugybę turinio ir paprasta naršyti tampa neįmanoma dėl didelio nuotraukų skaičiaus. Tačiau naudodami grupavimo metodus galite sugrupuoti panašius vaizdus, ​​kad vartotojas galėtų naršyti tarp šių grupių prieš detalų rūšiavimą.

Prižiūrimas ar neprižiūrimas mašininis mokymasis?

Duomenų gavybos srityje pagal apibrėžimą jūs iš anksto nežinote, kokių duomenų ieškote. Jūs esate tyrinėtojas. Galite aiškiai paaiškinti, kada du klientai atrodo panašiai, o kada – skirtingai, tačiau nežinote, kaip geriausiai segmentuoti savo klientų bazę. Štai kodėl „prašymas“ kompiuterio, kad jis segmentuotų jūsų klientų bazę, vadinamas neprižiūrimu mašininiu mokymusi, nes jūs nieko nevaldote – nenurodysite kompiuteriui, kaip atlikti savo darbą.

Priešingai nei šis procesas, yra prižiūrimas mašininis mokymasis, kuris dažniausiai atsiranda, kai dirbtinis intelektas patenka į pirmąjį puslapį. Jei žinau, kad noriu suskirstyti klientus į dvi grupes – tarkime, „tikėtina, kad pirks“ ir „nepirks“ – ir pamaitinu kompiuterį istoriniais tokių klientų pavyzdžiais, visas naujoves pritaikydamas vienai iš šių grupių, tai šis. yra kontrolė.

Jei vietoj to sakyčiau: „Štai ką aš žinau apie savo klientus ir kaip pasakyti, ar jie skiriasi, ar vienodi. Pasakyk man ką nors įdomaus“, – tai kontrolės trūkumas.

Šiame skyriuje nagrinėjamas paprasčiausias klasterizacijos metodas, vadinamas k-means, kuris datuojamas šeštajame dešimtmetyje ir nuo tada tapo pagrindiniu duomenų bazių žinių atradimu (DKD) visose pramonės šakose ir vyriausybinėse agentūrose.

K-means metodas nėra pats tiksliausias matematiškai iš visų metodų. Jis buvo sukurtas pirmiausia dėl praktiškumo ir sveiko proto – kaip afroamerikietiška virtuvė. Jis neturi tokios prašmatnios kilmės kaip prancūzų, tačiau dažnai patenkina mūsų gastronominius užgaidus. Klasterinė analizė su k-means, kaip netrukus pamatysite, yra dalis matematikos ir istorijos (apie įmonės praeities įvykius, jei tas palyginimas tinka vadybos ugdymo metodams). Jo neabejotinas pranašumas yra intuityvus paprastumas.

Pažiūrėkime, kaip veikia šis metodas, naudodami paprastą pavyzdį.

Merginos šoka su merginomis, vaikinai krapšto galvą

K-means klasterizacijos tikslas yra pasirinkti kelis erdvės taškus ir paversti juos k grupėmis (kur k yra bet koks jūsų pasirinktas skaičius). Kiekvieną grupę apibrėžia taškas centre, tarsi vėliava, įstrigo mėnulyje ir signalizuoja: „Ei, čia mano grupės centras! Prisijunkite, jei esate arčiau šios vėliavos nei kitos! Šis grupės centras (oficialiai vadinamas klasterio centroidu) yra pats k-means metodo pavadinimo vidurkis.

Kaip pavyzdį paimkime mokyklinius šokius. Jei jums pavyko ištrinti šios „pramogos“ siaubą iš savo atminties, labai atsiprašau, kad sugrąžinau tokius skaudžius prisiminimus.

Mūsų pavyzdžio herojai – Makaknės vidurinės mokyklos mokiniai, atvykę į šokių vakarą romantišku pavadinimu „Balius jūros dugne“, – išsibarstę po aktų salę, kaip parodyta pav. 1. Net parketą dažiau Photoshop programa, kad būtų lengviau įsivaizduoti situaciją.

Ryžiai. 1. Aktų salėje sėdi Makaknės gimnazijos mokiniai

Štai pavyzdžiai dainų, pagal kurias šie jaunieji laisvojo pasaulio lyderiai nerangiai šoks (jei staiga panorėsite muzikos akompanimento, pavyzdžiui, „Spotify“):

  • Styx: Išplaukite
  • Viskas, išskyrus mergaitę: dingo
  • Bazės tūzas: viskas, ko ji nori
  • Soft Cell: Tainted Love
  • Montell Jordan: Štai kaip mes tai darome
  • Eifelis 65: Mėlyna

Dabar k-means klasterizavimas priklauso nuo grupių, į kurias norite suskirstyti esamus, skaičiaus. Pradėkime nuo trijų grupių (šio skyriaus pabaigoje apžvelgsime k pasirinkimą). Algoritmas ant susirinkimų salės grindų tam tikru priimtinu būdu padeda tris vėliavėles, kaip parodyta Fig. 2, kur matote 3 pradines vėliavėles, paskirstytas pagal lytį ir pažymėtas juodais apskritimais.

Ryžiai. 2. Pradinių klasterių centrų išdėstymas

K-means klasterizuojant šokėjai priskiriami jiems artimiausiam klasterio centrui, kad būtų galima nubrėžti demarkacijos liniją tarp bet kurių dviejų grindų centrų. Taigi, jei šokėjas yra vienoje linijos pusėje, jis priklauso vienai grupei, jei kitai, tai kitai (kaip 3 pav.).

Ryžiai. 3. Linijos žymi klasterių ribas

Naudodami šias demarkacijos linijas, suskirstykite šokėjus į grupes ir atitinkamai nuspalvinkite, kaip parodyta Fig. 4. Ši diagrama, padalijanti erdvę į daugiakampius, apibrėžtus pagal artumą prie konkretaus klasterio centro, vadinama Voronojaus diagrama.

Ryžiai. 4. Grupavimas į grupes, pažymėtas skirtingais fono raštais Voronojaus diagramoje

Pažvelkime į mūsų pradinį skirstymą. Kažkas negerai, ar ne? Erdvė suskirstyta gana keistai: apatinė kairioji grupė lieka tuščia, o ant viršutinės dešinės – priešingai – daug žmonių.

K-means klasterizacijos algoritmas perkelia klasterių centrus pagal lytis, kol pasiekiamas geriausias rezultatas.

Kaip nustatyti „geriausią rezultatą“? Kiekvienas dalyvaujantis asmuo yra tam tikru atstumu nuo savo grupės centro. Kuo mažesnis vidutinis atstumas nuo dalyvių iki jų grupės centro, tuo geresnis rezultatas.

Dabar pristatome žodį „sumažinimas“ – jis jums bus labai naudingas optimizuojant modelį, kad būtų galima rasti geriausią klasterių centrų vietą. Šiame skyriuje daugybę kartų priversite rasti sprendimą perkelti klasterių centrus. Sprendimų ieškiklis naudoja geriausią vietą klasterių centrams rasti – tai lėtai iteraciškai judinti juos paviršiumi, imant geriausius rastus rezultatus ir juos derinant (tiesiogine prasme suporuojant juos kaip lenktyninius arklius), kad rastų geriausią vietą.

Taigi, jei diagrama pav. 4 atrodo gana blyškiai, „Sprendimo paieška“ gali staiga išdėstyti centrus, kaip parodyta Fig. 5. Tai šiek tiek sumažins vidutinį atstumą tarp kiekvieno šokėjo ir jo centro.

Ryžiai. 5.Šiek tiek perkelkite centrus

Akivaizdu, kad anksčiau ar vėliau Solution Finder supras, kad centrai turi būti išdėstyti kiekvienos šokėjų grupės viduryje, kaip parodyta Fig. 6.

Ryžiai. 6. Optimalus grupavimas mokyklos šokiuose

Puiku! Taip atrodo idealus grupavimas. Klasterių centrai yra kiekvienos šokėjų grupės centre, sumažinant vidutinį atstumą tarp šokėjo ir artimiausio centro. Dabar, kai grupavimas baigtas, laikas pereiti prie linksmosios dalies, kuri bando suprasti, ką šios grupės reiškia.

Jei žinote šokėjų plaukų spalvą, politines nuostatas ar 100 metrų bėgimo laiką, grupavimas nėra prasmingas.

Tačiau kai nuspręsite nustatyti dalyvaujančiųjų amžių ir lytį, pamatysite kai kurias bendras tendencijas. Žemiau esanti nedidelė grupė yra vyresnio amžiaus žmonės, greičiausiai juos lydintys žmonės. Kairėje pusėje yra visi berniukai, o dešinėje - mergaitės. Ir visi labai bijo šokti vieni su kitais.

Taigi, k-means leido suskirstyti daugybę šokių lankytojų į grupes ir susieti kiekvieno dalyvio savybes su naryste tam tikrame klasteryje, kad suprastumėte padalijimo priežastį.

Dabar tikriausiai sakai sau: „Nagi, kokia nesąmonė. Aš jau žinojau atsakymą prieš pradėdamas. Tu teisus. Šiame pavyzdyje – taip. Sąmoningai pateikiau tokio „žaislo“ pavyzdį, būdamas tikras, kad jį išspręsi tiesiog žiūrėdamas į taškus. Veiksmas vyksta dvimatėje erdvėje, kurioje klasterizuojama tiesiog akių pagalba.

Bet ką daryti, jei turite parduotuvę, kurioje parduodami tūkstančiai produktų? Kai kurie pirkėjai per pastaruosius dvejus metus įsigijo vieną ar du pirkinius. Kiti – dešimtys. Ir kiekvienas nusipirko kažką savo.

Kaip juos sugrupuoti tokioje „šokių aikštelėje“? Pradėkime nuo to, kad ši šokių aikštelė nėra dvimatė ir net ne trimatė. Tai tūkstančio matmenų erdvė, skirta prekėms parduoti, kurioje pirkėjas įsigijo arba neįsigijo kiekvienos išmatavimo prekių. Matote, kaip greitai klasterizacijos problema pradeda peržengti „pirmarūšio akies obuolio“ galimybes, kaip mėgsta sakyti mano kariškiai.

Realus gyvenimas: K-Means klasterizavimas el. pašto rinkodaroje

Pereikime prie konkretesnio atvejo. Esu rinkodaros el. paštu specialistas, todėl pateiksiu pavyzdį iš Mailchimp.com, kuriame dirbu. Tas pats pavyzdys veiks su duomenimis iš mažmeninės prekybos, skelbimų srauto konversijos, socialinės žiniasklaidos ir kt. Jis sąveikauja su beveik bet kokio tipo duomenimis, susijusiais su reklamine medžiaga pasiekti klientus, po kurių jie besąlygiškai pasirenka jus.

Didmeninė vyno imperija Joey Bag O'Donuts

Akimirkai įsivaizduokite, kad gyvenate Naujajame Džersyje, kur vadovaujate Joey Bag O'Donuts Wholesale Wine Empire. Tai importo ir eksporto verslas, kurio tikslas yra gabenti didelius kiekius vyno iš užsienio ir parduoti jį tam tikroms alkoholinių gėrimų parduotuvėms visoje šalyje. Šis verslas veikia taip, kad Joey keliauja po visą pasaulį, ieškodamas neįtikėtinų pasiūlymų dėl daugybės vyno, jis siunčia jį į savo namus Džersyje, o jūs turite įdėti jį į parduotuves ir uždirbti pelno.

Klientų rasite įvairiais būdais: Facebook puslapyje, Twitter paskyroje, kartais net tiesioginiu paštu – juk el. laiškai „reklamuoja“ daugumą verslo rūšių. Praėjusiais metais išsiuntėte vieną el. laišką per mėnesį. Paprastai kiekviena raidė apibūdina du ar tris sandorius, tarkime, vieną su šampanu ir kitą su malbec. Kai kurie pasiūlymai yra nuostabūs – 80% ar daugiau nuolaida. Dėl to per metus sudarėte apie 32 sandorius ir visi jie vyko daugiau ar mažiau sklandžiai.

Tačiau vien todėl, kad viskas klostosi gerai, dar nereiškia, kad jie negali pagerėti. Būtų naudinga šiek tiek giliau suprasti savo klientų motyvus. Žinoma, žiūrint į konkretų užsakymą, matosi, kad tam tikras Adamsas liepą pirko putojantį vyną su 50% nuolaida, bet negalite nustatyti, kas jį paskatino pirkti. Ar jam patiko minimalus vienos dėžės šešių butelių užsakymo kiekis ar kaina, kuri dar nebuvo pakilusi iki maksimumo?

Būtų puiku, jei savo klientų sąrašą galėtumėte suskirstyti į interesų grupes. Tada galėtumėte redaguoti laiškus kiekvienai grupei atskirai ir galbūt dar labiau reklamuoti savo verslą. Bet koks šiai grupei tinkamas sandoris gali tapti laiško tema ir būti pirmoje teksto pastraipoje. Toks tikslinis siuntimas gali sukelti tikrą pardavimo sprogimą!

Yra galimybė leisti kompiuteriui atlikti darbą už jus. Naudodami k-means klasterizavimą galite rasti geriausią grupavimą ir tada pabandyti suprasti, kodėl jis yra geriausias.

Originalus duomenų rinkinys

„Excel“ dokumentas, kurį analizuosime šiame skyriuje, yra knygos svetainėje. Jame yra visi šaltinio duomenys, jei norite su jais dirbti. Arba galite tiesiog sekti tekstą žiūrėdami į likusius dokumento lapus.

Norėdami pradėti, turite du įdomius duomenų šaltinius:

  • kiekvieno užsakymo metaduomenys saugomi skaičiuoklėje, įskaitant veislę, minimalų vyno kiekį vienam užsakymui, mažmeninę nuolaidą, ar viršyta viršutinė kainos riba, ir kilmės šalį. Šie duomenys yra skirtuke pavadinimu OfferInformation, kaip parodyta Fig. 7;
  • Žinodami, kurie klientai ką užsako, galite nukopijuoti tą informaciją iš „MailChimp“ ir įterpti į skaičiuoklę su pasiūlymo metaduomenimis skirtuke „Operacijos“. Tai yra kintamieji duomenys, pateikti kaip parodyta Fig. 8, labai paprasta: pirkėjas ir jo užsakymas.

Ryžiai. 7. Išsami informacija apie paskutinius 32 užsakymus

Ryžiai. 8. Užsakymų sąrašas pagal klientą

Matavimo dalyko nustatymas

Ir čia yra užduotis. Kalbant apie mokyklinio šokio problemą, buvo lengva išmatuoti atstumą tarp dalyvaujančių ir nustatyti klasterių centrus, tiesa? Jums tereikia rasti tinkamą matavimo juostą! Bet ką dabar daryti?

Jūs žinote, kad praėjusiais metais buvo 32 pasiūlymų pasiūlymai ir atskirame skirtuke turite 324 užsakymų sąrašą, suskirstytą pagal pirkėją. Tačiau norėdami išmatuoti atstumą nuo kiekvieno pirkėjo iki klasterio centro, turite juos įdėti į šią 32 sandorių erdvę. Kitaip tariant, turite išsiaiškinti, kokių sandorių jie neįvykdė, ir sukurti kiekvieno kliento sandorio matricą, kurioje kiekvienas klientas gauna savo stulpelį su 32 sandorių langeliais, užpildytais vienetais, jei sandoriai buvo užbaigti, ir nuliais, jei jie nebuvo įvykdyti. ne.

Kitaip tariant, reikia paimti šią į eilutes orientuotą pasiūlymų lentelę ir paversti ją matrica, kurioje klientai būtų išdėstyti vertikaliai, o pasiūlymai – horizontaliai. Geriausias būdas tai sukurti yra su suvestinės lentelės.

Veiksmo algoritmas: lape su kintamaisiais duomenimis pasirinkite A ir B stulpelius, tada įterpkite suvestinę lentelę. Naudodami „PivotTable“ vedlį, tiesiog pasirinkite pasiūlymai kaip eilutės antraštę, o klientai – kaip stulpelio antraštę ir užpildykite lentelę. Langelis bus 1, jei kliento ir sandorio pora egzistuoja, ir 0, jei jos nėra (šiuo atveju 0 rodoma kaip tuščias langelis). Rezultatas yra lentelė, parodyta fig. 9.

Ryžiai. 9. Klientų sandorių suvestinė lentelė

Dabar, kai turite užsakymo informaciją matricos formatu, nukopijuokite Pasiūlymo informacijos lapą ir pavadinkite jį Matrica. Šiame naujame darbalapyje įklijuokite vertes iš suvestinės lentelės (nereikia kopijuoti ir įklijuoti sandorio numerio, nes jis jau yra užsakymo informacijoje), pradedant nuo H stulpelio. Turėtumėte gauti išplėstinę matricos versiją, su užsakymo informacija, kaip parodyta Fig. 10.

Ryžiai. 10. Operacijų ir užsakymų duomenų aprašymai sujungti į vieną matricą

Duomenų standartizavimas

Šiame skyriuje kiekvienas jūsų duomenų aspektas pateikiamas taip pat, kaip ir dvejetainės užsakymo informacija. Tačiau daugeliu atvejų, susijusių su grupavimu, to padaryti negalime. Įsivaizduokite scenarijų, kuriame žmonės yra suskirstyti į grupes pagal ūgį, svorį ir atlyginimą. Visi šie trys duomenų tipai turi skirtingus matmenis. Aukštis gali svyruoti nuo 1,5 iki 2 metrų, o svoris – nuo ​​50 iki 150 kg.

Šiame kontekste atstumo tarp klientų matavimas (kaip tarp šokėjų aktų salėje) tampa painus dalykas. Todėl įprasta kiekvieną duomenų stulpelį standartizuoti atimant vidurkį, o paskui padalijus iš dispersijos mato, vadinamo standartiniu nuokrypiu. Taigi visi stulpeliai sumažinami iki vienos vertės, kuri kiekybiškai kinta apie 0.

Pradėkime nuo keturių grupių

Na, dabar visi jūsų duomenys yra sumažinti į vieną patogų formatą. Norėdami pradėti klasterizuoti, turite pasirinkti k – klasterių skaičių k-means algoritme. Įprastas k-reikšmių naudojimo būdas yra paimti skirtingų k rinkinį ir išbandyti juos po vieną (paaiškinsiu, kaip juos pasirinkti vėliau), bet mes tik pradedame, todėl pasirinksime vieną. .

Jums reikės kelių grupių, kurios maždaug atitinka tai, ką norite daryti. Akivaizdu, kad jūs neketinate sukurti 50 grupių ir išsiųsti 50 tikslinių reklaminių el. laiškų porai vaikinų iš kiekvienos grupės. Tai iš karto pažeidžia mūsų pratybų tikslą. Mūsų atveju mums reikia kažko mažo. Pradėkite šį pavyzdį nuo 4 – idealiame pasaulyje tikriausiai padalintumėte savo klientų sąrašą į 4 aiškias grupes po 25 žmones (kas iš tikrųjų mažai tikėtina).

Taigi, jei reikia suskirstyti pirkėjus į 4 grupes, koks yra geriausias būdas juos atrinkti?

Užuot sugadinę gražų Matricos lapą, nukopijuokite duomenis į naują lapą ir pavadinkite jį 4MC. Dabar galite įterpti 4 stulpelius po didžiausios kainos stulpeliuose nuo H iki K, kurie bus klasterių centrai. (Norėdami įterpti stulpelį, dešiniuoju pelės mygtuku spustelėkite stulpelį H ir pasirinkite Įterpti. Stulpelis pasirodys kairėje.) Pavadinkite šias grupes nuo 1 iki 4 grupių. Taip pat galite pritaikyti jiems sąlyginį formatavimą ir, kai tik juos įdiegsite, gali pamatyti, kokie jie skirtingi.

4MC lapas pasirodys taip, kaip parodyta Fig. vienuolika.

Ryžiai. vienuolika. Tušti klasterių centrai dedami ant 4MC lapo

Šiuo atveju visi klasterių centrai yra lygūs nuliui. Bet techniškai jie gali būti bet kokie ir, kas jums ypač patiks – kaip mokyklos šokiuose, jie yra paskirstyti taip, kad sumažintų atstumą tarp kiekvieno pirkėjo ir jo klasterio centro.

Akivaizdu, kad tada šie centrai turės kiekvienos operacijos reikšmes nuo 0 iki 1, nes visi kliento vektoriai yra dvejetainiai.

Bet ką reiškia „išmatuoti atstumą tarp klasterio centro ir kliento“?

Euklido atstumas: atstumų matavimas tiesiogiai

Kiekvienam klientui turite atskirą stulpelį. Kaip išmatuoti atstumą tarp jų? Geometrijoje tai vadinama „trumpiausiu keliu“, o gautas atstumas vadinamas Euklido atstumu.

Trumpam grįžkime į aktų salę ir pabandykime suprasti, kaip ten išspręsti savo problemą.

Padėkime koordinačių ašis ant grindų ir pav. 12 pamatysime, kad taške (8,2) turime šokėją, o (4,4) – klasterio centrą. Norėdami apskaičiuoti euklido atstumą tarp jų, turėsite prisiminti Pitagoro teoremą, su kuria susipažinote nuo mokyklos laikų.

Ryžiai. 12.Šokėjas (8,2) ir klasterio centras (4,4)

Šie du taškai yra 8–4 = 4 metrų atstumu vienas nuo kito vertikaliai ir 4–2 = 2 metrai horizontaliai. Pagal Pitagoro teoremą atstumo tarp dviejų taškų kvadratas yra 4A2+2A2 = 20 metrų. Iš čia apskaičiuojame patį atstumą, kuris bus lygus 20 kvadratinei šaknis, kuri yra maždaug 4,47 m (kaip 13 pav.).

Ryžiai. 13. Euklido atstumas yra lygus kvadratinei šaknei iš atstumų sumos kiekviena kryptimi

Naujienlaiškio prenumeratorių kontekste turite daugiau nei du aspektus, tačiau galioja ta pati koncepcija. Atstumas tarp pirkėjo ir klasterio centro apskaičiuojamas imant skirtumus tarp dviejų taškų kiekvienam sandoriui, padalijus juos kvadratu, sudedant ir paimant kvadratinę šaknį. Pavyzdžiui, 4MS darbalapyje norite sužinoti euklido atstumą tarp 1 grupės centro H stulpelyje ir kliento Adamso užsakymų L stulpelyje.

L34 langelyje pagal Adams įsakymus galite apskaičiuoti skirtumą tarp Adamso vektoriaus ir klasterio centro, jį kvadratu, pridėti ir tada įsišaknyti naudodami šią masyvų formulę (atkreipkite dėmesį į absoliučias nuorodas, leidžiančias tai vilkti formulė į dešinę arba žemyn, nekeičiant nuorodos į klasterio centrą):


(=ŠAKNYS(SUM(L$2:L$33-$H$2:$H$33)A2)))

Masyvo formulė (įveskite formulę ir paspauskite Ctrl+Shift+Enter arba Cmd+Return MacOS, kaip nurodyta 1 skyriuje), nes jos dalis (L2:L33-H2:H33)^2 turi " žinoti", kur susisiekite, kad apskaičiuotumėte skirtumus ir juos išlygintumėte, žingsnis po žingsnio. Tačiau rezultatas galiausiai yra vienas skaičius, mūsų atveju 1,732 (kaip 14 pav.). Jis turi tokią reikšmę: Adamsas atliko tris sandorius, bet kadangi pradiniai klasterio centrai yra lygūs nuliui, atsakymas bus lygus kvadratinei šaknims iš 3, ty 1,732.

Ryžiai. 14. Atstumas tarp klasterio centro 1 ir Adamso

Skaičiuoklėje pav. 2–14, viršutinę eilutę (žr. 1 skyrių) pritvirtinau tarp G ir H stulpelių ir 34 eilutę pavadinau G34 langelyje „Atstumas iki 1 grupės“, kad galėčiau pamatyti, kur yra slinkdamas žemyn.

Atstumai ir narystė grupėje visiems!

Dabar žinote, kaip apskaičiuoti atstumą tarp užsakymo vektoriaus ir klasterio centro.

Dabar laikas pridėti Adamso atstumų skaičiavimą iki likusių klasterio centrų, nuvilkant langelį L34 žemyn į L37 ir rankiniu būdu pakeičiant klasterio centro nuorodą iš H stulpelio į I, J ir K stulpelius toliau pateiktuose langeliuose. Rezultatas turėtų būti šios 4 formulės L34:L37:

(=SQRT(SUM((L$2:L$33-$H$2:$H$33)A2)))
(=SQRT(SUM((L$2:L$33-$I$2:$I$33)A2)))
(=SQRT(SUM((L$2:L$33-$J$2:$J$33)A2)))
(=SQRT(SUM((L$2:L$33-$K$2:$K$33)A2)))
(=ROOT(SUM((L$2:L$33-$H$2:$H$33)A2)))
(=ROOT(SUM((L$2:L$33-$I$2:$I$33)A2)))
(=SQRT(SUM((L$2:L$33-$J$2:$J$33)A2)))
(=SQRT(SUM((L$2:L$33-$K$2:$K$33)A2)))

Kadangi klasterių centrams naudojote absoliučias nuorodas (tai reiškia $ ženklas formulėse, kaip paaiškinta 1 skyriuje), galite nuvilkti L34:L37 į DG34:DG37, kad apskaičiuotumėte atstumą nuo kiekvieno kliento iki visų keturių klasterio centrų. Pavadinkite G stulpelio eilutes nuo 35 iki 37 langelių „Atstumas iki 2 grupės“ ir tt Naujai apskaičiuoti atstumai parodyti pav. 15.

Ryžiai. 15. Atstumų nuo kiekvieno pirkėjo iki visų klasterių centrų skaičiavimas

Dabar žinote kiekvieno kliento atstumą iki visų keturių klasterių centrų. Jų pasiskirstymas į grupes buvo atliktas pagal trumpiausią atstumą dviem etapais taip.

Pirmiausia grįžkime prie Adamso L stulpelyje ir apskaičiuokime minimalų atstumą iki klasterio centro L38 langelyje. Tai paprasta:

Min (L34:L37)
=min (L34:L37)

Norėdami apskaičiuoti, naudojame atitikimo / paieškos pozicijos formulę (daugiau informacijos rasite 1 skyriuje). Įdėję jį į L39, galite matyti langelio numerį iš intervalo L34:L37 (kiekvieną skaičiuoju eilės tvarka nuo 1), kuris yra minimaliu atstumu:

Atitiktis(L38,L34:L37,0) =paieškos padėtis(L38,L34:L37,0)

Šiuo atveju atstumas yra vienodas visoms keturioms klasteriams, todėl formulė pasirenka pirmąjį (L34) ir grąžina 1 (16 pav.).

Ryžiai. 16. Pridedamas klasterių įrišimas į lapą

Taip pat galite vilkti šias dvi formules į DG38: DG39. Jei norite geriau organizuoti, 38 ir 39 eilučių pavadinimus pridėkite prie G stulpelio 38 ir 39 langelių „Minimalus atstumas tarp grupių“ ir „Priskirtas grupė“.

Sprendimų paieška klasterių centrams

Jūsų skaičiuoklė buvo atnaujinta su atstumo skaičiavimais ir nuorodomis į grupes. Dabar, norėdami nustatyti geriausią klasterių centrų padėtį, turime H–K stulpeliuose rasti tas vertes, kurios sumažina bendrą atstumą tarp pirkėjų ir klasterių centrų, prie kurių jie yra prijungti, nurodytą 39 eilutėje. kiekvienas pirkėjas.

Išgirdus žodį „sumažinti“: prasideda optimizavimo etapas, o optimizavimas atliekamas naudojant „Sprendimų paiešką“.

Norėdami naudoti „Rasti sprendimą“, jums reikės rezultatų langelio, todėl A36 susumuosime visus atstumus tarp klientų ir jų grupių centrų:

SUMMA (L38:DG38)
=CUMMA(L3 8:DG3 8)

Ši atstumų nuo klientų iki artimiausių klasterių centrų suma yra būtent ta objektyvi funkcija, su kuria susidūrėme anksčiau, grupuodami Macaknės vidurinės mokyklos auditoriją. Tačiau Euklido atstumas su savo galiomis ir kvadratinėmis šaknimis yra nepaprastai netiesinė funkcija, todėl vietoj simpleksinio metodo turėsite naudoti evoliucinio sprendimo algoritmą.

Šį metodą jau naudojote 1 skyriuje. Simpleksinis algoritmas, jei jį galima naudoti, veikia greičiau nei kiti, tačiau juo negalima skaičiuoti šaknų, kvadratų ir kitų netiesinių funkcijų. „OpenSolver“, kuris naudoja simpleksinį algoritmą, net jei atrodo, kad jam buvo naudojami steroidai, yra toks pat nenaudingas.

Mūsų atveju evoliucinis algoritmas, integruotas į Sprendimų ieškiklį, naudoja atsitiktinės paieškos ir puikaus kryžminimo sprendimo derinį, kad, kaip ir evoliucija biologiniame kontekste, būtų rasti veiksmingi sprendimai.

Turite viską, ko reikia norint nustatyti problemą prieš „Ieškodami sprendimo“:

  • Tikslas: sumažinti bendrus atstumus nuo klientų iki jų klasterių centrų (A36);
  • kintamieji: kiekvienos operacijos vektorius klasterio centro atžvilgiu (H2:K33);
  • sąlygos: klasterių centrų reikšmės turi svyruoti nuo 0 iki 1.

Rekomenduojama turėti „Sprendimo ieškiklį“ ir plaktuką. Mes nustatome užduotį „Ieškome sprendimo“: sumažinkite A36, pakeisdami H2:K33 reikšmes su sąlyga H2:K33<=1, как и все векторы сделок. Убедитесь, что переменные отмечены как положительные и выбран эволюционный алгоритм (рис. 17).

Ryžiai. 17.„Sprendimų paieškos“ nustatymai, skirti 4 centrų klasterizavimui

Tačiau problemos nustatymas dar ne viskas. Turėsite šiek tiek paprakaituoti, pasirinkdami reikiamas evoliucinio algoritmo parinktis spustelėdami mygtuką „Parinktys“ lange „Sprendimų paieška“ ir eidami į nustatymų langą. Patariu nustatyti maksimalų laiką iki 30 sekundžių daugiau, priklausomai nuo to, kiek laiko norite laukti, kol „Sprendimo ieškiklis“ susidoros su savo užduotimi. Fig. 18 Aš nustatiau savo 600 sekundžių (10 minučių). Tokiu būdu galiu paleisti „Rasti sprendimą“ ir eiti pietauti. Ir jei norite anksti nutraukti, tiesiog paspauskite Escape ir išeikite su geriausiu sprendimu, kurį pavyko rasti.

Ryžiai. 18. Evoliucinio algoritmo parametrai

Spustelėkite Vykdyti ir stebėkite, kaip „Excel“ atlieka savo darbą, kol evoliucinis algoritmas susilieja.

Gautų rezultatų prasmė

Kai „Solver“ suteiks jums optimalius grupių centrus, prasidės linksmybės. Pereikime prie studijų grupių! Fig. 19 paveiksle matome, kad Solver nustatė optimalų bendrą 140,7 atstumą ir visus keturis klasterio centrus – sąlyginio formatavimo dėka! – atrodo visiškai kitaip.

Ryžiai. 19. Keturi optimalūs klasterių centrai

Atminkite, kad jūsų klasterių centrai gali skirtis nuo pateiktų knygoje, nes evoliucinis algoritmas naudoja atsitiktinius skaičius ir atsakymas kiekvieną kartą skiriasi. Klasteriai gali būti visiškai skirtingi arba, labiau tikėtina, kitokia tvarka (pavyzdžiui, mano 1 klasteris gali būti labai artimas jūsų 4 klasteriui ir pan.).

Kadangi kurdami lapą įterpėte operacijų aprašymus į B–G stulpelius, dabar galite perskaityti išsamią informaciją Fig. 19, o tai svarbu norint suprasti klasterių centrų idėją.

1 klasteriui H stulpelyje sąlyginis formatavimas pasirenka 24, 26, 17 sandorius ir, kiek mažesniu mastu, 2. Skaitydami šių sandorių aprašymus galite suprasti, ką jie turi bendro: visi jie buvo sukurti pinot noir.

Žvelgdami į I stulpelį pamatysite, kad visos žaliosios ląstelės turi mažus minimalius kiekius. Tai pirkėjai, kurie sandorio metu nenori pirkti didžiulių kiekių.

Tačiau kitus du klasterių centrus, atvirai kalbant, sunku interpretuoti. Užuot interpretavę klasterių centrus, ištirtume pačius klasterio pirkėjus ir nustatytume, kokie pasiūlymai jiems patinka? Tai gali paaiškinti problemą.

Operacijų įvertinimas klasterio metodu

Užuot išsiaiškinę, kurie atstumai iki kurio klasterio centro yra arčiau 1, patikrinkime, kas yra prisirišęs prie kurio klasterio ir kokiems sandoriams jie teikia pirmenybę.

Norėdami tai padaryti, pradėsime nukopijuodami Pasiūlymo informacijos lapą. Pavadinkime kopiją 4MC – TopDealsByCluster. Sunumeruokite stulpelius nuo H iki K šiame naujame lape nuo 1 iki 4 (kaip parodyta 20 paveiksle).

Ryžiai. 20. Lentelės lapo sukūrimas sandorio populiarumui apskaičiuoti naudojant grupes

4MC lape turėjote 1–4 grupių apkaustus 39 eilutėje. Viskas, ką jums reikia padaryti, kad suskaičiuotumėte sandorius pagal grupes, tai pažiūrėkite į stulpelių pavadinimus nuo H iki K 4MC lape – TopDealsByCluster ir pažiūrėkite, kuris lapas 4MC buvo susietas su šia grupe 39 eilutėje, tada sudėkite jų operacijų skaičių kiekvienoje eilutėje. Taip gausime bendrą pirkėjų skaičių šiame klasteryje, kurie atliko sandorius.

Pradėkime nuo langelio H2, kuriame įrašomas pirkėjų skaičius 1 grupėje, kurie priėmė pasiūlymą Nr. 1, ty sausio mėnesio Malbec. Būtina pridėti langelių vertes diapazone L2: DG2 4MC lape, bet tik pirkėjus iš 1 klasterio, o tai yra klasikinis sumif / sumif formulės naudojimo pavyzdys. Ji atrodo taip:

SUMIF("4MC"!$L$39:$DG$39,"4MC – TopDealsByCluster"! H$1,"4MC"!$L2:$DG2)
=CyMMEOra("4MC"!$L$39:$DG$39,"4MC – TopDealsByCluster"! H$1,"4MC"!$L2:$DG2)

Ši formulė veikia taip: pateikiate jai kai kurias sąlygines vertes, kurias ji patikrina pirmoje dalyje "4MC"!$L$39:$DG$39,"4MC, tada palygina su 1 stulpelio antraštėje ("4MC - TopDealsByCluster "!H$1 ), tada kiekvienai atitikčiai prideda šią reikšmę prie 2 eilutės trečiojoje formulės "4MC" dalyje!$L2:$DG2.

Atkreipkite dėmesį, kad naudojote absoliučias nuorodas ($ formulėje) prieš viską, kas susiję su klasterio susiejimu, eilutės numerį stulpelių antraštėse ir užbaigtų sandorių stulpelio raidę. Suabsoliutinę šias nuorodas, galite vilkti formulę bet kur iš H2:K33, kad apskaičiuotumėte sandorių skaičių kitiems klasterių centrams ir sandorių deriniams, kaip parodyta Fig. 21. Kad šie stulpeliai būtų lengviau skaitomi, taip pat galite pritaikyti jiems sąlyginį formatavimą.

Ryžiai. 21. Bendras kiekvieno pasiūlymo operacijų skaičius, suskirstytas į grupes

Pažymėję A–K stulpelius ir taikydami automatinį filtravimą, galite rūšiuoti šiuos duomenis. Rūšiuodami H stulpelį nuo mažiausio iki didžiausio, galite pamatyti, kurie pasiūlymai yra populiariausi 1 klasteryje (22 pav.).

Ryžiai. 22. Klasterio rūšiavimas 1. Pino, pinot, pinot!

Kaip jau minėjau anksčiau, keturi didžiausi šio klasterio sandoriai yra pinot. Šie vaikinai aiškiai piktnaudžiauja filmu „Sideways“. Jei surūšiuosite 2 klasterį, jums taps visiškai aišku, kad tai smulkūs didmeniniai pirkėjai (23 pav.).

Bet kai surūšiuosite 3 grupę, nebus taip lengva ką nors suprasti. Didelės operacijos gali būti suskaičiuotos ant vienos rankos pirštų, o skirtumas tarp jų ir likusių nėra toks akivaizdus. Tačiau populiariausi pasiūlymai turi kažką bendro – gana geros nuolaidos, 5 iš 6 didžiausių pasiūlymų yra putojančiam vynui, o Prancūzija gamina 3 iš 4 produktų. Tačiau šios prielaidos yra dviprasmiškos.

Kalbant apie 4 klasterį, šiems vaikinams dėl tam tikrų priežasčių tikrai patiko rugpjūčio mėnesio šampano sandoris. Be to, 5 iš 6 didžiausių sandorių yra dėl prancūziško vyno, o 9 iš 10 didžiausių sandorių – dėl didelių prekių kiekių. Galbūt tai didelis didmeninės prekybos klasteris, traukiantis į prancūziškus vynus? Nerimą kelia ir 3 ir 4 klasterių sankirta.

Toliau nagrinėjamas studentų segmentavimas pagal subjektyvias savybes (žr. 14.1 poskyrį) ir pagal naudą (žr. 14.4 poskyrį), kurią suteikia aukštojo išsilavinimo įgijimas dieninėse studijose. Segmentavimui naudojamas metodas, pagrįstas klasterių analize, naudojant daugiamatį mastelį, kad būtų galima atlikti išsamesnę analizę.

Segmentavimo kintamieji– savybės ir privalumai – turi turėti kiekybinius balus. Konkrečiai problemai išspręsti buvo naudojami devyni parametrai. Norint taikyti Likerto skalę, kiekvienam parametrui suformuluojami atitinkami teiginiai.

  • 1. Tai geriausias būdas įgyti gilių žinių.
  • 2. Tai galimybė visapusiškam bendravimui ir draugams.
  • 3. Tai vertinga galimybė bendrauti su mokytoju.
  • 4. Tai svarbus žingsnis pradedant karjerą.
  • 5. Studentiškas gyvenimas – nuostabus gyvenimo laikotarpis.
  • 6. Materialinės nuolatinio mokymosi išlaidos yra didelės.
  • 7. Laikas, reikalingas nuolatiniam mokymuisi, yra didelis.
  • 8. Lavina mąstymą pagal specialybę.
  • 9. Dieninis išsilavinimas yra prestižinis.

Naudojamų parametrų rinkinys gali būti daug platesnis. Studentai savo anketose taip pat dažnai nurodo šiuos nuolatinių studijų universitete privalumus ar trūkumus: galimybė plėsti akiratį, galimybė atidėti, galimybė išmokti savidisciplinos ir saviorganizacijos, studijų derinimo sunkumai. ir darbas, svarbus gyvenimo laikotarpis, praktikos trūkumas, galimybė gauti daug informacijos, įtaka tolimesniam tobulėjimui darbe, galimybė ateityje apsispręsti dėl teisingo profesijos pasirinkimo, dalyvavimas visuomenės gyvenime. universitetas.

Duomenų rinkimas

Duomenų rinkimas atliekamas anketiniu metodu. Klausimai formuluojami naudojant Likerto skalę (žr. 8.3 skyrių). Pavyzdžiui, mokinių buvo klausiama, ar jie pritaria ar nesutinka su teiginiais penkių balų skalėje. Literatūroje plačiai naudojama septynių balų skalė, tačiau dažnai respondentui sunku pateikti atsakymus su daugybe gradacijų.

Anketos fragmentas atrodo taip, kaip parodyta fig. 24.2.

Ryžiai. 24.2.

Respondentas turi tik pažymėti „varnelę“, o skaitmenizavimas atliekamas klausimynu. Naudota penkių balų skalė su lygiais nuo 1 iki 5 (1 – visiškai nesutinku, ..., 5 – visiškai sutinku). Į anketą atsakė 19 respondentų – visi mokiniai iš tos pačios grupės, ko, žinoma, neužtenka.

24.7. Segmentavimas pagal savybes, naudojant edukacinio produkto pavyzdį 381

Skaičiavimai klasterinės analizės metodu

Klasterinė analizė (žr. 23.7 poskyrį) plačiai naudojama segmentuojant pagal produkto savybes (žr. 24.3 poskyrį). Segmentavimas klasterine analize kartais vadinamas hierarchinis. Pagal gautus pažymius apskaičiuojami atstumai tarp kiekvieno mokinio pažymių su kiekvienu. Remiantis mokslinės statistikos programų paketu Statistica. Pirmiausia sudaroma Euklido atstumų matrica (euklidiniai atstumai). Klasteriams formuoti buvo naudojama kombinavimo (aglomeracinė) procedūra, naudojant tolimojo kaimyno metodą (visiškas sujungimas). Rezultatai pateikti diagramos pavidalu fig. 24.3.

Ryžiai. 24.3. Dendrograma (DPP) statistika)

Vertikali ašis nurodo atstumą tarp prijungtų grupių (Linkage Distance). Mokiniai pateikiami išilgai horizontalios ašies su skaičiais nuo C_1 iki C 19. Kaip matyti iš dendrogramos, pirmame žingsnyje yra 19 grupių. Pirmajame ir antrajame žingsnyje jungiami taškai 3 su 5 ir 9 su 11. Trečiame žingsnyje jungiami taškai 8 ir 13. Tada sujungimo procesas tęsiamas.

Renkantis galutinį žingsnį ir atitinkamai klasterių skaičių, naudojame aglomeracijos planą (24.4 pav.). Galutinė versija laikoma žingsniu, po kurio atstumas tarp sujungiamų klasterių (Linkage Distance) smarkiai padidėja.

Ryžiai. 24.4.

Pasirenkame skaidinio rezultatą pagal poskyrio rekomendacijas. 23.7. Kaip matyti iš aglomeracijos plano, santykinai staigus atstumas tarp prisitvirtinusių klasterių padidėja 13 ir 17 žingsniuose (žingsnis 24.4 pav.). Todėl reikia pasirinkti tarp 12 ir 16 žingsnių. Vienareikšmiškai pasirinkti paskutinį žingsnį pagal tas pačias sektos rekomendacijas. 23.7 pereikime prie daugiamačio mastelio keitimo.

Segmentavimo rezultatai naudojant daugiamačio mastelio metodą

Be to, norėdami pasirinkti galutinę klasifikavimo parinktį, atsižvelgiame į santykinių taškų padėčių vaizdą, naudodami daugiamačio mastelio metodą, parodytą 1 pav. 24.5, kuris buvo gautas dirbant su Statistica PPP. Išilgai ašių yra du matmenys – 1 matmuo ir 2 matmenys.

Klasteriai turi išgaubtą formą tik 16-ame klasterių analizės žingsnyje, o tai matyti iš tarpgrupinių ribų braižymo rezultatų, pagrįstų daugiamačiu masteliu. Šie rezultatai laikomi galutiniais. Susidarė trys klasteriai ir iš esmės segmentai. Pirmajame klasteryje yra devyni taškai, antrame – trys, trečiame – septyni.

Ryžiai. 24.5.

Segmentų charakteristikos

Segmentai gali būti apibūdinami kiekvieno kintamojo vidutinėmis reikšmėmis, o segmentavimo rezultatai gali būti vizualiai pateikti kiekvieno kintamojo vidutinių verčių profilių pavidalu (24.6 pav.).

Norint pateikti prasmingą, lakonišką segmento aprašymą, jam suteikiamas pavadinimas ir šūkis. Išsamus klasterio aprašymas pateikiamas iš jo profilio. Segmento pavadinimas gali būti pagrįstas kintamaisiais, kurie turi aukščiausią ir žemiausią balą, kaip matyti iš profilių. Profilių palyginimas leidžia nustatyti kiekvieno segmento ypatybes ir „pastatyti“ jį kitų segmentų fone.

Suformuluokime kiekvieno gauto segmento pavadinimą ir duokime šūkį. Pirmas segmentas - pozityvistai: „Išlaidos nėra pagrindinis dalykas“, antra – gyvenimo mylėtojai. „Pagalvokite apie dabartį. Mes

Ryžiai. 24.6.

čia ne dėl prestižo ir karjeros“, – trečiasis – tikslingas: „Prestižas apmoka išlaidas“. Segmento pavadinimui gauti buvo panaudota ši technologija.

Iš tiesų, pagal Fig. 24.6:

  • Dėl pirmasis klasteris Aukšti balai būdingi požymiams (4) „Studencija – nuostabus gyvenimo laikotarpis“ ir (8) „Labai ugdo mąstymą pagal specialybę“. Kartu teiginiai (6) „Medžiagų sąnaudos didelės“ ir (7) „Laiko sąnaudos didelės“ gavo žemus įvertinimus;
  • antrasis klasteris - aukštus balus už teiginius (1) „Galimybė visapusiškai bendrauti ir susirasti draugų“ ir (4) „Studencija yra nuostabus gyvenimo laikotarpis“. Žemi balai gauti už teiginius (3) „Svarbus žingsnis jūsų karjeroje“ ir (9) „Visuotinis išsilavinimas yra prestižinis“;
  • trečias klasteris - aukšti balai už teiginius (6) „Medžiagų sąnaudos didelės“ ir (9) „Dieninis išsilavinimas yra prestižinis“, palyginti žemus balus už (4) „Studencija yra nuostabus gyvenimo laikotarpis“.
  • Čia lengvatos patogiai suprantamos kaip tokio išsilavinimo motyvai.
  • PPP yra taikomųjų programų paketas.
  • Metodo teorija pateikiama poskyryje. 23.6.
  • Kad profilio vaizdas būtų labiau pažįstamas, turite jį pasukti 90° pagal laikrodžio rodyklę.

Rinkos segmentavimas yra formali procedūra, pagrįsta statistinių daugiamatės analizės metodų taikymu tyrimo rezultatams. Yra keturi pagrindiniai metodai, kuriuos galima naudoti norint gauti rinkos segmentus:

1 Tradiciniai metodai:

A priori (a priori);

Klasterio pagrindu.

2 Nauji metodai:

Lankstus segmentavimas;

Komponentinis segmentavimas.

A priori vartotojų rinkos segmentavimo metodas naudojamas tada, kai galima iškelti rinkos segmentavimo hipotezę. Norėdami tai padaryti, turite suprasti vartotojų poreikius, norus ir norus. Vartotojų charakteristikos, tokios kaip vartojimo intensyvumas, poreikiai, pagrindiniai motyvacijos elementai ir jų reikšmės veiks kaip nepriklausomi kintamieji, o segmentavimo kintamieji (amžius, lytis, regionas ir kt.) bus naudojami kaip priklausomi kintamieji.

Naudodamas šį metodą, tyrėjas iš pradžių iškelia rinkos segmentavimo hipotezę, o vėliau ją patikrina marketingo tyrimo metu.

A priori rinkos segmentavimo metodas apima septynis etapus:

1 Segmentavimo pagrindo pasirinkimas. Poreikių, poreikių ir kitų veiksnių, turinčių įtakos vartotojo pasirinkimui, analizė.

2 Segmentavimo kintamųjų parinkimas ir rinkos segmentavimo tinklelio sukūrimas (hipotezė). Atliekamas kriterijų, vartotojų rinkos segmentavimo kintamųjų parinkimas ir pagrindimas, ieškoma tikėtinų sąsajų tarp pagrindo ir kintamųjų, pašalinami prieštaravimai rinkos segmentavimo tinkle.

3 Mėginių ėmimas.

4 Atliekama apklausa ir renkami kiekybiniai duomenys.

5 Segmentai sudaromi pagal respondentų iš galimų pirkėjų suskirstymą į kategorijas.

6 Segmentų profilių nustatymas. Formuojami ir tikrinami rinkos segmentai, ar jie atitinka iškeltą hipotezę.

7 Marketingo strategijų kūrimas kiekvienam rinkos segmentui.

A priori segmentavimo metodas yra dažniausiai naudojamas metodas. Taip yra dėl jo paprastumo, mažos kainos ir technikos, užtikrinančios jo įgyvendinimą, prieinamumo. Tačiau praktikoje dažnai pasitaiko situacijų, kai gana sunku iškelti rinkos segmentavimo hipotezę.

Klasterių metodas yra panašus į a priori metodą, tačiau jis neapibrėžia priklausomo kintamojo – jis ieško natūralių klasterių. Pirma, respondentai iš potencialių pirkėjų, taikant analitinę procedūrą, sugrupuojami į rinkos segmentus. Tada nustatomi kintamieji, kurie gali būti naudojami rinkos segmentui apibrėžti.

Klasterizuojant ieškoma natūralių grupių, o klasifikuojant – grupės formuojamos pagal dirbtinai nurodytus kriterijus.


Vartotojų grupavimas taikant AID metodą yra plačiai paplitęs. Taikant šį metodą pasirenkamas sistemos formavimo kriterijus. Po to imtis suskirstoma į pogrupius, tai yra, sudaromi pogrupiai, turintys didelę sistemos formavimo kriterijaus reikšmę.

Šio metodo trūkumas yra rinkos segmento pasirinkimas. Metodas yra daug darbo reikalaujantis ir negarantuoja tikslaus sprendimo.

Segmentavimas klasterinės analizės metodu vykdomas didėjančia (iš apačios į viršų) būdu. Marketingo tyrimo etape nustatoma daug pirkėjo savybių. Reikalingas ne mažesnis kaip 200 vienetų pavyzdys. Rezultatai apdorojami. Duomenys laikomi universalia skale, kuri lemia parametro sunkumą. Tada išnagrinėjamas kiekvienas vartotojas ir nustatomi vienas į kitą labiausiai panašūs. Panašūs vartotojai sujungiami į grupes ir veikia kaip sudėtinis objektas. Toliau ieškomi objektai, kurie yra labiausiai panašūs vienas į kitą, ir sujungiami į naują klasterį. Procesas baigiasi, kai nepavyksta nustatyti panašių grupių.

Norint įgyvendinti rinkos segmentavimą naudojant klasterizacijos metodą, praktikoje gali būti naudojami statistiniai paketai, tokie kaip SPSS ir NCSS&PASS.

Lankstus rinkos segmentavimas yra dinamiška procedūra, kuri apima lankstumą kuriant segmentus, remiantis vartotojų pageidavimų dėl produktų alternatyvų analize. Bendrosios analizės procedūra yra lankstaus segmentavimo pagrindas. Vienas iš šio metodo privalumų yra tai, kad jis leidžia gana tiksliai nustatyti vartotojų grupes, kai į rinką patenka nauja prekė. Lankstus segmentavimo metodo trūkumai yra didelė kaina, sudėtinga įgyvendinimo procedūra ir galimos klaidos kūrėjo lygiu.

Rinkos segmentavimo komponentinė analizė yra pagrįsta sudėtingais statistinės analizės metodais. Tam reikia didelių skaičiavimo išteklių. Rinkos segmentavimo komponentinės analizės metodą pasiūlė P. Greenas. Šiuo metodu bandoma nustatyti, kokio tipo pirkėjai labiausiai tinka tam tikroms produkto savybėms.

Vakarų ekspertų nuomone, lankstaus ir komponentų rinkos segmentavimo metodas yra grynai akademinis ir nepritaikomas realiame gyvenime.

Atliekant baigiamojo kvalifikacinio darbo pirmąjį skyrių, buvo įgytos teorinės žinios vartotojų rinkos segmentavimo srityje. Nagrinėjami pagrindiniai vartotojų rinkos segmentavimo bruožai. Ištirti rinkos segmentavimo metodai.

Romanyukas E.V.

Rusija, Stavropolis, Šiaurės Kaukazo federalinio universiteto magistro laipsnis

Klasterinės analizės metodų apžvalga ir jų pritaikomumo sprendžiant vartotojų rinkos segmentavimo problemą įvertinimas

anotacija

Straipsnyje aptariamas vartotojų rinkos segmentavimo procesas, sprendimų palaikymo sistemos apibrėžimas, taip pat klasterinės analizės panaudojimas įvairiose veiklos srityse, bendras klasterinės analizės metodų rinkinys marketingo problemoms spręsti.

Raktiniai žodžiai: Segmentavimas, klasterių analizė, duomenų gavyba, sprendimų palaikymas. Segmentavimas, klasterių analizė, duomenų gavyba, sprendimų palaikymas.

Šiuolaikinis rinkos segmentavimo proceso turinys yra rinkodaros koncepcijos evoliucijos rezultatas. Kol gamintojas rinką pradėjo vertinti kaip diferencijuotą struktūrą, priklausančią nuo vartotojų grupių ir produkto vartotojų savybių, jo pažiūros ir sąmonė perėjo įvairius marketingo metodus: masinę, diferencijuotą prekę, tikslinę.

Rinkos segmentavimas, viena vertus, yra būdas rasti rinkos dalis ir nustatyti objektus, į kuriuos nukreipta įmonių rinkodaros veikla. Kita vertus, tai yra valdymo požiūris į įmonės sprendimų priėmimo procesą rinkoje, pagrindas pasirinkti tinkamą rinkodaros elementų derinį.

Segmentavimo objektai pirmiausia yra vartotojai. Ypatingu būdu atrinkti ir turintys tam tikrų bendrų savybių jie sudaro rinkos segmentą. Pagrindinis marketingo dėmesys skiriamas homogeniškų vartotojų grupių, turinčių panašius pageidavimus ir panašiai reaguojančių į rinkodaros pasiūlymus, paieška.

Kad segmentavimo principai būtų sėkmingai įgyvendinti, tenkinamos šios sąlygos:

– įmonės (organizacijos) gebėjimas diferencijuoti marketingo struktūrą (kainas, pardavimo skatinimo būdus, pardavimo vietą, gaminius);

– pasirinktas segmentas turi būti pakankamai stabilus, talpus ir turėti augimo perspektyvų;

– įmonė turi turėti duomenų apie pasirinktą segmentą, išmatuoti jo charakteristikas ir reikalavimus;

– pasirinktas segmentas turi būti prieinamas įmonei, t.y. turėti tinkamus pardavimo ir platinimo kanalus, prekių pristatymo sistemą;

– įmonė turi palaikyti ryšį su segmentu (pavyzdžiui, asmeniniais ir masinės komunikacijos kanalais);

– įvertinti pasirinkto segmento apsaugą nuo konkurencijos, nustatyti konkurentų stipriąsias ir silpnąsias puses bei jų pačių pranašumus konkurencijoje.

Taigi, tik pakankamai išstudijavęs pasirinktą segmentą ir įvertinęs savo potencialą, gamintojas gali apsispręsti dėl segmento pasirinkimo.

Duomenų gavyba yra daugiadisciplinė sritis, kuri atsirado ir vystosi remiantis tokiais mokslais kaip taikomoji statistika, modelių atpažinimas, dirbtinis intelektas, duomenų bazių teorija ir kt.

Duomenų gavyba yra sprendimų palaikymo procesas, pagrįstas paslėptų duomenų šablonų paieška.

Duomenų gavyba – tai procesas, kurio metu neapdorotuose duomenyse atrandamos anksčiau nežinomos, nebanalios, praktiškai naudingos ir interpretuojamos žinios, reikalingos priimant sprendimus įvairiose žmogaus veiklos srityse.

Klasterinė analizė naudojama įvairiose srityse. Tai naudinga, kai reikia klasifikuoti didelį informacijos kiekį.

Rinkodaros srityje tai galėtų būti konkurentų ir vartotojų segmentavimo užduotis. Marketingo tyrimuose klasterinė analizė naudojama gana plačiai – tiek teoriniuose tyrimuose, tiek praktikuojančių marketingo specialistų, kurie sprendžia įvairių objektų grupavimo problemas. Kartu sprendžiami klausimai apie klientų grupes, gaminius ir pan.. Taigi vienas iš svarbiausių uždavinių taikant klasterinę analizę marketingo tyrimuose yra vartotojų elgsenos analizė, būtent: vartotojų grupavimas į vienarūšes klases, siekiant gauti Išsamiausias kiekvienos grupės klientų elgsenos vaizdas ir veiksniai, įtakojantys jo elgesį.

Svarbi užduotis, kurią gali išspręsti klasterinė analizė, yra pozicionavimas, ty nišos, kurioje turėtų būti pozicionuojamas naujas rinkoje siūlomas produktas, nustatymas. Taikant klasterinę analizę, sudaromas žemėlapis, iš kurio galima nustatyti konkurencijos lygį įvairiuose rinkos segmentuose ir atitinkamas produkto charakteristikas galimybei patekti į šį segmentą. Išanalizavus tokį žemėlapį, galima identifikuoti naujas, neužimtas rinkos nišas, kuriose galima pasiūlyti esamus produktus arba kurti naujus.

Duomenų gavyba yra plačiai naudojama rinkodaros srityje.

Pagrindiniai rinkodaros klausimai "Kas parduodamas?", "Kaip parduodamas?", "Kas yra vartotojas?" Klasifikavimo ir klasterizacijos problemų paskaitoje išsamiai aprašomas klasterinės analizės naudojimas sprendžiant rinkodaros problemas, tokias kaip vartotojų segmentavimas.

Kitas paplitęs rinkodaros problemų sprendimo metodų rinkinys yra asociacijų taisyklių paieškos metodai ir algoritmai. Čia taip pat sėkmingai naudojama laiko modelių paieška.

Mažmeninėje prekyboje, kaip ir rinkodaroje, naudojami šie:

– asociacijų taisyklių paieškos algoritmai (nustatant dažnai pasitaikančias prekių rinkinius, kuriuos pirkėjai perka vienu metu). Tokių taisyklių nustatymas padeda išdėlioti prekes į parduotuvių lentynas, sukurti prekių įsigijimo ir talpinimo į sandėlius strategijas ir kt.

– laiko sekų naudojimas, pavyzdžiui, norint nustatyti reikiamus prekių kiekius sandėlyje.

– klasifikavimo ir klasterizacijos metodai, skirti nustatyti klientų grupes ar kategorijas, kurių žinojimas prisideda prie sėkmingo prekių reklamavimo.

Literatūra

  1. Aleksejevas A. A. „Vartotojų segmentavimo metodika“, // „Rinkodaros ir rinkodaros tyrimai Rusijoje“, Nr. 1, 2009 m.
  2. Basovsky L. E. „Rinkodara“, Maskva, INFRA M, 2009, – 426 p.
  3. Goltsovas A. V. „Strateginės rinkodaros panaudojimo įmonėje perspektyvos“. // “Rinkodara”, 2008, Nr.2., p. 72-89.
  4. Croft M. D. „Rinkos segmentavimas“. Sankt Peterburgas, „Petras“, 2008 – 128 p.
  5. Reznichenko B. A. „Kritinė segmentavimo kriterijų analizė“, „Rinkodara Rusijoje ir užsienyje“, Nr.3, 2009 m.

Segmentavimo metodai

Galima nustatyti kai kuriuos „pagrindinius“ segmentavimo metodus. Svarbiausia iš jų – vartotojų klasterinė analizė (taksonomija). Vartotojų klasteriai susidaro sugrupuojant tuos, kurie į užduodamus klausimus pateikia panašius atsakymus. Pirkėjus galima sugrupuoti į klasterį, jei jų amžius, pajamos, įpročiai ir pan. Pirkėjų panašumas grindžiamas skirtingais matais, tačiau dažnai kaip panašumo matas naudojamas svertinis pirkėjų atsakymų į klausimą skirtumų kvadratas. Klasterizacijos algoritmų išvestis gali būti hierarchiniai medžiai arba vartotojų grupavimas į grupes. Yra gana daug klasterių algoritmų.

Pavyzdžiui, JAV plačiai paplitusi sistemų klasterinė analizė, vadinama PRIZM , kuri pradeda klasterizuotis sumažindama 1000 galimų socialinių ir demografinių rodiklių rinkinį. Ši sistema sudaro socialinius ir demografinius segmentus visai JAV teritorijai. Taigi buvo nustatytas 28 klasteris – į šį klasterį patenka asmenys, turintys sėkmingiausią profesinę ar vadovo karjerą. Šis klasteris taip pat atspindi dideles pajamas, išsilavinimą, turtą ir maždaug vidutinio amžiaus. Nors šis klasteris sudaro tik 7 % JAV gyventojų, jis labai svarbus verslininkams, parduodantiems didelės vertės prekes.


Yra ir kitų vartotojų segmentavimo pavyzdžių, pagrįstų klasterių analize. Pavyzdžiui, tarp „psichologinių“ sektorių labai svarbią vietą užima „vartotojo požiūris į prekės naujumą“ (3 pav.)

3 pav

Kaip matyti iš aukščiau pateiktų duomenų, daugiausia vartotojų yra paprasti pirkėjai.

Klasterine analize pagrįstas vartotojų segmentavimas yra „klasikinis“ metodas. Tuo pačiu yra rinkos segmentavimo metodai, pagrįsti vadinamuoju „produkto segmentavimu“ arba rinkos segmentavimu pagal prekės parametrus. Tai ypač svarbu išleidžiant ir parduodant naujus produktus. Ypatingą reikšmę turi produktų segmentavimas, pagrįstas ilgalaikių rinkos tendencijų tyrimu. Naujo produkto kūrimo ir gamybos procesas bei didelių investicinių programų užbaigimas reikalauja gana ilgo laikotarpio, o rinkos analizės rezultatų teisingumas ir jo pajėgumų įvertinimas čia ypač svarbus. Dirbant tradicinėje standartinių gaminių rinkoje, jos talpos apskaičiavimas gali būti atliekamas taikant rinkos sumavimo metodą. Šiuolaikinėmis sąlygomis, siekiant padidinti savo konkurencingumą ir teisingai nustatyti rinkos pajėgumą, įmonei nebeužtenka rinkos segmentaciją atlikti tik viena kryptimi - pagal tam tikrus kriterijus apibrėžti vartotojų grupes. Vykdant integruotą rinkodarą, taip pat būtina segmentuoti patį produktą pagal svarbiausius jo reklamavimo rinkoje parametrus. Šiuo tikslu sudarymo būdas funkciniai žemėlapiai- atlikti savotišką dvigubą segmentavimą pagal produktą ir vartotoją.

Funkciniai žemėlapiai gali būti vieno veiksnio (segmentavimas atliekamas pagal vieną veiksnį ir vienalyčiai produktų grupei) ir daugiafaktoriai (analizė, kurioms vartotojų grupėms skirtas konkretus prekės modelis ir kurie jo parametrai yra svarbiausi. produktų reklamavimas rinkoje) Naudojant sudarytus funkcinius žemėlapius galima nustatyti, kuriam rinkos segmentui konkretus produktas skirtas, kokie funkciniai parametrai atitinka tam tikrus vartotojų poreikius.

Kuriant naujus produktus, ši metodika daro prielaidą, kad turi būti atsižvelgiama į visus vartotojų pageidavimų sistemą atspindinčius veiksnius, o kartu ir į naujos prekės techninius parametrus, kuriais galima patenkinti vartotojų poreikius; nustatomos vartotojų grupės, kurių kiekviena turi savo užklausų ir pageidavimų rinkinį; visi atrinkti veiksniai surikiuojami pagal svarbą kiekvienai vartotojų grupei.

Šis metodas leidžia jau kūrimo stadijoje pamatyti, kokie gaminio parametrai reikalauja dizaino tobulinimo, arba nustatyti, ar yra pakankamai talpi šio modelio rinka.

Pateiksime tokios rinkos analizės pavyzdį, susijusį su kuriamu Apple kompiuterių projektu (1 lentelė) (žr. kitą puslapį)

1 lentelė“. Asmeninių kompiuterių rinkos segmentavimas ir veiksniai, į kuriuos buvo atsižvelgta kuriant jai skirtus produktus (1982 m.) "

Faktoriai Rinkos segmentai pagal vartotojų grupes Modelis
Namie Mokykloje Universitete Į namą. biuras Mažame versle Korporacijoje A IN
Techninės specifikacijos * * *** ** ** ** *** **
Kaina *** *** ** *** *** ** 0 **
Ypatingos savybės * * ** * * * ** *
Patikimumas ** * * ** ** * 0 **
Patogus naudoti ** ** * ** * 0 *** ***
Suderinamumas 0 0 0 0 0 *** 0 0
Periferinė įranga 0 0 0 0 0 *** 0 0
Programinė įranga * * ** ** ** *** * **

*** yra labai svarbus veiksnys

** – svarbus veiksnys

* – nesvarbus veiksnys

0 – nereikšmingas veiksnys

Ši paprasta analizė rodo, kad modelis A yra kompiuteris be rinkos, o modelis B yra tinkamiausias produktas universitetams ir mažoms įmonėms.

Bendrovė kartą statė už kompiuterį A ir pralaimėjo.

Apskritai pasaulinėje praktikoje marketingo segmentavimui taikomi 2 fundamentalūs požiūriai - (žr.: bendroji segmentų analizės schema (4 pav.)) (kitas puslapis)



Pirmojo metodo ribose. vadinami „a priory“, segmentavimo charakteristikos, segmentų skaičius, jų skaičius, charakteristikos ir interesų žemėlapis yra žinomi anksčiau. Tai yra, daroma prielaida, kad šio metodo segmentų grupės jau yra suformuotos. „Prioritetinis“ metodas naudojamas tais atvejais, kai segmentavimas nėra dabartinio tyrimo dalis, bet yra pagalbinis pagrindas sprendžiant kitas rinkodaros problemas. Kartais šis metodas naudojamas, kai rinkos segmentai yra labai aiškiai apibrėžti, kai rinkos segmentų kintamumas nėra didelis. „Prioritetas“ taip pat priimtinas formuojant naują produktą, skirtą gerai žinomam rinkos segmentui.

Taikant antrąjį metodą, vadinamą „post hoc (pagrįstas klasteriais), numanomas segmentavimo charakteristikų neapibrėžtumas ir pačių segmentų esmė. Tyrėjas pirmiausia pasirenka keletą kintamųjų, kurie yra interaktyvūs respondento atžvilgiu (metodas). apima apklausos atlikimą) ir tada, priklausomai nuo išreikšto požiūrio į tam tikrą kintamųjų grupę, respondentai priklauso atitinkamam segmentui. Šiuo atveju tolesnės analizės procese nustatytas interesų žemėlapis laikomas antriniu. Šis metodas yra naudojamas segmentuojant vartotojų rinkas, kurių segmentų struktūra nėra apibrėžta parduodamos prekės atžvilgiu.

Segmentavimas pagal " vienuolynas "

Renkantis segmentų, į kuriuos turėtų būti padalinta rinka, skaičių, jie dažniausiai vadovaujasi tiksline funkcija – perspektyviausio segmento identifikavimu. Akivaizdu, kad formuojant imtį nebūtina įtraukti segmentų, kurių pirkimo potencialas yra gana mažas, palyginti su tiriama preke. Segmentų skaičius, kaip rodo tyrimai, neturėtų viršyti 10; perteklius dažniausiai siejamas su per dideliu segmentavimo ypatybių detalumu ir bereikalingu funkcijų „išliejimu“.

Pavyzdžiui, segmentuojant pagal pajamų lygį, visus potencialius pirkėjus rekomenduojama suskirstyti į vienodos apimties segmentus, atsižvelgiant į tai, kad kiekvieno segmento apimtis būtų ne mažesnė už numatomą paslaugų pardavimo apimtį, remiantis žiniomis apie įmonės gamybos pajėgumų. Sėkmingiausias pavyzdys, paaiškinantis tai, kas išdėstyta, ir parodantis galimybę suskirstyti potencialius vartotojus į stabilių segmentų grupes, gali būti gyventojų segmentavimas pagal pajamas, kai visi gyventojai yra suskirstyti į penkias 20% grupes. Pateiktas pajamų pasiskirstymas pagal penkias 20% gyventojų grupes reguliariai pateikiamas statistikos rinkiniuose ir ataskaitose, panašiai kaip ir lentelėje. 2

2 lentelė ."Pajamų pasiskirstymas pagal gyventojų grupes. %"

Patogumas dirbant su tokiomis segmentų grupėmis yra akivaizdus, ​​ypač kalbant apie jų pajėgumų sekimą.