Metode de segmentare a pieței. Metode de segmentare a pieței Metoda de segmentare a clusterelor

Lucrez în industria de email marketing pentru un site numit MailChimp.com. Ajutăm clienții să creeze buletine informative pentru publicul lor de publicitate. De fiecare dată când cineva numește munca noastră „umplutură de corespondență”, simt o răceală neplăcută în inimă.

De ce? Da, pentru că adresele de e-mail nu mai sunt cutii negre pe care le bombardezi cu mesaje precum grenade. Nu, în marketingul prin e-mail (ca și în alte forme de contact online, inclusiv tweet-uri, postări pe Facebook și campanii Pinterest), companiile obțin o perspectivă asupra modului în care publicul se implică la nivel individual prin urmărirea clicurilor, comenzilor online, distribuirea stărilor pe rețelele sociale, etc. Aceste date nu sunt doar interferențe. Ele vă caracterizează publicul. Dar pentru cei neinițiați, aceste operațiuni sunt asemănătoare cu înțelepciunea limbii grecești. Sau Esperanto.

Cum colectezi datele tranzacționale de la clienții tăi (utilizatori, abonați etc.) și cum le folosești pentru a înțelege mai bine publicul? Când ai de-a face cu mulți oameni, este dificil să studiezi fiecare client în parte, mai ales dacă toți te contactează diferit. Chiar dacă teoretic ai putea ajunge personal la toată lumea, în practică este puțin probabil ca acest lucru să fie fezabil.

Trebuie să vă luați baza de clienți și să găsiți o cale de mijloc între bombardarea aleatorie și marketingul personalizat pentru fiecare client în parte. O modalitate de a atinge acest echilibru este utilizarea grupării pentru a segmenta piața de clienți, astfel încât să puteți atrage diferite segmente ale bazei dvs. de clienți cu conținut, oferte diferite etc.

Analiza cluster este colecția de diferite obiecte și împărțirea lor în grupuri de altele similare. Lucrând cu aceste grupuri - identificând ce au membrii lor în comun și ceea ce îi diferențiază - puteți afla multe despre amestecul de date pe care îl aveți. Aceste cunoștințe vă vor ajuta să luați decizii mai bune și la un nivel mai detaliat decât înainte.

În acest context, gruparea se numește explorator de date mining deoarece aceste tehnici ajută la „extragerea” informațiilor despre relații în seturi uriașe de date care nu pot fi capturate vizual. Iar descoperirea legăturilor în grupuri sociale este utilă în orice industrie - pentru recomandarea de filme pe baza obiceiurilor publicului țintă, pentru identificarea centrelor criminale dintr-un oraș sau justificarea investițiilor financiare.

Una dintre utilizările mele preferate ale grupării este gruparea imaginilor: gruparea fișierelor de imagine care „arata la fel” pentru computer. De exemplu, în serviciile de găzduire a imaginilor precum Flickr, utilizatorii produc o mulțime de conținut, iar navigarea simplă devine imposibilă din cauza numărului mare de fotografii. Dar folosind tehnici de grupare, puteți grupa imagini similare împreună, permițând utilizatorului să navigheze între aceste grupuri înainte de sortarea detaliată.

Învățare automată supravegheată sau nesupravegheată?

În data mining, prin definiție, nu știi dinainte ce fel de date cauți. Ești cercetător. Puteți explica clar când doi clienți arată similar și când arată diferit, dar nu cunoașteți cel mai bun mod de a vă segmenta baza de clienți. De aceea, „a cere” unui computer să segmenteze baza de clienți pentru dvs. se numește învățare automată nesupravegheată, deoarece nu aveți controlul - nu îi spuneți computerului cum să-și facă treaba.

Spre deosebire de acest proces, există învățarea automată supravegheată, care tinde să apară atunci când inteligența artificială ajunge pe prima pagină. Dacă știu că vreau să împart clienții în două grupuri - să spunem, „probabil să cumpere” și „puțin probabil să cumpere” - și să alimentez computerul cu exemple istorice de astfel de clienți, aplicând toate inovațiile unuia dintre aceste grupuri, atunci aceasta este controlul.

Dacă, în schimb, aș spune: „Iată ce știu despre clienții mei și iată cum să spun dacă sunt diferiți sau la fel. Spune-mi ceva interesant”, aceasta este o lipsă de control.

Acest capitol examinează cea mai simplă metodă de grupare numită k-means, care datează din anii 50 și de atunci a devenit un element de bază în descoperirea cunoștințelor de baze de date (DKD) în toate industriile și agențiile guvernamentale.

Metoda k-means nu este cea mai precisă din punct de vedere matematic dintre toate metodele. A fost creată în primul rând din motive de practic și bun simț - ca o bucătărie afro-americană. Nu are un pedigree atât de șic precum cel francez, dar deseori satisface capriciile noastre gastronomice. Analiza cluster cu k-means, după cum veți vedea în curând, este parțial matematică și parțial istorie (despre evenimentele trecute ale unei companii, dacă această comparație se aplică metodelor de educație managerială). Avantajul său neîndoielnic este simplitatea intuitivă.

Să vedem cum funcționează această metodă folosind un exemplu simplu.

Fetele dansează cu fetele, băieții se scarpină în cap

Scopul grupării k-means este de a selecta mai multe puncte din spațiu și de a le transforma în k grupuri (unde k este orice număr pe care îl alegeți). Fiecare grup este definit de un punct în centru, ca un steag înfipt în lună și care semnalează: „Hei, iată centrul grupului meu! Alătură-te dacă ești mai aproape de acest steag decât de celelalte!” Acest centru de grup (numit oficial centroid cluster) este însăși media numelui metodei k-means.

Să luăm ca exemplu dansurile de la școală. Dacă ați reușit să ștergeți oroarea acestui „divertisment” din memorie, îmi pare foarte rău că vă readuc amintiri atât de dureroase.

Eroii exemplului nostru - elevi de la Liceul Makakne care au venit la o seară de dans sub numele romantic „Ball at the Fund of the Sea” - sunt împrăștiați în jurul sălii de întruniri, așa cum se arată în Fig. 1. Am vopsit chiar și parchetul în Photoshop pentru a ne imagina mai ușor situația.

Orez. 1. Elevii Liceului Makakne stau în sala de adunări

Iată exemple de melodii pe care acești tineri lideri ai lumii libere vor dansa stângace (dacă dintr-o dată vrei acompaniament muzical, de exemplu, pe Spotify):

  • Styx: Vino departe
  • Totul, în afară de fata: dispărut
  • Asul de bază: Tot ce vrea ea
  • Soft Cell: Tainted Love
  • Montell Jordan: Iată cum o facem
  • Eiffel 65: Albastru

Acum k-means clustering depinde de numărul de clustere în care doriți să le împărțiți pe cele prezente. Să începem cu trei clustere (ne vom uita la alegerea k mai târziu în acest capitol). Algoritmul plasează trei steaguri pe podeaua sălii de adunare într-un mod acceptabil, așa cum se arată în Fig. 2, unde vedeți 3 steaguri inițiale distribuite pe gen și marcate cu cercuri negre.

Orez. 2. Amplasarea centrelor de cluster inițiale

În gruparea k-means, dansatorii sunt alocați centrului lor cel mai apropiat de cluster, astfel încât o linie de demarcație poate fi trasată între oricare doi centre de pe podea. Astfel, dacă dansatorul se află pe o parte a liniei, el aparține unui grup, dacă este de cealaltă parte, atunci altuia (ca în fig. 3).

Orez. 3. Liniile marchează granițele clusterului

Folosind aceste linii de demarcație, împărțiți dansatorii în grupuri și colorați-i corespunzător, ca în Fig. 4. Această diagramă, care împarte spațiul în poligoane definite prin apropierea de un anumit centru de cluster, se numește diagramă Voronoi.

Orez. 4. Gruparea în grupuri marcate de diferite modele de fundal într-o diagramă Voronoi

Să ne uităm la diviziunea noastră inițială. Ceva nu e în regulă, nu-i așa? Spațiul este împărțit într-un mod destul de ciudat: grupul din stânga jos rămâne gol, iar la limita grupului din dreapta sus, dimpotrivă, sunt mulți oameni.

Algoritmul de grupare k-means mută centrele clusterului între sexe până când ajunge la cel mai bun rezultat.

Cum să determinați „cel mai bun rezultat”? Fiecare persoană prezentă se află la o anumită distanță de centrul grupului său. Cu cât distanța medie de la participanți la centrul grupului lor este mai mică, cu atât rezultatul este mai bun.

Acum introducem cuvântul „minimizare” - vă va fi foarte util în optimizarea modelului pentru cea mai bună locație a centrelor cluster. În acest capitol, veți face Găsește o soluție să mute centrele clusterului de nenumărate ori. Modul în care Solution Finder îl folosește pentru a găsi cea mai bună locație pentru centrele clusterului este de a le muta încet în mod iterativ pe suprafață, luând cele mai bune rezultate găsite și combinându-le (literal împerecherea lor ca caii de curse) pentru a găsi cea mai bună locație.

Deci, dacă diagrama din fig. 4 pare destul de palid, „Căutarea unei soluții” poate aranja brusc centrele ca în Fig. 5. Acest lucru va reduce ușor distanța medie dintre fiecare dansator și centrul său.

Orez. 5. Mutați ușor centrele

Evident, mai devreme sau mai târziu Solution Finder își va da seama că centrele trebuie plasate în mijlocul fiecărui grup de dansatori, așa cum se arată în Fig. 6.

Orez. 6. Agrupare optimă la dansurile școlare

Grozav! Așa arată gruparea ideală. Centrele de grupare sunt situate în centrul fiecărui grup de dansatori, minimizând distanța medie dintre un dansator și cel mai apropiat centru. Acum că gruparea este completă, este timpul să trecem la partea distractivă, care încearcă să înțeleagă ce înseamnă aceste grupuri.

Dacă cunoașteți culoarea părului dansatorilor, preferințele lor politice sau timpul lor în cursa de 100 de metri, atunci gruparea nu are prea mult sens.

Dar odată ce vă decideți să determinați vârsta și sexul celor prezenți, veți începe să vedeți câteva tendințe generale. Micul grup de mai jos este reprezentat de persoane în vârstă, cel mai probabil persoane însoțitoare. Grupul din stânga este format în totalitate de băieți, iar grupul din dreapta este format în totalitate de fete. Și tuturor le este foarte frică să danseze unii cu alții.

Astfel, k-means v-a permis să împărțiți mulți dansatori în grupuri și să corelați caracteristicile fiecărui participant cu apartenența la un anumit grup pentru a înțelege motivul divizării.

Acum probabil că îți spui: „Hai, ce prostie. Știam deja răspunsul înainte de a începe.” Ai dreptate. În acest exemplu - da. Am dat în mod deliberat un astfel de exemplu de „jucărie”, fiind sigur că îl poți rezolva doar privind punctele. Acțiunea se desfășoară într-un spațiu bidimensional, în care gruparea se face pur și simplu cu ajutorul ochilor.

Dar ce se întâmplă dacă conduci un magazin care vinde mii de produse? Unii cumpărători au făcut una sau două achiziții în ultimii doi ani. Alții - zeci. Și fiecare și-a cumpărat ceva.

Cum le grupezi pe un astfel de „ ring de dans”? Să începem cu faptul că acest ring de dans nu este bidimensional, sau chiar tridimensional. Acesta este un spațiu de o mie de dimensiuni pentru vânzarea mărfurilor în care cumpărătorul a achiziționat sau nu bunurile în fiecare dimensiune. Puteți vedea cât de repede problema grupării începe să depășească capacitățile unui „glob ocular de primă clasă”, așa cum le place să spună prietenii mei militari.

Viața reală: K-Means Clustering în marketing prin e-mail

Să trecem la un caz mai concret. Sunt agent de marketing prin e-mail, așa că vă voi da un exemplu de la Mailchimp.com, unde lucrez. Același exemplu va funcționa cu date din retail, conversie de trafic publicitar, social media etc. Interacționează cu aproape orice tip de date legate de ajungerea la clienți cu material publicitar, după care aceștia te aleg necondiționat.

Vin cu ridicata Wine Empire Joey Bag O'Donuts

Imaginați-vă pentru o clipă că locuiți în New Jersey, unde conduceți Joey Bag O'Donuts Wholesale Wine Empire. Este o afacere de import-export al cărei scop este să expedieze cantități mari de vin din străinătate și să-l vândă către anumite magazine de băuturi alcoolice din întreaga lume. Felul în care funcționează această afacere este că Joey călătorește în întreaga lume în căutarea unor oferte incredibile pentru o mulțime de vin.

Găsiți clienți în mai multe moduri: o pagină de Facebook, un cont de Twitter, uneori chiar și e-mail direct - la urma urmei, e-mailurile „promovează” majoritatea tipurilor de afaceri. Anul trecut ați trimis un e-mail pe lună. De obicei, fiecare scrisoare descrie două sau trei tranzacții, să zicem una pentru șampanie și alta pentru malbec. Unele oferte sunt uimitoare - 80% reducere sau mai mult. Drept urmare, ați încheiat aproximativ 32 de tranzacții într-un an și toate au decurs mai mult sau mai puțin bine.

Dar doar pentru că lucrurile merg bine nu înseamnă că nu se pot îmbunătăți. Ar fi util să înțelegeți puțin mai profund motivele clienților dvs. Bineînțeles, privind o anumită comandă, vezi că un anume Adams a cumpărat niște vin spumant în iulie cu o reducere de 50%, dar nu poți determina ce l-a determinat să cumpere. I-a plăcut cantitatea minimă de comandă a unei cutii de șase sticle sau prețul care nu crescuse încă la maxim?

Ar fi frumos să poți împărți lista de clienți în grupuri de interese. Apoi ați putea edita separat scrisori pentru fiecare grup și, poate, să vă promovați și mai mult afacerea. Orice afacere potrivită pentru acest grup ar putea deveni subiectul scrisorii și să apară în primul paragraf al textului. Acest tip de corespondență direcționată poate provoca o adevărată explozie a vânzărilor!

Există o opțiune de a lăsa computerul să facă treaba pentru tine. Folosind gruparea k-means, puteți găsi cea mai bună grupare și apoi încercați să înțelegeți de ce este cea mai bună.

Setul de date original

Documentul Excel pe care îl vom analiza în acest capitol se află pe site-ul cărții. Conține toate datele sursă în cazul în care doriți să lucrați cu el. Sau puteți pur și simplu să urmăriți textul uitându-vă la foile rămase ale documentului.

Pentru început, aveți două surse de date interesante:

  • metadatele pentru fiecare comandă sunt stocate într-o foaie de calcul, inclusiv soiul, cantitatea minimă de vin per comandă, reducerea de vânzare cu amănuntul, dacă plafonul de preț a fost depășit și țara de origine. Aceste date se află într-o filă numită OfferInformation, așa cum se arată în Fig. 7;
  • Știind ce clienți comandă, puteți extrage acele informații din MailChimp și le puteți introduce într-o foaie de calcul cu metadate ale ofertei în fila Tranzacții. Acestea sunt date variabile reprezentate așa cum se arată în Fig. 8, foarte simplu: cumpărătorul și comanda lui.

Orez. 7. Detalii despre ultimele 32 de comenzi

Orez. 8. Lista comenzilor dupa client

Determinarea subiectului măsurării

Și iată provocarea. În problema dansului școlar, măsurarea distanței dintre cei prezenți și identificarea centrelor cluster a fost ușor, nu? Trebuie doar să găsești banda de măsură potrivită! Dar ce să faci acum?

Știți că anul trecut au fost 32 de oferte și aveți o listă de 324 de comenzi într-o filă separată, defalcate în funcție de cumpărător. Dar pentru a măsura distanța de la fiecare cumpărător la centrul cluster, trebuie să le plasați în acest spațiu de 32 de oferte. Cu alte cuvinte, trebuie să vă dați seama ce oferte nu au finalizat și să creați o matrice tranzacție-cu-client în care fiecare client primește propria sa coloană cu 32 de celule de tranzacții umplute cu unele dacă ofertele au fost finalizate și cu zerouri dacă acestea au fost. 't.

Cu alte cuvinte, trebuie să luați acest tabel de oferte orientat pe rând și să îl transformați într-o matrice, cu clienții aranjați vertical și ofertele pe orizontală. Cel mai bun mod de a-l crea este cu tabele pivot.

Algoritm de acțiune: pe foaia cu date variabile, selectați coloanele A și B, apoi introduceți un tabel pivot. Folosind expertul PivotTable, pur și simplu selectați Oferte ca antet de rând și Clienți ca antet de coloană și completați tabelul. Celula va fi 1 dacă perechea client-ofertă există și 0 dacă nu este (în acest caz, 0 este afișat ca o celulă goală). Rezultatul este tabelul prezentat în Fig. 9.

Orez. 9. Tabel rezumat client-oferte

Acum că aveți informațiile despre comandă într-un format matrice, copiați foaia cu informații despre oferte și denumiți-o Matrix. În această nouă foaie de lucru, inserați valorile din tabelul pivot (nu este nevoie să copiați și să lipiți numărul ofertei, deoarece este deja în informațiile despre comandă), începând cu coloana H. Ar trebui să ajungeți cu o versiune extinsă a matricei, complet cu informații despre comandă ca în Fig. 10.

Orez. 10. Descrierile tranzacțiilor și datele comenzilor fuzionate într-o singură matrice

Standardizarea datelor

Acest capitol prezintă fiecare dimensiune a datelor dumneavoastră în același mod, ca informații de ordine binară. Dar în multe situații care implică gruparea, nu putem face acest lucru. Imaginați-vă un scenariu în care oamenii sunt grupați în funcție de înălțime, greutate și salariu. Toate aceste trei tipuri de date au dimensiuni diferite. Înălțimea poate varia de la 1,5 la 2 metri, în timp ce greutatea poate varia de la 50 la 150 kg.

În acest context, măsurarea distanței dintre clienți (cum ar fi între dansatori într-o sală de adunări) devine o chestiune confuză. Prin urmare, este obișnuit să se standardizeze fiecare coloană de date prin scăderea mediei și apoi împărțirea la rândul său cu o măsură de dispersie numită abatere standard. Astfel, toate coloanele sunt reduse la o singură valoare, variind cantitativ în jurul valorii de 0.

Să începem cu patru grupuri

Ei bine, acum toate datele tale sunt reduse la un singur format convenabil. Pentru a începe gruparea, trebuie să selectați k - numărul de clustere din algoritmul k-means. O modalitate obișnuită de a folosi k-means este să luați un set de diferite k și să le testați pe rând (voi explica cum să le alegem mai târziu), dar tocmai am început - așa că vom alege doar unul .

Veți avea nevoie de un număr de clustere care este aproximativ adecvat pentru ceea ce doriți să faceți. Evident, nu intenționați să creați 50 de grupuri și să trimiteți 50 de e-mailuri promoționale direcționate către câțiva bărbați din fiecare grup. Acest lucru învinge imediat scopul exercițiului nostru. În cazul nostru, avem nevoie de ceva mic. Începeți acest exemplu cu 4 - într-o lume ideală, probabil v-ați împărți lista de clienți în 4 grupuri clare de câte 25 de persoane fiecare (ceea ce este puțin probabil în realitate).

Deci, dacă trebuie să împărțiți cumpărătorii în 4 grupuri, care este cel mai bun mod de a le selecta?

În loc să distrugeți frumoasa foaie Matrix, copiați datele într-o foaie nouă și numiți-o 4MC. Acum puteți introduce 4 coloane după prețul ridicat în coloanele H la K, care vor fi centrele clusterului. (Pentru a insera o coloană, faceți clic dreapta pe coloana H și selectați Inserare. Coloana va apărea în partea stângă.) Denumiți aceste clustere Cluster 1 până la Cluster 4. De asemenea, puteți aplica formatare condiționată asupra lor și, ori de câte ori le instalați, pot vedea cât de diferiți sunt.

Foaia 4MC va apărea așa cum se arată în Fig. unsprezece.

Orez. unsprezece. Centrele de cluster goale plasate pe o foaie 4MC

În acest caz, toate centrele clusterului sunt zerouri. Dar din punct de vedere tehnic pot fi orice și, ceea ce îți va plăcea mai ales - ca la un dans de școală, sunt distribuite în așa fel încât să minimizeze distanța dintre fiecare cumpărător și centrul său de cluster.

Evident, atunci aceste centre vor avea valori de la 0 la 1 pentru fiecare tranzacție, deoarece toți vectorii client sunt binari.

Dar ce înseamnă „măsurarea distanței dintre centrul clusterului și client”?

Distanța euclidiană: măsurarea directă a distanțelor

Aveți o coloană separată pentru fiecare client. Cum să măsori distanța dintre ele? În geometrie aceasta se numește „cea mai scurtă cale”, iar distanța rezultată se numește distanță euclidiană.

Să ne întoarcem pentru un moment în sala de adunări și să încercăm să înțelegem cum să ne rezolvăm problema acolo.

Să plasăm axele de coordonate pe podea și în Fig. 12 vom vedea că la punctul (8,2) avem un dansator, iar la (4,4) avem un centru de cluster. Pentru a calcula distanța euclidiană dintre ele, va trebui să vă amintiți teorema lui Pitagora, cu care ești familiarizat încă de la școală.

Orez. 12. Dansator la (8,2) și centrul grupului la (4,4)

Aceste două puncte se află la 8 - 4 = 4 metri una dintre ele pe verticală și 4 - 2 = 2 metri pe orizontală. Conform teoremei lui Pitagora, pătratul distanței dintre două puncte este 4A2+2A2 = 20 de metri. De aici calculăm distanța în sine, care va fi egală cu rădăcina pătrată a lui 20, care este de aproximativ 4,47 m (ca în Fig. 13).

Orez. 13. Distanța euclidiană este egală cu rădăcina pătrată a sumei distanțelor în fiecare direcție

În contextul abonaților la newsletter, aveți mai mult de două dimensiuni, dar se aplică același concept. Distanța dintre cumpărător și centrul clusterului se calculează luând diferențele dintre cele două puncte pentru fiecare tranzacție, punându-le la pătrat, adunând și luând rădăcina pătrată. De exemplu, pe foaia de lucru 4MS, doriți să cunoașteți distanța euclidiană dintre centrul clusterului 1 din coloana H și comenzile clientului Adams din coloana L.

În celula L34, sub ordinele Adams, puteți calcula diferența dintre vectorul Adams și centrul clusterului, o puteți pătrata, adăugați-o și apoi înrădăcinați folosind următoarea formulă pentru matrice (rețineți legăturile absolute, permițându-vă să trageți acest lucru formula la dreapta sau în jos fără a schimba legătura către centrul cluster):


(=ROOT(SUMA(L$2:L$33-$H$2:$H$33)A2)))

Formula de matrice (tastați formula și apăsați Ctrl+Shift+Enter sau Cmd+Retur pe MacOS, așa cum este menționat în Capitolul 1) trebuie utilizată deoarece partea (L2:L33-H2:H33)^2 a acesteia trebuie să „ cunoașteți" unde contactați pentru a calcula diferențele și a le pătra, pas cu pas. Totuși, rezultatul final este un singur număr, în cazul nostru 1,732 (ca în Fig. 14). Are următorul sens: Adams a făcut trei tranzacții, dar din moment ce centrele inițiale ale grupului sunt zero, răspunsul va fi egal cu rădăcina pătrată a lui 3, și anume 1,732.

Orez. 14. Distanța dintre centrul clusterului 1 și Adams

În foaia de calcul din fig. 2-14, am ancorat rândul de sus (a se vedea capitolul 1) între coloanele G și H și am numit rândul 34 din celula G34 „Distanța până la Cluster 1”, doar ca să pot vedea unde era în timp ce defilam în jos pe pagină.

Distanțe și apartenență la cluster pentru toată lumea!

Acum știți cum să calculați distanța dintre vectorul de ordine și centrul clusterului.

Acum este timpul să adăugați calculul Adams al distanțelor la centrele clusterului rămase trăgând celula L34 în jos la L37 și apoi schimbând manual referința centrului clusterului din coloana H în coloana I, J și K în celulele de mai jos. Rezultatul ar trebui să fie următoarele 4 formule în L34:L37:

(=SQRT(SUMA((L$2:L$33-$H$2:$H$33)A2)))
(=SQRT(SUMA((L$2:L$33-$I$2:$I$33)A2)))
(=SQRT(SUMA((L$2:L$33-$J$2:$J$33)A2)))
(=SQRT(SUMA((L$2:L$33-$K$2:$K$33)A2)))
(=ROOT(SUMA((L$2:L$33-$H$2:$H$33)A2)))
(=ROOT(SUMA((L$2:L$33-$I$2:$I$33)A2)))
(=ROOT(SUMA((L$2:L$33-$J$2:$J$33)A2)))
(=ROOT(SUMA((L$2:L$33-$K$2:$K$33)A2)))

Deoarece ați folosit legături absolute pentru centrele de cluster (așa înseamnă semnul $ din formule, așa cum este explicat în Capitolul 1), puteți trage L34:L37 în DG34:DG37 pentru a calcula distanța de la fiecare client la toate cele patru centre de cluster. Denumește rândurile din coloana G din celulele 35 până la 37 „Distanța până la Cluster 2” etc. Noile distanțe calculate sunt prezentate în Fig. 15.

Orez. 15. Calculul distanțelor de la fiecare cumpărător la toate centrele de cluster

Acum știți distanța fiecărui client până la toate cele patru centre de cluster. Distribuția lor în clustere a fost efectuată în funcție de cea mai scurtă distanță în doi pași, după cum urmează.

Mai întâi, să revenim la Adams în coloana L și să calculăm distanța minimă până la centrul clusterului din celula L38. E simplu:

Min (L34:L37)
=min(L34:L37)

Pentru a calcula, folosim formula potrivire/căutare (mai multe detalii în Capitolul 1). Plasându-l în L39, puteți vedea numărul de celule din intervalul L34:L37 (număr fiecare în ordine de la 1), care este la distanța minimă:

Potrivire(L38,L34:L37,0) =poza de căutare(L38,L34:L37,0)

În acest caz, distanța este aceeași pentru toate cele patru grupuri, astfel încât formula îl selectează pe primul (L34) și returnează 1 (Figura 16).

Orez. 16. Adăugarea de legături de grup pe foaie

De asemenea, puteți să glisați și să plasați aceste două formule pe DG38: DG39. Pentru a fi și mai organizat, adăugați titlurile rândurilor 38 și 39 la celulele 38 și 39 din coloana G, „Distanța minimă a grupului” și „Clusterul atribuit”.

Găsirea de soluții pentru centrele cluster

Foaia dvs. de calcul a fost actualizată cu calcule de distanță și legături către grupuri. Acum, pentru a determina cea mai bună locație a centrelor de cluster, trebuie să găsim acele valori în coloanele H la K care minimizează distanța totală dintre cumpărători și centrele de cluster la care sunt atașați, indicate în rândul 39 pentru fiecare cumpărător. .

Când auziți cuvântul „minimizați”: începe etapa de optimizare, iar optimizarea se face folosind „Căutare soluție”.

Pentru a utiliza Găsiți o soluție, veți avea nevoie de o celulă de rezultate, așa că în A36 vom rezuma toate distanțele dintre clienți și centrele lor de cluster:

SUM(L38:DG38)
=CUMMA(L3 8:DG3 8)

Această sumă a distanțelor de la clienți până la cele mai apropiate centre ale acestora este exact funcția obiectivă pe care am întâlnit-o mai devreme în timpul grupării auditoriului Liceului Macakne. Dar distanța euclidiană, cu puterile și rădăcinile pătrate, este o funcție monstruos de neliniară, așa că va trebui să utilizați un algoritm de soluție evolutivă în loc de metoda simplex.

Ați folosit deja această metodă în capitolul 1. Algoritmul simplex, dacă este posibil să-l folosească, funcționează mai rapid decât alții, dar nu poate fi folosit pentru a calcula rădăcini, pătrate și alte funcții neliniare. OpenSolver, care folosește un algoritm simplex, chiar dacă pare că a luat steroizi, este la fel de inutil.

În cazul nostru, algoritmul evolutiv încorporat în Solution Finder folosește o combinație de căutare aleatorie și o soluție excelentă de încrucișare pentru a găsi soluții eficiente, ca și evoluția într-un context biologic.

Aveți tot ce aveți nevoie pentru a seta problema înainte de „Căutarea unei soluții”:

  • obiectiv: reducerea la minimum a distanțelor totale de la clienți la centrele lor de cluster (A36);
  • variabile: vector al fiecărei tranzacții în raport cu centrul clusterului (H2:K33);
  • condiții: centrele cluster trebuie să aibă valori cuprinse între 0 și 1.

Se recomandă să aveți un „Solution Finder” și un ciocan. Am stabilit sarcina „Căutarea unei soluții”: minimizați A36 prin modificarea valorilor lui H2:K33 cu condiția H2:K33<=1, как и все векторы сделок. Убедитесь, что переменные отмечены как положительные и выбран эволюционный алгоритм (рис. 17).

Orez. 17. Setări „Solution Search” pentru clustering în 4 centre

Dar stabilirea unei probleme nu este totul. Va trebui să transpirați puțin, selectând opțiunile necesare pentru algoritmul evolutiv făcând clic pe butonul „Opțiuni” din fereastra „Căutare soluție” și accesând fereastra de setări. Vă sfătuiesc să setați timpul maxim la încă 30 de secunde, în funcție de cât timp sunteți dispus să așteptați ca „Solution Finder” să facă față sarcinii sale. În fig. 18 Am setat-o ​​pe a mea la 600 de secunde (10 minute). În acest fel, pot rula Find a Solution și merg la prânz. Și dacă doriți să îl anulați mai devreme, apăsați Escape și ieșiți din el cu cea mai bună soluție pe care a reușit să o găsească.

Orez. 18. Parametrii algoritmului evolutiv

Faceți clic pe Run și urmăriți cum Excel își face treaba până când algoritmul evolutiv converge.

Semnificatia rezultatelor obtinute

Odată ce Solver vă oferă centrele optime de cluster, distracția începe. Să trecem la grupuri de studiu! În fig. În Figura 19, vedem că Solver a găsit distanța totală optimă de 140,7 și toate cele patru centre de cluster - datorită formatării condiționate! - arata complet diferit.

Orez. 19. Patru centre optime de cluster

Rețineți că centrele dvs. de cluster pot diferi de cele prezentate în carte, deoarece algoritmul evolutiv folosește numere aleatorii și răspunsul este diferit de fiecare dată. Clusterele pot fi complet diferite sau, mai probabil, într-o ordine diferită (de exemplu, clusterul meu 1 poate fi foarte aproape de clusterul dvs. 4 etc.).

Deoarece la crearea foii ați inserat descrieri ale tranzacțiilor în coloanele B până la G, acum puteți citi detaliile din Fig. 19, care este important pentru înțelegerea ideii de centre de cluster.

Pentru clusterul 1, în coloana H, formatarea condiționată selectează meseriile 24, 26, 17 și, într-o măsură mai mică, 2. Citind descrierile acestor meserii, puteți înțelege ce au în comun: toate au fost făcute pe pinot. noir.

Privind la coloana I, veți vedea că toate celulele verzi au cantități minime scăzute. Aceștia sunt cumpărători care nu doresc să cumpere cantități mari în timpul procesului de tranzacție.

Dar celelalte două centre de cluster, sincer vorbind, sunt greu de interpretat. În loc să interpretăm centrele de cluster, ce zici să studiem ei înșiși cumpărătorii din cluster și să stabilim ce fel de oferte le plac? Acest lucru ar putea clarifica problema.

Evaluarea tranzacțiilor folosind metoda cluster

În loc să aflăm ce distanțe față de care centru cluster sunt mai aproape de 1, să verificăm cine este atașat la care cluster și ce tranzacții preferă.

Pentru a face acest lucru, vom începe prin a copia fișa cu informații despre oferte. Să numim copiei 4MC - TopDealsByCluster. Numerotați coloanele de la H la K pe această nouă foaie de la 1 la 4 (ca în Figura 20).

Orez. 20. Crearea unei foi de tabel pentru a calcula popularitatea ofertei folosind clustere

Pe foaia 4MC, aveai legăturile pentru grupurile de la 1 la 4 în rândul 39. Tot ce trebuie să faci pentru a număra ofertele pe cluster este să te uiți la numele coloanelor de la H la K de pe foaia 4MC - TopDealsByCluster, vezi care dintre foaie 4MC a fost conectat la acest cluster în rândul 39 și apoi adună numărul tranzacțiilor lor din fiecare rând. În acest fel vom obține numărul total de cumpărători din acest cluster care au făcut tranzacții.

Să începem cu celula H2, care înregistrează numărul de cumpărători din clusterul 1 care au acceptat oferta numărul 1, și anume Malbec-ul din ianuarie. Este necesar să adăugați valorile celulelor din intervalul L2: DG2 pe foaia 4MC, dar numai cumpărătorii din 1 cluster, care este un exemplu clasic de utilizare a formulei sumif / sumif. Arata cam asa:

SUMIF("4MC"!$L$39:$DG$39,"4MC - TopDealsByCluster"! H$1,"4MC"!$L2:$DG2)
=CyMMEOra("4MC"!$L$39:$DG$39,"4MC - TopDealsByCluster"! H$1,"4MC"!$L2:$DG2)

Această formulă funcționează astfel: îi furnizați niște valori condiționate, pe care le verifică în prima parte „4MC”!$L$39:$DG$39,"4MC, apoi se compară cu 1 din antetul coloanei ("4MC - TopDealsByCluster" „!H$1 ), apoi pentru fiecare potrivire, adaugă această valoare la rândul 2 din a treia parte a formulei „4MC”!$L2:$DG2.

Observați că ați folosit referințe absolute ($ în formulă) înainte de tot ce are legătură cu asocierea clusterului, numărul rândului din antetele coloanei și litera coloanei pentru tranzacțiile finalizate. După ce ați făcut aceste legături absolute, puteți trage formula oriunde din H2:K33 pentru a calcula numărul de tranzacții pentru alte centre de cluster și combinații de tranzacții, ca în Fig. 21. Pentru a face aceste coloane mai lizibile, le puteți aplica și formatare condiționată.

Orez. 21. Numărul total de tranzacții pentru fiecare ofertă, împărțit în clustere

Evidențiind coloanele de la A la K și aplicând autofiltrarea, puteți sorta aceste date. Sortând coloana H de la cel mai mic la cel mai mare, puteți vedea care oferte sunt cele mai populare în grupul 1 (Figura 22).

Orez. 22. Cluster sort 1. Pino, pinot, pinot!

După cum am menționat mai devreme, cele mai mari patru tranzacții pentru acest cluster sunt pinot. Acești tipi abuzează în mod clar de filmul Sideways. Dacă sortați clusterul 2, atunci vă va deveni absolut clar că aceștia sunt mici cumpărători angro (Fig. 23).

Dar când sortați clusterul 3, nu va fi atât de ușor de înțeles nimic. Tranzacțiile mari pot fi numărate pe o parte, iar diferența dintre ele și restul nu este atât de evidentă. Cu toate acestea, cele mai populare oferte au ceva în comun - reduceri destul de bune, 5 dintre cele mai mari 6 oferte sunt la vin spumant, iar Franța este producătorul produsului pentru 3 din 4 dintre ele. Cu toate acestea, aceste ipoteze sunt ambigue.

În ceea ce privește Clusterul 4, acestor tipi le-a plăcut în mod clar oferta de șampanie din august dintr-un motiv oarecare. De asemenea, 5 din cele 6 mari tranzacții sunt pentru vinul francez, iar 9 din primele 10 cele mai mari tranzacții sunt pentru volume mari de mărfuri. Poate că acesta este un grup mare angro care gravitează spre vinurile franceze? Intersecția clusterelor 3 și 4 este și ea îngrijorătoare.

În continuare, luăm în considerare segmentarea studenților după proprietăți subiective (vezi subsecțiunea 14.1) și după beneficii (vezi subsecțiunea 14.4) pe care le oferă obținerea de studii superioare în învățământul cu frecvență. Pentru segmentare, se utilizează o tehnică bazată pe analiza cluster cu utilizarea scalarii multidimensionale pentru o analiză suplimentară, mai completă.

Variabile de segmentare– proprietăți și beneficii – trebuie să aibă scoruri cantitative. Nouă parametri au fost utilizați pentru a rezolva o problemă specifică. Pentru a aplica scara Likert, se formulează enunțuri corespunzătoare pentru fiecare parametru.

  • 1. Acesta este cel mai bun mod de a dobândi cunoștințe profunde.
  • 2. Aceasta este o oportunitate de comunicare completă și de a face prieteni.
  • 3. Aceasta este o oportunitate valoroasă de a interacționa cu profesorul.
  • 4. Acesta este un pas important în începerea unei cariere.
  • 5. Viața de student este o perioadă minunată în viață.
  • 6. Costurile materiale ale învățământului cu normă întreagă sunt mari.
  • 7. Timpul necesar pentru învățământul cu normă întreagă este mare.
  • 8. Dezvoltă gândirea în specialitate.
  • 9. Educația diurnă este prestigioasă.

Setul de parametri care pot fi utilizați poate fi mult mai larg. Studenții în chestionarele lor indică adesea următoarele avantaje sau dezavantaje ale studiului cu normă întreagă la universitate: posibilitatea de a-și lărgi orizonturile, posibilitatea de amânare, posibilitatea de a învăța autodisciplina și autoorganizarea, dificultatea de a combina studiile. și munca, o perioadă importantă în viață, lipsa de practică, posibilitatea de a obține o cantitate mare de informații, influența pentru avansarea ulterioară în muncă, posibilitatea în viitor de a decide alegerea corectă a profesiei, participarea la viața universitate.

Colectare de date

Colectarea datelor se realizează prin metoda chestionarului. Întrebările sunt formulate folosind o scală Likert (vezi Secțiunea 8.3). De exemplu, studenții au fost întrebați despre gradul lor de acord sau dezacord cu afirmațiile pe o scară de cinci puncte. Scara de șapte puncte este utilizată pe scară largă în literatura de specialitate, dar adesea respondentului îi este greu să ofere răspunsuri cu un număr mare de gradații.

Un fragment al chestionarului arată ca în fig. 24.2.

Orez. 24.2.

Respondentului i se cere doar să pună o „bifă”, iar digitizarea se realizează prin chestionar. A fost utilizată o scală de cinci puncte cu niveluri de la 1 la 5 (1 – total dezacord, ..., 5 – complet de acord). 19 respondenți au răspuns la chestionar - toți elevii din aceeași grupă, ceea ce, desigur, nu este suficient.

24.7. Segmentarea după proprietăți folosind exemplul unui produs educațional 381

Calcule folosind metoda analizei cluster

Analiza cluster (a se vedea subsecțiunea 23.7) este utilizată pe scară largă atunci când se segmentează după proprietățile produsului (a se vedea subsecțiunea 24.3). Segmentarea prin analiza cluster este uneori numită ierarhic. Pe baza notelor obţinute se calculează distanţele dintre notele fiecărui elev cu fiecare. Pe baza pachetului de programe de statistică științifică Statistica. În primul rând, este compilată o matrice a distanțelor euclidiene (distanțele euclidiene). Pentru a forma clustere, a fost utilizată o procedură de combinare (aglomerativă) folosind metoda vecinului îndepărtat (legare completă). Rezultatele sunt prezentate sub forma unei diagrame în Fig. 24.3.

Orez. 24.3. Dendrograma (DPP) Statistica)

Axa verticală oferă distanța dintre clusterele atașate (Distanța de legătură). Elevii sunt listați de-a lungul axei orizontale cu numere de la C_1 la C 19. După cum rezultă din dendrogramă, există 19 clustere la primul pas. În primul și al doilea pas, punctele 3 cu 5 și 9 cu 11 sunt combinate. În a treia etapă, punctele 8 și 13 sunt combinate.

La alegerea etapei finale și, în consecință, a numărului de clustere, folosim planul de aglomerare (Fig. 24.4). Versiunea finală este considerată un pas după care distanța dintre clusterele care sunt îmbinate (Distanța de legătură) crește brusc.

Orez. 24.4.

Să alegem rezultatul partiției în conformitate cu recomandările din subsecțiune. 23.7. După cum reiese din planul de aglomerare, o creștere relativ bruscă a distanței dintre clusterele atașate are loc la treptele 13 și 17 (Pasul din Fig. 24.4). Prin urmare, trebuie făcută o alegere între al 12-lea și al 16-lea pas. Pentru a selecta fără ambiguitate pasul final în conformitate cu aceleași recomandări din Sect. 23.7 să trecem la scalarea multidimensională.

Segmentarea rezultatelor utilizând metoda de scalare multidimensională

În plus, pentru a selecta opțiunea finală de clasificare, imaginea pozițiilor relative ale punctelor este luată în considerare folosind metoda de scalare multidimensională din Fig. 24.5, care a fost obținută ca urmare a lucrului cu PPP Statistica. Există două dimensiuni de-a lungul axelor - Dimensiunea 1 și Dimensiunea 2.

Clusterele au o formă convexă doar la a 16-a etapă a analizei clusterului, ceea ce poate fi văzut din rezultatele trasării limitelor intergrupurilor pe baza scalarii multidimensionale. Aceste rezultate sunt acceptate ca finale. S-au format trei grupuri și, în esență, segmente. Primul grup include nouă puncte, al doilea – trei, al treilea – șapte.

Orez. 24.5.

Caracteristicile segmentelor

Segmentele pot fi caracterizate prin valori medii pentru fiecare variabilă, iar rezultatele segmentării pot fi prezentate vizual sub formă de profile pentru valori medii pentru fiecare variabilă (Fig. 24.6).

Pentru a oferi o descriere semnificativă, laconică a segmentului, i se dă un nume și un motto. Din profilul său rezultă o descriere completă a clusterului. Numele segmentului se poate baza pe variabilele care au cele mai mari și cele mai mici scoruri, așa cum se vede uitându-se la profiluri. Compararea profilurilor vă permite să identificați caracteristicile fiecărui segment și să-l „poziționați” pe fundalul celorlalți.

Să formulăm numele fiecărui segment primit și să dăm un motto. Primul segment - pozitivisti: „Costurile nu sunt principalul lucru”, în al doilea rând – iubitori de viață. „Gândește-te la prezent. Noi

Orez. 24.6.

nu aici pentru prestigiu și carieră”, al treilea – intenționat: „Prestigiul plătește costurile”. Următoarea tehnologie a fost utilizată pentru a obține numele segmentului.

Într-adevăr, în conformitate cu fig. 24.6:

  • Pentru primul cluster Scorurile mari sunt tipice pentru atributele (4) „Studiul este o perioadă minunată în viață” și (8) „Dezvoltă gândirea în specialitate”. În același timp, afirmațiile (6) „Costurile materiale sunt mari” și (7) „Costurile de timp sunt mari” au primit evaluări scăzute;
  • al doilea cluster - scoruri ridicate pentru afirmațiile (1) „Oportunitatea de a comunica pe deplin și de a face prieteni” și (4) „Studiul este o perioadă minunată în viață”. S-au obținut scoruri mici pentru afirmațiile (3) „Un pas important în cariera ta” și (9) „Educația la zi este prestigioasă”;
  • al treilea cluster - scoruri mari pentru afirmații (6) „Costurile materialelor sunt mari” și (9) „Educația în timpul zilei este prestigioasă” cu scoruri relativ scăzute pentru (4) „Studiul este o perioadă minunată în viață”.
  • Aici, beneficiile sunt înțelese convenabil ca motive pentru a primi o astfel de educație.
  • PPP este un pachet de programe de aplicație.
  • Teoria metodei este prezentată în subsecțiune. 23.6.
  • Pentru o vizualizare mai familiară a profilului, trebuie să o rotiți cu 90° în sensul acelor de ceasornic.

Segmentarea pieței este o procedură formală bazată pe aplicarea metodelor statistice de analiză multivariată la rezultatele cercetării. Pot fi utilizate patru metode principale pentru a obține segmente de piață:

1 Metode tradiționale:

A priori (a priori);

Bazat pe cluster.

2 noi metode:

Segmentare flexibilă;

Segmentarea componentelor.

Metoda a priori de segmentare a pieţei de consum este utilizată atunci când este posibilă formularea unei ipoteze de segmentare a pieţei. Pentru a face acest lucru, este necesar să înțelegem nevoile, dorințele și dorințele consumatorilor. Caracteristicile consumatorului precum intensitatea consumului, nevoile, elementele cheie ale motivației și semnificațiile acestora vor acționa ca variabile independente, iar variabilele de segmentare (vârstă, sex, regiune etc.) vor fi folosite ca variabile dependente.

Folosind această metodă, cercetătorul propune inițial o ipoteză de segmentare a pieței, apoi o testează în timpul cercetării de marketing.

Metoda a priori de segmentare a pieței include șapte etape:

1 Selectarea unei baze de segmentare. Analiza nevoilor, nevoilor și a altor factori care influențează alegerea consumatorului.

2 Selectarea variabilelor de segmentare și dezvoltarea unei grile de segmentare a pieței (ipoteză). Există o selecție și justificare a criteriilor, a variabilelor de segmentare a pieței de consum, o căutare a legăturilor probabile între bază și variabile și eliminarea contradicțiilor în grila de segmentare a pieței.

3 Eșantionarea.

4 Se efectuează un sondaj și se colectează date cantitative.

5 Segmentele sunt formate pe baza defalcării respondenților dintre posibilii cumpărători în categorii.

6 Stabilirea profilurilor de segment. Segmentele de piata sunt formate si testate pentru conformitatea cu ipoteza propusa.

7 Dezvoltarea strategiilor de marketing pentru fiecare segment de piață.

Metoda de segmentare a priori este cea mai utilizată metodă. Acest lucru se datorează simplității, costului redus și disponibilității tehnicilor care asigură implementarea acestuia. Cu toate acestea, în practică, deseori apar situații când este destul de dificil să se prezinte o ipoteză de segmentare a pieței.

Metoda cluster este similară cu metoda a priori, dar nu definește variabila dependentă - caută clustere naturale. În primul rând, respondenții din rândul potențialilor cumpărători sunt grupați pe segmente de piață folosind o procedură analitică. Apoi sunt identificate variabilele care ar putea fi folosite pentru a defini segmentul de piata.

La grupare, grupurile naturale sunt căutate, iar la clasificare, grupurile sunt formate după criterii specificate artificial.


Gruparea consumatorilor prin metoda AID este larg răspândită. Când utilizați această metodă, este selectat un criteriu de formare a sistemului. După aceasta, eșantionul este împărțit în subgrupe, adică se formează subgrupuri cu o valoare mare a criteriului de formare a sistemului.

Dezavantajul acestei metode este selectarea segmentului de piață. Metoda necesită multă muncă și nu garantează o soluție exactă.

Segmentarea utilizând metoda analizei cluster se realizează într-o manieră ascendentă (de jos în sus). În etapa cercetării de marketing sunt identificate multe caracteristici ale cumpărătorului. Este necesar un eșantion de cel puțin 200 de unități. Rezultatele sunt în curs de procesare. Datele sunt considerate la o scară universală care determină severitatea parametrului. Apoi fiecare consumator este examinat și sunt determinate cele care se aseamănă cel mai mult între ele. Consumatorii similari sunt combinați în grupuri și acționează ca un obiect compus. Apoi, obiectele care sunt cele mai asemănătoare între ele sunt căutate și combinate într-un grup nou. Procesul se termină atunci când grupuri similare nu pot fi identificate.

Pentru a implementa segmentarea pieței folosind metoda de clustering, pachetele statistice precum SPSS și NCSS&PASS pot fi utilizate în practică.

Segmentarea flexibilă a pieței este o procedură dinamică care implică flexibilitate în construirea segmentelor pe baza unei analize a preferințelor consumatorilor pentru alternativele de produse. Procedura de analiză comună stă la baza segmentării flexibile. Unul dintre avantajele acestei metode este că vă permite să determinați destul de precis grupurile de consumatori atunci când un produs nou intră pe piață. Dezavantajele metodei de segmentare flexibilă includ costul ridicat, procedura complexă de implementare și posibile erori la nivelul dezvoltatorului.

Analiza componentelor segmentării pieței se bazează pe tehnici sofisticate de analiză statistică. Necesită resurse de calcul mari. Metoda analizei componente a segmentării pieței a fost propusă de P. Green. Această metodă încearcă să determine ce tip de cumpărători sunt cei mai potriviti pentru anumite caracteristici ale produsului.

Potrivit experților occidentali, metoda de segmentare a pieței flexibile și componente este pur academică și inaplicabilă vieții reale.

În cadrul lucrărilor de la primul capitol al lucrării finale de calificare, s-au obținut cunoștințe teoretice în domeniul segmentării pieței de consum. Sunt luate în considerare principalele caracteristici ale segmentării pieței de consum. Au fost studiate metode de segmentare a pieței.

Romanyuk E.V.

Rusia, Stavropol, masterat de la Universitatea Federală Caucaz de Nord

Revizuirea metodelor de analiză a clusterelor și evaluarea aplicabilității acestora pentru rezolvarea problemei segmentării pieței de consum

adnotare

În această lucrare se discută un articol despre procesul de segmentare a pieței de consum, definirea unui sistem suport de decizie, precum și utilizarea analizei cluster în diverse domenii de activitate, un set comun de metode de analiză a clusterelor pentru rezolvarea problemelor de marketing.

Cuvinte cheie: Segmentare, analiza cluster, Data Mining, suport decizional. Segmentare, analiza cluster, Data Mining, suport decizional.

Conținutul modern al procesului de segmentare a pieței este rezultatul evoluției conceptului de marketing. Înainte ca producătorul să înceapă să ia în considerare piața ca o structură diferențiată în funcție de grupurile de consumatori și proprietățile consumatorilor ale produsului, punctele de vedere și conștiința lui au trecut prin diverse metode de marketing: în masă, diferențiate de produs, direcționate.

Segmentarea pieței este, pe de o parte, o metodă de găsire a părților pieței și de determinare a obiectelor către care sunt direcționate activitățile de marketing ale întreprinderilor. Pe de altă parte, este o abordare managerială a procesului decizional al întreprinderii pe piață, baza pentru alegerea combinației potrivite de elemente de marketing.

Obiectele segmentării sunt, în primul rând, consumatorii. Selectate în mod special și având anumite caracteristici comune, ele constituie un segment de piață. Principalul obiectiv al marketingului este găsirea unor grupuri omogene de consumatori care au preferințe similare și care răspund în mod similar la ofertele de marketing.

Pentru implementarea cu succes a principiilor de segmentare, sunt îndeplinite următoarele condiții:

– capacitatea unei întreprinderi (organizație) de a diferenția structura de marketing (prețuri, metode de promovare a vânzărilor, loc de vânzare, produse);

– segmentul selectat trebuie să fie suficient de stabil, încăpător și să aibă perspective de creștere;

– întreprinderea trebuie să aibă date despre segmentul selectat, să măsoare caracteristicile și cerințele acestuia;

– segmentul selectat trebuie să fie accesibil întreprinderii, adică să aibă canale de vânzare și distribuție adecvate, un sistem de livrare a produselor;

– întreprinderea trebuie să aibă contact cu segmentul (de exemplu, prin canale personale și de comunicare în masă);

– să evalueze protecția segmentului selectat față de concurență, să determine punctele forte și punctele slabe ale concurenților și propriile avantaje în competiție.

Astfel, numai după ce a studiat suficient segmentul selectat și și-a evaluat propriul potențial, un producător poate decide să aleagă un segment.

Miningul de date este un domeniu multidisciplinar care a apărut și se dezvoltă pe baza unor științe precum statistica aplicată, recunoașterea modelelor, inteligența artificială, teoria bazelor de date etc.

Data Mining este un proces de sprijinire a deciziilor bazat pe căutarea modelelor ascunse în date.

Data Mining este procesul de descoperire în date brute necunoscute anterior, nebanale, practic utile și interpretabile, necesare pentru luarea deciziilor în diverse domenii ale activității umane.

Analiza cluster este utilizată în diverse domenii. Este util atunci când trebuie să clasificați o cantitate mare de informații.

În marketing, aceasta ar putea fi sarcina segmentării concurenților și a consumatorilor. În cercetarea de marketing, analiza cluster este folosită destul de larg – atât în ​​cercetarea teoretică, cât și de către specialiștii în marketing care rezolvă probleme de grupare a diverselor obiecte. În același timp, se rezolvă întrebări despre grupuri de clienți, produse etc. Astfel, una dintre cele mai importante sarcini în aplicarea analizei cluster în cercetarea de marketing este analiza comportamentului consumatorului și anume: gruparea consumatorilor în clase omogene pentru a obține. cea mai completă imagine a comportamentului clienților din fiecare grup și a factorilor care influențează comportamentul acestuia.

O sarcină importantă pe care o poate rezolva analiza cluster este poziționarea, adică determinarea nișei în care ar trebui să fie poziționat un nou produs oferit pe piață. Ca urmare a aplicării analizei cluster, se construiește o hartă din care se poate determina nivelul concurenței pe diverse segmente de piață și caracteristicile corespunzătoare ale produsului pentru posibilitatea de a intra în acest segment. Analizând o astfel de hartă, se pot identifica nișe noi, neocupate de piață, în care pot fi oferite produse existente sau pot fi dezvoltate altele noi.

Data Mining-ul este utilizat pe scară largă în domeniul marketingului.

Întrebări de bază de marketing „Ce se vinde?”, „Cum se vinde?”, „Cine este consumatorul?” Prelegerea despre problemele de clasificare și clustering descrie în detaliu utilizarea analizei cluster pentru a rezolva probleme de marketing, cum ar fi segmentarea consumatorilor.

Un alt set comun de metode pentru rezolvarea problemelor de marketing sunt metodele și algoritmii de căutare a regulilor de asociere. Căutarea modelelor temporale este, de asemenea, folosită aici cu succes.

În comerțul cu amănuntul, ca și în marketing, se folosesc următoarele:

– algoritmi de căutare a regulilor de asociere (pentru a determina seturi frecvente de bunuri pe care cumpărătorii le cumpără în același timp). Identificarea unor astfel de reguli ajută la plasarea mărfurilor pe rafturile magazinelor, dezvoltarea strategiilor de cumpărare a mărfurilor și plasarea acestora în depozite etc.

– utilizarea secvențelor de timp, de exemplu, pentru a determina volumele necesare de mărfuri într-un depozit.

– metode de clasificare și grupare pentru identificarea grupurilor sau categoriilor de clienți, cunoașterea cărora contribuie la promovarea cu succes a mărfurilor.

Literatură

  1. Alekseev A. A. „Metodologie pentru segmentarea consumatorilor”, // „Marketing and Marketing Research in Russia”, nr. 1, 2009.
  2. Basovsky L. E. „Marketing”, Moscova, INFRA M, 2009, – 426 p.
  3. Goltsov A. V. „Perspective pentru utilizarea marketingului strategic într-o întreprindere”. // „Marketing”, 2008, nr. 2., p. 72-89.
  4. Croft M. D. „Segmentarea pieței”. Sankt Petersburg, „Petru”, 2008 – 128 p.
  5. Reznichenko B. A. „Analiza critică a criteriilor de segmentare”, „Marketing în Rusia și în străinătate”, nr. 3, 2009.

Metode de segmentare

Pot fi identificate unele metode de segmentare „de bază”. Cea mai importantă dintre ele este analiza clusterului de consumatori (taxonomia). Grupurile de consumatori sunt formate prin gruparea celor care dau răspunsuri similare la întrebările puse. Cumpărătorii pot fi grupați într-un grup dacă au vârsta, veniturile, obiceiurile etc. similare. Similitudinea dintre cumpărători se bazează pe diferite măsuri, dar adesea pătratul ponderat al diferențelor dintre răspunsurile cumpărătorilor la o întrebare este folosit ca măsură a asemănării. Rezultatele algoritmilor de grupare pot fi arbori ierarhici sau grupări de consumatori în grupuri. Există un număr destul de mare de algoritmi de cluster.

De exemplu, în SUA, analiza cluster a sistemelor numite PRIZM este larg răspândită , care începe gruparea prin reducerea unui set de 1000 de indicatori socio-demografici posibili. Acest sistem formează segmente socio-demografice pentru întreg teritoriul SUA. Astfel, a fost identificat clusterul 28 - familiile care se încadrează în acest cluster includ persoane cu cele mai de succes cariere profesionale sau manageriale. Acest grup reflectă, de asemenea, venituri mari, educație, proprietate și aproximativ vârsta mijlocie. Deși acest cluster reprezintă doar 7% din populația SUA, este esențial pentru antreprenorii care vând bunuri de mare valoare.


Există și alte exemple de segmentare a consumatorilor pe baza analizei cluster. De exemplu, printre sectoarele „psihologice”, un loc foarte important îl ocupă „atitudinea consumatorului față de noutatea produsului” (Fig. 3).

Figura 3

După cum se poate observa din datele de mai sus, cel mai mare număr de consumatori sunt cumpărători obișnuiți.

Segmentarea consumatorilor bazată pe analiza cluster este o metodă „clasică”. În același timp, există metode de segmentare a pieței bazate pe așa-numita „segmentare a produselor” sau segmentare a pieței în funcție de parametrii produsului. Este deosebit de important atunci când lansați și comercializați produse noi. Segmentarea produselor, bazată pe studiul tendințelor pieței pe termen lung, este de o importanță deosebită. Procesul de dezvoltare și producere a unui nou produs și finalizarea unor programe mari de investiții necesită o perioadă destul de lungă, iar corectitudinea rezultatelor analizei pieței și evaluarea capacității acestuia este deosebit de importantă aici. În condițiile de lucru pe piața tradițională a produselor standard, calculul capacității acestuia poate fi efectuat prin utilizarea metodei de însumare a pieței. În condiţiile moderne, pentru a-şi spori competitivitatea şi a determina corect capacitatea pieţei, nu mai este suficient ca o întreprindere să realizeze segmentarea pieţei într-o singură direcţie - definirea grupurilor de consumatori după anumite criterii. Ca parte a marketingului integrat, este necesară și segmentarea produsului în sine în funcție de cei mai importanți parametri pentru promovarea acestuia pe piață. În acest scop, metoda de compilare hărți funcționale- realizarea unui fel de dubla segmentare, pe produs si consumator.

Hărțile funcționale pot fi monofactoriale (segmentarea se realizează în funcție de un factor și pentru un grup omogen de produse) și multifactoriale (analiza căror grupuri de consumatori este destinat un anumit model de produs și care dintre parametrii acestuia sunt cei mai importanți pentru promovarea produselor pe piață) Utilizarea hărților funcționale compilate poate fi utilizată pentru a determina pentru ce segment de piață este proiectat un anumit produs, ce parametri funcționali corespund anumitor nevoi ale consumatorilor.

La dezvoltarea de noi produse, această metodologie presupune că trebuie luați în considerare toți factorii care reflectă sistemul de preferințe ale consumatorilor și, în același timp, parametrii tehnici ai noului produs, cu care este posibilă satisfacerea nevoilor consumatorilor; sunt identificate grupuri de consumatori, fiecare cu propriul set de cereri și preferințe; toți factorii selectați sunt clasificați în ordinea importanței pentru fiecare grup de consumatori.

Această abordare vă permite să vedeți deja în stadiul de dezvoltare care parametri ai produsului necesită îmbunătățiri de design sau să determinați dacă există o piață suficient de încăpătoare pentru acest model.

Să dăm un exemplu de astfel de analiză de piață în legătură cu proiectul de computer Apple în curs de dezvoltare (Tabelul 1) (vezi pagina următoare)

Tabelul 1." Segmentarea pieței calculatoarelor personale și factorii luați în considerare la dezvoltarea produselor pentru aceasta (1982) "

Factori Segmente de piață pe grupuri de consumatori Model
Acasă La scoala La Universitate Către casă. birou În afacerile mici Într-o corporație A ÎN
Specificatii tehnice * * *** ** ** ** *** **
Preț *** *** ** *** *** ** 0 **
Calități deosebite * * ** * * * ** *
Fiabilitate ** * * ** ** * 0 **
Convenabil de utilizat ** ** * ** * 0 *** ***
Compatibilitate 0 0 0 0 0 *** 0 0
Echipament periferic 0 0 0 0 0 *** 0 0
Software * * ** ** ** *** * **

*** este un factor foarte important

** - factor important

* - factor neimportant

0 - factor nesemnificativ

Această analiză simplă arată că Modelul A este un computer fără piață, iar Modelul B este cel mai potrivit produs pentru universități și întreprinderi mici.

Compania a pariat odată pe computerul A și a pierdut.

În general, în practica mondială, sunt utilizate 2 abordări fundamentale ale segmentării marketingului - (vezi: schema generală a analizei segmentelor (Fig. 4)) (pagina următoare)



În cadrul primei metode. numită „prioriu”, caracteristicile segmentării, numărul de segmente, numărul acestora, caracteristicile și o hartă a intereselor sunt cunoscute anterior. Adică, se presupune că grupurile de segmente din această metodă au fost deja formate. Metoda „a priori” este utilizată în cazurile în care segmentarea nu face parte din cercetarea curentă, dar servește ca bază auxiliară pentru rezolvarea altor probleme de marketing. Uneori, această metodă este folosită atunci când segmentele de piață sunt foarte clar definite, când variabilitatea segmentelor de piață nu este mare. „A priory” este, de asemenea, acceptabil atunci când se formează un nou produs care vizează un segment de piață binecunoscut.

În cadrul celei de-a doua metode, numită „post hoc (bazată pe clustere), este implicată incertitudinea caracteristicilor segmentării și esența segmentelor în sine presupune realizarea unui sondaj) iar apoi, în funcţie de atitudinea exprimată faţă de un anumit grup de variabile, respondenţii aparţin segmentului corespunzător În acest caz, harta intereselor identificate în procesul de analiză ulterioară este considerată secundară utilizat la segmentarea piețelor de consum, a căror structură de segmente nu este definită în raport cu produsul vândut.

Segmentarea după „ un priorit "

La alegerea numărului de segmente în care ar trebui împărțită piața, acestea sunt de obicei ghidate de funcția țintă - identificarea segmentului cel mai promițător. Evident, la formarea unui eșantion, nu este necesar să se includă segmente al căror potențial de cumpărare este destul de mic în raport cu produsul studiat. Numărul de segmente, după cum arată studiile, nu ar trebui să depășească 10, de obicei, este asociat cu detalii excesive ale caracteristicilor de segmentare și duce la „încețoșarea” inutilă a caracteristicilor.

De exemplu, la segmentarea după nivelul veniturilor, se recomandă împărțirea tuturor potențialilor cumpărători în segmente de volum egal, ținând cont de faptul că volumul fiecărui segment este cel puțin nu mai mic decât volumul estimat al vânzărilor de servicii, pe baza cunoștințelor capacitatea de producţie a întreprinderii. Cel mai de succes exemplu care explică cele de mai sus și demonstrează posibilitatea împărțirii potențialilor consumatori în grupuri de segmente stabile poate fi segmentarea populației în funcție de venit, atunci când întreaga populație este împărțită în cinci grupuri de 20%. Distribuția prezentată a veniturilor pe cinci grupuri de 20% populație este prezentată în mod regulat în culegeri și rapoarte statistice, similare cu cele prezentate în tabel. 2

masa 2 ."Distribuția veniturilor pe grupuri de populație. %"

Comoditatea de a lucra cu astfel de grupuri de segment este evidentă, mai ales în ceea ce privește urmărirea capacității acestora.