Regularnie czytam blog Filozofia marketingu pisany przez [[Macieja Tesławskiego]]. Wśród wielu powodów, dla których to robię są: stosowanie w pracy Brzytwy Ockhama (zwanej nie raz ekonomia myślenia, choć on sam chyba tego tak na swoim blogu nie nazywa) oraz to, że to co pisze o marketingu jest logiczne co bardzo lubię u ludzi (nie znoszę zaś pozbawionego konkretów bełkotu, którego niestety nie brakuje). Czytając kolejny wpis na jego blogu trafiłem na coś co pchnęło mnie to pewnych refleksji i zastanowienia:
Programy retencyjne mogą być B2B, B2C i multipartnerskie, lojalnościowe mogą być tylko B2C bo w biznesie decyzje zakupowe podejmuje się w znacznym stopniu racjonalnie a nie emocjonalnie.
Jeśli chodzi o ocenę działających programów retencyjnych, to podstawowy błąd jaki widzę to niewykorzystywanie bazy informacji o uczestnikach programu przez firmy. To jest potężny zbiór informacji o zachowaniach poszczególnych konsumentów, w połączeniu z danymi demograficznymi pozwala na ?poznanie? profilu najbardziej wartościowych konsumentów. Nie zauważyłem aby ktokolwiek to wykorzystywał. Dzieje się tak zapewne dlatego, że bazy danych rosną w postępie geometrycznym i przerastają możliwości ich bieżącego wykorzystywania. (źr. Do znudzenia o tej lojalności? | Filozofia marketingu.)
Celowo cytuję tak obszerny fragment (liczę na wybaczenie u autora) by zachować kontekst tego co wytłuściłem. W czym problem? W [[brzytwie Ockhama]] i tym…
…czy aby na pewno trzeba analizować te miliony zdarzeń.
Jak to się ma do systemów CRM? Prawdą jest, że lawinowo przybywa danych w bazach systemów CRM, których przetwarzanie potencjalnie może przynieść korzyści jednak nie prawdą jest, że zawsze im więcej tych danych tym lepiej. Mam cichą nadzieję, że ten krótki artykuł poszerzy tezy przytoczonego cytatu.
Marketingiem zajmuje się niejako z innej strony: modeluję zjawiska nim rządzące i muszę go rozumieć (stąd Tesławski jako jedna z kluczowych lektur po M.E.Porterze). Zgodnie z zasadą Arystotelesa: podstawą zrozumienia jest poznanie przyczyn. Analiza zjawisk, np. związanych z zachowaniami klientów, nie wymaga więc poznania setek czy milionów przypadków ich zachowań. Wymaga poznania i rozumienia tego czym się ci klienci kierują, co spowodowało takie a nie inne ich zachowania. Celem działań marketingowych (w rozumieniu analizy rynku) nie jest analiza historii a prognozowanie. Historie analizujemy by móc przewidywać jej dalszy ciąg i analiza historii to narzędzie a nie cel sam w sobie. Po drugie analiza i prognozowanie to nie wyręczanie menedżerów od podejmowania decyzji (co wielu mam wrażenie jednak robi) a jedynie wspomaganie ich w ich podejmowaniu.
Przykład pokrewny: poprawa jakości prognoz pogody ma swoje źródło nie w rosnącej ilości danych zebranych o pogodzie a w jakości modelu prognostycznego. Kiedyś prognozy pogody polegały na wyszukaniu w historii sytuacji najbliższej stanowi obecnemu, sprawdzeniu “co było potem” i uznawaniu, że “teraz też tak będzie”. Jednak to można sprowadzić to prognozowania na bazie “jak długo Indianie zbierali chrust” by ocenić nadchodzącą zimę. Obecne prognozy pogody są tworzone na bazie modeli atmosfery i zjawisk atmosferycznych: możliwe jest przewidywanie czegoś co nigdy w historia nie zaszło. Dane historyczne posłużyły do stworzenia tego modelu, potem do jego testowania (i nadal jest ulepszany…).
Inny przykład: jeżeli chce przewidzieć co się stanie gdy uderzę kulę kijem bilardowym, wystarczy dosłownie kilka obserwacji, kolejne już niczego nowego nie wniosą to stwierdzenia, że kula przemieści się w kierunku zbliżonym do kierunku uderzenia. Ktoś zapewne zauważył słowo “zbliżony” i mógłby forsować tezę, że należy powiększyć liczbę obserwacji. Tu zacytuję:
Wyobraźmy sobie kogoś, kto chce napisać program symulujący grę w snookera. Problem ten może zostać opisany przypadkami użycia opisującymi powierzchownie cechę: “Gracz uderza biała kulę, która przemieszcza się z pewną prędkością, ta po określonym czasie uderza czerwoną kulę pod określonym kątem, uderzona czerwona kula przemieszcza się na pewną odległość w pewnym kierunku.” Możesz sfilmować setki tysięcy takich uderzeń, zarejestrować parametry każdego uderzenia i jego skutki. Jednak tą metodą i tak nie stworzysz nawet dość dobrej symulacji. Aby napisać na prawdę dobrą grę, powinieneś raczej zrozumieć prawa rządzące ruchem kul, ich zależność od siły i kierunku uderzenia, kierunku itp. Zrozumienie tych praw pozwoli Ci znacznie łatwiej napisać dobre oprogramowanie.” (źr. Analysis Patterns. Reusable Object Models, Martin Fowler, Addison-Wesley, 1997)
Tak więc owszem, zbieranie danych np. o tym jakie, za co i kto zbiera punkty kupując coś w sklepie ma sens tylko do pewnego poziomu. Jeżeli chcemy na prawdę przewidzieć skutki naszych działań musimy zrozumieć zjawisko i zbudować jego model.
Tak więc skoro “… potężny zbiór informacji o zachowaniach poszczególnych konsumentów, w połączeniu z danymi demograficznymi pozwala na ?poznanie? profilu najbardziej wartościowych konsumentów”. Ten profil, jeśli powstaje, to właśnie model (ja to tak postrzegam). Jeśli będzie poprawny, będziemy w stanie z bardzo dużym prawdopodobieństwem przewidywać zachowania konsumentów. Czy tych danych musi być dużo? Czy rosnąca ilość tych danych wpłynie na poprawę jakości prognoz zachowań? Nie sądzę, gdyż prognozy bazujące na analizie trendów polegają tylko na ocenie tego, z jakim prawdopodobieństwem powtórzy się historia. Jeżeli chcemy ocenić nową kampanię, dane te – jako trend – są w zasadzie bezwartościowe: nigdy nie dadzą jako efekt niczego nowego, tylko coś, co już kiedyś było.
Dlatego hurtownie danych i tak zwane systemy [[Business Inteligence]], wszelkie systemy wspomagania decyzji, to albo analiza historii albo prognozowanie oparte na modelach. W kwestii marketingu lepiej jest, moim zdaniem, opracować model zjawiska, a do tego nie potrzebne są duże ilości danych a jedynie minimalny [[zestaw danych reprezentatywnych]] i to się nazywa zasadą ekonomii myślenia. Wielką zaś sztuką projektowania hurtowni danych dla systemów BI nie jest samo gromadzenie danych a właśnie ich odsiewanie, dlatego systemy analityczne integrowane z systemami CRM, te przeładowane danymi, bywają czasem bardziej szkodliwe niż pomocne.
Zgadzam się w pełni, że model zachowań jest ważniejszy od nich samych. Problem leży tylko w tym, że tym bliższy rzeczywistości model, im więcej danych było podstawą do jego stworzenia. A tych danych, sporo, firmy mają i nie korzystają. Nie znam się na projektowaniu procesów, ale logicznie rozumując, jeśli już coś mam, to powinienem z tego korzystać, dla własnego dobra przede wszystkim.
Zgadzam się z tym, że jeśli coś mam to powinienem z tego korzystać jednak tu pojawia się moim zdaniem “klęska urodzaju”. Faktycznie jest tak, że nieraz ilość danych staje się “nie do przerobienia” jakimś rozsądnym kosztem. Nie dziwi mnie, że dane nie są wykorzystane (jest ich za dużo, koszt przetwarzania nie zwróci się), dziwi mnie, że mimo to dane te są kolekcjonowane.
W kwestii dokładności: jeżeli mowa o metodach analizy trendów, analizie technicznej, większa liczba danych źródłowych daje dokładniejszy statystycznie wynik ale to wciąż ocena z jakim prawdopodobieństwem powtórzy się historia. Do zbudowania modelu zjawiska wystarczy pewna “mała” liczba danych reprezentatywnych. Następnie model jest testowany, to jest sprawdza się czy zachowanie modelu jest tożsame (bliskie) zachowaniu modelowanego zjawiska. Jeśli jest zgodność, uznaje się model za poprawny. Bardzo ciekawe opisy na ten temat można znaleźć w książce Psychologia Ekonomiczna, Tyszka Tadeusz (red.), Wydawca: Gdańskie Wydawnictwo Psychologiczne.
Panowie,
gdyby słuszna była teza, że jeśli coś posiadam to należy tego używać, to należałoby zalecić np. użycie poduszki powietrznej w samochodzie raz do roku.
Nie mamy również podstaw do oceny czy koszt przetwarzanej informacji się zwróci czy nie w przypadku analizy… ponieważ ocena wartości informacji może zostać dokonana dopiero PO tejże analizie… (a wydawało się to oczywiste).
Co do użycia danych reprezentatywnych – wszystko ok, dopóki mówimy o analizie zjawisk trwałych, lub zawężamy cały zakres do wybranego okresu czasu. I tak zresztą nie uciekniemy od problemu oceny reprezentatywności posiadanych danych. Jeśli do tego dojdzie nam zmienność zjawisk w czasie, to kolekcjonowanie dużej ilości danych przy bardzo niskim koszcie ich składowania oraz operowania nimi jest po nie dość że racjonalne, to zwyczajnie użyteczne.
Wystarczy przyjżeć się praktykom podmiotów, które potrafią z tych danych zrobić właściwy użytek – a więc zbierać właściwie, właściwie przetwarzać, a na końcu przekuć to na konkretne, gotowe do skapitalizowania wartości.
Czyli wracamy do świadomości celu działania i świadomości reguł rządzących postępowaniem w danej materii.
Istotne jest, że trudno przewidzieć które dane przyniosą znaczący postęp w rozwoju modelu, których zaś przerobienie skończy się jedynie potwierdzeniem słuszności modelu obecnie przyjętego. Z teorii informacji wynika iż w pierwszym przypadku dane charakteryzują się wyższą wartością, niemniej w drugim również wpływają na rozwój modelu poprzez potwierdzenie powtarzalności założeń.
Wobec tego twierdzenie, że przetworzenie kolejnych danych nie skutkujące modyfikacją modelu jest marnotrawstwem jest blędne.
Oczywiście problem pojawia się w chwili, kiedy model został potwierdzony wielokrotnie, lecz z różnych przesłanek wiadomo iż analiza kolejnych danych może – lecz nie musi – przynieść przełom w postaci uzyskania informacji wymagających korekty modelu.
W takim przypadku możemy mieć do czynienia z analizą danych nie przynoszącą zmiany i narastającym poczuciem (na poziomie emocjonalnym, np. u menedżerów) marnotrawienia czasu poświęcanego na analizę.
W opisanej sytuacji (o której prawdopodobnie pisze autor niniejszego bloga) konieczne jest faktycznie zastosowanie pewnej ekonomii myślenia (która akurat w danym przypakdu z Brzytwą Ockhama niewiele ma wspólnego), polegającej na prowadzeniu analizy zorientowanej na anomalie i/lub prowadzeniu analizy jedynie w przypadku zaistnienia zmiany w istotnych dla modelu czynnikach zewnętrznych (zmiany prawne, trendy u odbiorców, technologia, itp.).
Przeprowadzenie jednak tych analiz wymaga danych, również historycznych.
Prowadzi to do prostej konkluzji, że gromadzenie danych bez ich wykorzystania jest jak najbardziej działaniem racjonalnym, podobnie jak podejmowanie analizy doraźnie na podstawie tych danych.
Realnym problemem jest brak właściwego podejścia do gromadzenia danych, jak i analizy wogóle oraz brak uprocesowienia (czyt. dokładnego zdefiniowania jasnych reguł postępowania) zdarzeń analizy i przetwarzania danych business intelligence, mających na celu bieżącą optymalizację modelu. U menedżerów taki brak wiedzy może być zrozumiały, ze względu na specjalizację naogół w innych dziedzinach wiedzy.
Z tego powodu warto, aby osoby zajmujące się analizą wogóle, jak i poruszające temat business intelligence potrafiły właściwie nakierować i wyjaśnić.
Niestety – i tu należy się z autorem bloga zgodzić – czasem, a nawet dość często można spotkać osoby, które oznajmiając iż w temacie mają coś do powiedzenia, wysuwają błędne tezy, wdają się w dyskusję błądząc, co sprawia wrażenie, że właściwie jedynie prowokują otoczenie (jak i środowisko), aby czegoś dopiero się dowiedzieć, czy też wyręczyć się w łączeniu faktów czyimś doświadczeniem, lub zdolnością rozumowania.
W sumie – postępowanie całkiem słuszne, dla kogoś kto utknął w niejasnej dla siebie materii.
Bardzo celne uwagi, ja zaś wytłumaczę się. Powołując się na ekonomię myślenia (ową brzytwę Ockhama), miałem na myśli często spotykane mnożenie bytów w kwestii tego do czego hurtownia i BI danych służą, uważam, że tak na prawdę do analizy korelacji, prognozowania. W kwestii “nadmiaru danych”: nazywam to syndromem piwnicy. Gdyby piwnica miała nieograniczoną pojemność gromadzilibyśmy tam niemalże wszystko. Ograniczona objętość piwnicy zmusza to racjonalizacji decyzji, przechowujemy tylko to co planujemy potencjalnie powtórnie i korzystnie wykorzystać. Ekonomia tu zmusza do myślenia o kosztach składowania, czasem taniej jest coś jednak wyrzucić. Kolejny temat na osobny artykuł więc to retencja danych w hurtowniach.
Super, robi się (przynajmniej dla mnie) coraz jaśniej.
Muszę zauważyć, że zapełnianie piwnicy po brzegi ma swoje racjonalne bądź co bądź uzasadnienie. Nawet jeśli jest to wynik naszych ewolucyjnych nawyków, to jednak w dzisiejszej ekonomii doprawdy trudno zgadnąć, co jutro, czy za rok da nam przewagę rynkową. Ponadto – koszt przechowywania danych realnie spada i to w szybkim tempie. Kłopotliwy jest jedynie wówczas, jeśli dokładanie danych prowadzi do podniesienia kosztu wyłowienia tych w danym momencie potrzebnych. Tą drogą wracamy do dobrego przygotowania struktur oraz klasyfikacji danych przy składowaniu. Analogicznie – jeśli wrzucamy wiele dziś nie potrzebnych rzeczy do piwnicy, to możemy to robić, o ile tylko wcześniej odpowiednio przygotujemy półki i drogi poruszania się, tak aby nie doprowadzić do sytuacji, gdzie dorzucając kolejną rzecz dołożylibyśmy sobie pracy przy wyszukaniu pozostałych.
I nazwanie tej zależności wprost jest co najmniej bardzo istotne dla całego przedstawionego rozumowania – nie możemy go pomijać.
Rozumiem, że Brzytwę Ockhama faktycznie warto zastosować w czasie projektowania właśnie struktury, czy też przekładania celu gromadzenia i przetwarzania danych na konkretne działania (metody kodyfikacji) oraz określenie zakresu danych. Tu faktycznie – posługiwanie się założeniami podejrzanymi (czyli precyzyjniej – złożonymi, opartymi na innych założeniach, itd) jest – i musi być – zbyt kosztowne wobec postawionych celów projektu (niezależnie co te cele stanowi, lecz tylko tak długo jak cele te spełniają wymogi mierzalności).
Jeśli zaś podmiot dążyłby do ochrony przed przyszłą potencjalną przewagą konkurencji czerpaną z posiadania określonych informacji i zdolności ich przetwarzania, lub do elastyczności bazującej na dostępności do szerokiej wiedzy statystycznej, wówczas nie zakres gromadzonych danych powinien być ograniczony jedynie przeznaczonymi funduszami, ewentualnie typowo futurystycznym prognozowaniem.
O ile takie podejście (czy też takie formułowanie projektu) godzi w postulaty dotyczące planowania projektów dot. przetwarzania danych, o tyle trudno przeoczyć, że wiele sukcesów na polu prób uzyskania przewagi rynkowej nad konkurentami wśród liderów wielu branż opartych jest o postępowanie niezgodne z Brzytwą Ockhama – czyli oparte o założenia, w dodatku skomplikowane, lub oparte na innych założeniach.
Słowem – gromadzenie “nadmiernych” danych, jak każde działanie ryzykowne, warto podejmować o ile jest się świadomym kosztów, liczy się na spory zysk (o to najczęściej musi pozostać kwestią wiary), no i – co najważniejsze – że jest się świadomym że jest to ryzyko.
Po prostu warto takie projekty wyraźnie oddzielać zarówno w kwestii struktury teleinformatycznej, jak i pozycji budżetowych.
Treść artykułu średnio licuje ze wstępem. Wywód nielogiczny (część dot. prognoz pogodowych sprzeczna wewnętrznie), poza tym mocno odbiega od reguł języka polskiego.
Pomogłoby, gdybym wzorem dobrego felietonu mógł dowiedzieć się jaka jest główna teza już na początku, później zapoznał się z jej rozwinięciem i dyskusją (aby tylko logicznie trzymało się to całości) i jakiś finał – z tego co pamiętam, to już w szkole podstawowej uczono tego i szkoda że bezskutecznie.
Fajnie by było, gdyby to strawniej napisać. Może warto popracować nad warsztatem?
pozdrawiam
Dziękuję za uwagi. Uzupełniłem opis mechanizmu prognoz pogody (choć sprzeczności się w nim nie dopatrzyłem). Główną tezą jest: nie chodzi o ilość zebranych danych a o to w jakim celu się je zbiera i jak z nich korzysta. Należy pamiętać, że nadmierna ilość danych nie doda wartości temu zbiorowi danych, zaś koszt przetwarzania danych w hurtowniach rośnie wraz z ich ilością.
Dziękuję za wyjaśnienie. Po dłuższej lekturze można uchwycić tę tezę (lub podobną), lecz dobrze że pojawia się wprost.
Cel działania (jego jasność) to fundament bez którego nie warto działania podejmować. Temu twierdzeniu trudno zaprzeczyć. Co do dalszego zdania, to wydaje mi się, że jest problem ze słowem “nadmierna”. To takie trochę masło maślane – “jak się naleje za dużo, to się przeleje”.
W artykule wydaje się, że jest postawiona teza iż “jeśli masz wątpliwość czy Twoja ilość danych aby nie jest nadmierna, to raczej jest i przestań je gromadzić, a skup się na konstrukcji poprawnego modelu w oparciu o nie”.
Nie mam pojęcia czy to miał Pan na myśli, ale jeśli tak, to wskazówka ogromnie ryzykowna dla potencjalnego czytelnika. W podobnym chyba zresztą stopniu co niejasna.
pozdrawiam
Dokładnie to miałem na myśli. Traktuję to nie tyle jednak jako wskazówkę co pewne memento. Mimo tego,że pojemności pamięci i moce procesorów rosną są one jednak skończone. Moja obawa to zjawisko znane już w fotografii: robienie zdjęć stało się bardzo łatwe, ich składowanie tanie. Jednak zamiast wzrostu jakości fotorelacji mamy do czynienia z rosnącym kłopotem wynajdywania przydatnych zdjęć w gąszczu ich liczby. Dlatego lepiej chyba mieć 100 zdjęć, obejrzeć wszystkie i wybrać coś wartościowego niż mieć 1000 i nigdy nie poznać całości zbioru. Ale może się mylę…
Świetna analogia z tymi fotografiami.
I wydaje mi się, że wokół tak jasno zobrazowanego spostrzeżenia warto aby toczył się artykuł.
Sednem bowiem – i koniecznym do rozważania o koszcie przetwarzania danych kryterium – jest wpływ ilości danych (czy to w kwestii iloścowej, czy jakościowej) na zdolność odnalezienia tych znaczących.
W tym zakresie nie ma niestety prostego i oczywistego przełożenia: więcej = gorzej.
Po pierwsze – dochodzi tu czynnik odpowiedniego planowania struktur, po drugie – nigdy nie wiemy jak za rok zmienią się zjawoska i jakich danych będziemy potrzebować do ich modelowania.
Analogicznie – możemy gromadzić zdjęcia do woli o ile tylko je sensownie otagujemy i udostępnimy właściwą metodę dostępu, umożliwiającą szybkie dotarcie do poszukiwanych.
Wpływ zmienności rynku na potencjał przedsiębiorstw jest nie do przecenienia, a drogą do jego wykosztania niestety często pozostaje właśnie nadmiarowe gromadzenie danych.
Oczywiście, posiadanie dobrze zorganizowanej hurtowni danych na pewno jest inwestycją. Ważne by mieć także wiedzę o ich wartości (o ile taka jest).
Oczywiście trzeba pamiętać, że w takiej analogii “poznanie całości zbioru” jest absolutnie niepotrzebne.
@Maciej napisał: “Zgadzam się w pełni, że model zachowań jest ważniejszy od nich samych. Problem leży tylko w tym, że tym bliższy rzeczywistości model, im więcej danych było podstawą do jego stworzenia. A tych danych, sporo, firmy mają i nie korzystają.”
Wybacz, popełniasz typowy błąd dotyczący analizy: utożsamiasz jakość efektu pracy z jej pracochłonnością… w nauce mamy do czynienia z metodami indukcyjnymi i dedukcyjnymi. Ty piszesz o tej pierwszej. Ogólnie model jest tak dobry jak dobrze modeluje rzeczywistość (czy model zachowuje się tak jak nasze otoczenie). Mało ma to wspólnego z tym na bazie ilu pomiarów powstał (bo wtedy mówimy o statystyce a nie ni eo modelu). Model można zbudować na bazie kilu pomiarów czy obserwacji, ważne by wykazać jego prawdziwość, a tę wykazujemy nie nakładem pracy na powstanie modelu, a tym czy można wskazać zdarzenia przeczące modelowi.
Z ilością danych jest ten problem, że powyżej pewnej ich ilości człowiek nie ma możliwości ich przetworzenia.