fin_tableRegularnie czy­tam blog Filozofia mar­ke­tin­gu pisa­ny przez [[Macieja Tesławskiego]]. Wśród wie­lu powo­dów, dla któ­rych to robię są: sto­so­wa­nie w pra­cy Brzytwy Ockhama (zwa­nej nie raz eko­no­mia myśle­nia, choć on sam chy­ba tego tak na swo­im blo­gu nie nazy­wa) oraz to, że to co pisze o mar­ke­tin­gu jest logicz­ne co bar­dzo lubię u ludzi (nie zno­szę zaś pozba­wio­ne­go kon­kre­tów beł­ko­tu, któ­re­go nie­ste­ty nie bra­ku­je). Czytając kolej­ny wpis na jego blo­gu tra­fi­łem na coś co pchnę­ło mnie to pew­nych reflek­sji i zastanowienia:

Programy reten­cyj­ne mogą być B2B, B2C i mul­ti­part­ner­skie, lojal­no­ścio­we mogą być tyl­ko B2C bo w biz­ne­sie decy­zje zaku­po­we podej­mu­je się w znacz­nym stop­niu racjo­nal­nie a nie emocjonalnie.

Jeśli cho­dzi o oce­nę dzia­ła­ją­cych pro­gra­mów reten­cyj­nych, to pod­sta­wo­wy błąd jaki widzę to nie­wy­ko­rzy­sty­wa­nie bazy infor­ma­cji o uczest­ni­kach pro­gra­mu przez fir­my. To jest potęż­ny zbiór infor­ma­cji o zacho­wa­niach poszcze­gól­nych kon­su­men­tów, w połą­cze­niu z dany­mi demo­gra­ficz­ny­mi pozwa­la na ?pozna­nie? pro­fi­lu naj­bar­dziej war­to­ścio­wych kon­su­men­tów. Nie zauwa­ży­łem aby kto­kol­wiek to wyko­rzy­sty­wał. Dzieje się tak zapew­ne dla­te­go, że bazy danych rosną w postę­pie geo­me­trycz­nym i prze­ra­sta­ją moż­li­wo­ści ich bie­żą­ce­go wyko­rzy­sty­wa­nia. (źr. Do znu­dze­nia o tej lojal­no­ści? | Filozofia marketingu.)

Celowo cytu­ję tak obszer­ny frag­ment (liczę na wyba­cze­nie u auto­ra) by zacho­wać kon­tekst tego co wytłu­ści­łem. W czym pro­blem? W [[brzy­twie Ockhama]] i tym…

…czy aby na pewno trzeba analizować te miliony zdarzeń.

Jak to się ma do sys­te­mów CRM? Prawdą jest, że lawi­no­wo przy­by­wa danych w bazach sys­te­mów CRM, któ­rych prze­twa­rza­nie poten­cjal­nie może przy­nieść korzy­ści jed­nak nie praw­dą jest, że zawsze im wię­cej tych danych tym lepiej. Mam cichą nadzie­ję, że ten krót­ki arty­kuł posze­rzy tezy przy­to­czo­ne­go cytatu.

Marketingiem zaj­mu­je się nie­ja­ko z innej stro­ny: mode­lu­ję zja­wi­ska nim rzą­dzą­ce i muszę go rozu­mieć (stąd Tesławski jako jed­na z klu­czo­wych lek­tur po M.E.Porterze). Zgodnie z zasa­dą Arystotelesa: pod­sta­wą zro­zu­mie­nia jest pozna­nie przy­czyn. Analiza zja­wisk, np. zwią­za­nych z zacho­wa­nia­mi klien­tów, nie wyma­ga więc pozna­nia setek czy milio­nów przy­pad­ków ich zacho­wań. Wymaga pozna­nia i rozu­mie­nia tego czym się ci klien­ci kie­ru­ją, co spo­wo­do­wa­ło takie a nie inne ich zacho­wa­nia. Celem dzia­łań mar­ke­tin­go­wych (w rozu­mie­niu ana­li­zy ryn­ku) nie jest ana­li­za histo­rii a pro­gno­zo­wa­nie. Historie ana­li­zu­je­my by móc prze­wi­dy­wać jej dal­szy ciąg i ana­li­za histo­rii to narzę­dzie a nie cel sam w sobie. Po dru­gie ana­li­za i pro­gno­zo­wa­nie to nie wyrę­cza­nie mene­dże­rów od podej­mo­wa­nia decy­zji (co wie­lu mam wra­że­nie jed­nak robi) a jedy­nie wspo­ma­ga­nie ich w ich podejmowaniu.

Przykład pokrew­ny: popra­wa jako­ści pro­gnoz pogo­dy ma swo­je źró­dło nie w rosną­cej ilo­ści danych zebra­nych o pogo­dzie a w jako­ści mode­lu pro­gno­stycz­ne­go. Kiedyś pro­gno­zy pogo­dy pole­ga­ły na wyszu­ka­niu w histo­rii sytu­acji naj­bliż­szej sta­no­wi obec­ne­mu, spraw­dze­niu co było potem” i uzna­wa­niu, że teraz też tak będzie”. Jednak to moż­na spro­wa­dzić to pro­gno­zo­wa­nia na bazie jak dłu­go Indianie zbie­ra­li chrust” by oce­nić nad­cho­dzą­cą zimę. Obecne pro­gno­zy pogo­dy są two­rzo­ne na bazie mode­li atmos­fe­ry i zja­wisk atmos­fe­rycz­nych: moż­li­we jest prze­wi­dy­wa­nie cze­goś co nigdy w histo­ria nie zaszło. Dane histo­rycz­ne posłu­ży­ły do stwo­rze­nia tego mode­lu, potem do jego testo­wa­nia (i nadal jest ulepszany…).

Inny przy­kład: jeże­li chce prze­wi­dzieć co się sta­nie gdy ude­rzę kulę kijem bilar­do­wym, wystar­czy dosłow­nie kil­ka obser­wa­cji, kolej­ne już nicze­go nowe­go nie wnio­są to stwier­dze­nia, że kula prze­mie­ści się w kie­run­ku zbli­żo­nym do kie­run­ku ude­rze­nia. Ktoś zapew­ne zauwa­żył sło­wo zbli­żo­ny” i mógł­by for­so­wać tezę, że nale­ży powięk­szyć licz­bę obser­wa­cji. Tu zacytuję:

Wyobraźmy sobie kogoś, kto chce napi­sać pro­gram symu­lu­ją­cy grę w sno­oke­ra. Problem ten może zostać opi­sa­ny przy­pad­ka­mi uży­cia opi­su­ją­cy­mi powierz­chow­nie cechę: Gracz ude­rza bia­ła kulę, któ­ra prze­miesz­cza się z pew­ną pręd­ko­ścią, ta po okre­ślo­nym cza­sie ude­rza czer­wo­ną kulę pod okre­ślo­nym kątem, ude­rzo­na czer­wo­na kula prze­miesz­cza się na pew­ną odle­głość w pew­nym kie­run­ku.” Możesz sfil­mo­wać set­ki tysię­cy takich ude­rzeń, zare­je­stro­wać para­me­try każ­de­go ude­rze­nia i jego skut­ki. Jednak tą meto­dą i tak nie stwo­rzysz nawet dość dobrej symu­la­cji. Aby napi­sać na praw­dę dobrą grę, powi­nie­neś raczej zro­zu­mieć pra­wa rzą­dzą­ce ruchem kul, ich zależ­ność od siły i kie­run­ku ude­rze­nia, kie­run­ku itp. Zrozumienie tych praw pozwo­li Ci znacz­nie łatwiej napi­sać dobre opro­gra­mo­wa­nie.” (źr. Analysis Patterns. Reusable Object Models, Martin Fowler, Addison-Wesley, 1997)

Tak więc owszem, zbie­ra­nie danych np. o tym jakie, za co i kto zbie­ra punk­ty kupu­jąc coś w skle­pie ma sens tyl­ko do pew­ne­go pozio­mu. Jeżeli chce­my na praw­dę prze­wi­dzieć skut­ki naszych dzia­łań musi­my zro­zu­mieć zja­wi­sko i zbu­do­wać jego model.

Tak więc sko­ro „… potęż­ny zbiór infor­ma­cji o zacho­wa­niach poszcze­gól­nych kon­su­men­tów, w połą­cze­niu z dany­mi demo­gra­ficz­ny­mi pozwa­la na ?pozna­nie? pro­fi­lu naj­bar­dziej war­to­ścio­wych kon­su­men­tów”. Ten pro­fil, jeśli powsta­je, to wła­śnie model (ja to tak postrze­gam). Jeśli będzie popraw­ny, będzie­my w sta­nie z bar­dzo dużym praw­do­po­do­bień­stwem prze­wi­dy­wać zacho­wa­nia kon­su­men­tów. Czy tych danych musi być dużo? Czy rosną­ca ilość tych danych wpły­nie na popra­wę jako­ści pro­gnoz zacho­wań? Nie sądzę, gdyż pro­gno­zy bazu­ją­ce na ana­li­zie tren­dów pole­ga­ją tyl­ko na oce­nie tego, z jakim praw­do­po­do­bień­stwem powtó­rzy się histo­ria. Jeżeli chce­my oce­nić nową kam­pa­nię, dane te – jako trend – są w zasa­dzie bez­war­to­ścio­we: nigdy nie dadzą jako efekt nicze­go nowe­go, tyl­ko coś, co już kie­dyś było.

Dlatego hur­tow­nie danych i tak zwa­ne sys­te­my [[Business Inteligence]], wszel­kie sys­te­my wspo­ma­ga­nia decy­zji, to albo ana­li­za histo­rii albo pro­gno­zo­wa­nie opar­te na mode­lach. W kwe­stii mar­ke­tin­gu lepiej jest, moim zda­niem, opra­co­wać model zja­wi­ska, a do tego nie potrzeb­ne są duże ilo­ści danych a jedy­nie mini­mal­ny [[zestaw danych repre­zen­ta­tyw­nych]] i to się nazy­wa zasa­dą eko­no­mii myśle­nia. Wielką zaś sztu­ką pro­jek­to­wa­nia hur­tow­ni danych dla sys­te­mów BI nie jest samo gro­ma­dze­nie danych a wła­śnie ich odsie­wa­nie, dla­te­go sys­te­my ana­li­tycz­ne inte­gro­wa­ne z sys­te­ma­mi CRM, te prze­ła­do­wa­ne dany­mi, bywa­ją cza­sem bar­dziej szko­dli­we niż pomocne.

Jarosław Żeliński

Jarosław Żeliński: autor, badacz i praktyk analizy systemowej organizacji: Od roku 1991 roku, nieprzerwanie, realizuje projekty z zakresu analiz i projektowania systemów, dla urzędów, firm i organizacji. Od 1998 roku prowadzi samodzielne studia i prace badawcze z obszaru analizy systemowej i modelowania (modele jako przedmiot badań: ORCID). Od 2005 roku, jako nieetatowy wykładowca akademicki, prowadzi wykłady i laboratoria (ontologie i modelowanie systemów informacyjnych, aktualnie w Wyższej Szkole Informatyki Stosowanej i Zarządzania pod auspicjami Polskiej Akademii Nauk w Warszawie.) Oświadczenia: moje badania i publikacje nie mają finansowania z zewnątrz, jako ich autor deklaruję brak konfliktu interesów. Prawa autorskie: Zgodnie z art. 25 ust. 1 pkt. 1) lit. b) ustawy o prawie autorskim i prawach pokrewnych zastrzegam, że dalsze rozpowszechnianie artykułów publikowanych w niniejszym serwisie jest zabronione bez indywidualnej zgody autora (patrz Polityki Strony).

Ten post ma 14 komentarzy

  1. Maciej Tesławski

    Zgadzam się w peł­ni, że model zacho­wań jest waż­niej­szy od nich samych. Problem leży tyl­ko w tym, że tym bliż­szy rze­czy­wi­sto­ści model, im wię­cej danych było pod­sta­wą do jego stwo­rze­nia. A tych danych, spo­ro, fir­my mają i nie korzy­sta­ją. Nie znam się na pro­jek­to­wa­niu pro­ce­sów, ale logicz­nie rozu­mu­jąc, jeśli już coś mam, to powi­nie­nem z tego korzy­stać, dla wła­sne­go dobra przede wszystkim.

    1. Jarek Żeliński

      Zgadzam się z tym, że jeśli coś mam to powi­nie­nem z tego korzy­stać jed­nak tu poja­wia się moim zda­niem klę­ska uro­dza­ju”. Faktycznie jest tak, że nie­raz ilość danych sta­je się nie do prze­ro­bie­nia” jakimś roz­sąd­nym kosz­tem. Nie dzi­wi mnie, że dane nie są wyko­rzy­sta­ne (jest ich za dużo, koszt prze­twa­rza­nia nie zwró­ci się), dzi­wi mnie, że mimo to dane te są kolekcjonowane. 

      W kwe­stii dokład­no­ści: jeże­li mowa o meto­dach ana­li­zy tren­dów, ana­li­zie tech­nicz­nej, więk­sza licz­ba danych źró­dło­wych daje dokład­niej­szy sta­ty­stycz­nie wynik ale to wciąż oce­na z jakim praw­do­po­do­bień­stwem powtó­rzy się histo­ria. Do zbu­do­wa­nia mode­lu zja­wi­ska wystar­czy pew­na mała” licz­ba danych repre­zen­ta­tyw­nych. Następnie model jest testo­wa­ny, to jest spraw­dza się czy zacho­wa­nie mode­lu jest toż­sa­me (bli­skie) zacho­wa­niu mode­lo­wa­ne­go zja­wi­ska. Jeśli jest zgod­ność, uzna­je się model za popraw­ny. Bardzo cie­ka­we opi­sy na ten temat moż­na zna­leźć w książ­ce Psychologia Ekonomiczna, Tyszka Tadeusz (red.), Wydawca: Gdańskie Wydawnictwo Psychologiczne.

    2. Tomek

      Panowie,
      gdy­by słusz­na była teza, że jeśli coś posia­dam to nale­ży tego uży­wać, to nale­ża­ło­by zale­cić np. uży­cie podusz­ki powietrz­nej w samo­cho­dzie raz do roku.
      Nie mamy rów­nież pod­staw do oce­ny czy koszt prze­twa­rza­nej infor­ma­cji się zwró­ci czy nie w przy­pad­ku ana­li­zy… ponie­waż oce­na war­to­ści infor­ma­cji może zostać doko­na­na dopie­ro PO tej­że ana­li­zie… (a wyda­wa­ło się to oczywiste).
      Co do uży­cia danych repre­zen­ta­tyw­nych – wszyst­ko ok, dopó­ki mówi­my o ana­li­zie zja­wisk trwa­łych, lub zawę­ża­my cały zakres do wybra­ne­go okre­su cza­su. I tak zresz­tą nie uciek­nie­my od pro­ble­mu oce­ny repre­zen­ta­tyw­no­ści posia­da­nych danych. Jeśli do tego doj­dzie nam zmien­ność zja­wisk w cza­sie, to kolek­cjo­no­wa­nie dużej ilo­ści danych przy bar­dzo niskim kosz­cie ich skła­do­wa­nia oraz ope­ro­wa­nia nimi jest po nie dość że racjo­nal­ne, to zwy­czaj­nie użyteczne.
      Wystarczy przyj­żeć się prak­ty­kom pod­mio­tów, któ­re potra­fią z tych danych zro­bić wła­ści­wy uży­tek – a więc zbie­rać wła­ści­wie, wła­ści­wie prze­twa­rzać, a na koń­cu prze­kuć to na kon­kret­ne, goto­we do ska­pi­ta­li­zo­wa­nia wartości.
      Czyli wra­ca­my do świa­do­mo­ści celu dzia­ła­nia i świa­do­mo­ści reguł rzą­dzą­cych postę­po­wa­niem w danej materii.

    3. Tomek

      Istotne jest, że trud­no prze­wi­dzieć któ­re dane przy­nio­są zna­czą­cy postęp w roz­wo­ju mode­lu, któ­rych zaś prze­ro­bie­nie skoń­czy się jedy­nie potwier­dze­niem słusz­no­ści mode­lu obec­nie przy­ję­te­go. Z teo­rii infor­ma­cji wyni­ka iż w pierw­szym przy­pad­ku dane cha­rak­te­ry­zu­ją się wyż­szą war­to­ścią, nie­mniej w dru­gim rów­nież wpły­wa­ją na roz­wój mode­lu poprzez potwier­dze­nie powta­rzal­no­ści założeń.
      Wobec tego twier­dze­nie, że prze­two­rze­nie kolej­nych danych nie skut­ku­ją­ce mody­fi­ka­cją mode­lu jest mar­no­traw­stwem jest blędne.

      Oczywiście pro­blem poja­wia się w chwi­li, kie­dy model został potwier­dzo­ny wie­lo­krot­nie, lecz z róż­nych prze­sła­nek wia­do­mo iż ana­li­za kolej­nych danych może – lecz nie musi – przy­nieść prze­łom w posta­ci uzy­ska­nia infor­ma­cji wyma­ga­ją­cych korek­ty modelu.
      W takim przy­pad­ku może­my mieć do czy­nie­nia z ana­li­zą danych nie przy­no­szą­cą zmia­ny i nara­sta­ją­cym poczu­ciem (na pozio­mie emo­cjo­nal­nym, np. u mene­dże­rów) mar­no­tra­wie­nia cza­su poświę­ca­ne­go na analizę.

      W opi­sa­nej sytu­acji (o któ­rej praw­do­po­dob­nie pisze autor niniej­sze­go blo­ga) koniecz­ne jest fak­tycz­nie zasto­so­wa­nie pew­nej eko­no­mii myśle­nia (któ­ra aku­rat w danym przy­pak­du z Brzytwą Ockhama nie­wie­le ma wspól­ne­go), pole­ga­ją­cej na pro­wa­dze­niu ana­li­zy zorien­to­wa­nej na ano­ma­lie i/lub pro­wa­dze­niu ana­li­zy jedy­nie w przy­pad­ku zaist­nie­nia zmia­ny w istot­nych dla mode­lu czyn­ni­kach zewnętrz­nych (zmia­ny praw­ne, tren­dy u odbior­ców, tech­no­lo­gia, itp.).
      Przeprowadzenie jed­nak tych ana­liz wyma­ga danych, rów­nież historycznych.
      Prowadzi to do pro­stej kon­klu­zji, że gro­ma­dze­nie danych bez ich wyko­rzy­sta­nia jest jak naj­bar­dziej dzia­ła­niem racjo­nal­nym, podob­nie jak podej­mo­wa­nie ana­li­zy doraź­nie na pod­sta­wie tych danych.

      Realnym pro­ble­mem jest brak wła­ści­we­go podej­ścia do gro­ma­dze­nia danych, jak i ana­li­zy wogó­le oraz brak upro­ce­so­wie­nia (czyt. dokład­ne­go zde­fi­nio­wa­nia jasnych reguł postę­po­wa­nia) zda­rzeń ana­li­zy i prze­twa­rza­nia danych busi­ness intel­li­gen­ce, mają­cych na celu bie­żą­cą opty­ma­li­za­cję mode­lu. U mene­dże­rów taki brak wie­dzy może być zro­zu­mia­ły, ze wzglę­du na spe­cja­li­za­cję naogół w innych dzie­dzi­nach wiedzy.
      Z tego powo­du war­to, aby oso­by zaj­mu­ją­ce się ana­li­zą wogó­le, jak i poru­sza­ją­ce temat busi­ness intel­li­gen­ce potra­fi­ły wła­ści­wie nakie­ro­wać i wyjaśnić.
      Niestety – i tu nale­ży się z auto­rem blo­ga zgo­dzić – cza­sem, a nawet dość czę­sto moż­na spo­tkać oso­by, któ­re oznaj­mia­jąc iż w tema­cie mają coś do powie­dze­nia, wysu­wa­ją błęd­ne tezy, wda­ją się w dys­ku­sję błą­dząc, co spra­wia wra­że­nie, że wła­ści­wie jedy­nie pro­wo­ku­ją oto­cze­nie (jak i śro­do­wi­sko), aby cze­goś dopie­ro się dowie­dzieć, czy też wyrę­czyć się w łącze­niu fak­tów czy­imś doświad­cze­niem, lub zdol­no­ścią rozumowania.
      W sumie – postę­po­wa­nie cał­kiem słusz­ne, dla kogoś kto utknął w nie­ja­snej dla sie­bie materii.

    4. Jarek Żeliński

      Bardzo cel­ne uwa­gi, ja zaś wytłu­ma­czę się. Powołując się na eko­no­mię myśle­nia (ową brzy­twę Ockhama), mia­łem na myśli czę­sto spo­ty­ka­ne mno­że­nie bytów w kwe­stii tego do cze­go hur­tow­nia i BI danych słu­żą, uwa­żam, że tak na praw­dę do ana­li­zy kore­la­cji, pro­gno­zo­wa­nia. W kwe­stii nad­mia­ru danych”: nazy­wam to syn­dro­mem piw­ni­cy. Gdyby piw­ni­ca mia­ła nie­ogra­ni­czo­ną pojem­ność gro­ma­dzi­li­by­śmy tam nie­mal­że wszyst­ko. Ograniczona obję­tość piw­ni­cy zmu­sza to racjo­na­li­za­cji decy­zji, prze­cho­wu­je­my tyl­ko to co pla­nu­je­my poten­cjal­nie powtór­nie i korzyst­nie wyko­rzy­stać. Ekonomia tu zmu­sza do myśle­nia o kosz­tach skła­do­wa­nia, cza­sem taniej jest coś jed­nak wyrzu­cić. Kolejny temat na osob­ny arty­kuł więc to reten­cja danych w hurtowniach.

    5. Tomek

      Super, robi się (przy­naj­mniej dla mnie) coraz jaśniej.
      Muszę zauwa­żyć, że zapeł­nia­nie piw­ni­cy po brze­gi ma swo­je racjo­nal­ne bądź co bądź uza­sad­nie­nie. Nawet jeśli jest to wynik naszych ewo­lu­cyj­nych nawy­ków, to jed­nak w dzi­siej­szej eko­no­mii dopraw­dy trud­no zgad­nąć, co jutro, czy za rok da nam prze­wa­gę ryn­ko­wą. Ponadto – koszt prze­cho­wy­wa­nia danych real­nie spa­da i to w szyb­kim tem­pie. Kłopotliwy jest jedy­nie wów­czas, jeśli dokła­da­nie danych pro­wa­dzi do pod­nie­sie­nia kosz­tu wyło­wie­nia tych w danym momen­cie potrzeb­nych. Tą dro­gą wra­ca­my do dobre­go przy­go­to­wa­nia struk­tur oraz kla­sy­fi­ka­cji danych przy skła­do­wa­niu. Analogicznie – jeśli wrzu­ca­my wie­le dziś nie potrzeb­nych rze­czy do piw­ni­cy, to może­my to robić, o ile tyl­ko wcze­śniej odpo­wied­nio przy­go­tu­je­my pół­ki i dro­gi poru­sza­nia się, tak aby nie dopro­wa­dzić do sytu­acji, gdzie dorzu­ca­jąc kolej­ną rzecz doło­ży­li­by­śmy sobie pra­cy przy wyszu­ka­niu pozostałych.
      I nazwa­nie tej zależ­no­ści wprost jest co naj­mniej bar­dzo istot­ne dla całe­go przed­sta­wio­ne­go rozu­mo­wa­nia – nie może­my go pomijać.

      Rozumiem, że Brzytwę Ockhama fak­tycz­nie war­to zasto­so­wać w cza­sie pro­jek­to­wa­nia wła­śnie struk­tu­ry, czy też prze­kła­da­nia celu gro­ma­dze­nia i prze­twa­rza­nia danych na kon­kret­ne dzia­ła­nia (meto­dy kody­fi­ka­cji) oraz okre­śle­nie zakre­su danych. Tu fak­tycz­nie – posłu­gi­wa­nie się zało­że­nia­mi podej­rza­ny­mi (czy­li pre­cy­zyj­niej – zło­żo­ny­mi, opar­ty­mi na innych zało­że­niach, itd) jest – i musi być – zbyt kosz­tow­ne wobec posta­wio­nych celów pro­jek­tu (nie­za­leż­nie co te cele sta­no­wi, lecz tyl­ko tak dłu­go jak cele te speł­nia­ją wymo­gi mierzalności).
      Jeśli zaś pod­miot dążył­by do ochro­ny przed przy­szłą poten­cjal­ną prze­wa­gą kon­ku­ren­cji czer­pa­ną z posia­da­nia okre­ślo­nych infor­ma­cji i zdol­no­ści ich prze­twa­rza­nia, lub do ela­stycz­no­ści bazu­ją­cej na dostęp­no­ści do sze­ro­kiej wie­dzy sta­ty­stycz­nej, wów­czas nie zakres gro­ma­dzo­nych danych powi­nien być ogra­ni­czo­ny jedy­nie prze­zna­czo­ny­mi fun­du­sza­mi, ewen­tu­al­nie typo­wo futu­ry­stycz­nym prognozowaniem.
      O ile takie podej­ście (czy też takie for­mu­ło­wa­nie pro­jek­tu) godzi w postu­la­ty doty­czą­ce pla­no­wa­nia pro­jek­tów dot. prze­twa­rza­nia danych, o tyle trud­no prze­oczyć, że wie­le suk­ce­sów na polu prób uzy­ska­nia prze­wa­gi ryn­ko­wej nad kon­ku­ren­ta­mi wśród lide­rów wie­lu branż opar­tych jest o postę­po­wa­nie nie­zgod­ne z Brzytwą Ockhama – czy­li opar­te o zało­że­nia, w dodat­ku skom­pli­ko­wa­ne, lub opar­te na innych założeniach.

      Słowem – gro­ma­dze­nie nad­mier­nych” danych, jak każ­de dzia­ła­nie ryzy­kow­ne, war­to podej­mo­wać o ile jest się świa­do­mym kosz­tów, liczy się na spo­ry zysk (o to naj­czę­ściej musi pozo­stać kwe­stią wia­ry), no i – co naj­waż­niej­sze – że jest się świa­do­mym że jest to ryzyko. 

      Po pro­stu war­to takie pro­jek­ty wyraź­nie oddzie­lać zarów­no w kwe­stii struk­tu­ry tele­in­for­ma­tycz­nej, jak i pozy­cji budżetowych.

  2. Tomek

    Treść arty­ku­łu śred­nio licu­je ze wstę­pem. Wywód nie­lo­gicz­ny (część dot. pro­gnoz pogo­do­wych sprzecz­na wewnętrz­nie), poza tym moc­no odbie­ga od reguł języ­ka polskiego.
    Pomogłoby, gdy­bym wzo­rem dobre­go felie­to­nu mógł dowie­dzieć się jaka jest głów­na teza już na począt­ku, póź­niej zapo­znał się z jej roz­wi­nię­ciem i dys­ku­sją (aby tyl­ko logicz­nie trzy­ma­ło się to cało­ści) i jakiś finał – z tego co pamię­tam, to już w szko­le pod­sta­wo­wej uczo­no tego i szko­da że bezskutecznie.

    Fajnie by było, gdy­by to straw­niej napi­sać. Może war­to popra­co­wać nad warsztatem?

    pozdra­wiam

    1. Jarek Żeliński

      Dziękuję za uwa­gi. Uzupełniłem opis mecha­ni­zmu pro­gnoz pogo­dy (choć sprzecz­no­ści się w nim nie dopa­trzy­łem). Główną tezą jest: nie cho­dzi o ilość zebra­nych danych a o to w jakim celu się je zbie­ra i jak z nich korzy­sta. Należy pamię­tać, że nad­mier­na ilość danych nie doda war­to­ści temu zbio­ro­wi danych, zaś koszt prze­twa­rza­nia danych w hur­tow­niach rośnie wraz z ich ilością.

    2. Tomek

      Dziękuję za wyja­śnie­nie. Po dłuż­szej lek­tu­rze moż­na uchwy­cić tę tezę (lub podob­ną), lecz dobrze że poja­wia się wprost.
      Cel dzia­ła­nia (jego jasność) to fun­da­ment bez któ­re­go nie war­to dzia­ła­nia podej­mo­wać. Temu twier­dze­niu trud­no zaprze­czyć. Co do dal­sze­go zda­nia, to wyda­je mi się, że jest pro­blem ze sło­wem nad­mier­na”. To takie tro­chę masło maśla­ne – jak się nale­je za dużo, to się przeleje”.
      W arty­ku­le wyda­je się, że jest posta­wio­na teza iż jeśli masz wąt­pli­wość czy Twoja ilość danych aby nie jest nad­mier­na, to raczej jest i prze­stań je gro­ma­dzić, a skup się na kon­struk­cji popraw­ne­go mode­lu w opar­ciu o nie”.

      Nie mam poję­cia czy to miał Pan na myśli, ale jeśli tak, to wska­zów­ka ogrom­nie ryzy­kow­na dla poten­cjal­ne­go czy­tel­ni­ka. W podob­nym chy­ba zresz­tą stop­niu co niejasna.
      pozdrawiam

    3. Jarek Żeliński

      Dokładnie to mia­łem na myśli. Traktuję to nie tyle jed­nak jako wska­zów­kę co pew­ne memen­to. Mimo tego,że pojem­no­ści pamię­ci i moce pro­ce­so­rów rosną są one jed­nak skoń­czo­ne. Moja oba­wa to zja­wi­sko zna­ne już w foto­gra­fii: robie­nie zdjęć sta­ło się bar­dzo łatwe, ich skła­do­wa­nie tanie. Jednak zamiast wzro­stu jako­ści foto­re­la­cji mamy do czy­nie­nia z rosną­cym kło­po­tem wynaj­dy­wa­nia przy­dat­nych zdjęć w gąsz­czu ich licz­by. Dlatego lepiej chy­ba mieć 100 zdjęć, obej­rzeć wszyst­kie i wybrać coś war­to­ścio­we­go niż mieć 1000 i nigdy nie poznać cało­ści zbio­ru. Ale może się mylę…

    4. Tomek

      Świetna ana­lo­gia z tymi fotografiami.
      I wyda­je mi się, że wokół tak jasno zobra­zo­wa­ne­go spo­strze­że­nia war­to aby toczył się artykuł.
      Sednem bowiem – i koniecz­nym do roz­wa­ża­nia o kosz­cie prze­twa­rza­nia danych kry­te­rium – jest wpływ ilo­ści danych (czy to w kwe­stii ilo­ś­co­wej, czy jako­ścio­wej) na zdol­ność odna­le­zie­nia tych znaczących.
      W tym zakre­sie nie ma nie­ste­ty pro­ste­go i oczy­wi­ste­go prze­ło­że­nia: wię­cej = gorzej.
      Po pierw­sze – docho­dzi tu czyn­nik odpo­wied­nie­go pla­no­wa­nia struk­tur, po dru­gie – nigdy nie wie­my jak za rok zmie­nią się zja­wo­ska i jakich danych będzie­my potrze­bo­wać do ich modelowania.

      Analogicznie – może­my gro­ma­dzić zdję­cia do woli o ile tyl­ko je sen­sow­nie ota­gu­je­my i udo­stęp­ni­my wła­ści­wą meto­dę dostę­pu, umoż­li­wia­ją­cą szyb­kie dotar­cie do poszukiwanych.

      Wpływ zmien­no­ści ryn­ku na poten­cjał przed­się­biorstw jest nie do prze­ce­nie­nia, a dro­gą do jego wykosz­ta­nia nie­ste­ty czę­sto pozo­sta­je wła­śnie nad­mia­ro­we gro­ma­dze­nie danych.

    5. Jarek Żeliński

      Oczywiście, posia­da­nie dobrze zor­ga­ni­zo­wa­nej hur­tow­ni danych na pew­no jest inwe­sty­cją. Ważne by mieć tak­że wie­dzę o ich war­to­ści (o ile taka jest).

    6. Tomek

      Oczywiście trze­ba pamię­tać, że w takiej ana­lo­gii pozna­nie cało­ści zbio­ru” jest abso­lut­nie niepotrzebne.

  3. @Maciej napi­sał: Zgadzam się w peł­ni, że model zacho­wań jest waż­niej­szy od nich samych. Problem leży tyl­ko w tym, że tym bliż­szy rze­czy­wi­sto­ści model, im wię­cej danych było pod­sta­wą do jego stwo­rze­nia. A tych danych, spo­ro, fir­my mają i nie korzystają.”

    Wybacz, popeł­niasz typo­wy błąd doty­czą­cy ana­li­zy: utoż­sa­miasz jakość efek­tu pra­cy z jej pra­co­chłon­no­ścią… w nauce mamy do czy­nie­nia z meto­da­mi induk­cyj­ny­mi i deduk­cyj­ny­mi. Ty piszesz o tej pierw­szej. Ogólnie model jest tak dobry jak dobrze mode­lu­je rze­czy­wi­stość (czy model zacho­wu­je się tak jak nasze oto­cze­nie). Mało ma to wspól­ne­go z tym na bazie ilu pomia­rów powstał (bo wte­dy mówi­my o sta­ty­sty­ce a nie ni eo mode­lu). Model moż­na zbu­do­wać na bazie kilu pomia­rów czy obser­wa­cji, waż­ne by wyka­zać jego praw­dzi­wość, a tę wyka­zu­je­my nie nakła­dem pra­cy na powsta­nie mode­lu, a tym czy moż­na wska­zać zda­rze­nia prze­czą­ce modelowi.

    Z ilo­ścią danych jest ten pro­blem, że powy­żej pew­nej ich ilo­ści czło­wiek nie ma moż­li­wo­ści ich przetworzenia.

Dodaj komentarz

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.