Jestem orę­dow­ni­kiem metod nauko­wych i mode­lo­wa­nia więc zno­wu o tym. Na począ­tek jed­nak cytat z prasy:

Im wię­cej zaso­bów orga­ni­za­cja prze­cho­wu­je w swo­ich zaso­bach, tym więk­sze pro­ble­my napo­ty­ka. Podstawowym pro­ble­mem, któ­ry doty­czy typo­wych ser­we­rów pli­ków, są ogra­ni­cze­nia zwią­za­ne z moż­li­wo­ścia­mi sys­te­mu pli­ków sto­so­wa­ne­go w danym serwerze. […]

Oprócz wyma­gań zwią­za­nych z szyb­ko­ścią prze­twa­rza­nia stru­mie­nia infor­ma­cji przed­się­bior­stwa potrze­bu­ją narzę­dzi, któ­re umoż­li­wią ana­li­zę bar­dzo dużych zbio­rów danych. Potrzeby biz­ne­so­we zwią­za­ne z ana­li­zo­wa­niem róż­nych warian­tów wyma­ga­ją szyb­kiej odpo­wie­dzi sys­te­mu. Gdy ilość zgro­ma­dzo­nych danych liczy się w tera­baj­tach, tra­dy­cyj­ny model hur­tow­ni korzy­sta­ją­cy z wie­lo­wy­mia­ro­wych mode­li OLAP dzia­ła zbyt wol­no, a nie­kie­dy w ogó­le nie nada­je się do ana­li­zy podob­nej wiel­ko­ści danych. (za Ujarzmić fir­mo­we dane – Computerworld​.pl).

Analiza danych i wycią­ga­nie wnio­sków z zasa­dy jest wnio­sko­wa­niem induk­cyj­nym, jest to wycią­ga­nie wnio­sków na bazie posia­da­nych infor­ma­cji, jed­nak pro­blem pole­ga na tym, że bazu­je­my na wie­dzy już posia­da­nej. Innymi sło­wy meto­da­mi induk­cyj­ny­mi, jeże­li moż­na pró­bo­wać dowo­dzić rze­czy pozna­nych, tak nie odkry­je­my rze­czy nowych… po drugie:

Głównym pro­ble­mem filo­zo­ficz­nym zwią­za­nym z rozu­mo­wa­nia­mi induk­cyj­ny­mi jest to, czy sta­no­wią one rozu­mo­wa­nia uza­sad­nia­ją­ce: sko­ro kon­klu­zja wnio­sko­wa­nia induk­cyj­ne­go nie jest w peł­ni uza­sad­nio­na przez jej prze­słan­ki, poja­wia się pro­blem, w jaki spo­sób, w jakim stop­niu i czy w ogó­le wnio­sko­wa­nia induk­cyj­ne pro­wa­dzą do praw­dzi­wych wnio­sków. Ci, któ­rzy uzna­ją wnio­sko­wa­nia induk­cyj­ne za wnio­sko­wa­nia uza­sad­nia­ją­ce (zwo­len­ni­cy induk­cjo­ni­zmu) tłu­ma­czą zazwy­czaj sto­pień uza­sad­nie­nia kon­klu­zji wnio­sko­wa­nia induk­cyj­ne­go za pomo­cą poję­cia praw­do­po­do­bień­stwa logicz­ne­go. Krytyka induk­cjo­ni­zmu doko­na­na przez deduk­cjo­nizm (anty­in­duk­cjo­nizm) opie­ra się przede wszyst­kim na fak­cie, że nie skon­stru­owa­no dotych­czas zado­wa­la­ją­cej odpo­wie­dzi na pyta­nie, jak mie­rzyć to praw­do­po­do­bień­stwo. (za Rozumowanie induk­cyj­ne ? Wikipedia, wol­na ency­klo­pe­dia).

W opo­zy­cji do tej meto­dy jest

Hipotetyzm – spo­sób uza­sad­nia­nia twier­dzeń w naukach empi­rycz­nych. Z hipo­tez wypro­wa­dza się ich kon­se­kwen­cje logicz­ne. Mając pewien zbiór kon­se­kwen­cji bada się, czy nie ma w nim tau­to­lo­gii (ew. sprzecz­no­ści). Jeżeli twier­dze­nie wypro­wa­dzo­ne w ten spo­sób wno­si coś nowe­go do teo­rii, pod­da­je się je testo­wi empi­rycz­ne­mu (twier­dze­nie trak­tu­je się jako prze­wi­du­ją­ce fak­ty doświad­czal­ne). (za Hipotetyzm ? Wikipedia, wol­na ency­klo­pe­dia).

Ma on swo­je źró­dło w:

Falsyfikacjonizm jest to zbiór pro­ce­dur meto­do­lo­gicz­nych, któ­re, w opi­nii auto­rów tego sta­no­wi­ska, chcą­cy się przy­czy­nić do roz­wo­ju wie­dzy nauko­wej badacz musi sto­so­wać. Osią tego uję­cia jest prze­ko­na­nie, że dla teo­rii nauko­wych nie nale­ży szu­kać potwier­dze­nia (wery­fi­ka­cji), lecz kontr­przy­pad­ków, mogą­cych bada­nej teo­rii zaprze­czyć. Należy zatem dążyć do sfal­sy­fi­ko­wa­nia teo­rii (wyka­za­nia jej nie­zgod­no­ści z doświad­cze­niem), a jeśli pró­ba się nie powie­dzie uznać, tym­cza­so­wo, teo­rię, aż do następ­nej pró­by fal­sy­fi­ka­cji, któ­ra dla teo­rii skoń­czyć się może oba­le­niem. (za Krytyczny racjo­na­lizm ? Wikipedia, wol­na ency­klo­pe­dia).

Tyle wpro­wa­dze­nia. I co z tego wyni­ka? Że odkry­wa­nie nowych rze­czy” nie jest w sta­nie się doko­nać na bazie ana­li­zy histo­rii, bo sko­ro szu­ka­my rze­czy nowych to histo­ria ich nie zawie­ra. Falsyfikacjonim, nazy­wa­ny czę­sto nauko­wym bada­niem”, pole­ga na sta­wia­niu hipo­tez i podej­mo­wa­niu prób ich sfal­sy­fi­ko­wa­nia (wyka­za­nia ich nie­praw­dzi­wo­ści). Dobra hipo­te­za – teo­ria – to hipo­te­za w posta­ci mode­lu zja­wi­ska, któ­re opi­su­je (hipo­te­za mówi: tak wła­śnie jest) oraz przy­kład (test) zda­rze­nia, któ­re – gdy­by zaist­nia­ło – oba­li tę hipo­te­zę (waru­nek falsyfikacji).

Czyli hipo­te­zy nie dowo­dzi­my, musi­my ją oba­lić by wyka­zać jej fał­szy­wość ale autor hipo­te­zy musi wska­zać co poten­cjal­nie oba­la jego hipo­te­zę (twór­cą tej teo­rii w filo­zo­fii nauki jest [[Karl Popper]]). Innymi sło­wy: hipo­te­za może mi przyjść do gło­wy nawet pod­czas wizji reli­gij­nej, nie ma to zna­cze­nia. Ważne jest, dla jej praw­dzi­wo­ści, by ją opi­sać i wska­zać waru­nek fal­sy­fi­ka­cji. Hipoteza taka, jeże­li jest potwier­dza­na przez obser­wo­wa­ne zja­wi­ska, jest praw­dzi­wa tak dłu­go jak dłu­go nie zosta­nie sfal­sy­fi­ko­wa­na (wska­za­ne zosta­nie zja­wi­sko wyła­mu­ją­ce się mode­lo­wi). Najbardziej zna­nym i zna­mien­nym przy­kła­dem tego podej­ścia jest [[słyn­ne twier­dze­nie Fermata]].

A teraz po ludzku

Modelowanie, jako narzę­dzie ana­li­zy, to nic inne­go jak wła­śnie two­rze­nie hipo­tez. Np. two­rzę model pro­ce­sów biz­ne­so­wych (z regu­ły na bazie małej par­tii doku­men­tów rze­czy­wi­stych). Dowodem fal­sy­fi­ku­ją­cym ten model jest wska­za­nie takie­go rze­czy­wi­ste­go doku­men­tu w ana­li­zo­wa­nej fir­mie, któ­ry nie jest obsłu­gi­wa­ny stwo­rzo­nym mode­lem pro­ce­su. Wskazanie takie­go doku­men­tu lub zda­rze­nia oba­la hipo­te­zę (model) i wyma­ga mody­fi­ka­cji mode­lu pro­ce­su lub uzna­nie, że model jest zły (i stwo­rze­nie nowe­go :)). To samo doty­czy każ­de­go inne­go modelowania.

Tak więc mode­le ryn­ko­we zacho­wań klien­tów, pro­gno­zy i wie­le innych moż­na budo­wać ana­li­zu­jąc tera­baj­ty danych opi­su­ją­cych histo­rię. Problem w tym, że: nie zna­my praw­do­po­do­bień­stwa jakie rzą­dzi tymi zda­rze­nia­mi, tak więc nie odkry­je­my tak nicze­go poza tym co się wyda­rzy­ło i nadal nie wie­my z jakim praw­do­po­do­bień­stwem wykry­te zda­rze­nie z histo­rii się powtó­rzy (wie­rzy­my, że się powtó­rzy) w (pro­gno­zo­wa­nej) przy­szło­ści (kto nie wie­rzy niech spraw­dzi sku­tecz­ność takich pro­gnoz (ana­li­za tech­nicz­na) na gieł­dach. Jest prak­tycz­nie zero­wa, co nie prze­szka­dza w jej powszech­nym stosowaniu :).

Moim, i nie tyl­ko, zda­niem hur­tow­nie danych i wszel­kie­go typu sys­te­my BI mogą być sku­tecz­ne jako wykry­wa­nie cze­goś” w histo­rii, na pew­no spraw­dza­ją się jako zło­żo­ne sys­te­my rapor­to­wa­nia, ale nie sądzę by jaka­kol­wiek hur­tow­nia danych plus sys­tem BI odkry­ła cokol­wiek nowe­go lub sku­tecz­nie pro­gno­zo­wa­ła. Pamiętajmy, że tak zwa­ny model sta­ty­stycz­ny” nie jest mode­lem zja­wi­ska w rozu­mie­niu teo­rii nauko­wej, to wyłącz­nie sta­ty­sty­ka bez wie­dzy i zro­zu­mie­nia zja­wi­ska opi­sy­wa­ne­go ta sta­ty­sty­ką. 

Firmy para­ją­ce się sta­ty­sty­ką, pole­ga­ją (korzy­sta­ją z) na tak zwa­nej [[pró­bie repre­zen­ta­tyw­nej]]. Analizowana jest dobra­na” mała par­tia danych, a nie wszyst­kie, wiec nie wiem skąd ten pęd do ana­li­zy wszyst­kich posia­da­nych danych, któ­rych sta­le przybywa.

Budowanie mode­li na bazie małych par­tii danych jest po pierw­sze wia­ry­god­niej­sze (para­dok­sal­nie) niż pro­ste wnio­sko­wa­nie sta­ty­stycz­ne, po dru­gie daje szan­se odkry­cia cze­goś nowe­go. W czym pro­blem? To dru­gie jest nie moż­li­we z pomo­cą deter­mi­ni­stycz­nej maszy­ny jaką jest kom­pu­ter. To wyma­ga czło­wie­ka, ten jed­nak nie daje się pro­du­ko­wać maso­wo… ;), kor­po­ra­cja na nim nie zarobi.

Hm… czy przy­pad­kiem pro­mo­wa­nie sys­te­mów hur­tow­ni danych, BI, pra­cy z tera­baj­ta­mi danych itp.. to nie two­rze­nie sobie ryn­ku przez dostaw­ców tych technologii?

Warto więc za każ­dym razem, zanim zain­we­stu­je­my w roz­wią­za­nia ope­ru­ją­ce na tera­baj­tach danych, prze­my­śleć co chce­my osią­gnąć. W zasa­dzie nie ma uza­sad­nie­nia dla trzy­ma­nia wszyst­kich danych, waż­ne jest okre­śle­nie jaki pro­blem chce­my roz­wią­zać. Jeżeli są to pro­ble­my zwią­za­ne z ana­li­zą danych histo­rycz­nych, bada­nia sta­ty­stycz­ne mogą być sku­tecz­ne, do tego pod­da­ją się auto­ma­ty­za­cji. Jeżeli jed­nak pro­blem tkwi w pla­no­wa­niu zmian, pro­gno­zo­wa­niu, odkry­wa­niu, pole­cam raczej czło­wie­ka i budo­wa­nie hipotez.

A inne analizy?

Opisany powy­żej mecha­nizm doty­czy każ­de­go rodza­ju ana­li­zy, któ­rej celem jest zro­zu­mie­nie jak coś dzia­ła”. Analiza ogrom­nych ilo­ści zebra­nych danych, któ­rych źró­dłem są tyl­ko obser­wa­cje i fak­ty to para­dok­sal­nie naj­gor­sza meto­da badaw­cza. Jako sys­tem rapor­to­wa­nia (prze­twa­rza­nie danych) spraw­dza się bar­dzo dobrze ale tyl­ko do tego.

Wystarczy (nomen omen) spoj­rzeć wstecz histo­rii. Opis wszech­świa­ta bazu­ją­cy wyłącz­nie na obser­wa­cji to zna­ny z cza­sów przed­ko­per­ni­kań­skich układ geo­cen­trycz­ny. Jest efek­tem zapi­sów wyni­ków obser­wa­cji. W zasa­dzie rosną­ca licz­ba tych obser­wa­cji potwier­dza­ła jedy­nie zna­ny z tam­tych cza­sów fał­szy­wy model (patrz po lewej). Jest zawi­ły, nie­da­ją­cy sie opi­sać pro­sty­mi zależ­no­ścia­mi. Odkrycie nowej pla­ne­ty wyma­ga­ło­by kolej­nych setek obser­wa­cji by opi­sać jej tor na tym rysunku.

Sytuacja zmie­nia się dia­me­tral­nie po tym, jak Kopernik poszedł w stro­nę” myśle­nia hipo­te­za­mi. Nie zapi­sy­wał i nie porząd­ko­wał pie­czo­ło­wi­cie kolej­nych bzdur­nych pomia­rów a szu­kał wytłu­ma­cze­nia otrzy­ma­nych już (któ­rych zresz­tą mogło by być znacz­nie mniej). Jak wie­my Kopernik zna­lazł odpo­wiedź napy­ta­nie: jak wyglą­da wszech­świat (teraz wie­my, że nasz to tyl­ko jeden z wie­lu ukła­dów we wszech­świe­cie). Zbudował pro­sty i łatwy do mate­ma­tycz­ne­go (w porów­na­niu z tym po lewej) opi­su model helio­cen­trycz­ny i za jed­nym zama­chem nie tyl­ko wyja­śnił dotych­cza­so­we obser­wa­cje ale prze­wi­dział wszyst­kie następne.

Podobną meto­dę moż­na zasto­so­wać do mode­lo­wa­nia zja­wisk gospo­dar­czych, pro­ce­sów biz­ne­so­wych czy opro­gra­mo­wa­nia. Analiza przed­się­bior­stwa nie musi pole­gać na dzie­siąt­kach wywia­dów, porząd­ko­wa­niu ich tre­ści i set­kach dia­gra­mów, z któ­rych nic nie wyni­ka. Analiza może pole­gać na ana­li­zie par­tii doku­men­tów, zbu­do­wa­niu mode­lu pro­ce­su i spraw­dze­niu czy wyja­śnia inne zda­rze­nia w fir­mie. Taka ana­li­za jest mniej kosz­tow­na, pro­du­ku­je znacz­nie mniej papie­ru, jest pozba­wio­na nie­ści­sło­ści i nad­mia­ru nie­przy­dat­nych danych. Niestety ile razy mówię o tym np. na kon­fe­ren­cjach natych­miast więk­szość firm dorad­czych wysła­ła by mnie na stos…

Ktoś mógł­by zapy­tać: czy ma sens do każ­de­go pro­jek­tu anga­żo­wać naukow­ca”? Do każ­de­go zapew­ne nie ale sko­ro wie­my z badań, że w pro­jek­tach zwią­za­nych z zarzą­dza­niem lub dostar­cza­niem opro­gra­mo­wa­nia ponad 60% kosz­tów idzie w bło­to z powo­du złych ana­liz i pro­jek­tów to sami sobie Państwo odpo­wiedz­cie na to pyta­nie… bo prak­ty­ka poka­zu­je, że to w zasa­dzie zawsze jest tań­sze :), nie­ste­ty widać to dopie­ro po zakoń­cze­niu pro­jek­tu… a co z ana­li­zą danych histo­rycz­nych? Podobno, jak twier­dzi Hegel, [[histo­ria uczy ludzi, że histo­ria nicze­go ludzi nie nauczyła]]…

Jarosław Żeliński

Jarosław Żeliński: autor, badacz i praktyk analizy systemowej organizacji: Od roku 1991 roku, nieprzerwanie, realizuje projekty z zakresu analiz i projektowania systemów, dla urzędów, firm i organizacji. Od 1998 roku prowadzi samodzielne studia i prace badawcze z obszaru analizy systemowej i modelowania (modele jako przedmiot badań: ORCID). Od 2005 roku, jako nieetatowy wykładowca akademicki, prowadzi wykłady i laboratoria (ontologie i modelowanie systemów informacyjnych, aktualnie w Wyższej Szkole Informatyki Stosowanej i Zarządzania pod auspicjami Polskiej Akademii Nauk w Warszawie.) Oświadczenia: moje badania i publikacje nie mają finansowania z zewnątrz, jako ich autor deklaruję brak konfliktu interesów. Prawa autorskie: Zgodnie z art. 25 ust. 1 pkt. 1) lit. b) ustawy o prawie autorskim i prawach pokrewnych zastrzegam, że dalsze rozpowszechnianie artykułów publikowanych w niniejszym serwisie jest zabronione bez indywidualnej zgody autora (patrz Polityki Strony).

Ten post ma 2 komentarzy

  1. Harnaś

    Hm… czy przy­pad­kiem pro­mo­wa­nie sys­te­mów hur­tow­ni danych, BI, pra­cy z tera­baj­ta­mi danych itp.. to nie two­rze­nie sobie ryn­ku przez dostaw­ców tych technologii?”

    Zawsze tak było i będzie, że dostaw­ca będzie szu­kał zby­tu na to co ma w ofercie.
    Natomiast nie spo­tka­łem się z innym zasto­so­wa­niem narzę­dzi BI niż zło­żo­ne sys­te­my raportowania”

    Co do tego: nie sądzę by jaka­kol­wiek hur­tow­nia danych plus sys­tem BI odkry­ła cokol­wiek nowe­go lub sku­tecz­nie prognozowała.”
    Prognoza to tyl­ko pro­gno­za, wycho­dzi lepiej lub gorzej, ale na pod­sta­wie cze­goś trze­ba pla­no­wać sprze­daż, pro­duk­cję, itp.

    1. Jarosław Żeliński

      Prognoza to tyl­ko pro­gno­za, wycho­dzi lepiej lub gorzej, ale na pod­sta­wie cze­goś trze­ba pla­no­wać sprze­daż, pro­duk­cję, itp.”

      Ale mode­le sys­te­mo­we są znacz­nie sku­tecz­niej­sze niż sta­ty­sty­ka, któ­ra raczej dzia­ła jak zna­na aneg­do­ta o indyku…

Dodaj komentarz

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.