Nagromadzenie danych to jesz­cze nie jest nauka (Galileusz)

Duże bazy danych na okre­ślo­ny temat – naj­czę­ściej mowa o zacho­wa­niach klien­tów ? to ostat­nio temat pierw­szych, naj­da­lej dru­gich, stron gazet. BigData to temat prze­wod­ni kon­fe­ren­cji i arty­ku­łów na pierw­szych stro­nach perio­dy­ków bran­ży IT. W 2011 roku arty­kuł na podob­ny temat koń­czy­łem pytając:

Budowanie mode­li na bazie małych par­tii danych jest po pierw­sze wia­ry­god­niej­sze (para­dok­sal­nie) niż pro­ste wnio­sko­wa­nie sta­ty­stycz­ne, po dru­gie daje szan­se odkry­cia cze­goś nowe­go. W czym pro­blem? To dru­gie jest nie moż­li­we z pomo­cą deter­mi­ni­stycz­nej maszy­ny jaką jest kom­pu­ter. To wyma­ga czło­wie­ka, ten jed­nak nie daje się pro­du­ko­wać maso­wo? ;), kor­po­ra­cja na nim nie zarobi.

Hm? czy przy­pad­kiem pro­mo­wa­nie sys­te­mów hur­tow­ni danych, BI, pra­cy z tera­baj­ta­mi danych itp.. to nie two­rze­nie sobie ryn­ku przez dostaw­ców tych tech­no­lo­gii? (Ujarzmić dane – ale po co ich aż tyle?). Ale po kolei. Jednak pro­blem nadal jest. Redakcja COMPUTERWORLD tak zachę­ca do udzia­łu w swo­jej kon­fe­ren­cji z BigData w tytu­le (frag­ment):

Big Data nie jest tyl­ko kolej­nym hasłem mar­ke­tin­go­wym dostaw­ców IT. To anty­cy­pa­cja zja­wi­ska prze­kro­cze­nia masy kry­tycz­nej wiel­ko­ści, róż­no­rod­no­ści, licz­by i dyna­mi­ki źró­deł gro­ma­dzo­nych w przed­się­bior­stwie danych. Gdy mamy ich napraw­dę dużo, gdy pocho­dzą one z wie­lu róż­nych miejsc, gdy są sta­le aktu­ali­zo­wa­ne i cią­gle ich przy­by­wa, wte­dy moż­li­wo­ści ana­li­tycz­ne i poten­cjał wyko­rzy­sta­nia wie­dzy zgro­ma­dzo­nej w tych danych rośnie wykład­ni­czo. Ale wyma­ga to cał­kiem nowych plat­form tech­no­lo­gicz­nych i zesta­wów kompetencji.

Wniosek jaki wysnu­to: potrzeb­na nowa, ?lep­sza? tech­no­lo­gia. Czy aby na pew­no? Jeżeli jed­nak BigData ma nie być kolej­nym hasłem mar­ke­tin­go­wym to zna­czy, że nie jest naj­lep­szym roz­wią­za­niem kupie­nie kolej­ne­go jesz­cze więk­sze­go i jesz­cze szyb­sze­go ?sprzę­tu?. Moim zda­niem w dal­szej czę­ści zapro­sze­nia zwró­co­no uwa­gę na kie­ru­nek dają­cy więk­sze szan­se powodzenia:

Liczba danych gro­ma­dzo­nych w biz­ne­sie przy­ra­sta rocz­nie o 50 pro­cent. Więcej jed­nak wca­le nie zna­czy lepiej – by hasło Big Data prze­ło­ży­ło się na Big Business potrze­ba nowych umie­jęt­no­ści, odpo­wied­nich narzę­dzi i odpo­wied­niej stra­te­gii zarzą­dza­nia infor­ma­cją. (źr. Zaproszenie na kon­fe­ren­cję BigData COMPUTERWORLD luty 2013)

Pada hasło stra­te­gia, na któ­rym posta­ram się sku­pić w dal­szej czę­ści. Wcześniej jed­nak zde­fi­niuj­my poję­cie BigData by wia­do­mo było o czym tu będę traktował:

W 2001 roku META Group (obec­nie Gartner) opu­bli­ko­wa­ła raport, któ­ry opi­su­je big data w mode­lu 3V. Wskazuje on na dużą ilość danych (Volume), dużą zmien­ność danych (Velocity) oraz dużą róż­no­rod­ność danych (Variety). W 2012 roku Gartner uzu­peł­nił poda­ną wcze­śniej defi­ni­cję wska­zu­jąc, iż ?big data to zbio­ry infor­ma­cji o dużej obję­to­ści, dużej zmien­no­ści i/lub dużej róż­no­rod­no­ści, któ­re wyma­ga­ją nowych form prze­twa­rza­nia w celu wspo­ma­ga­nia podej­mo­wa­nia decy­zji, odkry­wa­nia nowych zja­wisk oraz opty­ma­li­za­cji pro­ce­sów?. (źr. BigData WIKI)

Tak wiec mamy defi­ni­cję: big data to zbio­ry infor­ma­cji o dużej obję­to­ści, dużej zmien­no­ści i/lub dużej róż­no­rod­no­ści. Resztę pomi­ną­łem zda­nia pomi­ną­łem, gdyż to cze­go BigData wyma­ga nie jest przed­mio­tem defi­ni­cji pojęcia.

Na czym pole­ga pro­blem biz­ne­so­wy? Generalnie ludzie (o heu­ry­sty­kach już pisa­łem) sto­su­ją meto­dy induk­cyj­ne jako narzę­dzie wycią­ga­nia wnio­sków. Indukcja to w naukach empi­rycz­nych meto­da pole­ga­ją­ca na wpro­wa­dze­niu uogól­nień na pod­sta­wie eks­pe­ry­men­tów i obser­wa­cji fak­tów, for­mu­ło­wa­niu i wery­fi­ka­cji hipo­tez. Zaczątki induk­cji w sen­sie nowo­żyt­nym stwo­rzył F. Bacon, któ­ry uznał, że induk­cja i eks­pe­ry­ment to dwie sku­tecz­ne meto­dy usta­la­nia praw­dy. Słowo klucz tu to ?fak­ty?. Z induk­cją mają do czy­nie­nia wszy­scy, któ­rzy korzy­sta­ją z ana­li­zy tren­dów (np. ana­li­za tech­nicz­na w przy­pad­ku ana­li­zy kur­sów walut czy akcji).

Problem z induk­cją, jako meto­dą, pole­ga na tym, że w zasa­dzie spro­wa­dza się do pró­by oce­ny tego, z jakim praw­do­po­do­bień­stwem powtó­rzy się histo­ria bada­ne­go zja­wi­ska. Metoda ta nie pro­wa­dzi do nowych odkryć, pro­wa­dzi do mode­li opi­su­ją­cych praw­do­po­do­bień­stwo powtó­rze­nia się fak­tów, o któ­rych mamy wie­dzę, że wystąpiły.

Firmy, w mia­rę roz­wo­ju tech­no­lo­gii i roz­bu­do­wy swo­ich pro­ce­sów biz­ne­so­wych, gro­ma­dzą coraz więk­sze ilo­ści danych o zna­nych im fak­tach ze swo­jej histo­rii. Rejestrowane są coraz dokład­niej i ?gęściej? w cza­sie, wszel­kie zda­rze­nia na fir­mo­wych stro­nach WWW, wszel­ka wie­dza o zda­rze­niach w pro­wa­dzo­nej dzia­łal­no­ści. Firmy popy­cha do tego wia­ra w to, że im wię­cej danych tym lep­sze wnio­ski. Praktyka jed­nak poka­zu­je, że rosną­ca dokład­ność ?prób­ko­wa­nia? np. zacho­wań klien­tów nie pro­wa­dzi do pro­por­cjo­nal­ne­go wzro­stu zamó­wień. Owszem, pozna­jąc te zacho­wa­nia moż­na lepiej zaadre­so­wać ofer­tę, to praw­da ale nie jest to zależ­ność liniowa.

Do 2015 roku ponad 85 proc. firm skla­sy­fi­ko­wa­nych w ran­kin­gu Fortune 500 nie będzie potra­fi­ło efek­tyw­nie wyko­rzy­stać posia­da­nych zbio­rów danych, bowiem wystą­pi efekt tzw. big data. Co więc z tymi dany­mi robić? Ignorować je trosz­kę. Jeżeli praw­dą jest, że dziś, w cią­gu zale­d­wie dwóch dni pro­du­ku­je­my tyle danych, ile ludz­kość wytwo­rzy­ła od zara­nia dzie­jów do roku 2003, to porów­nu­jąc to z postę­pem doko­na­nym w cią­gu ostat­niej deka­dy z postę­pem ostat­nich dwóch tysię­cy lat, wnio­sek nasu­wa się jeden: raczej nie ilość danych decy­du­je o wie­dzy i postę­pie. Więc co?

W opo­zy­cji do induk­cji jako meto­dy pozna­nia (epi­ste­mo­lo­gia) stoi deduk­cja. Dedukcja to rozu­mo­wa­nie pole­ga­ją­ce na wypro­wa­dza­niu z prze­sła­nek (zdań) uzna­nych za praw­dzi­we na pod­sta­wie fak­tów, następ­stwa będą­ce­go logicz­nym i praw­dzi­wym wnio­skiem. Innymi sło­wy, deduk­cja pole­ga posta­wie­niu hipo­te­zy na pod­sta­wie pew­nej ogra­ni­czo­nej licz­by danych (fak­tów), udo­wod­nie­niu jej słusz­no­ści (poprzez brak fak­tów prze­czą­cych tej tezie – nie­uda­na fal­sy­fi­ka­cja) i wycią­ga­niu wnio­sków o przy­szło­ści. Jak dowo­dzi się takiej hipo­te­zy? Testuje się spraw­dza­jąc, czy popraw­nie opi­su­je zna­ny z histo­rii fak­ty. Innymi sło­wy: jeże­li nie odkry­to fak­tów oba­la­ją­cych tezę (poka­zu­ją­cych, że jest nie­praw­dzi­wa) uzna­je się ją za poprawną.

Typowym przy­kła­dem induk­cji jest pro­gno­zo­wa­nie pogo­dy na bazie zna­nych z histo­rii fak­tów: pro­gno­za była uzna­niem, że powtó­rzy się okre­ślo­na sytu­acja zaob­ser­wo­wa­na w prze­szło­ści (np. nisko lata­ją­ce jaskół­ki zapo­wia­da­ją desz­cze). Obecne pro­gno­zy to deduk­cja: na bazie okre­ślo­nej par­tii danych opra­co­wa­no tezę: model fizycz­ny atmos­fe­ry i zja­wisk w niej zacho­dzą­cych. Model ten, po poda­niu danych o sta­nie obec­nym atmos­fe­ry, pozwa­la na wnio­sko­wa­nie (wyli­cze­nie) jego sta­nu na dzień lub tydzień następ­ny (tu krót­ko i śred­nio­ter­mi­no­wa pro­gno­za). Co cie­ka­we, ta meto­da (deduk­cja) pozwa­la na prze­wi­dy­wa­nie fak­tów, któ­re nie zaszły w prze­szło­ści (z praw­do­po­do­bień­stwem wyni­ka­ją­cym z jako­ści uży­te­go mode­lu i kosz­tu obliczeń).

Dedukcję jako meto­dę pozna­nia (meto­da dowo­dze­nia poprzez sta­wia­nie hipo­tez i ich fal­sy­fi­ka­cję) opi­sał Karl Popper. Nosi ona obec­nie nazwę ?meto­dy naukowej?.

Jak to się ma do nasze­go BigData? Moim zda­niem BigData to śle­pa ulicz­ka. Rosnące nakła­dy na sprzęt i opro­gra­mo­wa­nie zmniej­sza­ją jedy­nie błąd sta­ty­stycz­ny obli­czeń nie wno­sząc nic do ich jako­ści w rozu­mie­niu ?jako­ści pro­gno­zo­wa­nia?. Co do ?odkry­wa­nia? cze­go­kol­wiek nie ma mowy, udo­wod­nio­no, że meto­da­mi induk­cyj­ny­mi nie da się nicze­go nowe­go odkryć, moż­na co naj­wy­żej udo­ku­men­to­wać trend. Owszem, pozo­sta­je kwe­stia ana­li­zy kore­la­cyj­nej, czy­li wykry­wa­nia związ­ków pomię­dzy fak­ta­mi (np. czy pora dnia wpły­wa na decy­zje zaku­po­we). Tego typu ana­li­zy nie są niczym nowym, są zna­ne wśród spe­cja­li­stów z zakre­su Business Inteligence od dawna.

Tak więc klu­czo­wą stra­te­gią wyda­je się tu być tak zwa­ny pro­gram reten­cyj­ny, czy­li stra­te­gia wybo­ru danych do prze­cho­wy­wa­nia (i usu­wa­nie pozo­sta­łych), bo nie da się zapa­mię­tać? wszyst­kie­go. Jednym z ?mod­nych? ele­men­tów stra­te­gii sprze­da­żo­wych są tak zwa­ne pro­gra­my part­ner­skie. Maciej Tesławski (eks­pert z zakre­su mar­ke­tin­gu) na swo­im blo­gu pisze:

Programy reten­cyj­ne mogą być B2B, B2C i mul­ti­part­ner­skie, lojal­no­ścio­we mogą być tyl­ko B2C bo w biz­ne­sie decy­zje zaku­po­we podej­mu­je się w znacz­nym stop­niu racjo­nal­nie a nie emo­cjo­nal­nie. Jeśli cho­dzi o oce­nę dzia­ła­ją­cych pro­gra­mów reten­cyj­nych, to pod­sta­wo­wy błąd jaki widzę to nie­wy­ko­rzy­sty­wa­nie bazy infor­ma­cji o uczest­ni­kach pro­gra­mu przez fir­my. To jest potęż­ny zbiór infor­ma­cji o zacho­wa­niach poszcze­gól­nych kon­su­men­tów, w połą­cze­niu z dany­mi demo­gra­ficz­ny­mi pozwa­la na ?pozna­nie? pro­fi­lu naj­bar­dziej war­to­ścio­wych kon­su­men­tów. Nie zauwa­ży­łem aby kto­kol­wiek to wyko­rzy­sty­wał. Dzieje się tak zapew­ne dla­te­go, że bazy danych rosną w postę­pie geo­me­trycz­nym i prze­ra­sta­ją moż­li­wo­ści ich bie­żą­ce­go wykorzystywania.

Skoro tak, to wie­my co ? pozo­sta­je jak. Jak zauwa­żo­no na począt­ku, przy­ra­sta­ją­ca ilość danych, a raczej korzy­sta­nie z nich, wyma­ga cał­kiem nowych plat­form tech­no­lo­gicz­nych i zesta­wów kom­pe­ten­cji. Platformy tech­no­lo­gicz­ne są, postęp tech­nicz­ny nam je zapew­nia. Wydaje się, że klu­czem jest ?nowy zestaw kompetencji?.

Moim zda­niem duży­mi kro­ka­mi nad­cho­dzi czas, gdy z ana­li­zy sta­ty­stycz­nej nale­ży się prze­rzu­cić na ana­li­zę sys­te­mo­wą ? deduk­cję, oraz odpo­wied­nie stra­te­gie reten­cji danych. W nie­daw­nej prze­szło­ści stwier­dzo­no, że rosną­ca ilość danych i dal­sze uszcze­gó­ło­wia­nie danych o zmia­nach tem­pe­ra­tu­ry, ciśnie­nia, wiel­ko­ści opa­dów nie popra­wia­ją jako­ści pro­gnoz pogo­dy. Zmieniono podej­ście i jak widać uda­ło się, pro­gno­zy pogo­dy nigdy nie były tak dokład­ne jak w ostat­niej deka­dzie a nie jest to efekt BigData.

Od tech­no­lo­gii teraz nie ocze­ki­wał bym ogrom­nych pojem­no­ści a mocy obli­cze­nio­wej, tu widzę dro­gę do suk­ce­su: ana­li­za ogra­ni­czo­nej ilo­ści fak­tów, budo­wa­nie mode­li zacho­wań np. kon­su­men­tów, pro­gno­zo­wa­nie tych zacho­wać. Myślę też, że pew­ne­go pro­gu jako­ści pro­gnoz nie prze­kro­czy­my. Filozofia dowo­dzi, że nie da się stwo­rzyć w świe­cie real­nym demiur­ga (w filo­zo­fii Platona okre­śla­no tak budow­ni­cze­go świa­ta nada­ją­ce­go kształ­ty wiecz­nej, bez­kształt­nej mate­rii według wzor­ców, jakie sta­no­wią dosko­na­łe idee; w filo­zo­fii nowo­żyt­nej demon potra­fią­cy obli­czyć przy­szły stan świa­ta na pod­sta­wie wie­dzy o wszyst­kich ato­mach i pra­wach nimi rzą­dzą­cych). Praktyka poka­zu­je, że nie ist­nie­je i dłu­go nie powsta­nie taka moc obli­cze­nio­wa by choć trosz­kę się do demiur­ga zbliżyć.

A czym jest ta ana­li­za sys­te­mo­wa i mode­lo­wa­nie? Wyobraźmy sobie kogoś, kto chce prze­wi­dy­wać zacho­wa­nia kul pod­czas gry w sno­oke­ra. Problem ten może zostać opi­sa­ny fak­ta­mi opi­su­ją­cy­mi grę powierz­chow­nie: ?Gracz ude­rza bia­łą kulę, któ­ra prze­miesz­cza się z pew­ną pręd­ko­ścią, ta po okre­ślo­nym cza­sie ude­rza czer­wo­ną kulę pod okre­ślo­nym kątem, ude­rzo­na czer­wo­na kula prze­miesz­cza się na pew­ną odle­głość w pew­nym kie­run­ku.? Można sfil­mo­wać set­ki tysię­cy takich ude­rzeń, zare­je­stro­wać z dowol­na dokład­no­ścią para­me­try każ­de­go ude­rze­nia i jego skut­ki. Jednak tą meto­dą i tak nie stwo­rzy­my nawet dość dobrej symu­la­cji. Aby stwo­rzyć na praw­dę dobrą symu­la­cję, nale­ży zro­zu­mieć pra­wa rzą­dzą­ce ruchem kul, ich zależ­ność od siły i kie­run­ku ude­rze­nia, kie­run­ku itp. Zrozumienie tych praw pozwo­li znacz­nie łatwiej prze­wi­dzieć sku­tek każ­de­go ude­rze­nia.? (na pod­sta­wie Analysis Patterns. Reusable Object Models, Martin Fowler, Addison-Wesley, 1997).

P.S.

W ramach uzu­peł­nie­nia dys­ku­sji o induk­cji zamiesz­czam cytat z Karla Poppera, jed­na z wie­lu obec­nych opi­nii o induk­cji jako metodzie:

indukcja, trendy, wnioskowanie, popper, hume

Polecam teą arty­ku­ły wcześnijesze:

Jarosław Żeliński

Jarosław Żeliński: autor, badacz i praktyk analizy systemowej organizacji: Od roku 1991 roku, nieprzerwanie, realizuje projekty z zakresu analiz i projektowania systemów, dla urzędów, firm i organizacji. Od 1998 roku prowadzi samodzielne studia i prace badawcze z obszaru analizy systemowej i modelowania (modele jako przedmiot badań: ORCID). Od 2005 roku, jako nieetatowy wykładowca akademicki, prowadzi wykłady i laboratoria (ontologie i modelowanie systemów informacyjnych, aktualnie w Wyższej Szkole Informatyki Stosowanej i Zarządzania pod auspicjami Polskiej Akademii Nauk w Warszawie.) Oświadczenia: moje badania i publikacje nie mają finansowania z zewnątrz, jako ich autor deklaruję brak konfliktu interesów. Prawa autorskie: Zgodnie z art. 25 ust. 1 pkt. 1) lit. b) ustawy o prawie autorskim i prawach pokrewnych zastrzegam, że dalsze rozpowszechnianie artykułów publikowanych w niniejszym serwisie jest zabronione bez indywidualnej zgody autora (patrz Polityki Strony).

Ten post ma 10 komentarzy

  1. Łukasz Mozalewski

    Jaki jest wnio­sek z powyż­sze­go arty­ku­łu? Trudno porów­ny­wać ana­li­zo­wa­nie pogo­dy, zbie­ra­nie danych o klien­tach i inne obsza­ry ana­liz sta­ty­stycz­nych. Często jest tak, że koniecz­ne jest zebra­nie danych za okre­ślo­ny okres cza­su, aby móc zacząć obser­wo­wać zacho­wa­nia. Niektóre zda­rze­nia gospo­dar­cze uwi­dacz­nia­ją się dopie­ro po kil­ku mie­sią­cach a nie­któ­re po roku. Analiza danych wstecz jest pomoc­na do oce­ny, czy zmia­ny któ­re chce się wpro­wa­dzić są korzyst­ne, a tak­że czy wpro­wa­dzo­ne zmia­ny zmie­ni­ły roz­kład cha­rak­te­ry­styk. Dane to nie wszyst­ko, na to trze­ba nało­żyć narzę­dzia, per­spek­ty­wy. Analiza przed utwo­rze­niem struk­tu­ry jest klu­czo­wa – wpły­wa na póź­niej­sze moż­li­wo­ści wyko­rzy­sta­nia danych. Potem klu­czo­wa jest ana­li­za biz­ne­so­wa czy z danych, któ­re są zbie­ra­ne, moż­na wycią­gnąć kolej­ne wnioski.

    1. Jarek Żeliński

      Wniosek pierw­szy: nie ma pod­staw by klo­no­wać” zda­rze­nia histo­rycz­ne w przy­szłość uzna­jąc je jako pro­gno­zę, owszem moż­na uznać, że praw­do­po­dob­nie się powtó­rzą ale nie mamy żad­nej wie­dzy by to praw­do­po­do­bień­stwo oce­nić. Powszechnie sto­so­wa­na” ana­li­za tech­nicz­na kur­sów akcji poka­zu­je, że te wróż­by” maja war­tość rzu­tu monetą. 

      Wniosek dru­gi: sto­so­wa­nie meto­dy ana­li­zy fak­tów histo­rycz­nych z zasa­dy nie­moż­li­we jest prze­wi­dze­nie” nicze­go nowe­go, cze­goś co się nie wyda­rzy­ło jeszcze. 

      I moje pyta­nie: Co to zna­czy nało­żyć narzę­dzia, perspektywy”? 

      Na ostat­nie zda­nie odpo­wiedź powy­żej: wnio­ski o histo­rii”. Ale te aku­rat nie są spe­cjal­nym wyzwaniem.

  2. jacek2v

    Tak jak potrak­to­wał Pan temat prze­wi­dy­wa­nia z maso­wych ilo­ści danych tak samo moż­na potrak­to­wać Pana arty­kuł. Czyli błęd­ne jest wnio­sek, że jeże­li ze śred­nio dużej ilo­ści danych nie moż­na wywnio­sko­wać regu­ły tak i z bar­dzo dużej ilo­ści danych takiej regu­ły nie uda się wywnioskować”.
    W wie­lu wypad­kach nie wie­my, czy ilość ma zna­cze­nie. Ale jak poka­zu­je prak­ty­ka w wie­lu wypad­kach ilość jed­nak ma kolo­sal­ne zna­cze­nie na znaj­do­wa­nie nowych roz­wią­zań np. algo­ryt­my gene­tycz­ne, czy też biologiczne.
    Lecz nale­ży pamię­tać, że duża ilość danych potrze­bu­je nowych mecha­ni­zmów ana­li­tycz­nych i narzę­dzi. Zapewne bar­dziej heu­ry­stycz­nych niż induk­cyj­nych, bar­dziej samo­adap­tu­ją­cych się i samoprogramujących.

    1. Jarek Żeliński

      Mój arty­kuł mówi, że do pro­gno­zo­wa­nia lep­sze są mode­le dane­go zja­wi­ska o dowie­dzio­nej popraw­no­ści a nie maso­wo zbie­ra­ne dane fak­tach i oce­na tego czy mogą się powtó­rzyć. Innymi sło­wy: jeże­li opi­sze­my kule bilar­do­we pra­wa­mi fizy­ki łatwo prze­wi­dzi­my sku­tek każ­de­go nowe­go ude­rze­nia, nawet jeże­li będzie to pierw­sze ude­rze­nie. Jednak mając jed­nie zapi­sy skut­ków dotych­cza­so­wych ude­rzeń może­my oce­nić podo­bień­stwo kolej­ne­go ude­rze­nia i na pew­no nie prze­wi­dzi­my skut­ków ude­rze­nia, któ­re­go nikt jesz­cze nie wyko­nał. Konkluzja dru­ga: pew­nych rze­czy prak­tycz­nie nie da się prze­wi­dzieć przy obec­nym sta­nie wie­dzy i licz­ba pomia­rów nicze­go w tym nie zmienia. 

      Aha: heu­ry­sty­ka to wła­śnie induk­cja: wywo­dze­nie wnio­sków z dotych­cza­so­we­go doświadczenia.

  3. jacek2v

    Big Data nie ozna­cza spraw­dza­nie czy mogą się powtó­rzyć”. To jest jed­na z naj­prost­szych metod wnio­sko­wa­nia, sto­so­wa­na zresz­tą od wie­ków: powta­rza­nie i naśla­do­wa­nie – pier­wo­wzór induk­cji. Indukcja jest odmien­na od heu­ry­sty­ki. Indukcja to rozu­mo­wa­nie” krok po kro­ku, aby udo­wod­nić twier­dze­nie, zaś heu­ry­sty­ka poszu­ki­wa­nie nowych fak­tów lub związ­ków mię­dzy fak­ta­mi, któ­rych nie trze­ba udo­wad­niać. W infor­ma­ty­ce algo­ryt­my heu­ry­stycz­ne nie dają 100%/najlepszego roz­wią­za­nia (dowo­du, któ­ry zawsze jest praw­dzi­wy), lecz znaj­du­ją mak­si­mum wystar­cza­ją­co dobre przy pew­nych ogra­ni­cze­niach – np. cza­su i/lub mocy obliczeniowej.

    1. Jarek Żeliński

      Owszem, naj­prost­sza i naj­gor­sza (ale naj­ła­twiej­sza), induk­cja jest bar­dzo złą meto­dą dla poje­dyn­cze­go czło­wie­ka, induk­cja (czy­li heu­ry­sty­ka) ratu­je sta­ty­stycz­nie sta­do”, dla jed­nost­ki wno­si pew­ne nie­zna­ne praw­do­po­do­bień­stwo prze­ży­cia. Indukcja to wywo­dze­nie cze­goś z już ist­nie­ją­cych fak­tów, heu­ry­sty­ka to powta­rza­nie zacho­wać uzna­nych za sku­tecz­ne (czy­li wnio­sek induk­cyj­ny: uda­ło się kil­ka razy to zna­czy, że to dobre zacho­wa­nie). Metody heu­ry­stycz­ne, dają tak tym lep­sze efek­ty im bar­dziej try­wial­ny jest pro­blem, pro­ble­my nowe nie dają się roz­wią­zy­wać meto­da­mi heu­ry­stycz­ny­mi, a o tym głów­nie piszę. Innymi sło­wy BigData nicze­go nowe­go nigdzie nie odkryje…

  4. Jarek Żeliński

    kil­ka uzupełnien;
    – heurystyka
    – indukcja
    Są to meto­dy wnio­sko­wa­nia lub podej­mo­wa­nia decy­zji na pod­sta­wie zna­nych fak­tów i ich wza­jem­ne­go kojarzenia.

    Wątpliwości na temat indukcji

    Dodałem tak­że P.S. do artykułu.

  5. mkurleto

    To bar­dzo zale­ży od tego do cze­go te dane sa wyko­rzy­sty­wa­ne i jakiej są jako­ści. Nie od dziś wia­do­mo, że sto­jąc z psem przed domem mamy sta­ty­stycz­nie po trzy nogi – a jed­nak popraw­nie sto­so­wa­ne wnio­sko­wa­nie sta­ty­stycz­ne jest waż­nym czyn­ni­kiem wie­lu biz­ne­sów. Znam kil­ka przy­kła­dów budo­wy mode­li pre­dyk­cyj­nych w opar­ciu o big data, któ­re dają impo­nu­ją­ce wyni­ki – ale bynaj­mniej nie jest to meto­dą podziel­my przy­cho­dy fir­my przez licz­bę han­dlow­ców będzie dobry wskaź­nik jako­ści ich pracy.

    1. Jaroslaw Zelinski

      Nie twier­dzę, że sta­ty­ka jest zła ale trze­ba mieć świa­do­mość jej ogra­ni­czeń. Predykcja sta­ty­stycz­na (typo­wa induk­cja) ma sens tam gdzie hory­zont pro­gno­zy jest rela­tyw­nie mały w porów­na­niu ze okre­sem zmien­no­ści (np. pla­no­wa­nie wscho­dów słoń­ca na naj­bliż­sze dzie­siąt­ki a zapew­ne tysią­ce lat), ale nie spraw­dza się już to w przy­pad­ku pro­gnoz pogo­dy czy kur­sów akcji albo walut. Przykład z psem i czło­wie­kiem to wła­śnie przy­kład skut­ków uprosz­cze­nia (ja wolę ten: trzy­ma­jąc jed­ną nogę we wrząt­ku a dru­gą w lodów­ce, sta­ty­stycz­nie trzy­ma­my nogi w tem­pe­ra­tu­rze poko­jo­wej ;)). Statystyka to wyłącz­nie histo­ria, a w roli pro­gno­sty­ka – praw­do­po­do­bień­stwo jej powtó­rze­nia. W przy­pad­ku BigData mają sens ana­li­zy kore­la­cyj­ne (od lat sto­so­wa­ne w wykry­wa­niu nad­użyć, oce­nie sku­tecz­no­ści akcji pro­mo­cyj­nych) ale z pre­dyk­cją był­bym ostroż­ny z uwa­gi na wróż­biar­ski” cha­rak­ter induk­cji jako meto­dy wnio­sko­wa­nia. Każdy kto bawi się ana­li­zą tech­nicz­ną na gieł­dzie czy­ta, że mał­pom wycho­dzi podob­nie (a podob­no bywa, że lepiej) bez tej całej analizy ;). 

      Tak więc BigData nie­wąt­pli­wie jest dobre w okre­ślo­nych sytu­acjach, ale teza, że zmie­ni świat” jest w moich oczach moc­no nacią­ga­na, pomi­jam fakt, że jest pro­mo­wa­na tyl­ko przez dostaw­ców tech­no­lo­gii wspie­ra­ją­cych ten trend.

Dodaj komentarz

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.