Najpierw anons prasowy:

Do 2015 roku ponad 85 proc. firm skla­sy­fi­ko­wa­nych w ran­kin­gu Fortune 500 nie będzie potra­fi­ło efek­tyw­nie wyko­rzy­stać posia­da­nych zbio­rów danych, bowiem wystą­pi efekt tzw. big data. Eksperci pro­gno­zu­ją, że zarzą­dza­nie tymi ogrom­ny­mi zbio­ra­mi danych będzie jed­ną z klu­czo­wych kom­pe­ten­cji firm w cią­gu naj­bliż­szych 3 – 5 lat. A ci, któ­rzy zain­we­stu­ją w odpo­wied­nie roz­wią­za­nia, mogą osią­gnąć trwa­łą prze­wa­gę kon­ku­ren­cyj­ną na ryn­ku. Mogą tak­że zwięk­szyć zysk ope­ra­cyj­ny nawet do 60 proc. (za Jak fir­my mogą bro­nić się przed zale­wem danych?. wnp​.pl | Informatyka. Informatyka dla prze­my­słu.).

Jak widać gro­zi nam nie­moc! Ale czy aby na pew­no tak jest albo musi być? Czy na pew­no nale­ży wyda­wać ogrom­ne środ­ki na sys­te­my wspo­ma­ga­nia decyzji?

A teraz próba ugryzienia tematu

Analiza zda­rzeń gospo­dar­czych (zda­rzeń z histo­rii), w celu wykry­cia jakiej­kol­wiek pra­wi­dło­wo­ści zakła­da, że pra­wi­dło­wość taka ist­nie­je. Wobec tego zakła­da­my, że bada­my coś ist­nie­ją­ce­go (zależ­ność) a rze­czy­wi­ste zda­rze­nia gospo­dar­cze (nasze dane) są pozna­ny­mi fak­ta­mi, pomia­ra­mi. Najpierw więc malut­ka prób­ka tego jak bada się zda­rze­nia loso­we (moż­na to pominąć):

Charakterystyczną cechą nie­pew­no­ści przy­pad­ko­wych jest to, że na koń­co­wy błąd poje­dyn­cze­go pomia­ru skła­da się suma wie­lu małych, nie­za­leż­nych przy­czyn­ków, tzw. błę­dów ele­men­tar­nych. W rezul­ta­cie, przy kil­ka­krot­nym wyko­ny­wa­niu pomia­rów tej samej wiel­ko­ści uzy­sku­je się róż­ne wyni­ki. Wyniki te gru­pu­ją się wokół war­to­ści praw­dzi­wej, zaś ich roz­rzut może być mia­rą dokład­no­ści pomia­ru. Samej war­to­ści praw­dzi­wej nie zna­my, może­my jed­nak uzy­skać war­tość przy­bli­żo­ną, oraz sta­ty­stycz­ną oce­nę jej dokładności.

(za Pomiary i nie­pew­no­ści pomiarowe).

Na powyż­szym dia­gra­mie czer­wo­na linia to krzy­wa Gaussa, istot­na jest nie­bie­ska: dys­try­bu­an­ta. Jak widać jest to funk­cja nie­li­nio­wa, jej pochod­ną jest krzy­wa Gaussa. Maksimum krzy­wej Gaussa poka­zu­je hipo­te­tycz­ne opty­mal­ne tra­fie­nie” w nasza zależ­ność”. Dystrybuanta poka­zu­je, że na brze­gach zakre­su pomia­ro­we­go bada­na zmien­ność zbli­ża się do zera (czy­li istot­ne są wyni­ki bli­skie war­to­ści czę­ści środ­ko­wej (moż­na zanie­dbać te skrajne).

A teraz nasze dane

Rozbieramy pro­blem (tu dro­ga na skró­ty, pro­szę mi wyba­czyć), two­rzy­my dwie krzywe:

Powyższy dia­gram bazu­je na pew­nych uprosz­cze­niach ale coś trze­ba upro­ścić ;). Wyobraźmy sobie hipo­te­tycz­ne miej­sce ide­al­nej ana­li­zy: zero­wy błąd w wyni­ku prze­two­rze­nia nie­skoń­czo­nej ilo­ści danych. Krzywa zie­lo­na poka­zu­je, jak rośnie pew­ność w mia­rę wzro­stu licz­by bada­nych danych, czer­wo­na jak rośnie koszt tego bada­nia. Jak nie­trud­no się teraz domy­śleć ist­nie­je pewien punkt, od któ­re­go nakła­dy na wyko­na­nie ana­li­zy rosną szyb­ciej niż korzy­ści z rosną­cej dokład­no­ści wyni­ków ana­li­zy (przy­po­mi­nam dys­try­bu­an­tę powy­żej). Gdybyśmy na ten wykres nało­ży­li opi­sa­ną wyżej dys­try­bu­an­tę, oka­za­ło by się, że zarów­no zbyt mała jak i zbyt duża licz­ba pomia­rów nie wno­si wie­le. Zbyt mała licz­ba danych daje mało wia­ry­god­ny wynik, zbyt duża nie czy­ni wyni­ku wie­le wia­ry­god­niej­szym. Zaznaczam, że mowa o ana­li­zach sta­ty­stycz­nych, są tak­że inne potrze­by o czym dalej.

I teraz wnioski

Technologia IT pozwa­la zapi­sy­wać ogrom­ne ilo­ści danych. W cyto­wa­nym na począt­ku arty­ku­le nama­wia się nas na inwe­sty­cje w tech­no­lo­gie, któ­re dają szan­se na prze­ro­bie­nie” tego. A czy aby na pew­no musi­my gro­ma­dzić to wszyst­ko? Mózg ludz­ki ma dosko­na­łą obro­nę przed nad­mia­rem infor­ma­cji – zapo­mi­na­nie. Jak wie­my radzi­my sobie cał­kiem nie­źle mimo tego, że wie­le rze­czy zapo­mi­na­my, jed­nak wycią­ga­my wnio­ski a te zapa­mię­tu­je­my – zbie­ra­my doświad­cze­nie. To milio­ny lat ewo­lu­cji stwo­rzy­ły ten mecha­nizm! Wystarczy go naśladować.

Zmierzam do tego, że pro­jek­to­wa­nie sys­te­mów infor­ma­tycz­nych to tak­że pro­jek­to­wa­nie tego jaki­mi dany­mi zarzą­dzać, któ­re i jak zacho­wy­wać np. w hur­tow­ni danych. Gdyby nasza fir­ma zawie­ra­ła nie­skoń­czo­ną ilość trans­ak­cji sprze­da­ży rocz­nie (:)) czy musi­my ana­li­zo­wać wszyst­kie by oce­nić udzia­ły w ryn­ku, podział na regio­ny, naj­lep­szych i naj­gor­szych sprze­daw­ców, nad­uży­cia w trans­por­cie? Nie! Wystarczy mieć dane repre­zen­ta­tyw­ne, zacho­wać do ana­liz tyl­ko usta­lo­ną część ([[reten­cja danych]]). Niestety nie jest łatwo pod­jąć decy­zję, któ­ra to część i to jest (powin­no być) tak na praw­dę waż­ną czę­ścią ana­li­zy wyma­gań. Należy oce­nić racjo­nal­ność kosz­tów prze­twa­rza­nia wszyst­kich” tych danych. Nie daj­my się zwa­rio­wać z wydat­ka­mi na rosną­ce pojem­no­ści sys­te­mów skła­do­wa­nia i prze­twa­rza­nia danych.

Retencja danych z innej stro­ny. Powodów mamy nie­ma­ło: wyma­ga­ją tego prze­pi­sy, wyma­ga tego potrze­ba biz­ne­so­wa. Czym innym są dane gro­ma­dzo­ne w celach sta­ty­stycz­nych (te są czę­sto agre­go­wa­ne), a czym innym fak­ty, o któ­rych wie­dzę chce­my posia­dać. Będziemy pew­nie mie­li nie raz do czy­nie­nia z tre­ścia­mi war­ty­mi zacho­wa­nia („wie­dza”). Państwo (admi­ni­stra­cja) radzi sobie z tym usta­la­jąc kate­go­rie doku­men­tów (róż­ne doku­men­ty są nisz­czo­ne po róż­nym cza­sie, nie­któ­re nigdy). W biz­ne­sie np. fak­tu­ry trzy­ma­my 6 lat, doku­men­ty doty­czą­ce pra­cow­ni­ków – 20, lat, ale doku­men­ty spół­ki tak dłu­go jak ona ist­nie­je i jesz­cze trochę…

Dla jed­ne­go z klien­tów opra­co­wa­łem spe­cjal­ny typ (model) hur­tow­ni: drą­że­nie danych pro­wa­dzi­ło nie tyl­ko do kon­kret­nych fak­tów, ale tak­że do doku­men­tów powią­za­nych z tymi fak­ta­mi… ale to temat na inny arty­kuł 🙂 o tym jak moż­na spryt­nie inte­gro­wać sys­te­my ana­li­tycz­ne BI z repo­zy­to­ria­mi dokumentów.

Na zakoń­cze­nie pole­cam ubie­gło­rocz­ny arty­kuł Ekonomia myśle­nia, na temat ana­li­zy danych w sys­te­mach CRM.

Jarosław Żeliński

Jarosław Żeliński: autor, badacz i praktyk analizy systemowej organizacji: Od roku 1991 roku, nieprzerwanie, realizuje projekty z zakresu analiz i projektowania systemów, dla urzędów, firm i organizacji. Od 1998 roku prowadzi samodzielne studia i prace badawcze z obszaru analizy systemowej i modelowania (modele jako przedmiot badań: ORCID). Od 2005 roku, jako nieetatowy wykładowca akademicki, prowadzi wykłady i laboratoria (ontologie i modelowanie systemów informacyjnych, aktualnie w Wyższej Szkole Informatyki Stosowanej i Zarządzania pod auspicjami Polskiej Akademii Nauk w Warszawie.) Oświadczenia: moje badania i publikacje nie mają finansowania z zewnątrz, jako ich autor deklaruję brak konfliktu interesów. Prawa autorskie: Zgodnie z art. 25 ust. 1 pkt. 1) lit. b) ustawy o prawie autorskim i prawach pokrewnych zastrzegam, że dalsze rozpowszechnianie artykułów publikowanych w niniejszym serwisie jest zabronione bez indywidualnej zgody autora (patrz Polityki Strony).

Dodaj komentarz

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.