Najpierw anons prasowy:
Do 2015 roku ponad 85 proc. firm sklasyfikowanych w rankingu Fortune 500 nie będzie potrafiło efektywnie wykorzystać posiadanych zbiorów danych, bowiem wystąpi efekt tzw. big data. Eksperci prognozują, że zarządzanie tymi ogromnymi zbiorami danych będzie jedną z kluczowych kompetencji firm w ciągu najbliższych 3-5 lat. A ci, którzy zainwestują w odpowiednie rozwiązania, mogą osiągnąć trwałą przewagę konkurencyjną na rynku. Mogą także zwiększyć zysk operacyjny nawet do 60 proc. (za Jak firmy mogą bronić się przed zalewem danych?. wnp.pl | Informatyka. Informatyka dla przemysłu.).
Jak widać grozi nam niemoc! Ale czy aby na pewno tak jest albo musi być? Czy na pewno należy wydawać ogromne środki na systemy wspomagania decyzji?
A teraz próba ugryzienia tematu
Analiza zdarzeń gospodarczych (zdarzeń z historii), w celu wykrycia jakiejkolwiek prawidłowości zakłada, że prawidłowość taka istnieje. Wobec tego zakładamy, że badamy coś istniejącego (zależność) a rzeczywiste zdarzenia gospodarcze (nasze dane) są poznanymi faktami, pomiarami. Najpierw więc malutka próbka tego jak bada się zdarzenia losowe (można to pominąć):
Charakterystyczną cechą niepewności przypadkowych jest to, że na końcowy błąd pojedynczego pomiaru składa się suma wielu małych, niezależnych przyczynków, tzw. błędów elementarnych. W rezultacie, przy kilkakrotnym wykonywaniu pomiarów tej samej wielkości uzyskuje się różne wyniki. Wyniki te grupują się wokół wartości prawdziwej, zaś ich rozrzut może być miarą dokładności pomiaru. Samej wartości prawdziwej nie znamy, możemy jednak uzyskać wartość przybliżoną, oraz statystyczną ocenę jej dokładności.
(za Pomiary i niepewności pomiarowe).
Na powyższym diagramie czerwona linia to krzywa Gaussa, istotna jest niebieska: dystrybuanta. Jak widać jest to funkcja nieliniowa, jej pochodną jest krzywa Gaussa. Maksimum krzywej Gaussa pokazuje hipotetyczne optymalne “trafienie” w nasza “zależność”. Dystrybuanta pokazuje, że na brzegach zakresu pomiarowego badana zmienność zbliża się do zera (czyli istotne są wyniki bliskie wartości części środkowej (można zaniedbać te skrajne).
A teraz nasze dane
Rozbieramy problem (tu droga na skróty, proszę mi wybaczyć), tworzymy dwie krzywe:
Powyższy diagram bazuje na pewnych uproszczeniach ale coś trzeba uprościć ;). Wyobraźmy sobie hipotetyczne miejsce idealnej analizy: zerowy błąd w wyniku przetworzenia nieskończonej ilości danych. Krzywa zielona pokazuje, jak rośnie pewność w miarę wzrostu liczby badanych danych, czerwona jak rośnie koszt tego badania. Jak nietrudno się teraz domyśleć istnieje pewien punkt, od którego nakłady na wykonanie analizy rosną szybciej niż korzyści z rosnącej dokładności wyników analizy (przypominam dystrybuantę powyżej). Gdybyśmy na ten wykres nałożyli opisaną wyżej dystrybuantę, okazało by się, że zarówno zbyt mała jak i zbyt duża liczba pomiarów nie wnosi wiele. Zbyt mała liczba danych daje mało wiarygodny wynik, zbyt duża nie czyni wyniku wiele wiarygodniejszym. Zaznaczam, że mowa o analizach statystycznych, są także inne potrzeby o czym dalej.
I teraz wnioski
Technologia IT pozwala zapisywać ogromne ilości danych. W cytowanym na początku artykule namawia się nas na inwestycje w technologie, które dają szanse na “przerobienie” tego. A czy aby na pewno musimy gromadzić to wszystko? Mózg ludzki ma doskonałą obronę przed nadmiarem informacji – zapominanie. Jak wiemy radzimy sobie całkiem nieźle mimo tego, że wiele rzeczy zapominamy, jednak wyciągamy wnioski a te zapamiętujemy – zbieramy doświadczenie. To miliony lat ewolucji stworzyły ten mechanizm! Wystarczy go naśladować.
Zmierzam do tego, że projektowanie systemów informatycznych to także projektowanie tego jakimi danymi zarządzać, które i jak zachowywać np. w hurtowni danych. Gdyby nasza firma zawierała nieskończoną ilość transakcji sprzedaży rocznie (:)) czy musimy analizować wszystkie by ocenić udziały w rynku, podział na regiony, najlepszych i najgorszych sprzedawców, nadużycia w transporcie? Nie! Wystarczy mieć dane reprezentatywne, zachować do analiz tylko ustaloną część ([[retencja danych]]). Niestety nie jest łatwo podjąć decyzję, która to część i to jest (powinno być) tak na prawdę ważną częścią analizy wymagań. Należy ocenić racjonalność kosztów przetwarzania “wszystkich” tych danych. Nie dajmy się zwariować z wydatkami na rosnące pojemności systemów składowania i przetwarzania danych.
Retencja danych z innej strony. Powodów mamy niemało: wymagają tego przepisy, wymaga tego potrzeba biznesowa. Czym innym są dane gromadzone w celach statystycznych (te są często agregowane), a czym innym fakty, o których wiedzę chcemy posiadać. Będziemy pewnie mieli nie raz do czynienia z treściami wartymi zachowania (“wiedza”). Państwo (administracja) radzi sobie z tym ustalając kategorie dokumentów (różne dokumenty są niszczone po różnym czasie, niektóre nigdy). W biznesie np. faktury trzymamy 6 lat, dokumenty dotyczące pracowników – 20, lat, ale dokumenty spółki tak długo jak ona istnieje i jeszcze trochę…
Dla jednego z klientów opracowałem specjalny typ (model) hurtowni: drążenie danych prowadziło nie tylko do konkretnych faktów, ale także do dokumentów powiązanych z tymi faktami… ale to temat na inny artykuł 🙂 o tym jak można sprytnie integrować systemy analityczne BI z repozytoriami dokumentów.
Na zakończenie polecam ubiegłoroczny artykuł Ekonomia myślenia, na temat analizy danych w systemach CRM.