Zaczęło się od prowokacyjnego artykułu Chrisa Andersona ?The End of Theory: The Data Deluge Makes the Scientific Method Obsolete? . Redaktor naczelny miesięcznika Wired udowadniał w nim, że zalew danymi (określany po angielsku mianem ?data deluge? lub ?big data?) wywołany, z jednej strony stałym spadkiem kosztów przechowywania informacji, a z drugiej, upowszechnieniem serwisów Web 2.0, służących kreowaniu i współdzieleniu wiedzy, wkrótce zmusi nowoczesne organizacje do rezygnacji z wyrafinowanych narzędzi do analizy statystycznej. A w dalszej perspektywie może oznaczać weryfikację dotychczasowych metod naukowych i badawczych. (źr. Blog Jacka Murawskiego dyrektora generalnego polskiego oddziału Microsoft.)
Jest to kolejny głos mówiący o zalewie śmieciowych danych. Pisałem swego czasu o problemach z migracją danych podczas wdrażania nowych systemów. Problemem nie jest sama migracja (przeniesienie danych ze starego systemu do nowego) a to, co przenieść. Niestety najczęściej z braku “pomysłu” przenosi się “wszystko” co powoduje, że rośnie liczba śmieci zaś relatywnie spada odsetek danych faktycznie przydatnych.
W efekcie ma miejsce paradoksalne zjawisko: rosną koszty zarządzania danymi a ich wartość (przydatność) maleje. Np. dane księgowe i podobne – strukturalne – można przenosić do hurtowni danych. Tu proces ich czyszczenia rozwiązuje część problemu, bo to tylko ich porządkowanie. Pozostaje problem “czego nie przenosić”. Dochodzi problem danych niestrukturalnych takich jak różnego rodzaju dokumenty (oferty, robocze dokumentacje projektowe itp.).
Cały ten problem ma nazwę: [[retencja danych]]. Pojawiają się głosy by w firmach wprowadzić proces znany z urzędów i systemu Archiwów Państwowych: nadawanie kategorii archiwalnej każdej dokumentacji.
Problem nie jest prosty, mam wrażenie, że często ignorowany “bo dyski twarde tanieją”, jednak “nie ma problemu z tym by coś wynieść na strych, problem w tym by to po kilku latach odnaleźć”. Kolejny problem to psychologia i czysta ludzka wyobraźnia: po latach mamy nie raz wrażenie, że coś co zachowaliśmy kiedyś nadal ma wartość taką jak w dniu zachowania, co z reguły okazuje się nieprawdą. Rzecz w tym, że wartość danych operacyjnych maleje z upływem czasu (dezaktualizują się dane o cenach, warunkach handlowych itp.). Można zaryzykować tezę, że po roku większość z nich (szczegóły) jest nieprzydatna. Co najwyżej wartość ma sam fakt, że do jakichś kontaktów dochodziło, jaki był ich cel itp.
Jak sobie z tym radzić? Narzędzie pomagające w tym, zawarte jest w większości dobrych systemów zarządzania przepływem pracy i dokumentów. Każdy taki system ma tak zwane [[repozytorium dokumentów]]. Jest to archiwum plików (dokumenty, zdjęcia, pliki źródłowe, itp.), dużą wartością repozytoriów jest to, że maja tak zwany system metadanych. [[Metadane]] to strukturalny opis niestrukturalnej zawartości przechowywanych plików.
Właściwy projekt tych metadanych ([[taksonomia]]) pozwala na stworzenie dwóch dodatkowych cech przydatnych w systemach [[business inteligence]]:
- metadane (jako dane strukturalne) mogą być migrowane do hurtowni danych,
- metadane nadal zachowują kluczowe informacje po usunięciu plików źródłowych (z reguły dużych i nieprzydatnych, np. po latach nadal będziemy wiedzieli jak często kontaktował się z nami klient i po co, mimo braku dostępu do już bezwartościowych danych o szczegółach tych kontaktów).
Warto tworzyć dobrze przemyślane systemy metadanych dla systemów archiwizacji dokumentów, gdyż pozwala to z jednej strony “spiąć” archiwum dokumentów z hurtownią danych z drugiej “pozbyć się” śmieci. Tempo przyrostu danych stale rośnie gdyż biznesowe oprogramowanie, automatyzując wiele naszych czynności, wytwarza je w tempie w jakim człowiek nigdy nie był by w stanie. Po drugie narasta zjawisko powielania, co nazywam to syndromem “copy&paste”. Wiele dokumentów (o zgrozo także tych podobno “autorskich”) powstaje coraz częściej metodą powielania tego co znajdzie się w firmowych archiwach (wiedza korporacyjna czyli po prostu jej zanik, bo wiedza to umiejętność napisania czegoś a nie skopiowania) czy w sieci.
Moja praktyka (to co dostaje do audytu u klientów) pokazuje, że dokumenty wytworzone “od zera” praktycznie zawsze mają większą wartość merytoryczną niż te wytworzone na bazie tak zwanej “wiedzy korporacyjnej”. Do tego dochodzi ryzyko przeniesienia, podczas kopiowania, treści niechcianych. Kopiując dziesiątki stron “starej oferty” lub poprzedniego “opracowania doradczego”, tworząc w ten sposób kolejne “indywidualne autorskie opracowanie” narazić się można nie tylko na ujawnienie tajemnicy, ale także na zwykłe ośmieszenie. Dlatego nie tylko system zarządzania dokumentami i wiedzą należy dobrze zaprojektować, ale także proces tworzenia nowych treści. W przeciwnym wypadku narażamy się na budowę wielkiego, ośmieszającego firmę, śmietnika.
Terminem blisko skojarzonym z analizą dziedziny i projektowaniem taksonomii jest [[ontologia]]. Tu dla ułatwienia cytat z wikipedii:
Termin “ontologia” w informatyce i podejściu systemowym
Termin “ontologia” cieszy się coraz to wiekszą popularnością w informatyce (np. w budowie sieci semantycznych) oraz badaniach nad sztuczną inteligencją gdzie oznacza “to co jest” i może slużyc jako platforma terminologiczna do formalnej budowy informacji, preferencji i wiedzy (Model IPK).
“Ontologia” w kontekście informatycznym pojawiła się już w roku 1967 w badaniach dotyczących modelowania danych, ale dopiero w dobie zalewu informacją dostępną w Internecie i koniecznością jej przetwarzania zyskuje szersze zainteresowanie. Według Gadomskiego, ontologia w uogólnionym sensie systemowym zajmuje się opisywaniem ?tego co jest? lub ?moze być? w danej dziedzinie zainteresowania Meta-teoria TOGA, w pewnym fragmencie rzeczywistości lub w ramach jakiejs teorii, mniej lub bardziej dokładnie określonym dla danego agenta inteligentnego lub robota dla osiagniecia zadanego celu. Aby zapewnić jednoznaczność przekazu wiedzy na temat określonej rzeczywistości, na zadanym poziomie og?lnosci, wykorzystuje się kategoryzację oraz hierarchizację. W niniejszym kontekście, pojęcia te można zdefiniować następująco:
- kategoryzacja ? zdolność przyporządkowania symbolu występującego w komunikacie do określonej grupy obiektów występujących w zadanej dziedzinie ,np. ?kot? ? klasa kotów, pojęcie kot.
- hierarchizacja ? umiejscowienie określonej klasy w hierarchicznej strukturze. Instancja klasy poza oczywistymi charakterystykami wynikającymi z przynależności do klasy posiada także cechy dziedziczone z klas nadrzędnych.
W ujeciach systemowym, kognitywnym i informatycznym pojęcie ‘ontologia’ jest pojęciem relatywnym, najogolniej, dana ontologia zależy od dziedziny, agenta inteligentnego ktory ją używa i jego celu.
Aby wyraźniej podkreślić cechy charakterystyczne tzw. top-ontologii (ontologii uniwersalnej/ogolnej, ontologii świata), należy przedstawić kilka obecnie dyskutowanych postulatów dotyczących jej funkcjonalnych cech :
- nie stanowi listy, katalogu czy taksonomii obiektów, stwarza natomiast formalne przesłanki, wedle których takowe mogą być budowane
- jest oderwana od teorii poznania (epistemologii), powiązana jest z obiektem, a nie jego subiektywnym odbiorem
- musi uchwycić rzeczywistość na różnych poziomach atomizacji, jak również relacje pomiędzy tymi warstwami
- uznanie braku możliwości stworzenia jednej ogólnej ontologii, istnienie wielu ontologii
- w przeciwieństwie do nauki relacje między obiektami nie są ujęte funkcyjnie (zależności nie są ilościowe)
- nauka rozpoczyna proces od mierzenia i predykcji, ontologia zaś od budowania taksonomii
No i co wynika z tej zajawki o ontologiach ? Komentarz do taksonomii o treści “Warto tworzyć dobrze przemyślane systemy metadanych dla systemów archiwizacji dokumentów, gdyż pozwala to z jednej strony ?spiąć? archiwum dokumentów z hurtownią danych z drugiej ?pozbyć się? śmieci” przypomina mi artykuł z “Rz”, że sprawy o odszkodowanie nie są trudne, bo wystarczy TYLKO wykazać szkodę, wskazać jej przyczynę i określić związek przyczynowo-skutkowy 🙂
Oczywistość stwierdzenia wyżej cytowanego jest “oczywista”. Czy sugeruje Pan by w miejsce taksonomii stosować ontologie ? Nie jest to oczywiście nowe. Ze swej działki – informatyka prawnicza – powiem jednak, że mimo rozbudowanych studiów nad ontologiami prawniczymi, nigdy nie udało się wyjść poza niezbyt rozbudowane ontologie dla systemów wspomagania decyzji i systemów ekspertowych, będących w zasadzie rozbudowanymi taksonomiami uzupełnionymi o pewne rozwiązania tezaurusowe. Jeśli więc ontologie mają pomóc w rozbudowanych hurtowniach danych, to pytanie brzmi – czy znamy ‘dobre praktyki’ w tym zakresie?
Zajawka o ontologiach (czasem nazywanych meta-metadanych) to wskazanie drogi do “ogarnięcia” innych niż transakcyjne, danych przetwarzanych w organizacjach. Jeżeli typowe metadane, właściwie zaprojektowane (np. opisy dokumentu winny poddawać się np. agregowaniu) pozwolą na statystyczne przetwarzanie tych dokumentów, to ontologia pozwala lepiej zrozumieć to co opisują i w pewnym zakresie budować systemy wspomagające podejmowanie decyzji. Powołanie się na “artykuły z “Rz” w pewnym sensie maja głęboki sens: wielu ludzi nawet nie podejmuje takich działań jak zawarcie umowy na OC. Dlaczego? Jedni traktują to jak pasożytnictwo firm ubezpieczeniowych inni uważają, że ich nie stać na taka “rozpustę”. A rzecz polega na właściwej ocenie ryzyka i podjęciu własnej decyzji. Moim zdaniem nie istnieje jedna dobra recepta trzymana np. w tajemnicy przez ekspertów.
W kwestii ontologi, a ogólniej, formalizowaniu systemów pojęciowych, uważam, że jest to droga do jednoznaczności zapisanych informacji. Więcej nieco o tym a krótkim artykule o epistemologii i komunikacji za niedługo.