Zaczęło się od pro­wo­ka­cyj­ne­go arty­ku­łu Chrisa Andersona ?The End of Theory: The Data Deluge Makes the Scientific Method Obsolete? . Redaktor naczel­ny mie­sięcz­ni­ka Wired udo­wad­niał w nim, że zalew dany­mi (okre­śla­ny po angiel­sku mia­nem ?data delu­ge? lub ?big data?) wywo­ła­ny, z jed­nej stro­ny sta­łym spad­kiem kosz­tów prze­cho­wy­wa­nia infor­ma­cji, a z dru­giej, upo­wszech­nie­niem ser­wi­sów Web 2.0, słu­żą­cych kre­owa­niu i współ­dzie­le­niu wie­dzy, wkrót­ce zmu­si nowo­cze­sne orga­ni­za­cje do rezy­gna­cji z wyra­fi­no­wa­nych narzę­dzi do ana­li­zy sta­ty­stycz­nej. A w dal­szej per­spek­ty­wie może ozna­czać wery­fi­ka­cję dotych­cza­so­wych metod nauko­wych i badaw­czych. (źr. Blog Jacka Murawskiego dyrek­to­ra gene­ral­ne­go pol­skie­go oddzia­łu Microsoft.)

Jest to kolej­ny głos mówią­cy o zale­wie śmie­cio­wych danych. Pisałem swe­go cza­su o pro­ble­mach z migra­cją danych pod­czas wdra­ża­nia nowych sys­te­mów. Problemem nie jest sama migra­cja (prze­nie­sie­nie danych ze sta­re­go sys­te­mu do nowe­go) a to, co prze­nieść. Niestety naj­czę­ściej z bra­ku pomy­słu” prze­no­si się wszyst­ko” co powo­du­je, że rośnie licz­ba śmie­ci zaś rela­tyw­nie spa­da odse­tek danych fak­tycz­nie przydatnych.

W efek­cie ma miej­sce para­dok­sal­ne zja­wi­sko: rosną kosz­ty zarzą­dza­nia dany­mi a ich war­tość (przy­dat­ność) male­je. Np. dane księ­go­we i podob­ne – struk­tu­ral­ne – moż­na prze­no­sić do hur­tow­ni danych. Tu pro­ces ich czysz­cze­nia roz­wią­zu­je część pro­ble­mu, bo to tyl­ko ich porząd­ko­wa­nie. Pozostaje pro­blem cze­go nie prze­no­sić”. Dochodzi pro­blem danych nie­struk­tu­ral­nych takich jak róż­ne­go rodza­ju doku­men­ty (ofer­ty, robo­cze doku­men­ta­cje pro­jek­to­we itp.).

Cały ten pro­blem ma nazwę: [[reten­cja danych]]. Pojawiają się gło­sy by w fir­mach wpro­wa­dzić pro­ces zna­ny z urzę­dów i sys­te­mu Archiwów Państwowych: nada­wa­nie kate­go­rii archi­wal­nej każ­dej dokumentacji.

Problem nie jest pro­sty, mam wra­że­nie, że czę­sto igno­ro­wa­ny bo dys­ki twar­de tanie­ją”, jed­nak nie ma pro­ble­mu z tym by coś wynieść na strych, pro­blem w tym by to po kil­ku latach odna­leźć”. Kolejny pro­blem to psy­cho­lo­gia i czy­sta ludz­ka wyobraź­nia: po latach mamy nie raz wra­że­nie, że coś co zacho­wa­li­śmy kie­dyś nadal ma war­tość taką jak w dniu zacho­wa­nia, co z regu­ły oka­zu­je się nie­praw­dą. Rzecz w tym, że war­tość danych ope­ra­cyj­nych male­je z upły­wem cza­su (dez­ak­tu­ali­zu­ją się dane o cenach, warun­kach han­dlo­wych itp.). Można zary­zy­ko­wać tezę, że po roku więk­szość z nich (szcze­gó­ły) jest nie­przy­dat­na. Co naj­wy­żej war­tość ma sam fakt, że do jakichś kon­tak­tów docho­dzi­ło, jaki był ich cel itp.

Jak sobie z tym radzić? Narzędzie poma­ga­ją­ce w tym, zawar­te jest w więk­szo­ści dobrych sys­te­mów zarzą­dza­nia prze­pły­wem pra­cy i doku­men­tów. Każdy taki sys­tem ma tak zwa­ne [[repo­zy­to­rium doku­men­tów]]. Jest to archi­wum pli­ków (doku­men­ty, zdję­cia, pli­ki źró­dło­we, itp.), dużą war­to­ścią repo­zy­to­riów jest to, że maja tak zwa­ny sys­tem meta­da­nych. [[Metadane]] to struk­tu­ral­ny opis nie­struk­tu­ral­nej zawar­to­ści prze­cho­wy­wa­nych plików.

Właściwy pro­jekt tych meta­da­nych ([[tak­so­no­mia]]) pozwa­la na stwo­rze­nie dwóch dodat­ko­wych cech przy­dat­nych w sys­te­mach [[busi­ness inteligence]]:

  1. meta­da­ne (jako dane struk­tu­ral­ne) mogą być migro­wa­ne do hur­tow­ni danych,
  2. meta­da­ne nadal zacho­wu­ją klu­czo­we infor­ma­cje po usu­nię­ciu pli­ków źró­dło­wych (z regu­ły dużych i nie­przy­dat­nych, np. po latach nadal będzie­my wie­dzie­li jak czę­sto kon­tak­to­wał się z nami klient i po co, mimo bra­ku dostę­pu do już bez­war­to­ścio­wych danych o szcze­gó­łach tych kontaktów).

Warto two­rzyć dobrze prze­my­śla­ne sys­te­my meta­da­nych dla sys­te­mów archi­wi­za­cji doku­men­tów, gdyż pozwa­la to z jed­nej stro­ny spiąć” archi­wum doku­men­tów z hur­tow­nią danych z dru­giej pozbyć się” śmie­ci. Tempo przy­ro­stu danych sta­le rośnie gdyż biz­ne­so­we opro­gra­mo­wa­nie, auto­ma­ty­zu­jąc wie­le naszych czyn­no­ści, wytwa­rza je w tem­pie w jakim czło­wiek nigdy nie był by w sta­nie. Po dru­gie nara­sta zja­wi­sko powie­la­nia, co nazy­wam to syn­dro­mem copy&paste”. Wiele doku­men­tów (o zgro­zo tak­że tych podob­no autor­skich”) powsta­je coraz czę­ściej meto­dą powie­la­nia tego co znaj­dzie się w fir­mo­wych archi­wach (wie­dza kor­po­ra­cyj­na czy­li po pro­stu jej zanik, bo wie­dza to umie­jęt­ność napi­sa­nia cze­goś a nie sko­pio­wa­nia) czy w sieci.

Moja prak­ty­ka (to co dosta­je do audy­tu u klien­tów) poka­zu­je, że doku­men­ty wytwo­rzo­ne od zera” prak­tycz­nie zawsze mają więk­szą war­tość mery­to­rycz­ną niż te wytwo­rzo­ne na bazie tak zwa­nej wie­dzy kor­po­ra­cyj­nej”. Do tego docho­dzi ryzy­ko prze­nie­sie­nia, pod­czas kopio­wa­nia, tre­ści nie­chcia­nych. Kopiując dzie­siąt­ki stron sta­rej ofer­ty” lub poprzed­nie­go opra­co­wa­nia dorad­cze­go”, two­rząc w ten spo­sób kolej­ne indy­wi­du­al­ne autor­skie opra­co­wa­nie” nara­zić się moż­na nie tyl­ko na ujaw­nie­nie tajem­ni­cy, ale tak­że na zwy­kłe ośmie­sze­nie. Dlatego nie tyl­ko sys­tem zarzą­dza­nia doku­men­ta­mi i wie­dzą nale­ży dobrze zapro­jek­to­wać, ale tak­że pro­ces two­rze­nia nowych tre­ści. W prze­ciw­nym wypad­ku nara­ża­my się na budo­wę wiel­kie­go, ośmie­sza­ją­ce­go fir­mę, śmietnika.

Terminem bli­sko sko­ja­rzo­nym z ana­li­zą dzie­dzi­ny i pro­jek­to­wa­niem tak­so­no­mii jest [[onto­lo­gia]]. Tu dla uła­twie­nia cytat z wikipedii:

Termin onto­lo­gia” w infor­ma­ty­ce i podej­ściu systemowym

Termin onto­lo­gia” cie­szy się coraz to wiek­szą popu­lar­no­ścią w infor­ma­ty­ce (np. w budo­wie sie­ci seman­tycz­nych) oraz bada­niach nad sztucz­ną inte­li­gen­cją gdzie ozna­cza to co jest” i może slu­życ jako plat­for­ma ter­mi­no­lo­gicz­na do for­mal­nej budo­wy infor­ma­cji, pre­fe­ren­cji i wie­dzy (Model IPK).

Ontologia” w kon­tek­ście infor­ma­tycz­nym poja­wi­ła się już w roku 1967 w bada­niach doty­czą­cych mode­lo­wa­nia danych, ale dopie­ro w dobie zale­wu infor­ma­cją dostęp­ną w Internecie i koniecz­no­ścią jej prze­twa­rza­nia zysku­je szer­sze zain­te­re­so­wa­nie. Według Gadomskiego, onto­lo­gia w uogól­nio­nym sen­sie sys­te­mo­wym zaj­mu­je się opi­sy­wa­niem ?tego co jest? lub ?moze być? w danej dzie­dzi­nie zain­te­re­so­wa­nia Meta-teo­ria TOGA, w pew­nym frag­men­cie rze­czy­wi­sto­ści lub w ramach jakiejs teo­rii, mniej lub bar­dziej dokład­nie okre­ślo­nym dla dane­go agen­ta inte­li­gent­ne­go lub robo­ta dla osia­gnie­cia zada­ne­go celu. Aby zapew­nić jed­no­znacz­ność prze­ka­zu wie­dzy na temat okre­ślo­nej rze­czy­wi­sto­ści, na zada­nym pozio­mie og?lnosci, wyko­rzy­stu­je się kate­go­ry­za­cję oraz hie­rar­chi­za­cję. W niniej­szym kon­tek­ście, poję­cia te moż­na zde­fi­nio­wać następująco:

  • kate­go­ry­za­cja ? zdol­ność przy­po­rząd­ko­wa­nia sym­bo­lu wystę­pu­ją­ce­go w komu­ni­ka­cie do okre­ślo­nej gru­py obiek­tów wystę­pu­ją­cych w zada­nej dzie­dzi­nie np. ?kot? ? kla­sa kotów, poję­cie kot.
  • hie­rar­chi­za­cja ? umiej­sco­wie­nie okre­ślo­nej kla­sy w hie­rar­chicz­nej struk­tu­rze. Instancja kla­sy poza oczy­wi­sty­mi cha­rak­te­ry­sty­ka­mi wyni­ka­ją­cy­mi z przy­na­leż­no­ści do kla­sy posia­da tak­że cechy dzie­dzi­czo­ne z klas nadrzędnych.

W uje­ciach sys­te­mo­wym, kogni­tyw­nym i infor­ma­tycz­nym poję­cie «onto­lo­gia» jest poję­ciem rela­tyw­nym, naj­ogol­niej, dana onto­lo­gia zale­ży od dzie­dzi­ny, agen­ta inte­li­gent­ne­go kto­ry ją uży­wa i jego celu.

Aby wyraź­niej pod­kre­ślić cechy cha­rak­te­ry­stycz­ne tzw. top-onto­lo­gii (onto­lo­gii uniwersalnej/ogolnej, onto­lo­gii świa­ta), nale­ży przed­sta­wić kil­ka obec­nie dys­ku­to­wa­nych postu­la­tów doty­czą­cych jej funk­cjo­nal­nych cech :

  1. nie sta­no­wi listy, kata­lo­gu czy tak­so­no­mii obiek­tów, stwa­rza nato­miast for­mal­ne prze­słan­ki, wedle któ­rych tako­we mogą być budowane
  2. jest ode­rwa­na od teo­rii pozna­nia (epi­ste­mo­lo­gii), powią­za­na jest z obiek­tem, a nie jego subiek­tyw­nym odbiorem
  3. musi uchwy­cić rze­czy­wi­stość na róż­nych pozio­mach ato­mi­za­cji, jak rów­nież rela­cje pomię­dzy tymi warstwami
  4. uzna­nie bra­ku moż­li­wo­ści stwo­rze­nia jed­nej ogól­nej onto­lo­gii, ist­nie­nie wie­lu ontologii
  5. w prze­ci­wień­stwie do nauki rela­cje mię­dzy obiek­ta­mi nie są uję­te funk­cyj­nie (zależ­no­ści nie są ilościowe)
  6. nauka roz­po­czy­na pro­ces od mie­rze­nia i pre­dyk­cji, onto­lo­gia zaś od budo­wa­nia taksonomii

(za Ontologia ? Wikipedia, wol­na ency­klo­pe­dia.)

Jarosław Żeliński

BIO: Od roku 1991 roku, nieprzerwanie, realizuję projekty z zakresu analiz i projektowania systemów, dla urzędów, firm i organizacji. Od 1998 roku prowadzę także samodzielne studia i prace badawcze z obszaru analizy systemowej i modelowania (modele jako przedmiot badań: ORCID). Od 2005 roku, jako nieetatowy wykładowca akademicki, prowadzę wykłady i laboratoria (ontologie i modelowanie systemów informacyjnych, aktualnie w Wyższej Szkole Informatyki Stosowanej i Zarządzania pod auspicjami Polskiej Akademii Nauk w Warszawie. Oświadczenia: moje badania i publikacje nie mają finansowania z zewnątrz, jako ich autor deklaruję brak konfliktu interesów.

Ten post ma 2 komentarzy

  1. Wiewiorowski

    No i co wyni­ka z tej zajaw­ki o onto­lo­giach ? Komentarz do tak­so­no­mii o tre­ści Warto two­rzyć dobrze prze­my­śla­ne sys­te­my meta­da­nych dla sys­te­mów archi­wi­za­cji doku­men­tów, gdyż pozwa­la to z jed­nej stro­ny ?spiąć? archi­wum doku­men­tów z hur­tow­nią danych z dru­giej ?pozbyć się? śmie­ci” przy­po­mi­na mi arty­kuł z Rz”, że spra­wy o odszko­do­wa­nie nie są trud­ne, bo wystar­czy TYLKO wyka­zać szko­dę, wska­zać jej przy­czy­nę i okre­ślić zwią­zek przyczynowo-skutkowy 🙂
    Oczywistość stwier­dze­nia wyżej cyto­wa­ne­go jest oczy­wi­sta”. Czy suge­ru­je Pan by w miej­sce tak­so­no­mii sto­so­wać onto­lo­gie ? Nie jest to oczy­wi­ście nowe. Ze swej dział­ki – infor­ma­ty­ka praw­ni­cza – powiem jed­nak, że mimo roz­bu­do­wa­nych stu­diów nad onto­lo­gia­mi praw­ni­czy­mi, nigdy nie uda­ło się wyjść poza nie­zbyt roz­bu­do­wa­ne onto­lo­gie dla sys­te­mów wspo­ma­ga­nia decy­zji i sys­te­mów eks­per­to­wych, będą­cych w zasa­dzie roz­bu­do­wa­ny­mi tak­so­no­mia­mi uzu­peł­nio­ny­mi o pew­ne roz­wią­za­nia tezau­ru­so­we. Jeśli więc onto­lo­gie mają pomóc w roz­bu­do­wa­nych hur­tow­niach danych, to pyta­nie brzmi – czy zna­my «dobre prak­ty­ki» w tym zakresie?

    1. Jarek Żeliński

      Zajawka o onto­lo­giach (cza­sem nazy­wa­nych meta-meta­da­nych) to wska­za­nie dro­gi do ogar­nię­cia” innych niż trans­ak­cyj­ne, danych prze­twa­rza­nych w orga­ni­za­cjach. Jeżeli typo­we meta­da­ne, wła­ści­wie zapro­jek­to­wa­ne (np. opi­sy doku­men­tu win­ny pod­da­wać się np. agre­go­wa­niu) pozwo­lą na sta­ty­stycz­ne prze­twa­rza­nie tych doku­men­tów, to onto­lo­gia pozwa­la lepiej zro­zu­mieć to co opi­su­ją i w pew­nym zakre­sie budo­wać sys­te­my wspo­ma­ga­ją­ce podej­mo­wa­nie decy­zji. Powołanie się na arty­ku­ły z Rz” w pew­nym sen­sie maja głę­bo­ki sens: wie­lu ludzi nawet nie podej­mu­je takich dzia­łań jak zawar­cie umo­wy na OC. Dlaczego? Jedni trak­tu­ją to jak paso­żyt­nic­two firm ubez­pie­cze­nio­wych inni uwa­ża­ją, że ich nie stać na taka roz­pu­stę”. A rzecz pole­ga na wła­ści­wej oce­nie ryzy­ka i pod­ję­ciu wła­snej decy­zji. Moim zda­niem nie ist­nie­je jed­na dobra recep­ta trzy­ma­na np. w tajem­ni­cy przez ekspertów. 

      W kwe­stii onto­lo­gi, a ogól­niej, for­ma­li­zo­wa­niu sys­te­mów poję­cio­wych, uwa­żam, że jest to dro­ga do jed­no­znacz­no­ści zapi­sa­nych infor­ma­cji. Więcej nie­co o tym a krót­kim arty­ku­le o epi­ste­mo­lo­gii i komu­ni­ka­cji za niedługo.

Dodaj komentarz

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.