Statystyki serwisów WWW to temat rzeka. Wbrew pozorom stanowią kopalnię informacji o odwiedzających nasz serwis oraz o ich zachowania. Statystyki stanowią także bardzo dobre narzędzie marketingowe do badania zainteresowania oferowanymi przez nas produktami i usługami oraz narzędzie do badania otoczenia naszego serwisu (współpracujących innych serwisów). Niezależnie od wielkości naszego serwisu WWW zawsze warto badać zachowania odwiedzających go internautów, no chyba że serwis ten zupełnie do niczego nie służy.
Do czego służy nasz serwis
Serwisy WWW tworzy się w różnych celach jednak zawsze powinny być one jasno sprecyzowane. Podstawowym jest najczęściej prezentacja firmy, jej oferty, pozycji na rynku. Innym może być np. usprawnienie kontaktów z klientami, także potencjalnymi. Może to być oczywiście także jakaś odmiana e‑biznesu. Ważne jest by dokładnie zaadresować (opisać dla kogo go tworzymy) treść serwisu bo tylko na tej podstawie można przygotować zawartość, która uczyni nasz serwis interesującym dla osób na których nam zależy.
Co można badać
Narzędzi do badania ruchu na stronach WWW i nie tylko jest dość dużo na rynku. Różnią się możliwościami, wydajnością, jakością prezentowanych statystyk. Wybór zależy od potrzeb oraz wymagań samego serwera WWW gdyż system taki nie powinien powodować istotnego obniżenia wydajności naszego serwera internetowego. Dobrze przemyślane śledzenie ruchu na stronach WWW i nie tylko pozwala bardzo dokładnie monitorować zainteresowanie poszczególnymi produktami, usługami. Wskazać klientów wykazujących największe zainteresowanie naszymi produktami a nawet kontrolować skuteczność reklam w prasie. Jak to robić?
Narzędzia do badania naszego serwisu Internetowego
Analiza logów
Logi serwera (pliki z informacjami o każdym pobranym pliku jak np.: jego nazwa, dokładny czas pobrania, jego adres URL, adres URL strony z odnośnikiem do niego, i wiele innych) stanowią podstawowe źródło informacji o tym co dzieje się na naszych stronach WWW. Na podstawie informacji z logów można tworzyć statystyki odwiedzin z podziałem np. na godziny, dni, tygodnie, miesiące czy lata. Analizując czas pobrania każdej strony oraz adres z jakiego odwiedza nas internauta można śledzić jego zachowania: zliczać tzw. sesje czyli przeglądanie naszych stron przez jedną osobę. Jest to bardzo istotna informacja gdyż liczba sesji w stosunku do liczby tzw hitów (czyli pobranych pojedynczych plików) świadczy o faktycznym zainteresowaniu naszymi stronami. Można np. z góry założyć, że osoba która trafiła na naszą stronę i nie zajrzała dalej tak na prawdę nie zainteresowała się tym co na niej znalazła dlatego sama liczba wyświetleń strony wywołana np. reklamą bannerową tak na prawdę o niczym nie świadczy (o czym trudno usłyszeć w agencji reklamowej).
Analizując adresy sieci z których zaglądają do nas internauci można wychwytywać miejsca (instytucje, firmy) których pracownicy są zainteresowani treścią naszego serwisu. Jeśli są to np. strony zawierające opisy produktów i ich ceny można się domyślać, że firmy te mogą być zainteresowane naszą ofertą i może warto samemu się do nich odezwać i zaproponować przeprowadzenie prezentacji handlowej.
Zlecając reklamę np. w prasie można przygotować specjalna stronę i nadać jej unikalny adres URL, taki do którego nie prowadzą odnośniki z żadnej innej naszej strony. Wyeksponowanie tego adresu URL w reklamie i śledzenie oglądalności takiej specjalnej strony WWW daje informacje o skuteczności naszej reklamy w gazecie. Oczywiście odnotowywane są tylko osoby mające dostęp do Internetu dlatego zawsze trzeba te wyniki korygować danymi o popularności Internetu w Polsce (dane takie są dostępne np. w serwie prowadzonym przez studentów Koła Informatyki AE w Krakowie).
Logi serwera WWW pozwalają także na wychwycenie adresu URL strony (lub serwisu WWW), z której internauci bardzo często przechodzą na nasze. Można w ten sposób łatwo wskazać strony WWW, na których ktoś umieścił odnośnik do naszego serwisu. W ten sposób możemy także bardzo łatwo kontrolować skuteczność reklam bannerowych lub współpracujących serwisów (np. wzajemna wymiana odnośników czy nawet bannerów).
Logi mają jednak poważne ograniczenie. Jest nim rejestrowanie tylko ruchu „przychodzącego”. Nie znajdziemy tam żadnych informacji np. o skuteczności odnośników wysłanych w listach e‑mail czy odnośnikach na naszych stronach, które prowadzą już do innych serwisów (np. opis produktu na stronach producenta).
Skrypty jako nieodzowne wsparcie
Do stosunkowo prostych i bardzo skutecznych zarazem narzędzi uzupełniających badanie logów są skrypty przekierowujące tzw. redirectory. Skrypty te służą do śledzenie ruchu „wychodzącego”, gdyż nie jest on rejestrowany w logach systemowych serwera WWW. Działanie takiego skryptu polega na pośredniczeniu w przekierowywaniu z naszych stron na zewnątrz. Np. w tym serwisie zamiast podawać w odnośniku adres: http://www.gemius.pl/
podaję:
http://www.gemius.pl/
W pierwszym przypadku nie miałbym żadnej informacji o liczbie kliknięć na ten odnośnik. W drugim przypadku skrypt redir wpierw odnotuje to kliknięcie i dopiero po zliczeniu wyśle internautę pod wskazany adres URL. W ten sposób uzyskujemy brakujące dane, których nie znajdziemy w logach. Skrypty redir najczęściej zliczają przekierowanie pod wskazany adres niezależnie od miejsca (strony WWW) ich użycia. Jest to bardzo wygodne do kontroli ogólnej popularności danego odnośnika jednak nie pozwala na unikalne badania (np. pojedynczej akcji mailingowej).
Innym więc przydatnym narzędziem jest odmiana skryptu redir, która stosowana jest do śledzenia odnośników wysyłanych w listach e‑mail lub wybranych stronach. W tym przypadku rozwiązujemy problem jak kontrolować przejścia do wybranej strony WWW w zależności od miejsca podania odnośnika do niej. W ten sposób możemy kontrolować skuteczność każdego miejsca podania odnośnika niezależnie (list e‑mail, inna wewnętrzna strona, strona serwisu partnerskiego) pomimo tego, że badamy jedną i tą samą stroną WWW (jeden adres URL).
Tego typu skrypty to także redirectory jednak używają one specjalnych tablic, w których adresy URL zamieniane są np. na specjalne kody lub numery (w przypadku poprzedniego skryptu adres URL był podawany jawnie). Ta metoda pozwala na zliczanie kliknięć na konkretny odnośnik zależnie od tego jaką drogą do nas dotarł i co najważniejsze jest to jedyny sposób na zliczanie odnośników wysyłanych pocztą elektroniczną. Przykładem takiego skryptu jest używany w IT-Consulting skrypt zliczający odnośniki wysyłane w listach do subskrybentów tego serwisu. Poniższy odnośnik prowadzi do adresu tej właśnie strony:
Jak widać łatwo osiągnąć tu unikalność. W ten sposób możemy utworzyć różne kody dla tej samej strony. Umieszczając je na różnych stronach, w różnych serwisach, wysyłając pocztą możemy je śledzić niezależnie. Dzięki tym narzędziom mam informacje, których nie da się uzyskać z logów systemowych serwera WWW.
Wysłany w liście 9 Stycznia 2001 odnośnik do jednej ze stron kliknęło 31% subskrybentów serwisu czyli prawie co trzeci czytelnik. Jest to bardzo dobry wynik co bardzo dobrze świadczy o zainteresowaniu danym tematem. Bez tych narzędzi zdobycie tych informacji byłoby nie możliwe.
Inne bardziej wyrafinowane narzędzia
Opisane powyżej narzędzia mają dwa podstawowe ograniczenia: są mało wydajne oraz nalezą do tzw. metod pasywnych. Wydajność ma duże znaczenie dla serwisów o bardzo dużych oglądalnościach. Proste skrypty dość mocno obciążają serwer trzeba by więc użyć szybszego serwera. Pasywność polega na tym, że skrypt tylko zlicza kliknięcia, nie pobiera żadnych dodatkowych informacji.
Analizy aktywne
Kolejnym krokiem w zdobywaniu informacji jest analiza nie tylko zachowań internautów i popularności naszych stron WWW. Możliwa jest bardziej zaawansowana analiza np. położenia geograficznego, odsetka internautów powracających do nas czy nawet każdego internauty niezależnie (w rozumieniu użytej przeglądarki czy komputera PC). Tego typu analizy wymagają już bardziej wyrafinowanych narzędzi jakimi są specjalne skrypty posługujące się np. specjalnymi znacznikami zapisywanymi w plikach tymczasowych przeglądarki internetowej tzw. cookies. To narzędzie pozwala już na identyfikację miejsca (przeglądarki) z którego nastąpiły odwiedziny. Bardzo często z domniemania przyjmuje się, że jest to ta sama osoba (nie wiadomo kto, użytkownik jest nadal anonimowy ale identyfikacja, że to ta sama osoba w tym przypadku zupełnie wystarczy). W tym przypadku informacje dostarczane przez taki system są znacznie dokładniejsze. Możliwa jest już dokładna analiza ilu internautów powraca na nasze strony, po jakim czasie, na które strony itp. Systemy tego typu o dużej wydajności są bardzo drogie. Na ich zakup nie zawsze mogą sobie pozwolić nawet duże firmy dlatego bardzo często są one przedmiotem usług typu ASP. Firmy (często ISP ale nie tylko) na specjalnych zasadach (np. odpłatnie) udostępniają takie systemy innym serwisom. Proste systemy tego typu dostępne są także bezpłatnie. Często są to okrojone wersje systemów komercyjnych. Korzystanie z nich polega na umieszczeniu na swoich badanych stronach specjalnego kodu html, skryptu java lub tylko specjalnego odnośnika. Skrypt zliczający wykonuje się na serwerze usługodawcy, gdzie użytkownik takiego serwisu może np. śledzić swoje statystyki. Może je także otrzymywać np. pocztą e‑mail. Tego typu usługi są coraz popularniejsze. Powodem jest trend do szczegółowego kontrolowania nakładów na serwisy WWW a te metody to jedyne skuteczne narzędzia do jej oceny. Dodatkową zaletą danych otrzymanych tymi metodami to możliwość stałego ulepszania własnego serwisu gdyż otrzymujemy informacje czego poszukują na naszych stronach internauci, jak często a czego nie oczekują w ogóle. Dla twórców stron WWW lub sprzedawców peryferiów komputerowych bardzo przydatne są takie statystyki obrazujące takie dane jak: Systemy Operacyjne, Przeglądarki, Rozdzielczości, Głębia kolorów.
Zdobycie takich informacji jest praktycznie nie możliwe inną metodą (co najwyżej typ przeglądarki można badać na podstawie logów). Dane takie można otrzymać np. z pomocą serwisu GeMius pod adresem http://www.gemius.pl/ firmy GeM S.A., która oferuje część statystyk bezpłatnie na stronach:
Zaawansowane analizy logów
Logi systemowe zawierają bardzo dużą liczbą informacji jednak są to surowe dane o pobraniach każdej ze stron. Same w sobie praktycznie nie niosą żadnych użytecznych informacji. Użyteczne informacje można wydobyć z tych danych z pomocą różnego rodzaju generatorów raportów. Programy te w najprostszej postaci zliczają i grupują adresy poszczególnych stron, grafik (np. bannerów), przejść na inne strony w ramach naszego serwisu itp. Bardziej zaawansowane narzędzia potrafią wykonywać bardziej skomplikowane statystyki. Niektóre z pomocą specjalnych algorytmów korelacyjnych potrafią nawet wychwytywać trendy w zachowaniach internautów. Systemy tego typu to bardzo dobre komercyjne narzędzia, niektóre stosują te same metody analityczne, które stosowane są w hurtowniach danych. Zresztą posiadacze hurtowni danych maja w nich także doskonałe narzędzia właśnie do analizy logów. Do jednych z bardziej znanych tego typu narzędzi na rynku zaliczany jest jest pakiet oprogramowanie firmy WebTrends, który można kupić także w Polsce.
Na zakończenie.
Jak już wspominałem na początku serwis WWW oprócz roli reprezentacyjnej powinien byc postrzegany jako silne narzędzie badawcze. Mamy dostęp do informacji, za zdobycie których innymi metodami musielibyśmy zapłacić znaczne kwoty. Oczywiście nigdy nie zastąpią one tradycyjnych marketingowych badań ankietowych jednak w wielu przypadkach mogą stanowić źródło bardzo przydatnych liczb. Rynek internetowy nie stanowi jeszcze znaczącej części całkowitych obrotów dla większości firm jednak ogromna liczba naszych klientów zanim cokolwiek kupi szuka informacji o produktach i ich dostawcach właśnie w Internecie. Miejmy ich pod kontrolą 8-).
Dziękuję firmie GeM S.A. za udostępnienie danych.
Notatka: J.Ż. Kwiecień 2001