Nowe usługi 2.0. Przewodnik po analizie zbiorów danych. Toby Segaran

Zbiory danych mogą dostarczyć Ci bardzo wielu informacji. A wiedza to potęga, więc wystarczy tylko wycisnąć z nich to, co najcenniejsze. Ale jak się za to zabrać? Jak analizować dane i gospodarować nimi tak, by wyciągnąć z nich jak najwięcej?

„Nowe usługi 2.0. Przewodnik po analizie zbiorów danych”, której autorem jest Toby Segaran, to przewodnik z zakresu wyszukiwania, opracowywania i analizy danych zebranych w internecie. Toby Segaran to znany głównie z licznych konferencji technologicznych analityk danych. Obecnie jest zarządcą danych w Metaweb Technologies, niegdyś był również założycielem firmy zajmującej się oprogramowaniem biotechnologicznym dla firm.

Cała książka tego autora poświęcona jest przede wszystkim różnego rodzaju danym. Internet jest potęgą naszego wieku i każdy jego użytkownik zostawia w sieci bardzo dużo informacji. Dzięki umiejętności wyszukania i zinterpretowania takich danych możemy wykorzystać je do osiągnięcia przewagi konkurencyjnej lub do osiągnięcia sukcesu w zupełnie nowym obszarze, znajdując niszę rynkową. Autor w tej pozycji dzieli się z czytelnikiem wiedzą na temat tego jak interpretować dane znajdujące się w sieci i jakie wyciągać z nich wnioski. Książka zachęca czytelnika do zagłębienia się w ogromny zbiór danych, jakim jest internet.

Pozycja autora liczy nieco ponad 300 stron i składa się z dwunastu, dość obszernych rozdziałów. Te podzielone zostały na odrębne zagadnienia, dzięki czemu przekazana wiedza jest odpowiednio uporządkowana i krok po kroku wprowadza czytelnika w świat analiz danych internetowych. Przewodnik napisany jest bardzo zrozumiałym językiem i czyta się go w sposób prosty i przyjemny.

Autor rozpoczyna słowem wstępu i przedmową. To kilka słów przekazanych bezpośrednio przez autora do samego czytelnika. To niezwykle miłe wprowadzenie, które stwarza pewnego rodzaju więź między autorem a czytelnikiem. Cała treść wydaje się wówczas przekazana w bardziej indywidualny i bezpośredni sposób.

Pierwszy rozdział to również merytoryczne wprowadzenie do tematu. Opisana została istota i znacznie inteligencji zbiorowej oraz uczenia maszynowego. Autor przytoczył w rozdziale kilka praktycznych przykładów oraz wspomniał również o innych zastosowaniach algorytmów uczących. W rozdziale autor jako przykłady przytacza bardzo aktualne platformy i portale, między innymi Netflix czy wyszukiwarka Google.

Kolejny rozdział poświęcony jest tworzeniu rekomendacji. W rozdziale opisane zostały przez autora takie zagadnienia jak filtrowanie grupowe, gromadzenie preferencji, dopasowywanie produktów czy filtrowanie oparte na pozycjach i użytkownikach. Całość zakończona jest ćwiczeniami, dzięki którym można w bardziej praktyczny sposób spojrzeć na opisane zagadnienia.

Każdy kolejny rozdział poświęcony jest innemu zagadnieniu. W rozdziale trzecim wyjaśnione zostają kwestie związane z wykrywaniem grup. Zagadnienie to obejmuje między innymi porównanie uczenia nadzorowanego z nienadzorowanym, wektory wyrazów czy wyświetlanie danych w dwóch wymiarach.

W ramach kolejnego rozdziału opracowane zostało wyszukiwanie i analiza zbiorów danych. To dosyć ważny etap analizy, ponieważ bez umiejętności wyszukiwanie danych nie moglibyśmy ich analizować. Autor umieścił w rozdziale takie zagadnienia jak proste wyszukiwanie, budowanie indeksu oraz klasyfikacja danych na podstawie treści. Znajomość narzędzi i metod wyszukiwania danych jest podstawową umiejętnością, jaką musi posiadać każdy analityk danych. Na tym zadaniu opiera się cała jego praca. Następnie powinien potrafić je odpowiednio sklasyfikować i uporządkować. Cała wiedza w tym zakresie znajduje się w tym rozdziale.

Rozdział piąty i szósty poświęcone są optymalizacji danych oraz filtrowaniu dokumentów. Następnie rozdział siódmy traktuje w całości o modelowaniu na podstawie drzewa decyzyjnego. Autor przedstawia schemat działania drzew decyzyjnych, wyjaśnia proces wprowadzania danych do drzewa oraz kiedy najlepiej korzystać z takiego modelu. W kolejnych rozdziałach autor przybliża czytelnikowi znaczenie i istotę budowania modelu cen, wyjaśnia, na czym polega zaawansowane klasyfikowanie metodą jądrową i maszyną wektorów nośnych oraz omawia proces znajdowania niezależnych właściwości.

Dwa ostatnie rozdziały to rozdziały poświęcone inteligencji rozwojowej oraz najtrudniejszemu etapowi analizy i interpretacji danych, jakim jest budowa i wykorzystanie algorytmów. To najbardziej zaawansowana wiedza z zakresu analizy zbiorów danych i przeznaczona niekoniecznie dla początkujących.

Każdy z rozdziałów zakończony jest zbiorem kilku ćwiczeń, które pomagają utrwalić wiedzę zdobytą w rozdziale oraz poznać jej praktyczne zastosowanie. To bardzo cenny element książki i wnosi dużą wartość dla czytelnika. Większość książek opiera się tylko na wiedzy teoretycznej i czasami ciężko jest ją wykorzystać w praktyce. W tym wypadku jest zupełnie inaczej, czytelnik natychmiast zapoznaje się z praktycznymi przykładami.

Cały przewodnik w sposób usystematyzowany i klarowny wprowadza czytelnika w temat analizy zbiorów danych. Czytelnik ma okazję poznać między innymi sprawdzone i najlepsze sposoby filtrowania danych, tworzenia rekomendacji, identyfikowania grup oraz metody wyszukiwania i interpretowania znalezionych danych. Wreszcie na końcu podręcznika znajduje się coś dla zaawansowanych użytkowników i programistów. Czytelnik ma szansę zagłębić się w świat skomplikowanych algorytmów analizujących dane. Dzięki umiejętności budowania takich algorytmów użytkownik ma nieograniczone możliwości w zakresie interpretowania posiadanych informacji. Cała wiedza zdobyta w przewodniku z pewnością jest cenną umiejętnością zarówno w życiu zawodowym jak i prywatnym. Każdy z nas jest w jakiś sposób aktywny w sieci i ma do dyspozycji pewne zbiory danych na różne tematy. Na przykład jeżeli prowadzimy hobbystycznie bloga, możemy zbierać informacje na temat naszych czytelników i dzięki temu sprawić, że nasz blog będzie dla nich dużo bardziej atrakcyjny. Pozycja warta jest również przeczytania dla samodzielnych freelancerów działających i pracujących przez internet. Niezależnie od branży i dziedziny działania sprawne wyszukiwanie, interpretowanie i analizowanie danych jest cenną umiejętnością, dzięki której dużo łatwej zrozumiemy pewne mechanizmy i zachowania użytkowników.