Recenzja: BIG DATA, nauka o danych i AI bez tajemnic

Dane osobowe stanowią niezbędne paliwo do rozwoju big data i sztucznej inteligencji. Na czym polega związek między nimi, czym jest big data, dlaczego tak trudno znaleźć dobrego data scientist i czemu część projektów opartych na tych technologiach nie odnosi sukcesu? Na te i inne pytania próbuje odpowiedzieć David Stephenson w wydanej w Polsce książce „BIG DATA, nauka o danych i AI bez tajemnic”.

Nowe, większe, inne

Określenie big data odnosi się „do nowego rodzaju danych, ogromnych, szybko narastających, które często nie pasują do tradycyjnej struktury. Słowo big jest niedopowiedzeniem, które po prostu nie uwzględnia złożoności sytuacji. Dane z którymi mamy do czynienia, są nie tylko większe niż tradycyjne dane, są one zasadniczo różne, tak jak motocykl jest czymś więcej niż tylko większym rowerem, a ocean to coś więcej niż tylko głębszy basen. Przynoszą one nowe wyzwania, stwarzają nowe możliwości, zacierają tradycyjne granice konkurencyjne i wymagają zmiany paradygmatu związanego ze sposobem w jaki uzyskujemy namacalne wartości”.

Autor wprowadza nas łagodnie w problematykę sztucznej inteligencji, postępów w dziedzinie uczenia głębokiego, a także elementów ekosystemu big data.

Na publikację składają się części poświęcone mi.in. wprowadzeniu do koncepcji big data, użyteczności technologii big data, przykładom ich zastosowań w analizie danych, zrozumieniu ekosystemu big data i jego wykorzystaniu w organizacji, data science, selekcji technologii, budowaniu zespołu, kwestiom prawnym oraz skutecznej realizacji projektów.

Terra cognita

Na uwagę zasługuje bardzo przystępnie nakreślona historia big data, w szczególności podkreślenie roli zwiększenia wolumenu i źródeł danych (media społecznościowe, wszechobecne czujniki) oraz zmniejszenia kosztów technologii (dla porównania w 1980 r. 1 gigabajt przestrzeni dyskowej kosztował 200 000 dolarów , a1 gigabajt RAM-u aż 6 milionów dolarów, podczas gdy w 2017 r. – 1 gigabajt takiej przestrzeni to koszt mniejszy niż trzy centy, a 1 gigabajt RAM-u wart był 15 dolarów ) – drastycznemu zmniejszeniu uległ także koszt mocy obliczeniowej.

Dla części czytelników nie będzie niespodzianką rola oprogramowania open source, które wyrównało szanse wśród twórców oprogramowania i przyczyniło się do wykorzystania big data, a także usług chmurowych, które umożliwiły przedsiębiorcom elastyczne dostosowywanie wydatków do potrzeb bieżących.

Z książki dowiadujemy się, czym jest sztuczne inteligencja i uczenie maszynowe, a także co to są tzw. sztuczne sieci neuronowe (dzięki którym w 2012 r. algorytmy rozpoznawania obrazów myliły się w 26% przypadków, a już w 2014 r. poprzez zastosowanie „sieci neuronowej” składającej się z 269 warstw – jedynie w ok 3%).

Autor pokazuje zalety podejścia data-driven (opartego na danych), które pomaga lepiej poznawać potrzeby klientów, ich zachowania, słabości po stronie procesu, a także możliwe działania zwiększające efektywność firmy.

Analiza danych

Z punktu widzenia ochrony danych osobowych cenne jest spostrzeżenie, iż „fundamentalna zasada analizy danych mówi, że lepiej jest mieć więcej danych niż lepsze modele”. A sama jakość analiz zależy od:

odkrywania, które dane mają największe znaczenie,
wyboru optymalnego narzędzia analitycznego,
dostarczenia wystarczającej ilości danych dla takiego narzędzia.

Książka ma bardzo praktyczny charakter pokazując, jak big data może pomóc w prognozowaniu popytu i przychodów, ścieżek zakupowych klientów czy w testach A/B. Odrębny podrozdział poświecono marketingowi, który „jest jednym z pierwszych działów, na które powinieneś spojrzeć przy wdrażaniu technologii big data”, jak również zastosowaniu omawianych narzędzi w zarządzaniu kadrami.

Big data, wedle autora, musi cechować się spełniania co najmniej jednego warunku:

duży wolumen (ilość danych),
duża prędkość przetwarzania,
duża różnorodność (typu i natury danych).

Co ciekawe, wskazano, że takie dane pozwalają śledzić nasze działania wstecz. Dzięki dużej ilości informacji możemy stawiać nowe pytania do już znanych wyników i zastanawiać się, jakie czynniki miały wpływ na taki, a nie inny rezultat.

Wielokrotnie akcentowana jest potrzeba dokonywania uzgodnień ze specjalistą w zakresie ochrony danych osobowych, w tym nie tylko w zakresie prawnym, ale również etycznym. Część ta jest zdecydowanie słabsza, choć autor lojalnie odsyła czytelnika do specjalistycznych publikacji.

Zespół i zarządzanie projektem

Sporo miejsca poświecono kwestii zarządzania projektami z zastosowaniem big data, ich przykładom oraz potencjalnym przyczynom niepowodzeń, takim jak wybór nieodpowiednich technologii czy brak współpracy w zespole wdrażającym. Autor bardzo szczegółowo omawia także kwestie doboru odpowiedniego personelu, w tym kwestię procesu rekrutacyjnego i istotnego problemu, jakim jest znalezienie odpowiednich kandydatów na stanowisko data scientist – „najbardziej seksownego zawodu XXI wieku”

Value for money

Książka stanowi nie tylko doskonałe wprowadzenie do problematyki big data i sztucznej inteligencji, ale też bardzo praktyczny poradnik „step by step”, jak implementować te rozwiązania w przedsiębiorstwie. Duża ilość przykładów i anegdot umilają lekturę i czynią przystępniejszą dla laików.

Publikacja: David Stephenson, Big data, nauka o danych i AI bez tajemnic. Podejmuj lepsze decyzje i rozwijaj swój biznes!, Helion, 2019.