Adam Cebula „Political niefiction”

Grafika: Adam Cebula

Nie ma jak dreszczowiec – nic lepiej nie przyciąga publiki. Czym żyją tzw. media?Pewna firma(Cambridge Analytica) miała zgrandzić z Facebooka 50 milionów kont, po czym za pomocą tak pozyskanych danych wspomóc Donalda Trumpa w walce o fotel prezydenta USA. Są publicyści, którzy dopatrują się jej udziału w Brexicie, cokolwiek by to miało znaczyć.

Tak, czy owak, jeśli w tych doniesieniach jest choćby ziarno prawdy, to Big Data jest przepotężnym narzędziem.

Kto za tym stoi i w czyim interesie? Owszem, można cokolwiek powiedzieć, skąd toto się wzięło. Z rozwoju urządzeń peryferyjnych komputerów. Dziś się zapomina, że kiedyś funkcjonowało pojęcie „peryferiów” w technice komputerowej, bo komputer staje się coraz mniej zauważalną częścią maszynerii. Ale dla utrzymania pewnej systematyczności warto tak powiedzieć.

Sam komputer z urodzenia jest przystosowany do obracania gigantyczną (z punktu widzenia człowieka) ilością danych. Przerobienie przez współczesną maszynę cyfrową (czy ktoś pamięta, że ta nazwa była w powszechnym użyciu?) archiwum, które kiedyś mieściło się w wielu szafach, to najczęściej nawet nie chlebuś z masełkiem, ale pestka. Pstryk – i już zrobione.

Skoro jest możliwość, to rośnie apetyt, żeby przerabiać coraz więcej. Bo…

A oto pewien cytat wygrzebany ze zbiorów wikicytatów: Są trzy rodzaje kłamstw – kłamstwa, bezczelne kłamstwa i statystyki. Autor – Mark Twain. Dobry wstęp do opowieści o tym, że metody statystyczne rozwijają się gwałtownie przynajmniej od czasu, gdy Carl Friedrich Gauss zaprezentował metodę najmniejszych kwadratów i z jej pomocą odkryto (ponownie zlokalizowano) planetoidę Ceres. Niezależnie od tego, jak było naprawdę z ową planetoidą i metodą najmniejszych kwadratów, do dnia dzisiejszego przekonujemy się na własnej skórze, że statystyka, a zwłaszcza metody uśredniania, potrafią naprawdę bardzo wiele.

Kiedyś już o tym pisałem, i pewnie to wciąż będzie zaskoczeniem, że legendarna odpornośćkomunikacji radiowej w systemie Morse’a ma u podstaw właśnie uśrednianie sygnału, podstawową metodę opracowania wyników. Tak jest w istocie, ponieważ – cokolwiek to znaczy – wąskopasmowe układy rezonansowe sumują sygnał przez (jak na elektronikę) bardzo długi czas.

Uśrednianie sygnału ma też w tej chwili zastosowanie w fotografii. Na przykład w niektórych aparatach (której firmy, nie napiszę, bo nie zapłacili) znajdziemy w pozycji menu coś, co mniej więcej się zwie „zdjęcia nocne bez statywu” i działa tak, że aparat wykonuje serię (zwykle czterech) zdjęć. Mają czasy naświetlania na tyle krótkie, żeby nie doszło do poruszeń, i są wykonywane na wysokiej czułości, na której poziom szumów jest już wysoki. Następnie algorytmy dokonują dopasowania zdjęć do siebie tak, że nawet jeśli nie utrzymaliśmy aparatu, to kolejne klatki da się na siebie nałożyć. Ostatnim etapem jest poskładanie poszczególnych zdjęć w jedno z wyliczeniem wartości pikseli jako średniej uzyskanej z klatek składowych. I szumy cudownym sposobem maleją.

Na ucho powiem kochanym czytelnikom, że dużo lepsze rezultaty uzyskamy, jeśli operację przeprowadzimy właśnie na komputerze za pomocą takich programów jak Hugin i ImageMagick. I to może mieć wiele wspólnego z tematem Big Data. Albowiem im więcej zdjęć wrzucimy w procedurę, tym mniejszy szum dostaniemy na obrazku wynikowym. Przy dzisiejszych matrycach z dziesiątkami megapikseli i pojemnych kartach, dzięki którym możemy spokojnie strzelić z setkę zdjęć, komputer będzie musiał przemielić porcję danych w okolicy terabajtów… i wówczas pokłoni się nam jeden z zasadniczych problemów Big Data: optymalizacja procesu. Czas, w którym nasza maszyna dokona wszystkich operacji, zaczyna się już naprawdę dłużyć.

Czyli, jak widać, statystyka – przerabianie wielkich ilości danych – działa. Co więcej, nawet na tych zdjęciach (może niekoniecznie wykonywanych z trzęsącej się ręki, ale uśrednianych) możemy zobaczyć coś, czego wcześnie ani trochę nie było widać.

To dla wielu nie tylko wystarczający powód, by zajmować się opracowaniem wielkich pakietów danych, ale by uznać to za rzecz fascynującą i coś, czego możliwości jeszcze nie potrafimy docenić.

Wróćmy jednak do faktycznie przerwanego tematu: skąd to się wzięło (Bid Data)? Co z tym mają wspólnego peryferia i czym one są? A to dziś choćby inne komputery. Albo telefony komórczane z modułami GPS na pokładzie. Dziesiątki tysięcy kas i wiele, wiele innych urządzeń, z których da się dane zbierać, i które dla wygody albo utrapienia są wpięte w sieć internetową.

Serwery serwujące strony internetowe z automatu rejestrują aktywności użytkowników. Wystarczy trochę linijek kodu, by dane zostały zapisane i wysłane do obróbki. Współcześnie źródłem danych stają się nawet automaty do sprzedaży kawy i frytek – bo można w nich płacić kartami, bo wsadzono w nie porządną elektronikę, bo sieć jest w zasadzie wszędzie. A jakby jej nie było, to serwis bez kłopotu przy wymianie zapasu kawy może sczytać dane.

Trzeba sobie to wyobrazić: mamy potencjalne źródła niezwykłych ilości danych. I tyle pomysłów na ich wykorzystanie, że wystarczy zajęcia dla pokoleń informatyków.

Dość już dawno temu przeprowadziłem taki eksperyment: zarejestrowałem kilkadziesiąt minut hałasu drogowego. No i na przykład za pomocą analizy Fouriera mogłem sprawdzić, jak działają światła na skrzyżowaniach.

Zazwyczaj takie badania prowadzi się poprzez bezpośrednie liczenie samochodów, ale analizując tylko zmiany hałasu, mogłem zaobserwować, jak gwałtownie wzrastał ruch przed szczytem komunikacyjnym. Bezpośredni dowód na to, że przemyślaną obróbką pozornie chaotycznych danych (warto się zastanowić, czy może być głupszy sposób na zbieranie informacji o świecie niż rejestracja hałasu) można wyciągnąć bardzo wiele użytecznych informacji. Na przykład w sumie kosztowne mierzenie ruchu samochodowego, które polega na tym, że człowiek siedzi przy drodze i liczy każdy pojazd, możemy zastąpić urządzeniem. Co więcej, ta maszyna (jeśli pomyślimy, jak opracować rejestrowany hałas) ma szanse dać nam dużo więcej informacji niż metoda tradycyjna. Da się na przykład, rejestrując poziom hałasu, ocenić prędkości, z jakimi pojazdy jadą, nawet odstępy między nimi, i to, czy przyspieszają, czy hamują.

Dla projektanta systemu drogowego w mieście to bezcenne dane – ale też i dla kogoś, kto zastanawiałby się, jak doprowadzić do możliwie wielkiego zatoru komunikacyjnego, i to na przykład w taki sposób, żeby nikt się w manipulacji zorientował.

Czy przekonuję, że Big Data działa? Ano… raz działa, a raz… diabli wiedzą. Nie na darmo przytoczyłem słynny cytat z Twaina.

Jeśli bowiem chcemy kogoś oszukać, statystyka jest wymarzonym narzędziem. Korelacja to klasyczne zagadnienie, na którym rzecz się ćwiczy. Tak zwany współczynnik korelacji jest bardzo konkretną wielkością ze ścisłą definicją. Tzw współczynnik korelacji Pearsona jest oparty na pojęciu korelacji. Korelacja sprawdza zależność dwóch ciągów danych. Jeśli jej wartość wynosi 0, to dane powinny być niezależne. Można sobie sprawdzić w Wikipedii, że „zmienna losowa Z ma rozkład jednostajny na przedziale [0,2π], a zmienne losowe byłyby zdefiniowane jako X = sin(Z) i Y = cos(Z), to pomimo ich oczywistej zależności (jedynka trygonometryczna) mamy cov ⁡( X, Y ) = 0”.

Ściągnij tekst: