Wyjątkowo wcześnie po wakacjach rozpoczął swoją aktywność mazowiecki Klub Informatyka. Już 19 września na wydziale Matematyki i Nauk Informacyjnych Politechniki Warszawskiej miało miejsce pierwsze spotkanie, Było ono poświęcone technikom danych masowych, bardziej znanym w środowisku jako Big Data.
Oto wszyscy prelegenci razem, od lewej: dr hab. inż. Maciej Grzenda (prodziekan),
dr inż. Marcin Luckner, dr hab. inż. Przemysław Biecek, prof. Artur Przelaskowski.
Tworzące się zasoby danych masowych kreują zasady analiz oraz metody obliczeniowe, nowe zarówno dla informatyków, jak i matematyków. Jeśli jednak ktoś myślał, że podczas Klubu dowie się o nowych technikach testowania hipotez statystycznych, czy o meandrach programowania w języku R, to zawiódł się. Zarówno czterech prelegentów, jak i liczni dyskutanci koncentrowali się na zastosowaniach (medycyna oraz smart cities). Dużo też mówiono o filozofii analizowania danych, zastrzeżeniach i spodziewanych rezultatach.
Główne wątki wystąpień
Zgodnie z zapowiedziami słowo wstępne wygłosił prodziekan ds. rozwoju Maciej Grzenda. Omówił on m.in. problematykę Big Data od strony procesu nauczania na wydziale MiNI Politechniki Warszawskiej. Dość szczegółowo przedstawił jak wygląda kierunek wydziałowych studiów inżynierskich IAD (Inżynieria i Analiza Danych) stanowiących dedykowaną wersję studiów w dyscyplinie informatyka. Na studiach tych słuchacze zostaną zaznajomieni nie tylko z metodami statystycznymi, czy technikami wizualizacji, ale także ze specyficznymi strukturami danych NoSQL, takimi jak Hadoop czy HBase. Warto dodać, że na ten nowy kierunek studiów startowało w tym roku aż 65 kandydatów na jedno miejsce.
Pierwszy z późniejszych panelistów, Marcin Luckner omówił niektóre wyniki projektu VaVeL w którym uczestniczy (Variety, Veracity, VaLue: Handling the Multiplicity of Urban Sensors). Zademonstrował kilka map ruchu miejskiego w Warszawie opartych na danych zbieranych z różnych typów czujników miejskich i ewentualne pomysły na wykorzystanie do rozładowywania zastojów w ruchu pojazdów. Drugi panelista Przemysław Biecek, znany z doskonałej znajomości oprogramowania R (autor podręczników) ograniczył się do przedstawienia raczej optymistycznych wizji licznych zastosowań technik Big Data w mniej lub bardziej przewidywalnej przyszłości. Trzeci panelista, Artur Przelaskowski, skoncentrował się głównie na filozofii przetwarzania danych masowych. Nakreślił dwa paradygmaty badawcze. Jeden nazwał Kartezjańskim i scharakteryzował jako zachwyt dużą ilością danych. Drugi nazwał Newtonowskim i przedstawił go jako jako przetwarzanie danych oparte na myśleniu. Myślenie ma służyć redukcji danych do niezbednego minimum.
Że redukcja danych już przynosi efekty przypomniała jedna z osób dyskutujących (Małgorzata Kalinowska-Iszkowska), która przytoczyła znany z literatury wynik polskiego naukowca Michała Kosińskiego (Uniwersytet Stanforda). Kosiński opracował algorytm, który pozwala profilować subskrybentów mediów społecznościowych na podstawie zaledwie 7 polubień. Ten naukowy wynik pozwala zrozumieć dlaczego urzędy domagają się od obywateli coraz więcej danych. Najwyraźniej optują bardziej za podejściem Kartezjańskim niż Newtonowskim.
Glossa terminologiczna
Różnorodność nazewnictwa polskojęzycznego na techniki Big Data jest ogromna. Obserwacja wykazuje, że wykładowcy albo w miarę konsekwentnie usiłują się trzymać nazwy miedzynarodowej (ale z wymową polską – data nie dejta), albo też każdy próbuje się trzymać najbardziej lubianego przez siebie terminu. Oto wykaz haseł – i ich źródła (na ile takie udało się zidentyfikować)
- dane masowe – wg terminu francuskiego données massives – propozycja Sekcji Terminologicznej PTI,
- duże dane – skrót myślowy stosowany przez wykładowców,
- duże zbiory danych – tłumaczenie występujące w dokumentach prawnych UE,
- gigadane – propozycja Rady Języka Polskiego PAN z 2015,
- megadane – propozycja alternatywna Sekcji Terminologicznej PTI oparta na wzorcach francuskich (nie zalecana),
- moc danych – propozycja autorstwa prof. Bolesława Szafrańskiego,
- multidane – propozycja autorstwa prezesa Wacława Iszkowskiego,
- wielodane – inna propozycja Wacława Iszkowskiego.
Jakie by się słownictwo nie przyjęło, słownik synonimów do Big Data wydaje się obecnie dość bogaty. W miarę rozwoju tej młodej dziedziny, zapewne niektóre z propozycji zostaną zapomniane, natomiast inne być może utrwalą się, albo też zyskają nowe, bardziej specyficzne znaczenia.
Frekwencja bliska 50 osób przed rozpoczęciem roku akademickiego to dobry wynik dla tematu, którym Klub Informatyka zajmuje się już nie po raz pierwszy. Klub tradycyjnie był filmowany. Jest już udostępniony na niniejszej stronie, a także niezależnie w formie tzw. playlisty w YT – tutaj. (d)
Cztery prezentacje na temat danych masowych (1:21:56)
Dyskusja po przerwie (48:50)
Zobacz także
wersja 5.10.2017, 0:02
wersja 22.09.2017, 14:25