Preorder drugiego tomu książki sekuraka: Wprowadzenie do bezpieczeństwa IT. -15% z kodem: sekurak-book
Ćwierkając w czasie i przestrzeni, czyli analiza geolokalizacji wpisów na Twitterze
Dzisiaj chciałbym skupić się na wpisach Twitterowych pod kątem zawartych w nich metadanych. Nie mam tutaj na myśli wyciągania geolokalizacji na podstawie danych EXIF ze zdjęć, bo te są automatycznie usuwane przed ich opublikowaniem, ale o obserwowaniu lokalizacji dodawanej do tweetów oraz czasu, kiedy te są dodawane.
Domyślnie w naszym koncie na Twitterze dodawanie lokalizacji do wpisów jest wyłączone, więc teoretycznie bez wiedzy właściciela konta wszystkie wpisy są jej pozbawione. Jeśli opcja zostanie włączona, każdy tweet będzie niósł za sobą informację o miejscu, w którym był jego autor w momencie jego dodawania. Twitter może brać lokalizację z trzech miejsc: aktualnego położenia publikującego, przybliżonej lokalizacji na podstawie nazw użytych w tekście albo lokalizacji z opisu Bio autora. Takie metadane dają np. możliwość weryfikacji, czy informacje, którymi dzieli się dana osoba, nie są nieprawdziwe (jak tweet „Wakacje na Majorce” z lokalizacją w Chałupach) czy też w jakich miejscach dana osoba bywa. Takie dane mogą też powiedzieć więcej o kontekście wypowiedzi – przykładowo osoba pisząca negatywne opinie o lekarzu bez wymieniania nazwiska ani placówki, ale oznaczająca swój tweet geolokalizacją, zdradza mimowolnie informacje kogo ma na myśli.
Twitter sam w sobie udostępnia możliwość wyszukiwania wpisów z danej lokalizacji i jej okolic. Do tego służą operatory: „geocode:”, po którym podajemy dane w formacie: latitude,longitude,radius (czyli np. geocode: 50.0530183,19.9313958,1km pokaże nam wszystkie tweety z okolicy jednego kilometra od smoka wawelskiego). Taki sam efekt przyniesie użycie operatora „near:” w połączeniu z „within:”, gdzie po near musimy podać albo koordynaty w cudzysłowie, albo nazwę miasta, a po within opcjonalnie podajemy promień wyszukiwania w kilometrach lub milach. Koordynaty – szerokość i długość geograficzną – możecie łatwo skopiować z adresu URL na stronie map Google, po znalezieniu tam poszukiwanego przez was miejsca (to dwie pierwsze wartości po znaku @, trzecia to zoom map Google, do pominięcia w naszym przypadku). Jeśli macie włączoną lokalizację urządzenia, to najprostszym sposobem na znalezienie tweetów w swojej okolicy jest wpisanie „near:me” w pole wyszukiwania.
Jeśli chcemy skorzystać z narzędzi dostępnych w sieci, warto spojrzeć na demo usług reprezentacji big data na mapach, które jednak (jak na demo) daje pewne możliwości filtrowania. Jest to onemilliontweetmap (https://onemilliontweetmap.com). Mamy tu możliwość przeszukania bazy tweetów z ostatnich 24 godzin, co daje (wbrew nazwie) około 4 milionów pozycji. Baza jest aktualizowana na bieżąco, więc co chwila jesteśmy „bombardowani” efektownymi animacjami czerwonych okręgów pokazujących lokalizację nowych tweetów. Filtry pozwalają na wyświetlenie tylko określonych hashtagów, autorów lub ograniczenie jeszcze bardziej okna czasowego. Dla lubiących ciekawostki jest też możliwość włączenia widoku analizy tweetów pod kątem zawartości słów pozytywnych lub negatywnych (sentiment view), a także „walki hashtagów”, gdzie możemy podać dwa tagi i zobaczyć, który z nich jest aktualnie popularniejszy.
Jeśli komuś spodoba się heatmapa z wyświetlanymi na żywo tweetami, to może też odwiedzić Tweeplers (https://www.tweeplers.com/map/), na którym dodatkowo możemy przejść do Twittera, wyszukując wpisy w okolicy klikniętego miejsca.
Innym narzędziem do wyszukiwania geolokalizowanych tweetów jest GeoSocial Footprint (http://geosocialfootprint.com), gdzie co prawda możemy podać jedynie nazwę użytkownika, którego wpisy chcemy zobaczyć na mapie, ale za to nie jesteśmy ograniczeni do ostatnich 24, a do 200 tweetów, co w większości przypadków rozszerza nam przedział czasowy z interesującymi nas informacjami. Dla lepszej analizy informacji możemy wszystkie znalezione tweety pobrać w pliku CSV.
Jeśli już wiemy, kto w danym miejscu dodaje tweety, można pokusić się o głębszą analizę profilu danej osoby. Do tego celu możemy użyć FollerMe (https://foller.me), gdzie dla podanego konta otrzymujemy m.in.: datę dołączenia do Twittera, statystyki dotyczące wpisów i śledzących, najczęściej używane słowa i hashtagi, oznaczenia przez innych użytkowników, a także wykres czasowy, który może wskazać na przykład w jakiej strefie czasowej prawdopodobnie przebywa dana osoba albo jakie ma nawyki / rytm pracy. Podobne informacje możemy także znaleźć w zakładce „Analyze” narzędzia Followerwonk (https://followerwonk.com/analyze), gdzie dodatkowo otrzymamy ponad 10 wykresów kołowych dotyczących różnych statystyk, jak płeć i wiek kont osób śledzonych, używany przez nich język na Twitterze czy szybkość interakcji.
–Krzysztof Wosiński (@SEINT_pl)