# Zusammenfassung der Analysen vom Hackathon f√ºr die Webside

- wom√∂glich zur Darstellung auf der Webside


In [1]:
import numpy as np
import pandas as pd
import altair as alt

## Daten aufbereitung

Dump der Datenbank vom 25.03.2023. Die verschiedene Tabellen der Datenbank werden einzeln eingelesen. Zus√§tzlich werden alle direkt zu einem Tweet zugeh√∂rige Information in ein Datenobjekt gesammelt. Die Informationen zu den GIS-Daten zu den einzelnen Polizeistadtion ("police_stations") sind noch unvollst√§ndig und m√ºssen gegebenfalls nocheinmal √ºberpr√ºft werden.



In [45]:
# Merging different table of old (~2021) and new (~2022) scraper

## cols: hashtag, url, mention (same for both)
tweets_meta = pd.concat([pd.read_csv("data/entity_old.tsv", sep = "\t"), # data from old scraper
                         pd.read_csv("data/tweets.csv")]) # data from new scraper

## cols: id, tweet_text, created_at, user_id; only subset from old table (same tsv used in next step)
tweets_text = pd.concat([pd.read_csv("data/tweet_old.tsv", sep = "\t")[['id','tweet_text', 'created_at', 'user_id']].rename(columns = {"id":"tweet_id"}),
                         pd.read_csv("data/tweets-1679742698645.csv")])

## cols: id, like_count, retweet_count, reply_count, quote_count; only subset from old table
tweets_statistics = pd.concat([pd.read_csv("data/tweet_old.tsv", sep = "\t")[['id', 'like_count', 'retweet_count', 'reply_count', 'quote_count']].rename(columns = {"id":"tweet_id"}),
                              pd.read_csv("data/tweets-1679742620302.csv")])

## cols: user_id, handle, user_name; colnames do not match betweend old an new data. Even username and handle seem to be mixed up in new data set (inverse order)
## Info: Only a small amount of user_ids appear in both data sets, but if so username occasionaly have changed an therefore can not easily be merged
tweets_user = pd.read_csv("data/user_old.tsv", 
                          sep = "\t").rename(columns = {"id":"user_id","name": "user_name"} # uniform names
                                            ).merge(pd.read_csv("data/tweets-1679742702794.csv" # merge with renamed new data
                                                               ).rename(columns = {"username":"handle", "handle": "user_name"}), # reverse col names
                                                   on = "user_id", # user_id as matching column
                                                   how = "outer", # keep all unique uer_ids
                                                   suffixes = ["_2021", "_2022"]) # identify column where username and label came from

## Some usernames corresponding to one user_id have changed overtime. For easier handling only the latest username and handle is kept.
tweets_user = tweets_user.assign(handle    = tweets_user.apply(lambda row: row['handle_2021'] if pd.isna(row['handle_2022']) else row['handle_2022'], axis=1),
                                 user_name = tweets_user.apply(lambda row: row['user_name_2021'] if pd.isna(row['user_name_2022']) else row['user_name_2022'], axis=1)
                                ).drop(['handle_2021', 'handle_2022', 'user_name_2021', 'user_name_2022'], axis =1) # no longer needed

## addiditional information concerning the police stations
## cols: handle, name, typ, bundesland, stadt, lat, long
police_stations = pd.read_csv("data/polizei_accounts_geo.csv", sep = "\t"  
                             ).rename(columns = {"Polizei Account": "handle"})

tweets_meta.shape, tweets_statistics.shape, tweets_text.shape, tweets_user.shape, police_stations.shape

((479991, 3), (151690, 8), (151690, 4), (13327, 3), (163, 7))

Jetzt k√∂nnen noch alle Tweet bezogenen informationen in einem Data Frame gespeichert werden:

In [24]:
# Merge statistics, tweet text and user information in one data frame
tweets_combined = pd.merge(tweets_statistics, 
                           tweets_text,
                           on = 'tweet_id').merge(tweets_user, on = 'user_id'
                                                 ).drop(['id'], axis = 1) # drop unascessary id column (redundant to index)
 

In [49]:
# Convert datatypes to appropriate one
tweets_combined[['like_count', 'retweet_count', 'reply_count', 'quote_count']] = tweets_combined[['like_count', 'retweet_count', 'reply_count', 'quote_count']].fillna(np.NAN).astype(int)
tweets_combined = tweets_combined.assign(measured_at = pd.to_datetime(tweets_combined['measured_at']), # change date to date format
                                         created_at  = pd.to_datetime(tweets_combined['created_at']),
                                         handle      = tweets_combined['handle'].str.lower(), # handle to lower case
                                         is_deleted  = tweets_combined['is_deleted'].astype('boolean')) # is deleted column as boolean variable
tweets_combined#.to_csv("data/tweets_all_combined.csv")

Unnamed: 0,tweet_id,like_count,retweet_count,reply_count,quote_count,measured_at,is_deleted,tweet_text,created_at,user_id,handle,user_name
0,1321021123463663616,2,1,2,0,NaT,,"@mahanna196 Da die Stadt keine Ausnahme f√ºr Radfahrer aufgef√ºhrt hat, gilt diese (Stand jetzt) a...",2020-10-27 09:29:13,778895426007203840,polizei_ol,Polizei Oldenburg-Stadt/Ammerland
1,1321037834246066181,2,0,0,0,NaT,,@mahanna196 Ja. *sr,2020-10-27 10:35:38,778895426007203840,polizei_ol,Polizei Oldenburg-Stadt/Ammerland
2,1321068234955776000,19,3,3,0,NaT,,#Aktuell Auf dem ehem. Bundeswehrkrankenhausgel√§nde in #Rostrup wurde ein Sprengsatz gefunden. F...,2020-10-27 12:36:26,778895426007203840,polizei_ol,Polizei Oldenburg-Stadt/Ammerland
3,1321073940199100416,0,0,0,0,NaT,,@Emma36166433 Bitte lesen Sie unseren Tweet 2/2 *sr,2020-10-27 12:59:06,778895426007203840,polizei_ol,Polizei Oldenburg-Stadt/Ammerland
4,1321088646506754049,2,0,0,0,NaT,,In der vergangenen Woche wurde die Wohnung des Tatverd√§chtigen durchsucht. Dabei stellten die Be...,2020-10-27 13:57:32,778895426007203840,polizei_ol,Polizei Oldenburg-Stadt/Ammerland
...,...,...,...,...,...,...,...,...,...,...,...,...
151685,1625828803804004354,5,1,1,0,2023-02-19 13:40:36,False,#Sicherheit durch #Sichtbarkeit\nUnsere #Dir3 hat zu diesem Thema wieder einmal die Puppen tanze...,2023-02-15 12:06:07,1168873095614160896,polizeiberlin_p,Polizei Berlin Pr√§vention
151686,1628004105623900167,2,0,0,0,2023-02-25 13:14:49,False,Unser Pr√§ventionsteam vom #A44 ber√§t heute und morgen tags√ºber zum Thema Alkohol &amp; Drogen + ...,2023-02-21 12:10:00,1168873095614160896,polizeiberlin_p,Polizei Berlin Pr√§vention
151687,1628004810183016448,6,0,0,0,2023-02-25 13:14:49,False,Auch unser #A52 war heute aktiv und hat zum Thema Alkohol &amp; Drogen im Stra√üenverkehr beraten...,2023-02-21 12:12:48,1168873095614160896,polizeiberlin_p,Polizei Berlin Pr√§vention
151688,1628352896352878593,2,0,0,0,2023-02-26 13:15:05,False,Gestern f√ºhrte unser #A13 in einer Wohnsiedlung einen Pr√§ventionseinsatz zum Thema ‚ÄûWohnraumeinb...,2023-02-22 11:15:58,1168873095614160896,polizeiberlin_p,Polizei Berlin Pr√§vention


### Adjazenzmatrix mentions
 
Information, welche nicht direkt enthalten ist: welche Accounts werden erw√§hnt. Ist nur im Tweet mit @handle gekennzeichnet.

In [53]:
# TODO

0    Auch wir schlie√üen uns dem Apell an! \n\n#Ukra...
1    @BWeltenbummler Sehr schwer zu sagen. Die Evak...
2    Halten Sie durch ‚Äì die Evakuierung ist fast ab...
3    Halten Sie durch ‚Äì die Evakuierung ist fast ab...
4    RT @drkberlin_iuk: üö® In enger Abstimmung mit d...
Name: tweet_text, dtype: object

## Metadaten 

Welche Daten bilden die Grundlage?


In [112]:
tweets_meta["entity_type"].value_counts()
# tweets_meta[tweets_meta['entity_type'] == "mention"]

hashtag    267255
url        141594
mention     71142
Name: entity_type, dtype: int64

Insgesamt haben wir 151690 einzigartige Tweets:

In [113]:
tweets_combined["tweet_id"].value_counts().shape[0] # Anzahl an Tweets

151690

In [10]:
print("Die Tweets wurden vom", tweets_combined['created_at'].min().date(), "bis zum:", tweets_combined['created_at'].max().date(), "gesammelt.", "Also genau insgesamt:", (tweets_combined['created_at'].max() - tweets_combined['created_at'].min()).days, "Tage. (Mit kleinen Unterbrechungen)")
# tweets_combined[tweets_combined['created_at'] == tweets_combined['created_at'].max()] # Tweets vom letzten Tag

Die Tweets wurden vom 2020-10-27 bis zum: 2023-03-16 gesammelt. Also genau insgesamt: 870 Tage. (Mit kleinen Unterbrechungen)


Welche Polizei Accounts haben am meisten getweetet?

In [11]:
tweets_agg = tweets_combined.groupby(by = ["user_id", "user_name", "handle"]
                                    )["user_id"].aggregate(['count']
                                                          ).merge(police_stations,
                                                                  on = "handle",
                                                                  how = "left"
                                                                 ).sort_values(['count'], ascending=False)
tweets_agg.shape
activy_police_vis = tweets_agg[0:50]
activy_police_vis.head()

Unnamed: 0,handle,count,Name,Typ,Bundesland,Stadt,LAT,LONG
11,polizei_ffm,5512,,,,,,
0,polizeisachsen,5340,Polizei Sachsen,Polizei,Sachsen,Dresden,51.0493286,13.7381437
3,polizei_nrw_do,4895,Polizei NRW DO,Polizei,Nordrhein-Westfalen,Dortmund,51.5142273,7.4652789
92,polizeibb,4323,,,,,,
61,polizeihamburg,4042,Polizei Hamburg,Polizei,Hamburg,Hamburg,53.550341,10.000654


Visualisierung aktivste Polizeistadtionen:

In [13]:
barchart = alt.Chart(activy_police_vis[0:15]).mark_bar().encode(
    x = 'count:Q',
    y = alt.Y('handle:O', sort = '-x'),
)
barchart 

Welche Tweets ziehen besonders viel Aufmerksamkeit auf sich?

In [14]:
tweets_attention = tweets_combined.merge(police_stations,
                                         on = "handle",
                                         how = "left")
pd.options.display.max_colwidth = 100
tweets_attention.sort_values('like_count', ascending = False).reset_index()



Unnamed: 0,index,tweet_id,like_count,retweet_count,reply_count,quote_count,measured_at,is_deleted,tweet_text,created_at,user_id,handle,user_name,Name,Typ,Bundesland,Stadt,LAT,LONG
0,3053,1609539240458878979,21455,1845,3643,341,2023-01-05 14:44:34,False,"Die Gewalt, die unsere Kolleginnen &amp; Kollegen in der Silvesternacht erleben mussten, ist une...",2023-01-01 13:17:13,2397974054,polizeiberlin,Polizei Berlin,,,,,,
1,1331,1355179228396879872,19186,3386,1203,628,NaT,,"An diejenigen, die vergangene Nacht in eine Schule in #Gesundbrunnen eingebrochen sind und 242 T...",2021-01-29 15:41:20,2397974054,polizeiberlin,Polizei Berlin,,,,,,
2,91693,1505620459148173316,15708,7098,186,540,2022-03-24 20:15:08,False,"WICHTIGE Info:\n√úber das Internet wird derzeit ein Video verbreitet, in dem von einem √úberfall a...",2022-03-20 19:01:05,2389161066,polizei_nrw_bn,Polizei NRW BN,Polizei NRW BN,Polizei,Nordrhein-Westfalen,Bonn,50.735851,7.10066
3,91695,1505620666476896259,10337,1539,59,35,2022-03-24 20:15:08,False,"Die Experten gehen derzeit davon aus, dass es sich um ein absichtliches ""Fake-Video"" handelt, da...",2022-03-20 19:01:54,2389161066,polizei_nrw_bn,Polizei NRW BN,Polizei NRW BN,Polizei,Nordrhein-Westfalen,Bonn,50.735851,7.10066
4,122631,1359098196434292739,9471,642,128,102,NaT,,Weil wir dich schieben! @BVG_Kampagne üòâ https://t.co/N8kdlCxhz2,2021-02-09 11:13:55,4876039738,bpol_b,Bundespolizei Berlin,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
151685,7569,1332625325654757377,-99,-99,-99,-99,NaT,,"Sinken die Temperaturen ‚ùÑ, steigt zeitgleich das Risiko f√ºr Verkehrsteilnehmer. H√∂chste Zeit zu ...",2020-11-28 10:00:11,223758384,polizeisachsen,Polizei Sachsen,Polizei Sachsen,Polizei,Sachsen,Dresden,51.0493286,13.7381437
151686,7572,1332738525507186692,-99,-99,-99,-99,NaT,,"üì∫Am Sonntag, um 19:50 Uhr, geht es bei #KripoLive im \n@mdrde\n auch um die Fahndung nach einem ...",2020-11-28 17:30:00,223758384,polizeisachsen,Polizei Sachsen,Polizei Sachsen,Polizei,Sachsen,Dresden,51.0493286,13.7381437
151687,144702,1465679768494526467,-99,-99,-99,-99,NaT,,Musik verbindet!\nUnser #Adventskalender der #Bundespolizei startet morgen ‚û° https://t.co/V6CaTV...,2021-11-30 13:51:02,4876085224,bpol_nord,Bundespolizei Nord,,,,,,
151688,144701,1464124290605977600,-99,-99,-99,-99,NaT,,"@gretchen_hann Hallo, diese Frage kann die Bundespolizei Spezialkr√§fte besser beantworten. Richt...",2021-11-26 06:50:07,4876085224,bpol_nord,Bundespolizei Nord,,,,,,


Unnamed: 0,user_id,handle,user_name
0,1000004686156652545,6jannik9,Systemstratege:
1,1000043230870867969,LSollik,Physiolucy
2,1000405847460151296,Achim1949Hans,Systemstratege:
3,1000460805719121921,WahreW,WahreWorte
4,1000744009638252544,derD1ck3,‚íπ‚ë†‚ìí‚ìö‚ë†‚ë¢ (üè°)
...,...,...,...
11554,99931264,Havok1975,Systemstratege:
11555,999542638226403328,Madame_de_Saxe,Systemstratege:
11556,999901133282754560,tungstendie74,Systemstratege:
11557,999904275080794112,_danielheim,Systemstratege:
