## Merge state data and user data

In [40]:
import pandas as pd

tw_tweets = pd.read_csv(r'..\data\copbird_table_tweet.csv')
tw_user_data = pd.read_csv(r'..\data\copbird_table_user.csv')
tw_pol_geo_data = pd.read_csv(r'..\geolocations\polizei_accounts_geo.csv', delimiter='\t')

In [41]:
def add_state_to_user_df():
    tw_user_df = tw_user_data.rename(columns={"id": "user_id"})
    tw_pol_geo_df = tw_pol_geo_data.rename(columns={"Name": "name", "Bundesland": "bundesland", "Stadt": "stadt"})

    # merge tw_pol_geo_df into tw_user_df on key_col ('name') and only add col 'bundesland' to new df based on user_df
    return pd.merge(tw_user_df, tw_pol_geo_df[['name', 'stadt', 'bundesland']], on='name', how='left')

In [42]:
add_state_to_user_df()[:10]

Unnamed: 0,user_id,name,handle,stadt,bundesland
0,1032561433102434304,Polizei Wittlich,PolizeiWittlich,Wittlich,Rheinland-Pfalz
1,1143867545226764293,Bayerisches Landeskriminalamt,LKA_Bayern,München,Bayern
2,1169206134189830145,Polizei Stendal,Polizei_SDL,Stendal,Sachsen-Anhalt
3,1184024283342950401,Polizei Ravensburg,PolizeiRV,Ravensburg,Baden-Württemberg
4,1232548941889228808,Polizei Bad Nenndorf,Polizei_BadN,Bad Nenndorf,Niedersachsen
5,1295978598034284546,Polizei ZPD NI,Polizei_ZPD_NI,Hannover,Niedersachsen
6,1487390240,Polizei Koblenz,Polizei_KO,Koblenz,Rheinland-Pfalz
7,1968267000,Polizei Mainz,PolizeiMainz,Mainz,Rheinland-Pfalz
8,1979596724,Polizei NRW OB,polizei_nrw_ob,Oberhausen,Nordrhein-Westfalen
9,2176104583,Polizei Rheinpfalz,PP_Rheinpfalz,Ludwigshafen am Rhein,Rheinland-Pfalz


## insert state data into tweet data

In [43]:
def add_state_to_tweets_df():
    tw_tweets_ext = pd.merge(tw_tweets, add_state_to_user_df()[['user_id', 'stadt', 'bundesland', 'name', 'handle'
                                                                ]], on='user_id', how='left')
    return tw_tweets_ext[['id', 'tweet_text', 'created_at', 'user_id', 'name', 'handle', 'stadt', 'bundesland'
                          ]].rename(columns={'id': 'tweet_id', 'name': 'user_name'})

In [44]:
add_state_to_tweets_df()[:10]

Unnamed: 0,tweet_id,tweet_text,created_at,user_id,user_name,handle,stadt,bundesland
0,1321021123463663616,@mahanna196 Da die Stadt keine Ausnahme für Ra...,2020-10-27 09:29:13,778895426007203840,Polizei Oldenburg-Stadt/Ammerl,Polizei_OL,,
1,1321023114071969792,#Zeugengesucht\nDie Hintergründe zu dem Tötung...,2020-10-27 09:37:08,2397974054,Polizei Berlin,polizeiberlin,Berlin,Berlin
2,1321025127388188673,RT @bka: EUROPE´S MOST WANTED – Sexualstraftät...,2020-10-27 09:45:08,2397974054,Polizei Berlin,polizeiberlin,Berlin,Berlin
3,1321028108665950208,@StrupeitVolker Wir verstehen nicht so recht w...,2020-10-27 09:56:59,2810902381,Polizei München,PolizeiMuenchen,München,Bayern
4,1321029199998656513,Wir unterstützen das @bka bei der #Öffentlichk...,2020-10-27 10:01:19,223758384,Polizei Sachsen,PolizeiSachsen,Dresden,Sachsen
5,1321029204964745218,Heute früh brannte es auf unserem Sicherstellu...,2020-10-27 10:01:20,2397974054,Polizei Berlin,polizeiberlin,Berlin,Berlin
6,1321031650483019776,Als ein Supermarktmitarbeiter in #Fürstenwalde...,2020-10-27 10:11:03,720244303566483456,Polizei Brandenburg,PolizeiBB,Potsdam,Brandenburg
7,1321031765209829379,Auf der Waldecker Straße haben bislang unbekan...,2020-10-27 10:11:31,2389222849,Polizei NRW DU,polizei_nrw_du,Duisburg,Nordrhein-Westfalen
8,1321032307277443072,@Sitewinder Es handelte sich um einen 22-jähri...,2020-10-27 10:13:40,720244303566483456,Polizei Brandenburg,PolizeiBB,Potsdam,Brandenburg
9,1321033945467834368,"@GunstickULM Es bestand der Verdacht, dass Pla...",2020-10-27 10:20:10,720244303566483456,Polizei Brandenburg,PolizeiBB,Potsdam,Brandenburg


## Mapping citys/police stations from Pressemitteilungen and twitter-data

### Extract cities, user_id from Pressemitteilungen and Tweets

In [49]:
def map_bl_tw_citys():
    import re
    df_blaulicht = pd.read_csv(r'..\mod_data\2020-12_2021-05_presseportal.csv')
    df_blaulicht.sort_index(inplace=True)
    tw_locations = list(df_tw_user[['stadt', 'user_id']].itertuples(index=False, name=None))
    tw_locations = [(loc, id) for loc, id in tw_locations if len(str(loc)) > 1]
    bl_locations = list(set([str(city) for city in df_blaulicht['location'].values]))
    bl_tw_locations = {}
    for bl_loc in bl_locations:
        for tw_loc, tw_id in tw_locations:
            if re.search(r'\b' + re.escape(str(tw_loc).lower()) + r'\b', str(bl_loc).lower()):
                bl_tw_locations[bl_loc] = [tw_loc, tw_id]
    return bl_tw_locations

In [50]:
def find_location(txt, mp):
    mapped_blaulicht = mp.get(txt, "")
    return mapped_blaulicht[1] if mapped_blaulicht != "" else ""

### Add col tw_user_id to Blaulichtmeldungen

In [51]:
def extend_blaulicht_data():
    df_blaulicht = concat_blaulicht_dfs()
    mapping = map_bl_tw_citys()
    df_blaulicht['tw_user_id'] = df_blaulicht['location'].apply(lambda x: find_location(x, mapping))
    return df_blaulicht

In [52]:
extend_blaulicht_data()[:10]

FileNotFoundError: [Errno 2] No such file or directory: '..\\mod_data\x820-12_2021-05_presseportal.csv'

## Extract tweets from specific topic by keywords

In [53]:
def get_topics_by_str_lst(topic, df, col_name):
    df_topiced = df[df[col_name].str.contains('|'.join(topic))]
    return df_topiced

In [54]:
topic_1 = ['demonstr', 'kundgeb']
topic_2 = ['drogen', 'weed', 'graas', 'lsd', 'cannabis', 'ecstasy', 'kokain', 'meth', 'crystal']
topic_3 = ['rassis', 'diskriminier', 'ausländerfeindlich', 'fremdenfeindlich', 'fremdenhass']
topic_4 = ['antisem', 'juden', 'synagoge', 'judenhass', 'judenfeindlich', 'holocaust']

In [55]:
df_tw = pd.read_csv('..\mod_data\copbird_table_tweet_ext_state.csv', na_filter=False)
df_tw_col = 'tweet_text'
get_topics_by_str_lst(topic=topic_3, df=df_tw, col_name=df_tw_col)

Unnamed: 0,tweet_id,tweet_text,created_at,user_id,user_name,handle,stadt,bundesland
1031,1322543875169333250,Freitagabend beleidigten zwei Männer eine 20-j...,2020-10-31 14:20:06,808666671468658688,Polizei Bremen,BremenPolizei,Bremen,Bremen
1239,1323187306698858499,@hin_fort Die verwendeten Begriffe spielen für...,2020-11-02 08:56:52,808666671468658688,Polizei Bremen,BremenPolizei,Bremen,Bremen
1429,1323269343183015938,#Zeugensuche\r\n\r\n#Frankfurt-#Kalbach: Am 30...,2020-11-02 14:22:51,2272909014,Polizei Frankfurt,Polizei_Ffm,Frankfurt am Main,Hessen
5300,1328341355626721282,@MeineMe53821610 rassistischen Motiven? 🤔,2020-11-16 14:17:13,4201961439,Polizei Mannheim,PolizeiMannheim,Mannheim,Baden-Württemberg
8149,1331972789801267201,@werner42726904 Wenn Sie konkrete Hinweise auf...,2020-11-26 14:47:14,2904886151,Polizei Hamburg,PolizeiHamburg,Hamburg,Hamburg
9176,1333452133623078914,@Fuchsbau_22 @ARD_Recht Wie bereits zuvor nich...,2020-11-30 16:45:37,3029998264,Polizei Karlsruhe,Polizei_KA,Karlsruhe,Baden-Württemberg
9763,1334075361416581120,@Initiative_PKD @Fuchsbau_22 @ARD_Recht Wie wi...,2020-12-02 10:02:06,3029998264,Polizei Karlsruhe,Polizei_KA,Karlsruhe,Baden-Württemberg
11702,1335957493365813250,👉Auto eines behinderten Menschen in #Willich #...,2020-12-07 14:41:01,2389266775,Polizei NRW VIE,polizei_nrw_vie,Viersen,Nordrhein-Westfalen
11752,1335978008457392129,Gestern Abend erschien auf der #Davidwache in ...,2020-12-07 16:02:33,2397974054,Polizei Berlin,polizeiberlin,Berlin,Berlin
15082,1339960301815537665,"Eine Kollegin unserer #Dir3 bemerkte, dass ein...",2020-12-18 15:46:45,2397974054,Polizei Berlin,polizeiberlin,Berlin,Berlin


In [56]:
df_pm = pd.read_csv(r'..\mod_data\2020-12_2021-05_presseportal.csv', na_filter=False)
df_pm_col = 'content'
get_topics_by_str_lst(topic=topic_3, df=df_pm, col_name=df_pm_col)

Unnamed: 0,article_id,timestamp,location,bundesland,content,tw_user_id
7693,4970-4801222,2020-12-29 14:42:00,Frankfurt,hessen,Frankfurt (ots) - (em) Freitagnachmittag (25. ...,
13962,35235-4812557,2021-01-14 16:24:00,Bremen,bremen,"Bremen (ots) - - Ort: Bremen-Mitte, Bahnhofsvo...",8.086666714686586e+17
19445,104234-4823502,2021-01-27 17:12:00,Lingen,niedersachsen,Lingen (ots) - Lingen/Brögbern - Am Sonntagnac...,7.731605253248083e+17
20919,117687-4825987,2021-01-30 13:38:00,Bad Dürkheim,rheinland-pfalz,Bad Dürkheim (ots) - Am 30.01.2021 um 13 Uhr b...,
22245,126723-4804801,2021-01-05 11:25:00,Mühlhausen,thueringen,Mühlhausen (ots) - Mit ausländerfeindlichen Pa...,
23117,6013-4807245,2021-01-08 12:08:00,Nürnberg,bayern,Nürnberg (ots) - In den vergangenen Tagen wurd...,8.007185685726126e+17
24239,43526-4836365,2021-02-11 15:10:00,Nordwalde,nordrhein-westfalen,Nordwalde (ots) - Gemeinsame Pressemitteilung ...,
26018,24843-4839806,2021-02-16 12:17:00,Isselburg,nordrhein-westfalen,Isselburg (ots) - Einige Konsequenzen eingehan...,
29826,11187-4845946,2021-02-23 11:43:00,Münster,nordrhein-westfalen,Münster (ots) - Nach rassistischen Beleidigung...,2284811875.0
31241,35235-4849262,2021-02-26 11:53:00,Bremen,bremen,"Bremen (ots) - - Ort: Bremen-Hemelingen, OT He...",8.086666714686586e+17
