# Interface Presseportal

Das Presseportal bietet eine Platform, bei der mittels GET-requests die Pressemitteilungen verschiedener Institutionen (Polizei, Feuerwehr, ...), in bestimmten Zeiträumen in gegebenen Gebieten extrahiert werden können. Dafür gibt es auch eine API.

Beispiel URL: `https://www.presseportal.de/blaulicht/d/polizei/l/hessen/30?startDate=2021-05-04&endDate=2021-05-04`

Da eine große Menge an Tweets angefragt werden und Requests ziemlich lange benötigen, muss die Anfrage optimiert werden:

In [1]:
import requests
import calendar
import time
import os
import csv

from tqdm.notebook import tqdm
from datetime import datetime
from bs4 import BeautifulSoup

Um Pressemitteilungen sinnvoll zu speichern, werden sie als Klasse dargestellt:

In [2]:
class Pressemitteilung:
 def __init__(self, article_id, timestamp, location, text, bundesland):
 self.article_id = article_id
 self.timestamp = timestamp
 self.location = location
 self.text = text
 self.bundesland=bundesland
 
 def __str__(self):
 return f"[{self.article_id}] {self.timestamp} {self.location} | {' '.join(self.text.split()[:6])}"
 
 def to_row(self):
 return [self.article_id, self.timestamp, self.location, self.bundesland, self.text]

**Konstanten und Pfade**

In [3]:
REQUEST_HEADERS = {
 "User-Agent": (
 "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 "
 "(KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"
 )
}

In [4]:
DATA_FOLDER = os.path.join("..", "data")

In [5]:
BUNDESLAENDER = [
 "baden-wuerttemberg",
 "bayern",
 "berlin-brandenburg",
 "bremen",
 "hamburg",
 "hessen",
 "mecklenburg-vorpommern",
 "niedersachsen",
 "nordrhein-westfalen",
 "rheinland-pfalz",
 "saarland",
 "sachsen",
 "sachsen-anhalt",
 "schleswig-holstein",
 "thueringen",
]

In [6]:
def requests_get(request):
 return requests.get(request, headers=REQUEST_HEADERS)

In [7]:
def extract_response(response, bundesland=None):
 """Extrahiere aus der Response einer Request alle Pressemitteilungen
 
 Args:
 response (:obj:`Response`)
 bundesland (:obj:`str`): Kann mit angegeben, falls es in der Suche relevant war. Default = None
 
 Returns:
 list of :obj:`Pressemitteilung`
 """
 
 mitteilungen = []
 
 soup = BeautifulSoup(response.content, 'html.parser')
 for article in soup.find_all('article'):
 data_url = article['data-url']
 article_id = '-'.join(article['data-url'].split('/')[-2:])
 meta = article.find('div')
 
 timestamp_str = meta.find(class_="date")
 
 if timestamp_str is not None:
 timestamp_str = timestamp_str.text
 timestamp = datetime.strptime(timestamp_str, '%d.%m.%Y – %H:%M')
 else:
 timestamp = None
 
 location_str = meta.find(class_="news-topic")
 location_str = location_str.text if location_str is not None else None
 
 p_texts = article.findAll('p')
 if len(p_texts) > 1:
 text = p_texts[1].text
 else:
 text = ''
 
 mitteilungen.append(Pressemitteilung(article_id, timestamp, location_str, text, bundesland))
 
 return mitteilungen

In [8]:
def create_get_request(*, site=1, location=None, start_date=None, end_date=None):
 """Simulation einer API: Erzeuge aus Parametern eine URL
 
 Args:
 site (int, default=1): Aktuelle Seite, auf der man sich befinden soll. Ist in der URL in 30er Schritten angegeben
 location (:obj:`str`, default=None): Bundesland bzw. Stadt
 start_date (:obj:`str`, default=None)
 end_date (:obj:`str`, default=None)
 Returns:
 str: URL
 """
 url = f"https://www.presseportal.de/blaulicht/d/polizei"
 
 if location is not None:
 url += f"/l/{location}"
 
 if site > 1:
 url += f"/{site*30}"
 
 if start_date is not None or end_date is not None:
 url += "?"
 
 if start_date is not None:
 url += f"startDate={start_date}"
 
 if end_date is not None:
 url += "&"
 
 if end_date is not None:
 url += f"endDate={end_date}"
 
 return url

## Beispiel: Hamburg 

In [9]:
url = create_get_request(location="hamburg", site=3, start_date="2021-01-13", end_date="2021-03-20")
url

'https://www.presseportal.de/blaulicht/d/polizei/l/hamburg/90?startDate=2021-01-13&endDate=2021-03-20'

In [10]:
for mitteilung in extract_response(requests_get(url))[:5]:
 print(mitteilung)

[6337-4840243] 2021-02-16 17:41:00 Hamburg | Hamburg (ots) - Tatzeit: 15.02.2021, 08:15
[6337-4839937] 2021-02-16 13:14:00 Hamburg | Hamburg (ots) - Tatzeiten: a. 15.02.2021,
[6337-4839709] 2021-02-16 11:33:00 Hamburg | Hamburg (ots) - Tatzeit: 15.02.2021, 18:25
[6337-4839544] 2021-02-16 10:31:00 Hamburg | Hamburg (ots) - Zeit: 15.02.2021, 01:34
[6337-4838489] 2021-02-15 11:48:00 Hamburg | Hamburg (ots) - Tatzeit: 14.02.2021; 19:17


## Effizientes Einlesen

Um die Dateien sinnhaft zu extrahieren, ohne auf einen Schlag zu viele Anfragen zu tätigen, läuft das Programm synchron mit Pausen (1Sek / Anfrage). Die Hauptfunktion sucht für einen gegebenen Tag alle Pressemeldungen der Polizei und sortiert diese nach Bundesland bzw. Stadt.

In [11]:
def _get_meldungen_for_date_and_bundesland(year, month, day, bundesland):
 """Suche alle Meldungen für ein Bundesland zu einem konkreten Tag"""

 meldungen = []
 site = 1
 
 start_date = datetime(year, month, day).strftime("%Y-%m-%d")
 end_date = datetime(year, month, day).strftime("%Y-%m-%d")
 request = create_get_request(site=site, location=bundesland, start_date=start_date, end_date=end_date)
 
 new_meldungen = extract_response(requests_get(request), bundesland=bundesland)
 meldungen.extend(new_meldungen)
 
 pbar = tqdm(desc=bundesland)
 while len(new_meldungen) != 0:
 time.sleep(1)
 site += 1
 
 request = create_get_request(
 site=site, location=bundesland, start_date=start_date, end_date=end_date,
 )
 
 new_meldungen = extract_response(requests_get(request), bundesland=bundesland)
 meldungen.extend(new_meldungen)
 pbar.update(1)
 pbar.close()
 
 return meldungen

In [12]:
def get_meldungen_for_date(year, month, day):
 """Extrahiere alle Meldungen für einen Tag
 
 Args:
 year (int): Jahr
 month (int): Monat
 day (int): Tag
 """

 meldungen_dict = {}
 
 for bundesland in BUNDESLAENDER:
 meldungen = _get_meldungen_for_date_and_bundesland(year, month, day, bundesland)
 meldungen_dict[bundesland] = meldungen
 
 return meldungen_dict

## Speichern der Daten in CSV-Dateien

Zur sinnvollen Speicherung werden alle Daten eines Tages in genau einer CSV-Datei gespeichert. Diese können danach (manuell) als ZIP des Monats zusammengefasst werden. 

In [13]:
def store_meldungen_in_csv(year, month, day):
 """Speichere alle Meldungen für ein Datum in einer CSV. Im Namen der CSV steht das Datum."""

 filename = f"{year}-{month}-{day}_presseportal.csv"
 path = os.path.join(DATA_FOLDER, filename)
 meldungen_per_bundesland = get_meldungen_for_date(year, month, day)
 
 with open(path, 'w', newline='', encoding='UTF8') as f:
 writer = csv.writer(f)
 writer.writerow(['article_id', 'timestamp', 'location', 'bundesland', 'content'])
 
 for bundesland, meldungen in meldungen_per_bundesland.items():
 for meldung in meldungen:
 writer.writerow(meldung.to_row())
 
 print(f"File '{filename}' created")

In [14]:
def store_month(year, month):
 month_end_day = calendar.monthrange(year, month)[1]
 
 for i in range(0, month_end_day):
 store_meldungen_in_csv(year, month, i+1)

## Auswertung: Wie viele Einträge pro Bundesland?

Für fortführende Visualisierung und um zu testen, ob der Algorithmus richtig funktioniert, werden hier alle Pressemitteilungen aller Bundesländer ausgezählt:

In [51]:
counter = {}

for filename in os.listdir('../data/'):
 if filename.endswith("_presseportal.csv"):
 path = '../data/' + filename
 
 with open(path, 'r', encoding='UTF8') as f_in:
 reader = csv.reader(f_in)
 next(reader)
 for row in reader:
 bundesland = row[3]
 if bundesland not in counter:
 counter[bundesland] = 1
 else:
 counter[bundesland] += 1
