X-Ploration: Data Mining und Sentimentanalyse mit Hugging Face

Autor: Oguzhan-Burak Bozkurt


Durch den kontinuierlichen und raschen Fortschritt in jüngster Zeit auf den Gebieten von Big Data und KI-Technologien sind heutzutage insbesondere Teilbereiche des Informationsmanagements gefragter als je zuvor. Die Rolle des Informationsmanagers und Data Scientists besteht darin, Methoden zur Erfassung und Verarbeitung von Informationen aus unterschiedlichen Datenquellen anzuwenden. Zudem ist er befähigt, Entscheidungen darüber zu treffen, welche Verarbeitungsprozesse zur gezielten Knowledge Discovery aus umfangreichen Datensätzen geeignet sind. Hierbei kommt Data Mining ins Spiel, eine Methode, die die systematische Extraktion relevanter Informationen und Erkenntnisse aus großen Datenmengen umfasst.

In diesem Blogbeitrag werden wir tiefer in das Thema eintauchen und uns einem von vielen Verfahren des Data Mining, genauer der Sentimentanalyse im Text Mining, praxisnah annähern. Dabei bin ich der Ansicht, dass ein tieferes Verständnis erreicht wird, wenn das theoretisch Gelernte eigenständig umgesetzt werden kann, anstatt lediglich neue Buzzwörter kennenzulernen. Ziel ist eine Sentimentanalyse zu Beiträgen auf der Social Media Plattform X (ehemals Twitter) mit Verfahren aus dem Machine Learning bzw. einem passenden Modell aus Hugging Face umzusetzen.

Ihr könnt euch in die Hintergründe einlesen oder direkt zum Coden überspringen.

  • Einführung: Data Mining ⛏️
  • ML-Based Text Mining 🤖
  • In my feelings mit Hugging Face 🤗
  • Let’s build! Sentimentanalyse mit Python 🐍

  • Einführung: Data Mining ⛏️

    Data Mining umfasst die Extraktion von relevanten Informationen und Erkenntnissen aus umfangreichen Datensammlungen. Ähnlich wird auch der Begriff “Knowledge Discovery in Databases” (KDD) verwendet. Die Hauptaufgabe besteht darin, Verhaltensmuster und Prognosen aus den Daten zu identifizieren, um darauf basierend Trends zu erkennen und angemessen darauf zu reagieren. Dieser analytische Prozess des Data Mining erfolgt mithilfe von computergestützten Methoden, deren Wurzeln in den Bereichen Mathematik, Informatik und insbesondere Statistik liegen. Data Mining kann als Teilprozess innerhalb des umfassenden Datenanalyseprozesses verstanden werden, der folgendermaßen strukturiert ist:

  • Datenbereinigung (Exkludierung von irrelevanten Daten)
  • Datenintegration (Zusammenführen mehrerer Datenquellen)
  • Datenselektion (Auswahl relevanter Daten aus einer Datenbank)
  • Datentransformation (Aufbereitung/Konsolidierung der Daten in eine für das Data Mining passende Form)
  • Data Mining (Prozess gestützt von intelligenten Methoden zum Extrahieren von Daten-/Verhaltensmustern)
  • Pattern Evaluation (Identifikation interessanter Muster und Messwerte)
  • Knowledge Presentation (Präsentieren von mined knowledge durch Visualisierung und andere Repräsenationstechniken)
  • Data Mining als Teilprozess der Knowledge Discovery / Jiawei Han, Data Mining: Concepts and Techniques (2006)

    Die Data Mining Verfahren dienen dazu, den Datenbestand zu beschreiben und zukünftige Entwicklungen vorherzusagen. Hierbei kommen Klassifikations- und Regressionsmethoden aus dem statistischen Bereich zum Einsatz. Zuvor ist es jedoch notwendig, die Zielvariable festzulegen, die Daten aufzubereiten und Modelle zu erstellen. Die gebräuchlichen Methoden ermöglichen die Analyse spezifischer Kriterien wie Ausreißer- und Clusteranalyse, die Verallgemeinerung von Datensätzen, die Klassifizierung von Daten und die Untersuchung von Datenabhängigkeiten.

    Zusätzlich zu den herkömmlichen statistischen Methoden können auch Deep Learning-Algorithmen verwendet werden. Hierbei werden Modelle aus dem Bereich des Machine Learning unter Anwendung von überwachtem (bei gelabelten Daten) oder unüberwachtem (bei nicht gelabelten Daten) Lernen eingesetzt, um die Zielvariablen möglichst präzise vorherzusagen. Eine wesentliche Voraussetzung für das Vorhersagemodell ist ein Trainingsdatensatz mit bereits definierten Zielvariablen, auf den das Modell anschließend trainiert wird.


    ML-Based Text Mining 🤖

    Ein Teilbereich des Data Mining, der auch maßgeblich maschinelles Lernen einbezieht, ist das Text Mining. Hierbei zielt das Text Mining darauf ab, unstrukturierte Daten aus Texten, wie beispielsweise in sozialen Netzwerken veröffentlichte Inhalte, Kundenbewertungen auf Online-Marktplätzen oder lokal gespeicherte Textdateien, in strukturierte Daten umzuwandeln. Für das Text Mining dienen oft Datenquellen, die nicht direkt zugänglich sind, weshalb Daten über APIs oder Web-Scraping beschafft werden. Im darauf folgenden Schritt werden Merkmale (Features) gebildet und die Daten vorverarbeitet. Hierbei erfolgt die Analyse der Texte mithilfe von natürlicher Sprachverarbeitung (Natural Language Processing – NLP) unter Berücksichtigung von Eigenschaften wie Wortfrequenz, Satzlänge und Sprache.

    Maschinelles Lernen für Datenvorverarbeitung

    Die Vorverarbeitung der Daten wird durch Techniken des maschinellen Lernens ermöglicht, zu denen Folgendes gehört:

  • Tokenisierung: Hierbei werden die Texte in kleinere Einheiten wie Wörter oder Satzteile, sogenannte Tokens, aufgespalten. Das erleichtert die spätere Analyse und Verarbeitung.
  • Stoppwortentfernung: Häufige Wörter wie “und”, “oder” oder “aber”, die wenig spezifische Informationen liefern, werden entfernt, um die Datenmenge zu reduzieren und die Analyse effizienter zu gestalten.
  • Wortstamm- oder Lemmatisierung: Die Formen von Wörtern werden auf ihre Grundformen zurückgeführt, um verschiedene Variationen eines Wortes zu einer einzigen Form zu konsolidieren. Zum Beispiel werden “läuft”, “lief” und “gelaufen” auf “laufen” reduziert.
  • Entfernen von Sonderzeichen und Zahlen: Nicht-textuelle Zeichen wie Satzzeichen, Symbole und Zahlen können entfernt werden, um die Texte auf die reinen sprachlichen Elemente zu fokussieren.
  • Niedrige Frequenzfilterung: Seltene Wörter, die in vielen Texten nur selten vorkommen, können entfernt werden, um Rauschen zu reduzieren und die Analyse zu verbessern.
  • Wortvektorenbildung: Durch Techniken wie Word Embeddings können Wörter in numerische Vektoren umgewandelt werden, wodurch maschinelles Lernen und Analyseverfahren angewendet werden können.
  • Named Entity Recognition (NER): Diese Technik identifiziert in Texten genannte Entitäten wie Personen, Orte und Organisationen, was zur Identifizierung wichtiger Informationen beiträgt.
  • Sentimentanalyse: Diese Methode bewertet den emotionalen Ton eines Textes, indem sie versucht, positive, negative oder neutrale Stimmungen zu erkennen.
  • Textklassifikation: Mithilfe von Trainingsdaten werden Algorithmen trainiert, um Texte automatisch in vordefinierte Kategorien oder Klassen einzuteilen.
  • Topic Modeling: Diese Methode extrahiert automatisch Themen aus Texten, indem sie gemeinsame Wörter und Konzepte gruppiert.
  • Insgesamt kann der Text Mining-Prozess als Teil einer breiteren Datenanalyse oder Wissensentdeckung verstanden werden, bei dem die vorverarbeiteten Textdaten als Ausgangspunkt für weitere Schritte dienen.

    The effort of using machines to mimic the human mind has always struck me as rather silly. I would rather use them to mimic something better.

    Edsger Wybe Dijkstra

    In unserem nächsten Abschnitt werden wir auf die Sentimentanalyse eingehen und schrittweise demonstrieren, wie sie mit Hilfe von Modellen auf Hugging Face für Beiträge auf der Plattform X (ehemalig Twitter) durchgeführt werden kann.


    In my feelings mit Hugging Face 🤗

    Das 2016 gegründete Unternehmen Hugging Face mit Sitz in New York City ist eine Data Science und Machine Learning Plattform. Ähnlich wie GitHub ist Hugging Face gleichzeitig ein Open Source Hub für AI-Experten und -Enthusiasten. Der Einsatz von Huggin Face ist es, KI-Modelle durch Open Source Infrastruktur und Repositories für die breite Maße zugänglicher zu machen. Populär ist die Plattform unter anderem für seine hauseigene Open Source Bibliothek Transformers, die auf ML-Frameworks wie PyTorch, TensorFlow und JAX aufbauend verschiedene vortrainierte Modelle aus den Bereichen NLP, Computer Vision, Audio und Multimodale anhand von APIs zur Verfügung stellt.

    Drake Meme by me

    Für die Sentimentanalyse stehen uns über 200 Modelle auf der Plattform zur Verfügung. Wir werden im folgenden eine einfache Sentimentanalyse unter Verwendung von Transformers und Python durchführen. Unsere KI soll am Ende Ton, Gefühl und Stimmung eines Social Media Posts erkennen können.

    Viel Spaß beim Bauen! 🦾


    Let’s build! Sentimentanalyse mit Python 🐍

    Zunächst brauchen wir Daten aus X/Twitter. Da im Anschluss auf die neuen Richtlinien die Twitter API jedoch extrem eingeschränkt wurde (rate limits, kostenspielige read Berechtigung) und es nun auch viele Scraping-Methoden getroffen hat, werden wir bereits vorhandene Daten aus Kaggle verwenden.

    1. Datenbereitstellung: Kaggle

    Wir entscheiden uns für einen Datensatz, der sich für eine Sentimentanalyse eignet. Da wir mit einem Text-Mining Modell in Transformers arbeiten werden, welches NLP verwendet um das Sentiment eines Textes zuordnen zu können, sollten wir uns für einen Datensatz entscheiden, in dem sich Texte für unsere Zielvariable (das Sentiment) befinden.

    Hier kann ein Datensatz aus Kaggle verwendet werden, in dem über 80 Tausend englische Tweets über das Thema “Crypto” in dem Zeitraum vom 28.08.2022 – 29.08.2022 gesammelt wurde: 🐦 🪙 💸 Crypto Tweets | 80k in English | Aug 2022 🐦 🪙 💸

    Wir laden das Archiv herunter und entpacken die crypto-query-tweets.csv in unseren Projektordner.

    2. Zielsetzung und Datenvorverarbeitung: Python + Pandas

    Wir wollen in einer überschaubaren Anzahl an Tweets das jeweilige Sentiment zuordnen. Dazu schauen wir uns den Datensatz aus der CSV Datei genauer an. Uns interessieren dabei besonders Tweets von verifizierten Usern. Mit der Pandas Bibliothekt läss sich der Datensatz in Dataframes laden und nach bestimmten kriterien filtern.

    wir installieren zunächst per pip-install die gewünschte Bibliothek und importieren diese in unsere Codebase.

    pip install pandas

    Anschließends lesen wir die CSV-Datei ein und filtern entsprechend unseren Wünschen den Datensatz und geben diesen als Dataframe aus.

    import pandas as pd
    
    # CSV Datei lesen
    csv_file_path = "crypto-query-tweets.csv"
    df = pd.read_csv(csv_file_path, usecols=['date_time', 'username', 'verified', 'tweet_text'])
    
    # Filter anwenden um nur verifizierte User zu erhalten
    filtered_df = df[df['verified'] == True]
    
    # Printe Dataframe
    print(filtered_df)

    Wir erhalten folgende Ausgabe von 695 Zeilen und 4 Spalten:

           date_time                     username        verified    tweet_text
    19     2022-08-29 11:44:47+00:00     RR2Capital      True  #Ethereum (ETH)\n\nEthereum is currently the s...24     2022-08-29 11:44:45+00:00     RR2Capital      True  #Bitcoin (BTC)\n\nThe world’s first and larges...
    25     2022-08-29 11:44:43+00:00     RR2Capital      True  TOP 10 TRENDING CRYPTO COINS FOR 2023\n \nWe h...
    146    2022-08-29 11:42:39+00:00   ELLEmagazine      True  A Weekend in the Woods With Crypto’s Cool Kids...
    155    2022-08-29 11:42:32+00:00     sofizamolo      True          Shill me your favorite #crypto project👇🏻🤩
    ...                          ...            ...       ...                                                ...
    79383  2022-08-28 12:36:34+00:00  hernanlafalce      True  @VerseOort My proposal is as good as your proj...
    79813  2022-08-28 12:30:15+00:00   NEARProtocol      True  💫NEARCON Speaker Announcement💫\n\nWe're bringi...
    79846  2022-08-28 12:30:00+00:00            lcx      True  🚀@LCX enables project teams to focus on produc...
    79919  2022-08-28 12:28:56+00:00    iSocialFanz      True  Friday.. Heading to Columbus Ohio for a Web 3....
    79995  2022-08-28 12:27:46+00:00  BloombergAsia      True  Bitcoin appeared stuck around $20,000 on Sunda...
    
    [695 rows x 4 columns]

    3. Twitter-roBERTa-base for Sentiment Analysis + TweetEval

    Nun können wir mit Hugging Face Transformers eine vortrainiertes Modell verwenden, um allen Tweets entsprechende Sentiment Scores zuzuweisen. Wir nehmen hierfür das Modell Twitter-roBERTa-base for Sentiment Analysis, welches mit über 50 Millionen Tweets trainiert wurde und auf das TweetEval Benchmark für Tweet-Klassifizierung aufbaut. Weitere Infos unter dieser BibTex entry:

    @inproceedings{barbieri-etal-2020-tweeteval,
        title = "{T}weet{E}val: Unified Benchmark and Comparative Evaluation for Tweet Classification",
        author = "Barbieri, Francesco  and
          Camacho-Collados, Jose  and
          Espinosa Anke, Luis  and
          Neves, Leonardo",
        booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
        month = nov,
        year = "2020",
        address = "Online",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/2020.findings-emnlp.148",
        doi = "10.18653/v1/2020.findings-emnlp.148",
        pages = "1644--1650"
    }

    Wir installieren alle für den weiteren Verlauf benötigten Bibliotheken.

    pip install transformers numpy scipy

    Die Transformers Bibliothekt erlaubt uns den Zugriff auf das benötigte Modell für die Sentimentanalyse. Mit scipy softmax und numpy werden wir die Sentiment Scores ausgeben mit Werten zwischen 0.0 und 1.0, die folgendermaßen für alle 3 Labels ausgegeben werden:

    Labels: 0 -> Negative; 1 -> Neutral; 2 -> Positive

    Importieren der Bibliotheken:

    from transformers import AutoModelForSequenceClassification
    from transformers import AutoTokenizer
    import numpy as np
    from scipy.special import softmax
    import csv
    import urllib.request

    Wir schreiben eine Methode zum vorverarbeiten des Texts. Hier sollen später Usernamen und Links aussortiert werden. Außerdem vergeben wir das gewünschte Modell mit dem gewünschten Task (‘sentiment’) in eine vorgesehene Variable und laden einen AutoTokenizer ein, um später eine einfach Eingabe-Enkodierung zu generieren.

    # Vorverarbeitung des texts 
    def preprocess(text):
        new_text = []
     
     
        for t in text.split(" "):
            t = '@user' if t.startswith('@') and len(t) > 1 else t
            t = 'http' if t.startswith('http') else t
            new_text.append(t)
        return " ".join(new_text)
    
    
    task='sentiment'
    MODEL = f"cardiffnlp/twitter-roberta-base-{task}"
    
    tokenizer = AutoTokenizer.from_pretrained(MODEL)
    

    Als nächstes laden wir das Label Mapping aus TweetEval für das zugeordnete Task ‘sentiment’ herunter. Das Modell für die Sequenzklassifizierung kann nun gespeichert und in der ‘model’ Variable hinterlegt werden.

    # download label mapping
    labels=[]
    mapping_link = f"https://raw.githubusercontent.com/cardiffnlp/tweeteval/main/datasets/{task}/mapping.txt"
    with urllib.request.urlopen(mapping_link) as f:
        html = f.read().decode('utf-8').split("\n")
        csvreader = csv.reader(html, delimiter='\t')
    labels = [row[1] for row in csvreader if len(row) > 1]
    
    # Modell laden
    model = AutoModelForSequenceClassification.from_pretrained(MODEL)
    model.save_pretrained(MODEL)
    

    Im nächsten Schritt schreiben wir zwei Methoden, die dabei helfen sollen zeilenweise Tweet-Texte zu enkodieren und ein Sentiment Score zu vergeben. In einem Array sentiment_results legen wir alle Labels und entsprechende Scores ab.

    # Sentiment Scores für alle Tweets erhalten
    def get_sentiment(text):
        text = preprocess(text)
        encoded_input = tokenizer(text, return_tensors='pt')
        output = model(**encoded_input)
        scores = output.logits[0].detach().numpy()
        scores = softmax(scores)
        return scores
    
    # Sentimentanalyse für jede Zeile im Datensatz anwenden
    def analyze_sentiment(row):
        scores = get_sentiment(row['tweet_text'])
        ranking = np.argsort(scores)
        ranking = ranking[::-1]
        sentiment_results = []
        for i in range(scores.shape[0]):
            l = labels[ranking[i]]
            s = scores[ranking[i]]
            sentiment_results.append((l, np.round(float(s), 4)))
        return sentiment_results

    Zum Schluss wir das Dataframe um unser Ergebnis erweitert. Hierzu erstellen wir eine neue Spalte ‘sentiment’ und fügen mit der apply-Funktion die Ergebnisse aus unserer vorherigen Methode analyze_sentiement hinzu. Am Ende geben wir unser neues Dataframe in der Konsole aus.

    # Ergebnisse in neue Spalte "sentiment" speichern
    filtered_df['sentiment'] = filtered_df.apply(analyze_sentiment, axis=1)
    
    # Ausgabe des neuen DataFrames
    print(filtered_df)

    Wir erhalten ein neues Dataframe mit einer weiteren Spalte in der das Label und die Sentiment-Scores festgehalten werden! 🤗🚀

    Den gesamten Code könnt ihr euch auch auf meinem GitHub Profil ansehen oder klonen.


    Referenzen

    Han, Jiawei (2006). Data Mining: Concepts and Techniques, Simon Fraser University.

    Barbieri, F., Camacho-Collados, J., Espinosa Anke, L., & Neves, L. (2020). Tweet Eval: Unified Benchmark and Comparative Evaluation for Tweet Classification. In Findings of the Association for Computational Linguistics: EMNLP 2020, S. 1644-1650. https://aclanthology.org/2020.findings-emnlp.148.

    Hugging Face Transformers: https://huggingface.co/docs/transformers/index. Zuletzt aktualisiert am 27.08.2023.

    Kaggle Dataset: Leonel do Nascimento, Tiago; “Crypto Tweets | 80k in ENG | Aug 2022 “: https://www.kaggle.com/datasets/tleonel/crypto-tweets-80k-in-eng-aug-2022. (CC0 Public Domain Lizens), zuletzt aktualisiert am 27.08.2023.

    Wartena, Christian & Koraljka Golub (2021). Evaluierung von Verschlagwortung im Kontext des Information Retrievals. In Qualität in der Inhaltserschließung, 70:325–48. Bibliotheks- und Informationspraxis. De Gruyter, 2021. https://doi.org/10.1515/9783110691597.


    Künstliche Intelligenz in der Produktion von Filmen

    Autor*innen: Lukas Vojkovic und Ann-Christin Thoma


    Übersicht

    Intro

    Künstliche Intelligenz (KI) wird normalerweise damit in Verbindung gebracht, Menschen bei Aufgaben zu unterstützen, die durch Automatisierung besser erledigt werden können.
    Mit dem fortschreitenden technischen Wandel ist es der KI heutzutage aber nicht nur möglich, fortschriftliche visuelle Effekte in Filmen zu liefern oder den Videoschnitt zu erleichtern, sondern auch Prognosen hinsichtlich des möglichen Erfolgs eines Filmes zu liefern und ganze Storyboards zu verfassen.
    Die KI entwickelt sich immer mehr zu einer unausweichlichen Kraft, die Filme zukünftig weiter aufarbeiten und stetig verbessern wird. 1

    Die KI „Benjamin“ und ihr Kurzfilm „Sunspring“

    Hinsichtlich der Verwendung von KI in der Filmproduktion sticht besonders der Science-Fiction-Kurzfilm „Sunspring“ ins Auge, welcher 2016 debütierte. Das Interessante an diesem Film ist, dass er auf den ersten Blick wie viele andere Science-Fiction-Filme wirken mag – bis zur Erkenntnis, dass dessen Drehbuch ausschließlich von einer KI geschrieben wurde, welche sich selbst den Namen “Benjamin” zuteilte.
    Es handelt sich hierbei um ein rekurrentes neuronales Netzwerk namens LSTM
    (long short-term memory), welches vorher mit Drehbüchern verschiedenster Science-Fiction-Filme sowie -Serien gespeist wurde. Trotz oder gerade wegen dieses daraus resultierenden, sehr kuriosen Drehbuchs wurde der Kurzfilm mit drei Schauspielenden gedreht und erhielt dadurch große Aufmerksamkeit. 2

    Benjamin kreierte im selben Kurzfilm auch die Musik. Das neuronale Netzwerk wurde hier, ähnlich wie bei der vorangegangenen Vorgehensweise, mit vielen verschiedenen Einflüssen trainiert. In diesem Fall mit über 30.000 verschiedensten Popsongs. 3

    Visuelle Effekte und Unterstützung in der Postproduktion

    Als weitere Art der Unterstützung wird KI inzwischen im Zuge von weiteren bestehenden Produktionsabläufen sogar in Schnittprogramme implementiert. Dort kann sie unter anderem durch nur einen Klick Audio- oder auch Farbanpassungen vornehmen. 4
    Doch nicht nur dort kommt künstliche Intelligenz in der Filmwelt der Postproduktion zum Einsatz. Im Bereich der visuellen Effekte kommt sie gerade beim Rotoskopieren zum Tragen, wo bestimmte Teile des Filmmaterials vom Hintergrund separiert werden. Rotoskopieren ist eine Technik, um animierte Filme und komplexe Bewegungsabläufe in Animationsfilmen realistischer wirken zu lassen. Als Beispiel dient hier das Unternehmen Array. Deren neuronales Netzwerk wurde mit Material gefüttert, welches von Visual Effect Artists arrangiert wurde. Nach ausreichendem Training kann das neuronale Netzwerk sogar ohne Unterstützung durch einen Greenscreen arbeiten. 5

    Auch die Computersoftware “Massive” sticht im Zuge der visuellen Effekte ins Auge. Ursprünglich für die „Herr der Ringe“-Trilogie entwickelt war diese mit Hilfe von künstlicher Intelligenz in der Lage, computergenerierte Armeen zu erstellen sowie realistische Schlachten in enormen Ausmaßen zu simulieren. “Massiv” erschuf auch andere ikonische Kampfszenen der letzten Jahre, darunter Szenen aus „Game of Thrones“ sowie „Marvel’s Avengers: Endgame“. 6

    Podcast “The Daily Charge”: How Lord of the Rings changed filmmaking

    Den Erfolg eines Filmes vorhersagen

    Ein ganz anderer Bereich, welcher durch KI revolutioniert wird, ist die prognostische Ebene. Denn sie ist inzwischen auch dazu in der Lage, Prognosen über den möglichen Erfolg eines Filmes zu treffen. Zum Beispiel soll die vom Datenwissenschaftler Yves Bergquist entwickelte KI „Corto“ dank künstlicher neuronaler Netze in der Lage sein, den Erfolg eines Films vorherzusagen. Das funktioniert nicht nur durch Analyse verschiedenster Elemente aus dem Film direkt, sondern auch über Daten aus sozialen Medien, wo die KI durch verschiedene Äußerungen die Stimmung sowie den kognitiven Zustand der Nutzenden ermittelt, die verschiedene Medieninhalte zugeführt bekommen haben. 7

    Umwandlung alter Filmaufnahmen

    Aber Künstliche Intelligenz kann auch für ganz andere Zwecke genutzt werden. So konvertierte ein YouTuber namens Denis Shiryaev eine über 100 Jahre alte Filmaufnahme der französischen Lumière-Brüder aus dem Jahr 1895 durch die Unterstützung einer KI auf das Videoformat 4k sowie die Bildrate auf 60 Bilder pro Sekunde. Somit verfrachtete er den Film durch Unterstützung einer KI technisch ins aktuelle Zeitalter. Hier bestand zwar durchaus noch Verbesserungspotential, allerdings geschah der Vorgang mit wenig Aufwand und wies erneut eindrucksvoll auf, zu was künstliche Intelligenz inzwischen in der Lage ist. 8

    Quelle: Vimeo

    Ersetzt die KI den Menschen?

    Es ist wirklich erstaunlich zu sehen, was für einen großen Einfluss KI in der Welt der Filmproduktion hat und wie viele Bereiche dieser durch sie bereits vereinfacht werden können. Der damit verbundene technische Fortschritt eröffnete die letzten Jahre viele neue innovative Anwendungen in der gesamten Branche und ermöglicht Unternehmen nicht nur, die Effizienz ihrer Arbeitsabläufe zu steigern, sondern auch, ihre Arbeitskosten zu senken und mehr Umsatz zu generieren. 9

    Trotz all dieser Vorteile sollte gerade ein Aspekt im Kopf verbleiben:

    „KI ist weder nur ein Werkzeug noch ein vollständiger Ersatz für einen Schriftsteller. Man braucht eine Symbiose, um gemeinsam mit der Maschine Kunst zu kreieren.“ 10

    Vladimir Alexeev

    Quellen

    1 Datta, Angana; Goswami, Ruchi (2020): The Film Industry Leaps into Artificial Intelligence: Scope and Challenges by the Filmmakers. Zuletzt aktualisiert am 02.10.2020. Online unter: https://link.springer.com/chapter/10.1007/978-981-15-6014-9_80 [Abruf am 22.11.2022]
    2 Alexeev, Vladimir (2022): KI als Filmemacher: Wie man Kurzfilme nur mit Machine-Learning-Modellen macht. Zuletzt aktualisiert am 15.07.2022. Online unter https://1e9.community/t/ki-als-filmemacher-wie-man-kurzfilme-nur-mit-machine-learning-modellen-macht/17523 [Abruf am 27.11.2022]
    3 Newitz, Annalee (2016): Movie written by algorithm turns out to be hilarious and intense. Zuletzt aktualisiert am 30.05.2021. Online unter https://arstechnica.com/gaming/2021/05/an-ai-wrote-this-movie-and-its-strangely-moving/ [Abruf am 23.11.2022]
    4 Antunes, Jose (2018). Artificial Intelligence at NAB 2018: real world Applications. Zuletzt aktualisiert am 09.04.2018. Online unter https://www.provideocoalition.com/artificial-intelligence-at-nab-2018-real-world-applications/ [Abruf am 27.11.2022]
    5 Metz, Cade (2018): Lights, Camera, Artificial Action: Start-Up Is Taking A.I. tot he Movies. The New York Times. Zuletzt aktualisiert am 26.03.2018. Online unter https://www.nytimes.com/2018/03/26/technology/artificial-intelligence-hollywood.html [Abruf am 22.11.2022]
    6 Carson, Erin (2022): How ‘Lord of the Rings’ Used AI to Change Big-Screen Battles Forever. Zuletzt aktualisiert am 04.09.2022. Online unter https://www.cnet.com/culture/entertainment/features/how-lord-of-the-rings-used-ai-to-change-big-screen-battles-forever/ [Abruf am 30.11.2022]
    7 Schneider, Vanessa (2019): Künstliche Intelligenz & Kultur: Warum Hollywood auf Algorithmen setzt. Zuletzt aktualisiert am 30.09.2019. Online unter https://www.br.de/kuenstliche-intelligenz/so-setzt-hollywood-auf-kuenstliche-intelligenz-machine-learning-100.html [Abruf am 24.11.2022]
    8 Westphal, André (2020): Über 120 Jahre alter Film mit KI-Unterstützung zu 4K und 60 fps umgewandelt. Zuletzt aktualisiert am 07.02.2020. Online unter https://stadt-bremerhaven.de/ueber-120-jahre-alter-film-mit-ki-unterstuetzung-zu-4k-und-60-fps-umgewandelt/ [Abruf am 22.11.2022]
    9 4 How Artificial Intelligence Is Used in the Film Industry. Online unter https://smartclick.ai/articles/how-artificial-intelligence-is-used-in-the-film-industry/ [Abruf am 28.11.2022]
    10 Alexeev, Vladimir (2022): KI als Filmemacher: Wie man Kurzfilme nur mit Machine-Learning-Modellen macht. Zuletzt aktualisiert am 15.07.2022. Online unter https://1e9.community/t/ki-als-filmemacher-wie-man-kurzfilme-nur-mit-machine-learning-modellen-macht/17523 [Abruf am 28.11.2022]

    KI und die Sicherheit von Smart-Home-Systemen

    Autorin: Eliza SchnetzerKI


    “Smart Home” @Smart Home Haus Technik – Kostenloses Foto auf Pixabay

    KI

    Inhaltsverzeichniss

    Wie auch in vielen anderen Bereichen der Technik macht auch das Internet of Things (IoT) große Entwicklungsschritte. Dazu gehören auch sogenannte Smart-Home-Systeme, die eine immer weitere Verbreitung in deutschen Haushalten finden. Aus den vielseitigen Anwendungsbereichen ergeben sich neben komfortablen Alltagshilfen auch einige Fragen zur Sicherheit, gerade hinsichtlich Datenschutzes und Künstliche Intelligenz (KI) . In diesem Artikel sollen einige der Sicherheitslücken aufgedeckt und Lösungsansätze erläutert werden.

    KI, was ist das eigentlich?

    Immer häufiger hört man heutzutage diesen Begriff, aber was zeichnet die KI eigentlich aus? Normalerweise verarbeitet eine Maschine stumpf Daten. Eine KI ist allerdings in der Lage bestimmte Muster zu erlernen, um Entscheidungen auf der Basis von Informationen zu treffen. Dieses Vorgehen nennt man „Machine Learning“. Damit ist eine menschenähnliche kognitive Leistung möglich. Übertragen wir das auf unsere Smart-Home-Systeme bedeutet, dass, die Geräte erlernen unsere Verhaltensmuster und reagieren entsprechend darauf. Der aktuelle technische Stand ermöglicht das noch nicht umfangreich, zielt aber darauf ab. Bislang entscheiden sind das Erkennen und Befolgen von Wenn-Dann-Regeln.

    KI im eigenen Zuhause:

    @Smartest Home 2020

     

    Smart-Home-Anwendungen bieten einige Vorteile

    Smart-Home-Anwendungen haben einige Vorteile zu bieten, andernfalls würden sie sich nicht immer wachsender Beliebtheit erfreuen. Dazu gehören unter anderem:

    • Erhöhter Komfort: viele Aufgaben müssen nicht mehr selbst erledigt werden, sondern werden bequem von den Smart-Home Anwendungen übernommen. Beispiele hierfür sind z.B. das Saugen von Böden, Rasen mähen oder das automatische Angehen der Kaffeemaschine am Morgen
    • Vereinfachte Bedienung: durch die Steuerung per App kann man alle Anwendungen aus einer Stelle heraus bedienen, noch einfacher wird das Ganze mit Spracherkennung/Sprachbefehlen
    • mehr Sicherheit: durch das vernetzte System kann der Besitzer durch Push-Nachrichten auf sein Handy informiert werden, wenn z.B. ein Alarm ausgelöst wird. Gleichzeitig kann ein ausgelöster Alarm dazu führen, dass sich Türen und Fenster verriegeln
    • Senkung des Energieverbrauch: Geräte sind so programmiert, dass sie möglichst wenig Strom verbrauchen. So kann man z.B. mit Hilfe von einem Timer einstellen, wann das Licht ausgehen soll

    Sicherheitslücken in den Systemen

    Die komplexe technische Vernetzung bringt auch einige Risiken mit sich, wie sich in den Bereichen des Datenschutzes und der IT-Sicherheit zeigt. Die Smart-Home-Anwendungen sind durchgehend mit dem Internet verbunden. Das macht sie sehr anfällig für den unautorisierten Zugriff durch Hackerangriffe, die sich so den Zugriff zu sämtlichen Geräten in einem Haushalt verschaffen können. Um das zu vermeiden ist das regelmäßige Durchführen von Updates essenziell. Viele Risiken entstehen durch den Anwender selbst. So können fehlende technische Vorkenntnisse und die daraus resultierenden Bedienungsfehler zu schwerwiegenden Sicherheitslücken führen. Daher ist es wichtig, sich mit der Technik der Geräte auseinander zu setzen und ggfs. nochmal die richtige Funktionsweise zu überprüfen. Es stellt sich zudem die Frage, inwiefern die Daten gespeichert und verarbeitet werden. Das ist oft nicht transparent für den Benutzer, und da es sich um sensible personenbezogene Daten wie Kameraaufzeichnungen handelt, ist dieser Punkt nicht zu missachten.

    Personenbedingte Fehler

    Neben den technischen Fehlerquellen können natürlich auch von Menschenhand erzeugte Fehler Sicherheislücken hervorrufen. Zum einen ist es wichtig, dass sich Anwender vor der Anschaffung intensiv mit der Technik befassen. Oftmals scheitert es an fehlender Planung und das dem Informationsmangel über die Anwendung. Das kann wiederrum zu Anwendungsfehlern führen, die schwerwiegende Sicherheitsmängel bilden können. Wir tendieren oft dazu, zu günstigeren Alternativen zu greifen, was in diesem Fall aber eine fehlende Sicherheitszertifizierung bedeutet und ebenfalls vermehrt Sicherheitslücken aufweißt. Eine noch ausführlichere Hilfe bietet der folgende Artikel: Diese 5 Fehler machen fast alle Smart Home Einsteiger (homeandsmart.de)

    Einfacher Schutz im Alltag

    Wie kann ich mich also vor den vielfältigen Angriffsmöglichkeiten schützen? Es sind eigentlich ein paar ganz simple Tipps, wie man den Sicherheitsstandard der Smart-Home-Anwendung hochhält:

    • keinen direkten Internetzugriff: ist ein System direkt mit dem Internet verbunden, ist es leichter für z.B. Hacker dieses zu finden und zu hacken. Am sichersten ist es, denn Zugriff über ein VPN zu nutzen
    • System regelmäßig aktualisieren: für jedes System gibt es reglemäßig Updates, diese sollte man zeitnah durchführen um Bugs und Fehler in der Software zu beheben.
    • sichere Passwörter: ein simpler, aber oft missachteter Tipp ist es, ein sicheres Passwort zu vergeben, dass eine Kompination aus Groß- und Kleinschrift, Sonderzeichen und Zahlen beinhaltet. Dieses sollte in regelmäßigen Abständen geändert werden.
    • unnötige Dienste ausschalten: schalten Sie nicht benötigte Anwendungen aus, denn was nicht läuft, kann nicht angegriffen werden

    Fazit: trotz Sicherheitslücken wachsender Trend mit Luft nach oben

    Was lässt sich nun abschließend festhalten? Wenn man einige grundlegende Sicherheitsvorkehrungen beachtet und sich selbst mit den technischen Anwendungen befasst bieten Smart-Home-Anwendungen eine gute Möglichkeit sich den Alltag einfacher zu gestalten. Smart-Home-Anwendungen stehen noch relativ am Anfang ihrer technischen Möglichkeiten und sind auch noch lange kein fester Bestandteil in einem durchschnittlichen Haushalt. Auch die Zukunftserwartungen sind noch nicht erfüllt worden.

    «Wir glaubten damals, dass es eine allmächtige, zentrale Intelligenz geben werde, die je nach Stimmung eine automatische Lichtauswahl trifft, ohne unser Zutun Essen für den Kühlschrank nachbestellt und so weiter. Diese Vision ist nicht eingetreten, zumal die Installation und Konfiguration einer einzigen, zentralen Lösung viel zu komplex wäre. Stattdessen gibt es heute viele partielle Lösungen, beispielsweise für die Beleuchtung, die Soundanlagen oder die Sicherheit.»

    Zitat von Dr. Andrew Paice, Leiter vom iHomeLab

    weiterführende Informationen gibt es hier:

    Quellen- und Literaturverzeichnis

    Beitragsbild: Bild von Gerd Altmann auf Pixabay

    Wie beeinflusst digitale Datenanalyse die Transparenz von Daten?

    Autorinnen: Luisa Rabbe und Emelie Rademacher


    Die zunehmend komplexe Gestaltung digitaler Angebote und Dienste in den letzten Jahren hat starke Konzentrationstendenzen in der Datenökonomie verursacht. Einige Großunternehmen sammeln beträchtliche Datenmengen, kombinieren diese und werten die neuen Daten aus.[1] Dadurch können anonymisierte Daten häufig re-identifiziert werden.[2] Was hat das nun mit digitaler Datenanalyse zu tun?

    In diesem Fachbeitrag wird auf die Nutzung digitaler Daten eingegangen. Es wird erklärt was unter digitaler Datenanalyse und Datentransparenz verstanden wird und wie diese Einfluss auf die Arbeitswelt haben. Weiterhin wird betrachtet, wie der Staat Einfluss auf die Transparenz von Daten nimmt.

    Inhaltsverzeichnis

    Digitale Daten werden über alle elektronischen Endgeräte verknüpft

    Die Nutzung digitaler Daten

    Privatpersonen, Unternehmen und der Staat. Jeder Akteur der Marktwirtschaft verwendet täglich digitale Daten. Aber was sind digitale Daten? Bei digitalen Daten handelt es sich um digitale Dokumente und Medieneinheiten, die diskret oder indiskret Informationen darstellen. Diese Informationen können sowohl personenbezogene als auch nicht personenbezogene Daten sein. Wie kann nun mit diesen Daten umgegangen werden? Die Datennutzung ist immer eng verbunden mit Fragen zum verantwortungsvollen Umgang mit Daten und den sich dauerhaft weiterentwickelnden Technologien. Besonders wichtig sind dabei die Einhaltung von Gesetzen, wie die DSGVO, und die Orientierung an ethischen Werten. „[N]icht alles, was technisch möglich ist, [ist] auch ethisch vertretbar“[3], denn es gibt unter anderem Möglichkeiten über die Verfahren Profiling und Scoring Aussagen über das Verhalten sowie die Präferenzen einzelner Personen machen zu können und diese zu beeinflussen.[4]

    Digitale Datenanalyse und Datentransparenz

    Digitale Datenanalysen helfen, komplexe Sachverhalte schnell und transparent darzustellen. Dies geschieht durch das Erkennen von Zusammenhängen, Abhängigkeiten und Ungereimtheiten in Daten. Zur Datenanalyse wird vermehrt auf maschinelles Lernen anstatt auf Menschen zurückgegriffen, da bei der Analyse großer Datenmengen in kürzerer Zeit bessere Ergebnisse erzielt werden können.[5]

    Transparenz setzt voraus, dass Daten fehlerfrei, vollständig sowie zeitgerecht veröffentlicht und zugänglich sind. Zugleich dient sie als Voraussetzung für die Überwachung der Datennutzung. Dies wird möglich durch die Kontrolle der Datenverwendung durch alle Personen, die Zugang zu den jeweiligen Daten haben und die Fähigkeiten zur differenzierten Datenanalyse besitzen.[6]

    Einfluss der digitalen Datenanalyse auf die Arbeitswelt

    Digitale Datenanalyse und Datentransparenz haben einen bedeutenden Einfluss auf die Arbeitswelt. Durch die Verfügbarkeit von genauen und umfassenderen Daten können Unternehmen datengetriebene Entscheidungen treffen. Das bedeutet, dass sie Entscheidungen auf der Grundlage von Daten und nicht nur auf Intuition oder Vermutungen treffen. Dies führt zu besseren Entscheidungen, die auf den tatsächlichen Bedürfnissen und Trends des Marktes basieren.[7]

    Darüber hinaus können Unternehmen durch die Verwendung von Datentransparenztools ihre Geschäftsprozesse besser überwachen und regulieren. Dies bedeutet, dass sie in Echtzeit Einblicke in ihre Prozesse erhalten und mögliche Probleme schnell erkennen und beheben können. Somit können die Effizienz gesteigert und Kosten eingespart werden. Außerdem sorgt dies für eine bessere Kontrolle und Überwachung von Geschäftsprozessen. Zusätzlich ermöglicht digitale Datenanalyse und die Nutzung von Datentransparenztools Unternehmen dazu, große Mengen an Daten schneller und effizienter zu analysieren. Dies führt zu einer besseren Entscheidungsfindung und höheren Effizienz.

    Insgesamt hat die Verwendung von digitaler Datenanalyse und Datentransparenz einen signifikanten Einfluss auf die Arbeitswelt, indem sie Effizienz, datengetriebene Entscheidungen und Überwachung von Geschäftsprozessen verbessern.[8]

    Die Rolle des Staates in der digitalen Datenanalyse

    Der Staat spielt eine wichtige Rolle bei der Steuerung der Verwendung von Datenanalyse und Datentransparenz. Durch Gesetze und Regulierungen, wie die Datenschutzgrundverordnung (DSGVO) in Europa, wird sichergestellt, dass persönliche Daten sicher und geschützt sind und das Unternehmen verantwortungsvoll mit diesen Daten umgehen.[9]

    Zudem legt der Staat Richtlinien fest, die Unternehmen verpflichten, bestimmte Standards bei der Datensammlung, -verarbeitung und -nutzung einzuhalten. Dies garantiert, dass Daten genau und verlässlich sind und die Datentransparenz ein hohes Niveau hat. Der Staat ist auch verantwortlich für die Überwachung der Einhaltung dieser Gesetze und Regelungen durch Unternehmen. Dies kann durch Regulierungsbehörden oder durch Strafen und Bußgelder bei Verstößen geschehen.[10]

    Darüber hinaus sind staatliche Stellen selbst oft Nutzer von Datenanalyse, beispielsweise für staatliche Überwachungs- und Überprüfungszwecke oder für die Erstellung von Statistiken.[11] Hierbei muss jedoch sichergestellt werden, dass dies im Rahmen der Gesetze und Regulierungen geschieht und die Datenrechte der Bürger geschützt bleiben. Zudem kann der Staat Regulierungen erlassen, die den Zugang zu bestimmten Daten einschränken, um die Privatsphäre und den Schutz sensibler Daten zu garantieren. Dies garantiert, dass Daten nicht missbraucht werden und das die Transparenz der Daten aufrechterhalten wird. Weiterhin können Unternehmen vom Staat verpflichtet werden, Regeln für den Umgang mit Daten und den Schutz persönlicher Informationen einzuhalten.[12]

    Beispielsweise kann der Staat Gesetze erlassen, die Unternehmen verpflichten, über die Daten, die sie sammeln, transparent zu informieren. Dies kann die Verwendung von Daten, die Art und Weise, wie sie gesammelt werden und wer Zugang dazu hat, umfassen.[13] Außerdem muss der Staat auf die Entwicklungen im Bereich der digitalen Datenanalyse reagieren und gegebenenfalls Gesetze und Regulierungen anpassen, um sicherzustellen, dass sie weiterhin gültig und wirksam bleiben.[14]

    Fazit

    Zusammenfassend ist zu erkennen, dass sowohl digitale Datenanalyse als auch Datentransparenz für sich genommen bedeutend für jeden Akteur der Marktwirtschaft sind. Besonders deutlich wird allerdings auch, dass die Datenanalyse einen sichtbaren Einfluss auf die Transparenz von Daten nimmt. Nur wenn Daten durch Analyseverfahren verstanden werden, können sie auch verwendet werden. Sie sind dann transparent. Dabei darf die Notwendigkeit von Gesetzen und Regulierungen nicht vernachlässigt werden, um die Rechte des Einzelnen zu schützen.


    Begriffsdefinitionen

    Nicht personenbezogene Daten

    Als nicht personenbezogene Daten werden alle Daten bezeichnet, die keine personenbezogenen Daten aufweisen oder stark genug anonymisiert worden sind, dass die Anonymisierung nicht rückgängig gemacht werden kann.[15]

    Personenbezogene Daten

    Personenbezogenen Daten bezeichnen alle Daten und Informationen, die auf eine lebende identifizierte oder identifizierbare Person verweisen. Darüber hinaus werden auch pseudonymisierte Daten, anonymisierte Daten, die re-identifiziert werden können, als personenbezogene Daten bezeichnet.[16]

    Profiling

    Bei dem Verfahren Profiling findet das Sammeln und Verknüpfen von personenbezogenen Daten zu persönlichen Profilen von einzelnen Menschen statt. Diese Profile werden dann zur Auswertung, Bewertung, Analyse und Vorhersage spezifischer Merkmale von Personen verwendet.[17]

    Scoring

    Das statistisch-mathematische Verfahren Scoring ordnet dem Profil eines Menschen oder Unternehmens einen Wert zu. Dieser Wert zeigt die Intensität der Ausprägung verschiedener Merkmale und wird zur Kategorisierung und Klassifizierung verwendet.[18]


    [1] Vgl. Die Bundesregierung (2021), S. 6
    [2] Vgl. Günter (2020), S. 62
    [3] Die Bundesregierung (2021), S. 7
    [4] Vgl. Ebd., S. 7
    [5] Vgl. Lucke; Gollasch (2022), S. 96
    [6] Vgl. Günter (2020), S. 201
    [7] Vgl. Kämpf, Vogl, Boes (2022)
    [8] Vgl. Küng, Keller, Hofer (2022)
    [9] Vgl. Wewer (2022)
    [10] Vgl. Kubicek (2020)
    [11] Vgl. Fulko (2021)
    [12] Vgl. Fischer, Kraus (2020)
    [13] Vgl. Kubicek (2020)
    [14] Vgl. Fischer, Kraus (2020)
    [15] Vgl. Europäische Kommission (2014)
    [16] Vgl. Ebd.
    [17] Vgl. Die Bundesregierung (2021), S. 116
    [18] Vgl. Ebd., S. 116


    Über die Autorinnen

    Luisa Rabbe ist im dritten Semester des Studienganges Informationsmanagement immatrikuliert. Das Studium absolviert diese an der Fakultät III in der Abteilung Information und Kommunikation an der Hochschule Hannover. Die Autorin ist 24 Jahre alt und wohnhaft in Hannover.

    Emelie Rademacher ist im dritten Semester des Studienganges Informationsmanagement immatrkuliert. Das Studium absolviert diese an der Fakultät III in der Abteilung Information und Kommunikation an der Hochschule Hannover. Gleichzeitig arbeitet sie als Minijobberin bei der Edeka Cramer GmbH im Bereich Backwaren Bedienung. Die Autorin ist 20 Jahre alt und wohnhaft in Hannover.


     

    Quellenverzeichnis

    Die Bundesregierung (2021): Datenstrategie der Bundesregierung. Eine Innovationsstrategie für gesellschaftlichen Fortschritt und nachhaltigen Wachstum. Online unter https://www.bundesregierung.de/breg-de/suche/datenstrategie-der-bundesregierung-1845632 [Abruf am 28.01.2023]

    Europäische Kommission (2014): Was sind personenbezogene Daten? Online unter https://commission.europa.eu/law/law-topic/data-protection/reform/what-personal-data_de [Abruf am 29.01.2023]

    Fischer, Caroline; Kraus, Sascha (2020): Digitale Transparenz. In: Klenk, Tanja; Nullmeier, Frank; Wewer, Göttrik (Hg.): Handbuch Digitalisierung in Staat und Verwaltung. Wiesbaden: Springer VS, S.159-170

    Fulko, Lenz (2021): Der digitale Staat – Transparenz als Digitalisierungsmotor. Argumente zu Marktwirtschaft und Politik, No. 155. Berlin: Stiftung Marktwirtschaft

    Kämpf, Tobias; Vogl, Elisabeth; Boes, Andreas(2022): Inverse Transparenz. Ein soziologischer Perspektivenwechsel für einen nachhaltigen Umgang mit Transparenz in der digitalen Arbeitswelt. In: Boes, Andreas; Hess, Thomas; Pretschner, Alexander; Kämpf, Tobias; Vogl, Elisabeth (Hg.): Daten-Innovation-Privatheit. Mit Inverser Transparenz das Gestaltungsdilemma der digitalen Arbeitswelt lösen. München: ISF München, S.24-33

    Kubicek, Herbert (2020): Informationsfreiheits- und Transparenzgesetze. In: Klenk, Tanja; Nullmeier, Frank; Wewer, Göttrik (Hg.): Handbuch Digitalisierung in Staat und Verwaltung. Wiesbaden: Springer VS, S.171-186

    Küng, Marco; Keller, Daniel F.; Hofer, Nicolas(2022): Transport – Im Wandel der Corona-Kriese. In: Luban, Katharina; Hänggi, Roman (Hg.): Erfolgreiche Unternehmensführung durch Resilienzmanagement. Branchenübergreifende Praxisstudie am Beispiel der Corona-Kriese. Berlin: Springer Vieweg, S. 181-196

    Lucke, Jörn von; Gollasch, Katja (2022): Offene Daten und offene Verwaltungsdaten –  Öffnung von Datenbeständen. In: Hünemohr, Holger; Lucke, Jorn von; Stember, Jürgen; Wimmer, Maria A. (Hg.): Open Government. Offenes Regierungs- und Verwaltungshandeln – Leitbilder, Ziele und Methoden. Wiesbaden: Springer Gabler, S. 49-73

    Müller, Günter (2020): Protektion 4.0: Das Digitalisierungsdilemma. Die blaue Stunde der Informatik. Berlin: Springer Vieweg

    Wewer, Göttik (2020): Datenschutz. In: Klenk, Tanja; Nullmeier, Frank; Wewer, Göttrik (Hg.): Handbuch Digitalisierung in Staat und Verwaltung. Wiesbaden: Springer VS, S.187-198

    Alle Bilder unterliegen der Pixabay-Lizenz

    Ist Python die Programmiersprache der Zukunft?

    Autor*innen: Ömer Topcu und Anela Iljijazi

    Python ist eine Programmiersprache, deren wichtigstes Merkmal die Einfachheit ist. Sie wird von einer aktiven Community auf der ganzen Welt entwickelt. Programmiersprachen sind für sich genommen vielfältig einsetzbar und werden gerade im Bereich der künstlichen Intelligenz häufig eingesetzt. Python hat Zukunft und hat sich dieses Jahr erneut vor Java auf Platz 2 der meistgenutzten Sprachen festgesetzt.

    Python ist eine weit verbreitete Programmiersprache, welche von Guido van Rossum entwickelt und 1991 veröffentlicht wurde. Sie wird für Webentwicklung, Softwareentwicklung, Mathematik und Systemskripting verwendet und wurde mit dem Ziel einer guten Lesbarkeit von Programmen entwickelt . Ursprünglich wurde sie als Unterrichtssprache in der höheren Bildung und Ausbildung verwendet. Zudem ist sie plattformunabhängig und kann auf Mac, Windows und anderen Betriebssystemen ausgeführt werden.

    Was kann man mit Python machen?

    Python kann verwendet werden, um Webanwendungen auf dem Server zu erstellen. Darüber hinaus kann Python mit Software verwendet werden, um Workflows zu erstellen. Python kann Dateien lesen und ändern und sich mit Datenbanksystemen verbinden. Es wird häufig verwendet, um große Datenmengen zu verarbeiten und komplexe mathematische Berechnungen durchzuführen.

    Warum Python verwenden?

    Python ist plattformübergreifend und das bedeutet, dass es auf verschiedenen Plattformen, wie Windows, Mac usw. ausgeführt werden kann. Es hat eine einfache Grammatik, welche der englischen ähnelt. Seine Syntax ermöglicht es Entwicklern, Programme in weniger Zeilen zu schreiben. Python bietet auch Rapid Prototyping an. Python läuft also auf einem Interpretersystem, was bedeutet, dass Code ausgeführt werden kann, sobald er geschrieben ist. Diese Programmiersprache ist sehr flexibel und kann prozedural, objektorientiert oder funktional angegangen werden.

    Historik:

    Die Programmiersprache Python wurde Anfang der 1990er Jahre vom Niederländer Guido van Rossum am Centrum voor Wiskunde en Informatica (CWI) in Amsterdam entwickelt. Guido van Rossum lernte Programmieren während seines Mathematikstudiums an der Universität Amsterdam, denn er arbeitete dort als Wissenschaftler und entwickelte später eine neue Programmiersprache, um Basic zu ersetzen. Dies ist notwendig, da Wissenschaftler in der Lage sein müssen, sich selbst zu programmieren. Python begann als Skriptsprache für das verteilte Betriebssystem Amoeba. Python wurde als Nachfolger der ABC-Lehrsprache entwickelt und sollte auf dem verteilten Betriebssystem Amoeba laufen. Guido van Rossum war auch an der Entwicklung der ABC-Sprache beteiligt und somit fließen seine Erfahrungen mit ABC also auch in Python ein. Er bezeichnet sich selbst als Nerd und Computerfreak. Van Rossum, der 2019 in den Ruhestand ging, aber 2021 zu seinem derzeitigen Arbeitgeber Microsoft zurückkehrte, sagte:

    Ich habe mich entschieden, zu meinen Wurzeln zurückzukehren.” (Vgl. Guido vaan Rossum)

    Abbildung 3, Python Entwickler, Guido van Rossum

    Vorteile von Python:

    • Python ist kostenlos und kann für viele Betriebssysteme heruntergeladen werden
    • Python ist sehr schnell und einfach zu erlernen
    • Python ist eine sehr vielfältige Programmiersprache 
    • wird ständig weiterentwickelt und aktualisiert
    • Der Python-Code gilt als besonders gut lesbar, was mit dem vorgegebenen strukturierten Programmierstil zusammenhängt 
    • Sie wird von viele große Firmen wie Google, Dropbox, Mozilla genutzt
    • Große Community 
    • Es kommt mit weniger Code als andere Programmiersprachen zu gleichen Ergebnissen

    Nachteile von Python:

    • Python ist im Vergleich  zu anderen Programmiersprachen langsam 
    • Python wird zurzeit in 2 Versionen eingesetzt (Python2 und Python3)
    • Mit Python lassen sich auch Spiele programmieren

    Anwendungsbereiche:

    Python wird in vielen Bereichen in unserem Leben angewendet. Die bekanntesten Bereiche sind Webentwicklung, Spielentwicklung, Data Science und Machine Learning. 

    1. Webentwicklung

    Python unterstützt plattformübergreifende Betriebssysteme, was das Erstellen von Anwendungen erleichtert. Weltbekannte Anwendungen wie Drop oder YouTube verwenden Python, um gut zu funktionieren. Python wird für die Webentwicklung verwendet, dazu wird es vereinfacht und schnell, Webanwendungen zu erstellen. Aber wie ist das möglich? Pythons Framework zum Erstellen von Anwendungen macht dies möglich. Es gibt ein System zum Erstellen dieser Frameworks und eine Reihe von Bibliotheken, die verwendet werden können, um Protokolle wie HTTPS, FTP, SSL zu integrieren, um beispielsweise E-Mails zu verarbeiten. Die beliebtesten Frameworks sind Pyramid und Flask. 

    2. Spielentwicklung

    Python wird für interaktive Spiele verwendet. Es gibt Bibliotheken wie PySoy, eine 3D-Game-Engine, die Python 3 unterstützt, oder PyGame, eine Bibliothek, welche die Funktionalität bereitstellt. Populäre Spiele wie Online, Vega Strike, Civilization-IV wurden mit Python erstellt.

    3. Data Science

    Daten sind Geld, denn sie können Ihre Gewinne steigern, wenn Sie wissen, wie Sie relevante Informationen extrahieren, die Ihnen helfen, Ihr Risiko besser zu kalkulieren. Sie können Daten analysieren, verschiedene Operationen durchführen und notwendige Informationen extrahieren. Pandas oder NumPy (Bibliotheken) helfen dir dabei.

    Mit Datenbanken wie Seaborn und Matplotlib können Sie Daten visualisieren.

    4. Machine Learning

    Wir entwickeln Algorithmen, die Computer selbst lernen lassen. Wir sind diejenigen, die sich darum kümmern. Python unterstützt diese Branche durch viele vorhandene Bibliotheken wie NumPy und Pandas.

    Lernen Sie Algorithmen, verwenden Sie Bibliotheken und Sie haben eine Lösung für KI-Probleme. Ganz einfach. Wenn Sie jedoch den harten Weg gehen möchten, können Sie den Code selbst entwerfen, wenn er eine bessere Lösung bietet.

    Was sind Funktionen in Python?

    Eine Funktion ist ein erstellter Programmcode, der aus dem “top-down”-Ablauf eines Programms entnommen wird und ausschließlich aufgerufen werden muss oder kann, denn dadurch können wir diese Funktionen bei Bedarf öfter aufrufen und so sauberen Code mit weniger Fehlerquellen schreiben.

    Also vergeben wir unserer Funktion einen Namen, den wir an jeder Stelle in unserem Python-Programm aufrufen können.

    Um es am besten zu verstehen schauen sie sich das Video unten an: 

    Link zum Video: https://www.youtube.com/watch?v=mgA-Ytr32Ys

    Jetzt habe ich dich genug mit Informationen bombardiert. Die einzige Frage, die beantwortet werden sollte ist doch nur, ist Python unsere Zukunft ?.

    Ist Python die Programmiersprache der Zukunft?

    Der Entwickler Guido van Rossum äußert sich zum Thema, ob Python sich künftig weiterentwickeln wird:

    „Ich glaube, Python wird weiter wachsen” (vgl. Stolens)

    „Die größten Entwicklungen erwarte ich in den Python Bibliotheken – hier sehen wir sehr viele Ergänzungen. Was den Gebrauch von Python im Unterricht betrifft, hoffe ich, Schüler nehmen die Programmiersprache als einfach und spannend wahr und werden ermutigt, sie auch außerhalb der Schule anzuwenden. Ich
    hoffe, es sind nicht nur irgendwelche einmaligen Projekte, sondern dass sie die Sprache weiter aktiv verwenden. Es wäre toll, wenn sie nach ihrem Abschluss eine Zukunft in einem MINT-Fach starten würden und sie ihr Python-Basiswissen dann für ihre eigene Forschung verwenden könnten!” (vgl. Stolens)

    Stolens (2020): https://www.t3deutschland.de/de/t3-europe/edublogs/interview-guido-rossum (Abruf: 31.01.2022)

    Die Forschung basiert auf Anfragen nach Tutorials zum Erlernen von Programmiersprachen. Google Trends stellt die Basis der Erkenntnisse dar und dient der Ermittlung der Beliebtheit der entsprechenden Programmiersprache. Laut der Statistik der PYPL befindet sich Python auf Platz 1 der meist gesuchten Programmiersprachen. Der prozentuale Abstand zum zweitplatzierten Java ist hier mit rund 10 % sogar noch größer und somit kam JavaScript auf den dritten Platz.

    Abbildung 4, Statistik aus PYPL

    Das Potential von Python ist da, denn Python hat gute Zukunftsaussichten und könnte daher die Programmiersprache der Zukunft werden.

    Über die Autoren:

    Anela Iljijazi: Anela Iljijazi studiert im 3. Semester Informationsmanagement. Sie absolviert das Studium an der Hochschule Hannover Fakultät III. Die Autorin wurde in Hannover geboren. Sie ist 20 Jahre alt. Neben ihrem Studium ist sie Kellnerin im Cheers Hannover.

    Ömer Topcu: Ömer Topcu studiert im 3. Semester Informationsmanagement. Er absolviert das Studium an der Hochschule Hannover Fakultät III. Der Autor wurde in Hannover geboren und ist 20 Jahre alt. Er arbeitet in seiner Freizeit im Einzelhandel.

    Quellenverzeichnis:

    • lerneprogrammieren (2022): Wofür wird Python verwendet? 10 Aufgaben und Anwendungsbereiche. URL: https://lerneprogrammieren.de/python-anwendungsbereiche/ (Abruf: 30.01.23)
    • PYPL (2023): PYPL PopularitY of Programming Language. URL: https://pypl.github.io/PYPL.html (Abruf: 30.01.23)
    • Stolens (2020): Die Python Power – erklärt von Python-Erfinder Guido van Rossum. URL: https//www.t3deutschland.de/de/t3-europe/edublogs/interview-guido-rossum (Abruf: 31.01.2023)
    • Morpheus (2015): Python Tutorial #12 – Funktionen. URL: https://youtu.be/mgA-Ytr32Ys (Abruf: 30.01.2023)
    • Abbildung 2, Programmieren mit Python (2022). URL https://fobizz.com/programmieren-mit-python-ganz-ohne-vorkenntnisse/
    • Sebastian Grüner (2021), Golem, Python-Gründer will doppelte Geschwindigkeit für die Sprachen, URL: https://www.golem.de/news/guido-van-rossum-python-gruender-will-doppelte-geschwindigkeit-fuer-die-sprache-2105-156491.html (Abruf 30.01.2023)
    • Koen Stulens (2020), t3deutschland, Die Python Power, URL: https://www.t3deutschland.de/de/t3-europe/edublogs/interview-guido-rossum(Abruf 30.01.2023)
    • Steemit (2018) Python für Anfänger #1, URL: https://steemit.com/deutsch/@rilc0n/python-fuer-anfaenger-1-einfuehrung-vor-und-nachteile(Abruf 30.01.2023)
    • Python, URL: https://www.python.org/ (Abruf 30.01.2023)

    Menstruelle Überwachung durch FemTech-Apps – Wenn nicht nur Blut fließt

    Autorinnen: Michelle Gaßner und Mira Le


    Im Zeitalter der Selbstoptimierung gibt es unzählige Apps, die das Leben einfacher machen. Gesundheits-Apps werden genutzt, um zum Beispiel Kalorien zu zählen oder Sportübungen zu tracken, aber auch um mithilfe von Zyklus-Apps den Menstruationszyklus zu dokumentieren. Nutzende berichten, dass solche FemTech-Apps ein wertvolles Mittel sind, um mehr über sich und die eigene Gesundheit zu erfahren und den eigenen Körper besser kennenzulernen.[1][2]

    Übersicht

    Was ist FemTech eigentlich?
    Profite durch sensible Daten
    Aber es gibt doch Datenschutzbestimmungen!
    Und nun: Apps löschen oder behalten?
    Ausblick

    Was ist FemTech eigentlich?

    Der Begriff FemTech wurde 2016 von Ida Tin geprägt und in den letzten Jahren ist die Bandbreite an sogenannten FemTech-Apps, also nutzerzentrierten und technologischen Lösungen, die sich an feminine Bedürfnisse richten, stark gewachsen.[3]

    Sie versprechen Autonomie und werden als empowerndes Tool vermarktet.[4] FemTech-Apps werden folglich genutzt, um die Menstruation und die eigene Fruchtbarkeit zu überwachen. So helfen sie dabei, unabhängig und selbstbestimmt agieren zu können, denn die App nimmt die lästige und zeitaufwendige Arbeit des Zählens und Dokumentierens ab. Dadurch fällt es vielen Menschen leichter, dies längerfristig und regelmäßig zu tun.[5]

    Noch angenehmer fühlt es sich an, wenn man nichts dafür bezahlen muss. Aber das stimmt nur bedingt, denn auch bei kostenlosen Apps wird in Daten bezahlt und der Preis kann erschreckend hoch sein.[6] Personenbezogene Daten sind wertvoll und die Daten einer schwangeren Frau zum Beispiel noch mehr. Nutzt sie eine FemTech-App, werden diese Daten nicht zwingend ihr privates Eigentum bleiben.[7] Aber warum ist das eigentlich ein Problem?

    Profite durch sensible Daten

    Wenn wir betrachten, was FemTech-Apps machen, dann wird schnell klar, dass die gesammelten Daten intimer und persönlicher kaum sein können. Es entstehen große Mengen an Datensätzen, in denen neben Geburtsdaten auch Daten wie z.B. Gefühle und Stimmung, Ausfluss und andere körperliche Begleiterscheinungen oder sogar sexuelle Aktivitäten festgehalten werden.[8]

    Screenshot aus der App ‘Flo’

    Folglich sollte es also eigentlich selbstverständlich sein, dass solche Daten nur durch die nutzende Person weitergegeben werden dürfen. Tatsächlich sind sich die meisten aber häufig nicht über die Tragweite der Datenweitergabe bewusst.[9] Denn anders als bei Krankenakten, die bei den Ärzten und Krankenhäusern der Schweigepflicht unterliegen, gibt es keine Klarheit, wie datenschutzrechtlich mit den sensiblen Daten umgegangen werden soll.

    Das bedeutet, dass es FemTech-App-Anbietern freisteht, welche Daten sie wie sammeln[10] oder welche Informationen sie an Werbepartner weitergeben, um personalisierte Werbung für bspw. Windeln zu schalten oder neue Nutzende zu rekrutieren.[11]

    Aber es gibt doch Datenschutzbestimmungen!

    Natürlich könnte man meinen, dass jede Person, die eine FemTech-App nutzt und durch die Nutzung den Datenschutzbestimmungen dieser spezifischen App explizit oder implizit zustimmt, auch weiß, worauf sie sich einlässt. So einfach ist es allerdings nicht. Das liegt an verschiedenen Gründen.

    Zum einen sind Datenschutzerklärungen sprachlich so gestaltet, dass sie schwer zu verstehen sind und ein gewisses sprachliches Niveau Voraussetzung ist, um ihren Inhalt zu durchschauen. Zum anderen sind sie auch nicht immer offensichtlich und es gibt auch keine Möglichkeit, den Datenschutzerklärungen zu widersprechen.[12] Die Mozilla Foundation hat festgestellt, dass in der Mehrheit der FemTech-Apps Datenschutz nicht gewährleistet werden kann.[13]

    Das heißt, auch wenn die Datenschutzbestimmungen gesehen, gelesen und verstanden wurden, heißt es noch nicht, dass sie positiv für die Nutzenden sind oder es bleiben.

    Datenschutzbestimmungen sind angepasst worden im Verlauf der Lebensdauer der Apps, da es immer wieder kontrovers diskutiert worden ist, ob die sensiblen Daten sicher sind.

    Erst 2021 gab es Empörung, als bekannt wurde, dass die meist genutzte Menstruations-App Flo Daten an Dritte weitergab.[14] Als Reaktion darauf hat Flo die Daten anonymisiert.

    Und nun: Apps löschen oder behalten?

    Es stellt sich letztendlich die Frage, wie unter diesen Gesichtspunkten mit FemTech-Apps verantwortungsvoll und doch persönlich bereichernd umgegangen werden kann. Gerade im Verlauf des Umwurfs von Roe vs Wade in den USA haben sich viele Nutzende dazu entschieden, die Apps zu löschen, da im schlimmsten Fall die Daten an Strafverfolgungsbehörden weitergegeben werden können.[15] Wenn nicht klar ist, was mit den Daten passiert, wird sich zu der Lösung entschieden, erst gar keine Daten zu generieren.

    Welche Folgen der Eingriff in die Privatsphäre im Zusammenhang mit dem Fall Roe vs. Wade haben könnte, wurde in diesem Video gut zusammengefasst:

    Auch wenn FemTech-Apps keinen optimalen Datenschutz bieten, so ergeben sich dennoch Vorteile, die viele Personen nicht aufgeben möchten, denn der Nutzen ist für sie unumstritten.[16] FemTech blind gegenüber den Problematiken zu nutzen ist allerdings auch keine gute Idee. Apps müssen die Privatsphäre der Nutzenden wahren.

    Ausblick

    Anstatt auf absolute Lösungen zu setzen, sollte die Informationskompetenz der Nutzenden gefördert und für die Datenflüsse sensibilisiert werden. Die Risiken und der Nutzen müssen gegeneinander aufgewogen und eine persönliche Entscheidung getroffen werden,[17] die fundiert und informiert getroffen werden kann. Da diese Apps auch ein Bestandteil von reproduktiver und sexueller Selbstbestimmung und Freiheit sein können, brauchen wir Wege, die weiter gehen, als eine „ganz oder gar nicht“ Entscheidung.

    Es werden Apps mit freier und offener Software benötigt und es braucht Transparenz, welche Daten verarbeitet und gesammelt werden. Das Verantwortungsbewusstsein für die Sensibilität der Daten sollte nicht nur bei den Nutzenden liegen, sondern auch bei denen, die diese Apps erstellen und anbieten.

    Quellen

    Amelang, Katrin (2022): (Not) Safe to Use: Insecurities in Everyday Data Practices with Period-Tracking Apps. In: New Perspectives in Critical Data Studies. Palgrave Macmillan, Cham, S. 297-321. Online unter https://doi.org/10.1007/978-3-030-96180-0_13 S. 307 [2] [16]

    Bretschneider, Richard A. (2015): A Goal- and Context-Driven Approach in Mobile Period Tracking Applications. In: Springer, Cham, S. 279287. Online unter https://doi.org/10.1007/978-3-319-20684-4_27 S. 283-284 [8]

    Campanella, Samantha: Menstrual and fertility tracking apps and the post Roe v. Wade era. Online unter https://ir.lib.uwo.ca/usri/usri2022/ReOS/238/ [Stand: 29.11.2022] S. 9 [15]

    Epstein, Daniel A.; Lee, Nicole B.; Kang, Jennifer H.; Agapie, Elena; Schroeder, Jessica; Pina, Laura R.; Fogarty, James; Kientz, Julie A.; Munson, Sean (2017): Examining menstrual tracking to inform the design of personal informatics tools. In 2017/05/02. ACM. Online unter https://doi.org/10.1145/3025453.3025635 S. 6. [1]

    Fowler, Leah R.; Gillard, Charlotte; Morain, Stephanie R. (2020): Readability and accessibility of terms of service and privacy policies for menstruation-tracking smartphone Applications. In: Health promotion practice, Jg. 21, H. 5, S. 679-683. Online unter https://doi.org/10.1177/1524839919899924 S. 681 [12] ; S. 682 [9]

    Gilman, Michele Estrin (2021): Periods for profit and the rise of menstrual surveillance. In: Columbia Journal of Gender and Law, Jg. 41, H. 1, S. 100-113. Online unter https://doi.org/10.52214/cjgl.v41i1.8824 S. 100 [4] ; S. 103 [6]

    Healy, Rachael L. (2020): Zuckerberg, get out of my uterus! An examination of fertility apps, data-sharing and remaking the female body as a digitalized reproductive subject. In: Journal of Gender Studies, Jg. 30, H. 4, S. 406-416. Online unter https://doi.org/10.1080/09589236.2020.1845628 S. 411 [11]

    Hoppenstedt, Max (2019): Was Zyklus-Apps über ihre Nutzer verraten. In: Süddeutsche Zeitung, Ausgabe vom 27.12.2019. Online unter https://www.sueddeutsche.de/digital/zyklus-apps-datenschutz-36c3-1.4735916 [Stand: 08.10.2022] [7]

    Kemble, Emma; Pérez, Lucy; Sartori, Valentina; Tolub, Gila; Zheng, Alice (2022): The dawn of the FemTech revolution. In: McKinsey & Company, Ausgabe vom 14.02.2022. Online unter https://www.mckinsey.com/industries/healthcare-systems-and-services/our-insights/the-dawn-of-the-femtech-revolution [Stand: 05.11.2022] [3]

    Lomas, Natasha (2021): Flo gets FTC slap for sharing user data when it promised privacy. In: TechCrunch, Ausgabe vom 13.01.2021. Online unter https://techcrunch.com/2021/01/13/flo-gets-ftc-slap-for-sharing-user-data-when-it-promised-privacy/ [Stand: 30.10.2022] [14]

    Mozilla Foundation (2022): Privacy not included: A buyer’s guide for connected products. Zuletzt aktualisiert am 15.11.2022. Online unter https://foundation.mozilla.org/en/privacynotincluded/categories/reproductive-health/ [Stand: 15.11.2022] [13]

    Rosato, Donna (2020): What your period tracker app knows about you, Ausgabe vom 22.01.2020. Online unter https://www.consumerreports.org/health-privacy/what-your-period-tracker-app-knows-about-you-a8701683935/ [Stand: 03.11.2022] [10]

    Siapka, Anastasia; Biasin, Elisabetta (2021): Bleeding data: the case of fertility and menstruation tracking apps. In: Internet Policy Review, Jg. 10, H. 4. Online unter https://doi.org/10.14763/2021.4.1599 S. 2 [5]

    Torchinsky, Rina (2022): How period tracking apps and data privacy fit into a post-Roe v. Wade climate. In: NPR, Ausgabe vom 10.05.2022. Online unter https://www.npr.org/2022/05/10/1097482967/roe-v-wade-supreme-court-abortion-period-apps [Stand: 05.10.2022] [17]

    Bildquellen

    Beitragsbild und Bild 1: https://flic.kr/p/2nMcWpX, Bearbeitet durch Mira Le.

    Bild 2: ©Flo Health Inc, Screenshot

    Big Data und Datenschutz – Wunschdenken oder bereits Realität?

    Autor: Philippe Paszkier


    Wir alle kennen es, man spricht mit einem Freund oder Partner über irgendein Produkt o.ä. ohne dabei überhaupt das Handy entsperrt zu haben und dann möchte man etwas googeln und die Werbung handelt von dem eben besprochenen Thema. Ich meine klar, hat so seine Vorteile da weiter machen zu können, wo die Unterhaltung aufgehört hat. Aber ist das nicht eigentlich ein bisschen unheimlich, dass dir dein Smartphone immer zuhört und alles mitbekommt, was man in dessen Umgebung sagt? Passieren tut das durch Big Data.

    Was ist denn eigentlich Big Data?

    Der Begriff Big Data beschreibt eine große Masse an personenbezogenen Daten, die Unternehmen wegen ihrer Schnelllebigkeit und Komplexität zu Analysezwecken nutzen. Unter den Begriff fallen unter anderem Daten in Form von Zahlen, Texten, Standortverläufen, Videos, Zahlungsunterlagen, Bilder oder auch das gesprochene Wort.

    3V-Modell

    Der Branchenanalytiker Douglas Laney beschrieb Big Data mit dem 3V-Modell. Das erste V steht für Velocity, also die Geschwindigkeit, mit der neuen Daten ankommen und man diese verarbeiten muss. Dann gibt es noch das Volume, also die gesamte Masse an Daten aus den unterschiedlichsten Quellen. Als drittes V gibt es Variety, welches die Vielfalt der Formen der gesammelten Daten beschreibt. Aber im Laufe der Zeit kamen weitere Vs dazu. So auch das V für Variability, also der Schwankung des Datenflusses und Form der Daten. Des Weiteren gibt es noch Veracity, was die Richtigkeit der Daten beschreibt und diese einordnet und sortiert. Je nachdem wo man schaut, gibt es noch die Kategorie Value. Diese beschreibt den Geschäftswert der Daten.

    Speicherung

    Anfang der 2000er fand der Begriff Big Data das erste Mal Einzug in die Köpfe der Menschen. Da fing nämlich die Speicherung und Interpretation von Daten aus dem Internet an. Damals ging es noch eher um das Klickverhalten auf der eigenen Webseite oder die IP-Adresse des Kunden. Von damals zu heute hat sich aber einiges getan, die Form der Daten hat sich geändert und natürlich auch die Datenmenge. Allein im Jahr 2012 wurden weltweit 6,5 Zettabyte an Daten gesammelt. Was ist ein Zettabyte, fragt ihr euch jetzt? Ein Zettabyte steht für EINE MILLIARDE TERRABYTE. Im Jahr 2020 waren es dann auch schon 64,2 Zettabyte. Das bedeutet, dass jeder Mensch, der irgendwie mit dem Internet verbunden ist, durchschnittlich tagtäglich ca. 150 Gigabyte an persönlichen Daten übermittelt. Um sich das mal auf der Zunge zergehen zu lassen, der Film Titanic aus dem Jahr 1997, der wohlgemerkt über drei Stunden läuft, verbraucht in HD einen Speicherplatz von 8,5 Gigabyte.

    Screenshot der Statista-Statistik zu Speicherplatz von Big Data

    Zweck

    Diese unfassbar riesige Menge an Daten wird für Unternehmen interessant, da diese dadurch Zeit in der Entwicklung neuer Produkte und Dienstleistungen einsparen. So analysiert man Trends um zu prüfen, wo es noch Marktlücken gibt. Ein offensichtlicher Vorteil der Big Data Analyse ist auch die personalisierte Werbung. Der Algorithmus weiß, wie man einen am besten anspricht und wofür man sich interessiert, vielleicht sogar besser als man selbst. Des Weiteren können klügere geschäftliche Entscheidungen getroffen werden, da man durch die Echtzeitanalyse, Veränderungen und Unsicherheiten bewerten und dementsprechend handeln kann. Zudem kann die Produktion effizienter gestaltet werden, da der Kunde einem sagt, was man braucht, wenn auch unfreiwillig. Das Gesprochene und geschriebene Wort, so wie Chats oder Sprachnachrichten, wird zum Füttern von Deep Learning KIs genutzt, um die maschinelle Art des Schreibens und Sprechens zu optimieren und menschlicher/natürlicher machen zu können.

    Weitere Orte an denen Daten über einen gesammelt werden sind Autos die mit dem Handy und mit dem Internet verbunden sind. Außerdem auch Bankdaten, Smart-Home Gadgets und ihre Assistenten wie bpsw. Alexa oder halt klassische Überwachungsmaßnahmen.

    Aufschrei Big Data

    Facebook Skandal

    Erinnert ihr euch noch ans Jahr 2018? Bevor die Pandemie über uns hereinbrach, brach etwas anderes zusammen. Die Reputation von Facebook. Damals kam nämlich raus, dass Facebook (Meta) Daten von mindestens 87 Millionen Nutzern durch Camebridge Analytica (C.A.) auswerten ließ, um so illegal Werbung für den Trump-Wahlkampf zu machen. Die Muttergesellschaft von C.A., die SCL-Group hat es sich zum Geschäftsmodell gemacht, politische Wahlen und Stimmungen durch Big Data Auswertung zu beeinflussen.

    Auswertung

    Big Data ist aber nicht nur für Meta ein Geschäftsmodell. Google und TikTok machen nichts anders. Es wird alles gespeichert, von der Sucheingabe (was suchst du, wie suchst du es, was schreibst du, welche Wörter nutzt du) bis zurzeit, die du brauchst um dich für ein Ergebnis zu entscheiden. Was klickst du auf der Seite an? Wie lange bist du auf der Seite unterwegs? Wo geht es nach dem Besuch der Webseite hin? Wie schnellt scrollst du weiter? Welche Webseiten besuchen deine Freunde und Familie? All das wissen die Unternehmen wie C.A. schon bevor du selbst irgendwas gemacht hast. Jeder Schritt wird verfolgt, jede neue Suche, jede Meinungsänderung wird wahrgenommen. Man wird komplett durchleuchtet.

    Social-Credit-Score

    Kleiner Funfact am Rande, wusstest du, dass Big Data der Grundbaustein für den Social-Credit-Score in China ist? So wird genau erkannt, wo du wie viel reininvestiert, was du mit deinem Alipay Account bezahlt und ob du dein Leihfahrrad auch wieder am richtigen Ort abgestellt hast. Das in Verbindung mit ausgereifter Gesichtserkennungssoftware an öffentlichen Plätzen und du bist durchsichtig. Dadurch, dass heutzutage alles miteinander verbunden ist und alles einfacher werden soll, wird auch vieles noch komplizierter. So auch das Profil was Meta über Nicht-Nutzer anlegen kann, welches auf Daten basiert, die von Bekannten irgendwie irgendwo gespeichert worden sind und die Organisation Zugriff drauf hat.

    kurzer Einblick in das System Social-Credit-Score

    Wert

    Es gibt noch ewig viele Beispiele, was mit Big Data überall auf der Welt gemacht wird und wie man mehr und mehr die Entscheidungsgewalt über sich selbst abgibt. Aber eine Frage ist noch interessant, auf die ich noch nicht eingegangen bin. Wie viel sind diese Daten eigentlich Wert? Auch wenn man Big Data als das Erdöl der digitalen Wirtschaft bezeichnet, kann ich hier leider keine sichere Zahl nennen. Aber ich möchte nur so viel sagen, dass die E-Scooter, die man überall in der Stadt sieht, mit einer durchschnittlichen Lebensdauer von wenigen Monaten, so viele Daten über uns sammeln, dass die Unternehmen locker an die Börse gehen können. Und das nur durch den Verkauf der gesammelten Daten.

    Emissionen

    Ach so, ganz vergessen. Diese Zettabyte an Daten, die anfallen, müssen irgendwo gespeichert werden. Und wo macht man das? Genau. In riesigen Rechenzentren, die weltweit im Jahr 2020 zwischen 100 und 500 Millionen Tonnen CO2 ausgestoßen haben. Und das Problem hierbei ist, dass es nur noch mehr wird. Es werden mehr Menschen -> mehr Menschen, die einen Internetzugang haben -> mehr Daten -> mehr Server -> mehr Rechenzentren -> mehr CO2. Aus einer ARTE Dokumentation habe ich entnommen, dass im Jahr 2025 geschätzt wird, dass 25 % des gesamten Energieverbrauches nur auf Rechenzentren zurückzuführen sind.

    Rechenzentrum von Meta in Odense

    Die Datenschutzgrundverordnung (DSGVO)

    Doch wie sieht das Ganze in der Europäischen Union aus? Was für Vorgaben gibt es hier?

    In der EU wurde im Jahr 2016 die DSGVO eingeführt. Die erste Datenschutzbestimmung kam aus dem Jahr 1995, als das Internet noch lange nicht den Umfang angenommen hat wie heute. Die DSGVO soll somit alle datenschutzrechtlichen Themen und Rechte aus den unterschiedlichen Mitgliedsstaaten für die gesamte EU festhalten. Der Grund für die Einführung der neuen Verordnung ist, dass Unternehmen einen festen Fahrplan brauchen, wie sie mit den personalisierten Daten umzugehen haben, um nicht das Persönlichkeitsrecht der Nutzer und Besucher zu verletzen. Folgende Grundlagen werden deshalb in der DSGVO festgehalten:

    1. Rechtmäßigkeit (Ob die Daten verarbeitet werden dürfen/ wenn ja wie)
    2. Transparenz (welche Daten werden verarbeitet)
    3. Zweckbindung (nur für bestimmten Zweck)
    4. Speicherbegrenzung (Daten müssen gelöscht werden, wenn irrelevant oder gewollt)
    5. Richtigkeit (keine falschen Daten verwenden)
    6. Datenminimierung (Menge für Zweck angemessen)
    7. Integrität und Vertraulichkeit (Schutz vor unfreiwilliger Weitergabe)
    8. Rechenschaftspflicht (Dokumentation des Verarbeitungsprozesses)
    Neue Datenschutzregeln

    direkter Widerspruch

    Das Problem hierbei ist jedoch, dass Big Data ein Sammelbegriff für solche Daten ist. Somit ist festzuhalten, dass Big Data an sich gar nicht den Prinzip der Datenminimierung einhalten kann. Big Data sammelt nicht nach einem Zweck, sondern die Daten an sich bestimmen zu welchem Zweck sie dienen. Vergleichbar ist das mit der Vorratsdatenspeicherung, die hierzulande für Aufsehen gesorgt hatte, da diese ab 2015 gegen das EU-Recht verstoßen hat. Big Data ist das, nur in noch größer… Die einzige Ausnahme sind Kinder, denn ihre Daten dürfen nicht analysiert werden. Da frage ich mich nur, woher wissen die denn, ob es sich um ein Kind handelt?

    Witzige finde ich persönlich ja auch, dass in der DSGVO der Begriff Big Data unter dem Punkt Profiling fällt. Allein dieses Wort beschreibt die Existenzgrundlage der Big Data. Man versucht damit ein Bild oder Profil des Nutzers zu schaffen, mit all seinen guten und schlechten Seiten, Kreditwürdigkeit, Essgewohnheiten und alles was zum Leben dazugehört. Sozusagen ein Freundebuch, nur dass wir keine Freunde sind, sondern ein Stalkingopfer, ohne uns darüber bewusst zu sein.

    Positive Entwicklung

    Aber es muss trotzdem festgehalten werden, dass die restlichen Maßnahmen einen ernsthaften Unterschied im Umgang mit unseren Daten ausmachen. So wird beispielsweise die Dokumentation des Verarbeitungsprozesses eine besonders wichtige Aufgabe, denn dadurch kann nachvollzogen werden, was ausgewertet worden ist und ob das Unternehmen die Analyse solcher Daten valide begründen kann. Außerdem muss eine Risikoanalyse der Datenverarbeitung entwickelt werden und aufgefallene Risiken an die dafür zuständige Aufsichtsbehörde weitergeleitet werden. Einen weiteren positiven Faktor bringt die DSGVO noch mit sich. Dadurch, dass die Datenschutzproblematik mitten in der Öffentlichkeit steht, werden die unterschiedlichen Umgänge mit personenbezogenen Daten ein durchaus wichtiger Wettbewerbsfaktor für viele Unternehmen. Aber nur für die Unternehmen innerhalb der EU. Im EU-Ausland sieht das ganze anders aus.

    Eine Expertenmeinung

    Die Expertin ist Prof. Yvonne Hofstetter. Sie ist Autorin, Juristin und Essayistin, welche in Softwareunternehmen tätig ist und sich um die “Positionierung von Multi-Agentensystemen bei der Rüstungsindustrie und für den algorithmischen Börsenhandel” kümmert, schilderte in einem Vortrag vom YouTube-Kanal BildungsTV aus dem Jahr 2014, wie das Geschäft mit Big Data funktioniert. So beschreibt sie unter anderem, dass der Finanzmarkt durch die Auswertung jeglicher verfügbaren Informationen, dem Militärsektor sehr ähnelt. So funktioniert der teilweise illegale Hochfrequenzhandel, bei dem Händler und Banken zusammenarbeiten, um dem Investor die Aktien möglichst teuer, weiterzuverkaufen. Auch Aktienpreise werden durch Algorithmen, die durch Unmengen an Finanzdaten gefüttert werden, gedrückt bzw. manipuliert. Außerdem zeigt sie das Ziel der Big Data Analyse im Wirtschaftssektor auf, welches ist, den Menschen zu manipulieren.

    Das Beispiel

    Der Wirtschaftlicher Erfolg ist nicht der einzige Zweck der durch Verarbeitung großer Datenmengen verfolgt wird. So habe sie einst an einem Projekt dem LKA Bayern mitgeholfen, bei dem man überprüfen wollte, ob sich der Drogenhandel von der einen Stadt in die andere verlegt hat. Dafür wurde ausgewertet, welche Delikte begangen worden sind, wer mit wem im Gefängnis saß, wer mit wem verwandt ist oder wer mit wem schonmal etwas zu tun hatte. Durch diese Analyse wurde dann klar, dass sich sowohl die Gruppierung, verantwortlich für den Drogenhandel geändert hatte, als auch Informationen über den Hintermann. Problematisch ist es nur dann geworden, als die Vorstrafen des Mannes gelöscht worden sind, jedoch das Wissen der Hintermann-Tätigkeit noch immer bestand. Das LKA entschied sich dann für den Datenschutz und das Löschen dieser Informationen, nachdem das Löschdatum von einem Rohdatensatz überschritten worden war.

    Das Problem

    Frau Professor Yvonne Hofstetter sieht das große Problem darin, dass die Technik, die zur Überwachung von Personen einst nur dem Militär zur Verfügung stand, jetzt auch im Privatsektor zu finden ist. Aber der Zweck ist kein anderer. So sagt sie unter anderem: “Wir, wir sind die Ursache für riesige Milliardengewinne bei Google oder Facebook, aber wir kriegen nichts dafür. Wir werden wie ich gerade gesagt habe, ausgebeutet.”

    Forderungen

    So fordert sie zu einem das Recht auf Gegenleistung für die eigenen Daten. Zudem ein Recht der Kontrolle und die damit verbundene Löschung der Daten. Zuletzt das Recht auf negative Freiheit, was so viel heißt wie, dass man keinen Nachteil durch die Nicht-Nutzung von digitalen Technologien erleidet. Diese Punkte wurden zum Teil in der DSGVO von 2018 umgesetzt und zu EU-Recht gemacht. So beispielsweise das Fenster, in dem man seine Cookies bestimmen kann.

    Fazit

    Nun denn, was halten wir nun von Big Data? Big Data hat sowohl Vorteile als auch massive Nachteile. Die Analyse der Daten hat zur Folge, dass zukünftige Ereignisse vorhergesagt werden oder bessere Entscheidungen getroffen werden können. Prozesse und Lieferketten können optimiert werden. Werbung wird immer besser die Zielgruppe ansprechen und Dinge über die man gerade gesprochen hat, schon als Werbung angezeigt bekommen. Irgendwie entsteht das digitale Abbild eines Selbst. Nur kommt man hier wieder zu dem unausweichlichen Kritikpunkt, dass der Mensch zum Produkt gemacht wird und eigentlich nichts von der Analyse der eigenen Daten hat. Der Mensch wird manipuliert und unterbewusst zu Entscheidungen gezwungen. Klar sollte sein, dass das eine kritische Entwicklung des Kapitalismus ist. Nur nicht von staatlicher Seite, sondern von Milliardenunternehmen, die nichts mehr interessiert, als uns zu Geld zu machen. Daher, passt, auf was ihr macht. Alleine seid ihr nie.

    Die Datenschutzgrundverordnung, versucht hier die Sicherheit für die Nutzer zu wahren, bzw. wiederzuerlangen. Problematisch hierbei ist jedoch, dass nur 20 % der bei einer Bitkom-Umfrage befragten Unternehmen die DSGVO komplett umsetzt. 60 % der Unternehmen sagen, dass man in Deutschland mit dem Datenschutz übertreibe. Gut 80 % der Unternehmen haben fünf Jahre nach DSGVO Verabschiedung noch immer Probleme die Vorgaben durchzusetzen. Aber zumindest haben 60 % der Befragten angeben können, zumindest den Großteil der DSGVO umsetzten zu können. Ein Schritt in die richtige Richtung. Aber fertig sind wir noch lange nicht.

    Quellen

    Der Einsatz von Spracherkennungssoftware und ihre Grenzen in der Forensischen Linguistik

    Autorin: Kimberley Stips

    Alexa, wer hat versucht, uns zu erpressen?
    Ganz so leicht ist es dann doch nicht. Die Forensische Linguistik ist eine kriminalistische Hilfswissenschaft, die sich mit Sprache im gerichtlichen Kontext beschäftigt. Dazu zählen sowohl die vor Gericht verwendete Sprache wie auch beispielsweise die Autoren- und Sprechererkennung (Fobbe, S. 15 f.). Oder, um es mit den Worten von Patrick Rotter, selbst in der Forensischen Linguistik tätig, zu sagen: „Für uns Sprachprofiler ist Sprache in erster Linie Identität. Egal ob gesprochen oder geschrieben. Sie ist ein Teil von uns.“ (Rotter, S. 15)
    Um Identität(-sfindung) soll es in diesem Beitrag gehen – und um die Frage, wie sehr die Künstliche Intelligenz (KI) in diesem Bereich Ermittler*innen entlasten oder vielleicht sogar ersetzen kann.

    Entwicklung der Spracherkennung

    Der Versuch, Sprache mittels Computern zu analysieren und zu erkennen, ist nicht neu:

    Zeitleiste: Meilensteine der computergestützten Spracherkennung

    Was aber, wenn es nicht nur darum geht, kurze Nachrichten in Text zu verwandeln, sondern etwa herauszufinden, wer eine anonyme Drohbotschaft versendet hat? In den letzten Jahren gab es mehrere Studien dazu, von denen ich hier zwei vorstellen möchte.

    Software & Audioerkennung

    Mit Spracherkennung von komplexeren Audiodateien hat sich unter anderem Franz Bellmann in seiner Bachelorarbeit beschäftigt: er testete sechs frei verfügbare Softwares auf die Eignung zur Transkription von Audiodateien (mit verschiedenen Längen, in verschiedenen Sprechgeschwindigkeiten und mit und ohne Dialekt) in einem polizeilichen Kontext (Bellmann, S. 23). Wie seinen Schlussfolgerungen zu entnehmen ist, haben alle benutzten Programme Schwierigkeiten bei der Worterkennung, Google Web Speech API hat sich am besten geschlagen (Bellmann, S. 47). Doch selbst diese beste Alternative hat immer noch eine Fehlerrate von ca. 30%(!) bei der Transkription (Bellmann, S. 44).

    Software & Textzuordnung

    Manuel Dorobek untersuchte in seiner Masterarbeit 2021 ein ähnliches Projekt, aber auf geschriebene Texte bezogen: kann die KI im Internet veröffentliche Rezensionen zuverlässig den jeweiligen Autor*innen zuordnen? Er wählte 25 Autor*innen mit jeweils 100 verfassten Texten aus (Dorobek, S. 25), die vom besten Modell mit einer Genauigkeit von 96,4% erkannt wurden (Dorobek, S. 149). Zum Trainieren der KI wurden 60 Vorlagetexte genutzt (Dorobek, ebd.). Zwei Autor*innen voneinander zu unterscheiden, gelang schon mit drei Vorlagen (Dorobek, ebd.). Das sind sehr gute Werte, doch in der echten Welt ist der Kreis der Verdächtigen nicht immer so leicht eingrenzbar. Außerdem kann es sein, dass nicht genug Vergleichstexte vorliegen oder keine Texte in ausreichender Länge – weshalb auch Dorobek selbst zu dem Ergebnis kommt: „Für einen Anwendungsfall in der Praxis sind diese Ergebnisse deshalb mit Vorsicht zu betrachten.“ (Dorobek, ebd.)

    Fazit

    KI kann also bisher beim geschriebenen Wort besser unterstützen als beim gesprochenen. Bis die Technik weit genug entwickelt ist, um gerichtsfeste Ergebnisse zu liefern – denn immerhin geht es hier auch um Straftaten und die Frage, ob Menschen ins Gefängnis kommen! – wird also noch einige Zeit vergehen. Bis dahin gilt die Einschätzung von Patrick Rotter:

    „Unsere Lebensleistung an Wort und Text ist schlicht nicht zu erfassen. Und dank der zwangsläufigen Veränderungen auch nicht in starre Muster zu packen. […] Keine künstliche Intelligenz dieser Welt ist in der Lage, sämtliche Dialekte, feinste Nuancen und die ständigen Veränderungen in der Sprache zu begreifen.“ (Rotter, S. 40)

    Quellen

    Fobbe, Eilika (2011): Forensische Linguistik. Tübingen: Narr Francke Attempto Verlag
    Rotter, Patrick (2021): Die geheimen Muster der Sprache. 3. Auflage, München: Redline-Verlag
    Bellmann, Franz (2020): Prototypische Systemintegration und Evaluation von Open Source Sprachmodellen zur automatischen Spracherkennung gesprochener deutscher Texte. Online-Ressource, abrufbar unter BA Bellmann
    Dorobek, Manuel (2021): Automatisierte Autorschaftsanalyse in der deutschen Sprache mittels forensischer Linguistik. Online-Ressource, abrufbar unter MA Dorobek
    Bildquelle: Wedekind, Kai: HTML 5 Speech Recognition API. Online abrufbar unter https://miro.medium.com/v2/resize:fit:1100/format:webp/1*iYxrR4zaECeQ5AgSq3jy_A.png
    Beitragsbild: mohammed_hassan auf Pixabay. Online abrufbar unter https://pixabay.com/images/id-7620463/

    Der Mobility Compass: Auf dieses Tool haben wir gewartet!

    Mobility Compass FID move

    Autorin: Lena-Marie Hoppe


    Man plauscht auf dem Flur, beredet in der Teeküche Neuigkeiten aus dem Fachbereich und arbeitet natürlich gemeinsam an Projekten: Der (zum Glück nicht mehr nur virtuelle) Kontakt mit Kolleg:innen aus dem eigenen Institut oder der Fakultät ist eine Selbstverständlichkeit für Forschende. Doch wie wäre es, sich mit nur wenigen Klicks mit mehr als 300 000 Expert:innen aus der eigenen Disziplin vernetzen zu können? Wie wäre es, blitzschnell Spezialist:innen für isländische Verkehrsdaten finden zu können? Oder solche für Straßenschild-Design in Deutschland? (Das wären übrigens 18 Personen.) Wenn es doch nur ein praktisches Tool dafür geben würde …

    Auftritt: Der Mobility Compass!

    Wir – das sind die Teilnehmenden der Veranstaltung Recherche wissenschaftlicher Informationen – durften bei einer Exkursion zur Technischen Informationsbibliothek (TIB) einen umfangreichen Einblick in den FID move erhaschen. Mathias Begoin, der zur Leitung des FID an der TIB gehört, hat uns dabei auch eben jenes Vernetzungswerkzeug vorgestellt, das die Auffindbarkeit von Forschenden des Verkehrswesens drastisch erhöht. 

    Wie funktioniert der Mobility Compass?

    Um es gleich vorweg zu nehmen: super unkompliziert – zumindest für uns Nutzende. Der Mobility Compass wurde von der SLUB Dresden (der Sächsischen Landesbibliothek – Staats- und Universitätsbibliothek) im Rahmen des FID move entwickelt. Er beruht auf der Open Source Software VIVO, die Informationen über Forschende und ihre Arbeiten verwaltet und darstellt. Das wiederum  funktioniert über standardisierte Datenformate und verschiedene Ontologien. Das sind, ganz grob gesagt, geordnete Sammlungen von Begriffen eines Themenbereiches und den Beziehungen zwischen ihnen. Mit Hilfe von Ontologien lassen sich also Zusammenhänge und Verknüpfungen darstellen – und das in maschinenlesbarer Form. Doch wie kommen die Daten in den Mobility Compass?

    Datengrundlage

    Wer forscht und publiziert und sich auch noch um solche lästigen Dinge wie Projektfinanzierung kümmern muss, hat nicht unbedingt Zeit und Lust, jede einzelne Veröffentlichung händisch in zehn verschiedene Datenbanken einzupflegen. Wie gut, dass sich dieser Aufwand drastisch reduziert, wenn die Forschenden eine ORCID iD aufweisen. Mit ihr lassen sich Personen eindeutig identifizieren sowie Arbeiten und Forschungsdaten zuweisen. Ein weiterer großer Vorteil ist, dass die ORCID iD auch mit anderen Systemen verknüpft werden kann. Wäre es nicht fabelhaft, wenn der Mobility Compass einfach auf diese bereits zusammengestellten Informationen in professionell erschlossenen Datenbanken zugreifen könnte?

    Natürlich ist das fabelhaft und natürlich tut der Mobility Compass genau das! Neben ORCID gibt es noch elf weitere Datenquellen, aus denen die Daten aktuell bezogen werden. Dazu gehören beispielsweise auch die wissenschaftliche Suchmaschine BASE, die Deutsche Nationalbibliothek aber auch der Verlag Springer Nature. Ein weiterer wichtiger Bestandteil ist der Transportation Research Thesaurus (TRT). Er beinhaltet das standardisierte Normvokabular, auf dessen Grundlage die Inhaltserschließung der Ressourcen erfolgt.

    Benutzung des Mobility Compass

    „Die frühen 2000er haben angerufen – sie wollen ihr Webseiten-Design zurück.“ Das ist nicht nur der Versuch eines humoristischen Absatzbeginns. Nein, dieser Gedanke kam uns im Seminar Recherche wissenschaftlicher Information öfter, als wir die Benutzeroberflächen so einiger wissenschaftlicher Suchportale sahen. Der Mobility Compass ist mit seinem modernen Design und seiner leichten Bedienbarkeit ein echtes Juwel unter den Webanwendungen.

    Screenshot Mobility Compass, FID move: topic graph
    Der topic graph zeigt eine Auswahl von Themen und verknüpft solche miteinander, die häufig zusammen erforscht werden. Alternativ kann auch nach Thema, Ort oder Person über die Suchzeile gesucht werden.

    Visualisierung wird beim Mobility Compass großgeschrieben! Auf der Startseite werden bereits einige Themen und ihre Verknüpfung untereinander angezeigt. Mit Klick auf das jeweilige Thema wird die Liste relevanter Personen eingeschränkt. Statt nach einem Thema kann die Suche auch geographisch (innerhalb Europas) eingeschränkt werden. Dafür kann die Auswahl über die Karte oder über die Suchzeile erfolgen. Einfach, unkompliziert und schnell: So mögen wir unsere wissenschaftliche Recherche!

    Fazit

    Der Mobility Compass ist ein geniales Vernetzungstool, dass das Auffinden von Forschenden aus dem Bereich des Verkehrswesens enorm erleichtert. Der uneingeschränkte Zugang, die einfache Bedienung und aufgeräumte Oberfläche sorgen für schnelle Ergebnisse bei der Suche. Wir können nur hoffen, dass sich andere Fachbereiche in dieser Hinsicht eine Scheibe vom FID move abschneiden. 

    Quellen

    Mobility Compass (2023): About. Online unter https://www.mobility-compass.eu/?view=about [Abruf am 23.01.2023]

    Webis (2021): Mobilitäts- und Verkehrsforschung. Online unter https://wikis.sub.uni-hamburg.de/webis/index.php/Mobilit%C3%A4ts-_und_Verkehrsforschung [Abruf am 23.01.2023]

    Text und Data Mining in Bibliotheken?

    Autorin: Lene-Christine Brammer


    Image by mcmurryjulie
    Image by mcmurryjulie

    Bibliotheken haben den Auftrag, Medien und Informationen für Nutzerinnen und Nutzer aufzuarbeiten und bereitzustellen. Doch jedes Jahr werden mehrere Millionen Publikationen veröffentlicht. Die DNB allein verzeichnete den Zugang 2.352.693 neuer Einheiten im Jahre 2020[1]. Wer soll da den Überblick behalten? Text und Data Mining kann hier Abhilfe schaffen. 

    Was ist Text und Data Mining?

    Text Mining, Data Mining, Text Data Mining, Textual Data Mining, Text Knowledge Engineering, Web Mining, Web Content Mining, Web Structure Mining, Web Usage Mining, Content Mining, Literature Mining und sogar Bibliomining[2] – viele Begriffe, die alle das selbe Konzept – teilweise mit unterschiedlichen Schwerpunkten – bezeichnen, welches im Folgenden Text und Data Mining, kurz TDM, genannt werden soll. Grob gesagt ist damit die algorithmusbasierte automatische Analyse digitaler Daten jeglicher Form gemeint.

    TDM beinhaltet dabei explizit sowohl die Verarbeitung natürlichsprachiger Texte, sogenannter unstrukturierter Daten, als auch beispielsweise Tabellen und anderer strukturierter Daten, welche unterschiedliche Anwendungsfälle und Herausforderungen mit sich bringen. Dabei gibt es zwei große Aspekte: das Auffinden bereits bekannter Informationen und die Schaffung neuen Wissens durch die Verknüpfung oder Neuinterpretation von Bekanntem.[3]

    Ganz allgemein lassen sich Verfahren des TDM in drei große Bereiche aufteilen:

    • Musterextraktion (Programm analysiert, welche Daten oft gemeinsam auftreten)
    • Segmentierung (Programm gruppiert ähnliche Daten zusammen)
    • Klassifikation (Programm teilt Daten vorher bestimmten Klassen zu)

    Es lässt sich natürlich noch feiner unterteilen in Regressionsanalysen, Abhängigkeits- oder Abweichungsanalyse, Beschreibung, Zusammenfassung, Prognose, Assoziation etc., was die große Bandbreite an Nutzungsmöglichkeiten des TDM aufzeigt[4], für uns aber gerade zu weit geht, da wir nur den Bereich der Bibliotheken betrachten wollen.

    Anwendungsmöglichkeiten für Bibliotheken

    Empfehlungssysteme

    Eine Möglichkeit der Kataloganreicherung ist die Implementierung eines Empfehlungsdienstes. Dieser analysiert Recherche- und/oder Ausleihdaten, um Nutzenden während ihrer Recherche weitere Medien vorzuschlagen, die relevant für sie sein könnten[5]. Ein solcher Dienst ist BibTip, welcher an der Universität Karlsruhe entwickelt wurde und mittlerweile von vielen wissenschaftlichen und öffentlichen Bibliotheken in Deutschland verwendet wird. 

    Maschinelle Indexierung

    Die inhaltliche Erschließung bietet einen großen Mehrwert bei der Recherche, ist jedoch ein zeit- und personalaufwendiger Aspekt der bibliothekarischen Arbeit. Schon 2009 begann die Deutsche Nationalbibliothek, diese Arbeit mit maschineller Unterstützung durchzuführen. Dabei wurden die in der GND hinterlegten Schlagwörter als Grundlage für die automatische Verschlagwortung mithilfe des Averbis-Programms verwendet.[6] 

    Herausforderungen 

    Urheberrecht

    TDM war viele Jahre eine rechtliche Grauzone. Unklarheiten bezogen sich unter anderem darauf, ob maschinelle Verarbeitung durch die bestehenden Lizenzverträge abgedeckt war, ob temporäre für die Auswertung erstellte Kopien unerlaubte Vervielfältigung bedeuteten, inwieweit die Ergebnisse Dritten zugänglich gemacht werden durften und vieles mehr.[7] Die Urheberrechtsnovelle 2018 sorgte für mehr Klarheit, indem durch § 60d UrhG explizit die Nutzung von TDM für die wissenschaftliche Forschung erlaubt wurde.

    Datenschutz

    Datenschutz ist vor allem bei der Verarbeitung personenbezogener Daten wie der Analyse von Ausleih- oder Recherchevorgängen relevant. Im Sinne der Datensparsamkeit dürfen nur so viele Daten erhoben werden, wie erforderlich sind und diese auch nur so lange wie nötig gespeichert werden. Aus Datenschutzgründen werden die Daten deshalb anonymisiert gespeichert und verarbeitet. Dies schränkt beispielsweise die Empfehlungsdienste ein, da so nur die aufgerufenen oder ausgeliehenen Medien während eines einzelnen Vorgangs analysiert werden, diese jedoch nicht mit früheren Vorgängen der selben Person verknüpft werden können.

    Formatvielfalt

    TDM kann nur funktionieren, wenn die auszuwertenden Daten in geeigneter Form vorliegen. Dabei kann es verschiedene Hürden geben, sowohl rechtlicher Natur, wenn Daten im Besitz von Personen oder Institutionen sind, sowie technischer Natur, wenn Daten nicht in maschinenlesbarer Form vorliegen, oder zu viele verschiedene (inkompatible) Dateiformate genutzt werden.[8]

    Ausblick

    Schon heute profitieren Bibliotheken von TDM-Anwendungen, besonders Empfehlungsdienste sind verbreitet. Maschinelle Indexierung wird zumindest vereinzelt eingesetzt, bleibt in der Qualität aber noch weit hinter der intellektuellen Erschließung durch Menschen zurück.[9] Aufgrund des technischen Fortschritts und dem immer zuverlässiger werdenden natural language processing darf man hier jedoch hoffnungsvoll in die Zukunft blicken.

    Doch Bibliotheken sind nicht nur Anwenderinnen, sondern können und sollten ebenfalls Sorge dafür tragen, dass ihre eigenen Bestände für TDM nutzbar sind. Dies wird erleichtert durch § 60d UrhG, aber sollte auch bei der Aushandlung von Lizenzverträgen, bei der Auswahl der anzubietenden Formate von elektronischen Medien wie auch bei der Retrodigitalisierung beachtet werden.

    Quellen

    [1] Deutsche Nationalbibliothek (2021): Jahresbericht 2020. S.45. Online unter urn:nbn:de:101-2021051859

    [2] Mehler, Alexander; Wolff, Christian (2005): Einleitung: Perspektiven und Positionen des Text Mining. In: LDV-Forum, Jg. 20, Nr. 1, S. 1–18. Online unter urn:nbn:de:0070-bipr-1688

    [3] Saffer, Jeffrey; Burnett, Vicki. (2014). Introduction to Biomedical Literature Text Mining: Context and Objectives. In Kumar, Vinod; & Tipney, Hannah (Hg.): Biomedical Literature Mining. New York: HumanaPress, Springer. S. 1–7. Online unter doi.org/10.1007/978-1-4939-0709-0_1

    [4] Drees, Bastian (2016): Text und Data Mining: Herausforderungen und Möglichkeiten für Bibliotheken. In: Perspektive Bibliothek, Jg. 5, Nr. 1, S. 49-73. Online unter doi.org/10.11588/pb.2016.1.33691

    [5] Mönnich, Michael; Spiering, Marcus (2008): Erschließung. Einsatz von BibTip als Recommendersystem im Bibliothekskatalog. In: Bibliotheksdienst, Jg. 42, Nr. 1, 54–59. Online unter doi.org/10.1515/bd.2008.42.1.54

    [6] Uhlmann, Sandro (2013): Automatische Beschlagwortung von deutschsprachigen Netzpublikationen mit dem Vokabular der Gemeinsamen Normdatei (GND). In: Dialog mit Bibliotheken, Jg. 25, Nr. 2, S.26-36. Online unter urn:nbn:de:101-20161103148

    [7] Okerson, Ann (2013): Text & Data Mining – A Librarian Overview [Konferenzbeitrag]. Herausgegeben von IFLA. Online unter http://library.ifla.org/252/1/165-okerson-en.pdf (Abruf am 29.01.2022)

    [8] Brettschneider, Peter (2021): Text und Data-Mining – juristische Fallstricke und bibliotheksarische Handlungsfelder. In: Bibliotheksdienst, Jg. 55, Nr. 2, S. 104-126. Online unter doi.org/10.1515/bd-2021-0020

    [9] Wiesenmüller, Heidrun (2018): Maschinelle Indexierung am Beispiel der DNB. Analyse und Entwicklungmöglichkeiten. In: O-Bib, Jg. 5, Nr. 4, S. 141-153. Online unter doi.org/10.5282/o-bib/2018H4S141-153


    Dieser Beitrag ist im Studiengang Informationsmanagement an der Hochschule Hannover im Rahmen des Kurses Content Management (Wintersemester 2021/22, Dr. Stefanie Elbeshausen) entstanden.

    Die besten Beiträge stellen wir Euch hier in den nächsten Wochen nach und nach vor.