X-Ploration: Data Mining und Sentimentanalyse mit Hugging Face

Autor: Oguzhan-Burak Bozkurt


Durch den kontinuierlichen und raschen Fortschritt in jüngster Zeit auf den Gebieten von Big Data und KI-Technologien sind heutzutage insbesondere Teilbereiche des Informationsmanagements gefragter als je zuvor. Die Rolle des Informationsmanagers und Data Scientists besteht darin, Methoden zur Erfassung und Verarbeitung von Informationen aus unterschiedlichen Datenquellen anzuwenden. Zudem ist er befähigt, Entscheidungen darüber zu treffen, welche Verarbeitungsprozesse zur gezielten Knowledge Discovery aus umfangreichen Datensätzen geeignet sind. Hierbei kommt Data Mining ins Spiel, eine Methode, die die systematische Extraktion relevanter Informationen und Erkenntnisse aus großen Datenmengen umfasst.

In diesem Blogbeitrag werden wir tiefer in das Thema eintauchen und uns einem von vielen Verfahren des Data Mining, genauer der Sentimentanalyse im Text Mining, praxisnah annähern. Dabei bin ich der Ansicht, dass ein tieferes Verständnis erreicht wird, wenn das theoretisch Gelernte eigenständig umgesetzt werden kann, anstatt lediglich neue Buzzwörter kennenzulernen. Ziel ist eine Sentimentanalyse zu Beiträgen auf der Social Media Plattform X (ehemals Twitter) mit Verfahren aus dem Machine Learning bzw. einem passenden Modell aus Hugging Face umzusetzen.

Ihr könnt euch in die Hintergründe einlesen oder direkt zum Coden überspringen.

  • Einführung: Data Mining ⛏️
  • ML-Based Text Mining 🤖
  • In my feelings mit Hugging Face 🤗
  • Let’s build! Sentimentanalyse mit Python 🐍

  • Einführung: Data Mining ⛏️

    Data Mining umfasst die Extraktion von relevanten Informationen und Erkenntnissen aus umfangreichen Datensammlungen. Ähnlich wird auch der Begriff “Knowledge Discovery in Databases” (KDD) verwendet. Die Hauptaufgabe besteht darin, Verhaltensmuster und Prognosen aus den Daten zu identifizieren, um darauf basierend Trends zu erkennen und angemessen darauf zu reagieren. Dieser analytische Prozess des Data Mining erfolgt mithilfe von computergestützten Methoden, deren Wurzeln in den Bereichen Mathematik, Informatik und insbesondere Statistik liegen. Data Mining kann als Teilprozess innerhalb des umfassenden Datenanalyseprozesses verstanden werden, der folgendermaßen strukturiert ist:

  • Datenbereinigung (Exkludierung von irrelevanten Daten)
  • Datenintegration (Zusammenführen mehrerer Datenquellen)
  • Datenselektion (Auswahl relevanter Daten aus einer Datenbank)
  • Datentransformation (Aufbereitung/Konsolidierung der Daten in eine für das Data Mining passende Form)
  • Data Mining (Prozess gestützt von intelligenten Methoden zum Extrahieren von Daten-/Verhaltensmustern)
  • Pattern Evaluation (Identifikation interessanter Muster und Messwerte)
  • Knowledge Presentation (Präsentieren von mined knowledge durch Visualisierung und andere Repräsenationstechniken)
  • Data Mining als Teilprozess der Knowledge Discovery / Jiawei Han, Data Mining: Concepts and Techniques (2006)

    Die Data Mining Verfahren dienen dazu, den Datenbestand zu beschreiben und zukünftige Entwicklungen vorherzusagen. Hierbei kommen Klassifikations- und Regressionsmethoden aus dem statistischen Bereich zum Einsatz. Zuvor ist es jedoch notwendig, die Zielvariable festzulegen, die Daten aufzubereiten und Modelle zu erstellen. Die gebräuchlichen Methoden ermöglichen die Analyse spezifischer Kriterien wie Ausreißer- und Clusteranalyse, die Verallgemeinerung von Datensätzen, die Klassifizierung von Daten und die Untersuchung von Datenabhängigkeiten.

    Zusätzlich zu den herkömmlichen statistischen Methoden können auch Deep Learning-Algorithmen verwendet werden. Hierbei werden Modelle aus dem Bereich des Machine Learning unter Anwendung von überwachtem (bei gelabelten Daten) oder unüberwachtem (bei nicht gelabelten Daten) Lernen eingesetzt, um die Zielvariablen möglichst präzise vorherzusagen. Eine wesentliche Voraussetzung für das Vorhersagemodell ist ein Trainingsdatensatz mit bereits definierten Zielvariablen, auf den das Modell anschließend trainiert wird.


    ML-Based Text Mining 🤖

    Ein Teilbereich des Data Mining, der auch maßgeblich maschinelles Lernen einbezieht, ist das Text Mining. Hierbei zielt das Text Mining darauf ab, unstrukturierte Daten aus Texten, wie beispielsweise in sozialen Netzwerken veröffentlichte Inhalte, Kundenbewertungen auf Online-Marktplätzen oder lokal gespeicherte Textdateien, in strukturierte Daten umzuwandeln. Für das Text Mining dienen oft Datenquellen, die nicht direkt zugänglich sind, weshalb Daten über APIs oder Web-Scraping beschafft werden. Im darauf folgenden Schritt werden Merkmale (Features) gebildet und die Daten vorverarbeitet. Hierbei erfolgt die Analyse der Texte mithilfe von natürlicher Sprachverarbeitung (Natural Language Processing – NLP) unter Berücksichtigung von Eigenschaften wie Wortfrequenz, Satzlänge und Sprache.

    Maschinelles Lernen für Datenvorverarbeitung

    Die Vorverarbeitung der Daten wird durch Techniken des maschinellen Lernens ermöglicht, zu denen Folgendes gehört:

  • Tokenisierung: Hierbei werden die Texte in kleinere Einheiten wie Wörter oder Satzteile, sogenannte Tokens, aufgespalten. Das erleichtert die spätere Analyse und Verarbeitung.
  • Stoppwortentfernung: Häufige Wörter wie “und”, “oder” oder “aber”, die wenig spezifische Informationen liefern, werden entfernt, um die Datenmenge zu reduzieren und die Analyse effizienter zu gestalten.
  • Wortstamm- oder Lemmatisierung: Die Formen von Wörtern werden auf ihre Grundformen zurückgeführt, um verschiedene Variationen eines Wortes zu einer einzigen Form zu konsolidieren. Zum Beispiel werden “läuft”, “lief” und “gelaufen” auf “laufen” reduziert.
  • Entfernen von Sonderzeichen und Zahlen: Nicht-textuelle Zeichen wie Satzzeichen, Symbole und Zahlen können entfernt werden, um die Texte auf die reinen sprachlichen Elemente zu fokussieren.
  • Niedrige Frequenzfilterung: Seltene Wörter, die in vielen Texten nur selten vorkommen, können entfernt werden, um Rauschen zu reduzieren und die Analyse zu verbessern.
  • Wortvektorenbildung: Durch Techniken wie Word Embeddings können Wörter in numerische Vektoren umgewandelt werden, wodurch maschinelles Lernen und Analyseverfahren angewendet werden können.
  • Named Entity Recognition (NER): Diese Technik identifiziert in Texten genannte Entitäten wie Personen, Orte und Organisationen, was zur Identifizierung wichtiger Informationen beiträgt.
  • Sentimentanalyse: Diese Methode bewertet den emotionalen Ton eines Textes, indem sie versucht, positive, negative oder neutrale Stimmungen zu erkennen.
  • Textklassifikation: Mithilfe von Trainingsdaten werden Algorithmen trainiert, um Texte automatisch in vordefinierte Kategorien oder Klassen einzuteilen.
  • Topic Modeling: Diese Methode extrahiert automatisch Themen aus Texten, indem sie gemeinsame Wörter und Konzepte gruppiert.
  • Insgesamt kann der Text Mining-Prozess als Teil einer breiteren Datenanalyse oder Wissensentdeckung verstanden werden, bei dem die vorverarbeiteten Textdaten als Ausgangspunkt für weitere Schritte dienen.

    The effort of using machines to mimic the human mind has always struck me as rather silly. I would rather use them to mimic something better.

    Edsger Wybe Dijkstra

    In unserem nächsten Abschnitt werden wir auf die Sentimentanalyse eingehen und schrittweise demonstrieren, wie sie mit Hilfe von Modellen auf Hugging Face für Beiträge auf der Plattform X (ehemalig Twitter) durchgeführt werden kann.


    In my feelings mit Hugging Face 🤗

    Das 2016 gegründete Unternehmen Hugging Face mit Sitz in New York City ist eine Data Science und Machine Learning Plattform. Ähnlich wie GitHub ist Hugging Face gleichzeitig ein Open Source Hub für AI-Experten und -Enthusiasten. Der Einsatz von Huggin Face ist es, KI-Modelle durch Open Source Infrastruktur und Repositories für die breite Maße zugänglicher zu machen. Populär ist die Plattform unter anderem für seine hauseigene Open Source Bibliothek Transformers, die auf ML-Frameworks wie PyTorch, TensorFlow und JAX aufbauend verschiedene vortrainierte Modelle aus den Bereichen NLP, Computer Vision, Audio und Multimodale anhand von APIs zur Verfügung stellt.

    Drake Meme by me

    Für die Sentimentanalyse stehen uns über 200 Modelle auf der Plattform zur Verfügung. Wir werden im folgenden eine einfache Sentimentanalyse unter Verwendung von Transformers und Python durchführen. Unsere KI soll am Ende Ton, Gefühl und Stimmung eines Social Media Posts erkennen können.

    Viel Spaß beim Bauen! 🦾


    Let’s build! Sentimentanalyse mit Python 🐍

    Zunächst brauchen wir Daten aus X/Twitter. Da im Anschluss auf die neuen Richtlinien die Twitter API jedoch extrem eingeschränkt wurde (rate limits, kostenspielige read Berechtigung) und es nun auch viele Scraping-Methoden getroffen hat, werden wir bereits vorhandene Daten aus Kaggle verwenden.

    1. Datenbereitstellung: Kaggle

    Wir entscheiden uns für einen Datensatz, der sich für eine Sentimentanalyse eignet. Da wir mit einem Text-Mining Modell in Transformers arbeiten werden, welches NLP verwendet um das Sentiment eines Textes zuordnen zu können, sollten wir uns für einen Datensatz entscheiden, in dem sich Texte für unsere Zielvariable (das Sentiment) befinden.

    Hier kann ein Datensatz aus Kaggle verwendet werden, in dem über 80 Tausend englische Tweets über das Thema “Crypto” in dem Zeitraum vom 28.08.2022 – 29.08.2022 gesammelt wurde: 🐦 🪙 💸 Crypto Tweets | 80k in English | Aug 2022 🐦 🪙 💸

    Wir laden das Archiv herunter und entpacken die crypto-query-tweets.csv in unseren Projektordner.

    2. Zielsetzung und Datenvorverarbeitung: Python + Pandas

    Wir wollen in einer überschaubaren Anzahl an Tweets das jeweilige Sentiment zuordnen. Dazu schauen wir uns den Datensatz aus der CSV Datei genauer an. Uns interessieren dabei besonders Tweets von verifizierten Usern. Mit der Pandas Bibliothekt läss sich der Datensatz in Dataframes laden und nach bestimmten kriterien filtern.

    wir installieren zunächst per pip-install die gewünschte Bibliothek und importieren diese in unsere Codebase.

    pip install pandas

    Anschließends lesen wir die CSV-Datei ein und filtern entsprechend unseren Wünschen den Datensatz und geben diesen als Dataframe aus.

    import pandas as pd
    
    # CSV Datei lesen
    csv_file_path = "crypto-query-tweets.csv"
    df = pd.read_csv(csv_file_path, usecols=['date_time', 'username', 'verified', 'tweet_text'])
    
    # Filter anwenden um nur verifizierte User zu erhalten
    filtered_df = df[df['verified'] == True]
    
    # Printe Dataframe
    print(filtered_df)

    Wir erhalten folgende Ausgabe von 695 Zeilen und 4 Spalten:

           date_time                     username        verified    tweet_text
    19     2022-08-29 11:44:47+00:00     RR2Capital      True  #Ethereum (ETH)\n\nEthereum is currently the s...24     2022-08-29 11:44:45+00:00     RR2Capital      True  #Bitcoin (BTC)\n\nThe world’s first and larges...
    25     2022-08-29 11:44:43+00:00     RR2Capital      True  TOP 10 TRENDING CRYPTO COINS FOR 2023\n \nWe h...
    146    2022-08-29 11:42:39+00:00   ELLEmagazine      True  A Weekend in the Woods With Crypto’s Cool Kids...
    155    2022-08-29 11:42:32+00:00     sofizamolo      True          Shill me your favorite #crypto project👇🏻🤩
    ...                          ...            ...       ...                                                ...
    79383  2022-08-28 12:36:34+00:00  hernanlafalce      True  @VerseOort My proposal is as good as your proj...
    79813  2022-08-28 12:30:15+00:00   NEARProtocol      True  💫NEARCON Speaker Announcement💫\n\nWe're bringi...
    79846  2022-08-28 12:30:00+00:00            lcx      True  🚀@LCX enables project teams to focus on produc...
    79919  2022-08-28 12:28:56+00:00    iSocialFanz      True  Friday.. Heading to Columbus Ohio for a Web 3....
    79995  2022-08-28 12:27:46+00:00  BloombergAsia      True  Bitcoin appeared stuck around $20,000 on Sunda...
    
    [695 rows x 4 columns]

    3. Twitter-roBERTa-base for Sentiment Analysis + TweetEval

    Nun können wir mit Hugging Face Transformers eine vortrainiertes Modell verwenden, um allen Tweets entsprechende Sentiment Scores zuzuweisen. Wir nehmen hierfür das Modell Twitter-roBERTa-base for Sentiment Analysis, welches mit über 50 Millionen Tweets trainiert wurde und auf das TweetEval Benchmark für Tweet-Klassifizierung aufbaut. Weitere Infos unter dieser BibTex entry:

    @inproceedings{barbieri-etal-2020-tweeteval,
        title = "{T}weet{E}val: Unified Benchmark and Comparative Evaluation for Tweet Classification",
        author = "Barbieri, Francesco  and
          Camacho-Collados, Jose  and
          Espinosa Anke, Luis  and
          Neves, Leonardo",
        booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
        month = nov,
        year = "2020",
        address = "Online",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/2020.findings-emnlp.148",
        doi = "10.18653/v1/2020.findings-emnlp.148",
        pages = "1644--1650"
    }

    Wir installieren alle für den weiteren Verlauf benötigten Bibliotheken.

    pip install transformers numpy scipy

    Die Transformers Bibliothekt erlaubt uns den Zugriff auf das benötigte Modell für die Sentimentanalyse. Mit scipy softmax und numpy werden wir die Sentiment Scores ausgeben mit Werten zwischen 0.0 und 1.0, die folgendermaßen für alle 3 Labels ausgegeben werden:

    Labels: 0 -> Negative; 1 -> Neutral; 2 -> Positive

    Importieren der Bibliotheken:

    from transformers import AutoModelForSequenceClassification
    from transformers import AutoTokenizer
    import numpy as np
    from scipy.special import softmax
    import csv
    import urllib.request

    Wir schreiben eine Methode zum vorverarbeiten des Texts. Hier sollen später Usernamen und Links aussortiert werden. Außerdem vergeben wir das gewünschte Modell mit dem gewünschten Task (‘sentiment’) in eine vorgesehene Variable und laden einen AutoTokenizer ein, um später eine einfach Eingabe-Enkodierung zu generieren.

    # Vorverarbeitung des texts 
    def preprocess(text):
        new_text = []
     
     
        for t in text.split(" "):
            t = '@user' if t.startswith('@') and len(t) > 1 else t
            t = 'http' if t.startswith('http') else t
            new_text.append(t)
        return " ".join(new_text)
    
    
    task='sentiment'
    MODEL = f"cardiffnlp/twitter-roberta-base-{task}"
    
    tokenizer = AutoTokenizer.from_pretrained(MODEL)
    

    Als nächstes laden wir das Label Mapping aus TweetEval für das zugeordnete Task ‘sentiment’ herunter. Das Modell für die Sequenzklassifizierung kann nun gespeichert und in der ‘model’ Variable hinterlegt werden.

    # download label mapping
    labels=[]
    mapping_link = f"https://raw.githubusercontent.com/cardiffnlp/tweeteval/main/datasets/{task}/mapping.txt"
    with urllib.request.urlopen(mapping_link) as f:
        html = f.read().decode('utf-8').split("\n")
        csvreader = csv.reader(html, delimiter='\t')
    labels = [row[1] for row in csvreader if len(row) > 1]
    
    # Modell laden
    model = AutoModelForSequenceClassification.from_pretrained(MODEL)
    model.save_pretrained(MODEL)
    

    Im nächsten Schritt schreiben wir zwei Methoden, die dabei helfen sollen zeilenweise Tweet-Texte zu enkodieren und ein Sentiment Score zu vergeben. In einem Array sentiment_results legen wir alle Labels und entsprechende Scores ab.

    # Sentiment Scores für alle Tweets erhalten
    def get_sentiment(text):
        text = preprocess(text)
        encoded_input = tokenizer(text, return_tensors='pt')
        output = model(**encoded_input)
        scores = output.logits[0].detach().numpy()
        scores = softmax(scores)
        return scores
    
    # Sentimentanalyse für jede Zeile im Datensatz anwenden
    def analyze_sentiment(row):
        scores = get_sentiment(row['tweet_text'])
        ranking = np.argsort(scores)
        ranking = ranking[::-1]
        sentiment_results = []
        for i in range(scores.shape[0]):
            l = labels[ranking[i]]
            s = scores[ranking[i]]
            sentiment_results.append((l, np.round(float(s), 4)))
        return sentiment_results

    Zum Schluss wir das Dataframe um unser Ergebnis erweitert. Hierzu erstellen wir eine neue Spalte ‘sentiment’ und fügen mit der apply-Funktion die Ergebnisse aus unserer vorherigen Methode analyze_sentiement hinzu. Am Ende geben wir unser neues Dataframe in der Konsole aus.

    # Ergebnisse in neue Spalte "sentiment" speichern
    filtered_df['sentiment'] = filtered_df.apply(analyze_sentiment, axis=1)
    
    # Ausgabe des neuen DataFrames
    print(filtered_df)

    Wir erhalten ein neues Dataframe mit einer weiteren Spalte in der das Label und die Sentiment-Scores festgehalten werden! 🤗🚀

    Den gesamten Code könnt ihr euch auch auf meinem GitHub Profil ansehen oder klonen.


    Referenzen

    Han, Jiawei (2006). Data Mining: Concepts and Techniques, Simon Fraser University.

    Barbieri, F., Camacho-Collados, J., Espinosa Anke, L., & Neves, L. (2020). Tweet Eval: Unified Benchmark and Comparative Evaluation for Tweet Classification. In Findings of the Association for Computational Linguistics: EMNLP 2020, S. 1644-1650. https://aclanthology.org/2020.findings-emnlp.148.

    Hugging Face Transformers: https://huggingface.co/docs/transformers/index. Zuletzt aktualisiert am 27.08.2023.

    Kaggle Dataset: Leonel do Nascimento, Tiago; “Crypto Tweets | 80k in ENG | Aug 2022 “: https://www.kaggle.com/datasets/tleonel/crypto-tweets-80k-in-eng-aug-2022. (CC0 Public Domain Lizens), zuletzt aktualisiert am 27.08.2023.

    Wartena, Christian & Koraljka Golub (2021). Evaluierung von Verschlagwortung im Kontext des Information Retrievals. In Qualität in der Inhaltserschließung, 70:325–48. Bibliotheks- und Informationspraxis. De Gruyter, 2021. https://doi.org/10.1515/9783110691597.


    KI und die Sicherheit von Smart-Home-Systemen

    Autorin: Eliza SchnetzerKI


    “Smart Home” @Smart Home Haus Technik – Kostenloses Foto auf Pixabay

    KI

    Inhaltsverzeichniss

    Wie auch in vielen anderen Bereichen der Technik macht auch das Internet of Things (IoT) große Entwicklungsschritte. Dazu gehören auch sogenannte Smart-Home-Systeme, die eine immer weitere Verbreitung in deutschen Haushalten finden. Aus den vielseitigen Anwendungsbereichen ergeben sich neben komfortablen Alltagshilfen auch einige Fragen zur Sicherheit, gerade hinsichtlich Datenschutzes und Künstliche Intelligenz (KI) . In diesem Artikel sollen einige der Sicherheitslücken aufgedeckt und Lösungsansätze erläutert werden.

    KI, was ist das eigentlich?

    Immer häufiger hört man heutzutage diesen Begriff, aber was zeichnet die KI eigentlich aus? Normalerweise verarbeitet eine Maschine stumpf Daten. Eine KI ist allerdings in der Lage bestimmte Muster zu erlernen, um Entscheidungen auf der Basis von Informationen zu treffen. Dieses Vorgehen nennt man „Machine Learning“. Damit ist eine menschenähnliche kognitive Leistung möglich. Übertragen wir das auf unsere Smart-Home-Systeme bedeutet, dass, die Geräte erlernen unsere Verhaltensmuster und reagieren entsprechend darauf. Der aktuelle technische Stand ermöglicht das noch nicht umfangreich, zielt aber darauf ab. Bislang entscheiden sind das Erkennen und Befolgen von Wenn-Dann-Regeln.

    KI im eigenen Zuhause:

    @Smartest Home 2020

     

    Smart-Home-Anwendungen bieten einige Vorteile

    Smart-Home-Anwendungen haben einige Vorteile zu bieten, andernfalls würden sie sich nicht immer wachsender Beliebtheit erfreuen. Dazu gehören unter anderem:

    • Erhöhter Komfort: viele Aufgaben müssen nicht mehr selbst erledigt werden, sondern werden bequem von den Smart-Home Anwendungen übernommen. Beispiele hierfür sind z.B. das Saugen von Böden, Rasen mähen oder das automatische Angehen der Kaffeemaschine am Morgen
    • Vereinfachte Bedienung: durch die Steuerung per App kann man alle Anwendungen aus einer Stelle heraus bedienen, noch einfacher wird das Ganze mit Spracherkennung/Sprachbefehlen
    • mehr Sicherheit: durch das vernetzte System kann der Besitzer durch Push-Nachrichten auf sein Handy informiert werden, wenn z.B. ein Alarm ausgelöst wird. Gleichzeitig kann ein ausgelöster Alarm dazu führen, dass sich Türen und Fenster verriegeln
    • Senkung des Energieverbrauch: Geräte sind so programmiert, dass sie möglichst wenig Strom verbrauchen. So kann man z.B. mit Hilfe von einem Timer einstellen, wann das Licht ausgehen soll

    Sicherheitslücken in den Systemen

    Die komplexe technische Vernetzung bringt auch einige Risiken mit sich, wie sich in den Bereichen des Datenschutzes und der IT-Sicherheit zeigt. Die Smart-Home-Anwendungen sind durchgehend mit dem Internet verbunden. Das macht sie sehr anfällig für den unautorisierten Zugriff durch Hackerangriffe, die sich so den Zugriff zu sämtlichen Geräten in einem Haushalt verschaffen können. Um das zu vermeiden ist das regelmäßige Durchführen von Updates essenziell. Viele Risiken entstehen durch den Anwender selbst. So können fehlende technische Vorkenntnisse und die daraus resultierenden Bedienungsfehler zu schwerwiegenden Sicherheitslücken führen. Daher ist es wichtig, sich mit der Technik der Geräte auseinander zu setzen und ggfs. nochmal die richtige Funktionsweise zu überprüfen. Es stellt sich zudem die Frage, inwiefern die Daten gespeichert und verarbeitet werden. Das ist oft nicht transparent für den Benutzer, und da es sich um sensible personenbezogene Daten wie Kameraaufzeichnungen handelt, ist dieser Punkt nicht zu missachten.

    Personenbedingte Fehler

    Neben den technischen Fehlerquellen können natürlich auch von Menschenhand erzeugte Fehler Sicherheislücken hervorrufen. Zum einen ist es wichtig, dass sich Anwender vor der Anschaffung intensiv mit der Technik befassen. Oftmals scheitert es an fehlender Planung und das dem Informationsmangel über die Anwendung. Das kann wiederrum zu Anwendungsfehlern führen, die schwerwiegende Sicherheitsmängel bilden können. Wir tendieren oft dazu, zu günstigeren Alternativen zu greifen, was in diesem Fall aber eine fehlende Sicherheitszertifizierung bedeutet und ebenfalls vermehrt Sicherheitslücken aufweißt. Eine noch ausführlichere Hilfe bietet der folgende Artikel: Diese 5 Fehler machen fast alle Smart Home Einsteiger (homeandsmart.de)

    Einfacher Schutz im Alltag

    Wie kann ich mich also vor den vielfältigen Angriffsmöglichkeiten schützen? Es sind eigentlich ein paar ganz simple Tipps, wie man den Sicherheitsstandard der Smart-Home-Anwendung hochhält:

    • keinen direkten Internetzugriff: ist ein System direkt mit dem Internet verbunden, ist es leichter für z.B. Hacker dieses zu finden und zu hacken. Am sichersten ist es, denn Zugriff über ein VPN zu nutzen
    • System regelmäßig aktualisieren: für jedes System gibt es reglemäßig Updates, diese sollte man zeitnah durchführen um Bugs und Fehler in der Software zu beheben.
    • sichere Passwörter: ein simpler, aber oft missachteter Tipp ist es, ein sicheres Passwort zu vergeben, dass eine Kompination aus Groß- und Kleinschrift, Sonderzeichen und Zahlen beinhaltet. Dieses sollte in regelmäßigen Abständen geändert werden.
    • unnötige Dienste ausschalten: schalten Sie nicht benötigte Anwendungen aus, denn was nicht läuft, kann nicht angegriffen werden

    Fazit: trotz Sicherheitslücken wachsender Trend mit Luft nach oben

    Was lässt sich nun abschließend festhalten? Wenn man einige grundlegende Sicherheitsvorkehrungen beachtet und sich selbst mit den technischen Anwendungen befasst bieten Smart-Home-Anwendungen eine gute Möglichkeit sich den Alltag einfacher zu gestalten. Smart-Home-Anwendungen stehen noch relativ am Anfang ihrer technischen Möglichkeiten und sind auch noch lange kein fester Bestandteil in einem durchschnittlichen Haushalt. Auch die Zukunftserwartungen sind noch nicht erfüllt worden.

    «Wir glaubten damals, dass es eine allmächtige, zentrale Intelligenz geben werde, die je nach Stimmung eine automatische Lichtauswahl trifft, ohne unser Zutun Essen für den Kühlschrank nachbestellt und so weiter. Diese Vision ist nicht eingetreten, zumal die Installation und Konfiguration einer einzigen, zentralen Lösung viel zu komplex wäre. Stattdessen gibt es heute viele partielle Lösungen, beispielsweise für die Beleuchtung, die Soundanlagen oder die Sicherheit.»

    Zitat von Dr. Andrew Paice, Leiter vom iHomeLab

    weiterführende Informationen gibt es hier:

    Quellen- und Literaturverzeichnis

    Beitragsbild: Bild von Gerd Altmann auf Pixabay

    Wie beeinflusst digitale Datenanalyse die Transparenz von Daten?

    Autorinnen: Luisa Rabbe und Emelie Rademacher


    Die zunehmend komplexe Gestaltung digitaler Angebote und Dienste in den letzten Jahren hat starke Konzentrationstendenzen in der Datenökonomie verursacht. Einige Großunternehmen sammeln beträchtliche Datenmengen, kombinieren diese und werten die neuen Daten aus.[1] Dadurch können anonymisierte Daten häufig re-identifiziert werden.[2] Was hat das nun mit digitaler Datenanalyse zu tun?

    In diesem Fachbeitrag wird auf die Nutzung digitaler Daten eingegangen. Es wird erklärt was unter digitaler Datenanalyse und Datentransparenz verstanden wird und wie diese Einfluss auf die Arbeitswelt haben. Weiterhin wird betrachtet, wie der Staat Einfluss auf die Transparenz von Daten nimmt.

    Inhaltsverzeichnis

    Digitale Daten werden über alle elektronischen Endgeräte verknüpft

    Die Nutzung digitaler Daten

    Privatpersonen, Unternehmen und der Staat. Jeder Akteur der Marktwirtschaft verwendet täglich digitale Daten. Aber was sind digitale Daten? Bei digitalen Daten handelt es sich um digitale Dokumente und Medieneinheiten, die diskret oder indiskret Informationen darstellen. Diese Informationen können sowohl personenbezogene als auch nicht personenbezogene Daten sein. Wie kann nun mit diesen Daten umgegangen werden? Die Datennutzung ist immer eng verbunden mit Fragen zum verantwortungsvollen Umgang mit Daten und den sich dauerhaft weiterentwickelnden Technologien. Besonders wichtig sind dabei die Einhaltung von Gesetzen, wie die DSGVO, und die Orientierung an ethischen Werten. „[N]icht alles, was technisch möglich ist, [ist] auch ethisch vertretbar“[3], denn es gibt unter anderem Möglichkeiten über die Verfahren Profiling und Scoring Aussagen über das Verhalten sowie die Präferenzen einzelner Personen machen zu können und diese zu beeinflussen.[4]

    Digitale Datenanalyse und Datentransparenz

    Digitale Datenanalysen helfen, komplexe Sachverhalte schnell und transparent darzustellen. Dies geschieht durch das Erkennen von Zusammenhängen, Abhängigkeiten und Ungereimtheiten in Daten. Zur Datenanalyse wird vermehrt auf maschinelles Lernen anstatt auf Menschen zurückgegriffen, da bei der Analyse großer Datenmengen in kürzerer Zeit bessere Ergebnisse erzielt werden können.[5]

    Transparenz setzt voraus, dass Daten fehlerfrei, vollständig sowie zeitgerecht veröffentlicht und zugänglich sind. Zugleich dient sie als Voraussetzung für die Überwachung der Datennutzung. Dies wird möglich durch die Kontrolle der Datenverwendung durch alle Personen, die Zugang zu den jeweiligen Daten haben und die Fähigkeiten zur differenzierten Datenanalyse besitzen.[6]

    Einfluss der digitalen Datenanalyse auf die Arbeitswelt

    Digitale Datenanalyse und Datentransparenz haben einen bedeutenden Einfluss auf die Arbeitswelt. Durch die Verfügbarkeit von genauen und umfassenderen Daten können Unternehmen datengetriebene Entscheidungen treffen. Das bedeutet, dass sie Entscheidungen auf der Grundlage von Daten und nicht nur auf Intuition oder Vermutungen treffen. Dies führt zu besseren Entscheidungen, die auf den tatsächlichen Bedürfnissen und Trends des Marktes basieren.[7]

    Darüber hinaus können Unternehmen durch die Verwendung von Datentransparenztools ihre Geschäftsprozesse besser überwachen und regulieren. Dies bedeutet, dass sie in Echtzeit Einblicke in ihre Prozesse erhalten und mögliche Probleme schnell erkennen und beheben können. Somit können die Effizienz gesteigert und Kosten eingespart werden. Außerdem sorgt dies für eine bessere Kontrolle und Überwachung von Geschäftsprozessen. Zusätzlich ermöglicht digitale Datenanalyse und die Nutzung von Datentransparenztools Unternehmen dazu, große Mengen an Daten schneller und effizienter zu analysieren. Dies führt zu einer besseren Entscheidungsfindung und höheren Effizienz.

    Insgesamt hat die Verwendung von digitaler Datenanalyse und Datentransparenz einen signifikanten Einfluss auf die Arbeitswelt, indem sie Effizienz, datengetriebene Entscheidungen und Überwachung von Geschäftsprozessen verbessern.[8]

    Die Rolle des Staates in der digitalen Datenanalyse

    Der Staat spielt eine wichtige Rolle bei der Steuerung der Verwendung von Datenanalyse und Datentransparenz. Durch Gesetze und Regulierungen, wie die Datenschutzgrundverordnung (DSGVO) in Europa, wird sichergestellt, dass persönliche Daten sicher und geschützt sind und das Unternehmen verantwortungsvoll mit diesen Daten umgehen.[9]

    Zudem legt der Staat Richtlinien fest, die Unternehmen verpflichten, bestimmte Standards bei der Datensammlung, -verarbeitung und -nutzung einzuhalten. Dies garantiert, dass Daten genau und verlässlich sind und die Datentransparenz ein hohes Niveau hat. Der Staat ist auch verantwortlich für die Überwachung der Einhaltung dieser Gesetze und Regelungen durch Unternehmen. Dies kann durch Regulierungsbehörden oder durch Strafen und Bußgelder bei Verstößen geschehen.[10]

    Darüber hinaus sind staatliche Stellen selbst oft Nutzer von Datenanalyse, beispielsweise für staatliche Überwachungs- und Überprüfungszwecke oder für die Erstellung von Statistiken.[11] Hierbei muss jedoch sichergestellt werden, dass dies im Rahmen der Gesetze und Regulierungen geschieht und die Datenrechte der Bürger geschützt bleiben. Zudem kann der Staat Regulierungen erlassen, die den Zugang zu bestimmten Daten einschränken, um die Privatsphäre und den Schutz sensibler Daten zu garantieren. Dies garantiert, dass Daten nicht missbraucht werden und das die Transparenz der Daten aufrechterhalten wird. Weiterhin können Unternehmen vom Staat verpflichtet werden, Regeln für den Umgang mit Daten und den Schutz persönlicher Informationen einzuhalten.[12]

    Beispielsweise kann der Staat Gesetze erlassen, die Unternehmen verpflichten, über die Daten, die sie sammeln, transparent zu informieren. Dies kann die Verwendung von Daten, die Art und Weise, wie sie gesammelt werden und wer Zugang dazu hat, umfassen.[13] Außerdem muss der Staat auf die Entwicklungen im Bereich der digitalen Datenanalyse reagieren und gegebenenfalls Gesetze und Regulierungen anpassen, um sicherzustellen, dass sie weiterhin gültig und wirksam bleiben.[14]

    Fazit

    Zusammenfassend ist zu erkennen, dass sowohl digitale Datenanalyse als auch Datentransparenz für sich genommen bedeutend für jeden Akteur der Marktwirtschaft sind. Besonders deutlich wird allerdings auch, dass die Datenanalyse einen sichtbaren Einfluss auf die Transparenz von Daten nimmt. Nur wenn Daten durch Analyseverfahren verstanden werden, können sie auch verwendet werden. Sie sind dann transparent. Dabei darf die Notwendigkeit von Gesetzen und Regulierungen nicht vernachlässigt werden, um die Rechte des Einzelnen zu schützen.


    Begriffsdefinitionen

    Nicht personenbezogene Daten

    Als nicht personenbezogene Daten werden alle Daten bezeichnet, die keine personenbezogenen Daten aufweisen oder stark genug anonymisiert worden sind, dass die Anonymisierung nicht rückgängig gemacht werden kann.[15]

    Personenbezogene Daten

    Personenbezogenen Daten bezeichnen alle Daten und Informationen, die auf eine lebende identifizierte oder identifizierbare Person verweisen. Darüber hinaus werden auch pseudonymisierte Daten, anonymisierte Daten, die re-identifiziert werden können, als personenbezogene Daten bezeichnet.[16]

    Profiling

    Bei dem Verfahren Profiling findet das Sammeln und Verknüpfen von personenbezogenen Daten zu persönlichen Profilen von einzelnen Menschen statt. Diese Profile werden dann zur Auswertung, Bewertung, Analyse und Vorhersage spezifischer Merkmale von Personen verwendet.[17]

    Scoring

    Das statistisch-mathematische Verfahren Scoring ordnet dem Profil eines Menschen oder Unternehmens einen Wert zu. Dieser Wert zeigt die Intensität der Ausprägung verschiedener Merkmale und wird zur Kategorisierung und Klassifizierung verwendet.[18]


    [1] Vgl. Die Bundesregierung (2021), S. 6
    [2] Vgl. Günter (2020), S. 62
    [3] Die Bundesregierung (2021), S. 7
    [4] Vgl. Ebd., S. 7
    [5] Vgl. Lucke; Gollasch (2022), S. 96
    [6] Vgl. Günter (2020), S. 201
    [7] Vgl. Kämpf, Vogl, Boes (2022)
    [8] Vgl. Küng, Keller, Hofer (2022)
    [9] Vgl. Wewer (2022)
    [10] Vgl. Kubicek (2020)
    [11] Vgl. Fulko (2021)
    [12] Vgl. Fischer, Kraus (2020)
    [13] Vgl. Kubicek (2020)
    [14] Vgl. Fischer, Kraus (2020)
    [15] Vgl. Europäische Kommission (2014)
    [16] Vgl. Ebd.
    [17] Vgl. Die Bundesregierung (2021), S. 116
    [18] Vgl. Ebd., S. 116


    Über die Autorinnen

    Luisa Rabbe ist im dritten Semester des Studienganges Informationsmanagement immatrikuliert. Das Studium absolviert diese an der Fakultät III in der Abteilung Information und Kommunikation an der Hochschule Hannover. Die Autorin ist 24 Jahre alt und wohnhaft in Hannover.

    Emelie Rademacher ist im dritten Semester des Studienganges Informationsmanagement immatrkuliert. Das Studium absolviert diese an der Fakultät III in der Abteilung Information und Kommunikation an der Hochschule Hannover. Gleichzeitig arbeitet sie als Minijobberin bei der Edeka Cramer GmbH im Bereich Backwaren Bedienung. Die Autorin ist 20 Jahre alt und wohnhaft in Hannover.


     

    Quellenverzeichnis

    Die Bundesregierung (2021): Datenstrategie der Bundesregierung. Eine Innovationsstrategie für gesellschaftlichen Fortschritt und nachhaltigen Wachstum. Online unter https://www.bundesregierung.de/breg-de/suche/datenstrategie-der-bundesregierung-1845632 [Abruf am 28.01.2023]

    Europäische Kommission (2014): Was sind personenbezogene Daten? Online unter https://commission.europa.eu/law/law-topic/data-protection/reform/what-personal-data_de [Abruf am 29.01.2023]

    Fischer, Caroline; Kraus, Sascha (2020): Digitale Transparenz. In: Klenk, Tanja; Nullmeier, Frank; Wewer, Göttrik (Hg.): Handbuch Digitalisierung in Staat und Verwaltung. Wiesbaden: Springer VS, S.159-170

    Fulko, Lenz (2021): Der digitale Staat – Transparenz als Digitalisierungsmotor. Argumente zu Marktwirtschaft und Politik, No. 155. Berlin: Stiftung Marktwirtschaft

    Kämpf, Tobias; Vogl, Elisabeth; Boes, Andreas(2022): Inverse Transparenz. Ein soziologischer Perspektivenwechsel für einen nachhaltigen Umgang mit Transparenz in der digitalen Arbeitswelt. In: Boes, Andreas; Hess, Thomas; Pretschner, Alexander; Kämpf, Tobias; Vogl, Elisabeth (Hg.): Daten-Innovation-Privatheit. Mit Inverser Transparenz das Gestaltungsdilemma der digitalen Arbeitswelt lösen. München: ISF München, S.24-33

    Kubicek, Herbert (2020): Informationsfreiheits- und Transparenzgesetze. In: Klenk, Tanja; Nullmeier, Frank; Wewer, Göttrik (Hg.): Handbuch Digitalisierung in Staat und Verwaltung. Wiesbaden: Springer VS, S.171-186

    Küng, Marco; Keller, Daniel F.; Hofer, Nicolas(2022): Transport – Im Wandel der Corona-Kriese. In: Luban, Katharina; Hänggi, Roman (Hg.): Erfolgreiche Unternehmensführung durch Resilienzmanagement. Branchenübergreifende Praxisstudie am Beispiel der Corona-Kriese. Berlin: Springer Vieweg, S. 181-196

    Lucke, Jörn von; Gollasch, Katja (2022): Offene Daten und offene Verwaltungsdaten –  Öffnung von Datenbeständen. In: Hünemohr, Holger; Lucke, Jorn von; Stember, Jürgen; Wimmer, Maria A. (Hg.): Open Government. Offenes Regierungs- und Verwaltungshandeln – Leitbilder, Ziele und Methoden. Wiesbaden: Springer Gabler, S. 49-73

    Müller, Günter (2020): Protektion 4.0: Das Digitalisierungsdilemma. Die blaue Stunde der Informatik. Berlin: Springer Vieweg

    Wewer, Göttik (2020): Datenschutz. In: Klenk, Tanja; Nullmeier, Frank; Wewer, Göttrik (Hg.): Handbuch Digitalisierung in Staat und Verwaltung. Wiesbaden: Springer VS, S.187-198

    Alle Bilder unterliegen der Pixabay-Lizenz