BIB – Seite 2

5. Oktober 20216. Oktober 2021

Mehr Interaktivität im Kurs Content Management über h5p

In den letzten Corona-Semestern konnten viele Kurse nur online angeboten werden. Dadurch sind auch im Kurs Content Management in den Studiengängen Informationsmanagement und Informationsmanagement berufsbegleitend einige Screencasts entstanden.

In einem nächsten Schritt haben wir die Screencast-Videos mit Interaktionselementen wie Wiederholungsfragen, Links, Inhaltsübersichten, Checklisten oder kleinen Quizzes über h5p ergänzt:

Inhaltsverzeichnis im Screencast-Video über h5p

Checklist mit h5p — Checkliste über h5p: Wie gut ist Ihr WordPress-Beitrag?

Im aktuellen Wintersemester 21/22 setzen wir die um h5p erweiterten Screencasts für Content Management das erste Mal aktiv in der Lehre ein und sind gespannt auf die Rückmeldung der Studierenden.

Stud.IP und h5p

Bisher fehlte uns eine zentrale Möglichkeiten der Bereitstellung von h5p-Lernmodulen, da unser Moodle diese Funktionalität nicht bietet. Die Erstellung und Bereitstellung von h5p über WordPress funktioniert zwar gut, aber ist etwas weit weg von unseren Lehrinhalten über separat notwendige WordPress-Installationen. Daher freuen wir uns über den Testbetrieb von Stud.IP seit diesem Semester an der Fakultät 3. In Stud.IP ist jetzt direkt in Veranstaltungen die Erstellung und Einbindung von h5p Lernmodulen möglich – ohne Medienbruch durch den Sprung zu einer separaten WordPress-Installation:

Austausch und Kompatibilität von h5p Lernmodulen

Die Kompatibilität und die Standardisierung von h5p Lernmodulen ist besonders hilfreich, wenn man die Lernmodule nachträglich auf verschiedene Arten bereitstellen möchte. Unabhängig davon, in welcher Umgebung h5p Lernmodule erstellt wurden (WordPress, Stud.IP, …), können sie jederzeit per Download und erneuten Upload in ein anderes System plattformübergreifend bereit gestellt und ausgetauscht werden.

Weitere h5p Lernmodule aus Studierendenprojekt

Studierende im Studiengang Informationsmanagement – berufsbegleitend widmeten sich in einem Studierendenprojekt unter Anleitung von Monika Steinberg der Konzeption und Umsetzung von h5p Lernmodulen zu bestehenden Lehrinhalten.

Im Ergebnis entstand eine Liste von möglichen h5p-Elementen und deren Anwendung sowie ein bunter Mix an Beispielen für deren Einsatz. Mehr dazu in einem Beitrag im QpLuS-IM-Blog:
h5p für interaktive Lernressourcen: Ergebnisse eines Studierendenprojekts

25. März 202129. Juli 2025

Bibliotheken im digitalen Wandel: Von der Buchkarte zum digitalen Nutzerkonto

Autorinnen: Anna Pläp und Tamara Schaufler

Bibliotheken befinden sich im digitalen Wandel – in aktuellen Zeiten von Corona mehr denn je. Dass viele Publikationen online verfügbar sind, wir unsere Medien am Verbuchungsautomaten selbst ausleihen können und diese über das Internet mit ein paar Klicks verlängern, ist für viele Bibliotheksnutzer:innen der ganz normale Alltag. So wird der digitale Wandel in Bibliotheken meist mit Zukunftsvisionen verbunden. Doch wie viel Digitalisierung von Bibliotheksdiensten gab es in den vergangenen Jahr(zehnt)en bereits, und wie sah es eigentlich früher aus? ^[1]

Inhaltsverzeichnis

Buchkarten und Katalogkarteien – konventionelle Ausleihverfahren

Manch eine:r erinnert sich noch daran: bevor digitale Ausleihsysteme Einzug in die Bibliothekswelt erhalten haben, gestaltete sich das Ausleihverfahren analog. Dies war zum Teil mit erheblichem Aufwand verbunden.

Hierzu gab es verschiedene Vorgehensweisen:

Die Buchkarte

Jedes ausleihbare Buch im Bestand der Bibliothek hatte eine Buchtasche an der vorderen oder hinteren Innenseite des Buchdeckels eingeklebt. Darin befand sich eine Buchkarte, auf der Signatur, Verfasser:in und Titel des Buches vermerkt waren. Ein Großteil der Karte war frei für die Eintragung der Nutzernummer und ggf. Fristdaten des Entleihenden. Wollte man es ausleihen, ging man zur Leihstelle der Bibliothek, wo durch eine:n Mitarbeiter:in die Nutzernummer und teilweise der Name der entleihenden Person auf die Buchkarte eingetragen wurde. Diese wurde anschließend nach Rückgabedatum in die sogenannte Fristkartei einsortiert. Auf dem Vorsatzblatt oder dem Rückcover des Buches gab es ein Fristblatt, worauf das Rückgabedatum gestempelt wurde. ^[2]

Für die Bibliotheksmitarbeiter:innen ergab sich somit der Aufwand, die Fristkartei regelmäßig manuell zu überprüfen. Waren Leihfristen überschritten, haben sie die Mahngebühren manuell erstellt. Verlängerungswünsche musste man als Kund:in für jedes Buch persönlich vortragen, um die Leihfrist anpassen zu lassen.

Leihscheine

Für die Ausleihe eines Buches hat der Entleihende einen Leihschein ausgefüllt. Dieser bestand in der Regel aus drei Teilen, in einigen Bibliotheken fand er zweiteilig Anwendung. Der erste Abschnitt (Stammabschnitt) enthielt die Daten des Bestellenden sowie Titel und Verfasser:in des Buches. Die beiden weiteren Abschnitte, der Kupon und der Löschabschnitt enthielten die Signatur des Buches und die Benutzernummer des Entleihenden. Bei zweiteiligem Leihschein entfiel der Löschabschnitt.

In der Leihstelle der Bibliothek gab es zwei Karteien: die Benutzerkartei und die Kuponkartei. Die Benutzerkartei war nach Namen oder Benutzernummer aufgestellt. Hier wurden der Stammabschnitt und der Löschabschnitt, gestempelt mit der Leihfrist, einsortiert. Die Kuponkartei war nach Signaturen aufgestellt, sodass anhand dieser festgestellt werden konnte, bei welchem Entleihenden sich ein bestimmtes Buch befindet.

Der Löschabschnitt kam bei der Rückgabe des Buches zum Einsatz. Anhand dieses Abschnitts wurde der Kupon aus der Kuponkartei gezogen. Den Stammabschnitt erhielt der Entleihende des Buches als Rückgabequittung.

Gab es keinen Löschabschnitt, wurde der Kupon anhand der Bücher selbst gezogen. Mitunter gab es keine Kuponkartei, folglich verblieb der Kupon als Repräsentant im Regal an der jeweiligen Stelle des Buches. ^[3]

Kartenkataloge

Erste Kartenkataloge (auch Zettelkataloge genannt) mit einfachsten Mitteln gab es bereits gegen Ende des 16. Jahrhunderts. Kartenkataloge, wie wir sie heute teilweise noch kennen, gab es seit Anfang der 1930er Jahre. ^[4]

Es gab teilweise mehrere Kartenschränke, in denen für jedes Buch im Bestand der Bibliothek eine Karte mit den bibliografischen Angaben lag. Diese wurde mit Hilfe einer Schreibmaschine angefertigt und teilweise handschriftlich ergänzt. Für die Recherche darin konnte nach Verfasser:in, Titel, Schlagwort, Standort (=Signatur) oder Regionen gesucht werden. Natürlich gab es für jede dieser Optionen einen eigenen Kartenschrank mit entsprechenden Karten. Für ein Buch gab es also mehrere Karten.

Viele Bibliotheken haben ihre Kartenkataloge digitalisiert, sodass darin weiterhin nach Altbestand gesucht werden kann. Zwar sind die Daten zum Teil in digitale Datenbanken eingespielt worden, aufgrund der Vielzahl an Datensätzen jedoch nicht immer vollständig. Beispiele (anklicken, um auf die entsprechende Website zu kommen):

Kartenkatalog der ZBW

Kartenkataloge des Hauses Berliner Stadtbibliothek

Seiten: 1 2

28. Februar 202029. Juli 2025

Data Mining bei der Warenkorbanalyse

WebLab HsH: Data Mining und Warenkorbanalyse

Autori*nnen: Judith Hauschulz und Verena-Christin Schmidt

Oder: Werden Windeln und Bier wirklich oft zusammen gekauft?

Die Warenkorbanalyse gehört zum Data Mining und ist ein Anwendungs-gebiet der Assoziationsanalyse. Wenn du diese Begriffe hörst, ist dir wahrscheinlich klar, dass es um Daten geht. Aber das klingt nun vielleicht etwas trocken, deshalb fangen wir nochmal neu an:

- Du wolltest schon immer wissen, warum dir beim Online-Shopping „passende“ Artikel vorgeschlagen werden?
- Dich interessiert, wieso sich die Süßigkeiten im Supermarkt immer auf dem Weg zur Kasse befinden?
- Oder du willst einfach endlich erfahren, was da eigentlich dahintersteckt?

Dann bist du hier genau richtig! Wir erklären dir, wie das funktioniert. Doch dazu fangen wir erst einmal beim Allgemeinen an: dem Data Mining.

Was bedeutet Data Mining?

Eigentlich heißt Data Mining nur „Datenschürfen“. Dabei soll aus Daten Wissen erzeugt werden.¹ Mit Wissen ist hier ein Muster gemeint, das für NutzerInnen interessant ist oder auch interessant sein kann. Ein Muster besteht dann wiederum aus Beziehungen zwischen Daten oder Regelmäßigkeiten und wird Datenmustererkennung genannt. ²

In der Graphik kannst du den Ablauf des Data Minings ablesen. Das Ganze stellt einen Prozess dar, bei dem das Ziel ist, dass man neue Erkenntnisse gewinnt. Dabei beschränkt man zuerst eine große Menge an Rohdaten auf eine kleinere Auswahl, sodass sie anschließend verarbeitet werden können. So dienen sie also als Grundlage für die Muster, die das Data Mining aufdecken soll.³

Es gibt sehr viele Verfahren im Data Mining. Wir erklären dir aber nur die Assoziationsanalyse, weil sie relevant für die Analyse von Waren ist. Sie zählt zu den bekannteren beziehungsweise typischen Methoden des Data Minings.⁴

Assoziationen im Data Mining

"Die Assoziationsanalyse gehört zu einem der grundlegendsten Verfahren in der Datenanalyse und spielt im wirtschaftlichen Bereich eine große Rolle." ⁵

Mit der Assoziationsanalyse kannst du Abhängigkeiten und Zusammenhänge in großen Datenmengen ermitteln. Dazu benutzt man sogenannte Items. Stell sie dir am besten wie Produkte im Supermarkt vor! Mit diesen Items können wir dann Berechnungen durchführen. Wir könnten also schauen, ob zwei von ihnen auffällig oft gemeinsam vorkommen.

Es kann aber auch passieren, dass ein Item besonders dann auftritt, wenn ein anderes Item vorhanden ist. Ein Item kann sogar das Vorkommen eines anderen Items begünstigen. Wenn das eintritt, lassen sich da-raus Assoziationsregeln ableiten.¹ Aus ihnen können wir beispielsweise Vorhersagen treffen oder Empfehlungen aussprechen.

Als Ergebnis erhalten wir Regeln, die folgende Form haben:

"Wenn Item A vorliegt, dann tritt in X Prozent der Fälle auch Item B auf."⁶

Diese Regeln der Assoziationsanalyse können wir benutzen, um zum Beispiel Wechselwirkungen verschiedener Medikamente zu erforschen. Und auch wenn man Zusammenhänge bei der Wahl von Anlageformen bei Banken aufdecken möchte, ist sie nützlich.⁷ Ein wesentlich bekannteres Beispiel ist aber die Empfehlung von Artikeln im Online-Handel. Wenn wir einen Artikel aufrufen, dann zeigt uns die Seite oft, was andere KundInnen noch gekauft haben.⁸ Solche Vorhersagen lassen sich auch aufgrund von Warenkorbanalysen treffen.

Warenkorbanalyse mit Bier und Windeln

In einer Folge der Serie “Numb3rs – Die Logik des Verbrechens” geht es um ein beliebtes Beispiel der Warenkorbanalyse. Windeln und Bier werden hier sehr oft zusammen gekauft. Auch wenn es erstaunlich erscheint, so haben sie eine logische Erklärung dafür: Männer, die von ihren Frauen zum Windelkauf aufgefordert werden, kaufen gerne noch Bier dazu. Damit haben sie etwas, worauf sie sich nach der „Arbeit mit dem Kind“ freuen und was sie genießen können. Darum kommt es zu dem Ergebnis, dass das Bierregal auf dem Weg von den Windeln zur Kasse platziert und so der Umsatz gesteigert wird.⁹

Die Warenkorbanalyse unter den Data Mining-Verfahren

Bei der Warenkorbanalyse wertet man die Einkäufe von KundInnen aus, um dadurch verschiedene Items zu untersuchen. Die Items bestehen hier aus den Artikeln von zum Beispiel Supermärkten. Alle Kaufaktionen zusammengefasst ergeben die Datenbasis.⁷

Fast alle Unternehmen, die Waren verkaufen, haben die Daten, die für das Data Mining mit der Warenkorbanalyse nötig sind. Schon einige Kassenbons reichen aus und es wird kein spezielles System benötigt. Damit lassen sich dann stark nachgefragte Produkte ermitteln oder Verbindungen zwischen verschiedenen Waren untersuchen.¹⁰ Mit der Analyse können wir also auch erfahren, wie oft ein Produkt mit einem anderen im Warenkorb landet. Um dabei die „Spreu vom Weizen“ zu trennen, werden Assoziationsregeln erstellt.¹¹ Aber wie können wir denn nun Muster finden?

Wenn Menschen Lebensmittel einkaufen gehen, haben sie meistens eine Einkaufsliste dabei, damit sie nichts vergessen. Auf manchen Listen befinden sich viele gesunde Produkte, wohingegen auf anderen eher Bier und Chips stehen. Daraus können wir schon Muster erkennen, durch die sich die Waren im Supermarkt entsprechend sortieren lassen.¹²

Werden Bier und Windeln wirklich oft zusammengekauft?

Wenn wir Zusammenhänge und Abhängigkeiten berechnen wollen, müssen wir (leider) etwas mathematisch werden. Aber keine Angst, wir benutzen dafür ein leicht verständliches und nachvollziehbares Beispiel.

Zuerst brauchen wir die drei Kennzahlen Support, Konfidenz und Lift. In der Tabelle steht ein Beispiel, dass dir helfen wird, um diese Kennzahlen zu verstehen. Bei uns geht es lediglich um zwei Produkte. Insgesamt untersuchen wir hier aber 1.000.000 Transaktionen beziehungsweise Einkäufe. Darin kommen auch 200.000-mal der Kauf von Bier und 50.000-mal der Kauf von Windeln vor. Die KundInnen dieses Supermarkts haben Bier und Windeln sogar 20.000-mal gleichzeitig gekauft.

Anzahl	Waren
1.000.000	Transaktionen insgesamt
200.000	Bier
50.000	Windeln
20.000	Windeln und Bier

Los geht die Warenkorbanalyse…

Wie oft werden Bier und Windeln denn nun zusammen gekauft? Um das zu erfahren, berechnen wir den Support. Dafür setzen wir zuerst die Anzahl der Käufe von Bier und Windeln separat ins Verhältnis aller vorliegenden Einkäufe. Danach machen wir das genauso mit der Anzahl der gemeinsamen Käufe, sodass wir einen Support von 2% erhalten.

Die Konfidenz sagt uns, wie oft eine Assoziationsregel („Wenn Bier gekauft wird, dann werden auch Windeln gekauft“) richtig ist. Sie gibt außerdem einen Hinweis darauf, wie stark der Zusammenhang zwischen Bier und Windeln ist.¹¹

Wenn wir die Konfidenz berechnen wollen, brauchen wir die Support-Werte. Zu Beginn teilen wir dabei den gemeinsamen Support durch den einzelnen Support des Biers. Daraus ergibt sich eine Konfidenz von 10%. Weil das noch nicht besonders viel ist, drehen wir die Assoziationsregel einfach mal um. Somit ergibt sich eine Konfidenz von 40%, da nun die Anzahl der Windel-Einkäufe die Bezugsgröße darstellt.

Die zweite Regel zeigt also ein Muster auf, das der Supermarkt so nutzen kann: Wenn das Bier in Sichtweite der Windeln positioniert wird, dann wird beides häufiger zusammen gekauft werden.⁷

Ob der Kauf von Bier und Windeln nun wirklich zusammenhängt, verrät der Lift. Er sagt uns auch, um wieviel wahrscheinlicher Windeln den Kauf von Bier machen. Dafür müssen wir den gemeinsamen Support durch das Produkt der einzelnen Support-Werte teilen.

Das Ergebnis ist ein Lift von 200%. Das heißt, dass der Kauf von Windeln die Wahrscheinlichkeit für den zusätzlichen Kauf von Bier sogar verdoppelt!

Zur Erklärung: Ein Lift von 100% würde stattdessen bedeuten, dass beide Items unabhängig voneinander sind. Bei einem Lift, der kleiner als 100% ist, ist es unwahrscheinlich ist, dass beide Items zusammen auftreten.¹¹

Was bringt die Warenkorbanalyse?

Wie du siehst, ist es eigentlich doch ganz einfach, Muster und Abhängigkeiten zu entdecken. Wenn wir uns aber nicht nur mit zwei, sondern mit allen Artikeln eines Supermarkts beschäftigen würden, so wäre es deutlich schwieriger. Wir hätten dann ja viel mehr Daten, wodurch sich der Umfang der Berechnungen massiv erhöhen würde. Umso besser ist aber dadurch das Endergebnis. Aus einer großen und umfangreichen Warenkorbanalyse gewinnt man nämlich nicht nur ein paar Muster, sondern das gesamte Einkaufsverhalten der KundInnen. Das können Unternehmen für Dinge nutzen, wie zum Beispiel:

- Regalplatzierungen
- Preisgestaltung
- Rabatt-Aktionen
- zielgerichtetes Marketing¹²

Sobald Unternehmen die Warenkorbanalyse benutzen, geht es aber auch immer darum, das Angebot zu optimieren und den Umsatz zu steigern.¹⁰

Gut aufgepasst? Überprüfe jetzt dein Wissen mit dem Quiz zum Data Mining mit der Warenkorbanalyse!

Wenn du mehr darüber erfahren willst, warum wir diesen Beitrag geschrieben haben, dann lies dir doch unser Konzept durch. Darin erklären wir auch, wie wir beim Verfassen von „Data Mining mit der Warenkorbanalyse“ vorgegangen sind.

Quellenverzeichnis

¹ vgl. Cleve, Jürgen; Lämmel, Uwe (2016): Data Mining. 2. Auflage. Berlin, Boston: De Gruyter Saur

² vgl. Bissantz, Nicolas; Hagedorn, Jürgen (1993): Data Mining (Datenmustererkennung). In: Wirtschaftsinformatik Jg. 35, H. 5, S. 481–487

³ vgl. Reutterer, Thomas; Hahsler, Michael; Hornik, Kurt (2007): Data Mining und Marketing am Beispiel der explorativen Warenkorbanalyse. In: ZFP. Journal of Research and Management. Jg. 29., H. 3, S. 163-179

⁴ vgl. Beekmann, Frank (2003): Stichprobenbasierte Assoziationsanalyse im Rahmen des knowledge discovery in databases. Wiesbaden. Deutsche Universitäts-Verlag

⁵ Begerow, Markus u.a. (2019): Assoziationsanalyse. Online unter https://www.datenbanken-verstehen.de/lexikon/assoziationsanalyse/ [Abruf am 20.12.2019]

⁶ Beekmann, Frank (2003): Stichprobenbasierte Assoziationsanalyse im Rahmen des knowledge discovery in databases. Wiesbaden. Deutsche Universitäts-Verlag

⁷ vgl. Bankhofer, Udo; Vogel, Jürgen (2008): Datenanalyse und Statistik. Eine Einführung für Ökonomen im Bachelor. Wiesbaden: Gabler

⁸ vgl. Zaki, Mohammed J. ; Meira Jr., Wagner (2013): Data Mining and Analysis. Fundamental Concepts and Algorithms. Online unter https://repo.palkeo.com/algo/information-retrieval/Data%20mining%20and%20analysis.pdf [Abruf am 16.12.2019]

⁹ vgl. Swoyer, Stephen (2016): Beer and Diapers. The impossible correlation. Online unter https://tdwi.org/articles/2016/11/15/beer-and-diapers-impossible-correlation.aspx [Abruf am 17.12.2019]

¹⁰ vgl. Poliakov, Vladimir (2019): Data Science. Warenkorbanalyse in 30 Minuten. Online unter https://www.heise.de/developer/artikel/Data-Science-Warenkorbanalyse-in-30-Minuten-4425737.html [Abruf am 13.12.2019]

¹¹ vgl.Rabanser, Alexander (2018): Warenkorbanalyse Teil 1. Analytische Grundlagen und Korrelationsanalyse in Excel. Online unter https://linearis.at/blog/2018/04/06/warenkorbanalyse-teil-1-analytische-grundlagen-und-korrelationsanalyse-in-excel/ [Abruf am 13.12.2019]

¹² vgl. Ng, Annalyn; Soo, Kenneth (2017): Data Science – Was ist das eigentlich?! Algorithmen des maschinellen Lernens verständlich erklärt. Berlin, Heidelberg: Springer

Dieser Beitrag ist im Rahmen der Lehrveranstaltung Content Management im Wintersemester 2019/20 bei Andre Kreutzmann (und Monika Steinberg) entstanden.

28. Februar 202029. Juli 2025

Aufgabentypen des Data Mining

Autorin: Linda Görzen

Dieser Beitrag im Überblick:

Einführung: Data Mining – Was ist das?
Klassifikation
Regressionsanalyse
Assoziationsanalyse
Ausreißererkennung
Clusteranalyse
Fazit

Einführung: Data Mining – Was ist das?

”Signals always point to something. In this sense, a signal is not a thing but a relationship. Data becomes useful knowledge of something that matters when it builds a bridge between a question and an answer. This connection is the signal.”

― Stephen Few, Signal: Understanding What Matters in a World of Noise^[5]

Unter Data Mining versteht man einen Prozess, bei dem man mithilfe anspruchsvoller mathematischer und statistischer Algorithmen in großen Datenmengen nach Mustern, Trends und Zusammenhängen sucht.^[1] Die Besonderheit des Data Mining ist die automatische Generierung der neuen Hypothesen aus den Datenmengen.^[4] So kann man beispielsweise anhand der Verkaufsdaten untersuchen, ob und wann Kunden, die Produkt A gekauft haben, auch Produkt B kaufen.

Ziele der Untersuchung einer Datenmenge können unterschiedlich sein. Je nach Ziel gibt es im Data Mining dafür passende Aufgabenstellungen beziehungsweise -typen und dazugehörige Methoden. Typische Aufgabentypen sind Klassifikation, Regressionsanalyse, Assoziationsanalyse, Ausreißererkennung und Clusteranalyse. Darüber hinaus werden die Aufgabentypen des Data Mining oftmals nur in zwei Gruppen eingeteilt. Diese sind Beobachtungsprobleme (Clusteranalyse, Ausreißererkennung) und Prognoseprobleme (Klassifikation, Regressionsanalyse). ^[6]

Klassifikation

Die Objekte der vorhandenen Daten werden anhand ihrer Merkmale in Klassen zusammengefasst. Die dadurch gebildeten Klassenmengen dienen als Grundlage für die Entwicklung eines Klassifikationsmodells. Mit dem Klassifikationsmodell lässt sich nun die Klassenzugehörigkeit eines neuen Objekts automatisch vorhersagen.^[2]

Regressionsanalyse

Die Regressionsanalyse basiert auf den Konzepten der Varianz und Kovarianz. Dies bedeutet, es wird nach Zusammenhängen beziehungsweise Abhängigkeiten zwischen Variablen gesucht. Meistens setzt man eine Regressionsanalyse bei Prognosen und Vorhersagen ein.^[3]

So ist es möglich, aus den historischen Daten der Umsätze eines Kunden und seinem Wohnort eine Kennzahl zu ermitteln. Diese Kennzahl kann beispielsweise der zu erwartende Umsatz, den der Kunde in Zukunft einbringen wird, sein.^[8]

Assoziationsanalyse

Bei der Assoziationsanalyse untersucht man die einzelnen Datensätze eines Datenbestandes auf Zusammenhänge, bei denen auf ein Ereignis konsequent ein anderes folgt. ^[8] Diese Zusammenhänge werden über Wenn-dann-Regeln beschrieben. Typischer Anwendungsbereich der Assoziationsanalyse ist die Untersuchung des Warenkorbes. Ein Beispiel dafür ist folgendes: Wenn ein Kunde Mehl kauft, dann kauft er wahrscheinlich auch die Butter. Die Assoziationsanalyse kann aber auch für die Untersuchung komplexerer Zusammenhänge benutzt werden. Etwa, in welchem Zeitabstand nach dem Kauf des Produktes A, der Kauf des Produktes B erfolgt. ^[1]

Ausreißererkennung

Ausreißer sind die Werte, die deutlich von den erwarteten Werten abweichen und gar nicht in die Messreihe passen. Sie können die Datenergebnisse stark verzerren und ungültig machen. Aus diesem Grund muss ein Datenbestand von den Ausreißern bereinigt werden. ^[3] Die Verfahren zur Analyse von Ausreißern sollen mithilfe der historischen Daten die Wahrscheinlichkeit ermitteln, mit der ein neuer Datensatz ein Ausreißer ist. Dieser soll dann entweder automatisch gelöscht oder zur manuellen Analyse gesammelt werden. ^[8]

Clusteranalyse

Die zentrale Aufgabe einer Clusteranalyse ist es, neue Kategorien bzw. Gruppen zu identifizieren. Denn im Gegensatz zu Klassenanalyse sind bei dieser Methode die Klassen nicht vorgegeben. Bei der Clusteranalyse werden große Datenmengen in kleinere Gruppen eingeteilt (siehe Abbildung 1). Die Mitglieder eines Clusters sollen möglichst ähnliche (homogen) Eigenschaften aufweisen. Die einzelnen Clusterkategorien sollen sich wiederum möglichst stark unterscheiden (heterogen).^[7]

Da die Cluster ohne Vorwissen generiert werden, ist es nicht immer eindeutig, was die Cluster ähnlich macht und ob sie auch inhaltlich relevant sind. Für eine Aufklärung sind zusätzliche Analysen zuständig.^[7]

Abbildung 1: Clusteranalyse^[9] (Autor: Chire Linzenz: CC BY-SA)

Im folgenden Video sind weitere Informationen zum Thema Methoden beziehungsweise Aufgabentypen des Data Mining mit dazugehörigen Beispielen zu finden:

Fazit

Das Anwendungspotenzial des Data Mining ist vielfältig, da es in unterschiedlichen Bereichen verwendet werden kann. Aber vor allem in der Wirtschaft spielt es eine große Rolle. Mit dem Einsatz der Datenanalyse durch Data Mining können sich Händler besser auf das Kaufverhalten der Kunden anpassen und ihnen ein besseres Einkaufsserlebnis sowohl online als auch im Laden anbieten. Ferner können Banken und Versicherungen die Bonität ihrer Kunden schneller beurteilen.

Nichtsdestotrotz sollte man immer bedenken, dass die Daten nicht immer vollständig oder zum Teil fehlerhaft sein können, was zu verfälschten Resultaten führt. Somit ist die Qualität der Daten ausschlaggebend für aussagekräftige Ergebnisse.

Quellen:

¹ Computerwoche (2015): Was ist bei Predictiv Analytics? Online unter: https://www.tecchannel.de/a/was-ist-was-bei-predictive-analytics,3199559,2 [Abruf am 25.01.2020]

² Dürr, Holger (2004): Anwendungen des Data Mining in der Praxis. Online unter: [Abruf am 25.01.2020]

³ Entwickler.de (2014): Data Mining: typische Verfahren und Praxisbeispiele. Online unter: [Abruf am 25.01.2020]

⁴ Enzyklopädie der Wirtschaftsinformatik Online – Lexikon (2019): Data Mining. Online unter: [Abruf am 25.01.2020]

⁵ Goodreads (2020): Signal Quotes. Online unter: https://www.goodreads.com/work/quotes/45158439-signal-understanding-what-matters-in-a-world-of-noise [Abruf am 30.01.2020]

⁶ MSO Digital (2019): Data Mining. Online unter: https://www.mso-digital.de/wiki/data-mining/ [Abruf am 25.01.2020]

⁷ Novustat (2019): Data Mining Methoden – ein verständlicher Überblick über die wichtigsten Verfahren. Online unter: https://novustat.com/statistik-blog/data-mining-methoden-ueberblick.html [Abruf am 25.01.2020]

⁸ Ordix AG (o. J.): Data Mining in der Praxis (Teil I). Online unter: [Abruf am 25.01.2020]

⁹ Wikipedia commons (2016): EM-Gausian-data.svg. Online unter: https://commons.wikimedia.org/wiki/File:EM-Gaussian-data.svg [Abruf am 31.01.2020]

Dieser Beitrag ist im Rahmen der Lehrveranstaltung Content Management im Wintersemester 2019/20 bei Andre Kreutzmann (und Monika Steinberg) entstanden.