Das Vorgehen wurde bereits in der Literatur (Gorbach et al.) erläutert. Die ausgewählten Punkte sehen wie folgt aus:
1. Datenaufbereitung für die Sequenzanalyse
- Import von Interaktionsdaten aus dem DWH
- Ziehung und Balancierung einer Stichprobe (N=0,5 Mio.)
- Reduktion der nicht-steuerbaren wiederholenden Kontaktpunkte
- Aggregation der Kontakt-Events oder Zuordnung von bestehenden Aggregationsverfahren
- Definition und Einrichtung der Zeitklassen für die Zeitabstände zwischen Events
- Sequenzierung und Transponierung der Datenmatrix
- Erstellung und Speicherung der individuellen Verhaltenssequenzen
2. String Matching ggf. Suche nach Kaufmustern
- Ausführen von String-Matching-Algorithmen
- Einstellungen: Support, Länge der Substrings
- Überprüfen der jeglichen Substring-Kombinationen in Interaktionsketten
- Auswahl von am häufig aufgetauchten Mustern für weitere Analysen
- Speicherung der Datenmatrix mit den ermittelten Pattern-Variablen
3. Datenaufbereitung für die Modellierung
- Data Cleaning
- Behebung von Problemen in Daten wie Ausreißer, NULL, Autokorrelation und Multikollinearität
- Normierung und Logarithmierung der ausgewählten Variablen
- Erstellung der Basisfunktionen der Fourierreihe
- Definition und Anpassung der abhängigen Variablen
4. Modellierung und statistische Verfahren
- Faktorenanalyse für Reduktion von Pattern
- Clusteranalyse
- Partitionierende und hierarchische Clusteranalyse
- Feststellung der Clusteranzahl
- Beschreibung der Verhaltensgruppen anhand der historischen Interaktionsdaten
- Mustererkennung
- Ermittlung von signifikanten Unterschieden in Interaktionsdaten zwischen ausgewählten großen Segmenten wie TOP-Kunden vs. andere Kunden, Heavy vs. Light Buyers, Stamm- vs. Neukunden, Informierte vs. Informationshungrige Konsumenten, Stamm- vs. Churn- oder Fraud-Kunden u. Ä.
- Regressions- und Zeitreihenanalyse (GLM & Fourier Series) sowie weitere multivariate ML-Verfahren wie NN, DL, Decision tree, Random forest, Survival analysis etc.:
- Muster in den Kontakthistorie, die signifikant positiv und negativ auf die Zielgrößen wirken
- Feststellung der relevanten Zeitabstände zwischen den Touchpoints
- Interpretation und Vorhersage bei den Änderungen in den initiierten Kontakten (Simulation)