CDP, DMP und Data Lake – Wie man sie für AdTech & MarTech aufbaut

Seit mehr als zehn Jahren sind Data Platforms die Basis für das Programmatic Advertising und der Branche für das Marketing im Web.

Platforms wie Customer Data Platforms (CDPs) und Data Management Platforms (DMPs) sind sehr wichtig. Mit ihnen machen Werbetreibende und Publishers Targeting Kampagnen für Werbung, machen genaue Reports für die Analyse und lassen Attributions laufen. Auch hilft es, dass sie ihre Zielgruppe besser verstehen.

Ein Data Lake ist auch ein wichtiger Teil einer Data Platform. Es ist ein Ort, wo all Ihre Data an einem Platz Zentral gespeichert wird. Die Data aus dem Data Lake kann dann an die CDP oder DMP geschickt werden. So werden mit ihr Zielgruppen gemacht.

Hier sehen wir uns an, was CDPs, DMPs und Data Lakes sind. Auch zeigen wir, wann es sich lohnt, diese zu bauen und geben einen Überblick, wie das geht.

Warum sollten sie ein CDP oder DMP aufbauen?

Auf dem Markt gibt es viele CDPs und DMPs. Viele Firmen brauchen trotzdem ihre eigene Lösung. So haben sie die Kontrolle über die gesammelte Data, das geistige Eigentum und die Roadmap für das Produkt.

Bei den Umständen kann es sich lohnen, eine CDP oder DMP zu bauen:

• Falls Sie eine AdTech oder MarTech Firma sind, die ihr Angebot an Technik größer oder besser machen will.

• Falls Sie ein Publisher sind und einen Walled Garden bauen wollen. Mit dem machen Sie die First-Party Data zu Geld und helfen dem Werbetreibenden, Ihre Zielgruppe zu erreichen.

• Falls Sie eine Firma sind, die viel Data aus vielen Quellen sammelt und die Technik selbst halten wollen. So haben Sie die Kontrolle über die Roadmap von dem Produkt.

Was ist eine Customer Data Platform (CDP)?

Eine CDP ist ein Teil von der Technik für das Marketing. Sie sammelt und ordnet Data von vielen Quellen. Sie können Online oder auch Offline sein.

Marketers nutzen meist CDPs. Mit ihr sammeln sie die Data der Kunden und häufen sie in einer Datenbank an. Sie ist vereint mit vielen Systemen und Plattformen des Marketings der Firma, und kann auch von dort aus genutzt werden.

Marketer können mit der CDP User Profile, Zielgruppen, Segmente und die Ansicht von einem Kunden machen. Auch sehen sie genaue Berichte der Analyse und können die Kampagnen für Werbung und das Marketing besser machen, indem sie die Data an viele Systeme senden.

Sehen Sie hier die Graphik über den Aufbau von der CDP:

Was ist eine Data Management Platform (DMP)?

Die DMP ist eine Software, die Data aus vielen Quellen sammelt, ordnet und speichert. Die Quellen sind zum Beispiel Web Pages, mobile Apps und Kampagnen von der Werbung. Die DMP wird von Werbetreibenden, Agenturen und Publishers genutzt, um das Ad Targeting besser zu machen und bessere Prüfungen machen zu können. Auch gehört das Erstellen von Look-Alike Modellen dazu, um die Zielgruppe größer zu machen.

In der Graphik ist der Aufbau der DMP zu sehen:

Was ist ein Data Lake?

Ein Data Lake ist ein Ort, wo viel Data Zentral gespeichert wird. Die Data kann halb-, un- oder strukturiert sein. Ein Data Lake wird oft als Single Source of Truth genutzt. Das heißt, dass die Data so verarbeitet und gespeichert wird, dass sie mit Sicherheit korrekt und validiert ist. Ein Data Lake wird von der ganzen Firma genutzt und die User haben meist Zugriff auf ihn. Er ist eine reiche Quelle von Data, die angepasst, dedupliziert und aggregiert wurde.

Strukturierte Data: Die Data wurde nach einem Schema formatiert. In einer relationalen Datenbank ist sie leicht zu durchsuchen.

Halbstrukturierte Data: Das ist Data, die nicht der Struktur einer Datenbank entspricht. Sie hat aber Eigenschaften, die es möglich machen, sie zu prüfen.

Unstrukturierte Data: Die Data hat kein Format und der Zustand ist noch in Ursprungsform.

Strukturierte Data	Halbstrukturierte oder Flat Data	Unstrukturierte und Binary Data
Databases	Logs, CSV, XLM und JSON data	Audio
	E-Mails	Video
	Dokumente	Data zum Bild
	PDFs	Natürliche Sprache
	Web Pages	Dokumente

Viele Firmen haben Abteilungen für Data Science oder Produkte wie eine CDP, die Data aus vielen Quellen sammelt. Sie brauchen aber eine Quelle, wo die Data herkommt. Die Data, die aus vielen Quellen stammt, muss erst noch extra verarbeitet werden. Erst dann kann sie für das Programmatic Advertising oder für die Prüfung von Data genutzt werden.

Nicht veränderte oder rohe Data, auch Bronze Data genannt, gibt es auch. Mit dem Ansatz von dem Kopieren der Data können wir Schritte nutzen, um Teile oder ganze Data Sets extra zu prüfen. Falls aus einem Grund historische Data, die nicht ganz transformiert wurde, verarbeitet werden muss, hilft da die rohe Data.

Wie unterscheiden sich CDP, DMP und ein Data Lake?

CDPs und DMPs scheinen sehr ähnlich zu sein. Denn sie sind alle dazu da, Data von Kunden zu sammeln und zu speichern. In der Weise, wie sie arbeiten, sind sie aber anders.

In der Regel nutzt eine CDP First-Party Data. Sie basiert auf echten Kunden, die durch das Sammeln und Nutzen von PIIs erstellt werden. Die Infos kommen aus den Systemen einer Firma und kann mit Third-Party Data vermehrt werden. Meist nutzen Marketers CDPs, um die Kunden die sie haben, zu pflegen.

DMPs aber, sind für das Anhäufen von Third-Party Data da. Das geschieht meist mit Cookies. Also ist die DMP eher eine AdTech Platform, und die CDP ist ein MarTech Tool. Für gute Kampagnen der Werbung, und um Look-Alike Zielgruppen zu kriegen, werden oft DMPs genutzt.

Ein Data Lake ist ein System, das viele Arten von Data aus vielen Quellen sammelt. Diese Data wird dann an eine CDP oder DMP geschickt.

CDPs	DMPs	Data Lake
Der Fokus liegt auf dem Marketing. Also dem Dialog mit der bekannten Zielgruppe.	Der Fokus liegt auf der Werbung. Also dem Dialog mit einer unbekannten Zielgruppe.	Ein Ort, wo viel Data Zentral gespeichert wird. Kann dann an eine CDP oder DMP geschickt werden, um Profile von Usern und Zielgruppen zu machen.
Nutzt meist First-Party Data. Kann aber mit Third-Party Data vermehrt werden.	Nutzt meist Third-Party Data. First-Party Data kann als extra Quelle für Infos da sein.	Die Data im Data Lake kann First-, Second- oder Third-Party sein.
Ein CDP verwendet in erster Linie PIIs und First-Party Data.	DMPs nutzen für gewöhnlich non-PII Data, wie Cookie IDs oder Geräte IDs.

Beliebte Gebiete, wo CDP, DMP und Data Lakes genutzt werden

Nutzen der CDP	Nutzen der DMP	Nutzen des Data Lake
Erstellen und Aufteilen von Zielgruppen.	Erstellen und Aufteilen von Zielgruppen.	Sammeln von Data: Sammeln von strukturierter und unstrukturierter Data aus vielen Quellen.
Erstellen der Ansicht für jeden einzelnen Kunden (Single Customer View – SCV).	Targeting der Zielgruppe.	Eingliedern von Data: Neue Quellen von Data können leichter integriert werden.
Verwaltung von IDs (z.B. ID-Auflösung und ID-Diagramme).	Retargeting.	Analysen: Analysen und Reports in Echtzeit.
Prädiktive Analytik.	Modellierung von Look-Alikes.	Dateioperationen: Abfrage und Verarbeitung.
Empfehlungen zu Inhalten und Prdukten.	Verwaltung von IDs (z.B. ID-Auflösung und ID-Diagramme).	Sicherheit: Zugang nur für Person, die die Erlaubnis haben.
	Infos über die Zielgruppe.	Analytics: Macht es möglich, dass Analysen gemacht werden, ohne, dass Data übertragen werden muss.
	Erweitern der Zielgruppe.	Gruppierung und Indizierung: So ist der Inhalt leicht zu verstehen.

Die Art der Data, die CDPs, DMPs und Data Lakes sammeln

Zu der Data, die CDPs, DMPs und Data Lakes sammeln, gehört:

First-Party Data

First-Party Data kommt direkt von dem User oder dem Kunden. Sie soll die Form von Data sein, die den meisten Wert hat. Denn der Werbetreibende oder Publisher hat schon direkt Kontakt zu dem Kunden. Also zum Beispiel hat der Kunde sich schon mit dem Werbetreibenden beschäftigt und mit ihm interagiert.

Die First-Party Data kommt meist von diesen:

• Web- und mobile Analytics Tools.

• Systeme zur Verwaltung von Beziehungen zu den Kunden (Customer Relationship Management – CRM).

• Transaktionssysteme.

Second-Party Data

Mit Third-Party Trackern auf der Web Page oder Tracking SDKs in den Apps machen viele Publisher und Händler extra Geld mit ihrer Data. Sie verkaufen die Data von der Zielgruppe an Data Broker und DMPs.

Zu der Data kann der Verlauf des Browsers von dem User, Interaktion mit Inhalten, Käufe, Infos aus dem Profil des Users, wie Geschlecht oder Alter, Ort und vieles mehr gehören.

Data Broker können dann diese Data Sets nutzen. Mit ihnen können sie folgern, welche Neigungen der User hat, was er gerne kauft, die Höhe seines Einkommens, Infos zur Demografie und vieles mehr.

Mit Offline Data kann die Data noch weiter vermehrt werden. Sie kann von Firmen kommen, die Kreditkarten anbieten, von Auskunfteien für Wirtschaft und Firmen aus dem Fernmeldewesen.

Wie wird die Data von CDPs, DMPs und Data Lakes gesammelt?

In der Regel sammeln CDPs, DMPs und Data Lakes die Data so:

• Sie verbinden sich mit anderen AdTech und MarTech Platforms. Das geht direkt von Server zu Server oder über eine API.

• Ein Tag, auch als JavaScript Snippet oder HTML Pixel bekannt, wird auf die Web Page des Werbetreibenden oder Publishers getan.

• Importieren von Data aus Dateien, wie zum Beispiel CSV, TSV und Parquet.

Die technischen Probleme und Herausforderungen beim Aufbau einer DMP oder CDP

Der Aufbau einer CDP und DMP ist dazu da, große Mengen von Data zu verarbeiten. Je mehr Data die CDP oder DMP nutzen kann, um Gruppen zu machen, desto mehr Wert hat sie für ihre Kunden. Das sind also die Werbetreibenden, Data Scientists, Publishers und so weiter.

Der Aufbau wird komplexer, je mehr Data gesammelt wird.

Also müssen erst der Umfang und die Menge an Data geklärt sein, die verarbeitet werden soll. Denn das Design des Aufbaus hängt von dem ab, was gebraucht wird.

Hier folgen die Anforderungen, die beachtet werden sollten, wenn eine CDP oder DMP in Planung ist.

Der Data Source Stream

Der Data Source Stream ist dafür da, die Data von Usern und Kunden zu holen. Die Data muss gesammelt, und an einen Tracking Server geschickt werden.

Zu den Quellen der Data gehört:

• Data von Web Pages: Die Ereignisse im Browser werden von einem JavaScript Code auf der Web Page geprüft. Führt der User eine Aktion aus, erstellt der JS Code Nutzdaten und schickt diese an die Tracker Komponente.

• Data von mobile Apps: Die First-Party Data wird meist über eine SDK gesammelt. Zu der Data gehören Infos, mit der der User erkannt werden kann, Merkmale aus dem Profil und auch Infos zu dem Verhalten des Users. Zu den Events von dem Verhalten des Users gehören bestimmte Taten in der mobilen App. Die Data, die die SDK verschickt, wird von der Tracker Komponente gesammelt.

Einbau der Data

Viele Quellen von Data können in den Aufbau einer CDP oder DMP eingebaut werden:

Einbau von First-Party Data: Das ist Data, die von einem Tracker gesammelt wird, oder von anderen Seiten stammt.

Einbau von Second-Party Data: Data, die von der Bindung mit Anbietern von Data, zum Beispiel Firmen, die Kreditkarten anbieten, stammt. Mit ihr kann die Infos aus den Profilen vermehrt werden.

Einbau von Third-Party Data: Das geschieht meist über Third-Party Tracker, wie zum Beispiel Pixels und Scripts auf Web Pages und SDKs in mobilen Apps.

Die Anzahl der Profile

Es ist wichtig für die Art der Datenbank, in der die Profile gespeichert sind, dass die Anzahl der Profile bekannt ist, die in der CDP oder DMP gespeichert werden sollen.

Die Datenbank für die Profile ist dafür da, Identitäten zu erkennen. Das ist wichtig für das Bündeln von Profilen und dem Zuweisen zu den richtigen Gruppen. Es ist ein sehr wichtiger Teil in dem Aufbau von CDPs und DMPs.

Die Data Finden und Extrahieren

Eine übliche Nutzung von CDP und DMP ist es, den Data Scientists eine Schnittstelle zu geben. Mit der haben sie eine Quelle für normalisierte Data.

Die bereinigte und deduplizierte Quelle der Data hat viel Wert im Input. Der kann für das extra Aufbereiten der Data für das maschinelle Lernen genutzt werden. Diese Art der Aufbereitung der Data braucht oft einen Data Lake. Hier kann die Data in eine Form gewandelt und kodiert werden, die von der Maschine verstanden wird.

Es gibt viele Arten, die Data umzuwandeln, wie zum Beispiel:

• OneHotEncoder

• Hashing

• LeaveOneOut

• Target

• Ordinal (Integer)

• Binär

Für die Wahl der Art und um eine gute Data Pipeline für das maschinelle Lernen zu entwerfen, müssen das Team für die Entwicklung und die Data Scientists zusammen arbeiten. Letztere prüfen die Data und geben Input, der für das maschinelle Lernen nötig ist.

Maschinelles Lernen kann auch genutzt werden, um Modelle zur Vorhersage von Ereignissen zu machen, mit denen Arbeiten für Cluster und Einstufungen möglich sind. Auch ist das Anhäufen und Umwandeln der Data möglich. So können Muster entdeckt werden, die für das Auge des Menschen vorher nicht zu sehen waren. Nach dem Umwandeln sind sie aber klar zu sehen.

Segmente

Der Aufbau der CDPs und DMPs muss die Art des Segments unterstützen. Das wirkt sich auf das Design von dem Aufbau aus.

Diese Arten von Segmenten sind möglich:

• Segmente auf Basis von Attributen: Demografische Data, Ort, Art vom Gerät und so weiter.

• Segmente des Verhaltens auf Basis von Events und wie häufig dies passiert. Das erste ist zum Beispiel den Link in einer E-Mail klicken. Das zweite ist, eine Web Page drei Mal pro Monat zu besuchen.

• Segmente auf der Basis von Einstufungen, die durch maschinelles Lernen gemacht wurden:

1. Look-Alike / Affinität: Hier ist das Ziel, die Zielgruppe zu erweitern. Es kann auf einer Vielzahl von Input basieren und durch ähnliche Funktionen gesteuert werden. Stellen Sie sich eine Schleife vor, die jedes Mal besser wird. Dort wählen wir Profile mit vielen Conversions aus und erstellen so affine Zielgruppen. So gibt es eine Zielgruppe mit mehr Conversions, die wieder für mehr affine Profile genutzt werden kann und so weiter.

2. Prädiktiv: Hier ist das Ziel, die Infos, die man hat, zu nutzen, um ein sehen, wie Wahrscheinlich es ist, dass ein Ereignis eintritt. Das kann der Kauf, das installieren einer App oder ähnliches sein. Nur die Profile mit einer hohen Rate werden genutzt.

Die technischen Probleme und Herausforderungen beim Aufbau eines Data Lake

Hier sind ein paar Probleme, die es bei dem Aufbau eines Data Lake geben kann:

• Werden viele Quellen von Data verbunden, um daraus gute Erkenntnisse und nutzbare Data zu gewinnen, ist das sehr schwer. Um die Quellen verbinden zu können, braucht es IDs. Oft gibt es die IDs aber nicht oder sie stimmen nicht überein.

• Welche Data in einer Quelle ist, ist oft schwer zu wissen. Selbst der Eigentümer der Data weiß selbst manchmal nicht, welche Data da drin ist.

• Manchmal muss die Data bereinigt oder neu verarbeitet werden. Das ist dann der Fall, wenn die ETL Pipeline versagt. Dies kann hin und wieder passieren. Das kann von selbst oder von Hand gemacht werden. Die Lösung von Databricks Delta Lake macht dies von selbst. Das geht, weil ihre Delta Tables die ACID Eigenschaften erfüllen. Auch AWS führt die ACID Transaktionen für eine ihrer Lösungen ein. Das sind die Governed Tables. Im Moment ist es aber nur in einer Region erhältlich.

Am Anfang des Prozesses wird die Data extrahiert und in die erste Stufe der rohen Data geladen. Nach der ersten Stufe kann es viele Data Lake Stufen geben. Das hängt von dem Fall der Nutzung ab.

Die zweite Stufe ist meist das Umwandeln der Data. Das sind die Deduplizierung, die Anpassung, das Priorisieren von Spalten und das Bündeln. Die Schritte danach führen extra Schritte der Umwandlung der Data durch. Das ist zum Beispiel das Anhäufen auf der Ebene des Geschäfts. Es ist für das Data Science Team oder für die Berichte nötig.

Die Amazon Lake Formation von AWS ist eine Teil des Data Lake, der die S3 Methode zum Speichern nutzt. Wird diese mit Amazon Glue oder Amazon EMR für eine ETL Pipeline vereint, können wir sichere Speicher für Data machen, die zentral und betreut sind.

Neben der Amazon Lake Formation gibt es noch eine Schnittstelle, die Amazon Athena heißt. Sie kann zwischen den Teilen der Infrastruktur benutzt werden. Auch bietet sie eine Methode für den Zugriff auf die Data mit der Amazon Lake Formation.

Nutzt man die IAM Methode für Sicherheit, gibt es eine weitere Ebene, die den Zugriff steuern kann.

Ist das Design gut und der Data Lake richtig erstellt, kann der Zugriff zu der Data mit Sicht auf die Kosten besser gemacht werden.

Die letzte Ebene des Anhäufens erlaubt es uns, die nötigen Taten durch die ETL Pipeline bei Bedarf nur einmal zu machen.

Ein Beispiel, wie der Aufbau einer CDP, DMP und eines Data Lake geht

Laden sie die ganze Version des Artikels runter, um den Prozess Anhand eines Beispiels zu sehen.

Die ganze Version enthält:

• Eine Liste mit den Funktionen einer CDP, DMP und eines Data Lake.

• Ein Beispiel, wie das Setup des Aufbaus bei AWS ist.

• Wie die Anfragen fließen.

• Die AWS, die wir genutzt haben.

• Eine Prüfung der Kosten für die diversen Komponenten.

• Was es zu beachten gilt.