Das Multi-Methodenmodell der digital facts: Teil 4

Integrierte Verarbeitung: Data Mining & Profiling

Wenn die Technische Messung und die OnSite-Befragung durchgeführt wurden, erfolgt die Integrierte Verarbeitung. Unser Dienstleister TNS Infratest vervollständigt die Nutzungsdaten der Unique Clients um die Zielgruppeninformationen aus der OnSite-Befragung, fasst die Clients zusammen und übersetzt sie in Unique User.

An dieser Stelle kommt ein kombiniertes dynamisches Profiling- und Modelling-Verfahren zur Bildung so genannter dynamischer Microcluster zum Einsatz: Von den Nutzern, von denen sowohl Daten aus der technischen Messung als auch Daten aus der Online-Befragung oder dem Panel vorliegen, werden idealtypische Nutzerprofile erstellt (Profiling).

3 Fragen an Dr. Sebastian Maier, Head of Digital Audience Analytics TNS Infratest

1. Lieber Herr Maier, TNS hat ein eigenes Profiling-Verfahren entwickelt, welches die in der OnSite-Befragung erhobene Information überträgt. Wie funktioniert Profiling & Data Mining bei TNS?

Das von TNS entwickelte Modell besteht aus zwei Schritten: Zunächst werden aus den Clients (Browsern, Apps) der unterschiedlichen Geräteklassen Nutzer gebildet. In einem zweiten Schritt wird soziodemographische und weitere Information, die nur für einen Teil dieser Internet-Nutzer in Form von Befragungen vorliegt, auf alle Nutzer übertragen, bei denen diese Informationen fehlen.

Zentrales Element der Nutzerbildung in der digital facts ist ein von TNS neu entwickeltes Modell zur Zusammenführung von Clients (Cookies, Advertising IDs) zu Nutzern, das die Nutzerbildung der bisherigen ebenfalls unter TNS-Beteiligung durchgeführten Studien internet facts und mobile facts konsequent weiterentwickelt.

Unverändert bleibt die Basis des bisherigen Modells, eine technische Vollerhebung aller Kontakte teilnehmender Angebote auf sämtlichen Geräten. Mittels Device-Detection werden neben den Betriebssystemen und Browsern der Clients auch die Gerätetypen (Desktops/Laptops, Tablets und Smartphones) identifiziert. Diese Messdaten werden durch Informationen über die eigentlichen Nutzer (Unique User) hinter den jeweiligen Clients aus einer Onsite-Befragung angereichert. Ebenfalls Bestandteil des Modells ist eine CATI-Erhebung, um Außenvorgaben für die Modellierung abzuleiten. Zentrales Element des Modells ist die Bildung von tatsächlichen Nutzern (Unique User) aus den gemessenen Clients.

Hierfür werden zunächst unter Berücksichtigung von Außenvorgaben zu Alter, Geschlecht, regionaler Verteilung, Anzahl genutzter Browser und Geräteausstattung (Desktop/Laptop, Tablet, Smartphone) in den einzelnen „Geräte-Welten“ Nutzer gebildet. Stationäre Nutzer nutzen beispielsweise unverändert bis zu vier stationäre Clients. Tablet-Nutzer nutzen dagegen bisher typischerweise nur ein Tablet, weshalb nur ein Tablet-Client je Tablet-Nutzer berücksichtigt wird. Zusammenfassend werden im Rahmen der Verarbeitung bis zu vier stationäre Clients zu einem stationärem Nutzer, ein Tablet-Client zu einem Tablet-Nutzer und jeweils bis zu zwei Smartphone-Clients zu einem mobilen Nutzer zusammengeführt. Die Besonderheit bei Smartphone-Clients liegt darin, dass hier eine zusätzliche Aggregation zu Smartphone-Browser-Clients und Smartphone-App-Clients vorausgeht. Anschließend werden mithilfe der aus der CATI-Erhebung berechneten Mengengerüsten digitale Nutzer gebildet, die aus stationären Nutzern, Tablet-Nutzern und mobilen Nutzern bestehen können. Am Ende haben beispielsweise 73 % der digitalen Nutzer auch mobile Nutzung. Schematisch ist die Nutzerzusammenführung in Abbildung 1 dargestellt.

Abbildung 1 | Bildung digitaler Nutzer

Für einen Teil der gebildeten digitalen Nutzer liegen aus der Onsite-Befragung soziodemographische sowie weitere Informationen vor, z. B. zu Nutzungsfrequenzen von bestimmten Themen im Internet. Diese werden dann mit Hilfe der aggregierten Nutzungsdaten für die digitalen Nutzer ohne diese Informationen profiliert (vgl. Abbildung 2).

Abbildung 2 | Profilierung

Auf Basis der Nutzungsinformation wird für jeden Nutzer ohne Onsite-Information ein bezüglich statistischer Kennzahlen ähnlicher Nutzer mit Onsite-Information gesucht und anschließend die Information dieses Nutzers übertragen. Schematisch ist dies in Abbildung 3 dargestellt.

Abbildung 3 | Situation vor Profiling

Nutzer mit Onsite-Information nennt man Onsite-User, Nutzer ohne Onsite-Information Random-User. Onsite-User 1 ist beispielsweise männlich und jünger (dargestellt durch die Schaukel), die Kennwerte 1, 2 und 4 sind hoch, Kennwert 3 niedrig. Random-User A ähnelt Onsite-User 3 in vier von vier Kennwerten, dementsprechend wird die Information von Onsite-User 3 übertragen.

Abbildung 4 | Übertragung von Information an Random-User A

Random-User B ähnelt Onsite-User 1 in drei von vier Kennwerten. Damit wird die Information von Onsite-User 1 an Random-User B.

Abbildung 5 | Übertragung von Information an Random-User B

Mit Hilfe dieses Fusionsalgorithmus werden allen Random-Usern Informationen von Onsite-Usern übertragen.

Ergebnis dieser Schritte ist ein Datensatz, der die Online-Nutzung aller Nutzer auf allen Geräten sowie soziodemographische und weitere Informationen enthält.

2. Die „AGOF Lösung“ wurde im Jahr 2005 auch in das europäische Ausland exportiert. Welche Unterschiede gibt es zu der Reichweitenmessung in Deutschland?

Das Grundmodell für die Modellierung von Nutzern aus Clients für die österreichische Online-Reichweitenstudie ÖWA plus ist dem deutschen Modell sehr ähnlich. Ein Unterschied ist, dass die Berücksichtigung von App-Nutzung erst in diesem Jahr startet.

3. Welche sind die aktuell größten Herausforderungen?

2015 wurde mit der Modellierung und Ausweisung digitaler Nutzer, die die gesamte Internetnutzung in gleicher Weise berücksichtigt, eine große Herausforderung gemeistert. Dieser Schritt war aus Marktsicht notwendig. Das Modell der digital facts ist zudem zukunftssicher ausgelegt und erweiterbar. Tablet-Apps oder Smart-TVs lassen sich beispielsweise durch Hinzunahme weiterer Verarbeitungsäste zukünftig einfach mitverarbeiten.

Ansonsten gibt es im Moment in Bezug auf die digital facts nicht „die“ größte Herausforderung, sondern immer wieder unterschiedliche Herausforderungen durch veränderte Nutzungsgewohnheiten, neue Geräteklassen und Veränderungen in der technischen Messbarkeit.