Die Aufbereitung der Daten erfolgt in einem zweistufigen Prozess.

Zweistufige Datenverarbeitung

Zweistufige Datenverarbeitung

Im ersten Schritt werden die Daten der Technischen Messung mit denen der OnSite- bzw. InApp-Befragung und des Smartphone-Nutzer-Panels zum Datensatz I verknüpft.

Im zweiten Schritt wird der Datensatz um die Angaben aus der Telefonbefragung ergänzt. Das Ergebnis ist der bevölkerungsrepräsentative Datensatz II.

Verarbeitung zum Datensatz I

Das wesentliche Ziel der Verarbeitung zum Datensatz I ist die Überführung von Unique Clients hin zu Unique Users. Dabei gibt es zwei Grundprobleme:

  • Single-User-Client vs. Multi-User-Client: Zum einen kann ein Unique Client nicht nur von einer Person (Single-User-Client), sondern auch von mehreren Personen (Multi-User-Client) genutzt werden, z.B. im familiären Bereich.
  • Single-Client-User vs. Multi-Client-User: Weiterhin kann eine Person entweder nur einen Unique Client nutzen (Single-Client-User) oder auch mehrere Unique Clients (Multi-Client-User), z.B. mehrere Browser auf einem Computer oder einfach mehrere Endgeräte. Auch durch die Löschung der für die Technische Messung benötigten Cookies kann es zu einer Vielzahl von Unique Clients pro Internet-Nutzer kommen.

Beteiligte Erhebungsinstitute

  • Ankordata GmbH & Co. KG
  • Kantar Deutschland GmbH

Die Transformation der Unique Clients zu Unique Users erfolgt in drei Schritten:

Zu Beginn werden für die Unique Clients, für die auch Befragungsdaten vorliegen, über 1.500 aggregierte Kennwerte zum Nutzungsverhalten gebildet (Internet-Angebote, Intensität, Themenkategorien, Tageszeiten, etc.). Anschließend wird nach häufigen und regelhaften Verknüpfungen innerhalb der verschiedenen Unique-Client-Datenprofile und zwischen ihnen gesucht. Hierdurch erfolgt eine Klassifizierung dieser Datenprofile nach Single-Client-User vs. Multi-Client-User und Single-User-Client vs. Multi-User-Client, wodurch auch die Unique Clients ohne Befragungsdaten zuverlässig und valide einem dieser ermittelten Segmente zugeordnet werden können.

In den zuvor bestimmten Multi-User-Client-Datenprofilen werden dann per Clusteranalyse die PageImpressions nach Sessions auf die darin bestimmten Single-User-Client-Datenprofile aufgeteilt. Danach werden Multi-Client-User-Datenprofile, bei denen Angaben aus der Nachbefragung der OnSite-Befragung vorliegen, zu Unique-User-Lernfällen zusammengeführt. Bei den restlichen Multi-Client-User-Datenprofilen mit Angaben aus einer OnSite- bzw. InApp-Befragung aber ohne Nachbefragung werden deren Multi-Client-User-Status und vier soziodemographische Variablen (Alter, Geschlecht, Nielsen-Region und Berufstätigkeit) über einen Entscheidungsbaum pro Gerätetyp aus den Unique-User-Lernfällen abgeleitet. Die Zusammenführung der Multi-Client-User-Datenprofile erfolgt - zuerst pro Gerätetyp und anschließend über die Endgeräte hinweg - pro Multi-Client-User-Status innerhalb identischer Zellen, welche aus den vier abgeleiteten soziodemographischen Variablen gebildet werden.

Im letzten Schritt erfolgt das Profiling der soziodemographischen und weiterer marketingrelevanter Merkmale der Unique User, bei denen keine Befragungsdaten vorliegen. Die Ausgangsinformationen hierfür stammen von den ca. 40.000 Unique Clients, für die Daten aus der Technischen Messung und der OnSite- bzw. InApp-Befragung vorliegen.

Verarbeitung zum Datensatz II

Der Datensatz I wird in vier weiteren Schritten zum Datensatz II erweitert:

Beteiligte Erhebungsinstitute

  • Ankordata GmbH & Co. KG
  • ISBA Informatik Service-Gesellschaft mbH

Die soziodemographische Struktur der Unique User im Datensatz I wird zuerst an die Vergleichsgruppe aus der CATI-Erhebung angeglichen. Anschließend findet noch eine Gewichtung der Internet-Nutzungsdaten anhand von Sollvorgaben aus dem Gesamtbestand der Technischen Messung im entsprechenden Quartal statt.

Bevor die Daten der CATI-Erhebung zur Weiterverarbeitung herangezogen werden, erfolgt deren Gewichtung nach den Sollvorgaben des Mikrozensus. Dadurch können sie als Hochrechnungsbasis für den Datensatz I dienen. In der CATI-Erhebung wird unter anderem die Nutzung einer Anzahl von mobilen und stationären Gesamtangeboten in den letzten drei Monaten erfragt. Diejenigen dieser abgefragten Internet-Angebote, die auch in der Technischen Messung erhoben wurden, stellen dann den Faktor für die Hochrechnung dar.

Die gemessenen Summen der PageImpressions für zeitliche und inhaltliche Teilgruppen werden entsprechend des Verhältnisses von mindestens 10-jährigen Nutzern aus der BRD und solchen, die jünger sind, anteilig auf die Online-Solldaten der IVW übertragen und an diese angepasst. Bei der Justierung wird darauf geachtet, dass Nutzern, die zuvor keine Page Impressions hatten, dadurch keine Page Impressions zugewiesen werden. Außerdem findet bei Vielnutzern, für die eine große Anzahl an Page Impressions aufgezeichnet wurde, eine stärkere Änderung statt als bei Wenignutzern.

Von den Befragten der CATI-Erhebung, die in den letzten drei Monaten mindestens eines der dort abgefragten Internet-Angebote besucht haben, werden per Fusion einige wenige Merkmale (Zugangswege ins Internet, elektrische Geräte im Haushalt, private Interessen und Fragen zu Pkw und Führerschein) auf die profilierten Unique User aus dem Datensatz I übertragen. Die im Datensatz I aus dem Profiling existierenden Daten bleiben unverändert und sind gemeinsame Merkmale der Fusion. Aus den Daten der CATI-Erhebung werden abschließend noch die Fälle zweier Gruppen in den Datensatz II kopiert: zum einen die Personen, die das Internet in den letzten drei Monaten gar nicht genutzt haben, und zum anderen die Personen, die nur Internet-Angebote außerhalb der Technischen Messung besucht haben.

BerichterstattungDatenerhebung