Datenaufbereitung der ma Out of Home
Vorgehen des Gewichtungs- und Modellierungsprozesses.
Gewichtung – Transformation und Redressement
Die Gewichtung der Daten erfolgt in zwei Schritten: Transformation und Redressement.
Die Transformation ist das Verfahren, das die aus den Disproportionen der Stichprobenanlage herrührenden unterschiedlichen Auswahlchancen ausgleicht. Die Transformation der Daten wird nur für den CATI-Teil durchgeführt.
Ziel der Stichprobenziehung ist es, jedem Element der Grundgesamtheit die gleiche Auswahlchance zu geben. Die Chancengleichheit ist in der ma Out of Home CATI aus verschiedenen Gründen nicht gegeben: 1. aufgrund regionaler Disproportionalitäten, 2. aufgrund einer unterschiedlichen Anzahl von Personen im Haushalt und 3. aufgrund einer besseren Erreichbarkeit von Personen mit mehreren Anschlüssen pro Haushalt. Die Transformation versucht die in der Anlage der Stichprobe enthaltenen Auswahl-„Fehler" durch Berechnung auszugleichen. Hierbei erhält jede Person ein Gewicht, das dem umgekehrten Wert seiner Auswahlchance entspricht.
Die Transformation führt zu einer proportionalen Stichprobe und der Überführung einer Haushalts- in eine Personenstichprobe.
Die in einer ma Out of Home zu berücksichtigenden Erhebungswellen werden in einen Gesamtdatenbestand überführt, für den ein gemeinsames Redressement durchgeführt wird.
Die Gewichtung der Daten erfolgt in zwei Schritten: Transformation und Redressement.
Ein Redressement ist notwendig, weil die erreichten und damit für die weitere Auswertung herangezogenen Personen und Haushalte die angestrebte Grundgesamtheit nicht vollständig abbilden.
Für den Anteil der Stichprobe, der aus dem GPS-Teil stammt, garantiert die Gewichtung, dass die nicht quotierten oder als Randverteilung quotierten Merkmale auch denen der angestrebten Grundgesamtheit entsprechen. Dadurch kann von den erreichten Personen (Befragten) auch auf die nicht erreichten Personen und damit auf die angestrebte Grundgesamtheit geschlossen werden. Die gewichtete Studie zeigt dann repräsentative Ergebnisse.
Während sowohl die CATI- als auch die HUB-Teile des Datensatzes eine repräsentativ angelegte Stichprobe darstellen, wurden die Probanden der früheren GPS-Messung in regional begrenzten Gebieten rekrutiert. Somit stellt die GPS-Studie dort eine Aufstockung dar. Diese regionale Disproportionalität wird vor dem eigentlichen Redressement in der Gesamtdatei ausgeglichen, um geeignete Eingangswerte für das Redressement zu schaffen.
Zur Gewichtung wird ein Redressement-Verfahren eingesetzt, das dem ma-Standard entspricht und gleichzeitig den besonderen Verhältnissen der kombinierten CATI- und GPS-Stichprobe gerecht wird.
Durch das Redressement wird die Stichprobe in einigen relevanten Merkmalen an die Grundgesamtheit angeglichen. Eine Übersicht der Gewichtungsmerkmale ist in der jeweiligen Dokumentation zur ma Out of Home enthalten.
Die Vorgaben beziehungsweise Sollzahlen für das Redressement werden dem Mikrozensus, der laufenden Bevölkerungsfortschreibung und dem Ausländerzentralregister entnommen und jährlich aktualisiert.
Die Leistungswertberechnung
Das Modell für die Leistungswertberechnung des Mediums Plakat wurde ursprünglich durch das Fraunhofer-Institut IAIS im Auftrag der agma/Media-Micro-Census GmbH erstellt. Die Berechnung von Kontaktwahrscheinlichkeiten mit Plakatstellen erfolgte hierbei in passierten geographischen Räumen (sogenannten Funktionsräumen bzw. „Polygonen“).
Ab der ma 2013 Plakat kommt ein von der Firma ISBA, Hamburg, entwickeltes Reichweiten-Modell zum Einsatz, das das polygonbasierte Modell des Fraunhofer Instituts IAIS ablöst. Das weiterentwickelte Modell erlaubt noch präzisere und stabilere Zielgruppenauswertungen.
Ziel dieses Modells ist es, die verschiedenen Basis-Komponenten der ma Out of Home (Befragungsdaten, Mobilitätsdaten, Frequenzatlas, Werbeträger-Stammdaten und Belegungseinheiten) miteinander in Beziehung zu setzen, um diese in einem Datensatz gemeinsam auszuwerten. In diesem sind zu jedem Befragten die Kontaktwahrscheinlichkeit („p-Wert Netto“) sowie die Anzahl zu erwartender Kontakte („p-Wert Brutto“) zu jeder Belegung festgehalten, außerdem die Varianz der modellierten Kontaktverteilung.
Daten für die Reichweitenmodellierung
Die für die Reichweitenmodellierung verwendeten Daten setzen sich aus fünf Teilbeständen zusammen.
Empirisch ermittelte Probanden- und Mobilitätsdaten ma Out of Home GPS und CATI
Für jeden Befragten liegen Merkmale zu Soziodemografie und weiteren Bereichen vor. Hinzu kommen Gewichtung und die Mobilitätsdaten, unterteilt in Kontakte zum Straßennetz und zu sogenannten Sonderpolygonen (Verbrauchermärkte und Bahnhöfe).
HERE-Netz und Frequenzatlas
Das gesamtdeutsche Straßennetz ist digital im HERE-Datensatz vermessen, der rund 6 Millionen Knotenpunkte mit Koordinaten, sowie rund 7 Millionen Segmente, die jeweils zwischen zwei Knoten verlaufen, enthält. Der Frequenzatlas ergänzt diese Informationen pro Segment um drei Frequenzzahlen: Anzahl KFZ-Insassen, Anzahl Fußgänger und Anzahl ÖPNV-Insassen, jeweils pro durchschnittlicher Werktagsstunde.
Umrechnung der Frequenzatlas-Werte in Stichproben-Mobilität
Die in der ma-Stichprobe enthaltene Mobilität wird im Rahmen der Modellierung umverteilt. Jedes Segment erhält in der ma den gleichen Anteil an der Gesamtmobilität wie im Frequenzatlas.
Werbeträger-Stammdaten
Die vom Fachverband für Außenwerbung (FAW) verwalteten Stammdaten enthalten rund 280.000 ma-relevante Werbeträger. Jede Stelle ist im HERE-Netz und/oder per Sonderpolygon verortet. Zusätzlich sind für jedes Segment, von dem aus ein Plakat wahrgenommen werden kann, Parameter hinterlegt, um die Wahrscheinlichkeit eines Kontaktes unter der Bedingung einer Passage zu schätzen („k-Wert“). Mit der „Vorabbewertung“ in den Stammdaten sind die zu erwartenden Kontaktsummen pro Werbeträger anhand von Verortung und Stellenart bereits im Wesentlichen vorgegeben.
Belegungseinheiten / Netze
Die Vermarktung von Plakatwerbung geschieht in der Regel nicht als Einzelstelle, sondern durch simultan gebuchte Werbeträger-Gruppen. Diese können in der ma einzeln zusammengestellt oder vordefiniert erzeugt werden. Ausweisbar gemacht werden diese mittels sogenannter Netze bzw. Belegungseinheiten. Dies sind Gruppen von Werbeträgern, die mit einer bestimmten Belegungswahrscheinlichkeit versehen sind.
Beteiligte Dienstleister
- Ankordata GmbH & Co. KG
- BIK ASCHPURWIS + BEHRENS GmbH
- DDS Digital Data Services GmbH
- Ebert + Ebert GbR
- Ebert + Grüntjes GbR
- Fraunhofer IAIS
- GfK SE - Ad hoc Services
- interlogic Computer-Service GmbH
- ISBA Informatik Service-Gesellschaft mbH
- mge Data
Das Verrechnungsmodell der ma Out of Home
Während die zu erwartenden Brutto-Kontaktsummen pro Werbeträger auf Ebene eines Segments in den Stammdaten bzw. durch den Frequenzatlas bereits im Wesentlichen vorgegeben sind, wird durch die Modellierung v.a. die zu erwartende Anzahl verschiedener Personen mit Kontakt zu einer Belegung („Reichweite“ bzw. „Netto“) ermittelt. Diese Fragestellung ist äquivalent zur Feststellung der durchschnittlichen Mehrfachkontakte (OTS), d.h. „wie viele Kontakte hat eine Person durchschnittlich, die mindestens einen Kontakt hat“.
Der erste Schritt der Modellierung besteht darin, für jedes Segment die Anzahl mittlerer Mehrfachkontakte in einer Woche (OTS-7) zu bestimmen. Diese lassen sich berechnen durch das Verhältnis der Anzahl Kontakte des Segments insgesamt durch die Anzahl verschiedener Probanden mit Kontakt. Da über die Mobilitätsdaten nur eine geringe Anzahl an Segmenten mit ausreichend Empirie hinterlegt werden kann, müssen Segment-Kontakte schrittweise über 7 Tage extrapoliert werden.
Der nächste Schritt in der Modellierung besteht in der Festlegung eines Personenkreises mit positiver Kontaktwahrscheinlichkeit für jeden Werbeträger („Weitester Passagekreis“). Hierzu müssen die Kontakte, die das Plakat lt. seiner Stammdaten-Verortung erreichen soll, auf diese Probanden verteilt werden, ebenso die bereits festgelegte Anzahl verschiedener Personen mit Kontakt. Die zentrale Frage dabei ist, wie und auf welche Fälle sich die berechnete Netto-Summe verteilt. In den Mobilitätsdaten findet sich nur selten eine ausreichende Anzahl an Probanden, die sich in Sichtweite eines Plakates bewegt haben, um statistische Sicherheit bei der Auswertung von Zielgruppen zu geben. Daher werden Probanden, die sich in der Nähe des Werbeträgers aufgehalten haben, zur Erzeugung der Leistungswerte ebenfalls einbezogen. Das Modell ermittelt hierfür eine Wahrscheinlichkeit, mit der eine solche Person ein Plakat passieren könnte. Diese Wahrscheinlichkeit wird über die Entfernungen zum Plakat im Straßennetz ermittelt, indem jeder notwendige Abbiegevorgang durch den Anteil der Frequenz der zur Weiterfahrt gewählten Straße an allen anliegenden Frequenzen bewertet wird. Probanden wird eine positive Kontaktwahrscheinlichkeit zugewiesen, die kleiner ist, je weiter entfernt vom Werbeträger sich der Proband aufgehalten hat. Diese Suche nach Probanden wird iterativ auf Segmenten vorgenommen in der Reihenfolge der höchsten Abbiege-Wahrscheinlichkeiten zu allen Segmenten, auf denen das Plakat verortet ist. Nach und nach werden so Probanden gefunden, die Kontakte zu Segmenten aufweisen, die sich in der Nähe des Plakates befinden.
Aus den ermittelten Abbiege-Wahrscheinlichkeiten lassen sich die p-Werte Netto dieser Personen im weitesten Passagekreis direkt und differenziert ableiten, so dass sich in der Summe über die Probanden der vorab berechnete Sollwert ergibt.
Die p-Werte Brutto errechnen sich durch "Brutto = Netto * OTS". Dabei ist der mittlere OTS-Wert bereits als Sollwert vorgegeben, dieser ergibt sich aus der Vorabbewertung und dem für die betroffenen Segmente modellierten OTS-7-Wert. Die Differenzierung der OTS-Werte um den mittleren Sollwert ergibt sich aus dem gezählten OTS-Niveau des Probanden in der Nähe des Werbeträgers.
Das Vorgehen im Modellierungs-Prozess setzt also folgende Prämissen technisch um:
- Je näher eine Person mit seiner gemessenen Mobilität dem Plakat gekommen ist (im Sinne des passend hierzu gewählten Abstandsbegriffs), desto höher ist der p-Wert Netto zwischen dieser Person und dem Plakat.
- Je häufiger sich die Person in der Nähe des Plakats aufgehalten hat, desto höher ist der p-Wert Brutto relativ zum p-Wert Netto, d.h. desto mehr Kontakte werden erwartet unter der Bedingung, dass ein Kontakt stattfindet.