visualisiert.


Darstellung kontinuierlicher und diskreter Zeitreihen

von Gregor Aisch. Lesezeit: fast 2 Minuten.

Bei der Visualisierung von zeitlichen Daten ist eine der ersten und wichtigsten Fragen die, ob es sich um diskrete oder kontinuierliche Daten handelt. Der Unterschied zwischen beiden ist wichtig, aber nicht immer einfach, daher ein Beispiel: Nehmen wir ein Thermometer, messen im Abstand von 10 Minuten die Temperatur und tragen die Werte in eine Tabelle ein, so handelt es sich um kontinuierliche Daten. Das Ergebnis können wir in ein Diagramm einzeichnen:

Hätten wir alle 5 Minuten oder sogar alle 30 Sekunden gemessen, könnten wir auch noch die “Lücken” zwischen den Punkten füllen. Da wir aber wissen, dass sich die Temperatur zwischen zwei Messungen normalerweise nicht schlagartig ändert, können wir die fehlenden Werte auch einfach interpolieren. In Diagrammen lässt sich diese Kontinuität in den Daten gut durch verbindende Linien darstellen.

Soweit zu den kontinuierlichen Daten. Wir erweitern das Beispiel etwas, indem wir unsere imaginäre Messung auf eine Woche ausdehnen und für jeden Tag die Durchschnittstemperatur berechnen. Auf den ersten Blick sieht der Datensatz noch genauso aus, wie im vorherigen Beispiel:

Der entscheidende Unterschied ist aber, dass wir die Daten durch die Berechnung der Tagesmitteltemperaturen quasi “diskretisiert” haben. Wir können nicht mehr die Lücken zwischen zwei Punkten füllen, in dem wir mehr Daten messen. Die Frage ist auch, was wir damit bezwecken wollen würden. Zwischen zwei Tagen (a 24 Stunden) gibt es schließlich nichts, zu dem wir die Tagesmitteltemperatur berechnen könnten. Diese wichtige Eigenschaft diskreter Daten lässt sich am besten durch ein Balkendiagramm darstellen:

Soweit die Theorie. Leider lassen sich unzählige Beispiele finden, in denen diskrete Daten irreführender weise durch Liniendiagramme visualisiert wurden, so zum Beispiel im Dashboard von Google Analytics und dessen OpenSource-Alternative Piwik. Dabei ist die Anzahl der Besucher pro Tag ein klarer Fall von diskreten Daten.

Die Liste von Beispielen ließe sich vermutlich beliebig lange fortsetzen. Bei Piwik lässt sich der “Fehler” übrigens ziemlich schnell korrigieren. Ändert man der Datei ChartEvolution.php in Zeile 24 den Wert von “evolution” zu “bar“, sieht man ab sofort nur noch visuell korrekte und nicht weniger schöne Balkendiagramme. Das ganze habe ich inzwischen auch als Änderungsvorschlag in der Piwik-Community eingebracht, mal schauen wie sich die Diskussion dazu so entwickelt..

  • http://www.sendung.de/ Marian Steinbach

    Ein Beispiel für nicht wirklich stimmige Verwendung des Liniendiagramms anstelle eines Histogramms: http://insights.truliablog.com/vis/when-crime/

  • http://ifs.tuwien.ac.at/~aigner Wolfgang Aigner

    Super Analyse zu einer Problematik, die oft nicht bedacht wird!

    Ich selber bin Wissenschafter im Bereich Informationsvisualisierung und beschäftige mich schon seit einigen Jahren mit dem Thema Visualisierung von zeitorientierten Daten. Gemeinsam mit Kollegen haben wir bezüglich Modellierung, Analyse, und Visualisierung solcher Daten einiges Material zusammengetragen das seit kurzem auch als Buch erschienen ist: “Visualization of Time-Oriented Data” (Aigner, Miksch, Schumann, Tominski) erschienen bei Springer, 2011. Siehe auch: http://www.timeviz.net

  • http://driven-by-data.net Gregor Aisch

    Vielen Dank für den Tipp, werde mir das Buch ansehen. Im übrigen freue mich sehr über so prominente Besucher.