Abo
  • Services:
Anzeige
Ösi-Tux mit Thermometer
Ösi-Tux mit Thermometer (Bild: Alexander Merz/Golem.de)

Geoencoding hilft uns weiter

Dazu schreiben wir ein Python-Skript. Es ermittelt alle Datensätze in der Datenbank, in denen entweder eine Stadt oder eine Postleitzahl oder beides angegeben ist. Mit diesen Daten rufen wir das Python-Package geocoder auf. Es liefert uns die zugehörigen geografischen Angaben, zumindest meistens. Leider ist auch nicht jede Angabe eindeutig. Deshalb müssen wir zwangsläufig jeden Eintrag manuell gegenprüfen, wobei wir noch einige Zahlendreher und Vertipper in Postleitzahlen entdecken. Schließlich gelingt es uns. Alle Datensätze mit Ortsangaben haben nun auch eine Breiten- und Längengradangabe, insgesamt sind es 326 verschiedene Ortsangaben.

Anzeige

Eine große Überraschung

Mit den so korrigierten Datensätzen erzeugen wir in QGIS erneut eine Übersichtskarte der Messstationen - und sind verblüfft: Das Verteilungsmuster kommt uns bekannt vor. Tatsächlich gleicht es der vom Institut für deutsche Wirtschaft herausgegebenen Karte der IT-Arbeitsplätze in Deutschland.

  • Mengenverteilung der eingesetzten Elektronikplattform (Bild: Alexander Merz/Golem.de)
  • Wo überall gemessen wurde in Deutschland, Österreich, Schweiz, Luxemburg und Italien (Bild: Alexander Merz/Golem.de)
  • Karte der IT-Arbeitsplätze in Deutschland (Bild: Institut für deutsche Wirtschaft)
  • Häufigkeitsverteilung der Messwerte (Bild: Alexander Merz/Golem.de)
  • Median und Durchschnitt der Temperaturwerte im Tagesverlauf (Bild: Alexander Merz/Golem.de)
  • Durchschnittstemperaturen im Ländervergleich (Bild: Alexander Merz/Golem.de)
  • Mediantemperaturen im Ländervergleich (Bild: Alexander Merz/Golem.de)
  • Durchschnittstemperaturen im Bundesländervergleich (Bild: Alexander Merz/Golem.de)
  • Mediantemperaturen im Bundesländer-Vergleich (Bild: Alexander Merz/Golem.de)
  • Durchschnittliche Temperarturentwicklung (Bild: Alexander Merz/Golem.de)
  • Temperarturentwicklung im Median (Bild: Alexander Merz/Golem.de)
  • Entwicklung der Lufttemperatur und der Bürotemperatur (Bild: Alexander Merz/Golem.de)
  • Verhältnis zwischen den Messwerten mit Token und ohne Token (Bild: Alexander Merz/Golem.de)
  • Geräte der Nicht-Token-Nutzer (Bild: Alexander Merz/Golem.de)
  • Geräte der Token-Nutzer (Bild: Alexander Merz/Golem.de)
  • Anzahl der neu genutzten Tokens pro Tag (Bild: Alexander Merz/Golem.de)
  • Messdauer von Tokennutzern (Bild: Alexander Merz/Golem.de)
  • Von R generierte Graphik der Nicht-Token-Nutzern, weitgehend im Roh-Zustand (Bild: Alexander Merz/Golem.de)
Wo überall gemessen wurde in Deutschland, Österreich, Schweiz, Luxemburg und Italien (Bild: Alexander Merz/Golem.de)

Zumindest für die IT-Büros scheint die Teilnehmerverteilung des Temperaturmessprojekts repräsentativ zu sein.

Wenn zu viel getestet wird

Bevor wir mit den Temperaturwerten beginnen, werfen wir einen Blick auf die Menge der Testwerte. Nutzer konnten ihren übermittelten Datensatz mit einem Debug-Flag versehen. Der Wert sollte dann nicht in die Auswertung eingehen. Doch unsere Datenbank liefert uns eine überraschende Aussage: Ein Viertel der Werte ist mit einem Debug-Flag versehen. Darunter befinden sich auch viele Datensätze von Token-Nutzern - deren übrige Angaben aber korrekt aussehen. Wir schauen uns deren Werte an, sie sehen trotz des Debug-Flags valide aus. Deshalb entscheiden wir uns, auch Datensätze mit dem Debug-Flag in die Auswertung mitaufzunehmen. Wir können schließlich auch bei den vermeintlich regulären Sendungen nicht von fehlerfreien Messungen ausgehen.

Hoffentlich valide Temperaturdaten

Eine Häufigkeitsanalyse liefert uns einen ersten Eindruck von den Temperaturwerten. Insgesamt gibt es 5.493 unterschiedliche Messwerte. Die Anzahl mag verblüffen, aber da wir keine konkrete Vorgabe zur Genauigkeit der übermittelten Werte gemacht haben, ist das erklärlich. Wir erzeugen eine Grafik mit den Häufigkeiten pro Wert. Dabei betrachten wir die Werte mit Debug-Flag und ohne getrennt. Im Graphen zeigt sich, dass sich die Verteilung ähnelt.

  • Mengenverteilung der eingesetzten Elektronikplattform (Bild: Alexander Merz/Golem.de)
  • Wo überall gemessen wurde in Deutschland, Österreich, Schweiz, Luxemburg und Italien (Bild: Alexander Merz/Golem.de)
  • Karte der IT-Arbeitsplätze in Deutschland (Bild: Institut für deutsche Wirtschaft)
  • Häufigkeitsverteilung der Messwerte (Bild: Alexander Merz/Golem.de)
  • Median und Durchschnitt der Temperaturwerte im Tagesverlauf (Bild: Alexander Merz/Golem.de)
  • Durchschnittstemperaturen im Ländervergleich (Bild: Alexander Merz/Golem.de)
  • Mediantemperaturen im Ländervergleich (Bild: Alexander Merz/Golem.de)
  • Durchschnittstemperaturen im Bundesländervergleich (Bild: Alexander Merz/Golem.de)
  • Mediantemperaturen im Bundesländer-Vergleich (Bild: Alexander Merz/Golem.de)
  • Durchschnittliche Temperarturentwicklung (Bild: Alexander Merz/Golem.de)
  • Temperarturentwicklung im Median (Bild: Alexander Merz/Golem.de)
  • Entwicklung der Lufttemperatur und der Bürotemperatur (Bild: Alexander Merz/Golem.de)
  • Verhältnis zwischen den Messwerten mit Token und ohne Token (Bild: Alexander Merz/Golem.de)
  • Geräte der Nicht-Token-Nutzer (Bild: Alexander Merz/Golem.de)
  • Geräte der Token-Nutzer (Bild: Alexander Merz/Golem.de)
  • Anzahl der neu genutzten Tokens pro Tag (Bild: Alexander Merz/Golem.de)
  • Messdauer von Tokennutzern (Bild: Alexander Merz/Golem.de)
  • Von R generierte Graphik der Nicht-Token-Nutzern, weitgehend im Roh-Zustand (Bild: Alexander Merz/Golem.de)
Häufigkeitsverteilung der Messwerte (Bild: Alexander Merz/Golem.de)

Die Werte 0 und 99 treten vergleichsweise häufig auf. Auch wir hatten zu Beginn unseres Projekts häufig solche Werte, während wir mit den verschiedenen Elektronikplattformen experimentierten. Sie entstanden durch fehlerhaft ausgelesene Sensoren oder Fehler bei der Aufbereitung der Daten für die Übermittlung per URL.

Auffällig ist auch die Häufung im Bereich um die 40 °C. Ein Blick in die Datenbank zeigt, dass es sich anscheinend tatsächlich um die korrekten Werte eines einzelnen Teilnehmers handelt, auch wenn sie als Debug-Werte gekennzeichnet sind.

Aufgrund der Häufigkeitsverteilung wird deutlich, dass wir uns für eine sinnvolle Betrachtung auf einen Wertebereich von 10 bis 45 °C Grad beschränken können. Das sind immer noch gut 4,1 Millionen Messwerte.

Am wärmsten ist es nicht mittags

Aus dieser Menge errechnen wir einen Mittelwert über den ganzen Tag von 24,8 °C. Unterscheiden wir nach der Tageszeit: Tagsüber, von 7 bis 19 Uhr, beträgt der Median 24,9 °C, der Durchschnitt 25 °C. Nachts liegt der Temperatur-Mittelwert bei 24,7 °C. Gliedern wir die Werte nach den Stunden des Tages auf, ist das Minimum gegen 7 und 8 Uhr früh erkennbar. Das Maximum wird gegen 17 Uhr erreicht. Dabei beträgt allerdings die Differenz zwischen Minimum- und Maximum-Temperatur gerade einmal rund 1,4 °C.

Interessant wird es im Ländervergleich.

 Die Programmiersprache für StatistikfansDer European Office Contest 

eye home zur Startseite
H4ndy 15. Mär 2017

Seit Golem.de nur noch über SSL läuft, funktioniert mein kleiner ESP leider nicht mehr...

Eheran 09. Mär 2017

Weil das Luftfeuchte, also verdampftes Wasser, ist. So wie man bei kochendem Wasser...

am (golem.de) 09. Mär 2017

Da danken wir doch ganz besonders!

am (golem.de) 09. Mär 2017

Vielen Dank und der Fehelr ist gefixt!

am (golem.de) 09. Mär 2017

Vielen Dank für das Lob! Wegen Skript siehe hier: https://forum.golem.de/kommentare...



Anzeige

Stellenmarkt
  1. Bezirksamt Lichtenberg von Berlin, Berlin
  2. Zühlke Engineering GmbH, Stuttgart
  3. access KellyOCG GmbH, deutschlandweit
  4. Daimler AG, Stuttgart


Anzeige
Hardware-Angebote
  1. (diverse Modelle von MSI, ASUS, ASRock und Gigabyte lagernd)
  2. ab 179,99€

Folgen Sie uns
       


  1. Depublizierung

    7-Tage-Löschfrist für ARD und ZDF im Internet fällt weg

  2. Netzneutralität

    Telekom darf Auflagen zu Stream On länger prüfen

  3. Spielebranche

    Kopf-an-Kopf-Rennen zwischen Pro und X erwartet

  4. Thunderobot ST-Plus im Praxistest

    Da gehe ich doch lieber wieder draußen spielen!

  5. Fahrdienst

    Alphabet investiert in Lyft

  6. Virtuelles Haustier

    Bandai kündigt "Classic Mini"-Version des Tamagotchi an

  7. News

    Facebook testet Abos für Nachrichten-Artikel

  8. Elon Musk

    Baut The Boring Company den Hyperloop?

  9. Mobilfunkausrüster

    Ericsson macht hohen Verlust

  10. Luminar

    Lightroom-Konkurrenz bringt sich in Stellung



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Indiegames-Rundschau: Fantastische Fantasy und das Echo der Doppelgänger
Indiegames-Rundschau
Fantastische Fantasy und das Echo der Doppelgänger
  1. Verlag IGN übernimmt Indiegames-Anbieter Humble Bundle
  2. Indiegames-Rundschau Cyberpunk, Knetmännchen und Kampfsportkünstler
  3. Indiegames-Rundschau Fantasysport, Burgbelagerungen und ein amorpher Blob

Xperia Touch im Test: Sonys coolem Android-Projektor fehlt das Killerfeature
Xperia Touch im Test
Sonys coolem Android-Projektor fehlt das Killerfeature
  1. Roboter Sony lässt Aibo als Alexa-Konkurrenten wieder auferstehen
  2. Sony Xperia XZ1 Compact im Test Alternativlos für Freunde kleiner Smartphones
  3. Sony Xperia XZ1 und XZ1 Compact sind erhältlich

Arktika 1 im Test: Monster-verseuchte Eiszeitschönheit
Arktika 1 im Test
Monster-verseuchte Eiszeitschönheit
  1. TPCast Oculus Rift erhält Funkmodul
  2. Oculus Go Alleine lauffähiges VR-Headset für 200 US-Dollar vorgestellt
  3. Virtual Reality Update bindet Steam-Rift in Oculus Home ein

  1. Nicht nur die Telekommunikationsunternehmen...

    jones1024 | 14:58

  2. LiMux ein gutes Beispiel

    cicero | 14:57

  3. Re: Singleplayer Teil ist ja schön und gut, aber...

    bombinho | 14:57

  4. Re: Langweilt das nicht langsam mal?

    thecrew | 14:56

  5. IDC und die Glaskugel

    Chris23235 | 14:54


  1. 15:05

  2. 14:37

  3. 12:50

  4. 12:22

  5. 11:46

  6. 11:01

  7. 10:28

  8. 10:06


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel