Abo
  • Services:

Geoencoding hilft uns weiter

Dazu schreiben wir ein Python-Skript. Es ermittelt alle Datensätze in der Datenbank, in denen entweder eine Stadt oder eine Postleitzahl oder beides angegeben ist. Mit diesen Daten rufen wir das Python-Package geocoder auf. Es liefert uns die zugehörigen geografischen Angaben, zumindest meistens. Leider ist auch nicht jede Angabe eindeutig. Deshalb müssen wir zwangsläufig jeden Eintrag manuell gegenprüfen, wobei wir noch einige Zahlendreher und Vertipper in Postleitzahlen entdecken. Schließlich gelingt es uns. Alle Datensätze mit Ortsangaben haben nun auch eine Breiten- und Längengradangabe, insgesamt sind es 326 verschiedene Ortsangaben.

Eine große Überraschung

Stellenmarkt
  1. Allianz Private Krankenversicherungs-AG, München
  2. INSYS MICROELECTRONICS GmbH, Regensburg

Mit den so korrigierten Datensätzen erzeugen wir in QGIS erneut eine Übersichtskarte der Messstationen - und sind verblüfft: Das Verteilungsmuster kommt uns bekannt vor. Tatsächlich gleicht es der vom Institut für deutsche Wirtschaft herausgegebenen Karte der IT-Arbeitsplätze in Deutschland.

  • Mengenverteilung der eingesetzten Elektronikplattform (Bild: Alexander Merz/Golem.de)
  • Wo überall gemessen wurde in Deutschland, Österreich, Schweiz, Luxemburg und Italien (Bild: Alexander Merz/Golem.de)
  • Karte der IT-Arbeitsplätze in Deutschland (Bild: Institut für deutsche Wirtschaft)
  • Häufigkeitsverteilung der Messwerte (Bild: Alexander Merz/Golem.de)
  • Median und Durchschnitt der Temperaturwerte im Tagesverlauf (Bild: Alexander Merz/Golem.de)
  • Durchschnittstemperaturen im Ländervergleich (Bild: Alexander Merz/Golem.de)
  • Mediantemperaturen im Ländervergleich (Bild: Alexander Merz/Golem.de)
  • Durchschnittstemperaturen im Bundesländervergleich (Bild: Alexander Merz/Golem.de)
  • Mediantemperaturen im Bundesländer-Vergleich (Bild: Alexander Merz/Golem.de)
  • Durchschnittliche Temperarturentwicklung (Bild: Alexander Merz/Golem.de)
  • Temperarturentwicklung im Median (Bild: Alexander Merz/Golem.de)
  • Entwicklung der Lufttemperatur und der Bürotemperatur (Bild: Alexander Merz/Golem.de)
  • Verhältnis zwischen den Messwerten mit Token und ohne Token (Bild: Alexander Merz/Golem.de)
  • Geräte der Nicht-Token-Nutzer (Bild: Alexander Merz/Golem.de)
  • Geräte der Token-Nutzer (Bild: Alexander Merz/Golem.de)
  • Anzahl der neu genutzten Tokens pro Tag (Bild: Alexander Merz/Golem.de)
  • Messdauer von Tokennutzern (Bild: Alexander Merz/Golem.de)
  • Von R generierte Graphik der Nicht-Token-Nutzern, weitgehend im Roh-Zustand (Bild: Alexander Merz/Golem.de)
Wo überall gemessen wurde in Deutschland, Österreich, Schweiz, Luxemburg und Italien (Bild: Alexander Merz/Golem.de)

Zumindest für die IT-Büros scheint die Teilnehmerverteilung des Temperaturmessprojekts repräsentativ zu sein.

Wenn zu viel getestet wird

Bevor wir mit den Temperaturwerten beginnen, werfen wir einen Blick auf die Menge der Testwerte. Nutzer konnten ihren übermittelten Datensatz mit einem Debug-Flag versehen. Der Wert sollte dann nicht in die Auswertung eingehen. Doch unsere Datenbank liefert uns eine überraschende Aussage: Ein Viertel der Werte ist mit einem Debug-Flag versehen. Darunter befinden sich auch viele Datensätze von Token-Nutzern - deren übrige Angaben aber korrekt aussehen. Wir schauen uns deren Werte an, sie sehen trotz des Debug-Flags valide aus. Deshalb entscheiden wir uns, auch Datensätze mit dem Debug-Flag in die Auswertung mitaufzunehmen. Wir können schließlich auch bei den vermeintlich regulären Sendungen nicht von fehlerfreien Messungen ausgehen.

Hoffentlich valide Temperaturdaten

Eine Häufigkeitsanalyse liefert uns einen ersten Eindruck von den Temperaturwerten. Insgesamt gibt es 5.493 unterschiedliche Messwerte. Die Anzahl mag verblüffen, aber da wir keine konkrete Vorgabe zur Genauigkeit der übermittelten Werte gemacht haben, ist das erklärlich. Wir erzeugen eine Grafik mit den Häufigkeiten pro Wert. Dabei betrachten wir die Werte mit Debug-Flag und ohne getrennt. Im Graphen zeigt sich, dass sich die Verteilung ähnelt.

  • Mengenverteilung der eingesetzten Elektronikplattform (Bild: Alexander Merz/Golem.de)
  • Wo überall gemessen wurde in Deutschland, Österreich, Schweiz, Luxemburg und Italien (Bild: Alexander Merz/Golem.de)
  • Karte der IT-Arbeitsplätze in Deutschland (Bild: Institut für deutsche Wirtschaft)
  • Häufigkeitsverteilung der Messwerte (Bild: Alexander Merz/Golem.de)
  • Median und Durchschnitt der Temperaturwerte im Tagesverlauf (Bild: Alexander Merz/Golem.de)
  • Durchschnittstemperaturen im Ländervergleich (Bild: Alexander Merz/Golem.de)
  • Mediantemperaturen im Ländervergleich (Bild: Alexander Merz/Golem.de)
  • Durchschnittstemperaturen im Bundesländervergleich (Bild: Alexander Merz/Golem.de)
  • Mediantemperaturen im Bundesländer-Vergleich (Bild: Alexander Merz/Golem.de)
  • Durchschnittliche Temperarturentwicklung (Bild: Alexander Merz/Golem.de)
  • Temperarturentwicklung im Median (Bild: Alexander Merz/Golem.de)
  • Entwicklung der Lufttemperatur und der Bürotemperatur (Bild: Alexander Merz/Golem.de)
  • Verhältnis zwischen den Messwerten mit Token und ohne Token (Bild: Alexander Merz/Golem.de)
  • Geräte der Nicht-Token-Nutzer (Bild: Alexander Merz/Golem.de)
  • Geräte der Token-Nutzer (Bild: Alexander Merz/Golem.de)
  • Anzahl der neu genutzten Tokens pro Tag (Bild: Alexander Merz/Golem.de)
  • Messdauer von Tokennutzern (Bild: Alexander Merz/Golem.de)
  • Von R generierte Graphik der Nicht-Token-Nutzern, weitgehend im Roh-Zustand (Bild: Alexander Merz/Golem.de)
Häufigkeitsverteilung der Messwerte (Bild: Alexander Merz/Golem.de)

Die Werte 0 und 99 treten vergleichsweise häufig auf. Auch wir hatten zu Beginn unseres Projekts häufig solche Werte, während wir mit den verschiedenen Elektronikplattformen experimentierten. Sie entstanden durch fehlerhaft ausgelesene Sensoren oder Fehler bei der Aufbereitung der Daten für die Übermittlung per URL.

Auffällig ist auch die Häufung im Bereich um die 40 °C. Ein Blick in die Datenbank zeigt, dass es sich anscheinend tatsächlich um die korrekten Werte eines einzelnen Teilnehmers handelt, auch wenn sie als Debug-Werte gekennzeichnet sind.

Aufgrund der Häufigkeitsverteilung wird deutlich, dass wir uns für eine sinnvolle Betrachtung auf einen Wertebereich von 10 bis 45 °C Grad beschränken können. Das sind immer noch gut 4,1 Millionen Messwerte.

Am wärmsten ist es nicht mittags

Aus dieser Menge errechnen wir einen Mittelwert über den ganzen Tag von 24,8 °C. Unterscheiden wir nach der Tageszeit: Tagsüber, von 7 bis 19 Uhr, beträgt der Median 24,9 °C, der Durchschnitt 25 °C. Nachts liegt der Temperatur-Mittelwert bei 24,7 °C. Gliedern wir die Werte nach den Stunden des Tages auf, ist das Minimum gegen 7 und 8 Uhr früh erkennbar. Das Maximum wird gegen 17 Uhr erreicht. Dabei beträgt allerdings die Differenz zwischen Minimum- und Maximum-Temperatur gerade einmal rund 1,4 °C.

Interessant wird es im Ländervergleich.

 Die Programmiersprache für StatistikfansDer European Office Contest 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9.  


Anzeige
Top-Angebote
  1. 49,00€ (Bestpreis!)
  2. (u. a. John Wick, Sicario, Deepwater Horizon, Die große Asterix Edition, Die Tribute von Panem)
  3. (heute u. a. Creative PC-Lautsprecher 99,90€, Samsung UE-65NU7449 TV 1199,00€)

H4ndy 15. Mär 2017

Seit Golem.de nur noch über SSL läuft, funktioniert mein kleiner ESP leider nicht mehr...

Eheran 09. Mär 2017

Weil das Luftfeuchte, also verdampftes Wasser, ist. So wie man bei kochendem Wasser...

am (golem.de) 09. Mär 2017

Da danken wir doch ganz besonders!

am (golem.de) 09. Mär 2017

Vielen Dank und der Fehelr ist gefixt!

am (golem.de) 09. Mär 2017

Vielen Dank für das Lob! Wegen Skript siehe hier: https://forum.golem.de/kommentare...


Folgen Sie uns
       


BMW stellt seinen Formel-E-Rennwagen vor - Bericht

BMW setzt auf elektrischen Motorsport: Die Münchener treten als zweiter deutscher Autohersteller in der Rennserie Formel E an. BMW hat in München das Fahrzeug für die Saison 2018/19 vorgestellt.

BMW stellt seinen Formel-E-Rennwagen vor - Bericht Video aufrufen
Athlon 200GE im Test: Celeron und Pentium abgehängt
Athlon 200GE im Test
Celeron und Pentium abgehängt

Mit dem Athlon 200GE belebt AMD den alten CPU-Markennamen wieder: Der Chip gefällt durch seine Zen-Kerne und die integrierte Vega-Grafikeinheit, die Intel-Konkurrenz hat dem derzeit preislich wenig entgegenzusetzen.
Ein Test von Marc Sauter

  1. AMD Threadripper erhalten dynamischen NUMA-Modus
  2. HP Elitedesk 705 Workstation Edition Minitower mit AMD-CPU startet bei 680 Euro
  3. Ryzen 5 2600H und Ryzen 7 2800H 45-Watt-CPUs mit Vega-Grafik für Laptops sind da

Mobile-Games-Auslese: Bezahlbare Drachen und dicke Bären
Mobile-Games-Auslese
Bezahlbare Drachen und dicke Bären

Rundenbasierte Strategie auf dem Smartphone mit Chaos Reborn Adventure Fantasy von Nintendo in Dragalia Lost - und dicke Alpha-Bären: Die Mobile Games des Monats bieten spannende Unterhaltung für jeden Geschmack.
Von Rainer Sigl

  1. Mobile-Games-Auslese Städtebau und Lebenssimulation für unterwegs
  2. Mobile-Games-Auslese Barbaren und andere knuddelige Fantasyhelden
  3. Seismic Games Niantic kauft Entwickler von Marvel Strike Force

MacOS Mojave im Test: Mehr als nur dunkel
MacOS Mojave im Test
Mehr als nur dunkel

Wer MacOS Mojave als bloßes Designupdate sieht, liegt falsch. Neben Neuerungen wie dem Dark Mode bringt Apples neues Betriebssystem vieles, was die Produktivität der Nutzer steigern kann - sofern sie sich darauf einlassen.
Ein Test von Andreas Donath

  1. MacOS Mojave Lieber warten mit dem Apple-Update
  2. Apple Öffentliche Beta von MacOS Mojave 10.14 verfügbar
  3. MacOS 10.14 Mojave Apple verabschiedet OpenGL und verbessert Machine Learning

    •  /