24 Server scrollen zwei Monate lang herum

Es dauerte lange, die Region zu erfassen. "Ich habe anderthalb Monate implementiert, dann haben 24 Server zwei Monate lang herumgescrollt" erinnert sich Buschek. Xinjiang, offiziell lautet die chinesische Bezeichnung Uigurisches Autonomes Gebiet Xinjiang (von der Unabhängigkeitsbewegung Ostturkestan genannt), ist von der Fläche her die größte der 33 Verwaltungseinheiten der Volksrepublik China. Mit knapp 1,7 Millionen Quadratkilometern ist die Region mehr als 4,5-mal so groß wie Deutschland - und die Zensurflecken tauchten erst bei Zoomstufen auf, in denen Infrastrukturdetails erkennbar wären.

Stellenmarkt
  1. Softwareentwickler (w/m/d)
    UVT Unternehmensberatung für Verkehr und Technik GmbH, Mainz
  2. C++ Softwareentwickler Embedded Middleware (m/w/d)
    e.solutions GmbH, Erlangen
Detailsuche

Neben der großen Fläche stieß Buschek aber noch auf ein weiteres Problem: "Baidu legt keine Priorität auf Aufrufe aus dem Ausland. Viele Anfragen schlugen deshalb immer wieder fehl und mussten wiederholt werden." Erst durch Caching von Resource-Dateien, wie zum Beispiel solchen mit Javascript, gelang es ihm, das Programm halbwegs effektiv laufen zu lassen.

Zumal das Programm ja nicht nur ein paar Geodaten speichern, sondern auch dokumentieren muss, was wann wie gefunden wurde. Generell gelte, dass man sich "nicht darauf verlassen kann, dass Daten online bleiben", sagt Buschek. Screenshots zu machen, sei deshalb wichtig gewesen.

Nach der Suche deaktivierte Buschek den Crawler: "Wir brauchten ihn nicht mehr und es verursacht ja auch Kosten, sowas dann grundlos weiterlaufen zu lassen." Als er ihn jedoch ein halbes Jahr später aus Neugier wieder einmal starten wollte, hatten sich die Zensurtechniken schon wieder so weit geändert, dass er nicht mehr funktionierte.

Golem Akademie
  1. IT-Sicherheit für Webentwickler
    2.-3. November 2021, online
  2. Webentwicklung mit React and Typescript
    20.-24. September 2021, online
  3. IT-Fachseminare der Golem Akademie
    Live-Workshops zu Schlüsselqualifikationen
Weitere IT-Trainings

Über den Grund dieser Änderungen könne man nur spekulieren, sagt Buschek. "Es gab aber auch keinen Anlass, Zeit aufzuwenden und die Software wieder zum Laufen zu bringen." Buschek bezeichnet solche Art von Software als Einmalsoftware, weil sie ihren Zweck erfüllt hat und dann nicht mehr gebraucht wird.

Ein riesiger Haufen an Daten

Die erste Datensammlung war riesengroß. Viel zu groß, um sich alles manuell anzuschauen - Buscheks Crawler hatte mehr als fünf Millionen zensierte Flecken gefunden. Deshalb entstand die Idee, die Zensurkacheln mit Rechnerhilfe weiter zu kategorisieren: Lager brauchen eine gewisse Infrastruktur um sie herum: "In erster Linie schaut man nach Straßen und Verkehrsanbindung für die Versorgung, aber natürlich auch für den An- und Abtransport von Inhaftierten und Mitarbeitern."

Mit Hilfe von Daten aus Openstreetmap, Google Maps, Google Earth und anderen wurden Gebiete markiert, die über eine gewisse Infrastruktur verfügen - Straßen, Städte, Ballungszentren. Die daraus gewonnenen Geodaten wurden dann mit denen der Zensurkacheln abgeglichen. "Übrig blieben 50.000 Stellen", immer noch viel, aber es war machbar, diese "manuell anzuschauen".

Manuell anschauen bedeutete, die in China abgedeckten Stellen mit unzensierten Satellitenbildern aus Google Earth, aus dem Sentinel Hub der Europäischen Raumfahrtagentur ESA und von Planet Labs zu vergleichen - letztere leiteten sogar einen Satelliten um, um das Projekt mit aktuellen Aufnahmen zu unterstützen.

Die manuelle Auswertung der Kandidaten

Um die manuelle Auswertung machbar zu gestalten, waren wieder Buscheks Programmierkenntnisse gefragt. Er entwickelte ein Werkzeug, mit dem sich die Satellitenfotos der fraglichen Stellen anschauen ließen.

Gleichzeitig war es möglich, die Stellen mit Tags zu versehen, also zu markieren, was genau darauf sicher identifiziert werden konnte. Zum Beispiel waren das hohe, dicke Mauern, Stacheldrahtbefestigungen, Wachtürme, ob sich Parkplätze nur außerhalb befanden und vieles mehr. Mit diesen Tags ließ sich dann einsortieren, ob es sich potenziell um ein befestigtes Lager handeln konnte oder nicht.

Gefunden wurde eine größere Menge an Lagern als gedacht. "Wir wussten, dass es Camps gibt, es waren 20, 30 bekannt - aber es gab Indizien, dass es bis zu 1.200 geben könnte", erzählt Buschek. Die unterteilen sich noch einmal in drei Arten von Locations: Die, bei denen sich das Team sicher war, dass es sich um Camps handelte, weil entweder jemand vor Ort war oder Leute, die dort interniert waren, dies verifizierten.

JavaScript: Das umfassende Handbuch. JavaScript lernen und verstehen. Inkl. objektorientierter und funktionaler Programmierung

Die zweite Kategorie lautet: "Wir glauben, dass es sich um ein Camp handelt, haben aber keine Beweise dafür." Als Drittes blieben jene übrig, wo es keine gesicherten Belege gab, sich aber trotzdem möglicherweise noch Beweise finden lassen würden.

Weil Buschek keinen "aktiven Research" macht, wie er sagt, war er entsprechend weniger mit Augenzeugenberichten und Bildern von Gräueln konfrontiert als andere Projektbeteiligte. "Man will natürlich nicht komplett abstrahieren", sagt er, "jeder findet seinen Weg, mit Gesehenem fertig zu werden - meiner ist, mir Auszeiten zu nehmen, zu verreisen, für eine ausgeglichene Bilanz zwischen dem eigenen Leben und dem, was man durch die Arbeit miterlebt, zu finden."

Wieso nicht mehr Technikunterstützung mit Pattern Recognition?

Bei dem Prozess wurde keine automatische Pattern Recognition benutzt. Das hatte auch technische Gründe, zum Beispiel, weil es sehr aufwendig wäre, etwa ein Machine-Learning-System für die Aufgabe zu trainieren. Das würde nicht nur hohe Kosten verursachen, weil eine große Infrastruktur benötigt wird, sondern auch ethische Probleme aufwerfen - nämlich nicht genau zu wissen, ob man dem Computer dabei auch trauen kann.

"Wenn bei Netflix einmal eine Empfehlung herauskommt, die absolut falsch ist, ist das für den betroffenen Kunden natürlich ärgerlich, aber kein Problem - in unserem Fall wäre es dagegen eine Katastrophe." Immer eine menschliche Komponente im Prozess zu haben, ist Buschek wichtig, vor allem, wenn es um Menschenrechte geht. "Manchmal ist nicht ganz klar, wo der Unterschied zwischen Spionage und Agieren mit ethischem Hintergrund liegt", sagt er. "Daten müssen in einen Kontext gesetzt werden."

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Pulitzer-Preis: Wie ein Programmierer den Journalistenpreis gewannPlötzlich Pulitzer-Preisträger 
  1.  
  2. 1
  3. 2
  4. 3
  5.  


Cerdo 12. Aug 2021 / Themenstart

Okay, wenn Du darauf besteht können wir ja gerne "Umerziehungslager" für die größte...

theFiend 10. Aug 2021 / Themenstart

Einmal in die Liste der Preisträger geschaut, und du hättest Dir den Käse hier sparen...

theFiend 10. Aug 2021 / Themenstart

Wow, und um hier den einen Post zu veröffentlichen, und zur Schau zu stellen das Du die...

Kleba 10. Aug 2021 / Themenstart

Das hat ja die Frau Rajagopalan auch zuerst gemacht. Aber scheinbar hat es ja schon...

Kommentieren



Aktuell auf der Startseite von Golem.de
Urteil zu Schrems II
US-Datentransfer kann mit Verschlüsselung abgesichert werden

Der belgische Staatsrat hat ein wichtiges Urteil zum Datentransfer in die USA gefällt. Doch wann reicht die Verschlüsselung von Daten wirklich aus?
Ein Bericht von Christiane Schulzki-Haddouti

Urteil zu Schrems II: US-Datentransfer kann mit Verschlüsselung abgesichert werden
Artikel
  1. Cyrcle Phone 2.0: Rundes Smartphone soll 700 Euro kosten
    Cyrcle Phone 2.0
    Rundes Smartphone soll 700 Euro kosten

    Dass Mobiltelefone in den letzten 20 Jahren meist nicht rund gewesen sind, scheint einen guten Grund zu haben, wie das Cyrcle Phone 2.0 zeigt.

  2. Ladesäulenverordnung: Bundesrat billigt Kartenzahlung an Ladesäulen
    Ladesäulenverordnung
    Bundesrat billigt Kartenzahlung an Ladesäulen

    Fürs E-Auto-Tanken an der Ladesäule werden bisher oft spezielle Kundenkarten gebraucht. Künftig reicht die Debit- oder Kreditkarte.

  3. Mercedes-Benz-COO Schäfer: Das Heil liegt nicht in 2- oder 7-nm-Chips
    Mercedes-Benz-COO Schäfer
    "Das Heil liegt nicht in 2- oder 7-nm-Chips"

    IAA 2021 Der Autokonzern Daimler will sich künftig sehr intensiv um die Herstellung und Lieferung von Chips kümmern - angefangen bei den Wafer-Produzenten.
    Ein Bericht von Friedhelm Greis

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • iPhone 13: jetzt alle Modelle vorbestellbar • Sony Pulse 3D PS5-Headset Midnight Black vorbestellbar 89,99€ • Breaking Deals mit Club-Rabatten (u. a. Samsung 65" QLED 1.189,15€) • WD Black SN750 1TB 96,99€ • Amazon Exklusives in 4K-UHD • GP Anniversary Sale: History & War [Werbung]
    •  /