Scraping des Handelsregisters: "Wir machen das ja nur aus Notwehr"

Eine ehrenamtliche Gruppe plant, die Daten des Handelsregisters automatisiert in maschinenlesbare Formen zu bringen. Wofür dieser Aufwand?

Ein Interview von Lennart Mühlenmeier veröffentlicht am
Bund.dev holt die Informationen aus den nicht ganz so digitalen Dokumenten.
Bund.dev holt die Informationen aus den nicht ganz so digitalen Dokumenten. (Bild: Maksym Kaharlytskyi/Collage durch Golem.de/Unsplash-Lizenz)

"Kostenfrei angeboten" und: "Registrierung nicht mehr erforderlich" - so präsentiert das gemeinsame Registerportal der Länder auf Handelsregister.de die Änderungen zum 1. August 2022. In Folge einer Gesetzesnovelle sollen nun alle Inhalte ohne Hürden abrufbar sein - das wollte der Gesetzgeber in der Europäischen Union.

Inhalt:
  1. Scraping des Handelsregisters: "Wir machen das ja nur aus Notwehr"
  2. Alle wollen jetzt verwertbare Daten

Deutschland hat die entsprechende EU-Richtlinie zwar ratifiziert, aber an der Umsetzung hapert es. Um an die Dokumente zu kommen, müssen Limitierungen umgangen werden. Maschinenlesbare Auszüge aus dem Handelsregister? Fehlanzeige.

Bund.dev ist ein Zusammenschluss von Open-Data-Aktivisten, die diesen Zustand "unverschämt" finden, wie ihr Mitglied und IT-Sicherheitsexpertin Lilith Wittmann sagt. Sie plant zusammen mit weiteren Ehrenamtlichen von Bund.dev, das Handelsregister aus diesen Zwängen zu befreien.

Bund.dev oder ausgeschrieben (und mit Augenzwinkern): die Bundesstelle für Open Data hat Erfahrung mit solchen Web-Scraping-Projekten und der Datenbereinigung. In mittlerweile 50 Repositories dokumentiert sie Schnittstellen für die öffentliche Verwaltung, die so nicht bereitgestellt werden und eigentlich nicht existieren: meist mit Scrapern im juristischen Graubereich und der klaren Ansage, dass der Staat nachbessern muss.

Stellenmarkt
  1. Senior Software Developer (m/w/d)
    Allianz Technology SE, Stuttgart
  2. Naturwissenschaftler als Softwareentwickler (m/w/d) Bereich Softwaretestautomatisierung
    andagon people GmbH, Hamburg
Detailsuche

Im Interview mit Golem.de erklärt Wittmann, wie Bund.dev technisch vorgeht, um das Handelsregister für alle verfügbar zu machen. Sie kritisiert, dass die Daten nur schwer zugänglich sind. Sehr viele Vertreter aus der Zivilgesellschaft seien nun darauf aus, diese Daten verwertbar zu haben. Der Staat solle nachbessern und offene Schnittstellen für solche Datentöpfe bereitstellen.

Golem.de: Der Gesetzgeber wollte, dass das Handelsregister ohne Gebühr und öffentlich einsehbar ist. Wie bewerten Sie diese Änderung?

Lilith Wittmann: Das ist natürlich erstmal super, dass diese Daten jetzt nicht mehr gekauft werden müssen. Vorher hat jede Seite, die man sich aus dem System heruntergeladen hat, 1,50 Euro gekostet. Das war schon eine ziemliche Unverschämtheit. Ich recherchiere wie viele andere mit den Daten, die im Handelsregister stehen. So können schnell hohe Kosten entstehen. Zudem war es ja auch von der Europäischen Union so vorgesehen, dass Beteiligungen an Unternehmen kostenlos einsehbar sein müssen.

Jedoch ist es sehr traurig, dass man nun einfach die alte sowie instabile Website genommen und den Preis einfach auf null Euro gesetzt hat. Die Dokumente liegen als PDF und Tiff vor, sehen immer anders aus und sind anders formatiert. Sie müssten mühsam mit Machine Learning in eine maschinenlesbare Form gebracht werden. Ein automatisierter Export ist auch nicht vorgesehen.

Golem.de: Stellen andere Regierungen solche Daten besser zur Verfügung?

Lilith Wittmann: Auf jeden Fall. Die Version des Handelsregisters aus dem Vereinigten Königreich namens Companies House stellt Daten in Echtzeit zur Verfügung: alle Firmen und entsprechende Veränderungen, inklusive Anteilseigentümern, Geschäftsführern und so weiter. Das Companies House hat tatsächlich eine API. Das heißt, die Datenbank kann repliziert werden.

Auch die beim Handelsregister zugrundeliegende EU-Richtlinie 2019/2014 spricht explizit von Schnittstellen, die bereitgestellt werden sollen. Der Gesetzgeber hat die Richtlinie sehr spät erst ratifiziert und sich diesbezüglich offensichtlich keine Gedanken gemacht. Übrigens schreibt auch das Datennutzungsgesetz Schnittstellen vor. Dabei ist das Handelsregister ein sehr wertvoller Datenschatz.

Golem.de: Inwiefern sind diese Daten wertvoll?

Lilith Wittmann: Anhand dieser Dokumente kann jeder komplexe Eigentümerstrukturen herausfinden und analysieren. In welchem großen Konzern gehören welche Anteile wem? Und welchem Unternehmern gehören welche Start-ups? Oder welche Politikerin ist an welchem Unternehmen noch beteiligt? Diese Informationen liegen nun in der Theorie kostenfrei vor. Die Daten wurden also möglichst schwer zugänglich gemacht. Dabei könnte man damit Strukturen abbilden.

Dass die Daten weiterhin nicht maschinenlesbar vorliegen, ist in der Tat etwas witzig. Es gibt nämlich verschiedene Unternehmen, die die Daten seit Jahren aufbereiten - insbesondere maschinenlesbar: beispielsweise eine Tochterfirma des Bundesanzeigers, die im Jahr 2006 vollständig privatisiert wurde. Dieses Unternehmen heißt Validatis und verdient mit Daten und der Aufbereitung seit Jahren Geld. Vielleicht will man dieses Geschäftsmodell beschützen.

Golem.de: Wie geht ihr als Bund.dev nun vor?

Lilith Wittmann: Die Daten aus dem Handelsregister kann man nicht einfach herunterladen, weil die Seite ein Rate Limiting von 60 Anfragen pro Stunde hat. Das ist eine völlig absurd niedrige Zahl. Somit ist es unmöglich, massenhaft diese Dokumente einfach abzurufen. Man müsste diese Maßnahme umgehen und da wird es juristisch schwierig, aber nicht technisch.

Golem.de: Wie geht ihr nun technisch vor?

Lilith Wittmann: Zuerst scrapen wir die Daten und dann machen wir sie mit Machine Learning lesbar. Wir haben gute Erfahrungen mit dem Python-Tool Selenium, das automatisiert quasi einen Browser öffnet. Wir bauen dann ein Script mit Beautiful Soup, um das HTML effizient zu parsen. Das Script navigiert sich durch die Webseite und sucht automatisch nach Unternehmen, blättert alle Dokumente von dieser Website durch und lädt sie schließlich herunter.

Übrigens habe ich immer mal wieder das bisherige Handelsregister gescrapt - bis dieser Scraper nun nicht mehr funktionierte wegen der Änderung. Somit kenne ich alle bisherigen Unternehmen. Das heißt, wir haben den Vorteil, dass wir den Namen jeder GmbH in Deutschland kennen. Wir können somit sehr gezielt suchen. Nur das Problem mit dem Rate Limiting wäre noch nicht gelöst.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Alle wollen jetzt verwertbare Daten 
  1. 1
  2. 2
  3.  


cbug 09. Aug 2022 / Themenstart

Also northdata hat diese Infos ja alle bereits seit Jahren offen zugänglich, aber sie...

mambokurt 08. Aug 2022 / Themenstart

Nazis werden auf Dinosauriern durchs Land reiten. Boah komm klar, es ist das besch...

ImBackAlive 08. Aug 2022 / Themenstart

Gesellschafter schon, das ist ihre gesetzliche Pflicht. Vereine auch, das ist auch ihre...

Christian-Hofmann 05. Aug 2022 / Themenstart

Du siehst das nicht ganz korrekt. Ein US Unternehmen fordert im Auftrag eines deutschen...

Kommentieren



Aktuell auf der Startseite von Golem.de
Einsparverordnungen
So sollen Verwaltung, Bürger und Firmen Energie sparen

Reduzierte Raumtemperaturen und ungeheizte Swimmingpools: Die Regierung fordert eine "nationale Kraftanstrengung" wegen des Gasmangels.

Einsparverordnungen: So sollen Verwaltung, Bürger und Firmen Energie sparen
Artikel
  1. Bildverkleinern in C#: Eine Windows-App zur Verkleinerung von Bilddateien
    Bildverkleinern in C#
    Eine Windows-App zur Verkleinerung von Bilddateien

    Wir zeigen mit Visual Studio, wie Drag-&-Drop funktioniert, klären, ob unter Windows runde Fenster möglich sind, und prüfen, wie aufwendig eine mehrsprachige Bedienungsoberfläche ist (ziemlich).
    Eine Anleitung von Michael Bröde

  2. Geheimgespräche: Apple wollte angeblich Anteil an Facebooks Werbeeinnahmen
    Geheimgespräche
    Apple wollte angeblich Anteil an Facebooks Werbeeinnahmen

    Apples höherer Datenschutz macht Facebook inzwischen das Leben schwer. Zuvor soll es geheime Gespräche über eine Umsatzbeteiligung gegeben haben.

  3. Nachhaltigkeit: Thüringens Reparaturbonus weiter stark nachgefragt
    Nachhaltigkeit
    Thüringens Reparaturbonus weiter stark nachgefragt

    Der Reparaturbonus wird in Thüringen weiter gut genutzt. Eine Stärkung der Gerätereparatur in ganz Deutschland wird noch geprüft.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • LG 38WN95C-W (UWQHD+, 144 Hz) 933,35€ • Sharkoon Light² 180 22,99€ • HyperX Cloud Flight 44€ • BenQ Mobiuz EX3410R 499€ • MindStar (u. a. AMD Ryzen 5 5600X 169€, Intel Core i5-12400F 179€ und XFX RX 6800 XT 699€) • Weekend Sale bei Alternate (u. a. AKRacing Master PRO 353,99€) [Werbung]
    •  /