Alle wollen jetzt verwertbare Daten

Golem.de: Wie könnte man diese Limitierung bei den Anfragen umgehen?

Stellenmarkt
  1. Entwicklungsingenieur Embedded Linux Systeme (m/w/d)
    Phoenix Contact Electronics GmbH, Bad Pyrmont
  2. IT-Projektkoordinatoren und Prozessbegleiter (m/w/d)
    Schottener Soziale Dienste gemeinnützige GmbH, Schotten, remote
Detailsuche

Lilith Wittmann: Beispielsweise Amazon Webservices (AWS) bietet die perfekte Lösung. Da kannst du eine Lambda-Funktion schreiben, die jedes Mal, wenn sie aufgerufen wird, eine neue IP-Adresse bekommt. Das bedeutet, dass mit jedem neuem Aufruf dieser Funktion ein neuer kleiner Server startet. Dieser macht dann 60 Requests, wird heruntergefahren, verliert seine IP Adresse und der nächste Server wird gestartet. Das ist so ein bisschen teuer, aber ja, das kann man machen. Außerdem gibt es den Vorteil, dass AWS weltweit Rechenzentren hat. Sprich: Entweder du blockst als Handelsregister den kompletten IP-Space von Amazon, was nicht so klug wäre, oder du hast sehr viel Arbeit beim Aussperren.

Golem.de: Könnte man nicht nachfragen, ob ein Zugang für euch möglich wäre? Handelsregister.de bewirbt diese Lösung in seinen FAQs.

Lilith Wittmann: Klar, das habe ich am 3. August gemacht und bei der angegebenen Adresse nachgefragt. Die Antwort lautete nur, dass ich die Daten selbstständig herunterladen oder mich direkt an das Amtsgericht Hagen als Betreiber wenden soll. Aber auf diese Gunst wollen wir uns eigentlich nicht verlassen.

Golem Karrierewelt
  1. Deep-Dive Kubernetes – Observability, Monitoring & Alerting: virtueller Ein-Tages-Workshop
    22.09.2022, Virtuell
  2. Green IT: Praxisratgeber zur nachhaltigen IT-Nutzung (virtueller Ein-Tages-Workshop)
    26.10.2022, virtuell
Weitere IT-Trainings

Golem.de: Und wenn ihr die Daten dann habt, müsst ihr sie aufbereiten?

Lilith Wittmann: Ja, wir könnten Vorlagen für verschiede Dokumenten-Typen machen und diese dann annotieren: Diese Zeichenreihenfolge steht für eine GmbH, das ist ein Name und das ist eine Adresse. Da müsste sehr viel Arbeit manuell geschehen. Dann würden wir darauf zum Beispiel mit einem Framework wie Spacy trainieren. Das ist ein Machine-Learning-Modell. Damit könnten wir die Dokumente automatisiert durchgehen und diese Übersetzungsleistung bekommen. Dann ist halt immer so ein bisschen die Frage: Wie macht man daraus jetzt möglichst schön auch noch ein Datenmodell? Und da gibt es eine Menge verschiedene Ansätze.

Man kann sich selber eine Datenbank dazu bauen oder man kann schauen, ob man das zusammen mit den Menschen von Opencorporates macht. Die haben ja für Deutschland zumindest teilweise schon mal so ein Datenmodell gebaut. Es gibt auch einige andere zivilgesellschaftliche Initiativen, die wir fragen könnten: Hey, wollen wir da nicht etwas zusammen machen?

Wir haben Ideen, wie man das umsetzt und für welche Auswertungen, sprich: wie man die Daten visualisiert und zusammenstellt. Weil - und das ist wichtig - alle sind jetzt super, super, super heiß darauf, diese Daten irgendwie gut verwertbar zu bekommen.

Golem.de: Das ist doch sehr viel Aufwand. Wie lange wollt ihr das jetzt so aufrechterhalten?

Lilith Wittmann: Natürlich ist so ein dauerhaftes Herholen der Daten und ein dauerhaftes Draufschauen am Ende des Tages zeitaufwendig. Dafür bedarf es vieler Ressourcen. Deswegen erwarten wir ja eigentlich, dass das der Staat macht. Dass er das macht, weil wir ja als Zivilgesellschaft gerade nicht die Aufgaben des Staates übernehmen wollen oder sollen. Und wir sehen es eigentlich als eine Aufgabe der Regierung, diese Daten sinnvoll bereitzustellen. Wir haben die Hoffnung, dass irgendwann jemand Fähiges eine offene Schnittstelle für den Bund baut. In der Verwaltung gibt es viele gute, fähige Menschen. Das muss nur mal gemacht werden. Das könnte zum Beispiel Tech4germany machen.

Wir brauchen als Gesellschaft diese Daten. Wir sehen keinen anderen Weg, als zu versuchen, diese Projekte und Schnittstellen selbst zu betreiben. So etwas dauerhaft im Ehrenamt zu betreiben, ist sehr schwierig. Ausdrücklich ist es nicht unser Ziel, so etwas dauerhaft zu betreiben. Und wenn wir das tun, dann machen wir das ja nur aus Notwehr.

Golem.de: Wie geht es nun weiter?

Lilith Wittmann: Wir können das jetzt so spielen, dass wir das fürs Erste mal wieder scripten müssen. Da können die Verantwortlichen bei der Bundesagentur für Arbeit anrufen, wie viel Aufwand die hatten, ihre Schnittstellen weiter, immer weiter zu schützen. Oder wir machen das halt jetzt einfach sauber und dann haben wir am Ende echtes Open Data - auch in Deutschland. Wir bei Bund.dev helfen gerne dabei, diese Daten zu strukturieren, aber haben eigentlich echt keinen Bock, uns um das Scraping zu kümmern, weil das so eine Schmuddelarbeit ist. Aber ja, aber im Zweifel machen wir das alles halt super.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Scraping des Handelsregisters: "Wir machen das ja nur aus Notwehr"
  1.  
  2. 1
  3. 2


cbug 09. Aug 2022 / Themenstart

Also northdata hat diese Infos ja alle bereits seit Jahren offen zugänglich, aber sie...

mambokurt 08. Aug 2022 / Themenstart

Nazis werden auf Dinosauriern durchs Land reiten. Boah komm klar, es ist das besch...

ImBackAlive 08. Aug 2022 / Themenstart

Gesellschafter schon, das ist ihre gesetzliche Pflicht. Vereine auch, das ist auch ihre...

Christian-Hofmann 05. Aug 2022 / Themenstart

Du siehst das nicht ganz korrekt. Ein US Unternehmen fordert im Auftrag eines deutschen...

Kommentieren



Aktuell auf der Startseite von Golem.de
Krieg der Steine
Kopierte Lego-Mini-Figuren dürfen nicht verkauft werden

Lego hat einen Rechtsstreit um Mini-Figuren gegen einen Spielwarenhändler gewonnen, der Figuren aus China verkauft hat.

Krieg der Steine: Kopierte Lego-Mini-Figuren dürfen nicht verkauft werden
Artikel
  1. Smartphones: Xiaomis neues Foldable ist wesentlich günstiger
    Smartphones
    Xiaomis neues Foldable ist wesentlich günstiger

    Das Xiaomi Mix Fold 2 ähnelt dem Samsung Galaxy Fold 4. Es ist ähnlich gut ausgestattet, kostet aber wesentlich weniger Geld.

  2. USA: Tesla stoppt Bestellungen für das Model 3 Long Range
    USA
    Tesla stoppt Bestellungen für das Model 3 Long Range

    In den USA und Kanada übersteigt die Nachfrage nach dem Tesla Model 3 LR das Angebot, so dass Tesla erstmal keine Bestellungen mehr annimmt.

  3. Web Components mit StencilJS: Mehr Klarheit im Frontend
    Web Components mit StencilJS
    Mehr Klarheit im Frontend

    Je mehr UI/UX in Anwendungen vorkommt, desto mehr Unordnung gibt es im Frontend. StencilJS zeigt, wie man verschiedene Frameworks mit Web Components zusammenbringt.
    Eine Anleitung von Martin Reinhardt

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • BenQ Mobiuz EX3410R 499€ • HyperX Cloud Flight heute für 44€ • MindStar (u. a. AMD Ryzen 5 5600X 169€, Intel Core i5-12400F 179€ und GIGABYTE RTX 3070 Ti Master 8G 699€ + 20€ Cashback) • Weekend Sale bei Alternate (u. a. AKRacing Master PRO für 353,99€) [Werbung]
    •  /