Codesearchnet: Github will Code-Suche mit Wettbewerb verbessern

In offensichtlicher Anlehnung an Imagenet will Code-Hoster Github mit Codesearchnet einen Deep-Learning-Wettbewerb für die semantische Suche in Code etablieren. Der Datensatz dafür umfasst 6 Millionen Methoden, teils mit Dokumentation und Metadaten.

Artikel veröffentlicht am ,
Github will die semantische Suche in Code verbessern.
Github will die semantische Suche in Code verbessern. (Bild: Github)

In dem Imagenet-Projekt sammeln Forscher Millionen Fotos, die bestimmten Kategorien zugeordnet sind. Damit lassen sich Deep-Learning-Systeme zur Bilderkennung nicht nur trainieren, sondern auch deren Qualität wegen der gleichen Daten sehr gut miteinander vergleichen. Der Code-Hoster Github will dieses Konzept nun offensichtlich für die semantische Suche in Quellcode adaptieren und startet das Projekt Codesearchnet.

Stellenmarkt
  1. Information Security Manager ADC Locations (m/w / diverse)
    Continental AG, Lindau
  2. Technical Consultant Dynamics CRM (w/m/d)
    WILO SE, Dortmund
Detailsuche

In der Ankündigung durch Github heißt es, dass Suchmaschinen für Quellcode oft frustrierend seien und nie komplett verstünden, was von ihnen verlangt werde. Und trotz einer Verbesserung der Technik durch die Verwendung moderner Machine-Learning-Ansätze fehle bisher ein einheitlicher Datensatz, um die Ergebnisse zu evaluieren. Genau das soll nun Codesearchnet liefern.

Der von Github dazu erstellte Datensatz speist sich aus dem Code von Open-Source-Projekten auf der Plattform des Anbieters und umfasst Funktionen mit Dokumentation der Sprachen Go, Java, JavaScript, PHP, Python und Ruby. Für die Vorverarbeitung der Code-Daten setzt Github auf den eigenen Parser-Generator Tree-sitter und den darauf aufbauenden Function Parser, mit dessen Hilfe ASTs sowie eventuelle Dokumentation und Metadaten zu den einzelnen Funktionen erzeugt werden.

Den Datensatz stellt Github in einem Amazon-S3-Bucket zum Download bereit. Insgesamt umfasst dies laut dem Anbieter rund sechs Millionen Methoden, wovon zwei Millionen damit assoziierte Dokumentation aufweisen. Hinzu kommen Metadaten wie der Fundort des Codes. Der Code zum damit erstellten Modell findet sich natürlich ebenfalls Github. Weitere Details beschreibt ein wissenschaftliches Paper.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


bombinho 29. Sep 2019

Ein Schelm, der da Boeses vermutet. So ganz nebenbei ist es auch lange meine Forderung...

bombinho 27. Sep 2019

Ein Microsoftsubunternehmen stellt einen Datensatz auf einem S3-Bucket zur Verfuegung...



Aktuell auf der Startseite von Golem.de
Optibike
E-Bike mit 480 km Reichweite kostet 17.000 Euro

Das E-Bike Optibike R22 Everest setzt mit seinen zwei Akkus auf Reichweite.

Optibike: E-Bike mit 480 km Reichweite kostet 17.000 Euro
Artikel
  1. Krypto-Kriminalität: Behörden fahnden nach Onecoin-Betrügerin
    Krypto-Kriminalität
    Behörden fahnden nach Onecoin-Betrügerin

    Deutsche und internationale Behörden suchen nach den Hintermännern und -frauen von Onecoin. Der Schaden durch Betrug mit der vermeintlichen Kryptowährung geht in die Milliarden.

  2. Hassrede: Bayern will soziale Netzwerke bestrafen
    Hassrede
    Bayern will soziale Netzwerke bestrafen

    Der bayrische Justizminister fordert, bei der Verbreitung von Hassrede auch die Betreiber von sozialen Medien stärker zur Verantwortung zu ziehen.

  3. Prehistoric Planet: Danke, Apple, für so grandiose Dinosaurier!
    Prehistoric Planet
    Danke, Apple, für so grandiose Dinosaurier!

    Musik von Hans Zimmer, dazu David Attenborough als Sprecher: Apples Prehistoric Planet hat einen Kindheitstraum zum Leben erweckt.
    Ein IMHO von Marc Sauter

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Samsung 870 QVO 1 TB 79€ • Prime Video: Filme leihen für 0,99€ • Alternate (u. a. Recaro Rae Essential 429€) • Gigabyte RTX 3080 12 GB ab 1.024€ • Mindstar (u. a. AMD Ryzen 5 5600 179€, Palit RTX 3070 GamingPro 669€) • SanDisk Ultra microSDXC 256 GB ab 14,99€ • Sackboy 19,99€ [Werbung]
    •  /