Codesearchnet: Github will Code-Suche mit Wettbewerb verbessern

In offensichtlicher Anlehnung an Imagenet will Code-Hoster Github mit Codesearchnet einen Deep-Learning-Wettbewerb für die semantische Suche in Code etablieren. Der Datensatz dafür umfasst 6 Millionen Methoden, teils mit Dokumentation und Metadaten.

Artikel veröffentlicht am ,
Github will die semantische Suche in Code verbessern.
Github will die semantische Suche in Code verbessern. (Bild: Github)

In dem Imagenet-Projekt sammeln Forscher Millionen Fotos, die bestimmten Kategorien zugeordnet sind. Damit lassen sich Deep-Learning-Systeme zur Bilderkennung nicht nur trainieren, sondern auch deren Qualität wegen der gleichen Daten sehr gut miteinander vergleichen. Der Code-Hoster Github will dieses Konzept nun offensichtlich für die semantische Suche in Quellcode adaptieren und startet das Projekt Codesearchnet.

In der Ankündigung durch Github heißt es, dass Suchmaschinen für Quellcode oft frustrierend seien und nie komplett verstünden, was von ihnen verlangt werde. Und trotz einer Verbesserung der Technik durch die Verwendung moderner Machine-Learning-Ansätze fehle bisher ein einheitlicher Datensatz, um die Ergebnisse zu evaluieren. Genau das soll nun Codesearchnet liefern.

Der von Github dazu erstellte Datensatz speist sich aus dem Code von Open-Source-Projekten auf der Plattform des Anbieters und umfasst Funktionen mit Dokumentation der Sprachen Go, Java, JavaScript, PHP, Python und Ruby. Für die Vorverarbeitung der Code-Daten setzt Github auf den eigenen Parser-Generator Tree-sitter und den darauf aufbauenden Function Parser, mit dessen Hilfe ASTs sowie eventuelle Dokumentation und Metadaten zu den einzelnen Funktionen erzeugt werden.

Den Datensatz stellt Github in einem Amazon-S3-Bucket zum Download bereit. Insgesamt umfasst dies laut dem Anbieter rund sechs Millionen Methoden, wovon zwei Millionen damit assoziierte Dokumentation aufweisen. Hinzu kommen Metadaten wie der Fundort des Codes. Der Code zum damit erstellten Modell findet sich natürlich ebenfalls Github. Weitere Details beschreibt ein wissenschaftliches Paper.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Wissenschaft
In Energydrinks enthaltenes Taurin könnte Leben verlängern

Wissenschaftler haben Anzeichen dafür entdeckt, dass Taurin die Gesundheit verbessern und das Leben verlängern könnte. Mehr Energydrinks sollte man aber nicht trinken.

Wissenschaft: In Energydrinks enthaltenes Taurin könnte Leben verlängern
Artikel
  1. Tesla Files: Cybertruck ist undicht, laut und bremst schlecht
    Tesla Files
    Cybertruck ist undicht, laut und bremst schlecht

    Internen Dokumenten zufolge steht Teslas Pick-up-Truck vor großen Problemen. Der Cybertruck befinde sich in der Alpha-Phase.

  2. VATM: Menschen nutzen weiter Call-by-Call und Preselection
    VATM
    Menschen nutzen weiter Call-by-Call und Preselection

    Die Telekom hat Call-by-Call und Preselection mehrfach verlängert. Obwohl viele Menschen sie weiterhin nutzen, enden diese Dienste bald.

  3. Einführung in Plotly: Damit die Daten Sinn ergeben
    Einführung in Plotly
    Damit die Daten Sinn ergeben

    Interaktive Plots mit Plotly zu erstellen, ist nicht schwer - und sehr nützlich. In einer zweiteiligen Reihe zeigen wir Schritt für Schritt, wie es funktioniert.
    Eine Anleitung von Antony Ghiroz

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • XXL-Sale bei Alternate (u. a. Samsung 970 EVO Plus 2 TB 84,90€) • MindStar: Palit RTX 4070 Ti GameRock OC 859€, be quiet! Pure Base 500 59€ • Thermaltake Toughliquid Ultra 240 145,89€ • PS5-Spiele & Zubehör bis -75% • Chromebooks bis -32% • NBB: Gaming-Produkte bis -50% [Werbung]
    •  /