• IT-Karriere:
  • Services:

Codesearchnet: Github will Code-Suche mit Wettbewerb verbessern

In offensichtlicher Anlehnung an Imagenet will Code-Hoster Github mit Codesearchnet einen Deep-Learning-Wettbewerb für die semantische Suche in Code etablieren. Der Datensatz dafür umfasst 6 Millionen Methoden, teils mit Dokumentation und Metadaten.

Artikel veröffentlicht am ,
Github will die semantische Suche in Code verbessern.
Github will die semantische Suche in Code verbessern. (Bild: Github)

In dem Imagenet-Projekt sammeln Forscher Millionen Fotos, die bestimmten Kategorien zugeordnet sind. Damit lassen sich Deep-Learning-Systeme zur Bilderkennung nicht nur trainieren, sondern auch deren Qualität wegen der gleichen Daten sehr gut miteinander vergleichen. Der Code-Hoster Github will dieses Konzept nun offensichtlich für die semantische Suche in Quellcode adaptieren und startet das Projekt Codesearchnet.

Stellenmarkt
  1. BG-Phoenics GmbH, München
  2. über duerenhoff GmbH, Raum Frankfurt

In der Ankündigung durch Github heißt es, dass Suchmaschinen für Quellcode oft frustrierend seien und nie komplett verstünden, was von ihnen verlangt werde. Und trotz einer Verbesserung der Technik durch die Verwendung moderner Machine-Learning-Ansätze fehle bisher ein einheitlicher Datensatz, um die Ergebnisse zu evaluieren. Genau das soll nun Codesearchnet liefern.

Der von Github dazu erstellte Datensatz speist sich aus dem Code von Open-Source-Projekten auf der Plattform des Anbieters und umfasst Funktionen mit Dokumentation der Sprachen Go, Java, JavaScript, PHP, Python und Ruby. Für die Vorverarbeitung der Code-Daten setzt Github auf den eigenen Parser-Generator Tree-sitter und den darauf aufbauenden Function Parser, mit dessen Hilfe ASTs sowie eventuelle Dokumentation und Metadaten zu den einzelnen Funktionen erzeugt werden.

Den Datensatz stellt Github in einem Amazon-S3-Bucket zum Download bereit. Insgesamt umfasst dies laut dem Anbieter rund sechs Millionen Methoden, wovon zwei Millionen damit assoziierte Dokumentation aufweisen. Hinzu kommen Metadaten wie der Fundort des Codes. Der Code zum damit erstellten Modell findet sich natürlich ebenfalls Github. Weitere Details beschreibt ein wissenschaftliches Paper.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Spiele-Angebote
  1. 4,99€
  2. (-70%) 4,50€
  3. 0,99€
  4. (-20%) 39,99€

bombinho 29. Sep 2019 / Themenstart

Ein Schelm, der da Boeses vermutet. So ganz nebenbei ist es auch lange meine Forderung...

bombinho 27. Sep 2019 / Themenstart

Ein Microsoftsubunternehmen stellt einen Datensatz auf einem S3-Bucket zur Verfuegung...

Kommentieren


Folgen Sie uns
       


Microsoft Surface Pro X - Hands on

Schon beim ersten Ausprobieren wird klar: Das Surface Pro X ist ein sehr gutes Beispiel für ARM-Geräte mit Windows 10. Viele Funktionen wirken durchdacht - die Preisvorstellung gehört nicht dazu.

Microsoft Surface Pro X - Hands on Video aufrufen
Amazon Echo Studio im Test: Homepod-Bezwinger begeistert auch als Fire-TV-Lautsprecher
Amazon Echo Studio im Test
Homepod-Bezwinger begeistert auch als Fire-TV-Lautsprecher

Mit dem Echo Studio bringt Amazon seinen teuersten Alexa-Lautsprecher auf den Markt. Dennoch ist er deutlich günstiger als Apples Homepod, liefert aber einen besseren Klang. Und das ist längst nicht alles.
Ein Test von Ingo Pakalski

  1. Amazons Heimkino-Funktion Echo-Lautsprecher drahtlos mit Fire-TV-Geräten verbinden
  2. Echo Flex Amazons preiswertester Alexa-Lautsprecher
  3. Amazons Alexa-Lautsprecher Echo Dot hat ein LED-Display - Echo soll besser klingen

Fritzbox mit Docsis 3.1 in der Praxis: Hurra, wir haben Gigabit!
Fritzbox mit Docsis 3.1 in der Praxis
Hurra, wir haben Gigabit!

Die Fritzbox 6591 Cable für den Einsatz in Gigabit-Kabelnetzen ist seit Mai im Handel erhältlich. Wir haben getestet, wie schnell Vodafone mit Docsis 3.1 tatsächlich Daten überträgt und ob sich der Umstieg auf einen schnellen Router lohnt.
Ein Praxistest von Friedhelm Greis

  1. Nodesplits Vodafone bietet 500 MBit/s für 20 Millionen Haushalte
  2. Sercomm Kabelmodem für bis zu 2,5 GBit/s vorgestellt
  3. Kabelnetz Die Marke Unitymedia wird verschwinden

Kognitive Produktionssteuerung: Auf der Suche nach dem Universalroboter
Kognitive Produktionssteuerung
Auf der Suche nach dem Universalroboter

Roboter erledigen am Band jetzt schon viele Arbeiten. Allerdings müssen sie oft noch von Menschen kontrolliert und ihre Fehler ausgebessert werden. Wissenschaftler arbeiten daran, dass das in Zukunft nicht mehr so ist. Ziel ist ein selbstständig lernender Roboter für die Automobilindustrie.
Ein Bericht von Friedrich List

  1. Ocean Discovery X Prize Autonome Fraunhofer-Roboter erforschen die Tiefsee

    •  /