Abo
  • IT-Karriere:

Codesearchnet: Github will Code-Suche mit Wettbewerb verbessern

In offensichtlicher Anlehnung an Imagenet will Code-Hoster Github mit Codesearchnet einen Deep-Learning-Wettbewerb für die semantische Suche in Code etablieren. Der Datensatz dafür umfasst 6 Millionen Methoden, teils mit Dokumentation und Metadaten.

Artikel veröffentlicht am ,
Github will die semantische Suche in Code verbessern.
Github will die semantische Suche in Code verbessern. (Bild: Github)

In dem Imagenet-Projekt sammeln Forscher Millionen Fotos, die bestimmten Kategorien zugeordnet sind. Damit lassen sich Deep-Learning-Systeme zur Bilderkennung nicht nur trainieren, sondern auch deren Qualität wegen der gleichen Daten sehr gut miteinander vergleichen. Der Code-Hoster Github will dieses Konzept nun offensichtlich für die semantische Suche in Quellcode adaptieren und startet das Projekt Codesearchnet.

Stellenmarkt
  1. Viessmann Group, Berlin
  2. Helixor Heilmittel GmbH, Rosenfeld bei Balingen

In der Ankündigung durch Github heißt es, dass Suchmaschinen für Quellcode oft frustrierend seien und nie komplett verstünden, was von ihnen verlangt werde. Und trotz einer Verbesserung der Technik durch die Verwendung moderner Machine-Learning-Ansätze fehle bisher ein einheitlicher Datensatz, um die Ergebnisse zu evaluieren. Genau das soll nun Codesearchnet liefern.

Der von Github dazu erstellte Datensatz speist sich aus dem Code von Open-Source-Projekten auf der Plattform des Anbieters und umfasst Funktionen mit Dokumentation der Sprachen Go, Java, JavaScript, PHP, Python und Ruby. Für die Vorverarbeitung der Code-Daten setzt Github auf den eigenen Parser-Generator Tree-sitter und den darauf aufbauenden Function Parser, mit dessen Hilfe ASTs sowie eventuelle Dokumentation und Metadaten zu den einzelnen Funktionen erzeugt werden.

Den Datensatz stellt Github in einem Amazon-S3-Bucket zum Download bereit. Insgesamt umfasst dies laut dem Anbieter rund sechs Millionen Methoden, wovon zwei Millionen damit assoziierte Dokumentation aufweisen. Hinzu kommen Metadaten wie der Fundort des Codes. Der Code zum damit erstellten Modell findet sich natürlich ebenfalls Github. Weitere Details beschreibt ein wissenschaftliches Paper.



Anzeige
Spiele-Angebote
  1. 12,99€
  2. (-10%) 89,99€
  3. 69,99€ (Release am 21. Februar 2020, mit Vorbesteller-Preisgarantie)

bombinho 29. Sep 2019 / Themenstart

Ein Schelm, der da Boeses vermutet. So ganz nebenbei ist es auch lange meine Forderung...

bombinho 27. Sep 2019 / Themenstart

Ein Microsoftsubunternehmen stellt einen Datensatz auf einem S3-Bucket zur Verfuegung...

Kommentieren


Folgen Sie uns
       


Sega Dreamcast (1999) - Golem retro

Am 9.9.1999 startete Segas letzte Konsole in ein kurzes, aber erfülltes Spieleleben.

Sega Dreamcast (1999) - Golem retro Video aufrufen
Change-Management: Die Zeiten, sie, äh, ändern sich
Change-Management
Die Zeiten, sie, äh, ändern sich

Einen Change zu wollen, gehört heute zum guten Ton in der Unternehmensführung. Doch ein erzwungener Wandel in der Firmenkultur löst oft keine Probleme und schafft sogar neue.
Ein Erfahrungsbericht von Marvin Engel

  1. IT-Jobs Der Amtsschimmel wiehert jetzt agil
  2. MINT Werden Frauen überfördert?
  3. Recruiting Wenn das eigene Wachstum zur Herausforderung wird

IT-Sicherheit: Auch kleine Netze brauchen eine Firewall
IT-Sicherheit
Auch kleine Netze brauchen eine Firewall

Unternehmen mit kleinem Geldbeutel verzichten häufig auf eine Firewall. Das sollten sie aber nicht tun, wenn ihnen die Sicherheit ihres Netzwerks wichtig ist.
Von Götz Güttich

  1. Anzeige Wo Daten wirklich sicher liegen
  2. Erasure Coding Das Ende von Raid kommt durch Mathematik
  3. Endpoint Security IT-Sicherheit ist ein Cocktail mit vielen Zutaten

SSD-Kompendium: AHCI, M.2, NVMe, PCIe, Sata, U.2 - ein Überblick
SSD-Kompendium
AHCI, M.2, NVMe, PCIe, Sata, U.2 - ein Überblick

Heutige SSDs gibt es in allerhand Formfaktoren mit diversen Anbindungen und Protokollen, selbst der verwendete Speicher ist längst nicht mehr zwingend NAND-Flash. Wir erläutern die Unterschiede und Gemeinsamkeiten der Solid State Drives.
Von Marc Sauter

  1. PM1733 Samsungs PCIe-Gen4-SSD macht die 8 GByte/s voll
  2. PS5018-E18 Phisons PCIe-Gen4-SSD-Controller liefert 7 GByte/s
  3. Ultrastar SN640 Western Digital bringt SSD mit 31 TByte im E1.L-Ruler-Format

    •  /