Code-Hoster: Github will Einstieg in Open-Source-Projekt vereinfachen
Mit Hilfe von Machine Learning will Github seinen Nutzern künftig einfache erste Beitragsmöglichkeiten zu Open-Source-Projekten vorschlagen. Das ist das erste Deep-Learning-Produkt von Github.

Der Code-Hoster Github ist das wohl derzeit größte Angebot für viele unterschiedliche Open-Source-Projekte. Und das zu Microsoft gehörende Unternehmen möchte seinen Nutzern oder auch völligen Neulingen nun einfache Wege aufzeigen, wie diese zu eben jenen Open-Source-Projekten beitragen können. Zwar wird die Funktion, die Github "good first issues" nennt, so ähnlich bereits seit fast einem Jahr angeboten, Github hat dies nun aber grundsätzlich auf Basis von Machine Learning überarbeitet, wie es in der Ankündigung heißt.
Nutzer von Github können die Plattform bereits nach eigenen Interessen über Themen (Topics) durchsuchen. In bestimmten Repositories können Anwender darüber hinaus künftig über den Contribute-Pfad schnell einfache Einstiegsprobleme finden. Ebenso analysiert Github die Aktivität der Nutzer, vergangene Beiträge oder Ähnliches und der Dienst sollen darauf aufbauend persönliche Vorschläge für Beiträge anbieten. Bei jeder dieser drei Möglichkeiten werden die "good first issues" angezeigt, also einfache Probleme für Neulinge.
Die bisher genutzte Lösung basiert auf zuletzt rund 300 Labeln, mit denen Issues durch die Projektbetreuer selbst kategorisiert werden konnten. Über diese Methode konnte Github aber nur rund 40 Prozent aller Projekte auf der Plattform selbst auch für die Vorschlagsfunktion nutzen. Immerhin basiert diese Methode vor allem eben auch auf der manuellen Arbeit der Paketbetreuer.
Zusätzlich dazu nutzt Github einen Machine-Learning-Ansatz. Damit sei der Anbieter in der Lage, diese Einstiegsprobleme in rund 70 Prozent aller Repositories zu empfehlen. Der Code-Hoster weist darauf hin, dass das Angebot natürlich nicht mit falsch positiven Ergebnissen überschwemmt werden sollte.
Für das Training der Daten greift Github aber nicht nur auf die manuellen, gelabelten Issues zurück, sondern nutzt eigenen Angaben zufolge auch Informationen aus Pull Request, die von neuen Beitragenden stammen oder eben nur wenige Zeilen Code umfassen. Für die Model-Entwicklung setzt Github auf das freie Machine-Learning-Framework Tensorflow. Weitere Details dazu liefert ein Blogeintrag. Künftig will Github das Machine-Learning-Modell verbessern und die Funktion weiter ausbauen. Dazu soll auch gehören, dass Projektbetreuer die Vorschläge des Machine-Learning-Systems annehmen oder auch entfernen können.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Analyse des Verhaltens natürlich obligatorisch. ;-( Gibt es noch keine Gemeinnützigen...