Nemo-Guardrails: Nvidia will Leitplanken für KI-Sprachmodelle
Ein Open-Source-Framework von Nvidia, das sich für alle Sprachmodelle inklusive ChatGPT eignen soll, soll diese sicherer machen.

Das KI-Team von Grafikkartenhersteller Nvidia hat mit Nemo-Guardrails (Leitplanken) ein Open-Source-Toolkit vorgestellt, das einige der Probleme von aktuellen großen Sprachmodellen (Large Language Models, LLMs) lösen soll. Mit Hilfe der Leitplanken sollen LLMs künftig sicherer werden und vor allem vertrauenswürdige Chatbots ermöglichen.
Aufgrund des spezifischen Training von LLMs und vor allem der dafür genutzten Trainingsdaten aus dem frei verfügbaren Internet reproduzieren diese oft toxische Inhalte, Rassismus, Beleidigungen oder auch sexuelle Gewalt.
Verhindert wird die Ausgabe derartiger Inhalte derzeit meist durch manuell erstellte Filter. Oft lassen sich diese Filter aber auch durch teils einfachste Tricks umgehen, was als Prompt Injection bezeichnet wird.
Nvidia sieht diese Probleme der LLMs als ein Phänomen, das die gesamte Industrie betrifft. Deshalb sei Nemo Guardrails so aufgebaut, dass es prinzipiell mit allen LLMs genutzt werden könne. Explizit erwähnt wird in der Ankündigung auch ChatGPT von OpenAI.
Zur Funktionsweise schreibt Nvidia: "Die Guardrails sind eine Reihe von programmierbaren Einschränkungen oder Regeln, die zwischen einem Benutzer und einem LLM stehen. Diese Leitplanken überwachen, beeinflussen und diktieren die Interaktionen eines Benutzers, vergleichbar Leitplanken auf einer Landstraße, die die Breite einer Straße festlegen und Fahrzeuge davon abhalten, in unerwünschtes Gebiet abzubiegen."
Konkret unterstützt werden dabei drei eher breite Kategorien. Eine Leitplanke für Inhalte soll etwa sicherstellen, dass Konversationen mit dem LLM beim Thema bleiben und nicht in eine unerwartete Richtung abschweifen. Weitere Leitplanken "können bei der Erkennung und Durchsetzung von Richtlinien helfen, um angemessene Reaktionen zu ermöglichen." Das soll vor allem faktisch korrekte Antworten forcieren. Eine dritte Kategorie soll das Ausführen von Malware oder sicherheitskritische Programmaufrufe verhindern.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Wenn ich das korrekt verstehe, sind das nur Tools, die selbst nicht festlegen was...
Kommentieren