Zum Hauptinhalt Zur Navigation

KI: Wunder über Wunder

ChatGPT wurde zur am schnellsten verbreiteten Technologie der Menschheitsgeschichte - und das war nur einer von vielen KI -Rekorden 2023. Selbst die Wissenschaft konnte kaum Schritt halten.
/ Helmut Linde
38 Kommentare News folgen (öffnet im neuen Fenster)
Dall-E 3 erzeugt auch zu komplexen Anfragen passende Bilder: In diesem Falle einen "als Weihnachtsmann verkleideten Golem, der auf einem von Roboterhunden gezogenen Schlitten sitzt, während es Disketten schneit". (Bild: Ki-generiert mit Dall-E)
Dall-E 3 erzeugt auch zu komplexen Anfragen passende Bilder: In diesem Falle einen "als Weihnachtsmann verkleideten Golem, der auf einem von Roboterhunden gezogenen Schlitten sitzt, während es Disketten schneit". Bild: Ki-generiert mit Dall-E

In der Welt der Wissenschaft gibt es gelegentlich Jahre, die als Wendepunkte in die Geschichte eingehen. Für die Physik war 1905 ein solches annus mirabilis, ein Wunderjahr: Albert Einstein revolutionierte das Feld mit der Erklärung des photoelektrischen Effekts, einem Modell der brownschen Molekularbewegung und der speziellen Relativitätstheorie. Jede dieser Arbeiten allein hätte gereicht, ihn zu einem der großen Wissenschaftler zu machen.

Ähnlich bahnbrechend war das Jahr 2023 für die künstliche Intelligenz. Noch nie zuvor hat KI ein solches Maß an öffentlicher Aufmerksamkeit erregt, Unternehmensstrategien derart geprägt und Börsenkurse beeinflusst. Die Einführung neuer Algorithmen und Modelle erfolgte in atemberaubender Geschwindigkeit, so dass selbst Fachexperten Mühe hatten, Schritt zu halten. Wir blicken zurück auf zwölf Monate, die die Landschaft der KI unwiderruflich verändert haben.

ChatGPT: Auftakt für ein außergewöhnliches Jahr

Am 30. November 2022 leitete die US-amerikanische Firma OpenAI mit der Veröffentlichung von ChatGPT eine neue Ära in der Welt der KI ein. Im Gegensatz zu früheren Chatbots, die oft durch ihre limitierte Funktionalität und das Fehlen von gesundem Menschenverstand auffielen, beeindruckte ChatGPT durch seine Fähigkeit, menschliche Anfragen zu verstehen und sinnvoll zu bearbeiten. Ob beim Formulieren von E-Mails, beim Brainstorming zu kreativen Fragen, beim Schreiben von Softwarecode oder beim Lösen von Schulaufgaben - ChatGPT bot vielen Nutzern auf Anhieb nützliche Ergebnisse.

Bis Ende Januar 2023 erreichte OpenAI mit ChatGPT rund 100 Millionen Menschen, womit es zu der Softwareanwendung mit der am schnellsten wachsenden Nutzerbasis aller Zeiten (öffnet im neuen Fenster) avancierte - und damit wohl auch zur sich am schnellsten verbreiteten Technologie in der Geschichte der Menschheit. Es folgten schnell Diskussionen darüber, wie Bildungseinrichtungen auf diese neue Technologie reagieren sollten, ob KI-erzeugte Propaganda die sozialen Medien überfluten wird oder wie Patentwesen und Justiz mit einer möglichen Flut automatisch erzeugter Anfragen umgehen können.

Während ChatGPT in der breiten Öffentlichkeit weiterhin das Bild der aktuellen KI prägt, wurden im Laufe des Jahres 2023 weitere spektakuläre Fortschritte erzielt, einige davon ebenfalls von OpenAI. Diese Errungenschaften haben jedoch nicht die gleiche Bekanntheit wie die ChatGPT-Version von November 2022 erreicht. Ein Grund hierfür ist wohl, dass für die Nutzung der aktuelleren Versionen bei OpenAI ein kostenpflichtiges Plus-Konto erforderlich ist, dessen Gebühr derzeit bei 20 US-Dollar pro Monat liegt.

GPT-4 zeigt enormes Potenzial von Sprachmodellen

Ein bedeutender Meilenstein dieser Art ist die Einführung von GPT-4 durch OpenAI (öffnet im neuen Fenster) im März. Während diese Entwicklung außerhalb von Fachkreisen weitgehend unbemerkt blieb, demonstrierte GPT-4 eindrucksvoll das enorme Potenzial von Sprachmodellen, das weit über das Erzeugen plausibel klingender Texte hinausgeht.

Forscher von Microsoft zeigten in ihrem " Sparks of Artificial General Intelligence(öffnet im neuen Fenster) "-Artikel, dass GPT-4 über zahlreiche sogenannte emergente Fähigkeiten verfügt , die man von einem rein textbasierten Modell a priori nicht erwarten würde. Beispielsweise offenbart GPT-4 ein rudimentäres visuelles Vorstellungsvermögen, das es ermöglicht, einfache Figuren über Skriptsprachen wie Tikz zu zeichnen (siehe Abbildung 1). Außerdem kann das Modell die Emotionen von Menschen in unterschiedlichen Situationen intuitiv nachvollziehen.

Bemerkenswert sind auch die Fähigkeiten von GPT-4 im Bereich der Softwareentwicklung. Das Modell ist in der Lage, Fehler in Computerprogrammen zu identifizieren, zwischen Programmiersprachen zu übersetzen oder auf Nutzeranforderung eigenständig Quellcode zu erzeugen - und all das auf einem Niveau, das von keiner KI zuvor erreicht worden ist.

GPT-4 erwirbt Handlungskompetenz mit Advanced Data Analysis

Im Juni brachte OpenAI diese Fähigkeiten mit der Einführung von ChatGPT Advanced Data Analysis (ursprünglich etwas verwirrend Code Interpreter(öffnet im neuen Fenster) genannt) zur vollen Entfaltung. Diese GPT-4-Instanz verfügt über eine integrierte Python-Umgebung und Dateiablage. Mit Advanced Data Analysis können Nutzer eigene Daten hochladen und das Modell anweisen, verschiedenste Analysen und Manipulationen durchzuführen.

Das Sprachmodell generiert den entsprechenden Python-Quellcode, führt diesen aus und verarbeitet die Ergebnisse iterativ. Es korrigiert Fehler eigenständig und nähert sich Schritt für Schritt dem vom Nutzer vorgegebenen Ziel.

Diese Entwicklung ermöglicht es Nutzern, typische Arbeitsabläufe von Data Scientists zu automatisieren - von der Datenvorbereitung über das Training von Modellen bis hin zur Visualisierung der Ergebnisse. GPT-4 erhält hierdurch ein gewisses Maß an eigener Handlungskompetenz, was für die zukünftige Entwicklung der künstlichen Intelligenz von entscheidender Bedeutung sein wird.

Die Zeit der multimodalen Modelle bricht an

Während der Begriff Large Language Model (LLM) zunehmend Eingang in das Vokabular größerer Unternehmen fand, zeigte sich im September, dass diese Technologie bereits kurz davor stand, durch eine neue Generation überholt zu werden. OpenAI führte mit GPT-4V das erste praxistaugliche Large Multimodal Model(öffnet im neuen Fenster) (LMM) ein.

GPT-4V, ein umfassendes Basismodell, wurde simultan auf Bild- und Textdaten trainiert. Es kann daher Objekte, Schrift und Symbole in Bildern erkennen und diese Erkenntnisse nahtlos mit Textinformationen verknüpfen.

Ähnlich wie zuvor bei GPT-4 veröffentlichte Microsoft einen umfangreichen Artikel (öffnet im neuen Fenster) , welcher eine Übersicht über die Fähigkeiten des LMM gibt. Unter den zahlreichen Anwendungsbeispielen finden sich einige, die in naher Zukunft von praktischer Bedeutung sein dürften. Beispielsweise könnten LMMs wie GPT-4V die automatisierte Qualitätskontrolle von Bauteilen oder Endprodukten ermöglichen, ohne dass dafür jeweils spezialisierte Modelle mit hohem Aufwand entwickelt werden müssen.

Mit ihrer Fähigkeit, visuelle Informationen und umfangreiches Weltwissen zu kombinieren, könnten diese Modelle auch in der Robotik eine wichtige Rolle spielen. So zeigt ein Beispiel aus dem Microsoft-Artikel, dass GPT-4V einen Haushaltsroboter allein anhand von Kamerabildern steuern könnte, um beispielsweise einen Kühlschrank in einem Haus zu finden.

Dall-E geht in die dritte Runde

Parallel zur Fortentwicklung in der Bilderkennung und -verarbeitung machte auch die Bilderzeugung durch KI bedeutende Fortschritte. Im Oktober veröffentlichte OpenAI Dall-E 3(öffnet im neuen Fenster) , eine Weiterentwicklung des Bildgenerators, die in puncto Komplexität der darstellbaren Inhalte und der Kontrolle des Nutzers über diese Inhalte ihre Vorgängerversionen deutlich übertraf (siehe Abbildung 2).

Bahn frei für KI-zentrische Produkte

Das Jahr 2023 zeichnete sich dadurch aus, dass eine große Zahl reiner KI-Werkzeuge mit bahnbrechenden Fähigkeiten veröffentlicht wurde. Diese sind jedoch nicht nur für sich alleine genommen nützlich, sondern sie ebnen auch den Weg für innovative KI-basierte Produkte. Jedes neue KI-Modell erweitert die Grenzen des technisch Machbaren und öffnet neue Möglichkeiten für konkrete Anwendungen.

Ein interessantes Beispiel hierfür ist das Start-up Humane, das im November seine KI Pin vorstellte(öffnet im neuen Fenster) . Dieses kleine Gerät funktioniert wie eine Art Smartphone ohne Display und wird wie eine Brosche an der Kleidung getragen.

Es sieht mittels einer Kamera die Welt aus der Perspektive des Nutzers und wird über gesprochene Anfragen gesteuert. Mit Bilderkennung, Spracherkennung, Stimmensynthese und den Problemlösefähigkeiten eines großen Sprachmodells führt das Gerät die wichtigsten aktuellen KI-Technologien zusammen, um eine völlig neue Art von Nutzerinteraktion zu ermöglichen.

Auch in der Softwareentwicklung brechen neue Zeiten an. Seit November bietet OpenAI die sogenannten GPTs(öffnet im neuen Fenster) an: Sprachmodelle, die sich mit einem einfachen Baukastensystem individuell anpassen lassen . Entwickler können über Prompts das Verhalten des Modells steuern und durch das Hochladen eigener Daten spezielles Wissen integrieren. Technische Programmierkenntnisse sind dafür nicht nötig.

Zukünftig könnten solche GPTs über einen Marktplatz ähnlich dem App Store von Apple veröffentlicht werden. Dies deutet auf ein neues Plattformgeschäft hin und gibt einen Ausblick darauf, wie die Software der Zukunft aussehen könnte: Künstliche Intelligenz wird wahrscheinlich zum Kernbestandteil vieler neuer Anwendungen, wobei Text- oder Sprachsteuerung traditionelle Eingabemasken und Optionsmenüs ersetzen, während die Problemlösefähigkeiten eines Sprachmodells einen Teil der Programmlogik übernehmen.

Gemini: Googles Antwort auf GPT-4

Nachdem OpenAI im Jahr 2023 eindeutig die meisten Akzente in der KI-Entwicklung gesetzt hat, bewies Google im Dezember, dass auch die Konkurrenz aktiv ist. Die Google-Tochter Deep Mind hatte in den vergangenen Jahren einige spektakuläre Erfolge verbuchen können - beispielsweise mit dem öffentlichkeitswirksamen Sieg ihrer KI Alphago über den Go-Weltmeister Lee Sidol im Jahr 2016 oder die Vorhersage von Protein-Faltungen mit Alphafold zwei Jahre später.

2023 präsentierte Deep Mind das Gemini-Modell(öffnet im neuen Fenster) , ein großes multimodales Modell und direkter Konkurrent zu GPT-4V. Ein beeindruckendes Video (öffnet im neuen Fenster) demonstrierte die vielfältigen Fähigkeiten von Gemini, obwohl die Demo aufgrund von Schnitten und Manipulationen mit einer gewissen Skepsis betrachtet werden sollte.

Amerika entwickelt, Europa reguliert

Das Jahr 2023 war nicht nur von technologischen Fortschritten geprägt, sondern auch von intensiven Diskussionen über die rechtlichen Rahmenbedingungen von KI in Europa , insbesondere im Rahmen des AI Act. Die Herausforderungen der Regulierung einer so schnelllebigen Technologie wurden dabei besonders deutlich. Anfang des Jahres, nach vier Jahren intensiver Verhandlungen und Expertenkonsultationen(öffnet im neuen Fenster) , konzentrierte sich der Entwurf des AI Act noch auf unterschiedliche Einsatzgebiete von KI-Modellen, wobei die Vorschriften von deren jeweiligen Risikoklassen abhängig gemacht werden sollten. Hochriskante KI-Modelle, wie sie beispielsweise in der medizinischen Diagnostik oder im Betrieb von Kraftwerken eingesetzt werden, sollten demnach strenger reguliert werden als weniger kritische Modelle wie automatische Spamfilter oder KI in Computerspielen.

Im Laufe des Jahres wurde jedoch zunehmend klar, dass spezialisierte Algorithmen an Bedeutung verlieren und teilweise durch generische Basismodelle ersetzt werden. So werden zum Beispiel schon seit vielen Jahren spezifische Modelle für Sentimentanalysen entwickelt, um Kommentare zu Produkten als positiv oder negativ zu klassifizieren. GPT-4 kann eine solche Aufgabe nun beiläufig lösen, ohne speziell darauf trainiert worden zu sein. Folglich ist es nicht offensichtlich, in welchem Kontext ein Basismodell später eingesetzt wird - sei es in einem Übersetzungstool, zur Steuerung von Charakteren in einem Computerspiel, in einem Haushaltsroboter oder in einem Überwachungssystem.

Infolgedessen wurde in relativ kurzer Zeit eine Ergänzung des Gesetzentwurfs (öffnet im neuen Fenster) verhandelt, die nun auch Basismodelle (General Purpose AI) nach ihrer Größe und vermuteten Wichtigkeit in zwei Klassen einteilt, mit unterschiedlichen Anforderungen (öffnet im neuen Fenster) an Transparenz und Qualitätssicherung. Kritiker(öffnet im neuen Fenster) weisen jedoch darauf hin, dass auch diese Vorgaben durch den rasanten technischen Wandel schnell überholt sein könnten und betonen die zahlreichen offenen Fragen und rechtlichen Unsicherheiten.

Die Börse feiert den KI-Boom

Wenig beeindruckt von den politischen Diskussionen zeigten sich die Börsenkurse der Technologieunternehmen, denen man zutraut, in Zukunft von KI zu profitieren. Wieder einmal bewahrheitete sich das Bonmot, dass man in Zeiten eines Goldrauschs als Schaufelverkäufer die besten Geschäfte macht: Nvidia, bekannt für seine Grafikkarten und zugehörige Software, die essenziell für das Training von KI-Modellen sind, konnte seinen Börsenwert innerhalb eines Jahres verdreifachen. Damit rangiert das Unternehmen aktuell auf Platz 6 der wertvollsten börsennotierten Unternehmen(öffnet im neuen Fenster) weltweit. Super Micro Computer Inc., ein Zulieferer für Rechenzentren, verzeichnete sogar eine Vervierfachung seines Börsenwerts.

Im Gegensatz dazu stehen Unternehmen, die durch KI-Entwicklungen direkt in ihrem Geschäftsmodell beeinflusst werden, vor unsicheren Zeiten. Konzernen wie Tesla, Google oder SAP bieten sich zwar enorme Chancen durch den Einsatz von künstlicher Intelligenz, sie haben jedoch auch viel zu verlieren, falls ein Wettbewerber die Technologie schneller adaptiert oder sich durch die neuen Möglichkeiten das Kundenverhalten und somit der gesamte Markt grundlegend verändert.

Annus mirabilis, ein Wunderjahr?

Wird 2023 also als einmaliges Wunderjahr der KI in die Geschichte eingehen oder "nur" als das Jahr, das der KI den Durchbruch im Mainstream brachte? Dies hängt maßgeblich von der Geschwindigkeit der weiteren Entwicklung ab.

Selbst wenn die KI-Forschung von heute an stagnieren würde, hätten wir noch Jahre damit zu tun, die Potenziale von LLMs und LMMs in Softwareanwendungen und Geräte zu integrieren und vollständig zu nutzen. Aber es gibt derzeit keine Anzeichen dafür, dass das Tempo der Grundlagenforschung in der KI nachlässt. Die Investitionen in Forschung und Entwicklung sowie die verfügbare Rechenkapazität und Datenmengen wachsen jedenfalls weiter an.

Spekulationen über die Zukunft der KI werden auch durch Aussagen von Persönlichkeiten wie OpenAI-CEO Sam Altman genährt, der jüngst Andeutungen über weitere Durchbrüche (öffnet im neuen Fenster) machte. Diese Äußerungen führten zu zahlreichen Vermutungen (öffnet im neuen Fenster) über die zu erwartenden Neuerungen im Jahr 2024. Die KI-Gemeinschaft und die Welt im Allgemeinen warten gespannt darauf, was das kommende Jahr bringen wird.

Helmut Linde(öffnet im neuen Fenster) leitete verschiedene Data-Science-Teams in deutschen Konzernen und ist nun bei seinem Arbeitgeber für die Digitalisierung von Forschung und Entwicklung verantwortlich. Als Mathematiker und Physiker ist er fasziniert von naturwissenschaftlichen Themen sowie der Anwendung und der Zukunft der künstlichen Intelligenz. Im Golem.de-Podcast Neuzeit(öffnet im neuen Fenster) spricht er regelmäßig mit führenden Persönlichkeiten aus ganz unterschiedlichen Perspektiven über künstliche Intelligenz.


Relevante Themen