Zum Hauptinhalt Zur Navigation

Google I/O: Alles kommt mit Gemini

Google I/O 2024
Bei Googles Entwicklerkonferenz steht alles im Zeichen des generativen KI-Modells Gemini , das in so ziemlich alle Produkte des Konzerns integriert wird.
/ Boris Mayer
23 Kommentare News folgen (öffnet im neuen Fenster)
Alles für die KI: Auch bei der Hardware war nur die Künstliche Intelligenz Thema (Bild: Google I/O/Screenshot:Golem.de)
Alles für die KI: Auch bei der Hardware war nur die Künstliche Intelligenz Thema Bild: Google I/O/Screenshot:Golem.de

"1,5 Millionen Entwickler benutzen bereits Gemini" ist die erste wirkliche Aussage auf der Entwicklerkonferenz Google I/O. Und es soll bei Google quasi überall integriert werden: als Assistent in Gmail, als Overview und Fragenbeantworter in der Suche, als Ask Photos, um allgemein nach Bildern zu fragen, in Meets für Zusammenfassungen und Untertitel oder in Workspaces als eine Art Copilot. Gefallen ist das Wort AI ganze 121-mal.

Dazu bekommt Gemini mehr Tokens. Die Zahl soll, zumindest zum Ausprobieren, von einer Million auf zwei verdoppelt werden. Und dann gibt es auch eine neue Modellvariante, Gemini 1.5 Flash, die zwar weniger umfangreich ist, dafür aber effizienter und schneller sein soll als Gemini 1.5 Pro.

Mit Flash sollen sich dann richtige Konversationen führen lassen, ohne merklich lange auf Antworten warten zu müssen – und billiger soll es auch sein.

Demonstration über Demonstration

Ob nun beim Onlineshoppen die Schuhe doch zu klein sind und deshalb zurückgeschickt werden müssen, die Fortschritte im Schwimmen in der eigenen Fotobibliothek nachverfolgt werden sollen oder ob man sich in der Suche einen Essensplan für drei Tage zusammenstellen lassen möchte, Gemini übernimmt das Denken.

Es sucht alle Informationen für den Rücksendeprozess der Schuhe und vereinbart sogar einen Abholtermin mit dem Paketdienst, es findet die Tochter beim Ziehen der ersten Bahnen und beim Schnorcheln und es stellt in der Suche zusammenfassende Texte mit der Antwort zum Gefragten zusammen – Letzteres immerhin noch mit Links, falls man dann doch weiter in die Materie eindringen möchte.

Und zwischendurch wird ein Pilates-Kurs gebucht und der Defekt eines Plattenspielers diagnostiziert: Der Tonarm scheint kaputt zu sein und lässt sich daher nicht aufsetzen. Gut, Letzteres könnte auch ein Fast-Laie erkennen, aber immerhin nennt die Funktion auch Hersteller und Modell des Plattenspielers. Und Gemini kann auch Mathematik-Textaufgaben lösen – inklusive angezeigtem Lösungsweg.

Musik, Videos und Bilder generieren

Natürlich wird Gemini auch für das Generieren von Bildern, Musik und Videos eingesetzt. Vom Videogenerator zeigt sich der von Google zum Ausprobieren eingeladene Danny Glover zwar beeindruckt, sagt aber auch: "Man kann damit schneller Fehler machen." Insgesamt freuen sich Kreative aber, dass sie mit Googles Werkzeugen ihre "Kreativität schneller verwirklichen" können.

Und dann ist da noch Android. Auch hier gibt es Gemini als App, und zwar auf Systemlevel. Was Google " System Aware" nennt, ist eigentlich ein netter Ausdruck für "hat auf alles Zugriff" . So interpretiert Gemini Fragen im Kontext der geöffneten App – im Fall der Präsentation sind es Youtube und ein Pickleball-Video. Gemini ist in Form des Foundation-Modells Nano tief im Betriebssystem verankert. Tief genug, dass Google verspricht: Ein Android-Telefon "versteht die Welt genauso gut wie Sie" . Ob nun über Text oder Aufnahmen der Umgebung.

Und wann gibt es das alles?

Weniges von den vorgestellten Funktionen gibt es gleich, für das meiste gilt, dass es erst irgendwann in diesem Jahr zu erwarten ist. Microsoft kann vieles davon schon seit einem Jahr.


Relevante Themen