Entwickler versuchen, Computern und anderen Geräten beizubringen, gesprochene Worte zu erkennen. Das soll deren Bedienung vereinfachen: Statt Kommandos per Tastatur oder Maus einzugeben, erteilt der Nutzer gesprochene Eingaben. Texte sollen nicht mehr getippt, sondern diktiert werden. Spracherkennung ist nicht gleichzusetzen mit Stimmerkennung, also dem Verfahren, einen Menschen anhand des biometrischen Merkmals seiner Stimme zu identifizieren. Beide Verfahren ähneln sich aber.
Samsung hat drei Fernseherserien mit einer integrierten Sprachsteuerung vorgestellt, mit denen die Zuschauer mit ihrer Stimme durch Menüs navigieren können. Eine darüber hinaus vorhandene Gestenerkennung erfasst mit einer Kamera Bewegungseingaben und die Gesichter der Zuschauer.




-snap.jpg)










Nuance ermöglicht Fernsehherstellern mit Dragon TV, ihre Fernseher mit einer Sprachsteuerung auszustatten. Dragon TV könnte damit das leisten, was Siri auf dem iPhone 4S ermöglicht.
Mit Vlingo verschwindet ein weiterer Anbieter von Software zur Spracherkennung vom Markt. Die Vlingo-Technologie kam früher in Siri zum Einsatz.
LG baut, was Apple angeblich plant: eine Fernseher-Sprachsteuerung und eine Fernbedienung, mit der Gesten ausgeführt werden können. Die dazugehörige "Magic Motion Fernbedienung" soll 2012 auf den Markt kommen.
Apples sprachgesteuerter Assistent Siri soll bei Google eine rege Entwicklungstätigkeit ausgelöst haben. Google soll bald eine ähnliche Funktion namens Majel auch für Android-Smartphones bereitstellen. Die Sprachausgabe orientiert sich an der Computerstimme aus Raumschiff Enterprise (Star Trek).
Der Roboter Qbo kann sein eigenes Spiegelbild erkennen und soll sogar lernen, sich selbst von anderen Robotern der gleichen Art zu unterscheiden.
Mit der App Touchpad wird das iPhone 4S zum Diktiergerät für Windows und Mac OS X verwandelt. Siri übernimmt dabei die Spracherkennung.
Aldebaran Robotics lässt den Internethasen Nabaztag von Violet weiterleben und vertreibt dessen aktuelle Variante Karotz. Das Unternehmen war bekanntgeworden durch seinen humanoiden Roboter Nao.
Der Softwareentwickler Pete Lamonica hat mit Siri Proxy eine Software entwickelt, die es ermöglicht, Apples Sprachsteuerung um zusätzliche Funktionen zu erweitern. Lamonica zeigt, wie er das Thermostat seiner Heizung mit Siri steuert.
Amazon will seine Kindle-Tablets offenbar mit einer Sprachsteuerung ausstatten. Der Internethändler hat unbemerkt Yap gekauft, ein Startup, dessen Spracherkennungsdienste bei vielen US-Mobilfunkbetreibern liefen.
Apples Spracherkennung und -steuerung Siri funktioniert auch auf dem iPhone 4 und iPod touch 4G - allerdings nur mit installiertem iOS-5-Jailbreak und einem von Entwickler Steven Troughton-Smith ersonnenen Hack.
Nuance hat mit der Dragon Recorder App für iOS eine Lösung vorgestellt, mit der Diktate auf iPhone, iPad und iPod aufgenommen und am Rechner in Texte umgesetzt werden können, wenn der Anwender sein Mobilgerät synchronisiert. Ohne die Dragon-Spracherkennungssoftware für Windows oder Mac OS X ist das System allerdings unbrauchbar.
Ifa 2011 Ford will das mit Microsoft zusammen entwickelte Fahrzeugsystem Sync auch in europäische Modelle integrieren. Außerdem wird der Fiesta mit einem Sicherheitssystem ausgestattet, mit dem sich verschiedene Fahrzeugparameter je nach Fahrer einstellen lassen.
Qbo ist ein kleiner rollender Roboter, den das spanische Unternehmen The Corpora entwickelt hat. Er ist einerseits als Testfeld für Open-Source-Systeme und andererseits als Roboter für daheim gedacht.
Nuance hat seine Spracherkennungssoftware Dragon Naturallyspeaking neu aufgelegt. Mit Version 11.5 kann das iPhone als Diktiergerät eingesetzt werden. Die eingesprochenen Texte werden auf dem PC erkannt. Auch die Windows-Steuerung per Sprache ist vom iPhone aus möglich.
Apple hat in den USA einen Patentantrag eingereicht, der ein Verfahren beschreibt, wie das iPhone künftig für seinen Besitzer Telefonate führen kann. Der Anwender kann einen Text tippen, der dann im Gespräch angesagt wird. Auch die Umwandlung von Telefongesprächen in Text ist angedacht.
Apple will die Spracherkennungssoftware von Nuance in iOS 5 und in seinem neuen Rechenzentrum in North Carolina nutzen. Laut einem Medienbericht haben die beiden Hersteller deshalb eine enge Zusammenarbeit ausgehandelt.
Google Chrome 11 enthält eine Programmierschnittstelle, mit der gesprochene Sprache in Text umgewandelt werden kann. Die Browsererweiterung Speechify nutzt diese Funktion, um Suchmaschinen wie Google oder Bing, aber auch Hulu, Amazon und Youtube zu bedienen.
Die Suchfunktion von Googles Browser Chrome kann mit Hilfe einer Erweiterung über die Stimme des Anwenders gesteuert werden. Voice Search kann unter anderem die Google-Suche und die Wikipedia ansteuern.
Apple-Mitbegründer Steve Wozniak hat in einem Interview behauptet, dass Apple den Softwarehersteller Nuance Communications gekauft hat. Daraufhin legte die Aktie des Entwicklers von Spracherkennungstechnologie stark zu. Doch Wozniak hat inzwischen eingeräumt, einfach Firmennamen verwechselt zu haben.
Englische Wissenschaftler haben eine Gesichtserkennungssoftware für Smartphones entwickelt. Das biometrische System soll zur Authentifizierung dienen.
In Version 0.3 bietet Simon über sogenannte Sprachszenarien die Möglichkeit, Anwendungen über die Spracheingabe zu bedienen. Simon ist für körperlich beeinträchtigte Menschen gedacht, die sonst nicht in der Lage sind, einen Computer zu bedienen. Eine Worterkennung gibt es bislang nicht.
Eine Sprachsteuerung für Mozillas Firefox hat das Team um Firesay entwickelt. Die Erweiterung erlaubt dem Anwender, Kommandos für Websuchen oder zum Öffnen von Seiten über das Mikrofon zu geben. Maus und Tastatur werden dabei nicht benötigt. Noch steht die Technik aber ganz am Anfang.
Nuance hat zwei neue Apps vorgestellt, mit denen die Spracherkennung auch auf Apples iPad und iPhone funktioniert. Dragon Dictation nimmt dabei über die Mikrofone des Geräts das Diktat auf, schickt die Sounddatei zum Nuance-Server und erhält den erkannten Text zurück, der dann in andere Programme kopiert werden kann.
Rund 20 Prozent präziser soll die neue Spracherkennungssoftware Dragon NaturallySpeaking 11 von Nuance sein. Sie soll gesprochene Sprache spürbar schneller in Text umwandeln.
Die Software MacSpeech Scribe von Nuance ist eine Spracherkennung für den Mac, die Tonaufzeichnungen in Text umsetzen soll. Das Programm unterstützt mehrere Sprachen und kann individuelle Sprachprofile aufbauen. So sollen die typischen Aussprachen des Anwenders auch in Fremdsprachen berücksichtigt werden.
Canon hat in den USA einen Patentantrag für eine Sprachsteuerung von Digitalkameras gestellt. Damit würde es eine weitere Eingabemethode neben Knöpfen, Rädern und Touchscreens für Kameras geben. Der Fotograf soll sich so besser auf sein Motiv konzentrieren können.
Der in Spanien entwickelte Qbo ist ein kleiner Roboter für zu Hause. Qbo basiert komplett auf Open-Source-Systemen und eignet sich deshalb auch als Forschungsroboter, etwa für Maschinensehen oder Spracherkennung und -synthese.
Produktbesprechungen bei Amazon sind oft voller sarkastischer oder ironischer Anspielungen, die manche Leser nicht verstehen. Drei israelische Informatiker haben ein Programm entwickelt, das Sarkasmus erkennt - und das sogar ziemlich gut.
Apple gibt viel Geld für das kleine App-Entwicklerunternehmen Siri aus. Der Siri Personal Assistant stammt aus der Militärforschung und kann natürliche Sprache erkennen und mit Diensten im Web verbinden.
Youtube hat die Untertitelung von Videos per Spracherkennung für alle Anwender freigeschaltet. Bislang wurde die automatische Transkription nur für eine Handvoll Partnerkanäle angeboten.
Nuance Communications sieht eine wachsende Bedeutung von Apple und übernimmt MacSpeech, einen Anbieter von Spracherkennungssoftware für Macintosh-Computer. Zuvor hatte Nuance geprüft, ein eigenes Mac-Produkt zu entwickeln.
MWC 2010 Mit dem NLP-5x-Chip von Sensory sollen beispielsweise Haushaltsgeräte, Spielzeug, Autos und Unterhaltungselektronik normale Sätze erkennen können. Obskure Sprachkommandos, die nur in einer festgelegten Reihenfolge aufgesagt werden dürfen, sollen damit Geschichte sein.
Nuance Communications hat den Konkurrenten Spinvox für 102,5 Millionen US-Dollar übernommen, der Sprachnachrichten in Text umwandelt. Spinvox war nach einem Bericht in Bedrängnis geraten, laut dem Callcenter in Südafrika, Ägypten und auf den Philippinen die Mailboxnachrichten abhören und abtippen.
Google will Mobiltelefone künftig als Augen, Ohren und Stimme benutzen. Außerdem präsentierte der Suchmaschinenbetreiber die Latest-Results-Funktion, mit der Suchergebnisse dynamisch aktualisiert werden.
Microsoft setzt bei seinen Produkten stärker auf die Steuerung per Sprache. Immer mehr Anwendungen sollen sich nicht nur mit Maus- oder Tastatureingaben, sondern auch mit Sprachbefehlen bedienen lassen.
Als Experiment haben Forscher des Fraunhofer Instituts für Produktionstechnik und Automatisierung eine hauseigene Programmierschnittstelle in Second Life eingebaut. Sie waren dann in der Lage, ihren Avatar per Telefon zu steuern.
In der kommenden iPhone-Firmware wurden Hinweise auf Funktionen zur Sprachsteuerung gefunden. Derzeit ist unklar, ob diese Verbesserung von allen iPhone-Besitzern benutzt werden kann, oder ob dafür neue Geräte erforderlich sind.
Mit den Funktionstasten von Philips' Diktiermikrofonserie SpeechMike lässt sich mittlerweile auch die Spracherkennungssoftware Dragon NaturallySpeaking steuern. Dazu veröffentlichte Philips Speech Processing eine Software names SpeechControl.
Wissenschaftlern in den USA ist nach eigenen Angaben ein wichtiger Schritt für die Entwicklung autonomer Roboter gelungen: Sie haben einem Roboter beigebracht, einem Menschen auf dem Fuß zu folgen und auf Handzeichen zu reagieren.
Auf dem Microsoft Techfest 2009 hat ein Entwickler ein Dialogsystem für das Auto vorgestellt: Per Sprachsteuerung kann der Fahrer Musik abspielen, das Handbuch des Fahrzeugs aufrufen oder sein Mobiltelefon bedienen.
Cebit Linguatec zeigt mit Voice Pro 12 eine verbesserte Version seiner Spracherkennungssoftware auf der Cebit 2009. Die Windows-Software wurde in enger Zusammenarbeit mit der Microsoft Speech Group entwickelt.
Microsoft bietet Nutzern von Windows-Mobile-basierten Smartphones mit Recite ein Programm für Sprachnachrichten an. Das Programm zeichnet die Nachrichten nicht nur auf, sondern durchsucht sie auch nach Stichwörtern.
Cebit Navigon hat mit Professional Voice Command und Clever Parking zwei neue Funktionen für Autonavigationsgeräte vorgestellt. Die intelligente Sprachsteuerung lässt sich mit normaler Sprache bedienen, die Parkplatzsuche findet und vergleicht kostenpflichtige Parkplätze.
Das US-Softwareunternehmen Nuance Communications, bekannt für Dragon NaturallySpeaking, kauft von IBM Know-how und Patente im Bereich Spracherkennung. Großaktionär Warburg Pincus investiert zugleich 175 Millionen US-Dollar bei Nuance.
Mit dem Computer sprechen und nichts mehr vergessen: IBM hat die "IBM Next Five in Five" veröffentlicht. Fünf Erfindungen, die nach Meinung des Unternehmens Leben, Arbeit und Freizeit in den kommenden fünf Jahren entscheidend verändern werden.
Wissenschaftler der Universität in Maastricht haben eine Software entwickelt, die anhand der Gehirnwellen erkennt, mit wem sich ein Mensch unterhält und was er gesagt bekommt. Ihre Entdeckung könne, so die Wissenschaftler, zur Entwicklung besserer Systeme zur Erkennung von Sprache beitragen.
"Gehe jetzt links vorbei am UFO, dann geradeaus bis ins CIA-Hauptquartier": Die Steuerung des Spielers durch Sprachausgabe könnte in 3D-Welten spannend sein. Das funktioniert aber bislang nur mit Skripts einigermaßen zuverlässig. Saarbrücker Forscher arbeiten an dynamischen Systemen - und laden Spieler zum Onlineexperiment ein.
Google hat seine Suche nach Wörtern in Videos verbessert und nun als Google Audio Indexing auf Google Labs veröffentlicht. Der Dienst war im Juli 2008 als Suche in Politikervideos gestartet. Es gibt Anzeichen, dass die Suchfunktion in Zukunft auch für andere Videos auf Youtube zur Verfügung steht.
Apple hat in den USA ein Patent für eine kombinierte Gesten- und Augensteuerung sowie eine Multitouch-Bedienoberfläche erhalten. Damit könnte zum Beispiel das iPhone beziehungsweise der iPod touch ausgerüstet werden.
E-Mail an news@golem.de