Abo
  • Services:

Parsey McParseface: Google gibt extrem guten Syntax-Parser frei

Zum Erkennen natürlicher Sprache hat Google ein neues Modell zum Parsen der Syntax entwickelt und mit seinem Deep-Learning-Framework Tensorflow implementiert. Der daraus erstellte Englisch-Parser Parsey McParseface soll die derzeit beste maschinelle Erkennungsrate für Syntaxbäume aufweisen.

Artikel veröffentlicht am ,
Parsey McParseface ist ein erstaunlich guter Parser.
Parsey McParseface ist ein erstaunlich guter Parser. (Bild: Robert Scoble/CC-BY 2.0)

Die Forschungsabteilung von Google hat ein neues Modell zum Erkennen der Syntax natürlicher Sprache (PDF) entwickelt und in sein eigenes Framework Tensorflow implementiert. Das so entstandene neuronale Netz Syntaxnet kann frei wiederverwendet werden. Google selbst hat damit den Englisch-Parser Parsey McParseface erstellt, der nun ebenfalls frei zur Verfügung steht.

Weltweit bester Parser

Stellenmarkt
  1. IT des Bezirks Oberbayern GmbH, München
  2. PHOENIX CONTACT Electronics GmbH, Berlin

Mit dem etwas ungewöhnlichen Namen spielt Google offensichtlich auf Boaty McBoatface an, einen Namensvorschlag für ein neues britisches Polarforschungsschiff. Zum Trainieren des Parsers haben die Beteiligten auf die Standardkorpora der Penn Treebank, Onto Notes sowie der English Web Treebank zurückgegriffen. In Benchmarks mit Sätzen aus Zeitungen habe Parsey McParseface die inneren Abhängigkeiten und damit die syntaktischen Strukturen der getesteten Sätze zu über 94 Prozent korrekt erkannt. Das sei die derzeit beste Erkennungsrate einer Maschine für Englisch.

Die Übereinstimmungsrate zum Annotieren der Syntaxbäume durch darauf trainierte Sprachwissenschaftler schätzt Google auf etwa 96 bis 97 Prozent. Die Rate von Personen, die darin keine Übung haben, fällt wahrscheinlich deutlich geringer aus. Dies lege nahe, dass Maschinen langsam menschliche Leistungen erzielten. Allerdings gelte das nur für wohlgeformte und damit eher einfache Sätze. Die Rate für Sätze aus Googles Webtreebank liege bei lediglich 90 Prozent.

Die größten Probleme zum korrekten Erkennen bereiten Google zufolge zurzeit noch jene Sätze, die ein gewisses Weltwissen und Kontext voraussetzen. An diesem Problem will das Team weiter arbeiten und Methoden entwickeln, mit denen dieses Weltwissen maschinell erlernt werden kann.

Neuronales Netz verarbeitet Ambiguitäten

Syntaxnet arbeitet zunächst wie viele andere Systeme auch und weist nach der entsprechenden Trainingsphase Wörtern ihre Wortarten über ein Lexikon zu. Anschließend versucht der Parser, einzelne Abhängigkeiten innerhalb des Satzes zu erkennen, also etwa direktes und indirektes Objekt einem Verb zuzuweisen. Dies geschieht schrittweise, vergleichbar dem Lesen eines Textes von links nach rechts.

Mögliche Doppeldeutigkeiten eines Satzes werden dabei mit Hilfe des neuronalen Netzes gelöst. Zu jedem Zeitpunkt des Parsingvorgangs gibt es verschiedene Entscheidungsmöglichkeiten, einen Syntaxbaum aufzubauen, das neuronale Netz ordnet den Möglichkeiten dann Wahrscheinlichkeiten für ihre Plausibilität zu. Mittels der sogenannten Beam-Suche werden dabei möglichst lange verschiedene Hypothesen parallel zueinander aufrechterhalten und gegeneinander abgewogen. So können auch noch relativ spät im Parsevorgang mögliche Fehler erkannt und korrigiert werden.

Der Quellcode von Syntaxnet und Parsey McParseface steht auf Github bereit. Dort erläutert Google auch relativ ausführlich, wie mit Hilfe eigener Daten aus Baumdatenbanken das Modell genutzt werden kann, um selbst einen Parser zu erstellen.



Anzeige
Top-Angebote
  1. 269,00€
  2. (heute u. a. JBL E50BT Over-ear Kopfhörer 49,00€ statt 149,00€)
  3. 159€

Eheran 14. Mai 2016

Gott, ist der Film wirklich so schlecht? :o

eni23 14. Mai 2016

Der Name stammt aber eindeutig von "hooty mcowlface".. Das mit dem Boot ist recht neu..

OhYeah 14. Mai 2016

Mimimimi. Mach dir lieber Sorgen um die Regierung und deren Überwachungsorgane.


Folgen Sie uns
       


BMW stellt seinen Formel-E-Rennwagen vor - Bericht

BMW setzt auf elektrischen Motorsport: Die Münchener treten als zweiter deutscher Autohersteller in der Rennserie Formel E an. BMW hat in München das Fahrzeug für die Saison 2018/19 vorgestellt.

BMW stellt seinen Formel-E-Rennwagen vor - Bericht Video aufrufen
Athlon 200GE im Test: Celeron und Pentium abgehängt
Athlon 200GE im Test
Celeron und Pentium abgehängt

Mit dem Athlon 200GE belebt AMD den alten CPU-Markennamen wieder: Der Chip gefällt durch seine Zen-Kerne und die integrierte Vega-Grafikeinheit, die Intel-Konkurrenz hat dem derzeit preislich wenig entgegenzusetzen.
Ein Test von Marc Sauter

  1. AMD Threadripper erhalten dynamischen NUMA-Modus
  2. HP Elitedesk 705 Workstation Edition Minitower mit AMD-CPU startet bei 680 Euro
  3. Ryzen 5 2600H und Ryzen 7 2800H 45-Watt-CPUs mit Vega-Grafik für Laptops sind da

HP Elitebook 840 und Toshiba Tecra X40: Es kann nur eines geben
HP Elitebook 840 und Toshiba Tecra X40
Es kann nur eines geben

Nicht nur Lenovo baut gute Business-Notebooks, auch HP und Toshiba haben Produkte, die vergleichbar sind. Wir stellen je ein Modell der beiden Hersteller mit ähnlicher Hardware gegenüber: das eine leichter, das andere mit überlegenem Akku - ein knapper Gewinner nach Punkten.
Ein Test von Oliver Nickel

  1. Portégé X20W-D-145 Toshiba stellt alte Hardware im flexiblen Chassis vor
  2. Tecra X40-E-10W Toshibas 14-Zoll-Thinkpad-Pendant kommt mit LTE
  3. Dell, HP, Lenovo AMDs Ryzen Pro Mobile landet in allen Business-Notebooks

Kaufberatung: Der richtige smarte Lautsprecher
Kaufberatung
Der richtige smarte Lautsprecher

Der Markt für smarte Lautsprecher wird immer größer. Bei der Entscheidung für ein Gerät sind Kaufpreis und Klang wichtig, ebenso die Wahl für einen digitalen Assistenten: Alexa, Google Assistant oder Siri? Wir geben eine Übersicht.
Von Ingo Pakalski

  1. Amazon Alexa Echo Sub verhilft Echo-Lautsprechern zu mehr Bass
  2. Beosound 2 Bang & Olufsen bringt smarten Lautsprecher für 2.000 Euro
  3. Google und Amazon Markt für smarte Lautsprecher wächst weiter stark

    •  /