Abo
  • Services:
Anzeige
Parsey McParseface ist ein erstaunlich guter Parser.
Parsey McParseface ist ein erstaunlich guter Parser. (Bild: Robert Scoble/CC-BY 2.0)

Parsey McParseface: Google gibt extrem guten Syntax-Parser frei

Parsey McParseface ist ein erstaunlich guter Parser.
Parsey McParseface ist ein erstaunlich guter Parser. (Bild: Robert Scoble/CC-BY 2.0)

Zum Erkennen natürlicher Sprache hat Google ein neues Modell zum Parsen der Syntax entwickelt und mit seinem Deep-Learning-Framework Tensorflow implementiert. Der daraus erstellte Englisch-Parser Parsey McParseface soll die derzeit beste maschinelle Erkennungsrate für Syntaxbäume aufweisen.

Die Forschungsabteilung von Google hat ein neues Modell zum Erkennen der Syntax natürlicher Sprache (PDF) entwickelt und in sein eigenes Framework Tensorflow implementiert. Das so entstandene neuronale Netz Syntaxnet kann frei wiederverwendet werden. Google selbst hat damit den Englisch-Parser Parsey McParseface erstellt, der nun ebenfalls frei zur Verfügung steht.

Anzeige

Weltweit bester Parser

Mit dem etwas ungewöhnlichen Namen spielt Google offensichtlich auf Boaty McBoatface an, einen Namensvorschlag für ein neues britisches Polarforschungsschiff. Zum Trainieren des Parsers haben die Beteiligten auf die Standardkorpora der Penn Treebank, Onto Notes sowie der English Web Treebank zurückgegriffen. In Benchmarks mit Sätzen aus Zeitungen habe Parsey McParseface die inneren Abhängigkeiten und damit die syntaktischen Strukturen der getesteten Sätze zu über 94 Prozent korrekt erkannt. Das sei die derzeit beste Erkennungsrate einer Maschine für Englisch.

Die Übereinstimmungsrate zum Annotieren der Syntaxbäume durch darauf trainierte Sprachwissenschaftler schätzt Google auf etwa 96 bis 97 Prozent. Die Rate von Personen, die darin keine Übung haben, fällt wahrscheinlich deutlich geringer aus. Dies lege nahe, dass Maschinen langsam menschliche Leistungen erzielten. Allerdings gelte das nur für wohlgeformte und damit eher einfache Sätze. Die Rate für Sätze aus Googles Webtreebank liege bei lediglich 90 Prozent.

Die größten Probleme zum korrekten Erkennen bereiten Google zufolge zurzeit noch jene Sätze, die ein gewisses Weltwissen und Kontext voraussetzen. An diesem Problem will das Team weiter arbeiten und Methoden entwickeln, mit denen dieses Weltwissen maschinell erlernt werden kann.

Neuronales Netz verarbeitet Ambiguitäten

Syntaxnet arbeitet zunächst wie viele andere Systeme auch und weist nach der entsprechenden Trainingsphase Wörtern ihre Wortarten über ein Lexikon zu. Anschließend versucht der Parser, einzelne Abhängigkeiten innerhalb des Satzes zu erkennen, also etwa direktes und indirektes Objekt einem Verb zuzuweisen. Dies geschieht schrittweise, vergleichbar dem Lesen eines Textes von links nach rechts.

Mögliche Doppeldeutigkeiten eines Satzes werden dabei mit Hilfe des neuronalen Netzes gelöst. Zu jedem Zeitpunkt des Parsingvorgangs gibt es verschiedene Entscheidungsmöglichkeiten, einen Syntaxbaum aufzubauen, das neuronale Netz ordnet den Möglichkeiten dann Wahrscheinlichkeiten für ihre Plausibilität zu. Mittels der sogenannten Beam-Suche werden dabei möglichst lange verschiedene Hypothesen parallel zueinander aufrechterhalten und gegeneinander abgewogen. So können auch noch relativ spät im Parsevorgang mögliche Fehler erkannt und korrigiert werden.

Der Quellcode von Syntaxnet und Parsey McParseface steht auf Github bereit. Dort erläutert Google auch relativ ausführlich, wie mit Hilfe eigener Daten aus Baumdatenbanken das Modell genutzt werden kann, um selbst einen Parser zu erstellen.


eye home zur Startseite
Eheran 14. Mai 2016

Gott, ist der Film wirklich so schlecht? :o

eni23 14. Mai 2016

Der Name stammt aber eindeutig von "hooty mcowlface".. Das mit dem Boot ist recht neu..

OhYeah 14. Mai 2016

Mimimimi. Mach dir lieber Sorgen um die Regierung und deren Überwachungsorgane.



Anzeige

Stellenmarkt
  1. Daimler AG, Germersheim
  2. Bermuda Digital Studio, Bochum
  3. HUGO BRENNENSTUHL GMBH & CO KOMMANDITGESELLSCHAFT, Tübingen-Pfrondorf
  4. flexis AG, Chemnitz


Anzeige
Top-Angebote
  1. (u. a. Game of Thrones, Supernatural, The Big Bang Theory)
  2. (u. a. Blade Runner, Inception, Erlösung, Mad Max Fury Road, Creed, Legend of Zarzan)
  3. (u. a. Arrow, Pretty Little Liars, The Big Bang Theory, The 100)

Folgen Sie uns
       


  1. Unternehmen

    1&1 Versatel bietet Gigabit für Frankfurt

  2. Microsoft

    Xbox One emuliert 13 Xbox-Klassiker

  3. DMT Bonding

    Telekom probiert 1 GBit/s ohne Glasfaser aus

  4. Telekom-Software

    Cisco kauft Broadsoft für knapp 2 Milliarden US-Dollar

  5. Pubg

    Die blaue Zone verursacht künftig viel mehr Schaden

  6. FSFE

    "War das Scheitern von Limux unsere Schuld?"

  7. Code-Audit

    Kaspersky wirbt mit Transparenzinitiative um Vertrauen

  8. iOS 11+1+2=23

    Apple-Taschenrechner versagt bei Kopfrechenaufgaben

  9. Purism Librem 13 im Test

    Freiheit hat ihren Preis

  10. Andy Rubin

    Drastischer Preisnachlass beim Essential Phone



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Essential Phone im Test: Das essenzielle Android-Smartphone hat ein Problem
Essential Phone im Test
Das essenzielle Android-Smartphone hat ein Problem
  1. Teardown Das Essential Phone ist praktisch nicht zu reparieren
  2. Smartphone Essential Phone kommt mit zwei Monaten Verspätung
  3. Andy Rubin Essential gewinnt 300 Millionen US-Dollar Investorengelder

Pixel 2 und Pixel 2 XL im Test: Google fehlt der Mut
Pixel 2 und Pixel 2 XL im Test
Google fehlt der Mut
  1. Pixel Visual Core Googles eigener ISP macht HDR+ schneller
  2. Smartphones Googles Pixel 2 ist in Deutschland besonders teuer
  3. Pixel 2 und Pixel 2 XL im Hands on Googles neue Smartphone-Oberklasse überzeugt

Krack-Angriff: Kein Grund zur Panik
Krack-Angriff
Kein Grund zur Panik
  1. Neue WLAN-Treiber Intel muss WLAN und AMT-Management gegen Krack patchen
  2. Ubiquiti Amplifi und Unifi Erster Consumer-WLAN-Router wird gegen Krack gepatcht
  3. Krack WPA2 ist kaputt, aber nicht gebrochen

  1. Re: Vermutlich wurde der Taschenrechner in Java...

    Lord Gamma | 21:06

  2. Re: Zwei oder drei Sekunden = niedrige Latenz?

    TodesBrote | 21:05

  3. Re: Klassische Autos - Eine Marktlücke

    whitbread | 21:04

  4. Re: Was man hätte tun müssen damit es nicht scheitert

    nille02 | 20:58

  5. Re: Linux und Entwickeln ohne Cursortasten ?

    zonk | 20:57


  1. 18:46

  2. 17:54

  3. 17:38

  4. 16:38

  5. 16:28

  6. 15:53

  7. 15:38

  8. 15:23


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel