Computergestützte Protokollerstellung aus Gesprächen
Forschungsprojekt soll automatische Protokollierung ermöglichen
Computerlinguisten des Heidelberger Forschungsinstituts EML Research forschen an einem System, das in Zukunft automatisch schriftliche Gesprächsprotokolle erstellen kann. Auch Hörfunksendungen sollen mit "DIANA-Summ" (DIalog ANAphors and Summarization) einfacher archiviert werden können.
Für die automatische Zusammenfassung wurde bisher die Wichtigkeit aller Wörter in einem Satz berechnet, für das Protokoll wurden dann die Sätze mit der höchsten Wertung genommen. Die Ergebnisse dieses einfachen statistischen Verfahrens sind dabei nicht immer die besten. Und gerade bei angeregten Diskussionen kann man sich gut vorstellen, dass durchaus unpassendes in den Protokollen landet.
Für die Automatisierung der meist undankbaren Aufgabe der Protokollführung arbeiten nun Computerlinguisten des gemeinnützigen Heidelberger Forschungsinstituts EML Research an neuen Verfahren zur Erkennung von wichtigen Inhalten gesprochener Sprache. Das Projekt DIANA-Summ soll mit intelligenter Software eine automatische Zusammenfassung gesprochener Dialoge ermöglichen.
Die Forscher wollen auch die typischen Probleme der gesprochenen Sprache aufgreifen. Die Unterschiede zur Schriftsprache sind recht deutlich für ein eine Spracherkennung. Diskussionen in denen die Teilnehmer unterbrochen werden, nicht vorhandene Punkte oder Kommata, das oftmals gehörte, aber für den normalen Zuhörer kaum bemerkbare "Äh" sind Hürden die das System zu nehmen hat. Auch muss es in der Lage sein, Verweiswörter (Anaphern oder Pronomen) korrekt wiederzugeben.
Informationen die vor allem aus dem Kontext ersichtlich sind: Wenn er oder sie diese oder jene Tätigkeit ausführt, muss im Protokoll ersichtlich sein, wer denn diejenige Person ist und was eigentlich diese Tätigkeit sein soll. Diese Zusammenhänge, die in einer Diskussion für die Teilnehmer wie selbstverständlich ersichtlich sind, müssen von Computersystemen erfolgreich erkannt werden. Nach der These der Wissenschaftler von EML Research, können Gespräche nicht sinnvoll zusammengefasst werden, solange es nicht möglich ist, die verschiedenen Arten von Pronomen voneinander zu unterschieden und aufzulösen.
Da Computer aber große Schwierigkeiten beim Erkennen von Zusammenhängen haben, ist es ein Ziel, dem Computer beizubringen, Pronomen aus dem Kontext heraus einzuordnen. Möglichst viele Gespräche sollen hier die Grundlage für ein umfassendes Training darstellen, zur Zeit ist es jedoch nicht möglich Computer einfach mit Gesprächen zu konfrontieren.
Am Anfang der Forschung wird eine 72-stündige Aufzeichnung von gesprochenen Dialogen genutzt, die bereits in schriftlicher Form vorliegenden Gespräche sollen so die Grundlage für die Entwicklung bilden. Damit der Computer aus ihnen lernen kann, müssen sie von Hand mit linguistischen und anderen Informationen angereichert werden. Diese Daten gehen dann zurück an das International Computer Science Institute (ICSI) in Berkeley (USA), dem Urheber der Aufzeichnung, wo sie dann auch anderen Computerlinquisten zur Verfügung stehen.
Das zunächst für zwei Jahre von der Deutschen Forschungsgemeinschaft (DFG) geförderte und von dem Sprachwissenschaftler Dr. Michael Strube geleitete Projekt soll zum Abschluss eine Komponente entwickeln, die mit Hilfe einer Spracherkennung die Verschriftlichung der Gespräche erlaubt. Für ein System, das automatische Protokolle erstellen kann, wird es jedoch noch einige Jahre brauchen. [von Andreas Sebayang]
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed








Soweit stimme ich zu. Allerdings koennen Sie davon ausgehen, dass entsprechende...