Coronavirus: Medizinische Suchmaschine hilft Ärzten bei Covid-19-Diagnose

Das System basiert auf Public-Domain-Dokumenten und verwendet einen vektorbasierten Suchalgorithmus. Es kann bereits ausprobiert werden.

Artikel veröffentlicht am ,
Covid-19 ist aktuell ein häufig gesuchter Begriff.
Covid-19 ist aktuell ein häufig gesuchter Begriff. (Bild: Pixabay.com)

Wissenschaftler der Beuth Hochschule für Technik Berlin entwickeln eine Deep-Learning-Suche, die medizinische Berichte, Dokumente und Datenbanken nach Krankheiten durchsuchen kann. Die Contextualized Discourse Vectors (CDV) sollen so etwa Ärzten helfen, Symptome, Ursachen und Krankheitsbilder von Covid-19-Patienten besser nachvollziehen zu können. Das Modell kann aber auch auf andere Krankheiten angewendet werden. "Das hier vorgestellte Modell kennt über 27.000 Krankheiten und 14.000 klinische Aspekte wie z. B. Symptome, Diagnostik, Ursachen, Therapie, Prävalenz etc.", sagt Forscher Sebastian Arnold Golem.de.

Stellenmarkt
  1. IT Consultant Business Automation (w/m/d)
    dmTECH GmbH, Karlsruhe
  2. Datenanalystin / Datenanalyst (w/m/d) im gehobenen informationstechnischen Dienst
    Polizeipräsidium Reutlingen, Esslingen
Detailsuche

Anwender nutzen für die englischsprachige Suche zwei verschiedene Eingabefelder. Dort werden die jeweilige Krankheit - etwa "Covid-19" und ein spezieller Suchbegriff, etwa "Diagnostic approach", "Symptoms", oder "Vaccines" - eingegeben. Anschließend werden Ergebnisse als Textausschnitte in einer Liste präsentiert. "Im Test konnte unser Modell 4.178 medizinische Fragen über Wikipedia zu 65 Prozent direkt mit einem passenden Abschnitt beantworten (Recall@1) und zu 98 Prozent auf der Top-10-Ergebnisseite (Recall@10)", sagt Arnold. Konkurrenzlösungen wie das BM25-Modell seien in diesen Tests weniger genau gewesen, heißt es.

"Wir stellen die Paragrafen, die eine mögliche Antwort mit hoher Relevanz enthalten, in blauer Farbe dar. Manchmal ist sich das Modell sogar so sicher, dass ein Satz besonders relevant ist und dann hebt die Software diesen Satz in fetter Schrift besonders hervor", beschreibt Professor Alexander Löser die Suche. Die Datengrundlage stellen diverse Quellen, die laut den Entwicklern in den Jahren 2019 und 2020 aktualisiert wurden, darunter sind Public-Domain-Ressourcen wie Wikipedia, Cord-19, Pubmed und die Datenbank PMC Open Access, die unter der CC-BY-NC-SA-Lizenz steht. Das Modell selbst nutzt etwa das Open-Source-Sprachmodell für Biomedizin Biobert, das bereits vortrainiert ist und medizinische Zusammenhänge in Text erkennt. Aber auch andere Lösungen sind in der Suche implementiert.

Sechs Stunden Training

Es scheint, als sei das Training eines CDV-Modells dabei nicht unbedingt ressourcenaufwendig. Laut Arnold dauert das Berechnen auf zwei Nvidia-Tesla-P100-GPUs etwa sechs Stunden. Das System kann also relativ schnell auf einem aktuellen Stand gehalten werden. Einzelne Embeddings basieren dabei nicht auf festen Suchbegriffen oder zusammenhängenden Zeichenketten, sondern abstrahiert diese in Vektoren. Die Grundlage ist das Open-Source-Modell Fasttext, dessen Ansatz Arnold in einem Satz erklärt: "Die Bedeutung eines Worts lässt sich durch seinen Kontext beschreiben". Dem Zielwort zugeordnete Begriffe sind dabei in Vektoren repräsentiert, die in eine ähnliche Richtung zeigen. Daran erkennt das Modell, dass diese Begriffe zu einem sinnvollen Ergebnis führen.

Golem Akademie
  1. OpenShift Installation & Administration
    9.-11. August 2021, online
  2. Advanced Python - Fortgeschrittene Programmierthemen
    16./17. September 2021, online
Weitere IT-Trainings

Im Fall von Covid-19 haben die Entwickler allerdings einen entsprechenden Vektor manuell hinterlegt, da sich bis vor wenigen Monaten dazu noch keine Informationen finden ließen. Anschließend wird dies in der Suche mitberücksichtigt. Das komplette Modell muss laut Arnold nur dann neu trainiert werden, wenn sich die grundsätzliche Sprachform der Quelldaten ändert. Das ist etwa bei Publikationen in anderen Sprachen außerhalb von Englisch der Fall.

Spezialisiert ist besser

Auf die Frage hin, was den CDV-Ansatz von etablierten Alternativen wie Google Scholar oder Pubmedcentral unterscheidet, hat das Forscherteam direkt eine Antwort parat. Diese basieren auf Stichwortsuchen, die in beliebiger Kombination als Suchbegriffe gelten können. Dadurch seien die Ergebnisse oft sehr allgemein gehalten und weniger gefiltert. Da sie nach Relevanz sortiert werden, zeigen sie zudem wohl sehr alte Artikel prominent an. Für aktuelle und bisher weniger erforschte Krankheiten wie Covid-19 sind solche Ergebnisse sicherlich kaum hilfreich.

Im Vergleich zu Konkurrenzprodukten wie dem Deep Structured Semantic Model von Microsoft oder Hierarchical Attention Retrieval sei die verktorbasierte Ähnlichkeitssuche zudem performanter, da die Alternativen rechenaufwendige Methoden wie Inferencing verwenden. Durch die zusätzliche Ausrichtung auf medizinische Dokumente und die Implementierung von Biobert ist die Anfrage mit dem CDV-System der Beuth-Hochschule wohl um einiges schneller.

Dass CDV trotzdem recht viele weniger relevante Ergebnisse liefert, liegt wohl am in der Medizin oft sehr langwierigen Review-Prozess. Per Peer-Review werden Forschungsberichte von Spezialisten bewertet. "In einem zeitlich beschleunigten Szenario wie der Covid-19-Pandemie ist der Review-Prozess oft noch nicht durchlaufen und es gibt deshalb keinerlei Einschätzung zur Qualität der Publikationen", sagt Arnold.

Deshalb ist CDV, das auch auf Preprint-Server mit bisher nicht validierten Arbeiten zugreift, kein Ersatz für den Review-Prozess. Es soll lediglich eine bessere Übersicht über bereits getätigte Untersuchungen zum Thema Coronavirus geben. Das ist bereits eine kostenlose Hilfe für Fachleute, die sich damit täglich auseinandersetzen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Anti-Virus
John McAfee tot im Gefängnis aufgefunden

John McAfee ist tot in einer Gefängniszelle gefunden worden. Ihm drohte eine Auslieferung von Spanien in die USA.

Anti-Virus: John McAfee tot im Gefängnis aufgefunden
Artikel
  1. Neue EU-Standardvertragsklauseln: Datentransfer in die USA bleibt riskant
    Neue EU-Standardvertragsklauseln
    Datentransfer in die USA bleibt riskant

    Die neuen EU-Standardsvertragsklauseln sollen den Datentransfer in die USA legitimieren. Doch das Grundproblem mit drei Buchstaben bleibt ungelöst.
    Von Christiane Schulzki-Haddouti

  2. Apple aktualisiert Tags: Neue Firmware-Version für Airtags
    Apple aktualisiert Tags
    Neue Firmware-Version für Airtags

    Apple hat eine neue Version der Airtags-Firmware vorgestellt. Offenbar sind die Anti-Stalking-Funktionen noch verbesserungswürdig gewesen.

  3. Verbraucherzentrale zu Glasfaser: 100 bis 300 MBit/s sind vollkommen ausreichend
    Verbraucherzentrale zu Glasfaser
    "100 bis 300 MBit/s sind vollkommen ausreichend"

    Während alle versuchen, den Glasfaser-Ausbau zu beschleunigen, raten Verbraucherschützer, nicht für Tarife mit sehr hoher Bandbreite zu zahlen, die man angeblich gar nicht benötige.

altuser 28. Apr 2020

"Im Test konnte unser Modell 4.178 medizinische Fragen über Wikipedia zu 65 Prozent...


Folgen Sie uns
       


  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Mega-Wiedereröffnung bei MediaMarkt - bis zu 30 Prozent Rabatt • Dualsense Midnight Black + Ratchet & Clank Rift Apart 87,61€ • 6 Blu-rays für 30€ • Landwirtschafts-Simulator 22 jetzt vorbestellbar ab 39,99€ • MSI 27" Curved WQHD 165Hz 309€ [Werbung]
    •  /