Coronavirus: Medizinische Suchmaschine hilft Ärzten bei Covid-19-Diagnose

Das System basiert auf Public-Domain-Dokumenten und verwendet einen vektorbasierten Suchalgorithmus. Es kann bereits ausprobiert werden.

Artikel veröffentlicht am ,
Covid-19 ist aktuell ein häufig gesuchter Begriff.
Covid-19 ist aktuell ein häufig gesuchter Begriff. (Bild: Pixabay.com)

Wissenschaftler der Beuth Hochschule für Technik Berlin entwickeln eine Deep-Learning-Suche, die medizinische Berichte, Dokumente und Datenbanken nach Krankheiten durchsuchen kann. Die Contextualized Discourse Vectors (CDV) sollen so etwa Ärzten helfen, Symptome, Ursachen und Krankheitsbilder von Covid-19-Patienten besser nachvollziehen zu können. Das Modell kann aber auch auf andere Krankheiten angewendet werden. "Das hier vorgestellte Modell kennt über 27.000 Krankheiten und 14.000 klinische Aspekte wie z. B. Symptome, Diagnostik, Ursachen, Therapie, Prävalenz etc.", sagt Forscher Sebastian Arnold Golem.de.

Stellenmarkt
  1. HPC Administrator (m/f/x)
    Max-Planck-Gesellschaft für empirische Ästhetik, Frankfurt am Main
  2. IT-Support - PC-Administration und Anwendungsbetreuung (m/w/d)
    Julius Kühn-Institut (JKI) Bundesforschungsinstitut Für Kulturpflanzen, Dossenheim
Detailsuche

Anwender nutzen für die englischsprachige Suche zwei verschiedene Eingabefelder. Dort werden die jeweilige Krankheit - etwa "Covid-19" und ein spezieller Suchbegriff, etwa "Diagnostic approach", "Symptoms", oder "Vaccines" - eingegeben. Anschließend werden Ergebnisse als Textausschnitte in einer Liste präsentiert. "Im Test konnte unser Modell 4.178 medizinische Fragen über Wikipedia zu 65 Prozent direkt mit einem passenden Abschnitt beantworten (Recall@1) und zu 98 Prozent auf der Top-10-Ergebnisseite (Recall@10)", sagt Arnold. Konkurrenzlösungen wie das BM25-Modell seien in diesen Tests weniger genau gewesen, heißt es.

"Wir stellen die Paragrafen, die eine mögliche Antwort mit hoher Relevanz enthalten, in blauer Farbe dar. Manchmal ist sich das Modell sogar so sicher, dass ein Satz besonders relevant ist und dann hebt die Software diesen Satz in fetter Schrift besonders hervor", beschreibt Professor Alexander Löser die Suche. Die Datengrundlage stellen diverse Quellen, die laut den Entwicklern in den Jahren 2019 und 2020 aktualisiert wurden, darunter sind Public-Domain-Ressourcen wie Wikipedia, Cord-19, Pubmed und die Datenbank PMC Open Access, die unter der CC-BY-NC-SA-Lizenz steht. Das Modell selbst nutzt etwa das Open-Source-Sprachmodell für Biomedizin Biobert, das bereits vortrainiert ist und medizinische Zusammenhänge in Text erkennt. Aber auch andere Lösungen sind in der Suche implementiert.

Sechs Stunden Training

Es scheint, als sei das Training eines CDV-Modells dabei nicht unbedingt ressourcenaufwendig. Laut Arnold dauert das Berechnen auf zwei Nvidia-Tesla-P100-GPUs etwa sechs Stunden. Das System kann also relativ schnell auf einem aktuellen Stand gehalten werden. Einzelne Embeddings basieren dabei nicht auf festen Suchbegriffen oder zusammenhängenden Zeichenketten, sondern abstrahiert diese in Vektoren. Die Grundlage ist das Open-Source-Modell Fasttext, dessen Ansatz Arnold in einem Satz erklärt: "Die Bedeutung eines Worts lässt sich durch seinen Kontext beschreiben". Dem Zielwort zugeordnete Begriffe sind dabei in Vektoren repräsentiert, die in eine ähnliche Richtung zeigen. Daran erkennt das Modell, dass diese Begriffe zu einem sinnvollen Ergebnis führen.

Golem Karrierewelt
  1. Container Management und Orchestrierung: virtueller Drei-Tage-Workshop
    22.-24.08.2022, Virtuell
  2. Informationssicherheit in der Automobilindustrie nach VDA-ISA und TISAX® mit Zertifikat: Zwei-Tage-Workshop
    19./20.07.2022, Virtuell
Weitere IT-Trainings

Im Fall von Covid-19 haben die Entwickler allerdings einen entsprechenden Vektor manuell hinterlegt, da sich bis vor wenigen Monaten dazu noch keine Informationen finden ließen. Anschließend wird dies in der Suche mitberücksichtigt. Das komplette Modell muss laut Arnold nur dann neu trainiert werden, wenn sich die grundsätzliche Sprachform der Quelldaten ändert. Das ist etwa bei Publikationen in anderen Sprachen außerhalb von Englisch der Fall.

Spezialisiert ist besser

Auf die Frage hin, was den CDV-Ansatz von etablierten Alternativen wie Google Scholar oder Pubmedcentral unterscheidet, hat das Forscherteam direkt eine Antwort parat. Diese basieren auf Stichwortsuchen, die in beliebiger Kombination als Suchbegriffe gelten können. Dadurch seien die Ergebnisse oft sehr allgemein gehalten und weniger gefiltert. Da sie nach Relevanz sortiert werden, zeigen sie zudem wohl sehr alte Artikel prominent an. Für aktuelle und bisher weniger erforschte Krankheiten wie Covid-19 sind solche Ergebnisse sicherlich kaum hilfreich.

Im Vergleich zu Konkurrenzprodukten wie dem Deep Structured Semantic Model von Microsoft oder Hierarchical Attention Retrieval sei die verktorbasierte Ähnlichkeitssuche zudem performanter, da die Alternativen rechenaufwendige Methoden wie Inferencing verwenden. Durch die zusätzliche Ausrichtung auf medizinische Dokumente und die Implementierung von Biobert ist die Anfrage mit dem CDV-System der Beuth-Hochschule wohl um einiges schneller.

Dass CDV trotzdem recht viele weniger relevante Ergebnisse liefert, liegt wohl am in der Medizin oft sehr langwierigen Review-Prozess. Per Peer-Review werden Forschungsberichte von Spezialisten bewertet. "In einem zeitlich beschleunigten Szenario wie der Covid-19-Pandemie ist der Review-Prozess oft noch nicht durchlaufen und es gibt deshalb keinerlei Einschätzung zur Qualität der Publikationen", sagt Arnold.

Deshalb ist CDV, das auch auf Preprint-Server mit bisher nicht validierten Arbeiten zugreift, kein Ersatz für den Review-Prozess. Es soll lediglich eine bessere Übersicht über bereits getätigte Untersuchungen zum Thema Coronavirus geben. Das ist bereits eine kostenlose Hilfe für Fachleute, die sich damit täglich auseinandersetzen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Prehistoric Planet
Danke, Apple, für so grandiose Dinosaurier!

Musik von Hans Zimmer, dazu David Attenborough als Sprecher: Apples Prehistoric Planet hat einen Kindheitstraum zum Leben erweckt.
Ein IMHO von Marc Sauter

Prehistoric Planet: Danke, Apple, für so grandiose Dinosaurier!
Artikel
  1. Star Wars: Cal Kestis kämpft in Jedi Survivor weiter
    Star Wars
    Cal Kestis kämpft in Jedi Survivor weiter

    EA hat offiziell den Nachfolger zu Star Wars Jedi Fallen Order angekündigt. Hauptfigur ist erneut Cal Kestis mit seinem Roboterkumpel BD-1.

  2. Fahrgastverband Pro Bahn: Wo das 9-Euro-Ticket sicher gilt
    Fahrgastverband Pro Bahn
    Wo das 9-Euro-Ticket sicher gilt

    Die Farbe der Züge ist entscheidend, was bei der Reiseplanung in der Deutsche-Bahn-App wenig nützt. Dafür laufen Fahrscheinkontrollen ins Leere.

  3. Retro Gaming: Wie man einen Emulator programmiert
    Retro Gaming
    Wie man einen Emulator programmiert

    Warum nicht mal selbst einen Emulator programmieren? Das ist lehrreich und macht Spaß - wenn er funktioniert. Wie es geht, zeigen wir am Gameboy.
    Von Johannes Hiltscher

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 evtl. bestellbar • Prime Video: Filme leihen für 0,99€ • Gigabyte RTX 3080 12GB günstig wie nie: 1.024€ • MSI Gaming-Monitor 32" 4K günstig wie nie: 999€ • Mindstar (u. a. AMD Ryzen 5 5600 179€, Palit RTX 3070 GamingPro 669€) • Days of Play (u. a. PS5-Controller 49,99€) [Werbung]
    •  /