GPT-4 und Google Gemini sind bei der Klassifizierung von Brustbildern unzureichend

Von

Mai 2, 2024

MADRID, 3. Mai. (EUROPA PRESS) –

Laut einer neuen internationalen Studie, die in der Fachzeitschrift „Radiology“, einer Fachzeitschrift der Radiological, veröffentlicht wurde, führte die Verwendung öffentlich verfügbarer Large Language Models (LLMs) zu Änderungen in der Klassifizierung von Brustbildgebungsberichten, die sich negativ auf das Patientenmanagement auswirken könnten Gesellschaft von Nordamerika (RSNA). Die Ergebnisse der Studie unterstreichen die Notwendigkeit, diese LLMs in Umgebungen zu regulieren, die medizinisches Denken auf hohem Niveau erfordern, sagten die Forscher.

LLMs sind eine Form der künstlichen Intelligenz (KI), die heute für verschiedene Zwecke weit verbreitet ist. In der Radiologie wurden LLMs bereits in einer Vielzahl klinischer Aufgaben getestet, von der Bearbeitung radiologischer Anfrageformulare bis hin zur Bereitstellung von Bildgebungsempfehlungen und diagnostischer Unterstützung.

Öffentlich verfügbare generische LLMs wie ChatGPT (GPT 3.5 und GPT-4) und Google Gemini (ehemals Bard) haben bei einigen Aufgaben vielversprechende Ergebnisse gezeigt. Wichtig ist jedoch, dass sie bei komplexeren Aufgaben, die ein höheres Maß an Argumentation und tiefergehendes klinisches Wissen erfordern, wie etwa die Bereitstellung von Bildempfehlungen, weniger erfolgreich sind. Benutzer, die medizinischen Rat suchen, verstehen möglicherweise nicht immer die Einschränkungen dieser ungeschulten Programme.

„Die Bewertung der Fähigkeiten generischer LLMs bleibt wichtig, da diese Tools am leichtesten verfügbar sind und sowohl von Patienten als auch von Nicht-Radiologen, die eine zweite Meinung einholen möchten, ungerechtfertigterweise genutzt werden können“, sagte Andrea Cozzi, Co-Hauptautorin der Studie, Assistenzärztin für Radiologie und Postdoktorandin am Imaging Institute of Southern Switzerland.

Dr. Cozzi und ihr Team machten sich daran, generische LLMs in einer Aufgabe zu testen, die zum klinischen Alltag gehört, bei der jedoch die Tiefe des medizinischen Denkens hoch ist und bei der die Verwendung anderer Sprachen als Englisch die Fähigkeiten der LLMs noch weiter hervorheben würde . Sie konzentrierten sich auf die Übereinstimmung zwischen menschlichen Lesern und LLM bei der Zuweisung von BI-RADS-Kategorien (Breast Imaging Reporting and Data System), einem System, das häufig zur Beschreibung und Klassifizierung von Brustläsionen verwendet wird.

Die Schweizer Forscher arbeiteten mit einem amerikanischen Team vom Memorial Sloan Kettering Cancer Center in New York City, USA, und einem niederländischen Team vom Niederländischen Krebsinstitut in Amsterdam, Niederlande, zusammen.

Die Studie umfasste BI-RADS-Klassifizierungen von 2.400 Brustbildgebungsberichten, die in Englisch, Italienisch und Niederländisch verfasst waren. Drei LLMs (GPT-3.5, GPT-4 und Google Bard (jetzt umbenannt in Google Gemini)) ordneten BI-RADS-Kategorien ausschließlich anhand der von den ursprünglichen Radiologen beschriebenen Befunde zu. Anschließend verglichen die Forscher die Leistung der LLMs mit der von staatlich geprüften Brustradiologen.

Die Übereinstimmung der BI-RADS-Kategoriezuordnungen zwischen menschlichen Lesern war nahezu perfekt. Allerdings war die Übereinstimmung zwischen Menschen und LLMs nur mäßig. Am wichtigsten ist, dass die Forscher auch einen hohen Prozentsatz nicht übereinstimmender Kategorienzuordnungen beobachteten, die zu negativen Veränderungen in der Behandlung der Patienten führen würden. Dies wirft mehrere Bedenken hinsichtlich der möglichen Folgen auf, wenn man sich zu sehr auf diese allgemein verfügbaren LLMs verlässt.

Laut Dr. Cozzi unterstreichen die Ergebnisse die Notwendigkeit, LLMs zu regulieren, wenn eine sehr wahrscheinliche Möglichkeit besteht, dass Benutzer ihnen gesundheitsbezogene Fragen unterschiedlicher Tiefe und Komplexität stellen.

„Die Ergebnisse dieser Studie ergänzen die wachsende Zahl an Beweisen, die uns an die Notwendigkeit erinnern, die Vor- und Nachteile des Einsatzes von LLM im Gesundheitswesen sorgfältig zu verstehen und hervorzuheben“, schließen sie. „Diese Programme können für viele Aufgaben ein wunderbares Werkzeug sein, sollten aber mit Vorsicht eingesetzt werden. Patienten sollten sich der inhärenten Mängel dieser Werkzeuge bewusst sein und wissen, dass sie auf komplexe Fragen möglicherweise unvollständige oder sogar völlig falsche Antworten erhalten.“

GPT-4 und Google Gemini sind bei der Klassifizierung von Brustbildern unzureichend

BREAKING NEWS

Frohe Weihnachten mit Wincent Weiss – Weiße Weihnachten garantiert!

Vorschau Bayerischer Kabarettpreis 2024: Moderation Michael Altinger und Eva Karl Faltermeier

Die Zukunft der Luftfahrtindustrie: Eine neue Ära bricht an

SV Bavenstedt siegt 1:0 im Hildesheimer Landesligaderby

Anne Tyler: Eine bewegende Geschichte über drei Tage im Juni

Top News

Frohe Weihnachten mit Wincent Weiss – Weiße Weihnachten garantiert!

Vorschau Bayerischer Kabarettpreis 2024: Moderation Michael Altinger und Eva Karl Faltermeier

Die Zukunft der Luftfahrtindustrie: Eine neue Ära bricht an

SV Bavenstedt siegt 1:0 im Hildesheimer Landesligaderby

Anne Tyler: Eine bewegende Geschichte über drei Tage im Juni