ChatGPT: ein zukünftiges Mitglied im Tumorboard?
Autoren:
Dr.med. Sebastian Griewing1
Lorenzo Ruinelli2
Prof. Dr.med. Alessandro Ceschi2
Prof. Dr.med. Andrea Papadia2
1 Stanford Center for Biomedical Informatics Research, Stanford University School of Medicine, CA, USA
2Ente Ospedaliero Cantonale (EOC), Bellinzona und Lugano
Korrespondierender Autor:
Dr.med. Sebastian Griewing1
E-Mail: griewing@stanford.edu
Seit der Veröffentlichung von ChatGPT im November 2022 hat sich der Chatbot in viele Bereiche unseres Alltags eingeschlichen. Immer mehr Patient:innen und medizinisches Fachpersonal greifen bei Gesundheitsfragen auf die künstliche Intelligenz (KI) zurück, um auf nutzerfreundliche Weise Informationen zu beschaffen. Es stellt sich die Frage, ob das KI-Modell, das den Anschein erweckt, «allwissend» zu sein, nach und nach medizinisches Expertenwissen erlangt und sich möglicherweise zukünftig als Entscheidungshilfe einen festen Platz im Tumorboard sichern könnte.
Künstliche Intelligenz und die neue Generation der Präzisionsonkologie
Next-Generation-Sequencing, Liquid Biopsies oder Antikörper-Wirkstoff-Konjugate – mit dem zunehmenden Einsatz zielgerichteter, personalisierter Diagnostik und Therapie verändert die Präzisionsonkologie die Krebsbehandlung, auch in der gynäkologischen Onkologie. Angetrieben durch umfangreiche Grundlagenforschung führt der rasante wissenschaftliche Fortschritt in der gynäkologischen Onkologie zu einer stetig wachsenden Menge an wertvoller wissenschaftlicher Evidenz. In diesem Zusammenhang versprechen datengesteuerte Ansätze eine zeitnahe Translation in die klinische Versorgung, um somit eine Verbesserung der individuellen Behandlung der Patientinnen und die Maximierung des Nutzens der Präzisionsonkologie zu realisieren.
Als einer der zentralen Treiber für die Beschleunigung des wissenschaftlichen Arbeitens und des Erkenntnisgewinns um die Präzisionsonkologie hat sich die künstliche Intelligenz positioniert, genauer gesagt der Zweig des maschinellen Lernens (ML).1 ML umfasst Computeralgorithmen, die aus Daten lernen und auf dieser Basis Vorhersagen oder Aussagen treffen können, ohne explizit dafür programmiert zu sein. In diesem Zusammenhang können ML-Ansätze beispielsweise dabei helfen, die grossen und heterogenen Datensätze zu verarbeiten, die sich aus der zunehmenden Integration der genomischen Sequenzierung in die onkologische Routineversorgung ergeben. Die daraus gewonnenen Datenmengen, die mit ihren Millionen von Parametern die menschliche Verarbeitungskapazität eindrücklich übersteigen, erlauben es ML, eigenständig medizinisch relevante Muster zu erkennen. «Deep learning» (DL), eine spezialisierte Form des maschinellen Lernens, geht noch einen Schritt weiter, indem es tief verschachtelte neuronale Netzwerke nutzt, die dem menschlichen Gehirn nachempfunden sind. Somit kann DL besonders komplexe und datenintensive Aufgaben bewältigen. Durch die Kombination und Integration sogenannter multimodaler Daten, d.h. aus mehreren und verschiedenen Quellen oder Formaten, wie beispielsweise genomische, klinische, bildgebende, pathologische, proteomische, epidemiologische und Umweltdaten, kann KI, ML oder DL ein umfassendes Bild der individuellen Krebserkrankung extrahieren. Diese umfangreiche Datenverarbeitung ermöglicht präzisere Diagnosen, genauere Prognosen und maßgeschneiderte Therapien. Und obwohl die Anwendung von diesen Methoden in der Präzisionsonkologie noch in den Anfängen steckt, ist die Entwicklung rasant und sie prägen bereits jetzt eine neue Generation der Präzisionsonkologie.
ChatGPT und die generative KI
Obwohl die wissenschaftlichen Ursprünge der künstlichen Intelligenz (KI) bis in die Mitte des vergangenen Jahrhunderts zurückreichen und die Erforschung sowie Entwicklung medizinischer ML- und DL-Modelle uns bereits seit vielen Jahren begleitet, hat erst die medienwirksame Markteinführung eines Modells der jüngsten KI-Generation zu einem erneuten «KI-Hype» geführt. ChatGPT, ein sogenanntes «large language model» (LLM), ist ein Modell der generativen KI, das speziell darauf trainiert wurde, Sprache zu verstehen, zu verarbeiten und zu generieren («natural language processing»; NLP). ChatGPT und viele andere LLMs unterscheiden sich in zentralen Aspekten deutlich von früheren KI-Modellen, aber einer sticht besonders heraus: Die öffentliche Zugänglichkeit der Modelle eröffnet einem breiten Publikum den Zugang zu den KI-Modellen. Jeder kann nun über eine benutzerfreundliche Chatoberfläche, die an digitale Messaging-Plattformen erinnert, direkt mit einem KI-Modell interagieren. Dies stellt einen Paradigmenwechsel dar, da ML- und DL-Modelle zuvor vor allem Fachexpert:innen sowie der Forschung und Entwicklung vorbehalten waren. Seit der Markteinführung von ChatGPT hat sich das Modell rasch in verschiedene Bereiche des täglichen Lebens eingeschlichen, einschliesslich der Art und Weise, wie wir Informationen beschaffen und auf Wissen zugreifen. Nach nur einem Jahr ist es für einige technikaffine Patient:innen zur Normalität geworden, ChatGPT ebenso zu persönlichen Gesundheitsfragen zu konsultieren. LLMs sind ein zentraler Bestandteil der sogenannten generativen KI. Diese umfasst Systeme, die in der Lage sind, neben der Sprache auch andere Inhalte wie Bilder, Musik oder Programmiercodes zu erzeugen. Solche vielseitigen Modelle werden als «foundation models» bezeichnet, wobei ein LLM ein spezialisiertes Untermodell für die Verarbeitung und Erzeugung von Sprache darstellt.
Abb. 1: Einordnung der KI-Begrifflichkeiten
ChatGPT – schon bereit für den Platz im Tumorboard?
Mit der schnellen Verbreitung von ChatGPT und weiteren KI-Chatbots wuchs die Hoffnung, dass diese Technologie in der Ära der Präzisionsonkologie dabei helfen könnte, den stetig grösser werdenden Berg an wissenschaftlichem Wissen und Evidenz zu bewältigen. Die Herausforderung wächst, klinische Entscheidungen auf der Grundlage der aktuellen Evidenz und Empfehlungen zu treffen, um den Patientinnen die bestmögliche und aktuelle Behandlung zu bieten. Leitlinien werden immer umfangreicher und komplexer, wie wir es beispielsweise in der gynäkologischen Onkologie in jüngster Zeit durch die Einführung neuer therapieentscheidender molekularer Subtypisierungen beim Endometriumkarzinom erfahren durften. Zudem gibt es regelmässige Updates in zunehmender Frequenz – jährlich, vierteljährlich oder bei manchen gynäkoonkologischen Erkrankungen sogar monatlich –, um die neuesten Erkenntnisse in die Behandlungsempfehlungen zu integrieren. Diese Dynamik ist selbst für erfahrene Gynäkoonkologen, die möglicherweise sogar direkt an der Erstellung von Leitlinien mitwirken, schwer zu überblicken und führt zunehmend zu Überforderung.
Vielerorts verschärft sich die Diskrepanz zwischen evidenzbasierter Medizin und klinischer Praxis, wodurch teilweise suboptimale oder gar veraltete Therapieentscheidungen getroffen werden. Der Gedanke allwissender Kolleg:innen am Tisch in der Tumorkonferenz, welche die Leitlinie in- und auswendig kennen und darüber hinaus gar jede aktuelle Publikation gelesen haben und präzise wiedergeben können, klingt dabei geradezu verlockend. Doch wie steht es um das gynäkoonkologische Wissen von ChatGPT und Co, sind diese KI-Modelle schon bereit für einen Platz im Tumorboard?
Von der präklinischen Exploration bis hin zur klinischen Validierung
Erste explorative Studien lieferten einen präklinischen Einblick in das Potenzial von KI-Chatbots wie ChatGPT. Am Beispiel der Brustkrebsbehandlung konnte zuerst gezeigt werden, dass der Chatbot in der Lage ist, sowohl diagnostisch als auch therapeutisch akkurate Entscheidungen zu treffen, die sich zudem mit denen eines multidisziplinären Tumorboards decken.2,3 Diese vielversprechenden Ergebnisse boten die Grundlage für eine systematische Erweiterung der explorativen Studien. Durch den Einsatz optimierter Eingabemodelle (sog. Prompting-Modelle und Prompt-Design) und die detaillierte Erfassung von Patientenprofilen, die das Spektrum gynäkoonkologischer Pathologien abdeckten, wurde die Evaluation von ChatGPT verfeinert und mit anderen KI-Modellen verglichen.4,5
Doch in einem Punkt sind sich die Autoren einig und auch erste systematische Literaturübersichten betonen eine zentrale Schlussfolgerung:6 Der Einsatz von LLMs in der klinischen Praxis ist bisher nicht gerechtfertigt. Sorgen um die Kontrolle und Verlässlichkeit der genutzten Quellen, die Erklärbarkeit der Entscheidungsprozesse und die Datensicherheit bremsen derzeit ihren flächendeckenden Einsatz. Fragen zu ethischen und rechtlichen Rahmenbedingungen sowie zum Datenschutz sind bislang noch weitgehend unbeantwortet. Darüber hinaus kämpfen die Modelle mit Phänomenen wie «Halluzinationen» und «Omissions» – sie erfinden gelegentlich Informationen oder lassen entscheidende Details aus.
Zur Lösung dieser Schwachstellen werden verschiedene Ansätze verfolgt. Ein vielversprechender Ansatz ist die entitätsspezifische Adaption von kleineren «language models», auch bekannt als sogenannte «small language models».7 Diese Modelle sind kompakter und ressourcenschonender als die bekannteren LLMs. Dies ermöglicht es dem System, nicht nur lokal auf einem Computer betrieben zu werden, womit Bedenken hinsichtlich der Datenintegrität und -sicherheit adressiert werden können, sondern auch auf eine vordefinierte Wissensbasis, wie z.B. entitätsspezifische Leitlinien und die darin zitierten Primärquellen, beschränkt zu sein. Darüber hinaus kann ein solches angepasstes Modell so gestaltet werden, dass es seinen argumentativen Gedankengang auf der Grundlage der vordefinierten Wissensbasis offenlegt und somit transparent und erklärbar ist – ähnlich wie im wissenschaftlichen Diskurs eines Tumorboards, wo Entscheidungen nicht einfach getroffen, sondern auf der Grundlage der Argumentation von Studienergebnissen im Sinne der evidenzbasierten Medizin diskutiert werden. Erste «Proof-of-concept»-Studien, auch in der gynäkologischen Onkologie, deuten darauf hin, dass eine solche entitätsspezifische Adaption eine transparente, quellengestützte und datensichere Lösung für den Einsatz in der klinischen Onkologie bieten könnte.8
Fazit – die Bewährungsprobe der generativen KI in der Medizin
Trotz der beeindruckenden Leistungsfähigkeit und der rasanten Entwicklung generativer KI-Modelle wie ChatGPT befinden wir uns nach wie vor in einer frühen Phase ihrer Erforschung. Der derzeitige Einsatz von «foundation models» und «language models» in der Medizin befindet sich noch in der Machbarkeitsprüfung. Die Notwendigkeit strenger klinischer Validierung wird deutlich, wenn man die Geschichte anderer Gesundheitstechnologien betrachtet. Ein Beispiel ist die Röntgenstrahlung: Nach ihrer Entdeckung vor über 125 Jahren diente sie zunächst als Jahrmarktsattraktion, während sie schnell ihren Weg in die Medizin fand. Erst Jahre später erkannte man die Radiotoxizität und das Risiko von Strahlenschäden. Es brauchte Jahrzehnte der wissenschaftlich fundierten Weiterentwicklung, bis Röntgenuntersuchungen als unverzichtbares Bildgebungsverfahren in der klinischen Praxis akzeptiert und etabliert wurden. Daher ist es, trotz der Faszination und des Potenzials neuer Technologien, entscheidend, dass sie strenge klinische Validierungen durchlaufen, bevor sie im klinischen Alltag verwendet werden.
Auch generative KI-Modelle wie ChatGPTstehen vor einer wissenschaftlichen Bewährungsprobe. Ob sie eines Tages als Entscheidungsunterstützer einen festen Platz im Tumorboard einnehmen, bleibt abzuwarten.
Literatur:
1 Allester PJ, Carmona J: Artificial intelligence for the next generation of precision oncology. NPJ Precis Oncol 2021; 5(1): 79 2 Lukac S et al.: Evaluating ChatGPT as an adjunct for the multidisciplinary tumor board decision-making in primary breast cancer cases. Arch Gynecol Obstet 2023; 308(6): 1831-44 3 Sorin V et al.: Large language model (ChatGPT) as a support tool for breast tumor board. NPJ Breast Cancer 2023; 9(1): 44 4 Griewing S et al.: Challenging ChatGPT 3.5 in senology - an assessment of concordance with breast cancer tumor board decision making. J Pers Med 2023; 13(10): 1502 5 Griewing S et al.: Evolution of publicly available large language models for complex decision-making in breast cancer care. Arch Gynecol Obstet 2024; 310(1): 537-50 6 Sorin V et al.: Utilizing large language models in breast cancer management: systematic review. J Cancer Res Clin Oncol 2024; 150(3): 140 7 Hudson M: Forget ChatGPT: why researchers now run small AIs on their laptops. Nature 2024; 633: 728-9 8 Griewing S et al.: Proof-of-concept study of a small language model chatbot for breast cancer decision support - a transparent, source-controlled, explainable and data-secure approach. J Cancer Res Clin Oncol 2024; 150(10): 451
Das könnte Sie auch interessieren:
Rationale Blutungsdiagnostik bei Blutungsstörungen
Die Blutungsstörung ist eines der häufigsten Symptome, wegen denen Frauen in der gynäkologischen Praxis vorstellig werden. Laut Literatur sind 10–15% der prämenopausalen Frauen betroffen ...
Rezidiveingriffe in der Prolapschirurgie
Prolapseingriffe in der Rezidivsituation stellen eine besondere Herausforderung dar, da vorherige chirurgische Eingriffe nicht den gewünschten langfristigen Erfolg erbracht haben. Die ...
Gynäkologische Tumoren: Neues und State of the Art
Im Oktober drehte sich beim Cancer Update des Comprehensive Cancer Center (CCC) Vienna alles um gynäkologische Tumoren – von der Impfprävention über das Staging bis zu den ...