Nachdem ein Patient einen Herzinfarkt oder Schlaganfall erlitten hat, verwenden Ärzte häufig Risikomodelle, um ihre Behandlung zu steuern. Diese Modelle können das Sterberisiko eines Patienten basierend auf Faktoren wie Alter, Symptomen und anderen Merkmalen des Patienten berechnen.
Obwohl diese Modelle in den meisten Fällen nützlich sind, machen sie für viele Patienten keine genauen Vorhersagen, was dazu führen kann, dass Ärzte für einige Patienten unwirksame oder unnötig riskante Behandlungen wählen.
"Jedes Risikomodell wird anhand eines Datensatzes von Patienten bewertet, und selbst wenn es eine hohe Genauigkeit aufweist, ist es in der Praxis nie zu 100 Prozent genau", sagt Collin Stultz, Professor für Elektrotechnik und Informatik am MIT und ein Kardiologe am Massachusetts General Hospital. "Es wird einige Patienten geben, bei denen das Modell die falsche Antwort liefert, und das kann katastrophal sein."
Stultz und seine Kollegen vom MIT, dem MIT-IBM AI Lab und der University of Massachusetts Medical School haben nun eine Methode entwickelt, mit der sie feststellen können, ob den Ergebnissen eines bestimmten Modells für einen bestimmten Patienten vertraut werden kann. Dies könnte den Ärzten helfen, bessere Behandlungen für diese Patienten auszuwählen, sagen die Forscher.
Stultz, der auch Professor für Gesundheitswissenschaften und -technologie, Mitglied des Institute for Medical Engineering and Sciences and Research Laboratory of Electronics des MIT und assoziiertes Mitglied des Computer Science and Artificial Intelligence Laboratory ist, ist der Senior Autor der neuen Studie. Der MIT-Student Paul Myers ist der Hauptautor des Artikels, der heute in Digital Medicine erscheint.
Risikomodellierung
Computermodelle, die das Risiko eines Patienten für schädliche Ereignisse, einschließlich Tod, vorhersagen können, werden in der Medizin häufig eingesetzt. Diese Modelle werden häufig erstellt, indem maschinelle Lernalgorithmen trainiert werden, um Patientendatensätze zu analysieren, die eine Vielzahl von Informationen über die Patienten enth alten, einschließlich ihrer Gesundheitsergebnisse.
Obwohl diese Modelle insgesamt eine hohe Genauigkeit aufweisen, "wurde nur sehr wenig darüber nachgedacht, wann ein Modell wahrscheinlich ausfällt", sagt Stultz. "Wir versuchen, die Art und Weise zu verändern, wie Menschen über diese maschinellen Lernmodelle denken. Es ist wirklich wichtig, darüber nachzudenken, wann ein Modell angewendet werden sollte, da die Folgen eines Fehlers fatal sein können."
Zum Beispiel würde ein Patient mit hohem Risiko, der falsch klassifiziert wurde, keine ausreichend aggressive Behandlung erh alten, während ein Patient mit niedrigem Risiko, der fälschlicherweise als ein hohes Risiko eingestuft wurde, unnötige, potenziell schädliche Eingriffe erh alten könnte.
Um zu veranschaulichen, wie die Methode funktioniert, konzentrierten sich die Forscher auf ein weit verbreitetes Risikomodell namens GRACE-Risiko-Score, aber die Technik kann auf fast jede Art von Risikomodell angewendet werden. GRACE steht für Global Registry of Acute Coronary Events und ist ein großer Datensatz, der zur Entwicklung eines Risikomodells verwendet wurde, das das Sterberisiko eines Patienten innerhalb von sechs Monaten nach einem akuten Koronarsyndrom (einer Erkrankung, die durch eine verminderte Durchblutung des Herz). Die resultierende Risikobewertung basiert auf Alter, Blutdruck, Herzfrequenz und anderen leicht verfügbaren klinischen Merkmalen.
Die neue Technik der Forscher erzeugt einen "Unzuverlässigkeitswert", der von 0 bis 1 reicht. Je höher der Wert für eine bestimmte Risikomodellvorhersage, desto unzuverlässiger diese Vorhersage. Die Unzuverlässigkeitsbewertung basiert auf einem Vergleich der Risikovorhersage, die von einem bestimmten Modell, wie z. B. der GRACE-Risikobewertung, generiert wurde, mit der Vorhersage, die von einem anderen Modell erstellt wurde, das mit demselben Datensatz trainiert wurde. Wenn die Modelle unterschiedliche Ergebnisse liefern, ist die Vorhersage des Risikomodells für diesen Patienten wahrscheinlich nicht zuverlässig, sagt Stultz.
"Was wir in diesem Artikel zeigen, ist, wenn Sie sich Patienten mit den höchsten Unzuverlässigkeitswerten ansehen - in den obersten 1 Prozent -, liefert die Risikovorhersage für diesen Patienten die gleichen Informationen wie das Werfen einer Münze", sagt Stultz. „Für diese Patienten kann der GRACE-Score nicht zwischen denen unterscheiden, die sterben, und denen, die dies nicht tun. Er ist für diese Patienten völlig nutzlos.“
Die Ergebnisse der Forscher deuteten auch darauf hin, dass die Patienten, bei denen die Modelle nicht gut funktionieren, tendenziell älter sind und häufiger kardiale Risikofaktoren aufweisen.
Ein wesentlicher Vorteil der Methode besteht darin, dass die Forscher eine Formel abgeleitet haben, die angibt, wie sehr zwei Vorhersagen nicht übereinstimmen würden, ohne ein völlig neues Modell auf der Grundlage des ursprünglichen Datensatzes erstellen zu müssen.
"Sie brauchen keinen Zugriff auf den Trainingsdatensatz selbst, um diese Unzuverlässigkeitsmessung zu berechnen, und das ist wichtig, weil es Datenschutzprobleme gibt, die verhindern, dass diese klinischen Datensätze für verschiedene Personen allgemein zugänglich sind", sagt Stultz.
Modell neu trainieren
Die Forscher entwickeln jetzt eine Benutzerschnittstelle, die Ärzte verwenden könnten, um zu beurteilen, ob der GRACE-Score eines bestimmten Patienten zuverlässig ist. Langfristig hoffen sie auch, die Zuverlässigkeit von Risikomodellen zu verbessern, indem sie es einfacher machen, Modelle mit Daten neu zu trainieren, die mehr Patienten umfassen, die dem diagnostizierten Patienten ähnlich sind.
"Wenn das Modell einfach genug ist, kann das Nachtrainieren eines Modells schnell gehen. Sie können sich eine ganze Suite von Software vorstellen, die in die elektronische Patientenakte integriert ist und Ihnen automatisch mitteilt, ob ein bestimmter Risikowert für eine bestimmte Risikobewertung angemessen ist Geduld haben und dann versuchen, Dinge spontan zu erledigen, wie z. B. neue Modelle umzuschulen, die möglicherweise besser geeignet sind ", sagt Stultz.