Zusammenfassung:
Neue Ansätze der Nutzung künstlicher Intelligenz zur Analyse von Daten aus der Neurobildgebung, aber auch passiv gesammelter Daten von sogenannten “Wearables” wie Smartphones oder Smartwatches sowie Daten, die sich aus Social media-und anderen Online-Aktivitäten extrahieren lassen, ermöglichen es bereits heute, kognitive Fähigkeiten, Persönlichkeitsmerkmale und psychische Erkrankungen vorherzusagen sowie akute mentale Zustände offen zu legen. In diesem Beitrag erläutern wir die Hintergründe der aktuellen Entwicklung, leuchten ihre Möglichkeiten und Grenzen aus und gehen auf ethische und gesellschaftliche Aspekte ein, die sich aus der Nutzung ergeben.
Keywords: machine learning, precision medicine, prediction, ethics, biomarker, maschinelles Lernen, Präzisionsmedizin, Vorhersage, Ethik
Abstract
New approaches using artificial intelligence to analyze data from neuroimaging, but also passively collected data from so-called “wearables” such as smartphones or smartwatches, as well as data that can be extracted from social media and other online activities, already make it possible to predict cognitive abilities, personality traits, and mental illnesses, as well as to reveal acute mental states. In this article, we explain the methodological concepts behind these developments, illuminate its possibilities and limitations, and address ethical and social aspects arising from its use.
Einem bekannten Aphorismus zufolge – der häufig, aber wohl fälschlich Niels Bohr zugeschrieben wird – sind Prognosen stets schwierig, besonders, wenn sie die Zukunft betreffen. Was die Vorhersage von menschlichen Fähigkeiten, Persönlichkeitsmerkmalen und psychischen Erkrankungen betrifft, könnte sich dies bald ändern, was erhebliche Auswirkungen auf unser gesellschaftliches Zusammenleben haben und womöglich sogar unser Selbst- und Menschenbild grundlegend beeinflussen könnte. Hintergrund dieser Entwicklung sind neue Ansätze der Nutzung künstlicher Intelligenz zur Analyse von Daten aus der Neurobildgebung (strukturelle und funktionelle MRT, EEG) aber auch passiv gesammelter Daten von sogenannten “Wearables” wie Smartphones oder Smartwatches sowie Daten, die sich aus Social media- und anderen Online-Aktivitäten extrahieren lassen. Quasi als Nebenprodukt der klinisch-translationalen Forschung könnten diese Methoden es in absehbarer Zukunft erlauben, zuverlässig Rückschlüsse auf individuelle Eigenschaften, Fähigkeiten und Neigungen einer Person zu ziehen. Steht uns also – wie unter anderem bereits im Kontext genetischer Untersuchungen befürchtet – der „gläserne Mensch“ bevor? Oder werden erneut Risiken überzeichnet und unnötige Sorgen geweckt? Um diese Fragen zu beantworten, werden wir im Folgenden kurz die Hintergründe der aktuellen Entwicklung darlegen, ihre Möglichkeiten und Grenzen ausleuchten und dann auf zukünftige ethische und gesellschaftliche Aspekte eingehen.
Eine zentrale Herausforderung (nicht nur) in den klinischen Neurowissenschaften, ist die Identifikation von sogenannten Biomarkern, d.h. objektiv messbaren Parametern, welche in Zusammenhang mit einer Pathologie stehen und zur Diagnose, Prognoseabschätzung und Therapieüberwachung eingesetzt werden können [30]. In den letzten Jahrzehnten hat die Neurobildgebung zu einem immensen Wissenszuwachs hinsichtlich der strukturellen und funktionellen Veränderungen bei neurologischen und psychiatrischen Erkrankungen geführt. Das bisher die klinische Nutzung dieses Wissens jedoch nur eingeschränkt möglich war, liegt vor allem an Beschränkungen der Aussagekraft klassischer statistischer Verfahren. Methoden des Nullhypothesen-Testens, wie z.B. T-Tests oder Korrelationen, erlauben es grundsätzlich nur Aussagen darüber zu treffen, ob Unterschiede bzw. Zusammenhänge auf Gruppenebene so ausgeprägt sind, dass es unwahrscheinlich wäre, diesen Effekt per Zufall zu beobachten (siehe Abbildung 1). Eine in der Bildgebung beobachtete Reduktion des regionalen Gehirnvolumens beim M. Parkinson bedeutet daher nicht, dass alle oder auch nur die Mehrzahl der Parkinson-Patienten eine Atrophie aufweisen, sondern lediglich, dass der Unterschied zwischen dem mittleren Volumen dieser Region in der untersuchten Patientenstichprobe und dem mittleren Volumen der aktuellen Kontrollgruppe so groß war, dass es überraschend wäre, wenn diese aus derselben Grundgesamtheit stammen würden. Auch wenn dieses Wissen durchaus nützlich sein kann, erlaubt es doch keine Aussage über den Einzelfall und insbesondere nicht über neue, nicht in der Studie untersuchte Personen. Mit anderen Worten, gerade dort, wo man Biomarker bräuchte, nämlich bei Entscheidungen über zukünftige individuelle Patienten, stoßen die Ergebnisse klassischer statistischer Verfahren klar an ihre Grenzen [4].
Abbildung 1:
Exemplarische Darstellung der mangelnden Aussagekraft klassischer Statistik für individuelle Fälle. Ein hoch signifikanter Effekt (links, p<0.001) kann selbst dann vorliegen, wenn es eine relevante Überlappung der Verteilungen gibt (mitte) und daher keine individuelle Klassifikation möglich ist (rechts)
Genau in dieser Beziehung setzen Ansätze des maschinellen Lernens bzw. der künstlichen Intelligenz an. Anstatt, wie klassische Verfahren, Aussagen über die untersuchte Stichprobe zu treffen (“within-sample statistics”), liegt der Fokus auf der Identifikation von Mustern, die auf neue Einzelfälle generalisieren. Dieser Perspektivwechsel zu einer Evaluation der Modelle hinsichtlich ihrer Aussagekraft bei neuen Einzelfällen, welche nicht Teil des Trainigsdatensatzes waren (“out-of-sample evaluation”), führt zu einer grundlegenden Änderung der Aussagen sowie ihrer Anwendbarkeit. Anstelle von Effektstärken oder Signifikanzen, welche sich jeweils nur auf die jeweils untersuchte Gruppe beziehen, wird nun explizit getestet, wie hoch die Genauigkeit in einer neuen, unabhängigen Stichprobe ist, z.B. der Anteil der richtig diagnostizierten Fälle [29]. Andersherum bedeutet eine Evaluation an neuen Fällen aber auch, dass das Ziel der Algorithmen nicht primär eine möglichst genaue Beschreibung der vorhandenen Daten ist, was schnell zur Überanpassung führen kann, sondern die Identifikation von Zusammenhängen, die auf neue Einzelfälle generalisieren. Auch wenn eine universelle Definition von maschinellem Lernen gegenüber anderen statistischen Verfahren schwierig ist, so sehen wir die Überprüfung der Generalisierbarkeit eines Modelles, dessen Parameter von einem Algorithmus selbstständig auf Basis von Trainingsdaten generiert werden, an neuen Daten, d.h., den Perspektivwechsel von within-sample Maßen wie Anpassungsgüte oder erklärter Varianz zur out-of-sample-Validierung, als zentrales Unterscheidungsmerkmal an. Im Gegensatz zu Verfahren der klassischen Statistik steht nun nicht mehr die möglichst genaue Erfassung der vorliegenden Daten, sondern die möglichst gute Generalisierung auf neue Fälle im Mittelpunkt, was z.B. über das Phänomen des bias-variance trade-offs neue Herausforderungen mit sich bringt. Ergänzend sei gesagt, dass Methoden, die auf künstlichen (tiefen) neuronalen Netzwerken beruhen, zwar in vielen Anwendungsfeldern prägend für das heutige Feld sind, gerade im Bereich der Neurobildgebung jedoch weiterhin „klassische“ Machine-Learnung Verfahren (wie Support Vector Maschines, LASSO oder Relevance Vector Regression) mindestens ebenbürtig sind.
Dass maschinelles Lernen dabei fast gleichbedeutend mit multivariater Statistik ist, liegt darin begründet, dass einzelne Variablen nur in trivialen Fällen eine gute Trennung erlauben, bspw. wenn sie selbst das Diagnosekriterium darstellen. Auf der anderen Seite ist es jedoch so, dass das Zusammenspiel mehrerer, ggf. jeweils für sich nicht signifikanter, Variablen eine sehr gute Klassifikationsleistung erlauben kann. Das heißt, in den meisten Fällen ist es die Kombination mehrerer Parameter, die individuelle Aussagen über neue Fälle erlaubt. Das immense Potential multivariater Vorhersagen ist die Grundlage aller klinischen und nicht-klinischen Anwendungen, führt jedoch dazu, dass eine hierdurch getroffene Entscheidung nur schwer auf der Ebene einzelner Parameter “begründet” werden kann. Dies wird im nachfolgenden, sehr vereinfachten Beispiel (Abbildung 2) deutlich, in dem die Zuordnung zur Gruppe der Basketballspieler bzw. der Sumo-Ringer weder durch die Größe noch durch das Gewicht allein begründet werden kann, sondern nur durch eine Kombination beider Parameter. Hierbei sei darauf hingewiesen, dass dieses Beispiel zur Veranschaulichung bewusst extrem simple gewählt wurde, da nicht nur die Dimensionalität des Problems sehr niedrig ist, sondern auch eine lineare Trennung der beiden Gruppen möglich ist. Gerade bei nicht-linearen Verfahren, von Randm Forests bis zu tiefen neuronalen Netzwerken, ist die Problematik der Begründung einer Entscheidung noch einmal deutlich relevanter.
Abbildung 2:
Auch in Situationen, in denen keine einzelne Variable einen signifikanten Gruppenunterschied in der klassischen Statistik zeigt (links, mitte, in beiden Fällen p>0.1) und diese miteinander korrelieren, kann ihr gemeinsames Muster eine sehr genaue Zuordnung auch neuer, individueller Fälle erlauben (rechts).
Die sich immer noch sehr rasch entwickelnden Verfahren zur individuellen Vorhersage basierend auf einfach zu erhebenden Daten wie dem MRT [5], dem EEG [1] oder passiv gesammelter Informationen von Wearables bzw. Online-Aktivitäten [19] bieten ein immenses Potential in der Diagnostik, Therapieplanung und Prognoseabschätzung. Hierbei muss angemerkt werden, dass “Vorhersage” sich in diesem Zusammenhang nicht nur auf zukünftige Ereignisse bzw. Entwicklungen beziehen kann, sondern auch auf den aktuellen Zustand einer Person („nowcasting“). Die Diagnose einer Depression basierend auf der Auswertung von Smartphone-Daten oder die Diagnose eines chronischen Schmerzsyndroms basierend auf einem funktionellen MRT sind Vorhersagen im statistischen Sinne, da sie eine individuelle Eigenschaft (Diagnose) auf Grund anderer Parameter (Smartphone-Nutzung, MRT) “vorhersagen”. Dies bedeutet, dass der Begriff der „Vorhersage“ im Kontext des maschinellen Lernens eine andere, breitere Bedeutung hat als im allgemeinen Sprachgebrauch. Insbesondere wird die Zuordnung von Daten einer Person zu einer vordefinierten Begrifflichkeit (z.B. einer Persönlichkeitseigenschaft oder einer Diagnose) als eine Vorhersage der entsprechenden Zielvariable bezeichnet, wenn die entsprechenden Daten zum Training des Modells genutzt wurden. Hierdurch ist die Zielvariable dem Modell unbekannt und wird somit vorhergesagt. Der Begriff der Schätzung wäre womöglich treffender, wird im Kontext von Arbeiten zu maschinellem Lernen jedoch extrem selten verwendet.
Das Potential der Präzisionsmedizin mittels maschinellem Lernen auf hochdimensionalen Daten reicht von der früheren und sicheren (Differenzial-) Diagnose auf subtilen Mustern über objektive Aussagen über die individuelle Prognose basierend auf bisher nicht klinisch evidenter Pathophysiologie bis hin zur Vorhersage von Therapieansprechen über die Formalisierung der Erfahrungen großer Studien [7]. Alle diese Einsatzgebiete sind Gegenstand aktueller Forschung, wie sie auch an anderer Stelle in diesem Band dargestellt wird. Im Folgenden möchten wir uns demgegenüber auf einen speziellen Aspekt fokussieren, nämlich auf den objektiven Zugang zu mentalen Eigenschaften. Als klinisches Beispiel zur Verdeutlichung der Thematik soll zunächst die Diagnose chronischer Schmerzen dienen. Da Schmerz ein subjektiv erlebter mentaler Zustand ist, kann er nicht vom Arzt bzw. Untersucher direkt beurteilt werden. Gerade in Fällen ohne eindeutiges morphologisches Korrelat können verschiedene Untersucher auf Grund ihrer je eigenen Erfahrung, Ausbildung und Überzeugungen zu höchst unterschiedlichen Aussagen darüber kommen, wie glaubhaft die geschilderten Beschwerden sind. Verfahren des maschinellen Lernens könnten es nun erlauben, für das „innere Phänomen“ über eine individuelle Klassifikation ein objektives Substitut zu identifizieren und somit dem Beurteiler zugänglich zu machen [8]. Der phänomenal erlebte Schmerz bleibt zwar „von außen“ unzugänglich. Dennoch erhält man durch Verfahren des maschinellen Lernens eine objektive Größe, von der es plausibel ist anzunehmen, dass sie interindividuell vergleichbar ist. Wer dies grundsätzlich in Zweifel zieht, muss eine starke Unabhängigkeit mentaler von körperlichen Zuständen annehmen, die mit schwerwiegenden Begründungsproblemen konfrontiert ist. Die Tatsache, dass es einen privilegierten erstpersonalen Zugang zu (bestimmten) mentalen Phänomenen gibt – d.h., dass es „mein“ Schmerz ist, den ich erlebe – impliziert nicht, dass Schmerz ein gänzlich privater und unvergleichbarer Zustand ist. Wenn das so wäre, wäre jeder sprachliche Austausch darüber unmöglich oder, wie Wittgenstein bemerkt hat: „Ein ‚innerer’ Vorgang bedarf äußerer Kriterien.“ [31 (PU § 580)]
Auch in vielen nicht-klinischen Situationen müssen Entscheidungen getroffen werden, die auf der Einschätzung von mentalen Zuständen oder Eigenschaften einer Person beruhen. Ist ein Bewerber wirklich „offen für Neues, flexibel und anpassungsfähig“, wie im Lebenslauf angegeben? Hat sich ein Straftäter so weit geändert, dass keine Gefahr mehr von ihm ausgeht? Ungeachtet der Unterschiede, die zwischen diesen Beispielen sowie dem Fall des Schmerzpatienten ohne Zweifel bestehen, ist das zugrundeliegende Muster doch ähnlich: Gegenstand der Entscheidung ist immer eine dem Entscheider nicht direkt zugängliche „innere“ mentale Eigenschaft des Betroffenen. Der Personalmanager, der Arzt oder der Richter – sie alle müssen in den genannten Beispielen über einen Sachverhalt entscheiden, den sie nicht direkt überprüfen können. Oftmals kommt erschwerend hinzu, dass davon ausgegangen werden muss, dass die Betroffenen selbst ein Interesse an einer bestimmten Entscheidung haben: Der Bewerber möchte eingestellt werden, der Patient möchte eine Anerkennung seiner Beschwerden und der Straftäter möchte eine vorzeitige Entlassung. Dies beeinflusst die Darstellung ihres inneren Erlebens gegenüber dem Entscheider erheblich. Die Fähigkeit sich zu präsentieren, rhetorisches Talent und intellektuelle Möglichkeiten können das Ergebnis einer Begutachtung daher erheblich beeinflussen. Ein schier unüberschaubarer Markt an Ratgebern und Trainingsangeboten für „die erfolgreiche Bewerbung“ illustriert diesen Aspekt sehr gut.
Der Ansatz, anhand von großen Kohorten mit hochdimensionalen Daten (Features: MRT, EEG, Wearables) und bekannten Ergebnissen (Zielvariablen: Diagnose, Neuropsychologie, Langzeitverlauf) zunächst Machine-Learning Modelle zu trainieren, um dann Zielvariablen bei unbekannten Individuen allein basierend auf den Features vorhersagen können, bietet eine mögliche Lösung für das beschrieben Problem des mangelnden direkten Zugangs zu mentalen Zuständen und Eigenschaften. Die Entwicklung der Methodik und entsprechender Pipelines ist nämlich zunächst einmal völlig unabhängig von der inhaltlichen Fragestellung. Das heißt, Ansätze, die entwickelt werden um Diagnosen oder Prognosen zu erstellen, erlauben grundsätzlich die Vorhersage jeder Art von individuellen Eigenschaften und Fähigkeiten, Wesenszügen und Beschwerden – sofern nur entsprechende Trainingsdaten zur Verfügung stehen [27]. Basierend auf der deutlich höheren Verfügbarkeit von großen Kohorten nicht-klinischer Probanden (wie z.B. dem Human Connectome Project, der UK Biobank oder der ABCD Studie) entwickelt sich die Forschung im nicht-klinischen Bereich derzeit sogar deutlich schneller als diejenige an klinischen Stichproben. So kann schon heute das Alter einer Person auf Basis eines strukturellen MRT auf wenige Jahre genau geschätzt werden, wobei das „neurobiologische“ Alter einer Person einen engeren Bezug zu kognitiven Fähigkeiten hat als das chronologische [6]. Auch ist es bereits jetzt möglich, wenn auch noch mit begrenzter Genauigkeit, Rückschlüsse auf kognitiven Fähigkeiten wie Aufmerksamkeit und Gedächtnis, Persönlichkeitsmerkmale oder Temperament zu ziehen [22, 26]. Hierbei sollte noch einmal darauf hingewiesen werden, dass diese Ergebnisse keine generellen Zusammenhänge beschreiben, sondern spezifische Aussagen über eine neue, dem Algorithmus vorher nicht bekannte Person treffen, und zwar ohne, dass es eine aktive Beteiligung des Untersuchten braucht. Darüber hinaus können mittels verschiedener, auf die jeweilige Zielvariable trainierter, Modelle aus demselben Datensatz theoretisch beliebig viele unterschiedliche Aspekte vorhergesagt werden. Hierbei sei jedoch auf eine fundamentale Einschränkung hingewiesen, nämlich dass jede Vorhersage, d.h., jede Zuordnung einer Person zu einer bestimmten Begrifflichkeit oder die Zuschreibung einer Eigenschaft, von der Definition und der damit einhergehenden Testgütekriterien der Zielvariable abhängt. Die Qualität, und damit letztlich auch die Nützlichkeit, hängt immer mit davon ab, inwieweit das Zielkonstrukt objektiv, reliabel und valide erfasst werden kann. Gerade in Bezug auf Aspekte wie psychiatrische Diagnosen, Persönlichkeitseigenschaften oder auch Schmerzempfindung stellt sich dabei die Frage, ob diese überhaupt objektivierbar und dadurch messbar sind. Setzt man voraus, dass ihre Subjektivität konstituierend für diese Eigenschaften ist und es daher gar keine objektive Definition davon geben kann, was Schmerz oder Extraversion ist, wäre eine Untersuchung nicht nur unmöglich, sondern auch sinnlos. Wenn man jedoch davon ausgeht, dass psychologische Operationalisierungen (zweifellos individuelle) subjektiven Empfindungen ineinander überführbar machen, bieten die vorgestellten Ansätze eine sehr interessante Perspektive der Objektivierung und damit Validierung. Lassen sich die subjektiven Einschätzungen einer Person basierend auf neurobiologischen Markern mittels eines Modells vorhersagen, das an der Neurobiologie und den (ebenfalls subjektiven) Einschätzungen der für das Training genutzten Probanden mit guter Genauigkeit vorhersagen, so sollte man davon ausgehen können, dass das entsprechende Konstrukt neurobiologisch objektiviert werden kann.
Eröffnen diese Entwicklungen den Weg in eine objektivere und fairere Beurteilung von Patienten, Bewerbern und Probanden [12]? Oder wird durch diese neuen Verfahren vielmehr die Büchse der Pandora geöffnet? Und welchen Einfluss hat es auf unser Menschen- und Selbstbild, wenn bislang unzugängliche mentale Eigenschaften gleichsam „von außen“ beobachtet oder vorhergesagt werden können? Antworten auf diese Fragen werden sich erst im Laufe der Zeit und auf Grundlage praktischer Erfahrungen ergeben. Eine breite gesellschaftliche Diskussion sollte die Entwicklung aber begleiten und gegebenenfalls Fehlentwicklungen verhindern [10]. Für diese Diskussion möchten wir im Folgenden einige Anstöße geben.
Genauigkeit und Verantwortung:
Die Vorhersagegenauigkeit von Algorithmen muss immer mithilfe neuer Fälle bestimmt werden, dem sogenannten Testdatensatz. Ist dieser ausreichend groß, so erhält man zuverlässige Werte darüber, wie genau ein Algorithmus ist, d.h., wie präzise zum Beispiel eine neue depressive Episode vorhersagt werden kann. Es ist jedoch davon auszugehen, dass es sich bei vielen in der Literatur berichteten Genauigkeiten um optimistische Schätzungen handelt [11], da in der Regel prospektive Studien an unabhängigen, multizentrischen Kohorten fehlen. Klassifikationsraten von weit über 90% sind daher mit Vorsicht zu behandeln, vor allem solange für Algorithmen ein der Arzneimittelprüfung äquivalentes Verfahren fehlt [16]. In diesem Zusammenhang muss auch zwischen einem wissenschaftlich interessanten Nachweis einer Vorhersagbarkeit und einem im Alltag einsetzbaren Algorithmus unterschieden werden. So weist eine sauber ermittelte Klassifikationsgenauigkeit von z.B. 85% klar darauf hin, dass in den Features relevante und generalisierende Informationen über die Zielvariable enthalten waren. Ob dies für die klinische oder nicht-klinische Praxis relevant bzw. ausreichend ist, ist damit aber noch keineswegs gesagt. Wie hoch muss die Präzision eines Algorithmus sein, um darauf Entscheidungen für das Leben einer Person zu treffen?
Diese Frage wir wahrscheinlich noch länger offenbleiben, auch wenn man konstatieren kann, dass generell eher hohe Sicherheiten verlangt werden. Hierbei ist zu bedenken, dass sich auch Menschen irren – selbst dann, wenn es sich um Experten handelt. Sollten für künstliche Intelligenz höhere Maßstäbe angelegt werden und, falls ja, warum? Eine mögliche Antwort auf diese Frage lautet, dass mit der Präzision der Vorhersageleistung auch der Anspruch an diese steigt. Kaum jemand wird sagen können, ob ein bestimmter Arzt in 50%, 80% oder 99% seiner Einschätzungen richtig liegt. Im Gegensatz zur messbaren Genauigkeit eines Algorithmus neigen wir aber oft dazu, einem Menschen, dessen Genauigkeit wir nicht kennen können, einen Vertrauensvorschuss zu geben Das muss nicht unbedingt falsch sein. Ein Arzt (Personalmanager oder Richter) gründet seine Diagnose nämlich stets auf einem umfassenden Eindruck, in den sehr viele Informationen, Beobachtungen, und Eindrücke einfließen. Dieser „holistische“ Blick kann Ungereimtheiten und Inkonsistenzen zu Tage fördern, die einem Algorithmus verborgen blieben – oder sogar verborgen bleiben müssen, wenn sie in den Trainingsdaten nicht erfasst wurden [23]. Darüber hinaus kann es vorkommen, dass die Trainingsdaten unbemerkte subtile Verzerrungen enthalten, die zu dramatischen Fehleinschätzungen führen können. Während Algorithmen somit Einschätzung innerhalb gegebener Rahmenbedingungen teilweise deutlich genauer als Menschen treffen können, sollten letztere in ungewöhnlichen Konstellationen durch eine stärkere Einbindung des Kontextes weniger fehleranfällig sein. Ein gutes Beispiel für beide Aspekte ist die Melanom-Diagnose durch tiefe neuronale Netzwerke [9], welche bessere Ergebnisse als die meisten Dermatologen liefert, jedoch durch Markierungen neben verdächtigen Muttermalen massiv getäuscht und zu Fehldiagnosen verleitet wird [21].
Zusätzlich zu diesen objektiven Gründen, warum Algorithmen den Vertrauensvorschuss menschlicher Ärzte (oder anderer Entscheider) über eine höhere Präzision ausgleichen müssen, spielen auch psychologische Aspekte der Akzeptanz eine Rolle. Diese beruhen darauf, dass ein Arzt seinem Patienten erklärt, auf welchen Informationen und Beobachtungen, die der Patient an sich selbst nachvollziehen kann, er seine Schlussfolgerungen zieht. Ein Gutachter kann seine Gedankengänge und Schlussfolgerungen darlegen, was es wiederum dem Richter ermöglicht, die Entscheidung mit seinen eigenen Erfahrungen und Wissen abzugleichen. Diese „Möglichkeit der Erklärung“ kann Fehleinschätzungen verhindern, fehlt Algorithmen weitgehend [18]. Ein Entscheider kann die Vorhersage eines Algorithmus nur akzeptieren oder ablehnen, er kann aber keine kritischen Rückfragen stellen und wird daher auf einer höheren Genauigkeit bestehen. Um falsche Diagnosen oder Prädiktionen zu vermeiden, scheint es daher gesellschaftlich notwendig, dass KI-Systeme nicht nur eine hohe Genauigkeit aufweisen, sondern stets auch in eine umfassendere Urteilsbildung eingebunden werden. Diese würde dann die Präzision der Algorithmen mit dem holistischen Überblick eines menschlichen Entscheiders, wie z.B. eines Arztes, verbinden.
Ähnlich wie im Kontext des autonomen Fahrens bringt ein solches „shared decision making“ aber auch im medizinischen Kontext große Herausforderungen mit sich [3, 14]. Dies gilt insbesondere dann, wenn die Entscheidungsfindung für Menschen nicht mehr nachvollziehbar ist. Dem Problem mangelnder Nachvollziehbarkeit widmet sich das derzeit intensiv beforschte Feld der “explainable AI”, also erklärender bzw. erklärbarer Algorithmen. Allein die Komplexität hochdimensionaler Entscheidungen wird ein unvermitteltes Nachvollziehen von algorithmischen Entscheidungen auf Dauer sehr schwierig, wenn nicht unmöglich machen. Trotz interessanter Ansätze für erklärbare KI, stellt sich somit die Frage nach der Verantwortung für Fehlentscheidungen im Rahmen eines „shared decision making“. Während Fragen der Verantwortung im medizinischen Bereich bisher juristisch klar geregelt sind, wäre die rechtliche Verantwortung für eine per KI gestellte Fehldiagnose weitgehend unklar, insbesondere auch hinsichtlich der strafrechtlichen Folgen [13]. Schon aus diesem Grund ist eine autonome medizinische KI in absehbarer Zeit kaum vorstellbar. Doch wie sollte die Verantwortung verteilt werden, wenn ein Arzt und ein Algorithmus gemeinsam agieren? In einem solchen Kontext ist davon auszugehen, dass der Arzt auch weiterhin für die finale Entscheidung verantwortlich bleibt. Es erscheint jedoch durchaus denkbar, dass in Zukunft in immer stärkerem Maße Ergebnisse automatisierter Verfahren berücksichtigen werden müssen. Dies gilt insbesondere für den Fall, dass diese Eingang in entsprechende Leitlinien finden, möglicherweise analog zur heutigen Labordiagnostik [16]. Allerdings wird es gerade in diesem Kontext notwendig sein, über Ansätze der „explainable AI“ eine Rückverfolgung von Fehlern zu ermöglichen. Letztendlich wird es darauf ankommen, weder unüberbrückbare Verantwortungslücken [20] aufkommen zu lassen, noch die Entscheidungsgewalt und Verantwortung des Arztes zu entkoppeln.
Proliferation und Privatsphäre:
Ein anderer, wichtiger Aspekt der Forschung zu künstlicher Intelligenz besteht darin, dass die oben beschriebenen Methoden generisch sind, d.h. die Zielvariablen können verhältnismäßig einfach durch andere ersetzt werden, solange entsprechende Trainingsdaten mit Features und bekannten Zielvariablen zur Verfügung stehen. Daraus folgt, dass die technische Entwicklung von Methoden zur individuellen Diagnostik und Prädiktion basierend auf Neurobildgebung, Wearables oder anderen Daten moralisch durchaus ambivalent ist [15]. In diesem Zusammenhang möchten wir anmerken, dass Neuerungen an den Lernalgorithmen per se selten im medizinischen Kontext stattfinden, sondern in der Regel sogar frei von spezifischen Anwendungen. Anders sieht es bei Entwicklungen der vollständigen Pipelines aus. Diese beinhalten neben dem eigentlichen Lernalgorithmen nicht nur sämtliche Schritte der Vorverarbeitung und der Datenrepräsentation, sondern auch die für die jeweilige Anwendung notwendige Ausarbeitung der Modellarchitektur bzw. die Auswahl geeigneter Parameter für ein effektives Training und eine gute Generalisierung und sind in der Regel domänen-spezifisch. Modellarchitekturen und Workflows zur objektiven Diagnose eines chronischen Schmerzsyndroms oder der Vorhersage des weiteren Verlaufes einer MS können dabei die Grundlage für Algorithmen bieten, welche das Umsatzpotenzial eines Vertrieblers, die Gewaltbereitschaft eines Straftäters oder die Wahrscheinlichkeit einer unerwünschten politischen Betätigung vorhersagen (für eine detailiertere Diskussion am Beispiel des gewaltbereiten Verhaltens siehe [24]). Wenn wir uns eine bessere Versorgung neurologischer oder psychiatrischer Patienten über innovative Diagnostik und präzisere Abschätzung der Prognose wünschen, wird die parallele Entwicklung solcher Anwendungen kaum zu vermeiden sein. Um so wichtiger ist es daher, die praktischen und moralischen Grenzen der Verfahren genauer auszuloten.
So ist zwar die Vorhersage einer neuen Zielvariable mit einer bereits optimierten Modellarchitektur technisch relativ einfach. Der Aufwand, Daten von hunderten oder gar tausenden von Personen zu erheben und diese anschließend über Monate oder Jahre nachzuverfolgen, um die Zielvariable zu beobachten, ist hingegen enorm. Ohne große, sauber erhobene Datensätze ist eine gute Leistung von Algorithmen aber nicht zu erzielen. Hinzu kommt, dass der Einfluss von Zufällen und bewussten Änderungen des Verhaltens immer größer wird, je weiter eine Vorhersage in die Zukunft reicht: Ein Straftäter wird eine deutlich niedrigere Rückfallwahrscheinlichkeit haben, wenn sich sein soziales Umfeld verbessert. Eine Person, die auf Grund der aktuellen Datenlage ein sehr hohes Risiko hat, in den nächsten zehn Jahren einen Schlaganfall zu erleiden, kann dieses Risiko durch eine bewusste Änderung des Lebensstiles erheblich senken. Das heißt, unabhängig von Fragestellung und Verfahren erweitert sich mit zunehmender Ferne der Vorhersage unweigerlich auch der „prädiktive Trichter“ bis hin zur allgemeinen Hintergrundwahrscheinlichkeit. Im Gegensatz zu einem Arzt, Personalmanager oder Richter, der bewusst oder unbewusst seine Aussagen immer unschärfer halten wird, je weiter sie in die Zukunft blicken, fehlt den heutigen Algorithmen noch eine entsprechende Vorsicht. Um Algorithmen verantwortungsvoll zu nutzen, gilt es mithin, solche Einschränkungen zu bedenken und den Entscheidern sowie Betroffenen offen zu legen. Vor allem müssen die Menge und Qualität von Trainingsdaten sowie die zeitliche Weite und Anfälligkeit von Vorhersagen explizit gemacht werden, um Ergebnisse richtig einordnen zu können [11, 29].
Ein letzter Aspekt, der in diesem Zusammenhang noch verhältnismäßig wenig Aufmerksamkeit erhält, jedoch kritisch für die zukünftige Gestaltung der Gesellschaft werden könnte, ist die mögliche Proliferation des Vorhersageraums. Ähnlich wie eine genetische Testung berührt die Vorhersage individueller Eigenschaften auf Basis von MRT-Bildern oder Smartphone-Daten einen höchstpersönlichen Lebensbereich, da sie Einblicke in persönliche Neigungen und Fähigkeiten geben kann [8, 10, 13]. Ähnlich wie bei der Genetik ist das mögliche Potential einmal erhobener Daten nicht abzuschätzen [28]. Auf Basis eines alten MRT Scans, der auf Grund eines ganz anderen Anlasses gemacht wurde, könnten sich in Zukunft vielleicht Dinge vorhersagen lassen, an die der Betroffene nie zuvor gedacht hat. Mittels der Aktionsprofile eines Smartphones lassen sich möglicherweise in Zukunft noch viel persönlichere Informationen gewinnen, als es zum Zeitpunkt der Datenerhebung möglich war. Wenn man bedenkt, wie bereitwillig persönliche Daten einschließlich genetischen Materials mit privaten Firmen geteilt wird, ist im schlimmsten Fall sogar ein florierender Zweitmarkt für prädiktives Material denkbar. Soll dies grundsätzlich möglich sein und wenn ja, unter welchen genauen Bedingungen? Wer sollte hierüber entscheiden? Hierzu scheint eine gesellschaftliche Diskussion entlang der im nächsten Abschnitt angerissenen Rahmenbedingungen nötig.
Selbstbestimmung und Menschenbild:
Es ist in pluralen Gesellschaften schwierig, ohne Weiteres von einem allgemein anerkannten und geteilten Menschenbild auszugehen. Unstreitig dürfte aber sein, dass es eine Reihe von ethischen Prinzipien gibt, die umreißen, welche normativen Erwartungen wir an andere, aber auch an uns selbst stellen. Zu diesen Prinzipien gehören u. a. Selbstbestimmung, Nichtschaden, Wohltun und Gerechtigkeit [2]. Es ist seit langem anerkannt, dass Selbstbestimmung auch das Recht auf informationelle Selbstbestimmung umfasst. Dies gilt es bei der Entwicklung und Anwendung von künstlicher Intelligenz grundsätzlich zu bedenken, insbesondere wenn es um die Vorhersage von mentalen Zuständen und Eigenschaften geht. Es ist die betroffene Person selbst, die entscheiden muss, ob Daten genutzt werden dürfen, um Wissen über sie zu erlangen. Dies gilt auch und vor allem, wenn die Daten – wie oben beschrieben – ursprünglich in einem gänzlich anderen Kontext erhoben wurden. Natürlich kann das Prinzip der Selbstbestimmung unter Umständen gegen andere gleichrangige Prinzipien oder auch die Selbstbestimmung eines anderen abgewogen und auf diese Weise eingeschränkt werden. Die Debatte über prädiktive genetische Test, die in den späten 1990er und 2000er Jahren intensiv geführt wurde und schließlich in Deutschland zu einer gesetzlichen Regelung (Gendiagnostikgesetz – GenDG vom 31. Juli 2009) geführt hat, zeigt allerdings, dass das Recht auf informationelle Selbstbestimmung hoch zu veranschlagen ist [25]. Auch indirekter Zwang kann problematisch sein, bspw. wenn ein Unternehmen im Zuge eines Einstellungsverfahrens anbietet, entsprechende KI-basierte Verfahren einzusetzen und zu verstehen gibt, dass die Wahrscheinlichkeit einer Einstellung damit steigt. Die Algorithmen-gestützten Bewertung von Rückfallwahrscheinlichkeiten von Kriminellen ist in den USA längst gängige Praxis, wird dort allerdings nach wie vor durchaus kontrovers diskutiert, nicht zuletzt, weil es womöglich Verzerrungen in den Trainingsdaten gibt, die ihren Ursprung in gesellschaftlichen Missständen haben [17]. Besonders heikel wird es, wenn Daten aus Online-Aktivitäten zur Analyse verwendet werden, die vielfach vergleichsweise leicht zugänglich sind. Es ist noch weitgehend ungeklärt, wie bzw. unter welchen Bedingungen Diagnosen und Prädiktionen auf dieser Grundlage ethisch vertretbar sein könnten. Unser mentales Innenleben stellt jedenfalls einen besonders sensiblen Bereich dar, der vor dem Zugriff durch Dritte geschützt sein muss und nur mit unserer ausdrücklichen Zustimmung zum Gegenstand von Untersuchungen gemacht werden darf. Ein verantwortungsvoller Umgang mit künstlicher Intelligenz muss dieses rudimentäre Menschenbild, das durch einige ethische Prinzipien konstituiert wird, unbedingt respektieren. Oder anders formuliert, KI muss „vertrauenswürdige“ sein, wie es die Expertengruppe für künstliche Intelligenz 2019 in Ihren Ethik-Leitlinien dargelegt hat (https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai).
Fazit für die Praxis
KI-basierte Verfahren zur Prädiktion von kognitiven Fähigkeiten, Persönlichkeitsmerkmalen und psychischen Erkrankungen sowie auch zur Vorhersage von mentalen Zuständen bieten vielfältige Möglichkeiten und Chancen. Sie können in vielen Bereichen helfen, genauere und objektivere Aussagen über Phänomene zu treffen, die lange Zeit nur indirekt zugänglich und ungenau zu beurteilen waren. Nicht nur in der Medizin kann dies einen erheblichen nutzen für Patienten bringen. Auch in anderen Lebensbereichen können solche Verfahren sinnvoll eingesetzt werden. Gleichzeitig besteht die Gefahr eines „vorhersagbaren Menschen“, dem es nicht mehr möglich ist, sein mentales Innenleben vor dem Zugriff durch Dritte effektiv zu schützen. Neben der weiteren Erforschung der technischen Verfahren bedarf es daher auch einer gründlichen und gesellschaftlich breiten Diskussion geeigneter Rahmenbedingungen für den Einsatz von KI. Die etablierten ethischen Prinzipien der (informationellen) Selbstbestimmung, des Nichtschadens, Wohltuns und der Gerechtigkeit bieten dazu eine grundlegende Orientierung. Zudem kommt der Erklärbarkeit von algorithmischen Ergebnissen eine wichtige Funktion zu. Nur wenn Anwender und Betroffene – sicher in unterschiedlichem Maße – verstehen, wie und zu welchen Vorhersagen KI-Systeme kommen, können diese auf verantwortungsvolle Weise für wichtige Entscheidungen genutzt werden.
Biography

Footnotes
Interessenkonflikt: Die Autoren geben an, dass kein Interessenkonflikt vorliegt. Das vorliegende Manuskript enthält keine Studien an Menschen und/oder Tieren.
Literaturverzeichnis
- 1.Barros C, Silva CA, Pinheiro AP (2021) Advanced EEG-based learning approaches to predict schizophrenia: Promises and pitfalls. Artif Intell Med 114:102039. 10.1016/j.artmed.2021.102039 [DOI] [PubMed] [Google Scholar]
- 2.Beauchamp TL, Childress JF (2019) Principles of Biomedical Ethics. Oxford University Press [Google Scholar]
- 3.Begley K, Begley C, Smith V (2021) Shared decision-making and maternity care in the deep learning age: Acknowledging and overcoming inherited defeaters. J Eval Clin Pract 27:497–503. 10.1111/jep.13515 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 4.Bzdok D, Ioannidis JPA (2019) Exploration, Inference, and Prediction in Neuroscience and Biomedicine. Trends Neurosci 42:251–262. 10.1016/j.tins.2019.02.001 [DOI] [PubMed] [Google Scholar]
- 5.Chen J, Patil KR, Weis S et al. (2020) Neurobiological Divergence of the Positive and Negative Schizophrenia Subtypes Identified on a New Factor Structure of Psychopathology Using Non-negative Factorization: An International Machine Learning Study. Biol Psychiatry 87:282–293. 10.1016/j.biopsych.2019.08.031 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 6.Cole JH, Franke K (2017) Predicting Age Using Neuroimaging: Innovative Brain Ageing Biomarkers. Trends Neurosci 40:681–690. 10.1016/j.tins.2017.10.001 [DOI] [PubMed] [Google Scholar]
- 7.Dwyer DB, Falkai P, Koutsouleris N (2018) Machine Learning Approaches for Clinical Psychology and Psychiatry. Annu Rev Clin Psychol 14:91–118. 10.1146/annurev-clinpsy-032816-045037 [DOI] [PubMed] [Google Scholar]
- 8.Eickhoff SB, Langner R (2019) Neuroimaging-based prediction of mental traits: Road to utopia or Orwell? PLoS Biol 17:e3000497. 10.1371/journal.pbio.3000497 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 9.Esteva A, Kuprel B, Novoa RA et al. (2017) Dermatologist-level classification of skin cancer with deep neural networks. Nature 542:115–118. 10.1038/nature21056 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 10.Farah MJ (2002) Emerging ethical issues in neuroscience. Nat Neurosci 5:1123–1129. 10.1038/nn1102-1123 [DOI] [PubMed] [Google Scholar]
- 11.Flint C, Cearns M, Opel N et al. (2021) Systematic misestimation of machine learning performance in neuroimaging studies of depression. Neuropsychopharmacology 46:1510–1517. 10.1038/s41386-021-01020-7 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 12.Gabrieli JDE, Ghosh SS, Whitfield-Gabrieli S (2015) Prediction as a humanitarian and pragmatic contribution from human cognitive neuroscience. Neuron 85:11–26. 10.1016/j.neuron.2014.10.047 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 13.Gerke S, Minssen T, Cohen G (2020) Ethical and legal challenges of artificial intelligence-driven healthcare. In: Artificial Intelligence in Healthcare. Elsevier, S 295–336 [Google Scholar]
- 14.Gordon L, Grantcharov T, Rudzicz F (2019) Explainable Artificial Intelligence for Safe Intraoperative Decision Support. JAMA Surg 154:1064–1065. 10.1001/jamasurg.2019.2821 [DOI] [PubMed] [Google Scholar]
- 15.Greely HT, Ramos KM, Grady C (2016) Neuroethics in the Age of Brain Projects. Neuron 92:637–641. 10.1016/j.neuron.2016.10.048 [DOI] [PubMed] [Google Scholar]
- 16.Hedderich DM, Eickhoff SB (2021) Machine learning for psychiatry: getting doctors at the black box? Mol Psychiatry 26:23–25. 10.1038/s41380-020-00931-z [DOI] [PMC free article] [PubMed] [Google Scholar]
- 17.Heinrichs B (2021) Discrimination in the age of artificial intelligence. AI & Soc. 10.1007/s00146-021-01192-2 [DOI] [Google Scholar]
- 18.Heinrichs B, Eickhoff SB (2020) Your evidence? Machine learning algorithms for medical diagnosis and prediction. Hum Brain Mapp 41:1435–1444. 10.1002/hbm.24886 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 19.Kim H, Lee S, Lee S et al. (2019) Depression Prediction by Using Ecological Momentary Assessment, Actiwatch Data, and Machine Learning: Observational Study on Older Adults Living Alone. JMIR Mhealth Uhealth 7:e14149. 10.2196/14149 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 20.Matthias A (2004) The responsibility gap: Ascribing responsibility for the actions of learning automata. Ethics Inf Technol 6:175–183. 10.1007/s10676-004-3422-1 [DOI] [Google Scholar]
- 21.Narla A, Kuprel B, Sarin K et al. (2018) Automated Classification of Skin Lesions: From Pixels to Practice. Journal of Investigative Dermatology 138:2108–2110. 10.1016/j.jid.2018.06.175 [DOI] [PubMed] [Google Scholar]
- 22.Nostro AD, Müller VI, Varikuti DP et al. (2018) Predicting personality from network-based resting-state functional connectivity. Brain Struct Funct 223:2699–2719. 10.1007/s00429-018-1651-z [DOI] [PMC free article] [PubMed] [Google Scholar]
- 23.Obermeyer Z, Powers B, Vogeli C, Mullainathan S (2019) Dissecting racial bias in an algorithm used to manage the health of populations. Science 366:447–453. 10.1126/science.aax2342 [DOI] [PubMed] [Google Scholar]
- 24.Poldrack RA, Monahan J, Imrey PB et al. (2018) Predicting Violent Behavior: What Can Neuroscience Add? Trends Cogn Sci 22:111–123. 10.1016/j.tics.2017.11.003 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 25.Propping P, Aretz S, Schumacher J et al. (2006) Prädiktive genetische Testverfahren naturwissenschaftliche, rechtliche und ethische Aspekte. Alber, Freiburg [Google Scholar]
- 26.Rosenberg MD, Scheinost D, Greene AS et al. (2020) Functional connectivity predicts changes in attention observed across minutes, days, and months. Proc Natl Acad Sci U S A 117:3797–3807. 10.1073/pnas.1912226117 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 27.Scheinost D, Noble S, Horien C et al. (2019) Ten simple rules for predictive modeling of individual differences in neuroimaging. Neuroimage 193:35–45. 10.1016/j.neuroimage.2019.02.057 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 28.Tavani HT (2004) Genomic research and data-mining technology: implications for personal privacy and informed consent. Ethics Inf Technol 6:15–28. 10.1023/b:etin.0000036156.77169.31 [DOI] [PubMed] [Google Scholar]
- 29.Varoquaux G (2018) Cross-validation failure: Small sample sizes lead to large error bars. Neuroimage 180:68–77. 10.1016/j.neuroimage.2017.06.061 [DOI] [PubMed] [Google Scholar]
- 30.Woo C-W, Chang LJ, Lindquist MA, Wager TD (2017) Building better biomarkers: brain models in translational neuroimaging. Nat Neurosci 20:365–377. 10.1038/nn.4478 [DOI] [PMC free article] [PubMed] [Google Scholar]
- 31.Wittgenstein L (1984) Tractatus logico-philosophicus / Tagebücher 1914–1916 / Philosophische Untersuchungen (Werkausgabe, Band 1). Suhrkamp, Frankfurt am Main. [Google Scholar]


