
In einer aufschlussreichen Entwicklung, die die Zuverlässigkeit von künstlicher Intelligenz im Gesundheitswesen infrage stellt, hat eine neue Studie einen erheblichen Mangel in den Google-Übersichten identifiziert. Die generative KI (Generative AI)-Funktion, die Suchergebnisse oben auf der Seite zusammenfasst, wurde dabei festgestellt, dass sie bei gesundheitsbezogenen Anfragen häufiger YouTube zitiert als jede etablierte medizinische Webseite. Diese Abhängigkeit von nutzergenerierten Videoinhalten, zusammen mit dokumentierten Fällen von „völlig falschen“ medizinischen Ratschlägen, veranlasst Expert:innen, vor einem wachsenden Risiko für die öffentliche Gesundheit zu warnen.
Die Kontroverse hebt eine kritische Spannung in der KI-Branche hervor: den Konflikt zwischen der Zugänglichkeit generativer Suche und der strengen Genauigkeit, die für „Your Money or Your Life“ (YMYL) erforderlich ist. Für Fachleute aus den Bereichen KI und SEO bieten die Ergebnisse eine drastische Fallstudie zu den Grenzen der Retrieval-unterstützten Generierung (Retrieval-Augmented Generation, RAG), wenn sie ohne ausreichende Schutzmaßnahmen auf sensible Bereiche angewendet wird.
Der Kern der Kontroverse ergibt sich aus einer umfassenden Analyse von SE Ranking, einer Plattform für Suchmaschinenoptimierung. Die Studie analysierte über 50.000 gesundheitsbezogene Suchanfragen in Deutschland, um die Quellen zu bestimmen, die Googles AI-Übersichten speisen. Die Ergebnisse waren für viele in der medizinischen Gemeinschaft unerwartet: YouTube erwies sich als die am häufigsten zitierte Domain.
Laut den Daten entfielen 4,43% aller Zitate in den analysierten AI-Übersichten auf YouTube. Obwohl dieser Prozentsatz isoliert betrachtet klein erscheinen mag, übertraf er jede andere einzelne Quelle, einschließlich großer Krankenhausnetzwerke, staatlicher Gesundheitsportale und akademischer Institutionen. Zum Vergleich: Die zweitmeistzitierte Quelle war ein deutscher Sender, gefolgt von den renommierten MSD Manuals.
Die Forschenden argumentierten, dass diese Verteilung problematisch ist, weil YouTube im Kern eine allgemein zugängliche Video-Plattform ist. Im Gegensatz zu peer‑reviewten medizinischen Fachzeitschriften oder staatlichen Gesundheitsseiten steht das Content-Ökosystem von YouTube allen offen – von zertifizierten Chirurgen über Wellness-Influencer bis hin zu nicht verifizierten Creator:innen. Zwar existieren auf der Plattform wertvolle medizinische Inhalte, doch scheint die algorithmische Präferenz für videos mit hoher Interaktion in die KI-Zusammenfassungen einzufließen, die eigentlich faktische Gesundheitsantworten liefern sollen.
Tabelle 1: Häufigste zitierte Quellen in Google AI-Übersichten für Gesundheitsanfragen
| Source Domain | Percentage of Citations | Source Category |
|---|---|---|
| YouTube.com | 4.43% | User-Generated Video Platform |
| NDR.de | 3.04% | Public Broadcaster (News/Media) |
| MSDManuals.com | 2.08% | Professional Medical Reference |
| Apotheken-umschau.de | 1.85% | Health Magazine/Portal |
| Netdoktor.de | 1.56% | Health Information Portal |
Die Diskrepanz wird bei Aggregation noch besorgniserregender. Die Studie stellte fest, dass akademische Fachzeitschriften und staatliche Gesundheitsinstitutionen – wohl die Goldstandards für medizinische Genauigkeit – zusammen nur etwa 1 % aller Zitate ausmachten. Das legt nahe, dass die Auswahlkriterien der KI stark zugunsten von Inhaltsbeliebtheit, Zugänglichkeit und multimedialer Interaktion gewichtet sein könnten statt strenger medizinischer Autorität.
Die Gefahr liegt Expert:innen zufolge nicht nur in der Quelle der Informationen, sondern auch in der Darbietung. AI-Übersichten präsentieren Informationen mit dem, was Forschende als „confident authority“ beschreiben. Die Zusammenfassungen sind oft in definitiver, objektiver Sprache verfasst, die den Ton eines Arztes oder eines medizinischen Nachschlagewerks nachahmt. Diese Darstellung kann Nutzer:innen in eine falsche Sicherheit wiegen und davon abhalten, die Informationen durch einen Klick auf die zugrundeliegenden Quellen zu überprüfen.
Jüngste Untersuchungen haben alarmierende Beispiele dieser „selbstsicheren“ Fehlinformationen aufgedeckt. In einem besonders gefährlichen Fall empfahl Googles AI-Übersicht Patient:innen mit Bauchspeicheldrüsenkrebs, fettreiche Nahrungsmittel zu vermeiden. Mediziner:innen wiesen schnell darauf hin, dass dieser Rat oft genau das Gegenteil dessen ist, was für solche Patient:innen empfohlen wird, da sie häufig Schwierigkeiten haben, ihr Gewicht zu halten und auf kalorienreiche, fettreiche Kost angewiesen sind. Das Befolgen solcher Ratschläge könnte den körperlichen Verfall potenziell beschleunigen.
Ein anderer Fall betraf Anfragen zu Leberfunktionswerten. Die KI lieferte „gefälschte“ Informationen zu normalen Referenzbereichen für Leberblutwerte. Entscheidend war, dass die KI keinen Kontext wie Alter, Geschlecht oder ethnische Herkunft berücksichtigte – Faktoren, die erheblich beeinflussen, was als „normal“ gilt. Indem sie eine einzige, generische Wertefolge als endgültige Antwort präsentierte, könnte die KI gesunde Personen zu der Annahme verleiten, sie seien krank, oder umgekehrt Menschen mit schwerer Lebererkrankung dazu bringen, ihre Symptome zu verharmlosen.
Tabelle 2: dokumentierte Fälle von medizinischer Fehlinformation durch KI
| Medical Topic | AI Overview Advice | Expert Medical Consensus | Potential Risk Factor |
|---|---|---|---|
| Pancreatic Cancer Diet | Advised patients to avoid high-fat foods. | Patients often need high-fat/calorie diets to prevent weight loss. | Malnutrition, accelerated physical decline. |
| Liver Function Tests | Provided generic "normal" ranges without context. | Normal ranges vary by age, sex, and ethnicity. | False positives (anxiety) or false negatives (missed diagnosis). |
| Kidney Stones | Suggested drinking urine (historical hallucination). | Hydration with water is the standard treatment. | Infection, toxicity, worsening of condition. |
Als Reaktion auf diese Bedenken hat Google die Integrität seiner AI-Übersichten verteidigt. Ein Unternehmenssprecher erklärte, die Funktion sei darauf ausgelegt, hochwertige Inhalte aus seriösen Quellen unabhängig vom Format hervorzuheben. Google betonte, dass die „Implikation, AI-Übersichten würden unzuverlässige Informationen liefern, durch die Daten des Berichts widerlegt werde.“
Google verwies auf einen konkreten Teil der SE Ranking-Daten und stellte fest, dass unter den 25 am häufigsten zitierten YouTube-Videos 96 % von medizinischen Kanälen wie Krankenhäusern, Kliniken und Gesundheitsorganisationen stammten. Das Unternehmen argumentiert, dass allein weil die Quelle YouTube ist, der Inhalt nicht zwangsläufig unzuverlässig sei. Viele führende Gesundheitseinrichtungen, wie die Mayo Clinic und die Cleveland Clinic, unterhalten umfangreiche YouTube-Kanäle, um breitere Zielgruppen zu erreichen.
Die Forschenden hinter der Studie mahnten jedoch zur Vorsicht gegenüber dieser Verteidigung. Während die Top 25 Videos verifiziert sein mögen, stellen sie nur einen „winzigen Anteil“ – weniger als 1 % – der tausenden von YouTube-Links dar, die von der KI zitiert werden. Die „lange Schwanz“-Verteilung der Zitate bleibt größtenteils unverifiziert. Wenn die KI ein Video eines Wellness-Influencers, der eine pseudowissenschaftliche Heilung bewirbt, aufgrund von Millionen Aufrufen und hoher Interaktion abruft, bleibt das Schadenspotenzial erheblich. Die Forschenden merkten an, dass Sichtbarkeit und Popularität offenbar zentrale Treiber für Gesundheitswissen im Algorithmus sind und in weniger häufigen Anfragen medizinische Zuverlässigkeit überlagern könnten.
Für KI-Entwickler:innen und SEO-Spezialist:innen unterstreicht diese Situation die immense Schwierigkeit, die YMYL (Your Money or Your Life)-Herausforderung mit generativen Modellen zu lösen. Jahrelang haben Googles traditionelle Suchalgorithmen strengere Ranking-Signale für Gesundheits- und Finanzthemen angewendet und dabei E-E-A-T (Erfahrung, Expertise, Autorität und Vertrauenswürdigkeit) (Experience, Expertise, Authoritativeness, and Trustworthiness) priorisiert.
Der Übergang zur Generative AI scheint einige dieser etablierten Sicherheitsbarrieren umgangen zu haben. Große Sprachmodelle (Large Language Models, LLMs) sind probabilistische Maschinen; sie sagen das nächstwahrscheinliche Wort basierend auf Trainingsdaten und abgerufenen Kontexten voraus. Sie "wissen" nicht Medizin im Sinne einer geprüften Datenbank. Wenn ein LLM ein Transkript eines populären YouTube-Videos abruft, um eine Antwort zu konstruieren, kann es schwerfallen, zwischen der rhetorischen Selbstsicherheit eines charismatischen Influencers und der klinischen Präzision einer medizinischen Studie zu unterscheiden.
Darüber hinaus verkompliziert die „Black‑Box“-Natur dieser Zitate die Verantwortlichkeit. Anders als bei einer standardmäßigen Ergebnisliste, bei der die Nutzer:in die Domain klar sehen kann (z. B. .gov vs. .com), verschmilzt die AI-Übersicht Informationen zu einer kohärenten Erzählung. Der Zitationslink ist oft ein kleines Favicon oder eine Fußnote, die von einer Nutzer:in, die schnell eine Antwort sucht, leicht übersehen wird.
Die Ergebnisse der SE Ranking‑Studie, die sich auf das deutsche Gesundheitssystem konzentrierte, haben weiterreichende Implikationen für die globale KI‑Regulierung. Deutschland verfügt über ein streng reguliertes Gesundheitssystem, dennoch priorisierte die KI nicht‑autoritative Quellen. Das deutet darauf hin, dass das Problem technisch und systemisch im KI‑Modell verankert ist und weniger eine Spiegelung des lokalen Web‑Ökosystems.
Diese Kontroverse kommt zu einer Zeit, in der Regulierungsbehörden in der Europäischen Union und den Vereinigten Staaten die Rolle der KI in kritischer Infrastruktur und der öffentlichen Sicherheit genau prüfen. Wenn KI‑Suchmaschinen als „unregulierte medizinische Autoritäten“ fungieren, könnten sie neuen Compliance‑Anforderungen gegenüberstehen, ähnlich denen, die für Telemedizin‑Anbieter oder medizinische Verlage gelten.
Für die KI‑Branche ist dies ein Weckruf in Bezug auf Grounding – den Prozess, KI‑Antworten an faktische Quellen zu verankern. Die derzeitige Abhängigkeit von allgemeinen Webindizes, in denen Popularität oft mit Sichtbarkeit korreliert, muss für sensible Verticals möglicherweise überarbeitet werden. Wir könnten eine Verschiebung hin zu „Walled Garden“-RAG-Systemen sehen, bei denen die KI auf Gesundheitsanfragen beschränkt wird, Informationen nur aus einer Positivliste verifizierter medizinischer Domains (z. B. PubMed, WHO, CDC) abzurufen und nutzergenerierte Inhaltsplattformen wie YouTube und Reddit unabhängig von deren SEO‑Ranking explizit auszuschließen.
Während Google seine Search Generative Experience weiter verfeinert, bleibt das Gleichgewicht zwischen Nutzerkomfort und Sicherheit prekär. Die Integration von Videoinhalten in KI‑Antworten spiegelt eine Nutzerpräferenz für ansprechende Medien wider, bringt aber eine Ebene der Volatilität mit sich, die im medizinischen Kontext gefährlich ist.
Bis KI‑Modelle zuverlässig zwischen einem viralen Video und einer peer‑reviewten Studie unterscheiden können, bleibt die „confident authority“ der AI‑Übersichten ein zweischneidiges Schwert. Für den Moment ist der Rat der Expert:innen klar: Bei Gesundheitsfragen sollten Nutzer:innen KI‑Zusammenfassungen mit äußerster Skepsis begegnen und alle Ratschläge gegen traditionelle, autoritative medizinische Quellen überprüfen. Die Technologie hat die Art und Weise revolutioniert, wie wir auf Informationen zugreifen, doch in Fragen von Leben und Tod ist Beliebtheit ein schlechter Ersatz für Wahrheit.