惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Recent Commits to openclaw:main
Recent Commits to openclaw:main
Security Latest
Security Latest
P
Privacy International News Feed
F
Full Disclosure
D
DataBreaches.Net
S
Schneier on Security
AWS News Blog
AWS News Blog
G
Google Developers Blog
GbyAI
GbyAI
T
Threatpost
Y
Y Combinator Blog
量子位
T
The Blog of Author Tim Ferriss
Google Online Security Blog
Google Online Security Blog
L
LINUX DO - 最新话题
Cisco Talos Blog
Cisco Talos Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
S
Secure Thoughts
博客园 - 司徒正美
Martin Fowler
Martin Fowler
S
Security @ Cisco Blogs
Forbes - Security
Forbes - Security
T
Tor Project blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Stack Overflow Blog
Stack Overflow Blog
P
Palo Alto Networks Blog
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Application and Cybersecurity Blog
Application and Cybersecurity Blog
S
Securelist
W
WeLiveSecurity
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
L
LINUX DO - 热门话题
O
OpenAI News
aimingoo的专栏
aimingoo的专栏
Recorded Future
Recorded Future
V
V2EX - 技术
J
Java Code Geeks
M
MIT News - Artificial intelligence
博客园 - 三生石上(FineUI控件)
T
The Exploit Database - CXSecurity.com
云风的 BLOG
云风的 BLOG
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
N
News | PayPal Newsroom
Hugging Face - Blog
Hugging Face - Blog
The Last Watchdog
The Last Watchdog
IT之家
IT之家
雷峰网
雷峰网
T
Threat Research - Cisco Blogs
Last Week in AI
Last Week in AI
Recent Announcements
Recent Announcements

heise online News

Machine Learning mit Python – KI und Deep Learning in 5 Sessions erklärt Porsche-Chef Leiters plant umfassenden Konzernumbau Studie: KI bleibt oft im Testlauf stecken iX-Workshop: Grundlagen und Prinzipien eines modernen IT-Managements Missing Link: Aus für De-Mail – warum das „@“ das eingekringelte „e“ besiegte Top 10: Android Auto & Carplay nachrüsten – das beste Display fürs Auto im Test BOS-Funk: ETSI standardisiert Funk für Behörden Repair-Cafés jubeln: Bundestag beschließt Ökodesign-Reform für Nachhaltigkeit Google wehrt sich gegen Monopol-Urteil CERN-Rat beschließt Strategie-Update: FCC-ee soll LHC-Nachfolger werden Product Owner AI Day 2026: Konferenz und Workshop für KI im Produktmanagement Taskforce sieht keine Knappheit bei Kerosin Aus dem Weg! E-Scooter Navee UT5 Max mit Kuhfänger und brachialer Power im Test Krankenhaus-IT: Geldmangel und schlechte Prozesse gefährden Digitalisierung „The Boroughs“: Opa entdeckt Stranger Things iX-Workshop: Lokales Active Directory gegen Angriffe absichern Google Pics und Tiger-Selfies – die Fotonews der Woche 21/2025 Fitbit-App bekommt großes Update auf Version 5.0 und heißt jetzt Google Health Zwischen Wellen, Weite und Wissenschaft: Die Bilder der Woche 21 Sonnenenergie effizient speichern und nutzen | c’t uplink Cyberangriff auf Abrechnungsdienstleister betrifft viele Kliniken Lizenzstreit und Cloud-Zwang: Bambu Lab unter massivem Druck Vom Postweg ins BundID-Konto: Bundestag stimmt für digitales Führungszeugnis Windows 11 ist ein kompletter Verkehrsunfall Europol legt VPN-Dienst lahm TV-Deals zur WM: Die besten Fernseher von OLED bis XXL zum Tiefstpreis Nvidia will mit Vera-Prozessoren nach der CPU-Krone greifen Googles XR-Brillen auf der I/O: Project Aura & Prototyp ausprobiert Proxmox VE 9.2 mit Dynamic Load Balancer und Linux Kernel 7.0 Großstadt blockiert Überwachungssoftware Palantir Gelöscht und doch nicht weg: Signal speichert Nachrichten länger als erwartet SADAS: Neue Software warnt Fahrer vor Gefahrenzonen im Straßenraum Drei Fragen und Antworten: Wann sich KI-Coding wirklich rechnet Metas KI-Brillen helfen Blinden im Alltag – und werfen neue Fragen auf Fotoanbieter Portraitbox: Erpressung nach Sicherheitsvorfall? KI-Update: Google I/O-Fazit, Anthropic, Nvidia, Gehirn und KI-Parallelen Avatare und Augmented Reality: Apple schnappt sich kleines Start-up Won’t fix! – Teil 1: Warum Softwareschätzungen so zuverlässig falsch sind Virtual OS Museum: Über 1700 alte Betriebssysteme in einer VM Navee XT5 Max Test: Brachialer E-Scooter mit 2200 Watt ist Outdoor-Testsieger Airbnb personalisiert App mit KI IT-Ausfälle immer teurer für große Unternehmen Betrug im App Store: Apple stoppt laut eigenen Angaben Milliarden-Verluste TGIQF: Das Quiz rund um Hubschrauber Verbraucherschützer fordern Schadensersatz für Nutzer bei Smart-Meter-Problemen Citroën kündigt Elektroauto mit dem Namen „2CV“ an Software Testing: So ändert Agentic Engineering die Softwareentwicklung Post zum Freitag: Clever durch den Urlaub – schlauer reisen, entspannter surfen iX-Workshop: Sicherer Betrieb von Windows 11 im Unternehmen Camunda: ProcessOS optimiert Geschäftsprozesse mit KI macOS kann bald barrierefreien Sony-Access-Controller nutzen Elektro-Sportenduro Radian EXR vorgestellt: Viel Kraft aus Wechselakkus Voice Control in iOS 27: Accessibility-Feature sagt Siri-App-Steuerung voraus Stellantis stellt neue Plattform für neuen Strategieplan vor Spotify: Neue Desktop-App erstellt personalisierte KI-Podcasts Zum Jahresende: Bundestag beschließt Ende der De-Mail Bluesky: Russische Akteure kapern angeblich Accounts und verbreiten Propaganda Dell PowerEdge: Bis zu 70 Prozent mehr Leistung für Rechenzentren Forscher nutzen Vakuumprozess zur Herstellung von effizienten Tandemsolarzellen Jubiläum: Apple Retail Stores seit 25 Jahren im Geschäft Spotify kündigt KI-generierte Remixe und Podcasts an IT Summit 2026: heise-Konferenz zu Digitaler Souveränität „Helldivers 2“: DLSS 4.5, FSR 4 und XeSS 3.0 kommen am 27. Mai Passend zur Fußball-WM: Apple verbessert Sports-App „Gemini built in“: Google bietet Referenzdesigns für Smart-Home-Geräte an Neu in .NET 10.0 [24]: LINQ-Operatoren RightJoin() und LeftJoin() in EF Core Drei „Tomb Raider“-Klassiker im Epic Games Store kostenlos Apache-Airflow-Komponenten: Angreifer können Datenbank modifizieren Notepad++: Update bessert Schwachstelle im Installer aus Halbleiter-Ökosystem: Studie beschreibt EU-Problemzonen Stellantis-Umbau: Fokus auf Kernmarken und Kapazitätsabbau in Europa Cisco stopft Sicherheitsleck mit Höchstwertung in Secure Workload „GTA 6“ erscheint wie geplant am 19. November Samsung: Abstimmung über Boni von Hunderttausenden Euro pro Mitarbeiter Vier Arme sind besser als zwei: Humanoider Roboter für die Schwerelosigkeit Kopfhörer mit KI-Chip made in Germany: Soundcore Liberty 5 Pro ausprobiert iX-Workshop: Sicheres Active Directory – Adminrechte mit Tiering schützen Destiny-Ära endet: Bungie beendet Entwicklung von „Destiny 2" Riesenrakete Starship: SpaceX hat den nächsten Testflug erneut verschoben Trend Micro Apex One und Langflow: Warnung vor Angriffen Kann WhatsApp verschlüsselte Nachrichten einsehen? Texas reicht Klage ein Passiv-PC Arctic senza AI 370 im Test: Schnell, lautlos, unsichtbar Warhammer Skulls 2026: Die volle Ladung „Warhammer“-Videospiele Freitag: Robotaxi-Probleme in den USA, Australiens Kinderschutz-Strafe gegen X Vorsicht, Kunde! – Wenn der Gutschein plötzlich wertlos wird Waymo stoppt Autobahnfahrten und Robotaxi-Dienste in Städten mit Starkregen Privacy Guardrail: Chrome-Erweiterung will sensible Daten vor Chatbots schützen Mit dem Deutschland-Stack samt Zertifizierung zur digitalen Souveränität X kooperierte nicht mit Behörde: Höhere Strafe in Australien GMX bringt KI ins Postfach: Wir haben den Assistenten ausprobiert Digitale Souveränität: OpenDesk laut Studie keine volle Microsoft-Alternative Digitale Souveränität: Bund vergibt 250-Millionen-KI-Cloud-Auftrag Kupfer-Glas-Migration: „Homes connected macht keinen Sinn“ Teure Kultur: Justizministerin Hubig kündigt Kampf gegen Ticketwucher an Top 10: Der beste Wireless Charger mit Qi2 im Test – Magsafe-Ladegerät für alle AMDs offizieller Mini-PC kostet 3999 US-Dollar WordPress: Offizielles Plug-in bindet Blogs direkt ins Bluesky-Protokoll ein KI beweist: Mathematiker lagen falsch re:publica: Große Fragen, kaum Antworten Fritz Labor 8.40 bereitet Fritzboxen auf Matter vor
Medizin: Führende LLMs schlagen spezialisierte kleine Sprachmodelle klar
Dr. Fabio Dennstädt · 2026-06-16 · via heise online News

Eine aktuelle Studie in Nature Medicine verglich spezialisierte klinische KI-Systeme (OpenEvidence und UpToDate Expert AI) mit großen Sprachmodellen (LLMs) führender KI-Unternehmen (OpenAI, Google und Anthropic). In den verschiedenen Tests innerhalb der Studie lagen diese allgemeinen LLMs vor den spezialisierten medizinischen KI-Systemen.

Spezialisierte KI-Anwendungen für medizinische Fragen und Recherchen werden von vielen Ärztinnen und Ärzten verwendet. Anbieter versprechen dabei, dass ihre Systeme durch domänenspezifische Trainingsdaten oder Retrieval-Augmented Generation (RAG) gezielt optimiert wurden und ideal für die Anwendung in der Medizin sind.

Ein Forschungsteam aus New York (NYU Langone Health) hat nun in einer im Fachjournal Nature Medicine veröffentlichten Studie zwei spezialisierte medizinische KI-Systeme mit Allzweck-LLMs führender KI-Unternehmen verglichen. Das Ergebnis fällt deutlich aus: In allen drei untersuchten Testbereichen waren die LLMs von OpenAI, Google und Anthropic besser als spezialisierte klinische KI.

Die untersuchten klinischen KI-Tools OpenEvidence und UpToDate Expert AI richten sich beide an medizinische Fachkräfte und sollen Fachfragen beantworten. Verglichen wurden diese mit den führenden LLMs GPT-5.2 (OpenAI), Gemini 3.1 Pro Preview (Google) und Claude Opus 4.6 (Anthropic). In einem Teil der Untersuchung wurde außerdem Google Search AI Overview als realitätsnaher Vergleich einbezogen, zumal diese Funktion im Alltag von Ärztinnen und Ärzten jederzeit zur Verfügung steht.

Das Studiendesign bestand aus drei Teilen. Im ersten Teil beantworteten die Systeme 500 medizinische Fragen im Stil der US-amerikanischen medizinischen Zulassungsprüfung (MedQA Benchmark). Im zweiten Teil folgten 500 Aufgaben aus HealthBench, einem Benchmark zur Bewertung medizinischer Antworten entlang ärztlicher Kriterien. Im dritten, besonders praxisnahen Teil entwickelten die Forscher einen „Real-Clinical-Queries-Benchmark (RCQ)“. Hierfür wurden 100 anonymisierte Anfragen verwendet, die Ärztinnen und Ärzte im Alltag tatsächlich an eine GPT-Instanz der NYU Langone Health gestellt hatten. Die Antworten auf diese realen klinischen Fragen wurden von zwölf US-amerikanischen Mediziner:innen verblindet und randomisiert bewertet. Bewertet wurden klinische Korrektheit, Vollständigkeit, Sicherheit und Verständlichkeit auf einer Skala von 1 bis 4. Insgesamt entstanden dadurch 1800 Modell-Frage-Bewertungen.

Im klassischen medizinischen Wissensbenchmark MedQA lag Gemini mit einer Genauigkeit von 97,4 Prozent an der Spitze, während GPT-5.2 94,2 Prozent und Claude 90,2 Prozent erreichten. Die beiden spezialisierten klinischen Systeme erreichten hierbei nur 89,6 Prozent (OpenEvidence), bzw. 88,4 Prozent (UpToDate AI).

Auch im HealthBench-Test waren die allgemeinen LLMs besser. GPT-5.2 erzielte 88,0 von 100 möglichen Punkten, während Gemini 79,3 Punkte und Claude 77,0 Punkte erzielten. OpenEvidence und UpToDate Expert AI lagen mit 62,6 und 61,3 Punkten deutlich dahinter.

Die realen, anonymisierten Anfragen von Ärztinnen und Ärzten im RCQ-Benchmark konnten die allgemeinen LLMs ebenfalls besser beantworten. Sie erreichten auf der vierstufigen Bewertungsskala im Mittel 3,62 (Gemini), 3,54 (GPT-5.2) und 3,52 (Claude) Punkte, während OpenEvidence 3,24 Punkte und UpToDate Expert AI 3,17 Punkte erzielte. Google AI Overview, also die allgemeine Suchfunktion in Google mit KI-Antwort, lag mit 3,27 Punkten in etwa auf dem Niveau der medizinischen Systeme.

Die Ergebnisse widersprechen der naheliegenden Erwartung, dass medizinisch optimierte KI bei medizinischen Fragen besser sind als die allgemeineren Systeme führender Tech-Unternehmen. Die Autor:innen vermuten, dass die umfangreicheren Trainingsdaten und schnellere Entwicklungszyklen der führenden Allzweck-LLMs in vielen Aufgaben stärker ins Gewicht fallen könnten als eine nachträgliche Spezialisierung auf medizinischen Daten.

In der Beurteilung der Antworten durch die Mediziner:innen fanden sich keine statistisch signifikanten Unterschiede zwischen den Systemen bezüglich Sicherheit. Das bedeutet jedoch nicht, dass die Antworten der spezialisierten Systeme gleich gut waren. In Freitextanmerkungen der ärztlichen Beurteiler wurden bei OpenEvidence und Google AI Overview besonders häufig unvollständige klinische Inhalte und sicherheitsrelevante Auslassungen vermerkt. OpenEvidence fiel zudem durch vergleichsweise unübersichtliche oder schwer nachvollziehbare Antworten auf.

UpToDate Expert AI verweigerte außerdem deutlich häufiger eine Antwort als die anderen Systeme. Im RCQ-Test wurden 19 Prozent der Anfragen von UpToDate Expert AI verweigert. Bei den allgemeinen LLMs lag dieser Anteil dagegen nur zwischen einem und drei Prozent.

Die Wissenschaftler:innen betonen, dass sie wegen der proprietären Architektur der Systeme nicht sicher erklären können, warum die klinischen Systeme schlechter abschnitten. Eine mögliche Erklärung ist, dass die wesentlich größeren, allgemeinen LLMs gerade bei Aufgaben, die medizinisches Wissen, Argumentation und verständliche Kommunikation kombinieren, von ihrer Größe und ihrem breiten Wissen profitieren. Die Studie sollte nicht als endgültiges Ranking aller Ansätze verstanden werden. Die Autor:innen weisen ausdrücklich darauf hin, dass stark spezialisierte Teilgebiete, komplexe lokale Workflows oder institutionseigene Modelle andere Ergebnisse liefern könnten.

Die Ergebnisse sind für Krankenhäuser und Praxen relevant, weil spezialisierte klinische KI-Produkte oft mit institutioneller Glaubwürdigkeit auftreten. Die Studie zeigt jedoch auf, dass ein KI-System nicht automatisch besser ist, nur weil es gezielt für die Medizin entwickelt wurde. Zumindest in den untersuchten Aufgaben waren die allgemeinen Modelle von OpenAI, Google und Anthropic den klinischen KI-Systemen klar überlegen.

Für Beschaffung, Erstattung und Regulierung von Gesundheits-KI ergeben sich wichtige Konsequenzen. Entscheidend sollte sein, wie gut ein System in unabhängigen Tests und auf realistischen Aufgaben funktioniert und nicht, ob es als klinisches Spezialprodukt vermarktet wird. Die Autor:innen empfehlen daher strengere, unabhängige Evaluationen, bevor KI-Systeme breit in klinische Arbeitsabläufe integriert werden.

(mack)