惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Help Net Security
Help Net Security
G
Google Developers Blog
雷峰网
雷峰网
WordPress大学
WordPress大学
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Engineering at Meta
Engineering at Meta
Security Latest
Security Latest
T
Threat Research - Cisco Blogs
AWS News Blog
AWS News Blog
F
Full Disclosure
C
Cybersecurity and Infrastructure Security Agency CISA
T
The Exploit Database - CXSecurity.com
J
Java Code Geeks
U
Unit 42
C
Cyber Attacks, Cyber Crime and Cyber Security
V
V2EX
C
Cisco Blogs
博客园 - 司徒正美
Project Zero
Project Zero
L
LINUX DO - 热门话题
阮一峰的网络日志
阮一峰的网络日志
Blog — PlanetScale
Blog — PlanetScale
Scott Helme
Scott Helme
A
About on SuperTechFans
Hugging Face - Blog
Hugging Face - Blog
S
Securelist
小众软件
小众软件
aimingoo的专栏
aimingoo的专栏
S
Schneier on Security
G
GRAHAM CLULEY
酷 壳 – CoolShell
酷 壳 – CoolShell
Cyberwarzone
Cyberwarzone
MongoDB | Blog
MongoDB | Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - 叶小钗
T
Threatpost
Recorded Future
Recorded Future
C
CXSECURITY Database RSS Feed - CXSecurity.com
宝玉的分享
宝玉的分享
N
News and Events Feed by Topic
人人都是产品经理
人人都是产品经理
The Register - Security
The Register - Security
S
Security Archives - TechRepublic
博客园 - Franky
N
News | PayPal Newsroom
Simon Willison's Weblog
Simon Willison's Weblog
S
SegmentFault 最新的问题
W
WeLiveSecurity
A
Arctic Wolf
B
Blog

heise online News

Machine Learning mit Python – KI und Deep Learning in 5 Sessions erklärt Porsche-Chef Leiters plant umfassenden Konzernumbau Studie: KI bleibt oft im Testlauf stecken iX-Workshop: Grundlagen und Prinzipien eines modernen IT-Managements Missing Link: Aus für De-Mail – warum das „@“ das eingekringelte „e“ besiegte Top 10: Android Auto & Carplay nachrüsten – das beste Display fürs Auto im Test BOS-Funk: ETSI standardisiert Funk für Behörden Repair-Cafés jubeln: Bundestag beschließt Ökodesign-Reform für Nachhaltigkeit Google wehrt sich gegen Monopol-Urteil CERN-Rat beschließt Strategie-Update: FCC-ee soll LHC-Nachfolger werden Product Owner AI Day 2026: Konferenz und Workshop für KI im Produktmanagement Taskforce sieht keine Knappheit bei Kerosin Aus dem Weg! E-Scooter Navee UT5 Max mit Kuhfänger und brachialer Power im Test Krankenhaus-IT: Geldmangel und schlechte Prozesse gefährden Digitalisierung „The Boroughs“: Opa entdeckt Stranger Things iX-Workshop: Lokales Active Directory gegen Angriffe absichern Google Pics und Tiger-Selfies – die Fotonews der Woche 21/2025 Fitbit-App bekommt großes Update auf Version 5.0 und heißt jetzt Google Health Zwischen Wellen, Weite und Wissenschaft: Die Bilder der Woche 21 Sonnenenergie effizient speichern und nutzen | c’t uplink Cyberangriff auf Abrechnungsdienstleister betrifft viele Kliniken Lizenzstreit und Cloud-Zwang: Bambu Lab unter massivem Druck Vom Postweg ins BundID-Konto: Bundestag stimmt für digitales Führungszeugnis Windows 11 ist ein kompletter Verkehrsunfall Europol legt VPN-Dienst lahm TV-Deals zur WM: Die besten Fernseher von OLED bis XXL zum Tiefstpreis Nvidia will mit Vera-Prozessoren nach der CPU-Krone greifen Googles XR-Brillen auf der I/O: Project Aura & Prototyp ausprobiert Proxmox VE 9.2 mit Dynamic Load Balancer und Linux Kernel 7.0 Großstadt blockiert Überwachungssoftware Palantir Gelöscht und doch nicht weg: Signal speichert Nachrichten länger als erwartet SADAS: Neue Software warnt Fahrer vor Gefahrenzonen im Straßenraum Drei Fragen und Antworten: Wann sich KI-Coding wirklich rechnet Metas KI-Brillen helfen Blinden im Alltag – und werfen neue Fragen auf Fotoanbieter Portraitbox: Erpressung nach Sicherheitsvorfall? KI-Update: Google I/O-Fazit, Anthropic, Nvidia, Gehirn und KI-Parallelen Avatare und Augmented Reality: Apple schnappt sich kleines Start-up Won’t fix! – Teil 1: Warum Softwareschätzungen so zuverlässig falsch sind Virtual OS Museum: Über 1700 alte Betriebssysteme in einer VM Navee XT5 Max Test: Brachialer E-Scooter mit 2200 Watt ist Outdoor-Testsieger Airbnb personalisiert App mit KI IT-Ausfälle immer teurer für große Unternehmen Betrug im App Store: Apple stoppt laut eigenen Angaben Milliarden-Verluste TGIQF: Das Quiz rund um Hubschrauber Verbraucherschützer fordern Schadensersatz für Nutzer bei Smart-Meter-Problemen Citroën kündigt Elektroauto mit dem Namen „2CV“ an Software Testing: So ändert Agentic Engineering die Softwareentwicklung Post zum Freitag: Clever durch den Urlaub – schlauer reisen, entspannter surfen iX-Workshop: Sicherer Betrieb von Windows 11 im Unternehmen Camunda: ProcessOS optimiert Geschäftsprozesse mit KI macOS kann bald barrierefreien Sony-Access-Controller nutzen Elektro-Sportenduro Radian EXR vorgestellt: Viel Kraft aus Wechselakkus Voice Control in iOS 27: Accessibility-Feature sagt Siri-App-Steuerung voraus Stellantis stellt neue Plattform für neuen Strategieplan vor Spotify: Neue Desktop-App erstellt personalisierte KI-Podcasts Zum Jahresende: Bundestag beschließt Ende der De-Mail Bluesky: Russische Akteure kapern angeblich Accounts und verbreiten Propaganda Dell PowerEdge: Bis zu 70 Prozent mehr Leistung für Rechenzentren Forscher nutzen Vakuumprozess zur Herstellung von effizienten Tandemsolarzellen Jubiläum: Apple Retail Stores seit 25 Jahren im Geschäft Spotify kündigt KI-generierte Remixe und Podcasts an IT Summit 2026: heise-Konferenz zu Digitaler Souveränität „Helldivers 2“: DLSS 4.5, FSR 4 und XeSS 3.0 kommen am 27. Mai Passend zur Fußball-WM: Apple verbessert Sports-App „Gemini built in“: Google bietet Referenzdesigns für Smart-Home-Geräte an Neu in .NET 10.0 [24]: LINQ-Operatoren RightJoin() und LeftJoin() in EF Core Drei „Tomb Raider“-Klassiker im Epic Games Store kostenlos Apache-Airflow-Komponenten: Angreifer können Datenbank modifizieren Notepad++: Update bessert Schwachstelle im Installer aus Halbleiter-Ökosystem: Studie beschreibt EU-Problemzonen Stellantis-Umbau: Fokus auf Kernmarken und Kapazitätsabbau in Europa Cisco stopft Sicherheitsleck mit Höchstwertung in Secure Workload „GTA 6“ erscheint wie geplant am 19. November Samsung: Abstimmung über Boni von Hunderttausenden Euro pro Mitarbeiter Vier Arme sind besser als zwei: Humanoider Roboter für die Schwerelosigkeit Kopfhörer mit KI-Chip made in Germany: Soundcore Liberty 5 Pro ausprobiert iX-Workshop: Sicheres Active Directory – Adminrechte mit Tiering schützen Destiny-Ära endet: Bungie beendet Entwicklung von „Destiny 2" Riesenrakete Starship: SpaceX hat den nächsten Testflug erneut verschoben Trend Micro Apex One und Langflow: Warnung vor Angriffen Kann WhatsApp verschlüsselte Nachrichten einsehen? Texas reicht Klage ein Passiv-PC Arctic senza AI 370 im Test: Schnell, lautlos, unsichtbar Warhammer Skulls 2026: Die volle Ladung „Warhammer“-Videospiele Freitag: Robotaxi-Probleme in den USA, Australiens Kinderschutz-Strafe gegen X Vorsicht, Kunde! – Wenn der Gutschein plötzlich wertlos wird Waymo stoppt Autobahnfahrten und Robotaxi-Dienste in Städten mit Starkregen Privacy Guardrail: Chrome-Erweiterung will sensible Daten vor Chatbots schützen Mit dem Deutschland-Stack samt Zertifizierung zur digitalen Souveränität X kooperierte nicht mit Behörde: Höhere Strafe in Australien GMX bringt KI ins Postfach: Wir haben den Assistenten ausprobiert Digitale Souveränität: OpenDesk laut Studie keine volle Microsoft-Alternative Digitale Souveränität: Bund vergibt 250-Millionen-KI-Cloud-Auftrag Kupfer-Glas-Migration: „Homes connected macht keinen Sinn“ Teure Kultur: Justizministerin Hubig kündigt Kampf gegen Ticketwucher an Top 10: Der beste Wireless Charger mit Qi2 im Test – Magsafe-Ladegerät für alle AMDs offizieller Mini-PC kostet 3999 US-Dollar WordPress: Offizielles Plug-in bindet Blogs direkt ins Bluesky-Protokoll ein KI beweist: Mathematiker lagen falsch re:publica: Große Fragen, kaum Antworten Fritz Labor 8.40 bereitet Fritzboxen auf Matter vor
Model-Schau: Reasoning aus China, kleine Liquid-Modelle und neue Microsoft-Welt
Dr. Christian Winkler · 2026-06-13 · via heise online News

Zum Start in den Sommer geht es auch bei den Sprachmodellen heiß zu. Neue chinesische Modelle von StepFun und MiniMax versprechen günstiges Reasoning und sind auf agentische Workflows optimiert. Die Liquid Foundation Models sind aufgrund ihrer speziellen Architektur sehr kompakt und trotzdem leistungsfähig.

Prof. Dr. Christian Winkler beschäftigt sich speziell mit der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich bei seiner Forschung auf die Optimierung der User Experience.

Nvidia befindet sich weiter im Höhenflug und hat einige neue Modelle im Portfolio, allerdings das größte davon lediglich als Ankündigung. Schließlich stellte Microsoft Anfang Juni auf der Build-Konferenz eine ganze Reihe (leider geschlossener) Modelle vor und emanzipiert sich damit weiter von OpenAI.

Product Owner AI Day, Online-Konferenz am 9. Juli 2026

(Bild: popba / stock.adobe.com)

Die Online-Konferenz Product Owner AI Day 2026 zeigt Produktverantwortlichen am 9. Juli, wie sie Abläufe mit KI automatisieren und sie in Workflows integrieren. Der an zwei Terminen ausgebuchte Workshop findet am 16. Juli ein weiteres Mal statt. Tickets für Konferenz und Workshop sind im Ticketshop verfügbar.

Das in Shanghai sitzende KI-Unternehmen StepFun hat nach dem bereits erfolgreichen Modell 3.5 aus dem Frühjahr nachgelegt und ein neues Reasoning-Modell veröffentlicht. Es handelt sich wieder um ein Flash-Modell mit einer ähnlichen Architektur wie das vorherige Modell, das sich allerdings in einigen entscheidenden Punkten verbessert hat. So hat StepFun etwa einen Vision Encoder hinzugefügt, sodass Step 3.7 Flash auch Bilder verstehen kann. Das Reasoning lässt sich nun konfigurieren, damit sich für einfache Fragestellungen nicht sofort sehr viele Token ansammeln. Das ist insbesondere für agentische Nutzung sehr hilfreich.

Wie viele chinesische Modelle war Step 3.5 Flash stark zensiert. Das ist bei Version 3.7 nicht viel anders, aber interessanterweise gibt das Modell die Fakten im Reasoning-Bereich bereitwillig aus, um dann bei der endgültigen Antwort gebremst zu werden. Sicherlich spielen da die Guardrails eine entscheidende Rolle, die dem Modell im letzten Schritt antrainiert werden. Abgesehen davon sind die Antworten größtenteils korrekt. Besonders interessant ist, dass das Reasoning bei deutschen Fragen größtenteils auf Deutsch stattfindet, nur die Unterbrechungen wie „wait“ sind auf Englisch. Das ist bei fast allen anderen Modellen anders, die nur auf Englisch argumentieren.

Ob das Modell wirklich viel besser ist als der Vorgänger, lässt sich schwer entscheiden. In der Community wurde es jedenfalls gelobt, insbesondere im Zusammenspiel mit Coding Agents. Auf der Website von StepFun kann man deutlich bessere Zahlen ablesen als für das ältere Modell, oft übertrumpft es dabei auch DeepSeek V4 Flash. Langfristig wird man auf der LM Arena sehen, wie sich das Modell im wirklichen Leben behauptet.

Die Ergebnisse von Step 3.7 Flash finden sich im GitHub-Repository zu diesem Artikel.

Obwohl MiniMax sein M3-Modell als „Open Weight“ bezeichnet, kann man die Gewichte noch nicht bei Hugging Face herunterladen. Das ändert sich aber hoffentlich bald. Ausprobieren lässt sich das Modell entweder direkt bei MiniMax.ai oder bei OpenRouter. Wie von MiniMax gewohnt, sind die Ergebnisse ausgewogener und weniger zensiert als die anderer chinesischer Modelle.

MiniMax hat wie viele Anbieter die Attention-Architektur optimiert, ging dabei aber einen eigenen Weg. Die Attention wird in zwei Phasen ausgerechnet: Die erste Phase entscheidet, welche Token wichtig sind und gibt diese dann in der zweiten Phase für die volle Attention-Berechnung weiter. MiniMax behauptet, dass das M3-Modell damit Prompts fast zehnmal schneller auswerten kann als MiniMax M2 und bei der Generierung sogar um den Faktor 15 schneller ist. Das wäre ein gewaltiger Fortschritt. Ob es sich bewahrheitet, wird sich zeigen, wenn sich die Modelle lokal betreiben lassen.

Öffentlich verfügbare Benchmarks gibt es noch nicht, aber die Daten von MiniMax selbst sind vielversprechend. Gerade im Bereich Coding kann es mit den besten Modellen von Anthropic wohl mithalten, wenn die Daten korrekt sind.

Die Ergebnisse von MiniMax M3 finden sich im GitHub-Repository zu diesem Artikel.

Einen ganz anderen Weg geht liquid.ai, das eine andere Architektur für seine Liquid Foundation Models nutzt. Damit lassen sich Token äußerst effizient erzeugen, und diese Modelle funktionieren auch auf CPUs gut. In der Zwischenzeit gibt es eine einige solcher Modelle, neu reiht sich darin LFM2.5-8B-A1B ein, das nur eine Milliarde aktive Parameter hat. Damit will es mit weit größeren Modellen wie gpt-oss-20b, Qwen3-30B-A3B-Thinking-2507 und Gemma-4-26B-A4B-IT konkurrieren. Abgesehen von Gemma sind die zum Vergleich herangezogenen Modelle jedoch etwas älter.

LFM2.5-8B-A1B ist extrem schnell: Auf einem Mac Studio M2 Ultra hat es fast 200 Token pro Sekunde erreicht. Die Ergebnisse können nicht ganz mit den großen Modellen mithalten, aber für Spezialanwendungen oder agentische Szenarien könnte sich das Modell eignen.

Die Ergebnisse von LFM2.5-8B-A1B finden sich im GitHub-Repository zu diesem Artikel.

Nvidia befindet sich nach wie vor im Höhenflug und zeigt das inzwischen auch in seinen Modellen. Populär ist unter anderem LocateAnything, mit dem man Bilder analysieren kann. Als Ergebnis erhält man Boxen, in denen sich bestimmte Objekte befinden. Die Verarbeitung funktioniert hochparallel über alle identifizierten Boxen hinweg, das Modell kann sogar gescannte Dokumente analysieren und findet dort entsprechende Boxen mit Content. Nützlich ist das unter anderem, um GUI-Elemente zu identifizieren und per Agenten einen Browser zu bedienen. Da das Modell mit knapp acht GByte relativ klein ist, sollte es sich auch auf Consumer-GPUs ausführen lassen.

Deutlich mehr Speicher braucht der Pixel Diffusion Decoder, der ein neuartiges Diffusionsmodell im Pixelraum einführt. Die Bedienung ist aktuell noch sehr umständlich: Man muss verschiedene Checkpoints von der Hugging-Face-Seite herunterladen und mit einem speziell bereitgestellten Programm verarbeiten. Ob und wie viel besser Nvidia damit im Vergleich zu herkömmlichen Diffusionsmodellen Bilder generieren kann, muss sich zeigen.

Die Nemotron-Modelle waren bereits bisher schon leistungsfähig. Allerdings hat das Nano-Modell schon über 30 Milliarden Parameter, von denen drei Milliarden aktiv sind. Das vor etwa drei Monaten erschienene Super-Modell nutzt sogar 120 Milliarden Parameter, von denen zwölf Milliarden aktiv sind. Neu verfügbar ist nun das Ultra-Modell mit 550 Milliarden Parametern, von denen „nur“ 55 Milliarden aktiv sind. Nvidia behauptet, damit eine deutlich schnellere Inferenz zu erreichen, was möglicherweise an dem im Modell verwendeten Datentyp NVFP4 liegt.

Auch der optimierte Attention-Mechanismus mit vielen Mamba-Layern trägt dazu bei, der eine Kontextlänge von bis zu einer Million Token ermöglicht. In der Performance kommt Nemotron 3 Ultra nicht ganz an die offenen chinesischen Modelle heran, aber die endgültige Version gibt es erst seit Kurzem. Wie bei allen Nemotron-Modellen stellt Nvidia einen Großteil der Trainingsdaten, den Trainingscode und weitere Inhalte bereit. Damit handelt es sich bei diesen Modellen um die bei weitem offensten – im Sinne von transparent. Lediglich die nicht von Nvidia stammenden, viel kleineren Olmo- oder Apertus-Modelle sind ähnlich offen.

Man merkt dem Modell seine westliche (US-amerikanische) Herkunft in den Antworten deutlich an. Dort, wo chinesische Modelle sich vornehm zurückhalten, gibt das Modell häufig sehr viel klarere, politisch neutralere oder zumindest anders gefärbte Meinungen wieder.

Die Ergebnisse von Nemotron 3 Ultra finden sich im GitHub-Repository zu diesem Artikel.