



















Prompt-Caching senkt den Preis pro Anfrage an ein großes Sprachmodell deutlich und erhöht die Antwortgeschwindigkeit. Der Mechanismus ist simpel, wird in der Praxis aber oft übersehen oder durch ungeschickt strukturierte Prompts unwirksam gemacht.
Wie es funktioniert und was es bringt, lässt sich mit lokal installierten Tools und einem lokalen Ollama nachvollziehen. Die Erkenntnisse sind auf Cloud-Anbieter wie Anthropic übertragbar, wo Prompt-Caching bis 90 Prozent der Token sparen kann.
Ein großes Sprachmodell ist im Kern eine Textergänzungsmaschine. Seine Eingabe, der Prompt, ist eine Zeichenkette, die sich typischerweise aus drei Schichten zusammensetzt: einer Rollen- oder Verhaltensanweisung (dem Systemprompt), optionalem Kontext wie Dokumenten, Tooldefinitionen oder bisherigem Gesprächsverlauf und am Ende der aktuellen Frage des Benutzers.
Das war die Leseprobe unseres heise-Plus-Artikels "KI-Kosten reduzieren: Wie man mit Prompt-Caching messbar Token sparen kann". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。