Domů / Obsah / Vibe coding / Kde mizí tvoje tokeny: 5 důvod...

Vibe coding 06.04.2026 Tutorial Video

Kde mizí tvoje tokeny: 5 důvodů + 6 okamžitých oprav (2026)

Víc než polovina tokenů zmizí dřív, než AI napíše první slovo odpovědi. Tady je přesně kde — a jak to zastavit. Aktualizovaný průvodce pro Claude Code, API i běžné předplatné.

⚡ Praktický návod

Ušetři 60 % tokenů bez ztráty kvality

5 konkrétních míst kde mizí peníze 6 oprav použitelných hned dnes Platí pro API i Pro/Max předplatné

Video tutoriál

Kompletní návod

💸 Proč platíš víc než musíš

Platíš 20 $ měsíčně za Pro, 100 $ za Max — a přitom 75 % z toho jde do koše. Ne na tvoje úkoly, ale na AI, která si povídá sama se sebou.

Ať používáš Claude Code, vlastní API integraci, nebo jen chatovací okno — tokeny mizí pořád stejnými místy. Po analýze reálných sessionů je jasné: více než 50 % tokenů se spotřebuje ještě předtím, než AI napíše první slovo odpovědi.

Nejde o předražené modely. Jde o to, kde přesně se peníze ztrácejí.

⚠️ Část oprav níže je pro vývojáře a API uživatele. Část platí pro každého — i pro běžné Pro/Max předplatné. U každé sekce je jasně označeno pro koho.

🔧 Část 1: Kde mizí tokeny (API a Claude Code)

Tyhle problémy se týkají vývojářů, kteří používají AI s nástroji, agentní frameworky nebo vlastní API integrace.

1. Tool schema bloat — 45 000 tokenů za nic

Pokud používáš AI s nástroji (function calling, MCP servery, agentní frameworky), každý request tahá s sebou definice všech dostupných nástrojů. Celé schéma, popis, parametry.

U typické Claude Code sessiony to znamená ~45 000 tokenů samotných definic nástrojů na každý request — ještě předtím, než přijde tvůj dotaz nebo jakýkoliv kód. To je 25–30 % celého kontextového okna spotřebovaného ještě před začátkem práce.

• Zapni ENABLE_TOOL_SEARCH=true v Claude Code — dynamické načítání jen relevantních nástrojů
• U vlastních agentů implementuj tool search — nenačítej všechna schémata pokaždé
• Zkrať popisy nástrojů na minimum — model zvládne 'search files' místo pětiřádkového vysvětlení
• Rozděl toolset podle fáze — jiné nástroje pro plánování, jiné pro implementaci

💡 Redukce z 45 000 na 20 000 tokenů samotných schémat = 55 % úspora na každém requestu jen tímto krokem.

2. Propadlá cache — 10× vyšší cena za jeden nevhodný okamžik

Prompt caching je jednou z největších pák na snížení nákladů — opakovaný obsah (systémové prompty, dokumentace, kontext projektu) platíš jen 10 % původní ceny. Zní skvěle. Ale háček je v TTL.

Cache u Claude vyprší za 5 minut (nebo 1 hodinu za příplatek). Pokud máš sessiony s pomalejším tempem nebo si odejdeš pro kávu, cache ti vyprší přesně tehdy, kdy na ni spoléháš.

Reálná čísla: v delších AI sessionách 54 % requestů narazí na vypršenou cache — a zaplatí 10× víc, než by muselo.

• Batchi příbuzné otázky dohromady místo posílání jedné za druhou
• U déle běžících projektů investuj do 1hodinové cache (stojí to, pokud máš velký systémový prompt)
• U agentů implementuj checkpointing — schopnost navázat na stav bez plného re-sendu historie
• Sleduj cache hit rate v telemetrii — pokud je nízký, buď zrychlíš tempo, nebo přehodnotíš, co cachovat

3. Redundantní čtení souborů — platíš za to samé třikrát

Agentní AI systémy mají tendenci číst stejné soubory znovu a znovu. Model přečte config.ts v kroku 1, pak ho znovu v kroku 4, pak ještě jednou v kroku 7.

U typické coding sessiony se stejný soubor přečte 3–7×. Pro 500řádkový soubor to znamená 2 000–3 000 tokenů za každé zbytečné načtení.

• Udržuj working memory — seznam souborů, které model v aktuální sessioně už četl
• Pracuj s diff-only operacemi místo posílání celého souboru
• Pokud odkazuješ na soubor, který model v konverzaci již viděl, neposílej ho znovu — stačí název a reference

4. Kvadratický růst kontextu — čím delší sessiona, tím dražší každý krok

Tohle je nejzáludnější problém — není vidět na první pohled.

Každý request přenáší celou historii od začátku sessiony. Zpráva v turn 10 nese 10× více tokenů než zpráva v turn 1. Sessiona s 20 turny může spotřebovat 500 000+ tokenů jen na přehrávání historie. Kvadratický růst — ne lineární. A z 80 % je to obsah, který model v daném momentě vůbec nepotřebuje.

• Pravidelná kompakce: každých 10–15 turnů vygeneruj stručné shrnutí, zahoď historii, začni s čistým kontextem + shrnutím
• Používej /compact v Claude Code nebo ekvivalent ve svém frameworku
• Rozděl dlouhé úkoly na samostatné sessiony s jasně definovanými výstupy
• U API integrací implementuj sliding window — v kontextu drž jen posledních N relevantních turnů

5. Přebujelé systémové prompty — platíš za ně při každém requestu

Systémový prompt jde s každým requestem. Fixní overhead na každé volání — bez ohledu na to, jak jednoduchý dotaz posíláš.

Typický problém: systémový prompt narostl organicky, nikdo ho neprořezal, a teď má 4 000+ tokenů plných instrukcí, které model ve většině kontextů vůbec nepotřebuje.

Při 100 turnech denně = 400 000 tokenů jen na systémový prompt. Při 1 000 requestech = 4 miliony tokenů.

• Audituj jednou za měsíc: ke každé části se ptej — 'dostávám odpověď, kde tato instrukce viditelně pomohla?'
• Nahraď rozvláčné vysvětlení klíčovými slovy — model rozumí zkratkám
• Rozděl na statickou část (do cache) a dynamickou část (kontext aktuálního úkolu)
• Vyhoď příklady, kterým model rozumí i bez nich

💬 Část 2: Opravy pro každého (Pro, Max i API)

Tyhle tipy fungují i bez jediného řádku kódu — platí pro každého, kdo používá Claude v chatovacím rozhraní.

6. Caveman Claude — 65–87 % úspora na odpovědích

Je to plugin/skill, který přepne model do minimalistického módu. Místo zdlouhavých úvodů model jen odpoví a skončí. Průměrná úspora je 75 % tokenů na request.

Reálná čísla z praxe:
• Vysvětlování React bug: 1 180 → 159 tokenů (87 % úspora)
• Oprava auth middleware: 704 → 121 tokenů (83 % úspora)
• Nastavení PostgreSQL pool: 2 347 → 380 tokenů (84 % úspora)

Začni s lite verzí (profesionální tón, bez flaflu). Přepni na full pro agentic úlohy.

7. Timing okna — ukotvení na 6:00

Claude používá klouzavé 5hodinové okno pro limity. Pokud začneš pracovat v 8:30, okno běží do 13:00. Dojdeš-li k limitu v 11:00 — čekáš 2 hodiny.

Hacek: pošli jednoduchý 'ahoj' přes Haiku v 6:15 ráno. Okno se ukotvuje na 6:00 →běží do 11:00 → v 11:00 se okamžitě resetuje → další okno 11:00–16:00. Nulový výpadek.

Automatizuj to přes GitHub Actions nebo přímo v Claude: /schedule "send 'hi' to haiku at 6:15 AM every weekday"

💡 Edit místo follow-up: Zpráva v turnu 30 stojí 31× víc než zpráva v turnu 1. Místo 'Ne, myslel jsem...' jako nová zpráva — klikni Edit na původní prompt, oprav ho, znovu vygeneruj. Špatná výměna se smaže a neprodražuje každý další turn.

❌ Jak to dělá většina lidí

• Tři otázky ve třech samostatných zprávách
• Každá zpráva znovu načte celý kontext
• Opravy posílá jako nové follow-up zprávy
• Stejný PDF uploaduje do 5 různých chatů
• Každý nový chat začíná 3–5 setup zprávami

✅ Jak to dělat správně

• Tři otázky v jedné zprávě — jeden load kontextu
• Kontext se načte jednou, odpovědi jsou lepší
• Edit na původním promptu — špatná výměna zmizí
• PDF jednou do Projects — všechny chaty sdílí
• Memory nastavení jednou — nula setup tokenů navždy

Projects a Memory — jednou nastav, navždy ušetři

Projects: 100stránkový PDF = ~75 000 tokenů. Nahraješ ho do 5 různých chatů = 375 000 tokenů. V Projects nahraješ jednou → všechny konverzace uvnitř projektu na to referují bez spalování tokenů. Kontrakt, briefing, style guide — toto samo ušetří 15–40 $ měsíčně za opakované uploady.

Memory: Každý nový chat bez uloženého kontextu = 3–5 setup zpráv. 5 zpráv × 500 tokenů × 10 nových chatů denně = 25 000 tokenů/den na opakování téhož. Jdi do Settings → Memory, ulož svoji roli a preferences jednou. Claude je aplikuje automaticky.

📊 Reálný dopad správné kombinace

60 %

úspora tokenů bez ztráty kvality

55 %

úspora jen z tool schema optimalizace

87 %

méně tokenů na odpověď s Caveman Claude

31×

dražší zpráva v turnu 30 vs turnu 1

// Zmíněné AI nástroje

Bezplatný kurz

Nauč se Claude Code za 10 dní

Bezplatný e-mailový kurz s praktickými tipy. Žádná teorie, jen to, co funguje.

Začít kurz zdarma

Začínáte s AI?

Navštivte zacinamsai.cz — průvodce světem AI pro úplné začátečníky.

Přejít na Začínáme s AI →

// Další články, které by tě mohly zajímat

Vibe coding

Cascade skončil 1. července: Jak migrovat na Devin Local

Windsurf je teď Devin Desktop a Cascade dosloužil 1. července 2026. Zjisti, jestli tě to zasáhlo, a projdi si krok za krokem migraci na Devin Local.

03.07.2026 Zobrazit

Vibe coding Premium

AI coding governance: Jak nastavit pravidla pro tým, který používá Copilot, Cursor a Claude Code

90 % vývojářů už používá AI nástroje pro kódování, ale většina týmů nemá žádná pravidla. Tady je praktický rámec, jak nastavit governance pro AI kódování během jednoho týdne.

27.06.2026 Zobrazit

Vibe coding

Cursor pro týmy: Composer 2.0 a cloud agenti v praxi

Cursor v roce 2026 přestává být jen lepším editorem. Díky Composer 2.0 a cloud agentům zvládne celé týmové workflow — od zadání funkce přes automatizované review až po dlouhotrvající úkoly na pozadí.

22.06.2026 Zobrazit

Vibe coding

3 nástroje, 1 workflow: Sestavte si AI coding stack, který skutečně funguje

Cursor na denní kódování, Claude Code na architekturu, Codex na refaktoring – třívrstvý AI coding stack, který vám v roce 2026 ušetří polovinu času a zásadně změní způsob, jakým přistupujete k vývoji softwaru.

13.04.2026 Zobrazit

Vibe coding

Agentic coding v roce 2026: 8 trendů z Anthropic reportu, které změní tvůj tým

Přečti si přehled 8 trendů z Anthropic reportu o agentic codingu. Zjisti, proč vývojáři používají AI v 60 % práce, ale delegují jen 0–20 % úkolů, a jak to změnit ve svém týmu.

14.06.2026 Zobrazit

Vibe coding

GitHub Copilot Workspace: Jak z issue vytvořit hotový PR a ušetřit hodiny na každém tasku

Představ si, že otevřeš GitHub issue, popíšeš požadavek a za pár minut máš hotový pull request. S GitHub Copilot Workspace je to realita — ne budoucnost.

06.06.2026 Zobrazit

Zobrazit všechny články

Potřebujete pomoct s AI automatizací?

Domluvte si nezávaznou konzultaci →

← Zpět na přehled obsahu

Kde mizí tvoje tokeny: 5 důvodů + 6 okamžitých oprav (2026)

Video tutoriál

Kompletní návod

💸 Proč platíš víc než musíš

🔧 Část 1: Kde mizí tokeny (API a Claude Code)

1. Tool schema bloat — 45 000 tokenů za nic

2. Propadlá cache — 10× vyšší cena za jeden nevhodný okamžik

3. Redundantní čtení souborů — platíš za to samé třikrát

4. Kvadratický růst kontextu — čím delší sessiona, tím dražší každý krok

5. Přebujelé systémové prompty — platíš za ně při každém requestu

💬 Část 2: Opravy pro každého (Pro, Max i API)

6. Caveman Claude — 65–87 % úspora na odpovědích

7. Timing okna — ukotvení na 6:00

❌ Jak to dělá většina lidí

✅ Jak to dělat správně

Projects a Memory — jednou nastav, navždy ušetři

📊 Reálný dopad správné kombinace

// Zmíněné AI nástroje

Claude AI

Slack

Claude Code

Claude Code

Claude Code

Nauč se Claude Code za 10 dní

Začínáte s AI?

// Další články, které by tě mohly zajímat

Cascade skončil 1. července: Jak migrovat na Devin Local

AI coding governance: Jak nastavit pravidla pro tým, který používá Copilot, Cursor a Claude Code

Cursor pro týmy: Composer 2.0 a cloud agenti v praxi

3 nástroje, 1 workflow: Sestavte si AI coding stack, který skutečně funguje

Agentic coding v roce 2026: 8 trendů z Anthropic reportu, které změní tvůj tým

GitHub Copilot Workspace: Jak z issue vytvořit hotový PR a ušetřit hodiny na každém tasku

Buď v AI o krok vpřed

Než půjdeš…