Menu
Přihlásit
Domů / Obsah / Vibe coding / Kde mizí tvoje tokeny: 5 důvod...
Vibe coding 06.04.2026 Tutorial Video

Kde mizí tvoje tokeny: 5 důvodů + 6 okamžitých oprav

Víc než polovina tokenů zmizí dřív, než AI napíše první slovo odpovědi. Tady je přesně kde — a jak to zastavit. Platí pro Claude Code, API i běžné předplatné.

⚡ Praktický návod

Ušetři 60 % tokenů bez ztráty kvality

5 konkrétních míst kde mizí peníze 6 oprav použitelných hned dnes Platí pro API i Pro/Max předplatné

Kompletní návod

💸 Proč platíš víc než musíš

Platíš 20 $ měsíčně za Pro, 100 $ za Max — a přitom 75 % z toho jde do koše. Ne na tvoje úkoly, ale na AI, která si povídá sama se sebou.

Ať používáš Claude Code, vlastní API integraci, nebo jen chatovací okno — tokeny mizí pořád stejnými místy. Po analýze reálných sessionů je jasné: více než 50 % tokenů se spotřebuje ještě předtím, než AI napíše první slovo odpovědi.

Nejde o předražené modely. Jde o to, kde přesně se peníze ztrácejí.

⚠️ Část oprav níže je pro vývojáře a API uživatele. Část platí pro každého — i pro běžné Pro/Max předplatné. U každé sekce je jasně označeno pro koho.

🔧 Část 1: Kde mizí tokeny (API a Claude Code)

Tyhle problémy se týkají vývojářů, kteří používají AI s nástroji, agentní frameworky nebo vlastní API integrace.

1. Tool schema bloat — 45 000 tokenů za nic

Pokud používáš AI s nástroji (function calling, MCP servery, agentní frameworky), každý request tahá s sebou definice všech dostupných nástrojů. Celé schéma, popis, parametry.

U typické Claude Code sessiony to znamená ~45 000 tokenů samotných definic nástrojů na každý request — ještě předtím, než přijde tvůj dotaz nebo jakýkoliv kód. To je 25–30 % celého kontextového okna spotřebovaného ještě před začátkem práce.

  • Zapni ENABLE_TOOL_SEARCH=true v Claude Code — dynamické načítání jen relevantních nástrojů
  • U vlastních agentů implementuj tool search — nenačítej všechna schémata pokaždé
  • Zkrať popisy nástrojů na minimum — model zvládne 'search files' místo pětiřádkového vysvětlení
  • Rozděl toolset podle fáze — jiné nástroje pro plánování, jiné pro implementaci

💡 Redukce z 45 000 na 20 000 tokenů samotných schémat = 55 % úspora na každém requestu jen tímto krokem.

2. Propadlá cache — 10× vyšší cena za jeden nevhodný okamžik

Prompt caching je jednou z největších pák na snížení nákladů — opakovaný obsah (systémové prompty, dokumentace, kontext projektu) platíš jen 10 % původní ceny. Zní skvěle. Ale háček je v TTL.

Cache u Claude vyprší za 5 minut (nebo 1 hodinu za příplatek). Pokud máš sessiony s pomalejším tempem nebo si odejdeš pro kávu, cache ti vyprší přesně tehdy, kdy na ni spoléháš.

Reálná čísla: v delších AI sessionách 54 % requestů narazí na vypršenou cache — a zaplatí 10× víc, než by muselo.

  • Batchi příbuzné otázky dohromady místo posílání jedné za druhou
  • U déle běžících projektů investuj do 1hodinové cache (stojí to, pokud máš velký systémový prompt)
  • U agentů implementuj checkpointing — schopnost navázat na stav bez plného re-sendu historie
  • Sleduj cache hit rate v telemetrii — pokud je nízký, buď zrychlíš tempo, nebo přehodnotíš, co cachovat

3. Redundantní čtení souborů — platíš za to samé třikrát

Agentní AI systémy mají tendenci číst stejné soubory znovu a znovu. Model přečte config.ts v kroku 1, pak ho znovu v kroku 4, pak ještě jednou v kroku 7.

U typické coding sessiony se stejný soubor přečte 3–7×. Pro 500řádkový soubor to znamená 2 000–3 000 tokenů za každé zbytečné načtení.

  • Udržuj working memory — seznam souborů, které model v aktuální sessioně už četl
  • Pracuj s diff-only operacemi místo posílání celého souboru
  • Pokud odkazuješ na soubor, který model v konverzaci již viděl, neposílej ho znovu — stačí název a reference

4. Kvadratický růst kontextu — čím delší sessiona, tím dražší každý krok

Tohle je nejzáludnější problém — není vidět na první pohled.

Každý request přenáší celou historii od začátku sessiony. Zpráva v turn 10 nese 10× více tokenů než zpráva v turn 1. Sessiona s 20 turny může spotřebovat 500 000+ tokenů jen na přehrávání historie. Kvadratický růst — ne lineární. A z 80 % je to obsah, který model v daném momentě vůbec nepotřebuje.

  • Pravidelná kompakce: každých 10–15 turnů vygeneruj stručné shrnutí, zahoď historii, začni s čistým kontextem + shrnutím
  • Používej /compact v Claude Code nebo ekvivalent ve svém frameworku
  • Rozděl dlouhé úkoly na samostatné sessiony s jasně definovanými výstupy
  • U API integrací implementuj sliding window — v kontextu drž jen posledních N relevantních turnů

5. Přebujelé systémové prompty — platíš za ně při každém requestu

Systémový prompt jde s každým requestem. Fixní overhead na každé volání — bez ohledu na to, jak jednoduchý dotaz posíláš.

Typický problém: systémový prompt narostl organicky, nikdo ho neprořezal, a teď má 4 000+ tokenů plných instrukcí, které model ve většině kontextů vůbec nepotřebuje.

Při 100 turnech denně = 400 000 tokenů jen na systémový prompt. Při 1 000 requestech = 4 miliony tokenů.

  • Audituj jednou za měsíc: ke každé části se ptej — 'dostávám odpověď, kde tato instrukce viditelně pomohla?'
  • Nahraď rozvláčné vysvětlení klíčovými slovy — model rozumí zkratkám
  • Rozděl na statickou část (do cache) a dynamickou část (kontext aktuálního úkolu)
  • Vyhoď příklady, kterým model rozumí i bez nich

💬 Část 2: Opravy pro každého (Pro, Max i API)

Tyhle tipy fungují i bez jediného řádku kódu — platí pro každého, kdo používá Claude v chatovacím rozhraní.

6. Caveman Claude — 65–87 % úspora na odpovědích

Je to plugin/skill, který přepne model do minimalistického módu. Místo zdlouhavých úvodů model jen odpoví a skončí. Průměrná úspora je 75 % tokenů na request.

Reálná čísla z praxe:
• Vysvětlování React bug: 1 180 → 159 tokenů (87 % úspora)
• Oprava auth middleware: 704 → 121 tokenů (83 % úspora)
• Nastavení PostgreSQL pool: 2 347 → 380 tokenů (84 % úspora)

Začni s lite verzí (profesionální tón, bez flaflu). Přepni na full pro agentic úlohy.

7. Timing okna — ukotvení na 6:00

Claude používá klouzavé 5hodinové okno pro limity. Pokud začneš pracovat v 8:30, okno běží do 13:00. Dojdeš-li k limitu v 11:00 — čekáš 2 hodiny.

Hacek: pošli jednoduchý 'ahoj' přes Haiku v 6:15 ráno. Okno se ukotvuje na 6:00 →běží do 11:00 → v 11:00 se okamžitě resetuje → další okno 11:00–16:00. Nulový výpadek.

Automatizuj to přes GitHub Actions nebo přímo v Claude: /schedule "send 'hi' to haiku at 6:15 AM every weekday"

💡 Edit místo follow-up: Zpráva v turnu 30 stojí 31× víc než zpráva v turnu 1. Místo 'Ne, myslel jsem...' jako nová zpráva — klikni Edit na původní prompt, oprav ho, znovu vygeneruj. Špatná výměna se smaže a neprodražuje každý další turn.

❌ Jak to dělá většina lidí

  • Tři otázky ve třech samostatných zprávách
  • Každá zpráva znovu načte celý kontext
  • Opravy posílá jako nové follow-up zprávy
  • Stejný PDF uploaduje do 5 různých chatů
  • Každý nový chat začíná 3–5 setup zprávami

✅ Jak to dělat správně

  • Tři otázky v jedné zprávě — jeden load kontextu
  • Kontext se načte jednou, odpovědi jsou lepší
  • Edit na původním promptu — špatná výměna zmizí
  • PDF jednou do Projects — všechny chaty sdílí
  • Memory nastavení jednou — nula setup tokenů navždy

Projects a Memory — jednou nastav, navždy ušetři

Projects: 100stránkový PDF = ~75 000 tokenů. Nahraješ ho do 5 různých chatů = 375 000 tokenů. V Projects nahraješ jednou → všechny konverzace uvnitř projektu na to referují bez spalování tokenů. Kontrakt, briefing, style guide — toto samo ušetří 15–40 $ měsíčně za opakované uploady.

Memory: Každý nový chat bez uloženého kontextu = 3–5 setup zpráv. 5 zpráv × 500 tokenů × 10 nových chatů denně = 25 000 tokenů/den na opakování téhož. Jdi do Settings → Memory, ulož svoji roli a preferences jednou. Claude je aplikuje automaticky.

// Zmíněné AI nástroje

Bezplatný kurz

Nauč se Claude Code za 10 dní

Bezplatný e-mailový kurz s praktickými tipy. Žádná teorie, jen to, co funguje.

Začínáte s AI?

Navštivte zacinamsai.cz — průvodce světem AI pro úplné začátečníky.

Přejít na Začínáme s AI →

// Další články, které by tě mohly zajímat

Potřebujete pomoct s AI automatizací?

Domluvte si nezávaznou konzultaci →