Tokeny zdarma: 4 providery, kde si rozjedeš AI agenty
Platit za AI tokeny dává smysl, dokud ti pod nosem nesedí čtyři providery, kteří ti je dají zadarmo. Open-weight modely jako DeepSeek V3.1, Kimi K2, GLM-4.6 nebo Qwen3-Coder dneska zvládnou většinu věcí, na které jsi ještě před rokem potřeboval drahý frontier model — a několik služeb ti je hostuje free pro tvoje agenty, skripty, klasifikační pipeline nebo experimenty s Claude Code.
V tomhle průvodci projdeme čtyři hlavní zdroje free tokenů a čtyři bonusové triky, jak ušetřit ještě víc. Celý workflow procházím i ve videu nahoře, takže pokud preferuješ koukání před čtením, pusť si ho a pak se vrať pro odkazy a setup.
1. NVIDIA build.nvidia.com — open-weight modely zdarma
První zastávka je build.nvidia.com/models. NVIDIA tady hostuje stovku open-weight modelů a všechny můžeš volat zdarma přes OpenAI-kompatibilní API. Žádná kreditka, jenom NVIDIA Developer účet.
Co tam najdeš:
- DeepSeek R1 (671B) a DeepSeek V3.1 — top čínské reasoning modely
- GLM-4.5, GLM-4.6 a nový GLM-5 (744B parametrů) od Zhipu
- MiniMax M2 a MiniMax M2.7 (230B MoE, přidáno v dubnu)
- Kimi K2 od Moonshot AI
- Qwen3 a Qwen3-Coder-480B-A35B
- Gemma 4 31B od Googlu (přidáno začátkem dubna) a starší Gemma 3
- Kompletní řada Mistral, Llama a vlastní NVIDIA Nemotron modely
Free tier funguje na rate limitu přibližně 40 requestů za minutu na model. Není to unlimited — pokud chceš pumpovat tisíce requestů za minutu, narazíš. Ale pro tvojí appku, agenta nebo dávkovou klasifikaci textů to bohatě stačí.
Napojení na Claude Code (a další klienty)
NVIDIA endpoint je OpenAI-kompatibilní. Base URL je https://integrate.api.nvidia.com/v1 a API klíč začíná prefixem nvapi-. To znamená, že stejný setup funguje v Cursor, Cline, ai-sdk i v Claude Code přes OpenAI-compat mode.
Na detailu modelu klikni na tlačítko View code a NVIDIA ti rovnou ukáže kompletní snippet — jenom přepíšeš base URL a klíč. Detailní postup, jak přepojit providera v Claude Code, mám v samostatném článku.
Praktický tip: vytvoř si pro NVIDIA samostatný profil v Claude Code a přepínej mezi ním a oficiálním Anthropic endpointem podle toho, na čem zrovna děláš. Na rutinní refaktor, generování boilerplate kódu nebo analýzu dat ti GLM-5 nebo Qwen3-Coder-480B postačí, a ušetříš si Claude tokeny pro případy, kdy fakt potřebuješ Sonnet nebo Opus.
2. OpenRouter — rotující free modely
OpenRouter.ai je gateway, která sjednocuje stovky modelů pod jednu API. Aktuálně tam běží zhruba 30 modelů s :free suffixem a nulovou cenou za token.
Limity jsou skromnější než u NVIDIA: 20 requestů za minutu a 200 requestů za den na účet. Pokud jsi v minulosti nakoupil za 10 dolarů a víc kreditů, denní limit ti vyskočí na 1 000 requestů.
Pár konkrétních free slugů, které dnes můžeš použít:
deepseek/deepseek-chat-v3.1:freedeepseek/deepseek-r1:freez-ai/glm-4.5-air:freeminimax/minimax-m2:freemoonshotai/kimi-k2:freeqwen/qwen3-coder:freegoogle/gemma-3-27b-it:freeinclusionai/ling-2.6-flash:free(104B/7.4B active — solidní pro klasifikaci)- různé varianty
meta-llama/llama-*:freeamistralai/*:free
Free seznam se mění v čase. Qwen 3 Coder ještě nedávno trhal rekordy v používání, někdy se model na chvíli stáhne a zase vrátí. Sleduj kolekci openrouter.ai/collections/free-models — to je single source of truth.
Na co je OpenRouter ideální? Batch klasifikace textů, sentiment analýza, levné A/B porovnání modelů, prototypy agentů. Pro produkční smyčku, která tahá tisíce volání denně, je to malý — tam radši NVIDIA nebo placený plán.
Velkou výhodou OpenRouteru je, že stejným kódem otestuješ deset různých modelů. Místo aby sis psal integrace pro každého poskytovatele zvlášť, jenom v requestu vyměníš model slug. Hodí se to extrémně, když si vybíráš, který open-weight model dá nejlepší výsledky pro tvoji konkrétní úlohu — třeba české shrnování textů, generování JSON odpovědí nebo classification s Pydantic schématem.
3. Ollama Cloud — stejné modely, jiný provider
Ollama Cloud je hostovaná verze Ollamy, která běží stejné modely jako NVIDIA — Kimi K2, DeepSeek family, Qwen, Gemma a další open-weight věci. Free tier ti dovolí jeden běžící cloud model najednou s lehkým objemem volání.
Pokud chceš víc, jdeš na Pro za zhruba 20 dolarů měsíčně (50× větší usage, 3 paralelní modely), nebo Max za zhruba 100 dolarů pro produkční agenty a RAG pipeline.
Výhoda Ollamy je, že máš stejné API rozhraní jak pro lokální ollama run, tak pro cloud. Můžeš začít lokálně na MacBooku, a když potřebuješ víc výkonu, jenom přepneš endpoint a všechno funguje dál. Stejně jako u NVIDIA, model voláš z Claude Code, ze skriptu, nebo z webové aplikace.
Konkrétní limity na free tieru Ollama čas od času mění, takže před produkčním nasazením koukni přímo na ollama.com/pricing.
Pokud máš slušný stroj (M-čip MacBook se 32+ GB RAM nebo desktop s GPU), zvaž lokální Ollamu místo cloudu. Modely jako Gemma 3 27B, Qwen3 14B nebo DeepSeek-R1 distillované varianty ti poběží na vlastním železe nulové ceny za token. Cloud má smysl, když chceš jet velký 70B+ model bez nákupu hardware, nebo když k modelu potřebuje přistupovat víc lidí.
4. OpenCode Go — placené, ale extrémně levné
Tohle už není zdarma, ale je to tak levné, že stojí za zmínku. OpenCode je open-source coding klient (alternativa Claude Code) a má dva placené plány, které tě napojí na top modely.
Go plán stojí 5 dolarů první měsíc, pak 10 dolarů měsíčně. Limity nejsou v hodinách — jsou ve formě dolarového ekvivalentu spotřeby:
- 12 dolarů ekvivalentu každých 5 hodin (klouzavé okno)
- 30 dolarů týdně
- 60 dolarů měsíčně
V Go plánu máš přístup k aktuálním top open-weight modelům: GLM-5.1, Kimi K2.5 a K2.6, MiMo-V2, Qwen3.5/3.6 Plus a MiniMax M2.5/M2.7. Pro běžnou coding session, kde si pustíš agenta na hodinu nebo dvě, je to extrémně dobrá koupě — za 10 dolarů měsíčně dostaneš výrazně víc než za stejnou cenu u placeného OpenAI nebo Anthropic plánu.
Zen plán je pay-as-you-go gateway. Tam si můžeš dobíjet kredity a sahat i na GPT, Claude a Gemini — ale 20 dolarů utratíš za jeden delší večer u Sonnetu. Doporučení: Go pro denní coding, Zen jenom když potřebuješ konkrétní frontier model na pár dotazů.
Pro enterprise je tu ještě Black plán za 200 dolarů měsíčně s OpenAI, Anthropic i premium open-weight (GLM-4.7, Kimi K2).
Bonus: další zdroje free creditů
Mimo čtyř hlavních providerů máš ještě pár míst, kde se dají sebrat extra free tokeny.
Cloudflare Workers AI dává 10 000 Neurons denně zdarma (reset 00:00 UTC), a to platí i v rámci 5dolarového Workers Paid plánu. Pro představu: Flux 1 Schnell na 4 stepech a jednom 512×512 dlaždici sežere zhruba 43 neurons, takže se vejdeš na nějakých 200+ obrázků denně — ideální pro automatickou generaci ilustrací k článkům nebo náhledů.
Gemini API má pořád free tier bez kreditky. Modely Gemini 2.5 Flash, 2.0 Flash a 1.5 Pro běží s limity 5–30 requestů za minutu a 100–1 000 requestů za den. Pozor — v dubnu 2026 Google omezil free quoty o 50–80 %, zavedl povinné spending capy a Pro modely strčil za paywall. Stačí to pořád na lehké testy a pět tisíc tokenů denně, ale produkční pipeline tam už nepostavíš.
Gemini CLI (github.com/google-gemini/gemini-cli) je oficiální terminálový klient, který ti dá free přístup ke Gemini modelům přímo z příkazové řádky.
Antigravity je nové Google IDE s vestavěnou AI. Po loginu dostaneš nějaký free objem volání, ale Google to teď víc utahuje, takže s tím nepočítej jako se stabilním zdrojem do produkce.
Kdy free tokeny dávají smysl (a kdy radši plať)
Free tier je geniální na experimenty, učení, side projekty, batch joby a klasifikační úlohy. Pokud děláš víkendovou app, prototypy, nebo tvoříš obsah pomocí AI agentů a nepotřebuješ stoprocentní uptime, vystačíš si s NVIDIA + OpenRouter + Cloudflare a neutratíš nic.
Placený plán řeší produkci, agent loops, kde stabilita je víc než cena, a frontier modely. Když má tvůj agent obsluhovat zákazníky 24/7, nebo potřebuješ Claude Opus na složitou syntézu, free tier ti to neutáhne — tam má smysl jít do OpenCode Go za 10 dolarů, nebo přímo k Anthropic/OpenAI.
Závěr
Stačí si zaregistrovat účet u NVIDIA, OpenRouteru a Ollamy a máš v ruce stack, který pokryje 80 % všeho, na co bys jinak utratil stovky dolarů měsíčně. K tomu si přidej OpenCode Go za 10 dolarů, když děláš coding, a Cloudflare za 5 dolarů na ilustrace, a sedíš na kompletní AI infrastruktuře za 15 dolarů měsíčně.
Můj osobní setup vypadá zhruba takhle: NVIDIA jako primární endpoint pro většinu volání, OpenRouter jako fallback a místo na rychlé porovnání nových modelů, Ollama lokálně pro citlivá data, která nesmí ven, a Anthropic Sonnet placený, když potřebuju nejlepší kvalitu pro produkční pipeline. Tahle kombinace mi dává volnost experimentovat bez strachu z účtu na konci měsíce.
Pusť si video nahoře pro detailní walkthrough přes všechny providery a napiš mi do komentářů, jaké další free zdroje tokenů používáš ty. Sleduj taky nové modely na build.nvidia.com — NVIDIA tam přidává top open-weight modely často během dní po jejich release.