Domů / Obsah / Gemini / Gemma 4 lokálně: Jak spustit n...

Gemini 05.04.2026 Tutorial

Gemma 4 lokálně: Jak spustit nejsilnější open-source AI od Google na vlastním počítači

Google vydal Gemma 4 pod Apache 2.0 licencí. Ukážu ti, jak ji spustíš na vlastním hardwaru a přestaneš platit za API.

Kompletní návod

Platíš měsíčně za GPT, Claude nebo Gemini API? Co kdybys mohl mít srovnatelný výkon přímo na svém počítači -- bez měsíčních poplatků, bez limitů a s plnou kontrolou nad daty? Google právě vydal Gemma 4 a je to nejsilnější open-source model, který si můžeš stáhnout a spustit lokálně.

Co je Gemma 4 a proč by tě měla zajímat

Gemma 4 je rodina open-source modelů od Google DeepMind, postavená na stejné architektuře jako Gemini 3. Na rozdíl od komerčních modelů ji ale dostaneš pod Apache 2.0 licencí -- žádné limity na počet uživatelů, žádné omezení komerčního použití, plná svoboda.

Google vydal čtyři varianty:

Model	Parametry	Kontext	Nejlepší pro
E2B	2B (efektivní)	32K	Mobily, IoT, rychlé odpovědi
E4B	4B (efektivní)	32K	Lehké edge nasazení, chatboty
26B MoE	26B (Mixture of Experts)	256K	Kódování, analýza, produkce
31B Dense	31B	256K	Maximální kvalita, reasoning

Čísla mluví jasně: na matematickém benchmarku AIME 2026 skočila Gemma 4 z 20,8 % (Gemma 3) na 89,2 %. Na kódovacím LiveCodeBench ze 29,1 % na 80 %. A na vědeckém GPQA ze 42,4 % na 84,3 %. To je skok, jaký mezi generacemi open-source modelů vídáme zřídka.

A hlavně -- Gemma 4 je multimodální od základu. Rozumí obrázkům v libovolném rozlišení, menší varianty zpracují i audio (rozpoznávání řeči a překlad) a větší modely zvládnou i 60sekundové video.

Který model si vybrat

Než začneš stahovat, potřebuješ vědět, co přesně řešíš. Tady je praktický rozcestník:

Chceš rychlý lokální chatbot pro každodenní dotazy? Zvol E4B. Běží i na 8 GB VRAM, odpoví během vteřin a zvládne běžné pracovní úlohy -- sumarizace, přepis, jednoduchý kód.

Potřebuješ AI pro kódování a složitější analýzy? 26B MoE je tvoje volba. Mixture of Experts architektura znamená, že při inferenci aktivuje jen část parametrů -- dostaneš výkon 26B modelu za cenu výrazně nižší paměťové náročnosti. S 16 GB VRAM (RTX 4060 Ti a výš) poběží plynule.

Chceš maximální kvalitu bez kompromisů? 31B Dense -- třetí nejlepší open-source model na světě podle Arena AI. Počítej ale s tím, že potřebuješ minimálně 24 GB VRAM (RTX 4090 nebo A100).

Stavíš mobilní aplikaci nebo edge řešení? E2B je určený přesně pro tohle. Google ho integroval přímo do Android AICore, takže na podporovaných telefonech poběží nativně.

Jak Gemma 4 spustíš za 5 minut

Nejrychlejší cesta k fungující lokální Gemma 4 vede přes LM Studio nebo Ollama. Obě varianty zvládneš bez příkazové řádky.

Varianta 1: LM Studio (GUI)

Stáhni LM Studio pro svůj systém (Windows, Mac, Linux)
V hledání zadej "Gemma 4"
Vyber variantu podle svého hardwaru (E4B pro 8 GB VRAM, 26B pro 16 GB+)
Klikni na stažení a počkej
Spusť chat -- hotovo

LM Studio automaticky detekuje tvůj hardware a navrhne optimální kvantizaci. Pro většinu použití stačí Q4_K_M varianta, která nabízí dobrý kompromis mezi kvalitou a rychlostí.

Varianta 2: Ollama (terminál)

# Instalace
curl -fsSL https://ollama.com/install.sh | sh

# Stažení a spuštění Gemma 4
ollama run gemma4:26b

# Nebo menší varianta
ollama run gemma4:4b

Ollama je ideální, pokud chceš Gemma 4 zabudovat do vlastního workflow -- automaticky spustí lokální API server na localhost:11434, který má kompatibilní rozhraní s OpenAI API.

Varianta 3: Pro vývojáře (Python + vLLM)

from vllm import LLM, SamplingParams

llm = LLM(model="google/gemma-4-26b")
output = llm.generate(
    ["Napiš mi Python funkci pro parsování CSV"],
    SamplingParams(temperature=0.7, max_tokens=1024)
)
print(output[0].outputs[0].text)

vLLM nabízí nejvyšší throughput pro produkční nasazení. Pokud budeš Gemma 4 servírovat více uživatelům nebo ji integrovat do pipeline, je to správná volba.

Praktické scénáře pro tvou práci

Lokální code review bez API nákladů

Máš firemní kód, který nechceš posílat do cloudu? S Gemma 4 26B MoE můžeš spustit vlastní code review pipeline:

# Ollama API + git diff
git diff HEAD~1 | curl -s localhost:11434/api/generate \
  -d "{\"model\": \"gemma4:26b\", \"prompt\": \"Zkontroluj tento diff a najdi potenciální problémy:\\n$(git diff HEAD~1)\"}"

Žádná data neopustí tvůj počítač. Žádné API poplatky. A kvalita review je srovnatelná s GPT-4o.

Multimodální analýza dokumentů

Gemma 4 rozumí obrázkům -- nafoť whiteboard z meetingu, hoď screenshoty z konkurenčního webu nebo předlož scan faktury. Model zpracuje vizuální vstup přímo, bez OCR preprocessing.

Vlastní AI asistent v Slacku nebo Discordu

Díky Ollama API můžeš za odpoledne postavit firemního chatbota, který:

Odpovídá na interní dotazy z firemní knowledge base
Zpracovává obrázky a screenshoty
Běží na tvém serveru bez měsíčních nákladů

Nejčastější problémy a řešení

Model se nespustí nebo je příliš pomalý Zkontroluj, zda máš dostatek VRAM. E4B potřebuje minimálně 8 GB, 26B MoE 16 GB. Pokud ti hardware nestačí, zkus nižší kvantizaci (Q3 nebo Q2) -- kvalita mírně klesne, ale model poběží.

Odpovědi jsou nepřesné nebo halucinují Zkus vyšší kvantizaci (Q6 nebo Q8) nebo větší model. Menší modely (E2B, E4B) mají vyšší tendenci k halucinacím u složitých úkolů. Pro kritické úlohy preferuj 26B nebo 31B variantu.

Nefunguje multimodální vstup Ujisti se, že používáš model, který podporuje vision (všechny varianty kromě E2B). Některé frontendy (starší verze LM Studio) nemusí podporovat obrázkový vstup -- aktualizuj na nejnovější verzi.

Na co si dát pozor

Hardwarové nároky jsou reálné. E4B model je vstupní brána -- ale 26B a 31B varianty vyžadují slušnou GPU. Pokud máš jen integrovanou grafiku, zůstaň u E2B nebo E4B.

Kvantizace ovlivňuje kvalitu. Při snižování přesnosti (Q4, Q3) ztrácíš jemné nuance v odpovědích. Pro kreativní psaní a náročné reasoning úlohy preferuj vyšší kvantizaci (Q6 nebo Q8), pokud ti to hardware dovolí.

Kontext 256K není zadarmo. Větší kontext znamená vyšší paměťové nároky. Pokud běžně pracuješ s krátkými prompty, nastav max context nižší -- ušetříš VRAM a zrychlíš odpovědi.

Apache 2.0 neznamená bez zodpovědnosti. Licenčně můžeš všechno, ale etické použití je na tobě. Google nepřidává guardrails -- pokud nasadíš model ve firmě, řeš moderaci sám.

Komu se vyplatí přejít na lokální model

Lokální Gemma 4 dává smysl zejména pokud:

Platíš přes 50 USD měsíčně za AI API -- návratnost investice do GPU je pak otázkou týdnů
Pracuješ s citlivými daty -- právní dokumenty, firemní kód, zdravotní záznamy
Potřebuješ offline přístup -- na cestách, v bezpečnostně izolovaném prostředí
Stavíš produkt -- nechceš být závislý na ceně a dostupnosti cizího API

Závěr

Gemma 4 posunula laťku open-source AI na úroveň, kde nemá smysl platit za komerční API, pokud ti stačí model střední velikosti. Se čtyřmi variantami pokrývá všechno od telefonu po produkční server. Apache 2.0 licence odstraňuje právní nejistoty. A podpora v LM Studio, Ollama i vLLM znamená, že od rozhodnutí ke spuštění tě dělí doslova minuty.

Stáhni si E4B nebo 26B variantu, vyzkoušej ji na svém reálném use case a uvidíš sám, jestli ti AI API účty ještě dávají smysl.

// Zmíněné AI nástroje

Začínáte s AI?

Navštivte zacinamsai.cz — průvodce světem AI pro úplné začátečníky.

Přejít na Začínáme s AI →

// Další články, které by tě mohly zajímat

Gemini

Veo 3.1 vs Sora 2026: Souboj AI video modelů

Sora od OpenAI skončila 26. dubna 2026. Srovnání s Google Veo 3.1: proč skončila, co zbylo a co dnes místo Sory použít pro AI video.

28.04.2026 Zobrazit

Gemini

Google Workspace s Gemini 2026: Praktický průvodce AI v Docs, Sheets a Drive

Gemini je dnes standardní součástí Google Workspace Business Standard, Plus i Enterprise — bez příplatku. Zjistěte, co AI umí v Docs, Sheets, Slides, Drive a Gmailu, kolik stojí rozšířené plány a jak si díky tomu zorganizovat pracovní den krok za krokem.

12.03.2026 Zobrazit

Gemini

Gemini vs Grok: Souboj AI vyzyvatelů v 2026

Gemini 3.1 Pro od Googlu, nebo Grok 4.3 od xAI? Aktuální srovnání cen, kontextových oken, výkonu v benchmarcích, integrace do Workspace i X a doporučení, který nástroj se hodí pro vaši práci.

28.04.2026 Zobrazit

Gemini

Gemini 3.5 Flash: Jak postavit agentic workflow, který šetří hodiny denně

Google vydal Gemini 3.5 Flash přímo pro agentic workflow. Ukážu ti 3 konkrétní způsoby, jak ho nasadit ve firmě a uvolnit čas na důležitější práci.

24.06.2026 Zobrazit

Gemini Video

Gemini pro práci 2026: 7 workflow + NotebookLM, které vám ušetří 5 hodin týdně

Gemini je přímo v Gmail, Docs, Sheets a Meet — bez přepínání kontextu. 7 konkrétních workflow + NotebookLM pro hluboký výzkum. Reálná úspora 5 hodin/týden.

17.12.2025 Zobrazit

Gemini

Flux vs Nano Banana 2 vs Grok Image: AI generátory 2026

Tři AI generátory obrázků, tři různé filozofie. Flux (open weights), Nano Banana 2 od Googlu a Grok Image od xAI — porovnáváme cenu, kvalitu, konzistenci a API

28.04.2026 Zobrazit

Zobrazit všechny články

Potřebujete pomoct s AI automatizací?

Domluvte si nezávaznou konzultaci →

← Zpět na přehled obsahu

Gemma 4 lokálně: Jak spustit nejsilnější open-source AI od Google na vlastním počítači

Kompletní návod

Co je Gemma 4 a proč by tě měla zajímat

Který model si vybrat

Jak Gemma 4 spustíš za 5 minut

Varianta 1: LM Studio (GUI)

Varianta 2: Ollama (terminál)

Varianta 3: Pro vývojáře (Python + vLLM)

Praktické scénáře pro tvou práci

Lokální code review bez API nákladů

Multimodální analýza dokumentů

Vlastní AI asistent v Slacku nebo Discordu

Nejčastější problémy a řešení

Na co si dát pozor

Komu se vyplatí přejít na lokální model

Závěr

// Zmíněné AI nástroje

Claude AI

Gemma 4

Gemini

Začínáte s AI?

// Další články, které by tě mohly zajímat

Veo 3.1 vs Sora 2026: Souboj AI video modelů

Google Workspace s Gemini 2026: Praktický průvodce AI v Docs, Sheets a Drive

Gemini vs Grok: Souboj AI vyzyvatelů v 2026

Gemini 3.5 Flash: Jak postavit agentic workflow, který šetří hodiny denně

Gemini pro práci 2026: 7 workflow + NotebookLM, které vám ušetří 5 hodin týdně

Flux vs Nano Banana 2 vs Grok Image: AI generátory 2026

Buď v AI o krok vpřed

Než půjdeš…