Menu
Přihlásit
Domů / Obsah / Gemini / Gemma 4 lokálně: Jak spustit n...
Gemini 05.04.2026 Tutorial

Gemma 4 lokálně: Jak spustit nejsilnější open-source AI od Google na vlastním počítači

Google vydal Gemma 4 pod Apache 2.0 licencí. Ukážu ti, jak ji spustíš na vlastním hardwaru a přestaneš platit za API.

Kompletní návod

Platíš měsíčně za GPT, Claude nebo Gemini API? Co kdybys mohl mít srovnatelný výkon přímo na svém počítači — bez měsíčních poplatků, bez limitů a s plnou kontrolou nad daty? Google právě vydal Gemma 4 a je to nejsilnější open-source model, který si můžeš stáhnout a spustit lokálně.

Co je Gemma 4 a proč by tě měla zajímat

Gemma 4 je rodina open-source modelů od Google DeepMind, postavená na stejné architektuře jako Gemini 3. Na rozdíl od komerčních modelů ji ale dostaneš pod Apache 2.0 licencí — žádné limity na počet uživatelů, žádné omezení komerčního použití, plná svoboda.

Google vydal čtyři varianty:

Model Parametry Kontext Nejlepší pro
E2B 2B (efektivní) 32K Mobily, IoT, rychlé odpovědi
E4B 4B (efektivní) 32K Lehké edge nasazení, chatboty
26B MoE 26B (Mixture of Experts) 256K Kódování, analýza, produkce
31B Dense 31B 256K Maximální kvalita, reasoning

Čísla mluví jasně: na matematickém benchmarku AIME 2026 skočila Gemma 4 z 20,8 % (Gemma 3) na 89,2 %. Na kódovacím LiveCodeBench ze 29,1 % na 80 %. A na vědeckém GPQA ze 42,4 % na 84,3 %. To je skok, jaký mezi generacemi open-source modelů vídáme zřídka.

A hlavně — Gemma 4 je multimodální od základu. Rozumí obrázkům v libovolném rozlišení, menší varianty zpracují i audio (rozpoznávání řeči a překlad) a větší modely zvládnou i 60sekundové video.

Který model si vybrat

Než začneš stahovat, potřebuješ vědět, co přesně řešíš. Tady je praktický rozcestník:

Chceš rychlý lokální chatbot pro každodenní dotazy? Zvol E4B. Běží i na 8 GB VRAM, odpoví během vteřin a zvládne běžné pracovní úlohy — sumarizace, přepis, jednoduchý kód.

Potřebuješ AI pro kódování a složitější analýzy? 26B MoE je tvoje volba. Mixture of Experts architektura znamená, že při inferenci aktivuje jen část parametrů — dostaneš výkon 26B modelu za cenu výrazně nižší paměťové náročnosti. S 16 GB VRAM (RTX 4060 Ti a výš) poběží plynule.

Chceš maximální kvalitu bez kompromisů? 31B Dense — třetí nejlepší open-source model na světě podle Arena AI. Počítej ale s tím, že potřebuješ minimálně 24 GB VRAM (RTX 4090 nebo A100).

Stavíš mobilní aplikaci nebo edge řešení? E2B je určený přesně pro tohle. Google ho integroval přímo do Android AICore, takže na podporovaných telefonech poběží nativně.

Jak Gemma 4 spustíš za 5 minut

Nejrychlejší cesta k fungující lokální Gemma 4 vede přes LM Studio nebo Ollama. Obě varianty zvládneš bez příkazové řádky.

Varianta 1: LM Studio (GUI)

  1. Stáhni LM Studio pro svůj systém (Windows, Mac, Linux)
  2. V hledání zadej „Gemma 4"
  3. Vyber variantu podle svého hardwaru (E4B pro 8 GB VRAM, 26B pro 16 GB+)
  4. Klikni na stažení a počkej
  5. Spusť chat — hotovo

LM Studio automaticky detekuje tvůj hardware a navrhne optimální kvantizaci. Pro většinu použití stačí Q4_K_M varianta, která nabízí dobrý kompromis mezi kvalitou a rychlostí.

Varianta 2: Ollama (terminál)

# Instalace
curl -fsSL https://ollama.com/install.sh | sh

# Stažení a spuštění Gemma 4
ollama run gemma4:26b

# Nebo menší varianta
ollama run gemma4:4b

Ollama je ideální, pokud chceš Gemma 4 zabudovat do vlastního workflow — automaticky spustí lokální API server na localhost:11434, který má kompatibilní rozhraní s OpenAI API.

Varianta 3: Pro vývojáře (Python + vLLM)

from vllm import LLM, SamplingParams

llm = LLM(model="google/gemma-4-26b")
output = llm.generate(
    ["Napiš mi Python funkci pro parsování CSV"],
    SamplingParams(temperature=0.7, max_tokens=1024)
)
print(output[0].outputs[0].text)

vLLM nabízí nejvyšší throughput pro produkční nasazení. Pokud budeš Gemma 4 servírovat více uživatelům nebo ji integrovat do pipeline, je to správná volba.

Praktické scénáře pro tvou práci

Lokální code review bez API nákladů

Máš firemní kód, který nechceš posílat do cloudu? S Gemma 4 26B MoE můžeš spustit vlastní code review pipeline:

# Ollama API + git diff
git diff HEAD~1 | curl -s localhost:11434/api/generate \
  -d "{\"model\": \"gemma4:26b\", \"prompt\": \"Zkontroluj tento diff a najdi potenciální problémy:\n$(git diff HEAD~1)\"}"

Žádná data neopustí tvůj počítač. Žádné API poplatky. A kvalita review je srovnatelná s GPT-4o.

Multimodální analýza dokumentů

Gemma 4 rozumí obrázkům — nafoť whiteboard z meetingu, hoď screenshoty z konkurenčního webu nebo předlož scan faktury. Model zpracuje vizuální vstup přímo, bez OCR preprocessing.

Vlastní AI asistent v Slacku nebo Discordu

Díky Ollama API můžeš za odpoledne postavit firemního chatbota, který:

  • Odpovídá na interní dotazy z firemní knowledge base
  • Zpracovává obrázky a screenshoty
  • Běží na tvém serveru bez měsíčních nákladů

Na co si dát pozor

Hardwarové nároky jsou reálné. E4B model je vstupní brána — ale 26B a 31B varianty vyžadují slušnou GPU. Pokud máš jen integrovanou grafiku, zůstaň u E2B nebo E4B.

Kvantizace ovlivňuje kvalitu. Při snižování přesnosti (Q4, Q3) ztrácíš jemné nuance v odpovědích. Pro kreativní psaní a náročné reasoning úlohy preferuj vyšší kvantizaci (Q6 nebo Q8), pokud ti to hardware dovolí.

Kontext 256K není zadarmo. Větší kontext znamená vyšší paměťové nároky. Pokud běžně pracuješ s krátkými prompty, nastav max context nižší — ušetříš VRAM a zrychlíš odpovědi.

Apache 2.0 neznamená bez zodpovědnosti. Licenčně můžeš všechno, ale etické použití je na tobě. Google nepřidává guardrails — pokud nasadíš model ve firmě, řeš moderaci sám.

Komu se vyplatí přejít na lokální model

Lokální Gemma 4 dává smysl zejména pokud:

  • Platíš přes 50 USD měsíčně za AI API — návratnost investice do GPU je pak otázkou týdnů
  • Pracuješ s citlivými daty — právní dokumenty, firemní kód, zdravotní záznamy
  • Potřebuješ offline přístup — na cestách, v bezpečnostně izolovaném prostředí
  • Stavíš produkt — nechceš být závislý na ceně a dostupnosti cizího API

Závěr

Gemma 4 posunula laťku open-source AI na úroveň, kde nemá smysl platit za komerční API, pokud ti stačí model střední velikosti. Se čtyřmi variantami pokrývá všechno od telefonu po produkční server. Apache 2.0 licence odstraňuje právní nejistoty. A podpora v LM Studio, Ollama i vLLM znamená, že od rozhodnutí ke spuštění tě dělí doslova minuty.

Stáhni si E4B nebo 26B variantu, vyzkoušej ji na svém reálném use case a uvidíš sám, jestli ti AI API účty ještě dávají smysl.

Začínáte s AI?

Navštivte zacinamsai.cz — průvodce světem AI pro úplné začátečníky.

Přejít na Začínáme s AI →

// Další články, které by tě mohly zajímat

Potřebujete pomoct s AI automatizací?

Domluvte si nezávaznou konzultaci →