Tři roky platilo jedno nepsané pravidlo: chceš lepší AI? Postav větší model. Víc parametrů, víc dat, víc GPU. Japonská laboratoř Sakana AI vsadila na opak – a s modelem Sakana Fugu právě ukázala, že to může fungovat. Místo jednoho obřího mozku postavila chytrý systém, který kombinuje existující modely. A dohnala jím špičku, aniž by spálila miliardy na trénink.
Proč škálování narazilo na strop
Logika škálování byla jednoduchá a dlouho fungovala: zvětši model a on se zlepší. Jenže každý další skok je dražší než ten předchozí. Tréninky největších modelů stojí stovky milionů dolarů, spotřebovávají enormní množství energie a přínos se zmenšuje. Zdvojnásobit velikost už neznamená zdvojnásobit chytrost. Trh začal hledat jiné cesty, jak posunout výkon, aniž by se utopil v nákladech na výpočetní výkon.
Co je evoluční AI
Tady přichází Sakana se svým hlavním tématem. Evoluční AI je přístup inspirovaný biologií. Místo aby model jen rostl, optimalizuje se návrh celého systému pomocí principů, jako jsou mutace a selekce – zkus mnoho variant, ponech ty nejlepší, ty dál kombinuj. Je to filozofie „chytře poskládat" místo „postavit větší".
Konkrétní technika, kterou Sakana proslula, se jmenuje evoluční slučování modelů (evolutionary model merge). Zjednodušeně: vezmeš několik existujících modelů, každý dobrý v něčem jiném, a evolučním hledáním najdeš způsob, jak je spojit do jednoho, který umí to nejlepší z obou. Žádný nový drahý trénink od nuly – jen chytrá kombinace toho, co už existuje.
Lidé za Sakanou: spoluautor transformerů, který chce jinou cestu
Sakana AI založili v roce 2023 v Tokiu David Ha (dříve šéf výzkumu ve Stability AI) a Llion Jones. Jones je jedním ze spoluautorů práce „Attention Is All You Need" z roku 2017 – tedy člověk, který stál u zrodu transformerů, na nichž stojí dnešní LLM. O to zajímavější je, že právě on odmítá „hyperfixaci na škálování jednoho obřího modelu" a hledá alternativu.
Není to póza chudého outsidera. Sakana letos získala v rámci Series B okolo 200 milionů dolarů (32 miliard jenů) a mezi investory má i Mitsubishi Electric. Sázka na evoluci místo hrubé síly tedy má za sebou seriózní kapitál.
Jak se evoluce projevuje ve Fugu
Fugu je logickým vyústěním téhle filozofie. Není to jeden velký model, ale orchestrátor, který rozděluje úkoly mezi víc frontier modelů a vybírá pro každý úkol toho nejvhodnějšího. Jeho koordinátor TRINITY vznikl evolučním laděním. Místo „postavme model, který umí všechno" Sakana říká „naučme systém co nejchytřeji využít modely, které už umí hodně".
A právě tady je pointa celého příběhu: pokud dokážeš frontier výkonu dosáhnout chytrou orchestrací, nepotřebuješ nutně vyhrát závod ve velikosti. Stačí být nejchytřejší v tom, jak existující modely poskládáš.
Proč zrovna Japonsko a menší laboratoř
Stojí za zamyšlení, že tenhle alternativní směr netáhne žádný z amerických gigantů, ale relativně malá tokijská laboratoř. Má to svou logiku. Když nemáš nejhlubší kapsu na světě a nemůžeš utratit miliardy za trénink největšího modelu, musíš být chytřejší v tom, jak naložíš s tím, co existuje. Omezení tlačí k jiné cestě.
Sakana z toho udělala přednost. Místo aby se snažila porazit OpenAI nebo Anthropic v jejich vlastní hře o velikost, otevřela hřiště, kde se hraje o chytrost architektury. A přidává tím i geografickou rozmanitost do odvětví, které je jinak silně koncentrované v USA. Pro svět, který si po incidentu s Fable 5 začíná uvědomovat rizika závislosti na jediné zemi, je to víc než jen technický detail.
Příklad: jak evoluční slučování funguje v praxi
Aby ten princip nebyl jen abstraktní, vezmi si zjednodušený příklad. Máš jeden model, který skvěle programuje, ale slabě píše česky. A druhý, který krásně píše česky, ale v kódu plave. Klasická cesta by byla natrénovat od nuly nový model, který umí obojí – obrovsky drahé.
Evoluční slučování jde jinak. Vezme oba existující modely a hledáním zkouší tisíce způsobů, jak jejich vnitřní váhy zkombinovat. Většina kombinací je k ničemu, ale selekce ponechá ty, které fungují líp, a ty dál kombinuje. Po mnoha kolech vznikne model, který zdědil silné stránky obou – bez jediného drahého tréninku od nuly. Je to přesně ten princip, jaký vidíš v přírodě: zkoušej varianty, nech přežít ty nejlepší, opakuj.
Fugu tuhle myšlenku posouvá ještě dál. Místo aby slučoval váhy do jednoho modelu, nechává modely oddělené a chytře mezi nimi rozděluje práci za běhu. Výsledek je stejný v duchu: maximum vytěžit z toho, co už existuje.
Benchmark realita: čísla a jejich meze
Sakana svoje tvrzení podložila čísly. Tady je srovnání, jak ho zveřejnila:
| Benchmark | Fugu Ultra | Claude Fable 5 | GPT 5.5 | Opus 4.8 |
|---|---|---|---|---|
| SWE-Bench Pro | 73,7 % | 80,3 % | 58,6 % | 69,2 % |
| LiveCodeBench | 93,2 % | 89,8 % | – | – |
| TerminalBench 2.1 | 82,1 % | – | – | – |
| GPQA-D | 95,5 % | – | – | – |
Co z toho vyčteš? Fugu Ultra překonává Opus 4.8 i GPT 5.5 na SWE-Bench Pro a poráží Claude Fable 5 na LiveCodeBench. Na SWE-Bench Pro zůstává Fable 5 napřed. Orchestrátor tedy hraje v jedné lize s nejlepšími samostatnými modely – přesně to chtěla Sakana ukázat.
Co ty zkratky vlastně měří
Aby čísla dávala smysl, krátké vysvětlení:
- SWE-Bench testuje, jestli model dokáže vyřešit reálné programátorské úkoly z GitHubu – opravit chybu, doplnit funkci. Verze „Pro" je náročnější sada.
- LiveCodeBench měří schopnost psát kód na nových úlohách, které model nemohl vidět při tréninku.
- GPQA-D je sada těžkých odborných otázek na úrovni postgraduálního studia, kde nepomůže memorování.
Vysoké skóre na těchhle testech naznačuje silné schopnosti v kódu a uvažování. Ale pozor na to, co benchmark neukáže: rychlost v reálném provozu, cenu, spolehlivost na tvých konkrétních datech.
Velký háček: čísla jsou od výrobce
Tady musím být důrazný. Všechna uvedená čísla pocházejí od poskytovatelů, ne z nezávislého testování. Fugu je staré pár dní a žádná nezávislá strana ho zatím neprověřila. Historie AI benchmarků je plná případů, kdy se výrobcem hlášené skóre po nezávislém přezkoumání ukázalo jako optimistické. Ber proto tabulku jako zajímavý signál, ne jako prokázaný fakt. Skutečnou hodnotu modelu poznáš teprve podle toho, jak si povede na tvých vlastních úlohách.
Co si z toho vzít pro firmu
I když ty benchmarky bereš s rezervou, hlavní poselství platí: výkon přestává být výhradně otázkou velikosti modelu. To má praktické důsledky.
- Nemusíš vždy sahat po největším a nejdražším modelu. Chytrá kombinace levnějších modelů může dát srovnatelný výsledek za zlomek ceny.
- Sleduj architekturu, ne jen žebříčky. To, jak je systém poskládaný, začíná být důležitější než jediné číslo na vrcholu tabulky.
- Testuj na svém, ne na cizím. Žádný benchmark ti neřekne, jak si model povede na tvých datech. Krátký vlastní test ti řekne víc než marketingová tabulka.
Co to znamená pro budoucnost AI trhu
Pokud Sakana svůj přístup obhájí i v nezávislých testech, mění to pravidla hry hned dvojím způsobem.
Zaprvé, snižuje to bariéru vstupu. Trénovat vlastní frontier model si může dovolit jen hrstka nejbohatších firem na světě. Ale chytře orchestrovat existující modely zvládne mnohem víc hráčů. To může vést k pestřejšímu trhu, kde nevyhrává jen ten s nejhlubší kapsou na výpočetní výkon.
Zadruhé, mění to, kam míří inovace. Když výkon přestává být jen otázkou velikosti, přesouvá se pozornost k tomu, jak modely propojovat, koordinovat a kombinovat. To je oblast, kde se dá uspět chytrostí, ne jen rozpočtem – a kde má smysl sledovat i menší a evropské hráče, ne jen americké giganty.
Pro tebe jako uživatele nebo firmu je to dobrá zpráva. Větší konkurence a víc přístupů znamená víc možností, nižší ceny a menší riziko, že tě položí výpadek jediného dominantního hráče. Evoluce versus škálování tak není jen technický spor výzkumníků – je to otázka, jak bude vypadat celý trh, na kterém budeš svoje AI nástroje nakupovat.
Časté otázky
Znamená to, že je škálování mrtvé? Ne. Velké modely se dál zlepšují a Fugu je k životu potřebuje – orchestruje právě je. Spíš to ukazuje, že vedle škálování existuje i druhá cesta k vyššímu výkonu.
Je evoluční přístup novinka Sakany? Sakana ho zpopularizovala, ale myšlenky evolučního a kombinačního přístupu k modelům jsou ve výzkumu starší. Sakana je dotáhla do podoby produktu.
Můžu si Fugu vyzkoušet a ověřit ta čísla sám? V EU zatím ne – Fugu tu není dostupné. Až bude, vlastní test na tvých úlohách bude nejlepší způsob, jak ověřit, jestli marketingová čísla platí i pro tebe.
Je orchestrace totéž co evoluční AI? Ne, ale souvisí spolu. Evoluční AI je způsob, jak Sakana své systémy navrhuje a ladí. Orchestrace je výsledná podoba, ve které Fugu pracuje – chytré rozdělování úkolů mezi modely. Jedno je metoda, druhé produkt.
Závěr
Sakana Fugu je důkaz, že v AI existuje víc než jedna cesta na vrchol. Místo nejdražšího a největšího modelu může vyhrát ten, kdo nejchytřeji poskládá, co už máme. Benchmarky ber zatím opatrně – jsou od výrobce a bez nezávislého ověření. Ale směr je jasný a pro firmy příjemný: budoucnost nemusí patřit jen těm, kdo mají nejvíc GPU, ale i těm, kdo nejlíp přemýšlejí o tom, jak AI poskládat dohromady. A pokud platí, že chytrost poráží hrubou sílu, je to dobrá zpráva pro každého, kdo nemá rozpočet na vlastní superpočítač – tedy pro drtivou většinu z nás.