FDM-1: AI ovládá počítač díky 11 milionům hodin videa

Když se řekne "AI ovládá počítač", většina lidí si představí systém, který si dělá screenshoty, analyzuje je a pak klikne na správné tlačítko. Přesně takhle funguje Anthropic Computer Use i OpenAI Operator. Malý sanfranciský startup Standard Intelligence to ale otočil úplně naruby.

Jejich nový model FDM-1 se učil používat počítač stejně jako člověk -- díváním se na obrazovku. Ne na screenshoty. Na plynulé video při 30 snímcích za sekundu. A naučil se z 11 milionů hodin nahrávek. To je víc než 1 200 let nepřetržitého sledování.

Co je FDM-1 a proč je to velká věc

FDM-1 (Foundation Dynamics Model) je základní model, který Standard Intelligence navrhl pro ovládání počítačů. Na rozdíl od všech současných řešení nepracuje se screenshoty ani s parsováním UI prvků. Místo toho zpracovává surové video a na jeho základě předpovídá další akci -- stisknutí klávesy nebo pohyb myši.

Výsledek? Model, který zvládá:

3D modelování v Blenderu -- vytvoří ozubené kolo podle zadání
Navigaci po webových stránkách -- prokliká se složitým rozhraním
Hledání bugů v software -- projde kód a najde problémy
Řízení auta -- po méně než hodině fine-tuningu ovládá skutečné auto v San Franciscu pomocí šipek na klávesnici

Poslední bod přečti ještě jednou. AI model trénovaný na nahrávkách obrazovky se naučil řídit auto. Za méně než hodinu. To ukazuje, jak univerzální tento přístup je.

Technické kouzlo: video enkodér, který mění pravidla hry

Klíčová inovace FDM-1 není jen v tom, že používá video místo screenshotů. Je to v tom, jak efektivně to video zpracovává.

Standard Intelligence vyvinul vlastní video enkodér, který dokáže zkomprimovat skoro 2 hodiny videa při 30 FPS do 1 milionu tokenů. Pro porovnání -- enkodér od OpenAI by na stejné video potřeboval 100x více tokenů. Předchozí state-of-the-art byl 50x méně efektivní.

Proč je to důležité? Protože tokeny jsou to, co AI modely zpracovávají. Čím méně tokenů na stejný objem dat, tím víc informací se do modelu vejde a tím levnější je celý proces. Tenhle enkodér je důvod, proč FDM-1 může pracovat s tak masivním datasetem.

Tři fáze tréninku: jak se z videa stane akce

Trénink FDM-1 proběhne ve třech fázích a je to elegantní řešení problému, který ostatní firmy teprve začínají řešit:

1. Inverzní dynamický model (IDM)

Nejdřív Standard Intelligence natrénovalo menší model na 40 000 hodinách ručně označkovaných nahrávek. Tenhle model se naučil poznat, co se na obrazovce děje -- jaká akce vedla ke změně, kterou na videu vidíme.

2. Automatické označkování obřího datasetu

Naučený IDM pak automaticky označkoval 11 milionů hodin videa. Místo toho, aby tisíce lidí ručně anotovaly každý snímek, udělal to AI sám. Tohle je ten škálovací trik -- 40 000 hodin ruční práce se proměnilo v 11 milionů hodin automaticky označkovaných dat.

3. Trénink FDM-1

Nakonec se na takhle označkovaných videích trénovalo samotné FDM-1. Model předpovídá další akci (stisk klávesy, pohyb myši) na základě toho, co vidí na obrazovce. Žádný chain-of-thought, žádné mezikroky. Čistý vstup: video. Čistý výstup: akce.

Screenshot vs. video: dva světy computer-use AI

Současný trh s AI ovládáním počítačů rozdělují dva fundamentálně odlišné přístupy.

Přístup přes screenshoty (Anthropic Computer Use, OpenAI Operator, Google Mariner):

AI si udělá screenshot
Analyzuje obraz pomocí vision modelu
Rozhodne, kam kliknout nebo co napsat
Opakuje dokola

Tento přístup funguje, ale má zásadní omezení. Každá akce vyžaduje nový screenshot, novou analýzu a nové rozhodnutí. Je to pomalé a neefektivní. A hlavně -- ztrácí se kontext toho, co se dělo předtím.

Přístup přes video (FDM-1):

AI zpracovává plynulý proud videa při 30 FPS
Vidí celou historii toho, co se na obrazovce dělo
Předpovídá další akci na základě kontinuálního kontextu
Není potřeba chain-of-thought reasoning

Rozdíl je jako mezi tím, kdybys člověku ukazoval fotky každou sekundu a říkal "co teď?", versus kdybys ho nechal se normálně dívat na obrazovku a pracovat. Druhý přístup je přirozený, plynulý a umožňuje pochopit složitější workflow.

Proč je to důležité pro byznys

Tady to začíná být opravdu zajímavé pro kohokoliv, kdo přemýšlí o automatizaci počítačové práce.

Problém dat je vyřešený

Dosud byl hlavní překážkou pro computer-use AI nedostatek trénovacích dat. Kde vzít miliony příkladů toho, jak lidé používají software? Standard Intelligence ukazuje, že data už existují -- jsou to miliony hodin codingových livestreamů na Twitch a YouTube, CAD tutoriály, gameplay videa a nahrávky obrazovek.

FDM-1 mění computer-use AI z problému omezených dat na problém omezeného výpočetního výkonu. A výpočetní výkon roste podle Mooreova zákona. Data ne.

Univerzálnost místo specializace

Současné AI nástroje pro ovládání počítače jsou specializované -- jeden umí webové prohlížeče, jiný desktopové aplikace. FDM-1 je první model, který je opravdu univerzální. Protože se učil z videa, nezáleží mu na tom, jestli ovládá Blender, webový prohlížeč nebo auto. Princip je pořád stejný: díváš se na obrazovku a děláš akce.

Fine-tuning za hodinu

Schopnost rychlého fine-tuningu je pro firmy klíčová. FDM-1 dokáže za méně než hodinu adaptace začít ovládat úplně nový software. To znamená, že firma nemusí čekat měsíce na vlastní model -- stačí kus záznamu toho, jak zaměstnanec používá interní systém, a AI se to naučí.

Co to znamená pro český trh

Možná si říkáš, že tohle je daleko od tvého denního byznysu. Ale sleduj ten trend:

1. Automatizace repetitivních úkolů je na dosah. Každá firma má procesy, kde někdo opakuje pořád stejné kroky v softwaru -- vyplňuje formuláře, přesouvá data mezi systémy, generuje reporty. FDM-1 ukazuje cestu, jak tyto procesy automatizovat bez složité integrace.

2. AI agenti se stávají softwarově agnostickými. Nemusíš mít API, nemusíš mít integraci. AI agent, který pracuje s videem, může ovládat jakýkoliv software -- včetně starého legacy systému, pro který už žádné API neexistuje.

3. Závod o computer-use AI se zrychluje. Anthropic, OpenAI, Google a teď i Standard Intelligence -- všichni závodí o to, kdo přinese nejlepší řešení pro AI ovládání počítačů. Pro firmy to znamená, že ceny budou klesat a možnosti růst.

4. Trénovací data z tvé firmy mají hodnotu. Pokud tví zaměstnanci nahrávají obrazovky (tutoriály, onboarding videa, screencasts), ta data mohou být v budoucnu použita k trénování AI, které převezme jejich rutinní práci.

Limity a realita

Aby byl obraz kompletní -- FDM-1 není kouzelné řešení na všechno.

Standard Intelligence je malý startup, ne Google nebo OpenAI. Jejich zdroje jsou omezené a model zatím není veřejně dostupný. Neexistují nezávislé benchmarky, které by potvrdily všechna tvrzení z jejich blogu.

Také stojí za zmínku, že přístup bez chain-of-thought reasoning může být omezující u úkolů, které vyžadují složité logické uvažování. Model "jen" replikuje to, co viděl na videu -- neplánuje, neuvažuje, neřeší problémy kreativně.

A konečně -- 11 milionů hodin dat obsahuje spoustu šumu. Ne každé video je kvalitní trénovací materiál. Otázka filtrace a kvality dat je klíčová a Standard Intelligence o ní v blogu mluví jen okrajově.

Kam to všechno směřuje

FDM-1 je důležitý i tehdy, když se z něj nikdy nestane komerční produkt. Proč? Protože ukazuje novou cestu.

Zatímco celý průmysl vsadil na screenshoty a chain-of-thought, Standard Intelligence dokázal, že přístup přes video funguje. A funguje dobře. Pokud se tento přístup osvědčí, čekej, že ho adoptují i velcí hráči -- Google s YouTube datasetem, Microsoft s Teams nahrávkami, Anthropic s vylepšením svého Computer Use.

Rok 2026 se stává rokem, kdy AI přestává jen odpovídat na otázky a začíná fyzicky ovládat software. FDM-1 je další krok na této cestě. A tentokrát přišel z místa, odkud ho nikdo nečekal.