Každý příchozí hovor na tvojí podpůrní lince tě stojí průměrně 4–6 minut. Když jich je dvacet denně, přišel jsi o půlku pracovního dne na otázky, které se opakují: "Kde mám objednávku?", "Jak změním fakturační údaje?", "V jakých hodinách jste otevřeni?". A to nemluvím o večerech, víkendech a frontě čekajících zákazníků.
AI hlasoví agenti to v roce 2026 mění. Nečekej robotický hlas z roku 2015, který přijme číslo a přeřadí tě do fronty. Dnešní agenti mluví přirozeně, přerušuješ je, reagují v reálném čase a dokážou vyřešit celou interakci od začátku do konce — s latencí pod 600 ms, takže si zavolající ani neuvědomí, že nemluví s člověkem.
V tomto článku ti ukážu, jak takového agenta postavit, které platformy si vybrat a kde je reálná hranice toho, co dnes zvládnou.
Jak AI hlasový agent vlastně funguje
Než začneš stavět, potřebuješ chápat architekturu. Hlasový agent není jeden model — je to pipeline, která se musí ve smyčce vejít do ~600 milisekund, jinak konverzace působí trhaně.
Smyčka vypadá takto:
- Telefonie — příchozí hovor dorazí přes SIP číslo (lokální české číslo, které ti poskytne platforma nebo Twilio/Vonage).
- STT (speech-to-text) — přepis řeči volajícího v reálném čase (Whisper, Deepgram).
- LLM — model přemýšlí nad přepisem, systémovým promptem a tvými daty (databáze objednávek, FAQ, CRM).
- TTS (text-to-speech) — odpověď se syntetizuje zpět na řeč (ElevenLabs, Cartesia, OpenAI).
- Zpět k volajícímu — a celé se to opakuje.
Kouzlo nespočívá v jednom kroku, ale v tom, že platforma tyto vrstvy synchronizuje, řeší přerušení (barge-in), detekci konce věty a fallback na lidského operátora.
Dvě platformy, které dnes stojí za to
Trh je plný nástrojů, ale pro vlastní workflow se v praxi řeší mezi dvěma API-first platformami: Vapi a Retell AI. Obě ti dají telefony, modely i nástroje v jednom balíčku.
Vapi — pro vývojáře, kteří chtějí kontrolu
Vapi je platforma postavená pro vývojáře. Definuješ agenta jako konfiguraci (systémový prompt, model, hlas, nástroje), nasadíš ho přes API a máš funkční hlasového asistenta. Silné stránky:
- Fine-grained kontrola — nastavíš si každý model vrstvy zvlášť (jiný STT, jiný LLM, jiný TTS).
- Funkce (tools) — agent může volat tvé API: zkontrolovat stav objednávky, zapsat schůzku do kalendáře, vytvořit ticket.
- Server messages — reálné webhooky o tom, co se v hovoru děje, takže můžeš logovat a analyzovat.
Hodí se, když máš tým, který si chce všechno osklábat a integrovat do vlastního backendu.
Retell AI — rychlost nasazení a no-code
Retell AI jde opačnou cestou: kromě plného API nabízí drag-and-drop builder, kde agenta poskládáš vizuálně. Latence se pohybuje kolem 600 ms a platforma cílí na produkční nasazení ve velkém měřítku.
- No-code flow builder — definuj scénář jako graf uzlů bez psaní kódu.
- Inbound i outbound — jak přijímat hovory, tak aktivně volat (připomenutí, kvalifikace leadů).
- Monitoring — dashboard s transkripty, latencí a úspěšností hovorů.
Hodí se, když chceš prototyp rychle a nechceš budovat infrastrukturu kolem.
Jak si vybrat
| Potřeba | Vyber |
|---|---|
| Maximální kontrola, vlastní backend, vlastní modely | Vapi |
| Rychlý prototyp, no-code, produkční outbound kampaně | Retell AI |
| Už máš Intercom/Zendesk a chceš doplněk | Fin Voice (Intercom) |
| Stavíš vlastní realtime infra od nuly | LiveKit + OpenAI Realtime API |
Jak agenta postavit krok za krokem
Ať už si vybereš Vapi nebo Retell, workflow je podobný. Tady je reálný postup, jak nasadit agenta pro zákaznickou podporu.
1. Definuj, co má agent řešit — a co ne
Nejčastější chyba je postavit "univerzálního agenta". Místo toho si seřaď dotazy podle frekvence: 80 % hovorů tvoří zhruba 10 otázek. Tohle je tvá zóna. Všechno ostatní (stížnosti, složité spory, VIP klienti) ať přepošle na člověka. Definuj jasné podmínky eskalace v systémovém promptu.
2. Připoj data, ne jen znalosti
Agent, který jen odpovídá z FAQ, je drahý chytrý FAQ. Skutečná hodnota přijde, až ho napojíš na systémy — aby se podíval do databáze objednávek, zkontroloval skladovou dostupnost, zapsal schůzku do Google Kalendáře. Obe platformy podporují volání funkcí (tools), takže agent může tahat reálná data přes tvé API.
3. Zvol český hlas a otestuj latenci
Pro český trh je TTS kritický. ElevenLabs nabízí kvalitní české hlasy (včetně klonování vlastního hlasu značky), alternativou je OpenAI TTS nebo Cartesia pro nižší latenci. Vždy měř reálnou latenci na produkčním čísle — lab testy lžou.
4. Nasazení přes lokální telefonní číslo
Zákazníci nebudou volat zahraniční číslo. Obě platformy ti umožní koupit české telefonní číslo (přes Twilio nebo přímo), takže hovor vypadá jako běžný místní kontakt. Lokální číslo navíc zvyšuje zdvihovost — lidé spíš zvednou telefon.
5. Měř a iteruj
Každý hovor máš přepsaný. Projdi si po týdnu transkripty a zeptej se: kde se agent zasekl? Kdy musel eskalovat? Jaké otázky neuměl? Tyhle datavé body ti řeknou, jaký prompt doladit a jaká data přidat. Hlasový agent není projekt na nasazení a zapomenutí — je to živý systém.
Systémový prompt v praxi
Celý agent stojí a padá se systémovým promptem — tím, kdo je, co smí a co ne. Tady je kostra, kterou používám jako výchozí bod:
Jsi hlasový asistent firmy [NÁZEV], která [CO DĚLÁ].
Mluvíš česky, stručně, přirozeně, jako zkušený operátor.
CO UMÍŠ:
- Dozvídat se stav objednávky (nástroj getOrderStatus)
- Měnit termín doručení (nástroj rescheduleDelivery)
- Zapsat schůzku do kalendáře (nástroj bookSlot)
CO NIKDY NEDĚLÁŠ:
- Neslibuj refundaci — tu řeší jen člověk.
- Nezodpovídej otázky mimo [TÉMA] — přepoj na operátora.
- Nesdílej osobní údaje jiného zákazníka.
ESKALUJ NA ČLOVĚKA, KDYŽ:
- Zákazník žádá refundaci nebo reklamaci.
- Jsou zmíněny peněžní ztráty nebo stížnost.
- Nedokážeš vyřešit dotaz do 2 kroků.
Než odpovíš, vždy si nejprve ověř totožnost (číslo objednávky + e-mail).
Dva detaily, které dělají rozdíl: ověření identity hned na začátku (agent nesmí mluvit o objednávce s kýmkoliv) a jasné podmínky eskalace (peníze a emoce jdou na člověka). Bez toho agentní nasazení rychle narazí na podpůrné случаи, které zvládne špatně.
Reálný příklad: e-shop s dvěma sty objednávkami denně
Představ si e-shop, který denně odbaví 200 objednávek a k tomu dostane 30–40 telefonátů — z toho 25 je "kde je moje zásilka". Dva lidi na lince stojí firmy měsíčně desítky tisíc a přesto nejdou zastihnout po 18. hodině.
Nasadíš agenta na Vapi, napojíš ho na e-shopové API (stav objednávky), dáš mu český hlas a připojíš lokální číslo. Po týdnu:
- 25 dotazů na zásilku řeší agent automaticky — volající se dozví stav a předpokládané doručení.
- Zbytek (reklamace, specifické požadavky) přepojí na člověka s přehledem o tom, o čem se mluvilo.
- Večerní a víkendové hovory nezůstávají ležet — agent aspoň zaznamená, o co šlo, a nabídne zpětné volání.
Následky: dva operátoři se přesouvají na složitější případy, zákazníci dostávají odpověď okamžitě, a ty máš transkripty, ze kterých vidíš, co lidé skutečně řeší. Tohle je workflow, který se vrátí.
Kolik to stojí
Na rozdíl od textových chatbotů se hlas platí za minutu hovoru, ne za zprávu. Cenu tvoří tři vrstvy: telefony (číslo + minuty), AI modely (STT + LLM + TTS) a platforma samotná (Vapi/Retell si účtuje navíc). Praktický dopad: krátká efektivní interakce je levná, zaseknutý hovor na 8 minut tě prodraží. Proto se vyplatí držet agenta úzce — řešit rychle, eskalovat brzy.
Dobrá zpráva je, že obojí (Vapi i Retell) má průhledné měření a dá se nastavit strop na délku hovoru. Špatná zpráva: pokud postavíš "univerzálního agenta", který se s každým vypořádává pět minut, náklady narůstají rychle. Úzké zacílení je tady i ekonomická nutnost, ne jen designové rozhodnutí.
Compliance: nahrávání a GDPR
Hlasový agent nahrává a přepisuje hovory — a to je v EU citlivé. Tři věci, které nevynecháš:
- Souhlas se záznamem — na začátku hovoru informuj volajícího, že se hovor zaznamenává (klasická hláška "pro účely zlepšení služby a kvality"). Obě platformy to umí jako úvodní zprávu.
- Uchovávání dat — definuj, jak dlouho si transkripty ponecháváš a jak je anonymizuješ. Osobní údaje (jméno, adresa, číslo karty) by v plaintextu ležet neměly.
- Přenos do USA — pokud platforma zpracovává data přes servery v USA, řeš standardní klauzule (SCC). Pro citlivé obory (zdravotnictví, finance) zvaž lokální nasazení nebo striktní omezení toho, co agent může říct.
Nejde o byrokracii — nedodržení tě může přijít dražší než celá automatizace ušetří.
Kdy hlasového agenta nasadit — a kdy ne
Hlasový agent není stříbrná kulka. Funguje skvěle, když:
- Máš vysoký objem opakujících se dotazů (e-shop, služby, objednávky).
- Potřebuješ pokrytí mimo pracovní dobu — večery, víkendy, svátky.
- Chceš kvalifikovat příchozí leady dřív, než je předáš obchodníkovi.
Naopak se vyhni situacím, kdy:
- Interakce vyžaduje empatii nebo jednání s naštvaným zákazníkem — to ještě neumí.
- Máš málo hovorů — pak tě infrastruktura a ladění budou stát víc než ušetří.
- Jde o citlivá osobní nebo zdravotní data — compliance a důvěra jsou tu nadřazené automatizaci.
Závěr: začni úzkě, měř, pak šir
AI hlasoví agenti v roce 2026 nejsou experiment — produkčně je nasazují firmy od e-shopů po ordinace. Cesta k výsledku je ale stejná jako u každé automatizace: nezačínaj s "udělej mi agenta", ale s jedním konkrétním, častým a měřitelným typem hovoru. Postav na Vapi nebo Retell MVP, napoj ho na jedno reálné data, sleduj týden transkripty — a pak teprve rozhodni, zda rozšiřovat.
Pokud používáš AI pro produktivitu a chceš jít dál než k textovým chatbotům, hlas je logický další krok. Začni tím, že si vypíšeš svých 10 nejčastějších příchozích hovorů — to je tvoje zadání.