AI Voice Recepční pro autonomní správu rezervací

Voice AI recepční postavená na Claude 3.5 Sonnet, která přijímá telefonní hovory přes Twilio a vede přirozenou konverzaci v češtině s latencí pod 300ms. Autonomně spravuje rezervace pro kadeřnictví a beauty salony s real-time synchronizací dostupnosti.

Klient

Interní projekt

Typ

Voice AI Platform

Role

Project management, Backend Development, AI Integration

Launch

Q1 2026

Lobbyo - Architektura systému webové aplikace vytvořené Appitect

O projektu

Klient a cíl

Voice AI recepční pro kadeřnictví a beauty salony, která autonomně přijímá telefonní hovory a spravuje rezervace 24/7 s přirozenou konverzací v češtině.

Cílem bylo eliminovat ztracené příležitosti z nezodpovězených hovorů, snížit no-show rezervace a automatizovat rutinní úkony, aby personál mohl soustředit na obsluhu klientů.

Scope

  • Voice AI s přirozenou češtinou a latencí pod 300ms
  • Integrace s Twilio pro příjem telefonních hovorů
  • Real-time synchronizace dostupnosti a rezervací
  • Claude 3.5 Sonnet pro AI reasoning
  • Deepgram STT a ElevenLabs TTS pipeline
  • PostgreSQL s transaction-safe booking system

Výzva

Kadeřnictví a beauty salony ztrácí denně 30-40% potenciálních zákazníků kvůli nezodpovězeným hovorům. Personál je během obsluhy klientů nedostupný a telefonní objednávky přicházejí mimo pracovní dobu - večer po práci nebo o víkendech. Manuální správa rezervací v sešitech nebo Excel tabulkách je náchylná na double-bookings. No-show rezervace bez reminder systému způsobují 15-20% ztráty kapacity.

Cílem bylo vytvořit produkční AI asistenta, který dokáže vést přirozenou telefonní konverzaci v češtině pod 300ms latencí, rozumět implicitnímu kontextu ("chci střih v pátek odpoledne"), kontrolovat dostupnost v reálném čase napříč více zaměstnanci a dokončit rezervaci včetně SMS potvrzení - vše bez lidského zásahu. Klíčové bylo zachovat osobní a profesionální komunikaci, kterou klienti očekávají.

Technické řešení

Backend & Infrastructure

  • NestJS + TypeScript
  • PostgreSQL + Prisma
  • Redis Cache
  • Docker

AI Services

  • Claude 3.5 Sonnet
  • Deepgram STT
  • ElevenLabs TTS
  • Natural Language Processing

Telephony & Communication

  • Twilio Voice API
  • WebSocket Streaming
  • Real-time Audio Processing
  • SMS Notifications

Klíčové funkce

Přesné rozpoznání češtiny

Deepgram Nova 2 s českým jazykovým modelem dosahuje 95%+ přesnosti i s dialekty, šumem na pozadí a přirozeným mluveným jazykem.

Kontextové porozumění

Claude 3.5 Sonnet řídí konverzaci s pochopením české gramatiky, předvídá záměry zákazníka a pamětá si celý kontext hovoru.

Profesionální hlasový výstup

ElevenLabs s optimalizací pro češtinu - správné výslovnosti, intonace, přirozené pauzy a emoční zabarvení odpovídající situaci.

Real-time správa rezervací

Okamžitá kontrola volných termínů napříč zaměstnanci a službami s PostgreSQL optimalizací a Redis cachingem pro <100ms odpovědi.

Inteligentní zákaznická databáze

Automatická deduplikace kontaktů, historie všech interakcí, preference služeb a analytics pro personalizaci budoucích hovorů.

Multi-channel notifikace

SMS potvrzení s detaily rezervace, automatické připomínky 24h před termínem a možnost rychlé změny nebo zrušení přes odkaz.

Technické výzvy

Sub-300ms latence pro plynulou konverzaci

Výzva

Twilio WebSocket vyžaduje odpověď do 300ms, jinak volající vnímá nepříjemné prodlevy. S pipeline STT → AI → TTS to znamená masivní optimalizaci každé části.

Řešení

Implementovali jsme paralelní zpracování s prefetchingem běžných odpovědí, streaming TTS výstup ještě před dokončením Claude odpovědi a optimalizované audio buffery s adaptivním flow control. Dosáhli jsme průměrné latence 220ms.

Přirozenost české konverzace s AI

Výzva

AI musí rozumět českým specifikům - hláskování jmen ("Novák s ypsilonem"), neformální vyjadřování, dialekty, zkratky ("střih za stovku") a implicitní kontext.

Řešení

Vytvořili jsme custom system prompt s 40+ few-shot příklady českých interakcí, built-in detekci hláskování, mapping neformálních výrazů a aktivní kontext management pro plynulou konverzaci bez opakování otázek.

Robustní správa dostupnosti s konkurencí

Výzva

Více paralelních hovorů může rezervovat stejný slot. Potřebujeme transaction-safe kontrolu s real-time dostupností napříč zaměstnanci, službami a working hours.

Řešení

Postavili jsme na PostgreSQL SERIALIZABLE transactions s optimistic locking, Redis cache pro hot slots a sophisticated algoritmus hledání volných termínů s B-tree indexy. Zero konfliktů s <100ms response time.

Handling edge cases a error recovery

Výzva

Co když AI nerozumí, služba spadne, zákazník změní názor, hovor se přeruší nebo network selže? Real-world telephony je plný edge cases.

Řešení

Implementovali jsme stateful conversation manager s graceful degradation, auto-recovery mechanismy, fallback scenarios pro každý service failure a context preservation pro call reconnection.

Real-time Audio Pipeline

1

Příchozí hovor

Twilio přijme hovor a otevře WebSocket stream pro real-time audio

2

Speech-to-Text

Deepgram Nova 2 zpracovává audio chunks a vrací přepis v reálném čase

3

AI Konverzace

Claude 3.5 Sonnet analyzuje kontext a generuje odpověď s business logikou

4

Text-to-Speech

ElevenLabs syntetizuje přirozeně znějící češtinu a streamuje zpět do hovoru

Máte podobný projekt na Voice AI?

Rádi s vámi probereme, jak můžeme AI asistenty a automatizaci integrovat do vašeho byznysu.