Hlasové rozpoznávání

Hlasové rozpoznávání (STT — Speech To Text) je srdce Theatre Prompter. Mikrofon zachytí, co herci říkají, a aplikace automaticky najde odpovídající místo v scénáři a scrolluje k němu.

Ovládací panel

Otevřete spodní lištu kliknutím na šipku dole nebo klávesou Space (pokud není zaměřen textový input). Panel obsahuje všechna nastavení zvuku a automatického scrollu.

Výběr mikrofonu

V roletce Mikrofon vyberte zvukové vstupní zařízení. Zobrazí se všechna dostupná zařízení — přepnutí je okamžité.

💡

Pro nejlepší výsledky použijte směrový kondenzátorový mikrofon umístěný směrem k jeviště. Omnidirectionální mikrofon (např. vestavěný v notebooku) zachytí příliš mnoho okolního hluku.

Spuštění a zastavení

Klikněte na zelené tlačítko Start — aplikace začne naslouchat. Dva VU metry vedle tlačítka zobrazují úroveň vstupního signálu v reálném čase.

Pro zastavení klikněte na červené tlačítko Stop.

⚠️

Při prvním spuštění se načítá model pro rozpoznávání hlasu — počkejte 5–15 sekund, než se zelený indikátor rozsvítí. Další spuštění jsou okamžitá.

Nastavení přesnosti

Confidence (Jistota)

Minimální jistota rozpoznávání. Doporučená hodnota: 0.5–0.7.

Nižší hodnota — aplikace přijme i nejistá slova → více shod, ale i falešné pozice
Vyšší hodnota — přijímá jen jasně rozpoznaná slova → méně chyb, ale může přeskakovat

Match accuracy (Přesnost shody)

Jak přesně musí rozpoznaný text souhlasit s textem scénáře. Doporučená hodnota: 0.7–0.85.

Nižší hodnota — toleruje přeřeknutí a dialekt → méně přesná pozice
Vyšší hodnota — vyžaduje přesnou shodu → přesnější pozice, ale může ztratit stopu

Silence threshold (Práh ticha)

Délka ticha (v milisekundách), po které se zachycený zvuk odešle ke zpracování. Doporučená hodnota: 500–800 ms.

Příliš nízká → příliš časté zpracování fragmentů slov
Příliš vysoká → zpracování probíhá se zpožděním

Model size (Velikost modelu)

Výběr přesnosti modelu pro rozpoznávání:

Model	Přesnost	Rychlost	Doporučení
tiny	Nízká	Nejrychlejší	Slabší hardware, zkouška
base	Střední	Rychlý	Standardní použití
small	Vysoká	Pomalejší	Ostré představení, silný hardware

ℹ️

Změna modelu vyžaduje restart rozpoznávání (Stop → Start). Model se načítá znovu.

Tipy pro dobré rozpoznávání

Zkalibrujte v hledišti — akustika sálu se liší od zkušebny. Nastavte Confidence a Match accuracy vždy před ostrým představením.
Hlučné prostředí — při zvýšeném rušení (orchestr, kulisy) zvyšte Confidence na 0.8+.
Dialekt nebo akcent — snižte Match accuracy na 0.6–0.65, aplikace bude tolerantnější k odchylkám od textu.
Přeřeknutí herce — aplikace automaticky přejde k nejbližšímu platnému slovu. Pokud ztratí pozici, použijte manuální ovládání pro opravu.