Det finns tre huvudtyper av talsynteser:
- Formant talsyntes. En syntetisk röst genererar ljud utifrån matematiska modeller av hur människor talar. Användes i de första talsynteserna. Inte så vanlig idag.
- Difon talsyntes. Har ett bibliotek med inspelade ljudfragment från mänskligt tal, så kallade difoner (fonemdelar), som kombineras ihop. Detta är den vanligaste tekniken idag. Exempelvis InfoVox (en variant av varje difon), Real Speak (flera varianter av varje difon).
- Unit selection talsyntes. Använder difoner, men har större antal segment med olika uttal, vilket ger möjlighet att variera bland annat betoning och styrka och få ett mycket naturligt tal. Används mest i nyutvecklade talsynteser. Exempelvis BrightSpeech.