Les Tokenizers (ou lemmatiseurs) améliorent la qualité des correspondances en reconnaissant les mots accordés dans les données source et dans la mémoire de traduction. Ils améliorent également les capacités de correspondance du glossaire.
Un lemmatiseur anglais, par exemple, doit pouvoir identifier la chaîne de caractères « chats » (et éventuellement « chatons », « chatière », etc.) comme ayant pour racine la chaîne de caractères « chat », et « lemmatiser », « lemmatisation », « lemmatiseur » comme ayant pour racine la chaîne de caractères « lemmati ». Un algorithme de lemmatisation réduit les mots « pêcher », « pêché », « pêche », et « pêcheur » au mot racine : « pêche ». Ceci est particulièrement utile dans le cas des langues qui accrochent des préfixes et des suffixes aux racines pour former des mots. Par exemple, vous pourrez trouver ci-dessous toutes les formes grammaticalement correctes du mot « bon » en Slovène :
lep, lepa, lepo - singulier : masculin, féminin, neutre
lepši, lepša, lepše - comparatif nominatif : masculin, féminin, neutre ; qui sont respectivement les formes plurielles des adjectifs
najlepših - superlatif, pluriel, génitif pour le masc, fem, neutre
Les lemmatiseurs sont inclus dans OmegaT OmegaT sélectionne automatiquement les lemmatiseurs pour les langues sources et cibles en fonction des paramètres du projet. Il est possible de sélectionner un autre lemmatiseur ou une version différente du lemmatiseur dans la fenêtre de Propriétés du projet.
OmegaT ne se lancera pas si des lemmatiseurs sont présents dans le dossier /plugin. Retirer tous les lemmatiseurs du dossier /plugin avant de lancer OmegaT.