Un commentaire de Stephanie
Ehrenberg chez nLighten.
Les tokens sont les unités de base du texte que les modèles d'IA couramment utilisés utilisent pour comprendre et apprendre le langage. Ils sont utilisés pour le traitement du langage naturel.
Les tokens sont les éléments constitutifs qui permettent aux systèmes d'IA de décomposer des textes volumineux en unités ou blocs plus petits. Ils peuvent ainsi analyser plus efficacement le langage et générer des réponses. Au cours du processus de tokenisation, le modèle d'IA convertit les textes longs en éléments plus petits et plus faciles à gérer, généralement composés de mots ou d'expressions.
Avant de traiter une entrée, un modèle d'IA
divise le texte en fonction des espaces, de la ponctuation et d'autres
délimiteurs
Pour comprendre la
longueur d'un token, la règle empirique est la suivante :
1 token ≈ quatre caractères en
anglais
1 token ≈ ¾ mots
100 tokens ≈ 75 mots
Ce processus permet à l'IA d'analyser et de digérer le langage humain sous une forme qu'elle peut comprendre, ce qui lui permet de traiter les entrées humaines et de fournir des réponses.
Nous faisons la distinction entre les tokens d'entrée, qui sont les
questions posées et les tokens de sortie, qui sont les réponses générées par le
modèle d'IA.
Pourquoi les tokens
sont-ils importants ?
Il est important de
comprendre les tokens dans le contexte de l'IA pour deux raisons :
Limites des tokens :
les modèles d'IA ont un nombre limité de tokens qu'ils peuvent traiter en une
seule fois, ce que l'on appelle la « fenêtre contextuelle. Le contexte comprend
les demandes et les échanges passés. Des limites de tokens plus élevées signifient
que le modèle peut gérer des entrées plus longues et conserver le contexte au
cours de conversations prolongées. La limite varie de quelques milliers pour
les modèles plus petits à plusieurs dizaines de milliers pour les modèles plus
grands. Il est important de connaître ces limites de tokens, car elles ont un
impact sur les performances, le coût et l'efficacité. En comprenant la nature
et le nombre de tokens, les utilisateurs peuvent interagir plus efficacement
avec le modèle d'IA. Contrôle des coûts : les grands créateurs de modèles
fondamentaux tels que Open AI, Anthropic ou Mistral facturent en fonction de
l'utilisation des tokens lorsque les consommateurs accèdent à leurs services
d'IA. Ils peuvent ainsi suivre l'utilisation de leurs produits et facturent
souvent les tokens d'entrée et de sortie. Plus vous alimentez le système en
tokens, plus les coûts sont élevés. Les limites de tokens permettent de
contrôler les coûts.
Les tokens étant
essentiels pour les modèles d'IA et leur utilisation, il existe plusieurs
stratégies pour les gérer efficacement : Rester concis dans ses demandes et ne
pas mélanger trop de sujets dans une même requête.
Diviser les
conversations longues en échanges plus courts pour éviter d'atteindre
rapidement les limites.
Utiliser un outil de
tokenisation pour compter les tokens à l'avance et estimer les coûts.
Quels sont les défis
liés aux tokens ?
Les tokens sont
essentiels à l'IA et à ses applications, mais ils posent divers défis.Ambiguïté
– Le langage humain est ambigu et laisse place à l'interprétation, selon le
contexte. La tokenisation seule ne permet pas toujours de résoudre ce problème
et peut entraîner des interprétations erronées. Lors du processus de
tokenisation, le modèle peut le confondre s'il ne dispose pas du contexte
approprié. Cela conduit à des résultats inexacts, en particulier dans l'analyse
des sentiments ou la traduction.
Limites linguistiques –
Dans des langues telles que le chinois ou le japonais, les mots ne sont pas
séparés par des espaces, ce qui rend la tokenisation assez difficile avec les
méthodes traditionnelles pour trouver les limites de séparation. Un processus
de tokenisation simple pourrait prêter à confusion et entraîner des erreurs.
Cela signifie que les besoins en matière de tokenisation varient en fonction de
la langue et que la stratégie doit donc être adaptée, par exemple pour le
chinois ou l'arabe. Cas particuliers – Ils Impliquent des caractères spéciaux,
des chiffres et des abréviations qui ne correspondent pas aux règles de
tokenisation standard. Le modèle d'IA doit donc traiter correctement les
situations particulières.
Les adresses de sites
web et d'e-mails constituent une seule unité, mais le modèle d'IA peut la
diviser, ce qui entraîne un traitement erroné.
Avec les chiffres et
les symboles, le modèle d'IA doit décider si, par exemple, le numéro de
téléphone est un seul token ou s'il doit être divisé en fonction du contexte.
Si le contexte n'est pas correct, des mots tels que « États-Unis » ou « prise
de décision » peuvent être traités comme un seul token ou divisés, là encore en
fonction du contexte.
En fin de compte, les
tokens sont les petits éléments secrets qui rendent possibles nos conversations
avec l'IA. Ils déterminent la capacité de mémorisation du modèle, son coût et
sa capacité à nous comprendre. Lors de ses conversations avec les IA il faut se
rappeler que chaque mot, chaque pause compte.


