Principes de base du transformateur

Principes de base du transformateur



Un transformateur est un modèle d’apprentissage profond qui adopte le mécanisme de l’auto-attention, pondérant différemment l’importance de chaque partie des données d’entrée. Il est principalement utilisé dans les domaines du traitement du langage naturel (NLP)[1] et de la vision par ordinateur (CV). [2]

Comme les réseaux neuronaux récurrents (RNN), les transformateurs sont conçus pour traiter des données d’entrée séquentielles, telles que le langage naturel, avec des applications pour des tâches telles que la traduction et le résumé de texte. Cependant, contrairement aux RNN, les transformateurs traitent toute l’entrée en même temps. Le mécanisme d’attention fournit un contexte pour n’importe quelle position dans la séquence d’entrée. Par exemple, si les données d’entrée sont une phrase en langage naturel, le transformateur n’a pas besoin de traiter un mot à la fois. Cela permet une plus grande parallélisation que les RNN et réduit donc les temps d’entraînement. [1]

Les transformateurs ont été introduits en 2017 par une équipe de Google Brain[1] et sont de plus en plus le modèle de choix pour les problèmes de NLP[3], remplaçant les modèles RNN tels que la mémoire à long terme (LSTM). La parallélisation d’apprentissage supplémentaire permet une formation sur des ensembles de données plus volumineux. Cela a conduit au développement de systèmes préentraînés tels que BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-trained Transformer), qui ont été formés avec de grands ensembles de données linguistiques, tels que le corpus Wikipedia et Common Crawl, et peuvent être affinés pour des tâches spécifiques. [4] [5]

Contactez-nous


Recommander lire

Contactez-nous

Service en ligne 24 heures sur 24