Bases du transformateur
Un transformateur est un modèle d’apprentissage profond qui adopte le mécanisme de l’auto-attention, pondérant différemment l’importance de chaque partie des données d’entrée. Il est principalement utilisé dans les domaines du traitement du langage naturel (NLP)[1] et de la vision par ordinateur (CV). [2]
Comme les réseaux de neurones récurrents (RNN), les transformateurs sont conçus pour traiter des données d’entrée séquentielles, telles que le langage naturel, avec des applications pour des tâches telles que la traduction et la synthèse de texte. Cependant, contrairement aux RNN, les transformateurs traitent toute l’entrée d’un coup. Le mécanisme d’attention fournit le contexte de toute position dans la séquence d’entrée. Par exemple, si les données d’entrée sont une phrase en langage naturel, le transformateur n’a pas à traiter un mot à la fois. Cela permet une plus grande parallélisation que les RNN et réduit donc les temps d’entraînement. [1]
Les Transformers ont été introduits en 2017 par une équipe de Google Brain[1] et sont de plus en plus le modèle privilégié pour les problèmes de NLP,[3] remplaçant les modèles RNN tels que la mémoire à court terme long terme (LSTM). La parallélisation supplémentaire de l’entraînement permet d’entraîner sur des ensembles de données plus étendus. Cela a conduit au développement de systèmes pré-entraînés tels que BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-trained Transformer), qui ont été entraînés avec de grands ensembles de données linguistiques, tels que le Wikipedia Corpus et Common Crawl, et peuvent être affinés pour des tâches spécifiques. [4][5]
Comme les réseaux de neurones récurrents (RNN), les transformateurs sont conçus pour traiter des données d’entrée séquentielles, telles que le langage naturel, avec des applications pour des tâches telles que la traduction et la synthèse de texte. Cependant, contrairement aux RNN, les transformateurs traitent toute l’entrée d’un coup. Le mécanisme d’attention fournit le contexte de toute position dans la séquence d’entrée. Par exemple, si les données d’entrée sont une phrase en langage naturel, le transformateur n’a pas à traiter un mot à la fois. Cela permet une plus grande parallélisation que les RNN et réduit donc les temps d’entraînement. [1]
Les Transformers ont été introduits en 2017 par une équipe de Google Brain[1] et sont de plus en plus le modèle privilégié pour les problèmes de NLP,[3] remplaçant les modèles RNN tels que la mémoire à court terme long terme (LSTM). La parallélisation supplémentaire de l’entraînement permet d’entraîner sur des ensembles de données plus étendus. Cela a conduit au développement de systèmes pré-entraînés tels que BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-trained Transformer), qui ont été entraînés avec de grands ensembles de données linguistiques, tels que le Wikipedia Corpus et Common Crawl, et peuvent être affinés pour des tâches spécifiques. [4][5]



