Bases du transformateur
Un transformateur est un modèle d’apprentissage profond qui adopte le mécanisme de l’auto-attention, en pondérant différemment l’importance de chaque partie des données d’entrée. Il est principalement utilisé dans les domaines du traitement du langage naturel (NLP)[1] et de la vision par ordinateur (CV). [2]
À l’instar des réseaux neuronaux récurrents (RNN), les transformateurs sont conçus pour traiter des données d’entrée séquentielles, telles que le langage naturel, avec des applications pour des tâches telles que la traduction et la synthèse de texte. Cependant, contrairement aux RNN, les transformateurs traitent l’ensemble de l’entrée en une seule fois. Le mécanisme d’attention fournit un contexte pour n’importe quelle position dans la séquence d’entrée. Par exemple, si les données d’entrée sont une phrase en langage naturel, le transformateur n’a pas besoin de traiter un mot à la fois. Cela permet une plus grande parallélisation que les RNN et réduit donc les temps d’entraînement. [1]
Les transformateurs ont été introduits en 2017 par une équipe de Google Brain[1] et sont de plus en plus le modèle de choix pour les problèmes de NLP,[3] remplaçant les modèles RNN tels que la mémoire à long terme (LSTM). La parallélisation de l’entraînement supplémentaire permet l’entraînement sur des jeux de données plus volumineux. Cela a conduit au développement de systèmes pré-entraînés tels que BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-trained Transformer), qui ont été entraînés avec de grands ensembles de données de langage, tels que le corpus Wikipédia et Common Crawl, et peuvent être affinés pour des tâches spécifiques. [4][5]
À l’instar des réseaux neuronaux récurrents (RNN), les transformateurs sont conçus pour traiter des données d’entrée séquentielles, telles que le langage naturel, avec des applications pour des tâches telles que la traduction et la synthèse de texte. Cependant, contrairement aux RNN, les transformateurs traitent l’ensemble de l’entrée en une seule fois. Le mécanisme d’attention fournit un contexte pour n’importe quelle position dans la séquence d’entrée. Par exemple, si les données d’entrée sont une phrase en langage naturel, le transformateur n’a pas besoin de traiter un mot à la fois. Cela permet une plus grande parallélisation que les RNN et réduit donc les temps d’entraînement. [1]
Les transformateurs ont été introduits en 2017 par une équipe de Google Brain[1] et sont de plus en plus le modèle de choix pour les problèmes de NLP,[3] remplaçant les modèles RNN tels que la mémoire à long terme (LSTM). La parallélisation de l’entraînement supplémentaire permet l’entraînement sur des jeux de données plus volumineux. Cela a conduit au développement de systèmes pré-entraînés tels que BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-trained Transformer), qui ont été entraînés avec de grands ensembles de données de langage, tels que le corpus Wikipédia et Common Crawl, et peuvent être affinés pour des tâches spécifiques. [4][5]