{"id":544,"date":"2026-03-21T19:05:06","date_gmt":"2026-03-21T19:05:06","guid":{"rendered":"https:\/\/laeka.org\/publications\/sparse-attention-et-efficient-transformers-les-tendances-architecturales\/"},"modified":"2026-03-21T19:05:06","modified_gmt":"2026-03-21T19:05:06","slug":"sparse-attention-et-efficient-transformers-les-tendances-architecturales","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/sparse-attention-et-efficient-transformers-les-tendances-architecturales\/","title":{"rendered":"Sparse Attention et Efficient Transformers : les tendances architecturales"},"content":{"rendered":"<p>L&#8217;attention standard est quadratique. Chaque token fait attention \u00e0 tous les autres tokens, ce qui rend le co\u00fbt computationnel cro\u00eetre avec le carr\u00e9 de la longueur de la s\u00e9quence. \u00c0 128K tokens, c&#8217;est 16 milliards de calculs d&#8217;attention par couche. La qu\u00eate pour briser cette barri\u00e8re quadratique a produit certaines des innovations architecturales les plus importantes des derni\u00e8res ann\u00e9es.<\/p>\n<h2>Le probl\u00e8me quadratique<\/h2>\n<p>En attention multi-t\u00eate standard, chaque token calcule un score de similitude avec chaque autre token dans la s\u00e9quence. Pour une s\u00e9quence de longueur N, cela produit une matrice d&#8217;attention N\u00d7N. Les co\u00fbts de m\u00e9moire et de calcul s&#8217;\u00e9chellent comme O(N\u00b2), ce qui devient prohibitif pour les longues s\u00e9quences.<\/p>\n<p>\u00c0 2K tokens, l&#8217;attention quadratique est g\u00e9rable. \u00c0 8K, c&#8217;est cher. \u00c0 128K, c&#8217;est le co\u00fbt dominant de toute la passe avant. Et pourtant les applications exigent de plus en plus de long contextes : analyse de documents, compr\u00e9hension de code au niveau du d\u00e9p\u00f4t, raisonnement multi-documents. L&#8217;architecture doit s&#8217;adapter.<\/p>\n<h2>Sliding Window Attention<\/h2>\n<p>Le motif d&#8217;attention clairsem\u00e9e le plus simple est la <strong>fen\u00eatre glissante<\/strong>. Chaque token ne fait attention qu&#8217;\u00e0 ses W voisins les plus proches, o\u00f9 W est la taille de la fen\u00eatre. Cela r\u00e9duit la complexit\u00e9 de O(N\u00b2) \u00e0 O(N\u00d7W) \u2014 lin\u00e9aire dans la longueur de la s\u00e9quence pour une fen\u00eatre fixe.<\/p>\n<p>Mistral a \u00e9t\u00e9 pionnier dans cette approche dans les mod\u00e8les de production. Mistral 7B utilise une fen\u00eatre glissante de 4096 tokens dans ses couches d&#8217;attention. L&#8217;information se propage \u00e0 travers la s\u00e9quence compl\u00e8te \u00e0 travers plusieurs couches \u2014 apr\u00e8s L couches, le champ r\u00e9ceptif efficace est de L\u00d7W tokens. Avec 32 couches et une fen\u00eatre 4096, c&#8217;est th\u00e9oriquement 128K tokens de flux d&#8217;information.<\/p>\n<p>Le compromis est que les d\u00e9pendances longue port\u00e9e deviennent indirectes. Le token A \u00e0 la position 0 ne peut influencer le token B \u00e0 la position 100K que par une cha\u00eene de calculs d&#8217;attention interm\u00e9diaires \u00e0 travers les couches. L&#8217;attention directe entre les tokens distants est impossible. Pour de nombreuses t\u00e2ches c&#8217;est bien ; pour les t\u00e2ches n\u00e9cessitant un rappel pr\u00e9cis longue port\u00e9e, cela peut d\u00e9grader la qualit\u00e9.<\/p>\n<h2>Grouped Query Attention (GQA)<\/h2>\n<p>GQA n&#8217;est pas l&#8217;attention clairsem\u00e9e au sens traditionnel, mais c&#8217;est l&#8217;am\u00e9lioration d&#8217;efficacit\u00e9 la plus impactante dans les transformers modernes. Au lieu que chaque t\u00eate d&#8217;attention ait ses propres projections cl\u00e9 et valeur, GQA partage les t\u00eates cl\u00e9-valeur \u00e0 travers des groupes de t\u00eates de requ\u00eate.<\/p>\n<p>L&#8217;attention multi-t\u00eate standard avec 32 t\u00eates a 32 requ\u00eate, 32 cl\u00e9, et 32 projections de valeur. GQA avec 8 groupes KV a 32 requ\u00eate mais seulement 8 cl\u00e9 et 8 projections de valeur. Les \u00e9conomies de m\u00e9moire pour le cache KV sont proportionnelles \u2014 environ 4x r\u00e9duction dans cet exemple.<\/p>\n<p>Cela compte \u00e9norm\u00e9ment pour l&#8217;inf\u00e9rence. Le cache KV stocke les \u00e9tats cl\u00e9 et valeur pour tous les tokens pr\u00e9c\u00e9dents et est souvent le goulot d&#8217;\u00e9tranglement m\u00e9moire. Le r\u00e9duire par 4x signifie servir 4x plus de requ\u00eates concurrentes sur le m\u00eame mat\u00e9riel, ou g\u00e9rer 4x les plus longues s\u00e9quences. Llama 3, Qwen 2.5, et la plupart des mod\u00e8les r\u00e9cents utilisent GQA par d\u00e9faut.<\/p>\n<h2>Multi-Query Attention (MQA)<\/h2>\n<p>MQA prend GQA \u00e0 l&#8217;extr\u00eame : toutes les t\u00eates de requ\u00eate partagent une seule t\u00eate cl\u00e9 et une seule t\u00eate valeur. Le cache KV se r\u00e9tr\u00e9cit par le nombre complet de t\u00eates \u2014 32x pour un mod\u00e8le 32-t\u00eate. C&#8217;est maximalement efficace mais peut r\u00e9duire la qualit\u00e9 du mod\u00e8le, particuli\u00e8rement pour les t\u00e2ches n\u00e9cessitant des motifs d&#8217;attention divers.<\/p>\n<p>En pratique, GQA avec 4-8 groupes a \u00e9merg\u00e9 comme le point sucr\u00e9, offrant la plupart des avantages d&#8217;efficacit\u00e9 de MQA avec une perte de qualit\u00e9 minimale. Le pur MQA est utilis\u00e9 dans certains mod\u00e8les optimis\u00e9s pour la vitesse o\u00f9 la latence compte plus que la qualit\u00e9.<\/p>\n<h2>Linear Attention et State Space Models<\/h2>\n<p>L&#8217;approche plus radicale remplace compl\u00e8tement l&#8217;attention quadratique. <strong>L&#8217;attention lin\u00e9aire<\/strong> reformule le calcul d&#8217;attention pour \u00e9viter la matrice N\u00d7N, r\u00e9alisant O(N) complexit\u00e9. Les variantes comme RetNet et RWKV utilisent diff\u00e9rentes strat\u00e9gies de lin\u00e9arisation, \u00e9changeant l&#8217;expressivit\u00e9 compl\u00e8te de l&#8217;attention softmax pour l&#8217;efficacit\u00e9 computationnelle.<\/p>\n<p><strong>Les State Space Models (SSMs)<\/strong> comme Mamba prennent un chemin diff\u00e9rent. Au lieu de l&#8217;attention sur la s\u00e9quence compl\u00e8te, ils maintiennent un \u00e9tat cach\u00e9 de taille fixe qui est mis \u00e0 jour \u00e0 mesure que chaque nouveau token arrive. C&#8217;est inh\u00e9remment O(N) et n\u00e9cessite une m\u00e9moire constante ind\u00e9pendamment de la longueur de la s\u00e9quence.<\/p>\n<p>Mamba et ses successeurs (Mamba-2, Jamba) ont montr\u00e9 que les SSMs peuvent correspondre \u00e0 la qualit\u00e9 du transformer sur de nombreux benchmarks tout en \u00e9tant nettement plus rapides pour les longues s\u00e9quences. Cependant, ils peinent sur les t\u00e2ches n\u00e9cessitant la r\u00e9cup\u00e9ration pr\u00e9cise d&#8217;informations de positions sp\u00e9cifiques dans le contexte \u2014 le probl\u00e8me \u00ab aiguille dans une botte de foin \u00bb que l&#8217;attention traite bien.<\/p>\n<h2>Architectures hybrides<\/h2>\n<p>Le consensus \u00e9mergent est que les <strong>architectures hybrides<\/strong> combinant l&#8217;attention et les couches lin\u00e9aires offrent le meilleur compromis. Jamba (AI21) alterne entre les couches de transformer avec l&#8217;attention compl\u00e8te et les couches Mamba avec la complexit\u00e9 lin\u00e9aire. Les couches d&#8217;attention g\u00e8rent la r\u00e9cup\u00e9ration pr\u00e9cise ; les couches Mamba g\u00e8rent la mod\u00e9lisation longue port\u00e9e efficace.<\/p>\n<p>Cette approche hybride s&#8217;\u00e9chelle mieux que les transformers purs pour les longues s\u00e9quences tout en maintenant les capacit\u00e9s de r\u00e9cup\u00e9ration que les SSMs purs manquent. Le ratio de couches d&#8217;attention aux couches lin\u00e9aires est un param\u00e8tre modifiable \u2014 plus de couches d&#8217;attention pour les t\u00e2ches r\u00e9cup\u00e9ration-lourdes, plus de couches SSM pour l&#8217;efficacit\u00e9.<\/p>\n<h2>Flash Attention : la r\u00e9volution de l&#8217;impl\u00e9mentation<\/h2>\n<p>Parfois, la meilleure am\u00e9lioration architecturale n&#8217;est pas architecturale du tout. <strong>Flash Attention<\/strong> ne change pas ce que le mod\u00e8le calcule \u2014 cela change comment c&#8217;est calcul\u00e9. En carrelant le calcul d&#8217;attention et en gardant les donn\u00e9es dans la rapide SRAM plut\u00f4t que la lente HBM, Flash Attention r\u00e9alise des acc\u00e9l\u00e9rations de 2-4x avec z\u00e9ro changement de qualit\u00e9.<\/p>\n<p>Flash Attention a rendu les longs contextes pratiques avant que l&#8217;attention clairsem\u00e9e ne le fasse. Un contexte 32K qui \u00e9tait prohibitif en m\u00e9moire avec l&#8217;attention na\u00efve fonctionne confortablement avec Flash Attention sur le m\u00eame mat\u00e9riel. Combin\u00e9 avec GQA et les fen\u00eatres glissantes, cela permet les longueurs de contexte 128K+ que les mod\u00e8les modernes supportent.<\/p>\n<p>La le\u00e7on : avant de redessiner l&#8217;architecture, optimise l&#8217;impl\u00e9mentation. L&#8217;\u00e9cart entre l&#8217;efficacit\u00e9 th\u00e9orique et pratique dans le calcul d&#8217;attention \u00e9tait \u00e9norme, et la fermeture de cet \u00e9cart \u00e0 travers une meilleure ing\u00e9nierie a livr\u00e9 plus d&#8217;impact r\u00e9el que de nombreuses innovations architecturales.<\/p>\n<p>Pour les approfondissements sur l&#8217;architecture du transformer et la recherche d&#8217;efficacit\u00e9, visite <a href='https:\/\/lab.laeka.org'>Laeka Research<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>L&#8217;attention standard est quadratique. Chaque token fait attention \u00e0 tous les autres tokens, ce qui rend le co\u00fbt computationnel cro\u00eetre avec le carr\u00e9 de la longueur de la s\u00e9quence. \u00c0 128K tokens, c&#8217;est 16&#8230;<\/p>\n","protected":false},"author":1,"featured_media":278,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[260],"tags":[],"class_list":["post-544","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-architecture-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/544","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=544"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/544\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/278"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=544"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=544"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=544"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}