{"id":534,"date":"2026-03-21T16:21:15","date_gmt":"2026-03-21T16:21:15","guid":{"rendered":"https:\/\/laeka.org\/publications\/edge-ai-executer-modeles-telephones-ordinateurs-portables-raspberry-pi\/"},"modified":"2026-03-21T16:21:15","modified_gmt":"2026-03-21T16:21:15","slug":"edge-ai-executer-modeles-telephones-ordinateurs-portables-raspberry-pi","status":"publish","type":"post","link":"https:\/\/laeka.org\/publications\/fr\/edge-ai-executer-modeles-telephones-ordinateurs-portables-raspberry-pi\/","title":{"rendered":"Edge AI : ex\u00e9cuter les mod\u00e8les sur t\u00e9l\u00e9phones, ordinateurs portables et Raspberry Pi"},"content":{"rendered":"<p>Le cloud n&#8217;est pas toujours une option. Parfois les exigences de latence demandent l&#8217;inf\u00e9rence on-device. Parfois les r\u00e9gulations de confidentialit\u00e9 prohibent d&#8217;envoyer les donn\u00e9es \u00e0 des serveurs externes. Parfois tu construis pour des environnements avec une connectivit\u00e9 non fiable. Edge AI \u2014 ex\u00e9cuter les mod\u00e8les de langage directement sur les appareils des utilisateurs finaux \u2014 est pass\u00e9 de la curiosit\u00e9 \u00e0 la n\u00e9cessit\u00e9.<\/p>\n<h2>L&#8217;\u00e9tat actuel de l&#8217;inf\u00e9rence on-device<\/h2>\n<p>Il y a deux ans, ex\u00e9cuter un mod\u00e8le de langage significatif sur un t\u00e9l\u00e9phone \u00e9tait un tour de magie. Aujourd&#8217;hui, c&#8217;est une strat\u00e9gie de produit viable. La convergence de meilleure quantisation, runtimes optimis\u00e9s, et mat\u00e9riel mobile de plus en plus puissant a franchi un seuil. Les mod\u00e8les qui produisent un r\u00e9sultat genuinely utile tournent sur des appareils que les gens poss\u00e8dent d\u00e9j\u00e0.<\/p>\n<p>L&#8217;activation cl\u00e9 est la <strong>quantisation agressive<\/strong>. Un mod\u00e8le 3B param\u00e8tres quantis\u00e9 \u00e0 4 bits tient en environ 1,7GB de m\u00e9moire. C&#8217;est \u00e0 port\u00e9e de n&#8217;importe quel smartphone moderne avec 6GB+ de RAM. Un mod\u00e8le 1,5B \u00e0 4 bits prend moins de 1GB \u2014 laissant beaucoup d&#8217;espace pour le syst\u00e8me d&#8217;exploitation et d&#8217;autres applications.<\/p>\n<p>La portabilit\u00e9 de llama.cpp rend cela possible sur les plateformes. La m\u00eame base de code C++ compile pour ARM (t\u00e9l\u00e9phones, Raspberry Pi), x86 (ordinateurs portables, desktops), et Apple Silicon (Macs, iPads). Un moteur d&#8217;inf\u00e9rence, chaque plateforme.<\/p>\n<h2>T\u00e9l\u00e9phones : la plateforme d&#8217;un milliard d&#8217;utilisateurs<\/h2>\n<p>Les t\u00e9l\u00e9phones flagship modernes sont des appareils d&#8217;inf\u00e9rence \u00e9tonnamment capables. L&#8217;Apple A17 Pro et Snapdragon 8 Gen 3 incluent des unit\u00e9s de traitement neural (NPUs) d\u00e9di\u00e9es qui acc\u00e9l\u00e8rent les op\u00e9rations matricielles. Combin\u00e9 avec 8-12GB de RAM, ces appareils ex\u00e9cutent des mod\u00e8les 3B \u00e0 des vitesses conversationnelles.<\/p>\n<p>Sur iPhone, <strong>MLX<\/strong> (framework d&#8217;apprentissage machine d&#8217;Apple) fournit des chemins d&#8217;inf\u00e9rence optimis\u00e9s qui exploitent le Neural Engine et le GPU simultan\u00e9ment. Les applications tierces comme LLM Farm et MLC Chat d\u00e9montrent que les chatbots interactifs tournant enti\u00e8rement on-device sont pratiques.<\/p>\n<p>Sur Android, les projets comme <strong>MLC LLM<\/strong> et <strong>llama.cpp avec Vulkan<\/strong> fournissent l&#8217;inf\u00e9rence acc\u00e9l\u00e9r\u00e9e par GPU. La performance varie plus sur l&#8217;\u00e9cosyst\u00e8me Android en raison de la fragmentation du mat\u00e9riel, mais les appareils flagship de Samsung, Google, et OnePlus g\u00e8rent tous les petits mod\u00e8les capablement.<\/p>\n<p>Le plafond r\u00e9aliste sur les t\u00e9l\u00e9phones est la classe 3B param\u00e8tres. Ces mod\u00e8les g\u00e8rent les t\u00e2ches focalis\u00e9es bien : compl\u00e9tude de texte, Q&#038;A simple, summarisation de documents courts, assistance code basique. N&#8217;attends pas une qualit\u00e9 GPT-4, mais pour les applications capables de fonctionner hors-ligne, l&#8217;utilit\u00e9 est r\u00e9elle.<\/p>\n<h2>Ordinateurs portables : le sweet spot du power user<\/h2>\n<p>Les ordinateurs portables sont le sweet spot de l&#8217;edge AI parce qu&#8217;ils combinent une puissance compute significative avec les avantages de la confidentialit\u00e9 et la latence de l&#8217;inf\u00e9rence locale. Un MacBook avec 16GB de m\u00e9moire unifi\u00e9e ex\u00e9cute des mod\u00e8les 7B \u00e0 20-30 tokens par seconde. Un ordinateur portable gaming avec un GPU d\u00e9di\u00e9 pousse 50+ tokens par seconde.<\/p>\n<p>L&#8217;exp\u00e9rience utilisateur approche la qualit\u00e9 du cloud. Les outils comme <strong>Ollama<\/strong>, <strong>LM Studio<\/strong>, et <strong>Jan<\/strong> fournissent des interfaces polies qui rendent l&#8217;ex\u00e9cution de mod\u00e8les locaux aussi simple que d&#8217;installer une application. S\u00e9lectionne un mod\u00e8le, clique t\u00e9l\u00e9charger, commence \u00e0 chatter. Pas de cl\u00e9s API, pas de limites d&#8217;usage, pas de donn\u00e9es quittant ta machine.<\/p>\n<p>Pour les d\u00e9veloppeurs, les mod\u00e8les locaux sur ordinateurs portables permettent des workflows de d\u00e9veloppement hors-ligne. Compl\u00e9tude de code, g\u00e9n\u00e9ration de documentation, \u00e9criture de test \u2014 tous sans d\u00e9pendance internet. L&#8217;avantage de latence est aussi r\u00e9el : l&#8217;inf\u00e9rence locale a z\u00e9ro temps de round-trip r\u00e9seau, rendant l&#8217;assistance code interactive se ressentant plus responsif que les alternatives cloud.<\/p>\n<h2>Raspberry Pi et syst\u00e8mes embarqu\u00e9s<\/h2>\n<p>Le Raspberry Pi 5 avec 8GB de RAM repr\u00e9sente l&#8217;extr\u00eame fin de l&#8217;edge AI. Il ex\u00e9cute les petits mod\u00e8les (param\u00e8tres 1-3B, extr\u00eamement quantis\u00e9s) \u00e0 des vitesses utilisables pour les applications non-interactives. Pense aux appareils IoT qui traitent les donn\u00e9es de capteur avec compr\u00e9hension du langage naturel, ou les kiosques qui tournent sans internet.<\/p>\n<p>La performance est modeste : 2-5 tokens par seconde pour un mod\u00e8le 1,5B Q4 sur CPU. Pas assez rapide pour le chat interactif, mais parfaitement ad\u00e9quat pour le traitement par batch, les t\u00e2ches de classification, et l&#8217;extraction structur\u00e9e. Un Raspberry Pi ex\u00e9cutant un petit mod\u00e8le peut analyser les donn\u00e9es entrantes, g\u00e9n\u00e9rer des alertes, et prendre des d\u00e9cisions locales sans aucune d\u00e9pendance cloud.<\/p>\n<p>L&#8217;\u00e9cosyst\u00e8me <strong>RISC-V<\/strong> \u00e9merge comme une autre plateforme edge AI. Des cartes avec des acc\u00e9l\u00e9rateurs IA apparaissent aux prix du Raspberry Pi, offrant du mat\u00e9riel d&#8217;inf\u00e9rence d\u00e9di\u00e9 qui pourrait pousser les petits mod\u00e8les \u00e0 des vitesses interactives sur du mat\u00e9riel sub-$50.<\/p>\n<h2>L&#8217;argument de la confidentialit\u00e9<\/h2>\n<p>La confidentialit\u00e9 est l&#8217;argument le plus fort pour l&#8217;edge AI, et c&#8217;est n&#8217;est pas juste sur la pr\u00e9f\u00e9rence \u2014 c&#8217;est de plus en plus une question de r\u00e9glementation. GDPR, HIPAA, et les r\u00e9gulations \u00e9mergentes d&#8217;IA cr\u00e9ent des exigences de conformit\u00e9 que l&#8217;inf\u00e9rence cloud ne peut pas toujours satisfaire. Quand un mod\u00e8le tourne on-device, les donn\u00e9es de l&#8217;utilisateur ne quittent jamais l&#8217;appareil. Fin de l&#8217;histoire.<\/p>\n<p>Les applications healthcare traitant les dossiers patients, les outils l\u00e9gaux analysant les documents confidentiels, les services financiers g\u00e9rant les donn\u00e9es sensibles \u2014 ces cas d&#8217;usage exigent l&#8217;inf\u00e9rence on-device. Le compromis de qualit\u00e9 d&#8217;utiliser un mod\u00e8le plus petit est acceptable quand l&#8217;alternative est ne pas pouvoir utiliser l&#8217;IA du tout d\u00fb aux contraintes de conformit\u00e9.<\/p>\n<h2>D\u00e9fis et limitations<\/h2>\n<p><strong>La dur\u00e9e de vie de la batterie<\/strong> est le probl\u00e8me non r\u00e9solu sur mobile. L&#8217;ex\u00e9cution d&#8217;inf\u00e9rence est intensive en calcul. Une session de chat prolong\u00e9e peut drainer la batterie d&#8217;un t\u00e9l\u00e9phone notablement plus vite que l&#8217;usage normal. Les mod\u00e8les doivent \u00eatre utilis\u00e9s judicieusement, pas laiss\u00e9s ex\u00e9cut\u00e9s continuellement.<\/p>\n<p><strong>Les mises \u00e0 jour de mod\u00e8le<\/strong> sur les appareils edge sont plus difficiles que mettre \u00e0 jour un endpoint cloud. Tu dois distribuer les nouveaux poids de mod\u00e8le \u00e0 potentiellement des millions d&#8217;appareils, g\u00e9rer la compatibilit\u00e9 des versions, et g\u00e9rer les contraintes de stockage. L&#8217;infrastructure pour cela existe (c&#8217;est similaire aux mises \u00e0 jour d&#8217;application) mais ajoute de la complexit\u00e9 op\u00e9rationnelle.<\/p>\n<p><strong>Le plafond de qualit\u00e9<\/strong> est r\u00e9el. Les mod\u00e8les edge sont plus petits par n\u00e9cessit\u00e9, et plus petit signifie moins capable. Pour les t\u00e2ches n\u00e9cessitant une vaste connaissance, du raisonnement complexe, ou la gestion d&#8217;entr\u00e9es inhabituelles, les mod\u00e8les edge tra\u00eeneront les mod\u00e8les cloud pour l&#8217;avenir pr\u00e9visible. L&#8217;approche intelligente est hybride : utilise l&#8217;edge pour ce qu&#8217;il g\u00e8re bien, reviens au cloud pour ce qu&#8217;il ne fait pas.<\/p>\n<p>L&#8217;edge AI ne remplace pas l&#8217;AI cloud. Il le compl\u00e8te, remplissant les lacunes o\u00f9 le cloud ne peut pas atteindre. Et \u00e0 mesure que le mat\u00e9riel s&#8217;am\u00e9liore et que les mod\u00e8les deviennent plus efficaces, ces lacunes continuent de r\u00e9duire.<\/p>\n<p>Pour la recherche sur le d\u00e9ploiement efficace d&#8217;IA sur les plateformes, visite <a href='https:\/\/lab.laeka.org'>Laeka Research<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le cloud n&#8217;est pas toujours une option. Parfois les exigences de latence demandent l&#8217;inf\u00e9rence on-device. Parfois les r\u00e9gulations de confidentialit\u00e9 prohibent d&#8217;envoyer les donn\u00e9es \u00e0 des serveurs externes. Parfois tu construis pour des environnements&#8230;<\/p>\n","protected":false},"author":1,"featured_media":258,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[260],"tags":[],"class_list":["post-534","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-architecture-ia"],"_links":{"self":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/534","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/comments?post=534"}],"version-history":[{"count":0,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/posts\/534\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media\/258"}],"wp:attachment":[{"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/media?parent=534"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/categories?post=534"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laeka.org\/publications\/wp-json\/wp\/v2\/tags?post=534"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}