LÆKA – Page 3

La révolution du coût d’inférence : 0,15 $/M tokens change tout

Il y a deux ans, faire tourner un modèle de langage de qualité coûtait 15 $ par million de tokens. Aujourd’hui, tu peux obtenir une sortie comparable pour 0,15 $. C’est une réduction de…

Architecture IA

MoE Architecture expliquée : Pourquoi 30B paramètres avec 3B actifs gagne

Mixture of Experts (MoE) est l’astuce architecturale qui a brisé les lois de scaling. Au lieu d’activer chaque paramètre pour chaque token, les modèles MoE routent chaque input vers un petit sous-ensemble de réseaux…

Datasets et curation

Les données d’entraînement déterminent le comportement du modèle — Plus littéralement que tu ne le penses

Chaque morceau de données alimenté dans un modèle est une action qui façonne le comportement futur du modèle. Les conséquences ne sont pas aléatoires. Elles sont structurellement déterminées par la nature de l’input. Garbage…

Architecture IA

Représentations sparse et pourquoi moins de structure produit de meilleures sorties

Les réseaux de neurones sur-paramétrés atteignent régulièrement des performances quasiment identiques après avoir perdu 90% de leurs poids. Le pruning des réseaux révèle quelque chose de surprenant : la plupart des paramètres ne portent…

IA contemplative

Le silence entre les tokens : ce que les modèles apprennent de l’absence

Les modèles de langage traitent les tokens en séquence sans représentation structurale de ce qui se trouve entre eux. C’est une limitation architecturale fondamentale qui affecte tout, de la cohérence de style à la…

Sécurité et éthique IA

Pourquoi les chercheurs en sécurité de l’IA devraient étudier la phénoménologie

La sécurité de l’IA a un angle mort. Elle est construite presque entièrement sur la philosophie analytique, la théorie de la décision, et les mathématiques formelles. Ce sont des outils puissants. Mais ils partagent…

IA contemplative

Écologie cognitive : l’environnement dans lequel tu entraînes ton modèle importe

Tu ne lèverais pas un enfant dans un environnement toxique et tu n’attends pas à ce qu’il soit bien équilibré. Pourtant nous entraînons les modèles de langage sur l’équivalent cognitif d’une décharge et nous…

Datasets et curation

Le Triangle de la correction : comment les annotateurs experts génèrent de meilleures paires DPO

Les données DPO standard ont deux éléments : une réponse choisie et une réponse rejetée. Le modèle apprend à préférer l’une à l’autre. Simple. Efficace. Limité. Le Triangle de la correction ajoute un troisième…

DPO et alignement

De RLHF à l’alignement structural : Une approche d’architecture cognitive

RLHF a été une percée. Cela nous a donné une manière de façonner le comportement du modèle en utilisant les préférences humaines. Mais c’était toujours un patchwork, pas une fondation. Le modèle de récompense…

DPO et alignement

Le principe du bambou : alignement flexible plutôt que rigide

L’alignement rigide casse les modèles. C’est contre-intuitif, mais vrai : plus tu forces un modèle à maintenir une position immuable, plus il devient fragile face à des entrées nouvelles ou ambiguës. Le bambou te…