Le labyrinthe des licences : Apache 2.0, licence Llama, licence Qwen comparées

L’IA open-source a un problème de licence. Le terme « open source » s’applique aux modèles avec des conditions légales sauvagement différentes, allant de Apache 2.0 véritablement permissif à des licences personnalisées restrictives qui peuvent à peine être appelées ouvertes. Choisir un modèle sans comprendre sa licence est un risque légal que trop d’équipes prennent.

Apache 2.0 : le standard or

Apache 2.0 est ce que la plupart des gens signifient quand ils disent « open source ». Elle accorde la permission d’utiliser, modifier, distribuer, et vendre le modèle et n’importe quoi construit avec. Pas de caps de revenu, pas de restrictions d’usage, pas d’attribution obligatoire dans le produit (bien que tu doives inclure la licence dans les distributions de source).

Les modèles sous Apache 2.0 incluent les sortie Mistral, de nombreuses variantes Qwen, et plusieurs modèles plus petits mais capables. Pour l’usage commercial, Apache 2.0 est le choix le plus sûr. Ton équipe légale signera immédiatement parce que les conditions sont bien-comprises et éprouvées au combat sur des décennies de licence de logiciels.

La clause clé : Apache 2.0 inclut une subvention de brevet. Les contributeurs accordent implicitement une licence pour tous les brevets qui couvrent leurs contributions. Cela importe pour les organisations préoccupées par le contentieux de brevets — cela fournit une couche de protection légale que les licences plus permissives comme MIT n’incluent pas.

La licence communautaire Llama

Les modèles Llama de Meta utilisent une licence personnalisée qui semble ouverte mais a des restrictions importantes. La limitation phare : si ton produit ou service a plus de 700 millions d’utilisateurs actifs mensuels, tu as besoin d’une licence commerciale séparée de Meta.

Pour 99,9% des entreprises, ce seuil est sans pertinence. Mais pour les grandes plateformes — les réseaux sociaux, les moteurs de recherche, les grands fournisseurs cloud — cela crée une dépendance sur les conditions commerciales de Meta. La licence prohibe aussi d’utiliser les sorties de Llama pour entraîner des modèles concurrents, ce qui limite certains cas d’usage de recherche.

La licence Llama permet l’usage commercial, la modification, et la redistribution en dessous du seuil utilisateur. Les modèles fine-tuned et fusionnés héritent de la licence. Si tu fusionne un modèle Llama avec un modèle Apache 2.0, le résultat porte les restrictions de Llama — la licence plus restrictive gagne.

Les équipes légales lutte parfois avec la licence Llama parce qu’elle est bespoke. Contrairement à Apache 2.0 ou MIT, il y a un précédent légal limité pour interpréter ses conditions. Les cas limites ambigus — comme ce qui compte comme un « utilisateur actif mensuel » pour un service API — créent l’incertitude que les organisations averses au risque disliquent.

Licence Qwen et le facteur Chine

Les modèles Qwen d’Alibaba ont changé de licence au fil du temps. Les versions antérieures utilisaient des licences personnalisées ; les sortie récentes ont bougé vers Apache 2.0, ce qui est une amélioration significative pour l’adoption commerciale. Cependant, certaines variantes Qwen portent toujours des restrictions qui méritent d’être vérifiées.

La dimension géopolitique importe. Certaines organisations ont des politiques contre l’usage de modèles développés par des entreprises chinoises, indépendamment des conditions de licence. Ce n’est pas une question légale mais une considération de conformité et de gestion du risque qui affecte la sélection de modèles dans certaines industries, particulièrement défense, gouvernement, et certains services financiers.

D’un point de vue pure licence, les modèles Qwen sous Apache 2.0 sont aussi permissifs que tout autre modèle licencié Apache. Les poids sont les poids ; la licence est la licence. L’évaluation technique devrait être séparée des considérations géopolitiques.

Autres licences dans la nature

La licence Gemma (Google) est relativement permissive mais inclut une prohibition sur l’utilisation du modèle pour générer des données d’entraînement pour d’autres modèles et des restrictions sur le déploiement dans certaines applications sensibles. C’est plus permissif que la licence de Llama mais moins propre qu’Apache 2.0.

La licence DeepSeek permet l’usage pour recherche et commercial mais inclut des restrictions sur l’utilisation de sorties pour l’entraînement de modèles. Les conditions sont quelque peu ambiguës sur les œuvres dérivées, ce qui crée des questions pour les cas d’usage de fine-tuning.

Les licences Creative Commons apparaissent parfois sur les datasets mais ne sont pas bien-adaptées au logiciel ou aux poids de modèles. CC-BY-NC (non-commercial) en particulier cause des problèmes — les modèles entraînés sur les données licenciées NC héritent de la restriction non-commerciale, ce qui peut se répandre à travers l’écosystème comme un virus.

Le débat de définition « Open Source »

L’Open Source Initiative (OSI) a été en train de travailler sur définir ce que « open source » signifie pour les modèles IA. Leur position est claire : les modèles avec les restrictions d’usage, les caps de revenu, ou les limitations de champ d’utilisation ne sont pas open source par la définition traditionnelle, indépendamment de comment ils sont commercialisés.

Cela crée un problème de vocabulaire. La communauté utilise « open source » faiblement pour signifier « les poids sont téléchargeables », tandis que la définition OSI nécessite les libertés que beaucoup de modèles populaires ne donnent pas. Les termes comme « open weights », « source available », et « community license » émergent pour décrire le spectre entre véritablement ouvert et propriétaire.

L’impact pratique : quand quelqu’un dit qu’un modèle est « open source », toujours vérifier la licence réelle. Le label est peu fiable.

Choisir basé sur tes besoins

Pour les produits commerciaux : les modèles Apache 2.0 d’abord. Zéro ambiguïté légale, liberté maximum, conformité la plus simple. Les modèles Mistral et beaucoup Qwen vivent ici.

Pour la recherche et l’expérimentation : la licence importe moins. Utilise quel que soit le modèle qui performe le mieux. La plupart des cas d’usage de recherche chutent dans même les licences de modèle les plus restrictives.

Pour les startups prévoyant l’échelle : sois prudent avec les licences de seuil utilisateur comme la licence Llama. Tu probablement ne va pas frapper 700M utilisateurs, mais les investisseurs et les acquéreurs vont demander le risque de licence pendant la due diligence.

Pour les industries réglementées : Apache 2.0 avec la provenance de données claire. Les licences personnalisées créent les maux de tête de conformité que les entités réglementées préfèrent éviter entièrement.

Pour la dernière analyse sur la licence d’IA et la politique open-source, visite Laeka Research.

Publications similaires

Leave a Reply

Your email address will not be published. Required fields are marked *