March 27, 2026

Ai-je le droit entraîner mon IA sur des données scrappées ?

Ai-je le droit entraîner mon IA sur des données scrappées ?
L’intelligence artificielle repose par essence sur l’exploitation massive de données. Dans le cadre d’un projet d’IA, notamment générative, une question revient systématiquement chez les entrepreneurs : peut-on entraîner un modèle sur des données librement accessibles en ligne ?
Derrière cette interrogation, apparemment technique, se cache en réalité un enjeu juridique majeur, à la croisée du droit d’auteur, du droit des bases de données et du cadre européen issu de l’AI Act.

Accessibilité technique des données ne vaut pas liberté d’exploitation

Le fait qu’un contenu soit accessible en ligne, qu’il s’agisse d’un site internet, d’un blog, d’un forum ou d’un réseau social, ne signifie pas qu’il est libre de droits. En droit français et européen, la protection par le droit d’auteur naît du seul fait de la création, conformément à l’Article L.111-1 du Code de la propriété intellectuelle, sans aucune formalité.
Ainsi, toute œuvre originale, qu’il s’agisse de texte, d’image, de code ou de musique, est protégée. Son utilisation, y compris à des fins d’entraînement d’un modèle d’intelligence artificielle, suppose en principe l’autorisation préalable de son titulaire de droits.
La distinction est essentielle. L’accessibilité technique d’un contenu ne neutralise jamais sa protection juridique.

L’exception de "text and data mining" : un cadre encore imparfait

Le droit européen a introduit, par la directive (UE) 2019/790 sur le droit d’auteur dans le marché unique numérique, une exception spécifique dite de text and data mining.
Deux régimes coexistent. Le premier est réservé à certains acteurs comme les organismes de recherche ou les institutions culturelles. Le second est plus large et permet, en principe, l’extraction et la réutilisation de contenus accessibles, sous réserve que les titulaires de droits ne s’y soient pas opposés.
En pratique, cela signifie que l’entraînement d’une IA sur des données disponibles en ligne peut être juridiquement envisageable, à condition de respecter strictement les conditions de cette exception. Cela implique notamment l’absence d’opposition des titulaires de droits, le respect des éventuelles mesures techniques de protection et un usage conforme à la finalité du dispositif.
Ce régime demeure toutefois source d’incertitudes. La portée exacte de l’opt-out, les modalités techniques d’opposition, ainsi que l’application aux modèles génératifs font encore l’objet de discussions.
À ce stade, il n’y a pas de certitude quant à la manière dont les juridictions françaises stabiliseront leur interprétation dans les prochaines années. En revanche, il est établi que la tendance actuelle va dans le sens d’une protection renforcée des titulaires de droits.

Le renforcement des obligations avec l’AI Act

Le Règlement (UE) 2024/1689, dit "AI Act", ne crée pas de nouveaux droits de propriété intellectuelle. En revanche, il impose des obligations de transparence et de documentation, notamment pour les modèles d’intelligence artificielle à usage général.
Les fournisseurs devront être en mesure de documenter les données utilisées pour l’entraînement, de démontrer le respect du droit d’auteur et de mettre en place des mécanismes permettant de prendre en compte les oppositions des titulaires de droits.
La question de la licéité des données d’entraînement devient ainsi un enjeu de conformité réglementaire à part entière, et non plus seulement un risque contentieux.

Un risque juridique réel pour les entrepreneurs

L’entraînement d’une IA sur des données collectées en ligne sans encadrement juridique expose à plusieurs risques significatifs.
Le premier est le risque d’action en contrefaçon en cas d’utilisation non autorisée d’œuvres protégées. Le second concerne l’atteinte au droit des producteurs de bases de données. S’y ajoutent des risques contractuels, notamment en cas d’exploitation commerciale du modèle, ainsi que des risques réglementaires liés à la non-conformité au cadre européen.
Ces risques prennent une ampleur particulière lorsque les modèles sont intégrés dans des offres commerciales, notamment sous forme de SaaS ou d’API.

La nécessité d’une structuration juridique en amont

Dans ce contexte, une approche structurée est indispensable. Elle passe par un audit des sources de données utilisées, une qualification juridique des datasets, la mise en place de politiques internes de collecte et d’entraînement, ainsi qu’un encadrement contractuel adapté avec les clients et partenaires.
Elle suppose également la mise en place d’une documentation de conformité, en particulier au regard des exigences issues de l’AI Act.
L’entraînement d’une intelligence artificielle ne peut plus être considéré comme une simple étape technique. Il s’agit désormais d’un acte juridiquement structurant, qui conditionne à la fois la sécurité du projet et sa valorisation économique.