Le procès antitrust intenté contre Microsoft a été l'un des principaux points de tension de l'éclatement de la bulle Internet. Un procès historique pour violation de droits d'auteur contre OpenAI/Microsoft/Google sera un séisme dans le prochain L'enjeu est énorme : si l'un de ces acteurs n'est plus autorisé à entraîner des modèles sur des œuvres protégées par le droit d'auteur, cela crée un précédent où l'économie des données d'entraînement s'effondrera complètement pour l'ensemble du secteur de l'entraînement des LLM, VLM, modèles vidéo, modèles d'images... la liste est longue. Nous aurons besoin, lors de la prochaine vague, d'une IA capable de raisonner et de créer de nouvelles informations à partir de données distribuées, au lieu d'être un simple moteur de recherche recombinant. Certes, les données d'entraînement resteront toujours indispensables, mais nous devons pouvoir exploiter la puissance de calcul sur un volume de données plus réduit et obtenir des résultats exceptionnels par rapport aux données investies. Il faut pouvoir obtenir les droits d'un seul roman et permettre à l'IA d'en écrire dix, au lieu de devoir acheter les droits d'un million de romans juste pour qu'elle en écrive un seul (et il s'agirait de mots recombinés provenant d'un million de romans au lieu d'un nouveau roman déjà épuisé). Le préentraînement sur des données libres de droits conservera probablement son importance, mais il modifie assurément le paradigme du préentraînement à grande échelle dans la modélisation. Il faudra accorder une plus grande importance aux algorithmes.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.