Cet été, les EPF de Lausanne et Zurich mettront à disposition un grand modèle de langage (LLM) développé sur des infrastructures publiques. Entraîné sur le supercalculateur «Alp» du Centre suisse de calcul scientifique (CSCS), ce nouveau LLM marque selon ses concepteurs une étape-clé pour l’intelligence artificielle (IA) open source et la maîtrise multilingue. Cette semaine à Genève, une cinquantaine d'organisations internationales œuvrant pour des LLMs open source et une IA digne de confiance se sont réunies lors du premier sommet international des développeurs de LLM en licence ouverte (International Open-Source LLM Builders Summit).
Organisé par les centres IA de l’EPFL et de l’EPFZ, cet événement constitue selon ces dernières un jalon important dans la construction d’un écosystème international collaboratif autour des modèles ouverts et transparents. Ceux-ci sont de plus en plus considérés comme des alternatives crédibles aux systèmes commerciaux, majoritairement développés à huis clos aux Etats-Unis ou en Chine.
Les participants ont pu découvrir en avant-première la publication imminente d’un LLM entièrement ouvert et développé publiquement, co-créé par des scientifiques des deux EPF et d’autres universités suisses, en collaboration avec les ingénieurs du CSCS. Actuellement en phase finale de test, le modèle sera téléchargeable sous licence ouverte plus tard cet été. Il mise sur la transparence, la performance multilingue et une accessibilité large.
Le code source et les données d’entraînement seront transparentes et reproductibles, afin d’en encourager l’adoption dans les domaines scientifique, gouvernemental, éducatif et privé. Cette approche vise à promouvoir à la fois l’innovation et la responsabilité. «Les modèles entièrement ouverts permettent des applications de confiance élevée et sont indispensables pour faire progresser la recherche sur les risques et les opportunités de l’IA. Des processus transparents facilitent également la conformité réglementaire», explique Imanol Schlag, chercheur au Centre IA de l’EPFZ, qui pilote ce projet aux côtés d'Antoine Bosselut et Martin Jaggi à l’EPFL.
Multilinguisme massif
Une caractéristique distinctive du modèle est sa maîtrise de plus de 1500 langues. «Nous avons mis l’accent sur un multilinguisme massif dès le départ», explique Antoine Bosselut, cité mercredi dans un communiqué des deux EPF.
Contrairement aux modèles américains qui se concentrent sur l’anglais, l’entraînement du modèle de base a été réalisé sur un vaste corpus de textes dans plus de 1500 langues – environ 60% en anglais et 40% dans d’autres langues - ainsi que des données de code et de mathématiques. Grâce à cette représentation linguistique et culturelle, le modèle permet d’être appliqué partout dans le monde.
Une documentation complète accompagnera la publication, détaillant l’architecture du modèle, les méthodes d’entraînement et les recommandations d’usage afin de permettre une réutilisation transparente et un développement continu. Lancée en décembre 2023 par les deux EPF, la Swiss IA Initiative est soutenue par plus de dix institutions académiques à travers le pays.