Foxconn, l'entreprise la plus connue pour la fabrication d'iPhones et d'autres produits matériels Apple, vient de surprendre tout le monde en annonçant son premier grand modèle de langage (LLM), appelé FoxBrain, qui est destiné à être utilisé pour améliorer la gestion de la fabrication et de la chaîne d'approvisionnement.
Le fabricant taïwanais affirme que FoxBrain a été formé avec seulement 120 GPU H100 de Nvidia. Ce LLM est essentiellement développé sur la base de l'architecture Llama 3.1 de Meta, avec 70 milliards de paramètres via la distillation. Le concept de raffinement LLM implique l’utilisation d’un modèle « parent » et la formation d’un modèle « enfant » en fonction de ses réponses. Foxconn a également admis que son LLM n'est pas aussi bon que le modèle raffiné de DeepSeek (Chine), mais les performances globales sont très proches des normes de classe mondiale.
À propos de cette réussite, le Dr Yung-Hui Li, directeur du Centre de recherche en intelligence artificielle de l'Institut de recherche Hon Hai (Foxconn), a déclaré :
Ces derniers mois, l’amélioration des capacités de raisonnement et l’utilisation efficace des GPU sont progressivement devenues une tendance majeure dans le domaine de l’IA. Notre modèle FoxBrain a adopté une stratégie de formation très efficace, axée sur l’optimisation du processus de formation plutôt que sur l’accumulation aveugle de puissance de calcul.
« Grâce à des méthodes de formation soigneusement conçues et à l'optimisation des ressources, nous avons réussi à construire un modèle d'IA local doté de fortes capacités de raisonnement. »

Foxconn n'assemble pas seulement les produits Apple, mais fabrique également les serveurs d'IA de Nvidia. Avec 120 GPU H100, FoxBrain est mis à l'échelle à l'aide du réseau Quantum-2 InfiniBand de Nvidia, et la formation ne prend qu'environ 4 semaines (pour un coût de calcul total de 2 688 jours GPU). Foxconn a généré 98 milliards de jetons de données de pré-formation de haute qualité en chinois traditionnel avec une longueur de fenêtre contextuelle allant jusqu'à 128 000 jetons.
Le partenariat entre Foxconn et Nvidia n'est pas nouveau, et les deux sociétés travaillent également sur d'autres projets, notamment la construction de la plus grande usine de fabrication de GPU Blackwell au monde.
Nvidia a également fourni à Foxconn le supercalculateur Taipei-1 pour compléter le processus de pré-formation du modèle. Foxconn a déclaré que FoxBrain deviendrait un « moteur clé » pour mettre à niveau les trois principales plateformes de l'entreprise : Smart Manufacturing, Smart Electric Vehicles et Smart Cities.