GGML, qui signifie « Georgi Gerganov (son auteur) Machine Learning », est une bibliothèque en langage C dédiée à l’apprentissage automatique (machine learning). GGML définit un format binaire pour la distribution de grands modèles linguistiques (LLMs).
GGML utilise une technique appelée « quantification » qui permet aux grands modèles linguistiques de fonctionner sur du matériel grand public, ouvrant ainsi l’accès à ces puissants outils à un plus large éventail d’utilisateurs. Cet article explore les bases du format GGML, y compris comment la quantification est utilisée pour démocratiser l’accès aux LLMs.
Pour simplifier au maximum, GGML est une optimisation des modèles pré-entraînés. Lorsqu’un modèle est convertit sous GGML, il subit un processus de quantification. En d’autres termes, les nombres utilisés par les neurones artificiels du modèle sont arrondis pour réduire son poids, au détriment d’une légère perte de précision. Ainsi, une quantification sur 8 bits peut donner un modèle d’entraînement plus léger avec une précision acceptable. Actuellement, les modèles sur 4 bits sont populaires pour réduire encore davantage le poids des modèles, au prix d’une toute petite perte de précision supplémentaire par rapport au 8bits.
Le modèle GGML est un modèle quantifié qui repose principalement sur le CPU (processeur) et la RAM, tandis que le modèle GPTQ repose sur un modèle quantifié qui fonctionne sur les GPU (carte graphique) et la VRAM (mémoire des carte graphique).
Les fichiers GGML sont composés de données codées en binaire et sont structurés selon un format spécifié. Ce format précise quel type de données est présent dans le fichier, comment elles sont représentées et leur ordre d’apparition. Le premier élément d’information présent dans un fichier GGML valide est un numéro de version GGML, suivi de trois composants qui définissent un grand modèle linguistique : les hyperparamètres du modèle, son vocabulaire et ses poids.
En résumé, GGML est une bibliothèque essentielle pour l’apprentissage automatique qui permet la distribution de modèles linguistiques puissants. Grâce à des techniques telles que la quantification, elle rend ces modèles accessibles à un public plus large, favorisant ainsi l’innovation et l’exploration dans le domaine de la génération de texte.