GPTQ C’est quoi ? (Accurate Post-Training Quantization)


Les modèles de langage tels que GPT (Generative Pre-trained Transformer) ont étonné le monde par leur performance dans des tâches complexes de traitement du langage naturel. Cependant, ils ont un inconvénient majeur : leur taille immense, ce qui les rend gourmands en ressources informatiques. C’est là qu’intervient GPTQ (Q = Quantification).

GPTQ, en tant que méthode de quantization des poids pour les modèles GPT, offre une optimisation impressionnante tout en réduisant considérablement les besoins en ressources matérielles. Cependant, il y a un point essentiel à noter : pour profiter pleinement de cette technique, il est nécessaire de disposer d’une carte graphique compatible CUDA avec suffisamment de VRAM.

La Quantification des Poids

Imaginez que les modèles GPT sont comme une immense bibliothèque de mots (paramètres), mais chaque mot est stocké avec de nombreuses décimales, prenant beaucoup de place. La quantification des poids, c’est comme réduire le nombre de décimales après la virgule. Cela permet de réduire considérablement la taille de la bibliothèque sans perdre trop de précision.

Quantization 8bits, 4bits, 2bits

Augmenter la quantification revient à réduire le nombre de bits. En d’autres termes, une quantification plus élevée signifie que chaque poids du modèle est stocké avec moins de chiffres binaires, ce qui permet de réduire la taille du modèle. Cependant, cela peut entraîner une perte de précision, car moins de chiffres binaires sont utilisés pour représenter chaque poids. Donc, une quantification plus élevée signifie une plus grande réduction de taille, mais cela peut également entraîner une diminution de la précision du modèle.

En général, une quantization avec moins de bits réduira la taille du modèle, mais elle peut également entraîner une perte de précision. Donc, une quantization 4 bits donnera des traitements plus rapides et demandera moins de ressource en VRAM qu’une quantisation 8 bits. En revanche la quantization 4 bits sera moins précise.

Performance 2bits > 4bits > 8bits
précision 8bits > 4bits > 2bits

L’Inférence

L’inférence est le moment où le modèle est utilisé pour répondre à des questions ou générer du texte. Pour faire simple c’est le processus de génération de réponse du modèle. GPTQ rend l’inférence plus rapide et plus accessible. Auparavant, vous aviez besoin de plusieurs puissantes cartes graphiques pour faire fonctionner ces modèles, mais grâce à GPTQ, un seul GPU peut faire le travail.

En conclusion

GPTQ est une technique qui permet de réduire la taille des énormes modèles de langage comme GPT tout en préservant leur précision. Cela les rend plus rapides et plus accessibles, ouvrant de nouvelles possibilités passionnantes pour l’intelligence artificielle.