Whisper-JAX est une version optimisée du modèle de reconnaissance vocale Whisper d’OpenAI. Cette implémentation, construite principalement sur la base de l’implémentation de Whisper, offre des performances impressionnantes, se démarquant comme la version la plus rapide disponible.
Comparé au code PyTorch d’OpenAI, Whisper-JAX brille par sa vitesse. En fait, il peut fonctionner jusqu’à plus de 70 fois plus rapidement que l’implémentation originale. Cette accélération remarquable est rendue possible grâce à l’utilisation de JAX, une bibliothèque de calcul numérique hautement performante.
Whisper-JAX est polyvalent en termes de matériel. Il est compatible avec CPU, GPU et TPU, ce qui signifie que vous pouvez l’exécuter sur une variété de plateformes pour répondre à vos besoins en matière de calcul.
Voici un aperçu des performances de Whisper-JAX comparées à l’implémentation d’origine :
Framework | Backend | 1 min | 10 min | 1 heure |
---|---|---|---|---|
OpenAI | GPU | 13.8s | 108.3s | 1001.0s |
Transformers | GPU | 4.54s | 20.2s | 126.1s |
Whisper JAX | GPU | 1.72s | 9.38s | 75.3s |
Whisper JAX | TPU | 0.45s | 2.01s | 13.8s |
Comme vous pouvez le constater, Whisper-JAX atteint des niveaux impressionnants de rapidité, en particulier lorsqu’il est exécuté sur TPU.
Il est important de noter que Whisper-JAX peut être plus complexe à faire fonctionner sous Windows avec WSL (Windows Subsystem for Linux). Il est recommandé de tester cette implémentation directement sous Linux pour une meilleur expérience, même si ça reste toujours possible avec WSL.