Whisper-JAX : Une Implémentation Accélérée de Whisper d’OpenAI


Whisper-JAX est une version optimisée du modèle de reconnaissance vocale Whisper d’OpenAI. Cette implémentation, construite principalement sur la base de l’implémentation de Whisper, offre des performances impressionnantes, se démarquant comme la version la plus rapide disponible.

Pourquoi Whisper-JAX ?

Comparé au code PyTorch d’OpenAI, Whisper-JAX brille par sa vitesse. En fait, il peut fonctionner jusqu’à plus de 70 fois plus rapidement que l’implémentation originale. Cette accélération remarquable est rendue possible grâce à l’utilisation de JAX, une bibliothèque de calcul numérique hautement performante.

Compatibilité Multimodale

Whisper-JAX est polyvalent en termes de matériel. Il est compatible avec CPU, GPU et TPU, ce qui signifie que vous pouvez l’exécuter sur une variété de plateformes pour répondre à vos besoins en matière de calcul.

Performances Exceptionnelles

Voici un aperçu des performances de Whisper-JAX comparées à l’implémentation d’origine :

FrameworkBackend1 min10 min1 heure
OpenAIGPU13.8s108.3s1001.0s
TransformersGPU4.54s20.2s126.1s
Whisper JAXGPU1.72s9.38s75.3s
Whisper JAXTPU0.45s2.01s13.8s
Temps de traitement pour 1min/10min/60min de transcription audio

Comme vous pouvez le constater, Whisper-JAX atteint des niveaux impressionnants de rapidité, en particulier lorsqu’il est exécuté sur TPU.

Pour Les Utilisateurs de Windows

Il est important de noter que Whisper-JAX peut être plus complexe à faire fonctionner sous Windows avec WSL (Windows Subsystem for Linux). Il est recommandé de tester cette implémentation directement sous Linux pour une meilleur expérience, même si ça reste toujours possible avec WSL.