Paramètres utiles pour Faster-whiser


Cette fiche technique vise à éclairer les utilisateurs sur les différents paramètres à considérer lors de l’utilisation de Whisper, en mettant un accent particulier sur faster-Whisper. Faster-Whisper est une implémentation optimisée qui tire parti du module Ctranslate2 pour accélérer le processus de transcription. Notre objectif est de fournir une explication détaillée et accessible des paramètres clés pour exploiter au mieux cette technologie.

Paramètres

beam_size

Le beam_size fait référence à un algorithme de recherche par faisceaux utilisé dans la prédiction des séquences. L’idée est d’explorer un ensemble limité de meilleures options (faisceaux) à chaque étape de prédiction, permettant ainsi de trouver plus efficacement la séquence la plus probable. Un beam_size plus grand augmente la probabilité de trouver une prédiction précise mais demande plus de ressources computationnelles, tandis qu’un beam_size plus petit rend le processus plus rapide mais potentiellement moins précis.

No Speech Threshold

Le paramètre « No Speech Threshold » est essentiel pour distinguer les moments de parole des silences ou bruits de fond dans un enregistrement audio. La difficulté majeure des modèles de transcription réside dans leur tendance à générer des faux positifs, tentant de transcrire des bruits non-verbaux en mots. Ce paramètre définit un seuil qui aide le modèle à identifier si les sons capturés contiennent de la parole ou non, minimisant ainsi les erreurs de transcription et les hallucinations auditives inutiles.

Compute Type

Le « Compute Type » détermine la précision du calcul utilisé par le modèle de langue, influençant directement la rapidité d’exécution et la consommation de VRAM. Les options disponibles incluent des précisions de calcul à 32 bits, 16 bits et 8 bits. Un calcul en 8 bits offre une exécution rapide et une faible consommation de VRAM ou Ram au prix d’une précision moindre. À l’inverse, des précisions plus élevées (16 ou 32 bits) garantissent une meilleure exactitude des résultats mais avec une vitesse d’inférence réduite. La quantisation en 8 bits se révèle souvent suffisante pour obtenir de bons résultats avec une efficacité notable.