Paramètres utiles pour Faster-whiser

Paramètres

beam_size

Le beam_size fait référence à un algorithme de recherche par faisceaux utilisé dans la prédiction des séquences. L’idée est d’explorer un ensemble limité de meilleures options (faisceaux) à chaque étape de prédiction, permettant ainsi de trouver plus efficacement la séquence la plus probable. Un beam_size plus grand augmente la probabilité de trouver une prédiction précise mais demande plus de ressources computationnelles, tandis qu’un beam_size plus petit rend le processus plus rapide mais potentiellement moins précis.

No Speech Threshold

Le paramètre « No Speech Threshold » est essentiel pour distinguer les moments de parole des silences ou bruits de fond dans un enregistrement audio. La difficulté majeure des modèles de transcription réside dans leur tendance à générer des faux positifs, tentant de transcrire des bruits non-verbaux en mots. Ce paramètre définit un seuil qui aide le modèle à identifier si les sons capturés contiennent de la parole ou non, minimisant ainsi les erreurs de transcription et les hallucinations auditives inutiles.

Compute Type

Le « Compute Type » détermine la précision du calcul utilisé par le modèle de langue, influençant directement la rapidité d’exécution et la consommation de VRAM. Les options disponibles incluent des précisions de calcul à 32 bits, 16 bits et 8 bits. Un calcul en 8 bits offre une exécution rapide et une faible consommation de VRAM ou Ram au prix d’une précision moindre. À l’inverse, des précisions plus élevées (16 ou 32 bits) garantissent une meilleure exactitude des résultats mais avec une vitesse d’inférence réduite. La quantisation en 8 bits se révèle souvent suffisante pour obtenir de bons résultats avec une efficacité notable.

Paramètres utiles pour Faster-whiser

Paramètres

beam_size

No Speech Threshold

Compute Type

Tutoriels