Fix SparkTTS Detokenize (TTS) (#132)

Blaizzy · web-flow · commit f068e806b0bf · 2025-05-11T09:23:59.000+02:00
* fix voice cloning and TTS detokenize

* bump version

* format
diff --git a/mlx_audio/tts/models/spark/modules/speaker/speaker_encoder.py b/mlx_audio/tts/models/spark/modules/speaker/speaker_encoder.py
@@ -98,9 +98,9 @@ def tokenize(self, mels: mx.array) -> mx.array:
         return indices
 
     def detokenize(self, indices: mx.array) -> mx.array:
-        zq = self.quantizer.get_output_from_indices(
-            indices.transpose(0, 3, 1, 2)
-        ).transpose(0, 3, 1, 2)
+        zq = self.quantizer.get_output_from_indices(indices.swapaxes(-1, -2)).swapaxes(
+            -1, -2
+        )
         x = zq.reshape(zq.shape[0], -1)
         d_vector = self.project(x)
         return d_vector
diff --git a/mlx_audio/version.py b/mlx_audio/version.py
@@ -1 +1 @@
-__version__ = "0.2.0"
+__version__ = "0.2.1"