Do not always try to load the tokenizer

Signed-off-by: Ettore Di Giacinto <mudler@localai.io>
2025-06-29 22:20:43 +00:00 · 2025-01-17 21:30:25 +01:00 · 2025-01-17 21:30:25 +01:00 · f536038f65
commit f536038f65
parent 0abb5f05be
1 changed files with 5 additions and 1 deletions
--- a/backend/python/transformers/backend.py
+++ b/backend/python/transformers/backend.py
@ -95,6 +95,7 @@ class BackendServicer(backend_pb2_grpc.BackendServicer):
        device_map="cpu"

        quantization = None
+        autoTokenizer = True

        if self.CUDA:
            from transformers import BitsAndBytesConfig, AutoModelForCausalLM
@ -198,9 +199,11 @@ class BackendServicer(backend_pb2_grpc.BackendServicer):
                                                                device=device_map)
                self.OV = True
            elif request.Type == "MusicgenForConditionalGeneration":
+                autoTokenizer = False
                self.processor = AutoProcessor.from_pretrained(model_name)
                self.model = MusicgenForConditionalGeneration.from_pretrained(model_name)
            elif request.Type == "OuteTTS":
+                autoTokenizer = False
                options = request.Options
                MODELNAME = "OuteAI/OuteTTS-0.3-1B"
                TOKENIZER = "OuteAI/OuteTTS-0.3-1B"
@ -239,6 +242,7 @@ class BackendServicer(backend_pb2_grpc.BackendServicer):
                else:
                    self.speaker = self.interface.load_default_speaker(name=SPEAKER)               
            elif request.Type == "SentenceTransformer":
+                autoTokenizer = False
                self.model = SentenceTransformer(model_name, trust_remote_code=request.TrustRemoteCode)
                self.SentenceTransformer = True
            else:
@ -256,7 +260,7 @@ class BackendServicer(backend_pb2_grpc.BackendServicer):
            else:
                self.max_tokens = 512
 
-            if request.Type != "MusicgenForConditionalGeneration":
+            if autoTokenizer:
                self.tokenizer = AutoTokenizer.from_pretrained(model_name, use_safetensors=True)
                self.XPU = False