feat: add initial AutoGPTQ backend implementation

2025-05-30 23:44:59 +00:00 · 2023-08-07 22:39:10 +02:00 · 2023-08-07 22:39:10 +02:00 · a843e64fc2
commit a843e64fc2
parent 91d49cfe9f
37 changed files with 660 additions and 148 deletions
--- a/pkg/grpc/llm/bert/bert.go
+++ b/pkg/grpc/llm/bert/bert.go
@ -15,7 +15,7 @@ type Embeddings struct {
 }

 func (llm *Embeddings) Load(opts *pb.ModelOptions) error {
-	model, err := bert.New(opts.Model)
+	model, err := bert.New(opts.ModelFile)
 	llm.bert = model
 	return err
 }
--- a/pkg/grpc/llm/bloomz/bloomz.go
+++ b/pkg/grpc/llm/bloomz/bloomz.go
@ -18,7 +18,7 @@ type LLM struct {
 }

 func (llm *LLM) Load(opts *pb.ModelOptions) error {
-	model, err := bloomz.New(opts.Model)
+	model, err := bloomz.New(opts.ModelFile)
 	llm.bloomz = model
 	return err
 }
--- a/pkg/grpc/llm/falcon/falcon.go
+++ b/pkg/grpc/llm/falcon/falcon.go
@ -40,7 +40,7 @@ func (llm *LLM) Load(opts *pb.ModelOptions) error {
 		ggllmOpts = append(ggllmOpts, ggllm.SetNBatch(512))
 	}

-	model, err := ggllm.New(opts.Model, ggllmOpts...)
+	model, err := ggllm.New(opts.ModelFile, ggllmOpts...)
 	llm.falcon = model
 	return err
 }
--- a/pkg/grpc/llm/gpt4all/gpt4all.go
+++ b/pkg/grpc/llm/gpt4all/gpt4all.go
@ -17,7 +17,7 @@ type LLM struct {
 }

 func (llm *LLM) Load(opts *pb.ModelOptions) error {
-	model, err := gpt4all.New(opts.Model,
+	model, err := gpt4all.New(opts.ModelFile,
 		gpt4all.SetThreads(int(opts.Threads)),
 		gpt4all.SetLibrarySearchPath(opts.LibrarySearchPath))
 	llm.gpt4all = model
--- a/pkg/grpc/llm/llama/llama.go
+++ b/pkg/grpc/llm/llama/llama.go
@ -71,7 +71,7 @@ func (llm *LLM) Load(opts *pb.ModelOptions) error {
 		llamaOpts = append(llamaOpts, llama.EnabelLowVRAM)
 	}

-	model, err := llama.New(opts.Model, llamaOpts...)
+	model, err := llama.New(opts.ModelFile, llamaOpts...)
 	llm.llama = model
 	return err
 }
--- a/pkg/grpc/llm/rwkv/rwkv.go
+++ b/pkg/grpc/llm/rwkv/rwkv.go
@ -20,9 +20,9 @@ type LLM struct {
 }

 func (llm *LLM) Load(opts *pb.ModelOptions) error {
-	modelPath := filepath.Dir(opts.Model)
-	modelFile := filepath.Base(opts.Model)
-	model := rwkv.LoadFiles(opts.Model, filepath.Join(modelPath, modelFile+tokenizerSuffix), uint32(opts.GetThreads()))
+	modelPath := filepath.Dir(opts.ModelFile)
+	modelFile := filepath.Base(opts.ModelFile)
+	model := rwkv.LoadFiles(opts.ModelFile, filepath.Join(modelPath, modelFile+tokenizerSuffix), uint32(opts.GetThreads()))

 	if model == nil {
 		return fmt.Errorf("could not load model")
--- a/pkg/grpc/llm/transformers/dolly.go
+++ b/pkg/grpc/llm/transformers/dolly.go
@ -18,7 +18,7 @@ type Dolly struct {
 }

 func (llm *Dolly) Load(opts *pb.ModelOptions) error {
-	model, err := transformers.NewDolly(opts.Model)
+	model, err := transformers.NewDolly(opts.ModelFile)
 	llm.dolly = model
 	return err
 }
--- a/pkg/grpc/llm/transformers/falcon.go
+++ b/pkg/grpc/llm/transformers/falcon.go
@ -18,7 +18,7 @@ type Falcon struct {
 }

 func (llm *Falcon) Load(opts *pb.ModelOptions) error {
-	model, err := transformers.NewFalcon(opts.Model)
+	model, err := transformers.NewFalcon(opts.ModelFile)
 	llm.falcon = model
 	return err
 }
--- a/pkg/grpc/llm/transformers/gpt2.go
+++ b/pkg/grpc/llm/transformers/gpt2.go
@ -18,7 +18,7 @@ type GPT2 struct {
 }

 func (llm *GPT2) Load(opts *pb.ModelOptions) error {
-	model, err := transformers.New(opts.Model)
+	model, err := transformers.New(opts.ModelFile)
 	llm.gpt2 = model
 	return err
 }
--- a/pkg/grpc/llm/transformers/gptj.go
+++ b/pkg/grpc/llm/transformers/gptj.go
@ -18,7 +18,7 @@ type GPTJ struct {
 }

 func (llm *GPTJ) Load(opts *pb.ModelOptions) error {
-	model, err := transformers.NewGPTJ(opts.Model)
+	model, err := transformers.NewGPTJ(opts.ModelFile)
 	llm.gptj = model
 	return err
 }
--- a/pkg/grpc/llm/transformers/gptneox.go
+++ b/pkg/grpc/llm/transformers/gptneox.go
@ -18,7 +18,7 @@ type GPTNeoX struct {
 }

 func (llm *GPTNeoX) Load(opts *pb.ModelOptions) error {
-	model, err := transformers.NewGPTNeoX(opts.Model)
+	model, err := transformers.NewGPTNeoX(opts.ModelFile)
 	llm.gptneox = model
 	return err
 }
--- a/pkg/grpc/llm/transformers/mpt.go
+++ b/pkg/grpc/llm/transformers/mpt.go
@ -18,7 +18,7 @@ type MPT struct {
 }

 func (llm *MPT) Load(opts *pb.ModelOptions) error {
-	model, err := transformers.NewMPT(opts.Model)
+	model, err := transformers.NewMPT(opts.ModelFile)
 	llm.mpt = model
 	return err
 }
--- a/pkg/grpc/llm/transformers/replit.go
+++ b/pkg/grpc/llm/transformers/replit.go
@ -18,7 +18,7 @@ type Replit struct {
 }

 func (llm *Replit) Load(opts *pb.ModelOptions) error {
-	model, err := transformers.NewReplit(opts.Model)
+	model, err := transformers.NewReplit(opts.ModelFile)
 	llm.replit = model
 	return err
 }
--- a/pkg/grpc/llm/transformers/starcoder.go
+++ b/pkg/grpc/llm/transformers/starcoder.go
@ -18,7 +18,7 @@ type Starcoder struct {
 }

 func (llm *Starcoder) Load(opts *pb.ModelOptions) error {
-	model, err := transformers.NewStarcoder(opts.Model)
+	model, err := transformers.NewStarcoder(opts.ModelFile)
 	llm.starcoder = model
 	return err
 }