chore(deps): update llama.cpp and sync with upstream changes (#4950)

Signed-off-by: Ettore Di Giacinto <mudler@localai.io>
2025-05-20 02:24:59 +00:00 · 2025-03-06 00:40:58 +01:00 · 2025-03-06 00:40:58 +01:00 · 67f7bffd18
commit 67f7bffd18
parent de81b42b49
5 changed files with 8 additions and 11 deletions
--- a/backend/backend.proto
+++ b/backend/backend.proto
@ -165,7 +165,6 @@ message Reply {

 message GrammarTrigger {
  string word = 1;
-  bool at_start = 2;
 }

 message ModelOptions {
--- a/backend/cpp/llama/grpc-server.cpp
+++ b/backend/cpp/llama/grpc-server.cpp
@ -469,7 +469,7 @@ struct llama_server_context
    bool has_eos_token      = true;

    bool grammar_lazy = false;
-    std::vector<common_grammar_trigger> grammar_trigger_words;
+    std::vector<common_grammar_trigger> grammar_triggers;

    int32_t n_ctx;  // total context for all clients / slots

@ -709,7 +709,7 @@ struct llama_server_context
        slot->sparams.grammar           = json_value(data, "grammar",           default_sparams.grammar);
        slot->sparams.n_probs           = json_value(data, "n_probs",           default_sparams.n_probs);
        slot->sparams.min_keep          = json_value(data, "min_keep",          default_sparams.min_keep);
-        slot->sparams.grammar_trigger_words = grammar_trigger_words;
+        slot->sparams.grammar_triggers = grammar_triggers;
        slot->sparams.grammar_lazy = grammar_lazy;

        if (slot->n_predict > 0 && slot->params.n_predict > slot->n_predict) {
@ -2393,12 +2393,12 @@ static void params_parse(const backend::ModelOptions* request,
        llama.grammar_lazy = true;
        for (int i = 0; i < request->grammartriggers_size(); i++) {
            common_grammar_trigger trigger;
-            trigger.word = request->grammartriggers(i).word();
-            trigger.at_start = request->grammartriggers(i).at_start();
-            llama.grammar_trigger_words.push_back(trigger);
+	    trigger.type = COMMON_GRAMMAR_TRIGGER_TYPE_WORD;
+            trigger.value = request->grammartriggers(i).word();
+	    // trigger.at_start = request->grammartriggers(i).at_start();
+            llama.grammar_triggers.push_back(trigger);
            LOG_INFO("grammar trigger", {
-                { "word", trigger.word },
-                { "at_start", trigger.at_start }
+                { "word", trigger.value },
            });
        }
    }