feat: tokenization with llama.cpp (#4724)

feat: tokenization Signed-off-by: shraddhazpy <shraddha@shraddhafive.in>
2025-05-20 02:24:59 +00:00 · 2025-02-02 23:09:43 +05:30 · 2025-02-02 23:09:43 +05:30 · 03974a4dd4
commit 03974a4dd4
parent 1d6afbd65d
3 changed files with 19 additions and 9 deletions
--- a/backend/cpp/llama/grpc-server.cpp
+++ b/backend/cpp/llama/grpc-server.cpp
@ -2542,6 +2542,18 @@ public:
        return grpc::Status::OK;
    }

+    grpc::Status TokenizeString(ServerContext* context, const backend::PredictOptions* request, backend::TokenizationResponse* response){
+         json data = parse_options(false, request, llama);
+
+         std::vector<llama_token> tokens = llama.tokenize(data["prompt"],false);
+
+         for (int i=0 ; i< tokens.size(); i++){
+            response->add_tokens(tokens[i]);
+         }
+
+        return grpc::Status::OK;
+    }
+
    grpc::Status GetMetrics(ServerContext* context, const backend::MetricsRequest* request, backend::MetricsResponse* response) {
        llama_client_slot* active_slot = llama.get_active_slot();