From 444222683a76ad45adf9012535c66ef3bb0baefd Mon Sep 17 00:00:00 2001
From: Meng Zhang <meng@tabbyml.com>
Date: Sat, 28 Oct 2023 02:03:34 -0700
Subject: [PATCH] fix(llama.cpp): bump upstream fix for starcoder model on cuda

---
 crates/llama-cpp-bindings/llama.cpp     | 2 +-
 crates/llama-cpp-bindings/src/engine.cc | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/crates/llama-cpp-bindings/llama.cpp b/crates/llama-cpp-bindings/llama.cpp
index 5cc49e6..638ff1a 160000
--- a/crates/llama-cpp-bindings/llama.cpp
+++ b/crates/llama-cpp-bindings/llama.cpp
@@ -1 +1 @@
-Subproject commit 5cc49e631f0902f33b10b7703b4d174fd635ccd9
+Subproject commit 638ff1aba1fa200f0bdc0ee3709176ddd783a49d
diff --git a/crates/llama-cpp-bindings/src/engine.cc b/crates/llama-cpp-bindings/src/engine.cc
index e5d10c2..3b5caaa 100644
--- a/crates/llama-cpp-bindings/src/engine.cc
+++ b/crates/llama-cpp-bindings/src/engine.cc
@@ -106,7 +106,7 @@ std::unique_ptr<TextInferenceEngine> create_engine(bool use_gpu, rust::Str model
   static BackendInitializer initializer;
 
   llama_model_params model_params = llama_model_default_params();
-  model_params.n_gpu_layers = use_gpu ? 1 : 0;
+  model_params.n_gpu_layers = use_gpu ? 9999 : 0;
   llama_model* model = llama_load_model_from_file(std::string(model_path).c_str(), model_params);
 
   if (!model) {