Convert cuda env tgi variables to lmi (#2013)

sindhuvahinis · web-flow · commit c6ff51b3813c · 2024-06-03T16:59:55.000-07:00
diff --git a/serving/docker/dockerd-entrypoint-with-cuda-compat.sh b/serving/docker/dockerd-entrypoint-with-cuda-compat.sh
@@ -47,6 +47,18 @@ translateTGIToLMI "SM_NUM_GPUS" "TENSOR_PARALLEL_DEGREE"
 translateTGIToLMI "MAX_CONCURRENT_REQUESTS" "SERVING_JOB_QUEUE_SIZE"
 translateTGIToLMI "MAX_BATCH_PREFILL_TOKENS" "OPTION_MAX_ROLLING_BATCH_PREFILL_TOKENS"
 translateTGIToLMI "MAX_BATCH_SIZE" "OPTION_MAX_ROLLING_BATCH_SIZE"
+if [[ -n "$ENABLE_CUDA_GRAPHS" && -z "$OPTION_ENFORCE_EAGER" ]]; then
+  if [[ "$ENABLE_CUDA_GRAPHS" = true ]]; then
+    export "OPTION_ENFORCE_EAGER"=false
+  else
+    export "OPTION_ENFORCE_EAGER"=true
+  fi
+fi
+if [[ "$SERVING_FEATURES" = "trtllm" ]]; then
+  translateTGIToLMI "CUDA_MEMORY_FRACTION" "OPTION_KV_CACHE_FREE_GPU_MEM_FRACTION"
+else
+  translateTGIToLMI "CUDA_MEMORY_FRACTION" "OPTION_GPU_MEMORY_UTILIZATION"
+fi
 
 if [[ "$1" = "serve" ]]; then
     shift 1