Merge pull request #341 from charitarthchugh/charitarthchugh/vllm-defaults-speedup

jakep-allenai · web-flow · commit 2b70b503120a · 2025-10-06T13:23:47.000-07:00
Add chunked prefill and limit mm per prompt options
diff --git a/olmocr/pipeline.py b/olmocr/pipeline.py
@@ -636,6 +636,8 @@ async def vllm_server_task(model_name_or_path, args, semaphore, unknown_args=Non
         str(args.tensor_parallel_size),
         "--data-parallel-size",
         str(args.data_parallel_size),
+        "--enable-chunked-prefill",
+        "--limit-mm-per-prompt '{\"video\": 0}'"
     ]
 
     if args.gpu_memory_utilization is not None:

Original file line number	Diff line number	Diff line change
`@@ -636,6 +636,8 @@ async def vllm_server_task(model_name_or_path, args, semaphore, unknown_args=Non`
`636`	`636`	`str(args.tensor_parallel_size),`
`637`	`637`	`"--data-parallel-size",`
`638`	`638`	`str(args.data_parallel_size),`
	`639`	`+ "--enable-chunked-prefill",`
	`640`	`+ "--limit-mm-per-prompt '{\"video\": 0}'"`
`639`	`641`	`]`
`640`	`642`
`641`	`643`	`if args.gpu_memory_utilization is not None:`