update

litianjian · litianjian · commit 737e0eabc2c1 · 2024-10-28T10:16:45.000Z
diff --git a/tests/models/decoder_only/vision_language/test_llava_onevision.py b/tests/models/decoder_only/vision_language/test_llava_onevision.py
@@ -9,8 +9,8 @@
 from vllm.sequence import SampleLogprobs
 from vllm.utils import STR_DTYPE_TO_TORCH_DTYPE
 
-from ....conftest import (VIDEO_ASSETS, HfRunner, PromptImageInput, VllmRunner,
-                          _VideoAssets)
+from ....conftest import (VIDEO_ASSETS, HfRunner, PromptImageInput, PromptVideoInput,
+                          VllmRunner, _VideoAssets)
 from ....utils import large_gpu_test
 from ...utils import check_logprobs_close
 
diff --git a/vllm/model_executor/models/llava_onevision.py b/vllm/model_executor/models/llava_onevision.py
@@ -348,18 +348,18 @@ def input_processor_when_multimodal_input_video(ctx: InputContext,
         tokenizer = cached_get_tokenizer(model_config.tokenizer)
         new_prompt, new_token_ids = repeat_and_pad_placeholder_tokens(
             tokenizer,
-            llm_inputs.get("prompt"),
-            llm_inputs["prompt_token_ids"],
+            inputs.get("prompt"),
+            inputs["prompt_token_ids"],
             placeholder_token_id=hf_config.video_token_index,
             repeat_count=video_feature_size,
         )
-        return LLMInputs(prompt_token_ids=new_token_ids,
-                         prompt=new_prompt,
-                         multi_modal_data=multi_modal_data)
+        return token_inputs(prompt_token_ids=new_token_ids,
+                            prompt=new_prompt,
+                            multi_modal_data=multi_modal_data)
     else:
         raise TypeError(f"Invalid video type: {type(video_data)}")
 
-    msg = f"Unsupported vision config: {type(vision_config)}"
+    msg = f"Unsupported video type: {type(video_data)}"
     raise NotImplementedError(msg)
 
 
@@ -841,6 +841,8 @@ def forward(
                 batch.
             pixel_values_videos: Pixels in each frames for each input videos.
         """
+        # import pdb; pdb.set_trace()
+
         if intermediate_tensors is not None:
             input_ids = None
             inputs_embeds = None