Rename video to videos, reducing confusion.

xipingyan · xipingyan · commit 6e33dcfb8cd0 · 2025-09-30T11:14:37.000+08:00
std::vector&lt;ov::Tensor&gt; videos
std::vector means multiple videos
ov::Tensor means [N,H,W,C], N represents multiple frames of a video.

Signed-off-by: xipingya &lt;xiping.yan@intel.com&gt;
diff --git a/src/cpp/include/openvino/genai/continuous_batching_pipeline.hpp b/src/cpp/include/openvino/genai/continuous_batching_pipeline.hpp
@@ -173,7 +173,7 @@ class OPENVINO_GENAI_EXPORTS ContinuousBatchingPipeline {
     GenerationHandle add_request(uint64_t request_id,
                                  const std::string& prompt,
                                  const std::vector<ov::Tensor>& images,
-                                 const std::vector<ov::Tensor>& video,
+                                 const std::vector<ov::Tensor>& videos,
                                  const ov::genai::GenerationConfig& sampling_params);
 
     void step();
diff --git a/src/cpp/include/openvino/genai/visual_language/pipeline.hpp b/src/cpp/include/openvino/genai/visual_language/pipeline.hpp
@@ -104,9 +104,10 @@ class OPENVINO_GENAI_EXPORTS VLMPipeline {
 
     /// @brief Generate a response given a prompt and any number of
     /// uint8 RGB images with [NHWC] or [HWC] layout.
+    /// Or uint8 RGB video frames with [NHWC] layout, first dim means frames number.
     /// @param prompt A prompt to respond to.
     /// @param images Images to be prepended to a prompt.
-    /// @param video Video frames to be prepended to a prompt.
+    /// @param videos Multiple videos, each providing multiple frames, to be prepended to a prompt.
     /// @param generation_config A config to follow for text generation.
     /// @param streamer A streamer to acquire intermediate result.
     /// @return A string generated by a model.
@@ -263,9 +264,9 @@ class OPENVINO_GENAI_EXPORTS VLMPipeline {
  * utils that allow to use generate() in the following way:
  * pipe.generate(prompt, ov::genai::image(image_tensor)).
  * pipe.generate(prompt, ov::genai::images(image_tensors)).
- * pipe.generate(prompt, ov::genai::video(video_tensors)).
+ * pipe.generate(prompt, ov::genai::videos(videos_tensors)).
 */
 static constexpr ov::Property<ov::Tensor> image{"image"};
 static constexpr ov::Property<std::vector<ov::Tensor>> images{"images"};
-static constexpr ov::Property<std::vector<ov::Tensor>> video{"video"};
+static constexpr ov::Property<std::vector<ov::Tensor>> videos{"videos"};
 }
diff --git a/src/cpp/src/continuous_batching/pipeline.cpp b/src/cpp/src/continuous_batching/pipeline.cpp
@@ -249,9 +249,9 @@ GenerationHandle ContinuousBatchingPipeline::add_request(uint64_t request_id,
 GenerationHandle ContinuousBatchingPipeline::add_request(uint64_t request_id,
                                                          const std::string& prompt,
                                                          const std::vector<ov::Tensor>& images,
-                                                         const std::vector<ov::Tensor>& video,
+                                                         const std::vector<ov::Tensor>& videos,
                                                          const ov::genai::GenerationConfig& sampling_params) {
-    return m_impl->add_request(request_id, prompt, images, video, sampling_params);
+    return m_impl->add_request(request_id, prompt, images, videos, sampling_params);
 }
 
 void ContinuousBatchingPipeline::step() {
diff --git a/src/cpp/src/continuous_batching/pipeline_base.cpp b/src/cpp/src/continuous_batching/pipeline_base.cpp
@@ -323,7 +323,7 @@ GenerationHandle ContinuousBatchingPipeline::IContinuousBatchingPipeline::add_re
     uint64_t request_id,
     const std::string& prompt,
     const std::vector<ov::Tensor>& images,
-    const std::vector<ov::Tensor>& video,
+    const std::vector<ov::Tensor>& videos,
     GenerationConfig sampling_params) {
     OPENVINO_ASSERT(m_model_input_type == ModelInputType::EMBEDDINGS, "Model doesn't support embeddings.");
 
@@ -335,7 +335,7 @@ GenerationHandle ContinuousBatchingPipeline::IContinuousBatchingPipeline::add_re
 
         auto encoded_images = m_inputs_embedder->encode_images(images);
         std::vector<std::vector<ov::genai::EncodedImage>> encoded_videos;
-        for (auto& vd : video) {
+        for (auto& vd : videos) {
             auto encoded_vd = m_inputs_embedder->encode_video({vd});
             encoded_videos.push_back(encoded_vd);
         }
diff --git a/src/cpp/src/continuous_batching/pipeline_base.hpp b/src/cpp/src/continuous_batching/pipeline_base.hpp
@@ -101,7 +101,7 @@ class ContinuousBatchingPipeline::IContinuousBatchingPipeline {
     GenerationHandle add_request(uint64_t request_id,
                                  const std::string& prompt,
                                  const std::vector<ov::Tensor>& images,
-                                 const std::vector<ov::Tensor>& video,
+                                 const std::vector<ov::Tensor>& videos,
                                  GenerationConfig sampling_params);
 
     /**
diff --git a/src/cpp/src/visual_language/continuous_batching_adapter.hpp b/src/cpp/src/visual_language/continuous_batching_adapter.hpp
@@ -53,13 +53,13 @@ class ov::genai::VLMPipeline::VLMContinuousBatchingAdapter : public ov::genai::V
     VLMDecodedResults generate(
         const std::string& prompt,
         const std::vector<ov::Tensor>& images,
-        const std::vector<ov::Tensor>& video,
+        const std::vector<ov::Tensor>& videos,
         GenerationConfig generation_config,
         const StreamerVariant& streamer
     ) override {
         auto start_time = std::chrono::steady_clock::now();
         auto images_vec = images.size() == 0u ? std::vector<std::vector<ov::Tensor>>{} : std::vector<std::vector<ov::Tensor>>{images};
-        auto video_vec = video.size() == 0u ? std::vector<std::vector<ov::Tensor>>{} : std::vector<std::vector<ov::Tensor>>{video};
+        auto video_vec = videos.size() == 0u ? std::vector<std::vector<ov::Tensor>>{} : std::vector<std::vector<ov::Tensor>>{videos};
         auto result = m_impl.generate({prompt}, images_vec, video_vec, {generation_config}, streamer)[0];
         auto stop_time = std::chrono::steady_clock::now();
         
diff --git a/src/cpp/src/visual_language/inputs_embedder.cpp b/src/cpp/src/visual_language/inputs_embedder.cpp
@@ -186,7 +186,7 @@ ov::Tensor InputsEmbedder::IInputsEmbedder::get_inputs_embeds(
 }
 
 std::vector<ov::genai::EncodedImage> InputsEmbedder::IInputsEmbedder::encode_video(const std::vector<ov::Tensor>& videos) {
-    OPENVINO_THROW("Current model doesn't support video preprocess currently. Input images are processed as separate images.");
+    OPENVINO_THROW("Current model doesn't support videos preprocess currently. Input images are processed as separate images.");
 }
 
 NormlizedPrompt InputsEmbedder::IInputsEmbedder::normalize_prompt(
diff --git a/src/cpp/src/visual_language/pipeline.cpp b/src/cpp/src/visual_language/pipeline.cpp
@@ -163,7 +163,7 @@ class VLMPipeline::VLMPipelineImpl : public VLMPipelineBase{
     VLMDecodedResults generate(
         const std::string& prompt,
         const std::vector<ov::Tensor>& images,
-        const std::vector<ov::Tensor>& video,
+        const std::vector<ov::Tensor>& videos,
         GenerationConfig generation_config,
         const StreamerVariant& streamer
     ) override {
@@ -196,7 +196,7 @@ class VLMPipeline::VLMPipelineImpl : public VLMPipelineBase{
 
         auto encoded_images = m_inputs_embedder->encode_images(images);
         std::vector<std::vector<ov::genai::EncodedImage>> encoded_videos;
-        for (auto& vd : video) {
+        for (auto& vd : videos) {
             auto encoded_vd = m_inputs_embedder->encode_video({vd});
             encoded_videos.push_back(encoded_vd);
         }
@@ -470,11 +470,11 @@ VLMPipeline::~VLMPipeline() = default;
 VLMDecodedResults VLMPipeline::generate(
     const std::string& prompt,
     const std::vector<ov::Tensor>& images,
-    const std::vector<ov::Tensor>& video,
+    const std::vector<ov::Tensor>& videos,
     const GenerationConfig& generation_config,
     const StreamerVariant& streamer
 ) {
-    return m_pimpl->generate(prompt, images, video, generation_config, streamer);
+    return m_pimpl->generate(prompt, images, videos, generation_config, streamer);
 }
 
 VLMDecodedResults VLMPipeline::generate(
diff --git a/src/cpp/src/visual_language/pipeline_base.hpp b/src/cpp/src/visual_language/pipeline_base.hpp
@@ -30,7 +30,7 @@ class ov::genai::VLMPipeline::VLMPipelineBase {
     virtual VLMDecodedResults generate(
         const std::string& prompt,
         const std::vector<ov::Tensor>& images,
-        const std::vector<ov::Tensor>& video,
+        const std::vector<ov::Tensor>& videos,
         GenerationConfig generation_config,
         const StreamerVariant& streamer
     ) = 0;
@@ -41,7 +41,7 @@ class ov::genai::VLMPipeline::VLMPipelineBase {
     ) {
         auto image = config_map.find(ov::genai::image.name());
         auto images = config_map.find(ov::genai::images.name());
-        auto video = config_map.find(ov::genai::video.name());
+        auto videos = config_map.find(ov::genai::videos.name());
 
         ov::genai::OptionalGenerationConfig config_arg = utils::get_config_from_map(config_map);
         GenerationConfig config = (config_arg.has_value()) ? *config_arg : get_generation_config();
@@ -64,13 +64,13 @@ class ov::genai::VLMPipeline::VLMPipelineBase {
             }
         }
 
-        if (config_map.end() != video) {
-            if (video->second.is<std::vector<ov::Tensor>>()) {
-                video_rgbs = video->second.as<std::vector<ov::Tensor>>();
-            } else if (video->second.is<ov::Tensor>()) {
-                video_rgbs = {video->second.as<ov::Tensor>()};
+        if (config_map.end() != videos) {
+            if (videos->second.is<std::vector<ov::Tensor>>()) {
+                video_rgbs = videos->second.as<std::vector<ov::Tensor>>();
+            } else if (videos->second.is<ov::Tensor>()) {
+                video_rgbs = {videos->second.as<ov::Tensor>()};
             } else {
-                OPENVINO_THROW("Unknown video type.");
+                OPENVINO_THROW("Unknown videos type.");
             }
         }
 
diff --git a/src/cpp/src/visual_language/qwen2vl/classes.cpp b/src/cpp/src/visual_language/qwen2vl/classes.cpp
@@ -1006,9 +1006,9 @@ ov::Tensor InputsEmbedderQwen2VL::get_inputs_embeds(const std::string& unified_p
     return qwen2_vl_utils::merge_text_and_image_embeddings(input_ids, text_embeds, merged_image_embeddings_tensor, image_pad_token_id, video_pad_token_id);
 }
 
-std::vector<ov::genai::EncodedImage> InputsEmbedderQwen2VL::encode_video(const std::vector<ov::Tensor>& video) {
+std::vector<ov::genai::EncodedImage> InputsEmbedderQwen2VL::encode_video(const std::vector<ov::Tensor>& videos) {
     std::vector<EncodedImage> embeds;
-    for (const ov::Tensor& single_video : video) {
+    for (const ov::Tensor& single_video : videos) {
         std::vector<ov::Tensor> single_frames = to_single_image_tensors({single_video});
         auto embeds_video = m_vision_encoder->encode_frames(single_frames);
         embeds.insert(embeds.end(), embeds_video.begin(), embeds_video.end());
diff --git a/src/python/py_continuous_batching_pipeline.cpp b/src/python/py_continuous_batching_pipeline.cpp
@@ -455,7 +455,7 @@ void init_continuous_batching_pipeline(py::module_& m) {
              py::arg("request_id"),
              py::arg("prompt"),
              py::arg("images"),
-             py::arg("video"),
+             py::arg("videos"),
              py::arg("generation_config"))
 
         .def("step", &ContinuousBatchingPipeline::step)
diff --git a/src/python/py_vlm_pipeline.cpp b/src/python/py_vlm_pipeline.cpp
@@ -132,7 +132,7 @@ py::object call_vlm_generate(
     ov::genai::VLMPipeline& pipe,
     const std::string& prompt,
     const std::vector<ov::Tensor>& images,
-    const std::vector<ov::Tensor>& video,
+    const std::vector<ov::Tensor>& videos,
     const ov::genai::GenerationConfig& generation_config,
     const pyutils::PyBindStreamerVariant& py_streamer,
     const py::kwargs& kwargs
@@ -142,7 +142,7 @@ py::object call_vlm_generate(
     ov::genai::VLMDecodedResults res;
     {
         py::gil_scoped_release rel;
-        res= pipe.generate(prompt, images, video, updated_config, streamer);
+        res= pipe.generate(prompt, images, videos, updated_config, streamer);
     }
     return py::cast(res);
 }
@@ -247,15 +247,15 @@ void init_vlm_pipeline(py::module_& m) {
             "generate",
             [](ov::genai::VLMPipeline& pipe,
                 const std::string& prompt,
-                const std::vector<ov::Tensor>& video,
+                const std::vector<ov::Tensor>& videos,
                 const ov::genai::GenerationConfig& generation_config,
                 const pyutils::PyBindStreamerVariant& streamer,
                 const py::kwargs& kwargs
             ) -> py::typing::Union<ov::genai::VLMDecodedResults> {
-                return call_vlm_generate(pipe, prompt, {}, video, generation_config, streamer, kwargs);
+                return call_vlm_generate(pipe, prompt, {}, videos, generation_config, streamer, kwargs);
             },
             py::arg("prompt"), "Input string",
-            py::arg("video"), "Input video",
+            py::arg("videos"), "Input videos, each providing multiple frames",
             py::arg("generation_config"), "generation_config",
             py::arg("streamer") = std::monostate(), "streamer",
             (vlm_generate_docstring + std::string(" \n ")).c_str()
diff --git a/tests/python_tests/test_vlm_pipeline.py b/tests/python_tests/test_vlm_pipeline.py
@@ -1083,4 +1083,4 @@ def test_vlm_pipeline_video_input(request, model_id, video_name, backend):
     model_path = get_ov_model(model_id)
 
     vlm = VLMPipeline(model_path, "CPU", ATTENTION_BACKEND=backend)
-    genai_output = vlm.generate(prompt, video=[video_tensor], max_new_tokens=max_new_tokens)
+    genai_output = vlm.generate(prompt, videos=[video_tensor], max_new_tokens=max_new_tokens)

Original file line number	Diff line number	Diff line change
`@@ -186,7 +186,7 @@ ov::Tensor InputsEmbedder::IInputsEmbedder::get_inputs_embeds(`
`186`	`186`	`}`
`187`	`187`
`188`	`188`	`std::vector<ov::genai::EncodedImage> InputsEmbedder::IInputsEmbedder::encode_video(const std::vector<ov::Tensor>& videos) {`
`189`		`- OPENVINO_THROW("Current model doesn't support video preprocess currently. Input images are processed as separate images.");`
	`189`	`+ OPENVINO_THROW("Current model doesn't support videos preprocess currently. Input images are processed as separate images.");`
`190`	`190`	`}`
`191`	`191`
`192`	`192`	`NormlizedPrompt InputsEmbedder::IInputsEmbedder::normalize_prompt(`