1: remove is_video,

xipingyan · xipingyan · commit edd75d833995 · 2025-08-10T16:48:42.000+08:00
2: add ov::Properity::video

Signed-off-by: xipingya &lt;xiping.yan@intel.com&gt;
diff --git a/src/cpp/include/openvino/genai/continuous_batching_pipeline.hpp b/src/cpp/include/openvino/genai/continuous_batching_pipeline.hpp
@@ -165,7 +165,11 @@ class OPENVINO_GENAI_EXPORTS ContinuousBatchingPipeline {
     /// @param request_id must be unique for every add_request() call.
     GenerationHandle add_request(uint64_t request_id, const ov::Tensor& input_ids, const ov::genai::GenerationConfig& sampling_params);
     GenerationHandle add_request(uint64_t request_id, const std::string& prompt, const ov::genai::GenerationConfig& sampling_params);
-    GenerationHandle add_request(uint64_t request_id, const std::string& prompt, const std::vector<ov::Tensor>& images, const ov::genai::GenerationConfig& sampling_params);
+    GenerationHandle add_request(uint64_t request_id,
+                                 const std::string& prompt,
+                                 const std::vector<ov::Tensor>& images,
+                                 const std::vector<ov::Tensor>& video,
+                                 const ov::genai::GenerationConfig& sampling_params);
 
     void step();
 
@@ -177,6 +181,7 @@ class OPENVINO_GENAI_EXPORTS ContinuousBatchingPipeline {
     std::vector<VLMDecodedResults> generate(
              const std::vector<std::string>& prompts,
              const std::vector<std::vector<ov::Tensor>>& images,
+             const std::vector<std::vector<ov::Tensor>>& videos,
              const std::vector<GenerationConfig>& sampling_params,
              const StreamerVariant& streamer=std::monostate{});
     /**
diff --git a/src/cpp/include/openvino/genai/generation_config.hpp b/src/cpp/include/openvino/genai/generation_config.hpp
@@ -212,8 +212,6 @@ class OPENVINO_GENAI_EXPORTS GenerationConfig {
     // set to true if chat template should be applied for non-chat scenarios, set to false otherwise
     bool apply_chat_template = true;
 
-    // Vidoe or image
-    bool is_video = false;
 
     /** @brief sets eos_token_id to tokenizer_eos_token_id if eos_token_id is less than 0.
      * Otherwise verifies eos_token_id == tokenizer_eos_token_id.
diff --git a/src/cpp/include/openvino/genai/visual_language/pipeline.hpp b/src/cpp/include/openvino/genai/visual_language/pipeline.hpp
@@ -98,6 +98,7 @@ class OPENVINO_GENAI_EXPORTS VLMPipeline {
     VLMDecodedResults generate(
         const std::string& prompt,
         const std::vector<ov::Tensor>& rgbs,
+        const std::vector<ov::Tensor>& video,
         const GenerationConfig& generation_config,
         const StreamerVariant& streamer
     );
@@ -235,7 +236,10 @@ class OPENVINO_GENAI_EXPORTS VLMPipeline {
 /*
  * utils that allow to use generate() in the following way:
  * pipe.generate(prompt, ov::genai::image(image_tensor)).
+ * pipe.generate(prompt, ov::genai::images(image_tensors)).
+ * pipe.generate(prompt, ov::genai::video(video_tensors)).
 */
 static constexpr ov::Property<ov::Tensor> image{"image"};
 static constexpr ov::Property<std::vector<ov::Tensor>> images{"images"};
+static constexpr ov::Property<std::vector<ov::Tensor>> video{"video"};
 }
diff --git a/src/cpp/src/continuous_batching/pipeline.cpp b/src/cpp/src/continuous_batching/pipeline.cpp
@@ -237,8 +237,12 @@ GenerationHandle ContinuousBatchingPipeline::add_request(uint64_t request_id, co
     return m_impl->add_request(request_id, input_ids, sampling_params);
 }
 
-GenerationHandle ContinuousBatchingPipeline::add_request(uint64_t request_id, const std::string& prompt, const std::vector<ov::Tensor>& images, const ov::genai::GenerationConfig& sampling_params) {
-    return m_impl->add_request(request_id, prompt, images, sampling_params);
+GenerationHandle ContinuousBatchingPipeline::add_request(uint64_t request_id,
+                                                         const std::string& prompt,
+                                                         const std::vector<ov::Tensor>& images,
+                                                         const std::vector<ov::Tensor>& video,
+                                                         const ov::genai::GenerationConfig& sampling_params) {
+    return m_impl->add_request(request_id, prompt, images, video, sampling_params);
 }
 
 void ContinuousBatchingPipeline::step() {
@@ -272,9 +276,10 @@ std::vector<GenerationResult> ContinuousBatchingPipeline::generate(const std::ve
 std::vector<VLMDecodedResults> ContinuousBatchingPipeline::generate(
              const std::vector<std::string>& prompts,
              const std::vector<std::vector<ov::Tensor>>& images,
+             const std::vector<std::vector<ov::Tensor>>& videos,
              const std::vector<GenerationConfig>& sampling_params,
              const StreamerVariant& streamer) {
-    return m_impl->generate(prompts, images, sampling_params, streamer);
+    return m_impl->generate(prompts, images, videos, sampling_params, streamer);
 }
 
 
diff --git a/src/cpp/src/continuous_batching/pipeline_base.cpp b/src/cpp/src/continuous_batching/pipeline_base.cpp
@@ -51,7 +51,8 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
         // TODO: remove this code and within model runner add check: if sequence group type is tokens, 
         // but embedding model is available => compute embeddings first, then pass to LLM
         std::vector<std::vector<ov::Tensor>> images(prompts.size());
-        auto results_vlm = generate(prompts, images, sampling_params, streamer);
+        std::vector<std::vector<ov::Tensor>> videos(prompts.size());
+        auto results_vlm = generate(prompts, images, videos, sampling_params, streamer);
         std::vector<GenerationResult> resutls;
         for (auto& vlm_result : results_vlm) {
             GenerationResult result;
@@ -150,13 +151,15 @@ std::vector<VLMDecodedResults>
 ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
              const std::vector<std::string>& prompts,
              const std::vector<std::vector<ov::Tensor>>& rgbs_vector,
+             const std::vector<std::vector<ov::Tensor>>& video_vector,
              const std::vector<GenerationConfig>& sampling_params,
              const StreamerVariant& streamer)  {
     auto generate_start_time = std::chrono::steady_clock::now();
     OPENVINO_ASSERT(m_model_input_type == ModelInputType::EMBEDDINGS);
 
     OPENVINO_ASSERT(prompts.size() == sampling_params.size(), "Number of prompts should be equal to the number of generation configs.");
     OPENVINO_ASSERT(prompts.size() == rgbs_vector.size(), "Number of prompts should be equal to the number of images vectors.");
+    OPENVINO_ASSERT(prompts.size() == video_vector.size(), "Number of prompts should be equal to the number of video vectors.");
 
     std::vector<ov::Tensor> input_embeds_list;
     std::vector<VLMPerfMetrics> vlm_perf_metrics(prompts.size());
@@ -165,9 +168,14 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
     if (m_is_chat_conversation) {
         OPENVINO_ASSERT(1 == prompts.size(), "Can't chat with multiple prompts");
         const auto& rgbs = rgbs_vector[0];
+        const auto& video = video_vector[0];
         const auto& prompt = prompts[0];
         auto start_get_inputs_embeds = std::chrono::steady_clock::now();
-        encoded_images = m_inputs_embedder->encode_images(rgbs, sampling_params[0].is_video);
+        if (rgbs.size() > 0) {
+            encoded_images = m_inputs_embedder->encode_images(rgbs, false);
+        } else if (video.size() > 0) {
+            encoded_images = m_inputs_embedder->encode_images(video, true);
+        }
         m_history_images.insert(m_history_images.end(), encoded_images.begin(), encoded_images.end());
 
         const auto [unified_prompt, image_sequence] = m_inputs_embedder->normalize_prompt(prompt, m_image_id, encoded_images);
@@ -177,15 +185,26 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
         std::string templated_history = m_tokenizer.apply_chat_template(m_history, true);
 
         m_inputs_embedder->set_apply_chat_template_status(false);
-        input_embeds_list.push_back(m_inputs_embedder->get_inputs_embeds(templated_history, m_history_images, vlm_perf_metrics[0], rgbs.size() > 0, m_history_image_ids));
+        input_embeds_list.push_back(m_inputs_embedder->get_inputs_embeds(templated_history,
+                                                                         m_history_images,
+                                                                         vlm_perf_metrics[0],
+                                                                         encoded_images.size() > 0,
+                                                                         m_history_image_ids));
         auto end_get_inputs_embeds = std::chrono::steady_clock::now();
         vlm_perf_metrics[0].vlm_raw_metrics.prepare_embeddings_durations.emplace_back(PerfMetrics::get_microsec(end_get_inputs_embeds - start_get_inputs_embeds));
 
     } else {
         for (size_t i = 0; i < prompts.size(); i++) {
             const auto& prompt = prompts[i];
             const auto& rgbs = rgbs_vector[i];
-            const auto encoded_images = m_inputs_embedder->encode_images(rgbs, sampling_params[i].is_video);
+            const auto& video = video_vector[i];
+            std::vector<ov::genai::EncodedImage> encoded_images;
+            if (rgbs.size() > 0) {
+                encoded_images = m_inputs_embedder->encode_images(rgbs, false);
+            } else if (video.size() > 0) {
+                encoded_images = m_inputs_embedder->encode_images(video, true);
+            }
+
             auto [unified_prompt, image_sequence] = m_inputs_embedder->normalize_prompt(prompt, m_image_id, encoded_images);
 
             auto start_get_inputs_embeds = std::chrono::steady_clock::now();
@@ -241,14 +260,21 @@ GenerationHandle
 ContinuousBatchingPipeline::IContinuousBatchingPipeline::add_request(uint64_t request_id,
                                         const std::string& prompt,
                                         const std::vector<ov::Tensor>& rgbs,
+                                        const std::vector<ov::Tensor>& video,
                                         GenerationConfig sampling_params) {
     OPENVINO_ASSERT(m_model_input_type == ModelInputType::EMBEDDINGS, "Model doesn't support embeddings.");
     ov::genai::VLMPerfMetrics metrics;
     ov::Tensor inputs;
     {
         std::lock_guard<std::mutex> lock(m_embeddings_mutex);
         m_inputs_embedder->set_apply_chat_template_status(sampling_params.apply_chat_template);
-        const auto encoded_images = m_inputs_embedder->encode_images(rgbs, sampling_params.is_video);
+
+        std::vector<ov::genai::EncodedImage> encoded_images;
+        if (rgbs.size() > 0) {
+            encoded_images = m_inputs_embedder->encode_images(rgbs, false);
+        } else if (video.size() > 0) {
+            encoded_images = m_inputs_embedder->encode_images(video, true);
+        }
 
         const auto [unified_prompt, image_sequence] = m_inputs_embedder->normalize_prompt(prompt, 0, encoded_images);
         inputs = m_inputs_embedder->get_inputs_embeds(unified_prompt, encoded_images, metrics, true, image_sequence);
diff --git a/src/cpp/src/continuous_batching/pipeline_base.hpp b/src/cpp/src/continuous_batching/pipeline_base.hpp
@@ -92,6 +92,7 @@ class ContinuousBatchingPipeline::IContinuousBatchingPipeline {
     GenerationHandle add_request(uint64_t request_id,
                                  const std::string& prompt,
                                  const std::vector<ov::Tensor>& rgbs,
+                                 const std::vector<ov::Tensor>& video,
                                  GenerationConfig sampling_params);
 
     /**
@@ -124,6 +125,7 @@ class ContinuousBatchingPipeline::IContinuousBatchingPipeline {
     generate(
              const std::vector<std::string>& prompts,
              const std::vector<std::vector<ov::Tensor>>& rgbs,
+             const std::vector<std::vector<ov::Tensor>>& videos,
              const std::vector<GenerationConfig>& sampling_params,
              const StreamerVariant& streamer);
 
diff --git a/src/cpp/src/continuous_batching/pipeline_impl.cpp b/src/cpp/src/continuous_batching/pipeline_impl.cpp
@@ -238,7 +238,7 @@ ContinuousBatchingPipeline::ContinuousBatchingImpl::add_request(uint64_t request
         timer.end();
         return add_request(request_id, inputs, sampling_params);
     } else if (m_model_input_type == ModelInputType::EMBEDDINGS) {
-        return ContinuousBatchingPipeline::IContinuousBatchingPipeline::add_request(request_id, prompt, {}, sampling_params);
+        return ContinuousBatchingPipeline::IContinuousBatchingPipeline::add_request(request_id, prompt, {}, {}, sampling_params);
     } else {
         OPENVINO_THROW("Unknown model input type.");
     }
diff --git a/src/cpp/src/visual_language/continuous_batching_adapter.hpp b/src/cpp/src/visual_language/continuous_batching_adapter.hpp
@@ -44,11 +44,12 @@ class ov::genai::VLMPipeline::VLMContinuousBatchingAdapter : public ov::genai::V
     VLMDecodedResults generate(
         const std::string& prompt,
         const std::vector<ov::Tensor>& rgbs,
+        const std::vector<ov::Tensor>& video,
         GenerationConfig generation_config,
         const StreamerVariant& streamer
     ) override {
         auto start_time = std::chrono::steady_clock::now();
-        auto result = m_impl.generate({prompt}, {rgbs}, {generation_config}, streamer)[0];
+        auto result = m_impl.generate({prompt}, {rgbs}, {video}, {generation_config}, streamer)[0];
         auto stop_time = std::chrono::steady_clock::now();
         
         VLMDecodedResults decoded;
diff --git a/src/cpp/src/visual_language/pipeline.cpp b/src/cpp/src/visual_language/pipeline.cpp
@@ -153,6 +153,7 @@ class VLMPipeline::VLMPipelineImpl : public VLMPipelineBase{
     VLMDecodedResults generate(
         const std::string& prompt,
         const std::vector<ov::Tensor>& rgbs,
+        const std::vector<ov::Tensor>& video,
         GenerationConfig generation_config,
         const StreamerVariant& streamer
     ) override {
@@ -183,7 +184,12 @@ class VLMPipeline::VLMPipelineImpl : public VLMPipelineBase{
                 "Currently only \"num_return_sequences\" equal to 1 is supported for NPU device!");
         }
 
-        const auto encoded_images = m_inputs_embedder->encode_images(rgbs, generation_config.is_video);
+        std::vector<ov::genai::EncodedImage> encoded_images;
+        if (rgbs.size() > 0) {
+            encoded_images = m_inputs_embedder->encode_images(rgbs, false);
+        } else if (rgbs.size() > 0) {
+            encoded_images = m_inputs_embedder->encode_images(video, true);
+        }
         auto [unified_prompt, image_sequence] = m_inputs_embedder->normalize_prompt(prompt, m_image_id, encoded_images);
 
         if (m_is_chat_conversation) {
@@ -437,10 +443,11 @@ VLMPipeline::~VLMPipeline() = default;
 VLMDecodedResults VLMPipeline::generate(
     const std::string& prompt,
     const std::vector<ov::Tensor>& rgbs,
+    const std::vector<ov::Tensor>& video,
     const GenerationConfig& generation_config,
     const StreamerVariant& streamer
 ) {
-    return m_pimpl->generate(prompt, rgbs, generation_config, streamer);
+    return m_pimpl->generate(prompt, rgbs, video, generation_config, streamer);
 }
 
 VLMDecodedResults VLMPipeline::generate(
@@ -449,7 +456,7 @@ VLMDecodedResults VLMPipeline::generate(
     const GenerationConfig& generation_config,
     const StreamerVariant& streamer
 ) {
-    return m_pimpl->generate(prompt, {rgb}, generation_config, streamer);
+    return m_pimpl->generate(prompt, {rgb}, {}, generation_config, streamer);
 }
 
 VLMDecodedResults VLMPipeline::generate(
diff --git a/src/cpp/src/visual_language/pipeline_base.hpp b/src/cpp/src/visual_language/pipeline_base.hpp
@@ -23,6 +23,7 @@ class ov::genai::VLMPipeline::VLMPipelineBase {
     virtual VLMDecodedResults generate(
         const std::string& prompt,
         const std::vector<ov::Tensor>& rgbs,
+        const std::vector<ov::Tensor>& video,
         GenerationConfig generation_config,
         const StreamerVariant& streamer
     ) = 0;
@@ -33,6 +34,7 @@ class ov::genai::VLMPipeline::VLMPipelineBase {
     ) {
         auto image = config_map.find(ov::genai::image.name());
         auto images = config_map.find(ov::genai::images.name());
+        auto video = config_map.find(ov::genai::video.name());
         OPENVINO_ASSERT(
             config_map.end() == image || config_map.end() == images,
             "Only one property can be set: image of images."
@@ -52,13 +54,27 @@ class ov::genai::VLMPipeline::VLMPipelineBase {
             }
         }
 
+        std::vector<ov::Tensor> video_rgbs;
+        if (config_map.end() != video) {
+            if (video->second.is<std::vector<ov::Tensor>>()) {
+                video_rgbs = video->second.as<std::vector<ov::Tensor>>();
+            }
+            else if (video->second.is<ov::Tensor>()){
+                video_rgbs = {video->second.as<ov::Tensor>()};
+            }
+            else {
+                OPENVINO_THROW("Unknown video type.");
+            }
+        }
+
         ov::genai::OptionalGenerationConfig config_arg = utils::get_config_from_map(config_map);
         GenerationConfig config = (config_arg.has_value()) ? *config_arg : get_generation_config();
         config.update_generation_config(config_map);
 
         return generate(
             prompt,
             rgbs,
+            video_rgbs,
             config,
             utils::get_streamer_from_map(config_map)
         );
diff --git a/src/python/openvino_genai/py_openvino_genai.pyi b/src/python/openvino_genai/py_openvino_genai.pyi
@@ -3169,7 +3169,7 @@ class VLMPipeline:
     def finish_chat(self) -> None:
         ...
     @typing.overload
-    def generate(self, prompt: str, images: collections.abc.Sequence[openvino._pyopenvino.Tensor], generation_config: GenerationConfig, streamer: collections.abc.Callable[[str], int | None] | openvino_genai.py_openvino_genai.StreamerBase | None = None, **kwargs) -> VLMDecodedResults:
+    def generate(self, prompt: str, images: collections.abc.Sequence[openvino._pyopenvino.Tensor], video: collections.abc.Sequence[openvino._pyopenvino.Tensor], generation_config: GenerationConfig, streamer: collections.abc.Callable[[str], int | None] | openvino_genai.py_openvino_genai.StreamerBase | None = None, **kwargs) -> VLMDecodedResults:
         """
             Generates sequences for VLMs.
         
@@ -3193,7 +3193,10 @@ class VLMPipeline:
         
             :param images: image or list of images
             :type images: list[ov.Tensor] or ov.Tensor
-        
+
+            :param video: list of images
+            :type video: list[ov.Tensor]
+
             :param generation_config: generation_config
             :type generation_config: GenerationConfig or a dict
         
diff --git a/src/python/py_continuous_batching_pipeline.cpp b/src/python/py_continuous_batching_pipeline.cpp
diff --git a/src/python/py_generation_config.cpp b/src/python/py_generation_config.cpp
diff --git a/src/python/py_vlm_pipeline.cpp b/src/python/py_vlm_pipeline.cpp

Original file line number	Diff line number	Diff line change
`@@ -238,7 +238,7 @@ ContinuousBatchingPipeline::ContinuousBatchingImpl::add_request(uint64_t request`
`238`	`238`	`timer.end();`
`239`	`239`	`return add_request(request_id, inputs, sampling_params);`
`240`	`240`	`} else if (m_model_input_type == ModelInputType::EMBEDDINGS) {`
`241`		`- return ContinuousBatchingPipeline::IContinuousBatchingPipeline::add_request(request_id, prompt, {}, sampling_params);`
	`241`	`+ return ContinuousBatchingPipeline::IContinuousBatchingPipeline::add_request(request_id, prompt, {}, {}, sampling_params);`
`242`	`242`	`} else {`
`243`	`243`	`OPENVINO_THROW("Unknown model input type.");`
`244`	`244`	`}`