Call images when the models not implement video process.

xipingyan · xipingyan · commit 515c91141c96 · 2025-09-30T21:38:34.000+08:00
Signed-off-by: xiping.yan &lt;xiping.yan@intel.com&gt;
diff --git a/src/cpp/src/continuous_batching/pipeline_base.cpp b/src/cpp/src/continuous_batching/pipeline_base.cpp
@@ -203,12 +203,13 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
         m_inputs_embedder->set_apply_chat_template_status(false);
 
         if (m_inputs_embedder->has_token_type_ids()) {
-            // Todo: support video
             auto [embeds, tt_ids] = m_inputs_embedder->get_inputs_embeds_with_token_type_ids(templated_history,
                                                                                              m_history_images,
+                                                                                             m_history_videos,
                                                                                              vlm_perf_metrics[0],
                                                                                              true,
-                                                                                             m_history_image_ids);
+                                                                                             m_history_image_ids,
+                                                                                             m_history_video_ids);
             input_embeds_list.push_back(std::move(embeds));
             token_type_ids_list.push_back(std::move(tt_ids));
         } else {
@@ -244,11 +245,24 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
             m_inputs_embedder->set_apply_chat_template_status(sampling_params[i].apply_chat_template);
 
             if (m_inputs_embedder->has_token_type_ids()) {
-                auto [embeds, tt_ids] = m_inputs_embedder->get_inputs_embeds_with_token_type_ids(norm_prompt.unified_prompt, encoded_images, vlm_perf_metrics[i], true, norm_prompt.images_sequence);
+                auto [embeds, tt_ids] =
+                    m_inputs_embedder->get_inputs_embeds_with_token_type_ids(norm_prompt.unified_prompt,
+                                                                             encoded_images,
+                                                                             encoded_videos,
+                                                                             vlm_perf_metrics[i],
+                                                                             true,
+                                                                             norm_prompt.images_sequence,
+                                                                             norm_prompt.videos_sequence);
                 input_embeds_list.push_back(std::move(embeds));
                 token_type_ids_list.push_back(std::move(tt_ids));
             } else {
-                input_embeds_list.emplace_back(m_inputs_embedder->get_inputs_embeds(norm_prompt.unified_prompt, encoded_images, vlm_perf_metrics[i], true, norm_prompt.images_sequence));
+                input_embeds_list.emplace_back(m_inputs_embedder->get_inputs_embeds(norm_prompt.unified_prompt,
+                                                                                    encoded_images,
+                                                                                    encoded_videos,
+                                                                                    vlm_perf_metrics[i],
+                                                                                    true,
+                                                                                    norm_prompt.images_sequence,
+                                                                                    norm_prompt.videos_sequence));
             }
         
             auto end_get_inputs_embeds = std::chrono::steady_clock::now();
diff --git a/src/cpp/src/visual_language/inputs_embedder.cpp b/src/cpp/src/visual_language/inputs_embedder.cpp
@@ -182,11 +182,15 @@ ov::Tensor InputsEmbedder::IInputsEmbedder::get_inputs_embeds(
     bool recalculate_merged_embeddings,
     const std::vector<size_t>& images_sequence,
     const std::vector<size_t>& videos_sequence) {
-    OPENVINO_THROW("Current model doesn't support video preprocess currently. Input images are processed as separate images.");
+    if (videos.size() > 0) {
+        OPENVINO_THROW("The model doesn't support 'videos' preprocessing yet. Please use 'images' instead.");
+    } else {
+        return get_inputs_embeds(prompt, images, metrics, recalculate_merged_embeddings, images_sequence);
+    }
 }
 
 std::vector<ov::genai::EncodedImage> InputsEmbedder::IInputsEmbedder::encode_video(const std::vector<ov::Tensor>& videos) {
-    OPENVINO_THROW("Current model doesn't support videos preprocess currently. Input images are processed as separate images.");
+    OPENVINO_THROW("The model doesn't support 'videos' preprocessing yet. Please use 'images' instead.");
 }
 
 NormlizedPrompt InputsEmbedder::IInputsEmbedder::normalize_prompt(
@@ -195,7 +199,13 @@ NormlizedPrompt InputsEmbedder::IInputsEmbedder::normalize_prompt(
     size_t video_base_id,
     const std::vector<EncodedImage>& images,
     const std::vector<std::vector<EncodedImage>>& videos) const {
-    OPENVINO_THROW("Current model doesn't support video preprocess currently. Input images are processed as separate images.");
+    if (videos.size() > 0) {
+        OPENVINO_THROW("The model doesn't support 'videos' preprocessing yet. Please use 'images' instead.");
+    } else {
+        NormlizedPrompt norm_prompt;
+        std::tie(norm_prompt.unified_prompt, norm_prompt.images_sequence) = normalize_prompt(prompt, base_id, images);
+        return norm_prompt;
+    }
 }
 
 std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::IInputsEmbedder::get_inputs_embeds_with_token_type_ids(
@@ -207,6 +217,21 @@ std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::IInputsEmbedder::get_inputs_em
     OPENVINO_THROW("This model does not support token_type_ids.");
 }
 
+std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::IInputsEmbedder::get_inputs_embeds_with_token_type_ids(
+    const std::string& prompt,
+    const std::vector<EncodedImage>& images,
+    const std::vector<std::vector<ov::genai::EncodedImage>>& videos,
+    VLMPerfMetrics& metrics,
+    bool recalculate_merged_embeddings,
+    const std::vector<size_t>& image_sequence,
+    const std::vector<size_t>& videos_sequence) {
+    if (videos.size() > 0) {
+        OPENVINO_THROW("The model doesn't support 'videos' preprocessing yet. Please use 'images' instead.");
+    } else {
+        return get_inputs_embeds_with_token_type_ids(prompt, images, metrics, recalculate_merged_embeddings, image_sequence);
+    }
+}
+
 bool InputsEmbedder::IInputsEmbedder::has_token_type_ids() const { return false; }
 
 /// Public InputsEmbedder class
@@ -303,6 +328,18 @@ std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::get_inputs_embeds_with_token_t
         prompt, images, metrics, recalculate_merged_embeddings, image_sequence);
 }
 
+std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::get_inputs_embeds_with_token_type_ids(
+    const std::string& prompt,
+    const std::vector<EncodedImage>& images,
+    const std::vector<std::vector<ov::genai::EncodedImage>>& videos,
+    VLMPerfMetrics& metrics,
+    bool recalculate_merged_embeddings,
+    const std::vector<size_t>& image_sequence,
+    const std::vector<size_t>& videos_sequence) {
+    return m_impl->get_inputs_embeds_with_token_type_ids(
+        prompt, images, videos, metrics, recalculate_merged_embeddings, image_sequence, videos_sequence);
+}
+
 bool InputsEmbedder::has_token_type_ids() const {
     return m_impl->has_token_type_ids();
 }
diff --git a/src/cpp/src/visual_language/inputs_embedder.hpp b/src/cpp/src/visual_language/inputs_embedder.hpp
@@ -47,6 +47,15 @@ class InputsEmbedder {
     // compute input embedding and token_type_ids
     std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<EncodedImage>& images, VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {});
 
+    std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(
+        const std::string& prompt,
+        const std::vector<ov::genai::EncodedImage>& images,
+        const std::vector<std::vector<ov::genai::EncodedImage>>& videos,
+        ov::genai::VLMPerfMetrics& metrics,
+        bool recalculate_merged_embeddings = true,
+        const std::vector<size_t>& image_sequence = {},
+        const std::vector<size_t>& videos_sequence = {});
+
     bool has_token_type_ids() const;
     
     std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images);
@@ -128,6 +137,14 @@ class InputsEmbedder {
                                              const std::vector<size_t>& videos_sequence = {});
 
         virtual std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<ov::genai::EncodedImage>& images, ov::genai::VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {});
+        virtual std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(
+            const std::string& prompt,
+            const std::vector<ov::genai::EncodedImage>& images,
+            const std::vector<std::vector<ov::genai::EncodedImage>>& videos,
+            ov::genai::VLMPerfMetrics& metrics,
+            bool recalculate_merged_embeddings = true,
+            const std::vector<size_t>& image_sequence = {},
+            const std::vector<size_t>& videos_sequence = {});
 
         virtual bool has_token_type_ids() const;