openvinotoolkit
diff --git a/‎src/cpp/src/continuous_batching/pipeline_base.cpp‎
Lines changed: 19 additions & 11 deletions b/‎src/cpp/src/continuous_batching/pipeline_base.cpp‎
Lines changed: 19 additions & 11 deletions
diff --git a/‎src/cpp/src/visual_language/gemma3/classes.cpp‎
Lines changed: 5 additions & 9 deletions b/‎src/cpp/src/visual_language/gemma3/classes.cpp‎
Lines changed: 5 additions & 9 deletions
diff --git a/‎src/cpp/src/visual_language/gemma3/classes.hpp‎
Lines changed: 1 addition & 1 deletion b/‎src/cpp/src/visual_language/gemma3/classes.hpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/cpp/src/visual_language/inputs_embedder.cpp‎
Lines changed: 16 additions & 15 deletions b/‎src/cpp/src/visual_language/inputs_embedder.cpp‎
Lines changed: 16 additions & 15 deletions
diff --git a/‎src/cpp/src/visual_language/inputs_embedder.hpp‎
Lines changed: 6 additions & 6 deletions b/‎src/cpp/src/visual_language/inputs_embedder.hpp‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎src/cpp/src/visual_language/llava/classes.cpp‎
Lines changed: 4 additions & 3 deletions b/‎src/cpp/src/visual_language/llava/classes.cpp‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎src/cpp/src/visual_language/llava/classes.hpp‎
Lines changed: 1 addition & 1 deletion b/‎src/cpp/src/visual_language/llava/classes.hpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/cpp/src/visual_language/llava_next/classes.cpp‎
Lines changed: 3 additions & 3 deletions b/‎src/cpp/src/visual_language/llava_next/classes.cpp‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/cpp/src/visual_language/llava_next/classes.hpp‎
Lines changed: 1 addition & 1 deletion b/‎src/cpp/src/visual_language/llava_next/classes.hpp‎
Lines changed: 1 addition & 1 deletion
@@ -167,7 +167,6 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
 
     OPENVINO_ASSERT(prompts.size() == sampling_params.size(), "Number of prompts should be equal to the number of generation configs.");
     OPENVINO_ASSERT(prompts.size() == rgbs_vector.size() || prompts.size() == video_vector.size(), "Number of prompts should be equal to the number of images/video vectors.");
-    OPENVINO_ASSERT(rgbs_vector.size() == 0u || video_vector.size() == 0u, "Only support one input, video or images");
 
     std::vector<ov::Tensor> input_embeds_list;
     std::vector<ov::Tensor> token_type_ids_list;
@@ -177,11 +176,12 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
 
     if (m_is_chat_conversation) {
         OPENVINO_ASSERT(1 == prompts.size(), "Can't chat with multiple prompts");
-        const auto& rgbs = video_vector.empty() ? rgbs_vector[0] : video_vector[0];
         const auto& prompt = prompts[0];
         auto start_get_inputs_embeds = std::chrono::steady_clock::now();
 
-        encoded_images = m_inputs_embedder->encode_images(rgbs, rgbs_vector.empty());
+        auto image_rgbs = rgbs_vector.size() > 0 ? rgbs_vector[0] : std::vector<ov::Tensor>{};
+        auto video_rgbs = video_vector.size() > 0 ? video_vector[0] : std::vector<ov::Tensor>{};
+        encoded_images = m_inputs_embedder->encode_images(image_rgbs, video_rgbs);
         m_history_images.insert(m_history_images.end(), encoded_images.begin(), encoded_images.end());
 
         const auto [unified_prompt, image_sequence] = m_inputs_embedder->normalize_prompt(prompt, m_image_id, encoded_images);
@@ -193,11 +193,19 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
         m_inputs_embedder->set_apply_chat_template_status(false);
 
         if (m_inputs_embedder->has_token_type_ids()) {
-            auto [embeds, tt_ids] = m_inputs_embedder->get_inputs_embeds_with_token_type_ids(templated_history, m_history_images, vlm_perf_metrics[0], rgbs.size() > 0, m_history_image_ids);
+            auto [embeds, tt_ids] = m_inputs_embedder->get_inputs_embeds_with_token_type_ids(templated_history,
+                                                                                             m_history_images,
+                                                                                             vlm_perf_metrics[0],
+                                                                                             true,
+                                                                                             m_history_image_ids);
             input_embeds_list.push_back(std::move(embeds));
             token_type_ids_list.push_back(std::move(tt_ids));
         } else {
-            input_embeds_list.emplace_back(m_inputs_embedder->get_inputs_embeds(templated_history, m_history_images, vlm_perf_metrics[0], rgbs.size() > 0, m_history_image_ids));
+            input_embeds_list.emplace_back(m_inputs_embedder->get_inputs_embeds(templated_history,
+                                                                                m_history_images,
+                                                                                vlm_perf_metrics[0],
+                                                                                true,
+                                                                                m_history_image_ids));
         }
 
         auto end_get_inputs_embeds = std::chrono::steady_clock::now();
@@ -206,11 +214,12 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
     } else {
         for (size_t i = 0; i < prompts.size(); i++) {
             const auto& prompt = prompts[i];
-            const auto& rgbs = video_vector.empty() ? rgbs_vector[i] : video_vector[i];
 
             auto start_get_inputs_embeds = std::chrono::steady_clock::now();
 
-            const auto encoded_images = m_inputs_embedder->encode_images(rgbs, rgbs_vector.empty());
+            auto image_rgbs = rgbs_vector.size() > 0 ? rgbs_vector[i] : std::vector<ov::Tensor>{};
+            auto video_rgbs = video_vector.size() > 0 ? video_vector[i] : std::vector<ov::Tensor>{};
+            const auto encoded_images = m_inputs_embedder->encode_images(image_rgbs, video_rgbs);
             auto [unified_prompt, image_sequence] = m_inputs_embedder->normalize_prompt(prompt, m_image_id, encoded_images);
 
             m_inputs_embedder->set_apply_chat_template_status(sampling_params[i].apply_chat_template);
@@ -280,7 +289,7 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::add_request(uint64_t re
         std::lock_guard<std::mutex> lock(m_embeddings_mutex);
         m_inputs_embedder->set_apply_chat_template_status(sampling_params.apply_chat_template);
 
-        auto encoded_images = m_inputs_embedder->encode_images(rgbs, false);
+        auto encoded_images = m_inputs_embedder->encode_images(rgbs, std::vector<ov::Tensor>{});
 
         const auto [unified_prompt, image_sequence] = m_inputs_embedder->normalize_prompt(prompt, 0, encoded_images);
         inputs = m_inputs_embedder->get_inputs_embeds(unified_prompt, encoded_images, metrics, true, image_sequence);
@@ -295,15 +304,14 @@ GenerationHandle ContinuousBatchingPipeline::IContinuousBatchingPipeline::add_re
     const std::vector<ov::Tensor>& video,
     GenerationConfig sampling_params) {
     OPENVINO_ASSERT(m_model_input_type == ModelInputType::EMBEDDINGS, "Model doesn't support embeddings.");
-    OPENVINO_ASSERT((video.size() == 0u || images.size() == 0u), "Only support one input, video or images.");
+
     ov::genai::VLMPerfMetrics metrics;
     ov::Tensor inputs;
     {
         std::lock_guard<std::mutex> lock(m_embeddings_mutex);
         m_inputs_embedder->set_apply_chat_template_status(sampling_params.apply_chat_template);
 
-        auto encoded_images = video.size() == 0 ? m_inputs_embedder->encode_images(images, false)
-                                                : m_inputs_embedder->encode_images(video, true);
+        auto encoded_images =m_inputs_embedder->encode_images(images, video);
 
         const auto [unified_prompt, image_sequence] = m_inputs_embedder->normalize_prompt(prompt, 0, encoded_images);
         inputs = m_inputs_embedder->get_inputs_embeds(unified_prompt, encoded_images, metrics, true, image_sequence);
 
@@ -71,20 +71,16 @@ bool InputsEmbedderGemma3::has_token_type_ids() const {
     return true;
 }
 
-std::vector<ov::genai::EncodedImage> InputsEmbedderGemma3::encode_images(const std::vector<ov::Tensor>& images, const bool& is_video) {
+std::vector<ov::genai::EncodedImage> InputsEmbedderGemma3::encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video) {
+    if (video.size() > 0) {
+        OPENVINO_THROW("Gemma3 doesn't support video preprocess currently. Input images are processed as separate images.");
+    }
+
     std::vector<EncodedImage> embeds;
 
     ov::AnyMap vision_config = {{"patch_size", m_vlm_config.vision_config_patch_size}};
 
     std::vector<ov::Tensor> single_images = to_single_image_tensors(images);
-    if (is_video) {
-        embeds = m_vision_encoder->encode_video(single_images, vision_config);
-        if (!embeds.empty()) {
-            return embeds;
-        }
-        // Fallback to image process.
-    }
-
     embeds.reserve(single_images.size());
     for (const ov::Tensor& image : single_images) {
         embeds.emplace_back(m_vision_encoder->encode(image, vision_config));
 
@@ -41,7 +41,7 @@ class InputsEmbedderGemma3 : public InputsEmbedder::IInputsEmbedder {
 
     bool has_token_type_ids() const override;
 
-    std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images, const bool& is_video = false) override;
+    std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video) override;
 
     std::pair<std::string, std::vector<size_t>> normalize_prompt(const std::string& prompt, size_t base_id, const std::vector<EncodedImage>& images) const override;
 
 
@@ -165,31 +165,33 @@ std::vector<ov::Tensor> InputsEmbedder::IInputsEmbedder::to_single_image_tensors
     return single_image_tensors;
 }
 
-std::vector<ov::genai::EncodedImage> InputsEmbedder::IInputsEmbedder::encode_images(const std::vector<ov::Tensor>& images, const bool& is_video) {
-    std::vector<ov::Tensor> single_images = to_single_image_tensors(images);
+std::vector<ov::genai::EncodedImage> InputsEmbedder::IInputsEmbedder::encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video) {
     std::vector<EncodedImage> embeds;
 
-    if (is_video) {
-        return m_vision_encoder->encode_video(single_images);
+    for (const ov::Tensor& single_video : video) {
+        std::vector<ov::Tensor> single_frames = to_single_image_tensors({single_video});
+        auto embeds_video = m_vision_encoder->encode_video(single_frames);
+        embeds.insert(embeds.end(), embeds_video.begin(), embeds_video.end());
     }
 
+    std::vector<ov::Tensor> single_images = to_single_image_tensors(images);
     for (const ov::Tensor& image : single_images) {
         embeds.emplace_back(m_vision_encoder->encode(image));
     }
     return embeds;
 }
 
-ov::Tensor InputsEmbedder::IInputsEmbedder::get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const bool& is_video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence) {
-    return get_inputs_embeds(prompt, encode_images(images, is_video), metrics, true, image_sequence);
+ov::Tensor InputsEmbedder::IInputsEmbedder::get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence) {
+    return get_inputs_embeds(prompt, encode_images(images, video), metrics, true, image_sequence);
 }
 
 std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::IInputsEmbedder::get_inputs_embeds_with_token_type_ids(
     const std::string& prompt,
     const std::vector<ov::Tensor>& images,
-    const bool& is_video,
+    const std::vector<ov::Tensor>& video,
     ov::genai::VLMPerfMetrics& metrics,
     const std::vector<size_t>& image_sequence) {
-    return get_inputs_embeds_with_token_type_ids(prompt, encode_images(images, is_video), metrics, true, image_sequence);
+    return get_inputs_embeds_with_token_type_ids(prompt, encode_images(images, video), metrics, true, image_sequence);
 }
 
 std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::IInputsEmbedder::get_inputs_embeds_with_token_type_ids(
@@ -267,8 +269,8 @@ InputsEmbedder::InputsEmbedder(const ModelsMap& models_map,
     }
 }
 
-ov::Tensor InputsEmbedder::get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const bool& is_video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence) {
-    return m_impl->get_inputs_embeds(prompt, images, is_video, metrics, image_sequence);
+ov::Tensor InputsEmbedder::get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence) {
+    return m_impl->get_inputs_embeds(prompt, images, video, metrics, image_sequence);
 }
 
 ov::Tensor InputsEmbedder::get_inputs_embeds(const std::string& prompt, const std::vector<ov::genai::EncodedImage>& images, ov::genai::VLMPerfMetrics& metrics, bool recalculate_merged_embeddings, const std::vector<size_t>& image_sequence) {
@@ -278,11 +280,10 @@ ov::Tensor InputsEmbedder::get_inputs_embeds(const std::string& prompt, const st
 std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::get_inputs_embeds_with_token_type_ids(
     const std::string& prompt,
     const std::vector<ov::Tensor>& images,
-    const bool& is_video,
+    const std::vector<ov::Tensor>& video,
     VLMPerfMetrics& metrics,
     const std::vector<size_t>& image_sequence) {
-    return m_impl->get_inputs_embeds_with_token_type_ids(
-        prompt, images, is_video, metrics, image_sequence);
+    return m_impl->get_inputs_embeds_with_token_type_ids(prompt, images, video, metrics, image_sequence);
 }
 
 std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::get_inputs_embeds_with_token_type_ids(
@@ -299,8 +300,8 @@ bool InputsEmbedder::has_token_type_ids() const {
     return m_impl->has_token_type_ids();
 }
 
-std::vector<ov::genai::EncodedImage> InputsEmbedder::encode_images(const std::vector<ov::Tensor>& images, const bool& is_video) {
-    return m_impl->encode_images(images, is_video);
+std::vector<ov::genai::EncodedImage> InputsEmbedder::encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video) {
+    return m_impl->encode_images(images, video);
 }
 
 std::pair<ov::Tensor, std::optional<int64_t>> InputsEmbedder::get_position_ids(const size_t inputs_embeds_size, const size_t history_size) {
 
@@ -35,18 +35,18 @@ class InputsEmbedder {
                    const ov::AnyMap device_config);
 
     // compute input embedding for prompt and multiple images
-    ov::Tensor get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const bool& is_video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence);
+    ov::Tensor get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence);
 
     ov::Tensor get_inputs_embeds(const std::string& prompt, const std::vector<ov::genai::EncodedImage>& images, ov::genai::VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {});
 
     // compute input embedding and token_type_ids
-    std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<ov::Tensor>& images, const bool& is_video, VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence = {});
+    std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video, VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence = {});
 
     std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<EncodedImage>& images, VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {});
 
     bool has_token_type_ids() const;
 
-    std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images, const bool& is_video = false);
+    std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video);
 
     // compute position ids for language model input
     std::pair<ov::Tensor, std::optional<int64_t>> get_position_ids(const size_t inputs_embeds_size, const size_t history_size);
@@ -108,15 +108,15 @@ class InputsEmbedder {
     public:
         virtual ov::Tensor get_inputs_embeds(const std::string& prompt, const std::vector<ov::genai::EncodedImage>& images, ov::genai::VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {}) = 0;
 
-        ov::Tensor get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const bool& is_video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence);
+        ov::Tensor get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence);
 
-        std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<ov::Tensor>& images, const bool& is_video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence = {});
+        std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence = {});
 
         virtual std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<ov::genai::EncodedImage>& images, ov::genai::VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {});
 
         virtual bool has_token_type_ids() const;
 
-        virtual std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images, const bool& is_video = false);
+        virtual std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video);
 
         virtual std::pair<ov::Tensor, std::optional<int64_t>> get_position_ids(const size_t inputs_embeds_size, const size_t history_size);
 
 
@@ -92,10 +92,11 @@ InputsEmbedderLLaVA::InputsEmbedderLLaVA(
     const ov::AnyMap device_config) :
     IInputsEmbedder(vlm_config, models_map, tokenizer, config_dir_path, device, device_config) { }
 
-std::vector<ov::genai::EncodedImage> InputsEmbedderLLaVA::encode_images(const std::vector<ov::Tensor>& images, const bool& is_video) {
-    if (is_video) {
-        Logger::warn("LLaVA doesn't support video preprocess currently. Input images are processed as separate images.");
+std::vector<ov::genai::EncodedImage> InputsEmbedderLLaVA::encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video) {
+    if (video.size() > 0) {
+        OPENVINO_THROW("LLaVA doesn't support video preprocess currently. Input images are processed as separate images.");
     }
+
     std::vector<EncodedImage> embeds;
     ov::AnyMap vision_config = {{"patch_size", m_vlm_config.vision_config_patch_size}};
     std::vector<ov::Tensor> single_images = to_single_image_tensors(images);
 
@@ -37,7 +37,7 @@ class InputsEmbedderLLaVA : public InputsEmbedder::IInputsEmbedder {
 
     ov::Tensor get_inputs_embeds(const std::string& prompt, const std::vector<ov::genai::EncodedImage>& images, ov::genai::VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {}) override;
 
-    std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images, const bool& is_video = false) override;
+    std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video) override;
 
     std::pair<std::string, std::vector<size_t>> normalize_prompt(
         const std::string& prompt,
 
@@ -333,9 +333,9 @@ ov::Tensor pack_image_features_llava_next(
 
 } // namespace
 
-std::vector<ov::genai::EncodedImage> InputsEmbedderLLaVANext::encode_images(const std::vector<ov::Tensor>& images, const bool& is_video) {
-    if (is_video) {
-        Logger::warn("LLaVANext doesn't support video preprocess currently. Input images are processed as separate images.");
+std::vector<ov::genai::EncodedImage> InputsEmbedderLLaVANext::encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video) {
+    if (video.size() > 0) {
+        OPENVINO_THROW("LLaVANext doesn't support video preprocess currently. Input images are processed as separate images.");
     }
 
     std::vector<EncodedImage> embeds;
 
@@ -24,7 +24,7 @@ class InputsEmbedderLLaVANext : public InputsEmbedderLLaVA {
 
     ov::Tensor get_inputs_embeds(const std::string& prompt, const std::vector<ov::genai::EncodedImage>& images, ov::genai::VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {}) override;
 
-    std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images, const bool& is_video = false) override;
+    std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video) override;
 
     std::pair<std::string, std::vector<size_t>> normalize_prompt(
         const std::string& prompt,
Original file line number	Diff line number	Diff line change
`@@ -165,31 +165,33 @@ std::vector<ov::Tensor> InputsEmbedder::IInputsEmbedder::to_single_image_tensors`
`165`	`165`	`return single_image_tensors;`
`166`	`166`	`}`
`167`	`167`
`168`		`-std::vector<ov::genai::EncodedImage> InputsEmbedder::IInputsEmbedder::encode_images(const std::vector<ov::Tensor>& images, const bool& is_video) {`
`169`		`- std::vector<ov::Tensor> single_images = to_single_image_tensors(images);`
	`168`	`+std::vector<ov::genai::EncodedImage> InputsEmbedder::IInputsEmbedder::encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video) {`
`170`	`169`	`std::vector<EncodedImage> embeds;`
`171`	`170`
`172`		`- if (is_video) {`
`173`		`- return m_vision_encoder->encode_video(single_images);`
	`171`	`+ for (const ov::Tensor& single_video : video) {`
	`172`	`+ std::vector<ov::Tensor> single_frames = to_single_image_tensors({single_video});`
	`173`	`+ auto embeds_video = m_vision_encoder->encode_video(single_frames);`
	`174`	`+ embeds.insert(embeds.end(), embeds_video.begin(), embeds_video.end());`
`174`	`175`	`}`
`175`	`176`
	`177`	`+ std::vector<ov::Tensor> single_images = to_single_image_tensors(images);`
`176`	`178`	`for (const ov::Tensor& image : single_images) {`
`177`	`179`	`embeds.emplace_back(m_vision_encoder->encode(image));`
`178`	`180`	`}`
`179`	`181`	`return embeds;`
`180`	`182`	`}`
`181`	`183`
`182`		`-ov::Tensor InputsEmbedder::IInputsEmbedder::get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const bool& is_video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence) {`
`183`		`- return get_inputs_embeds(prompt, encode_images(images, is_video), metrics, true, image_sequence);`
	`184`	`+ov::Tensor InputsEmbedder::IInputsEmbedder::get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence) {`
	`185`	`+ return get_inputs_embeds(prompt, encode_images(images, video), metrics, true, image_sequence);`
`184`	`186`	`}`
`185`	`187`
`186`	`188`	`std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::IInputsEmbedder::get_inputs_embeds_with_token_type_ids(`
`187`	`189`	`const std::string& prompt,`
`188`	`190`	`const std::vector<ov::Tensor>& images,`
`189`		`- const bool& is_video,`
	`191`	`+ const std::vector<ov::Tensor>& video,`
`190`	`192`	`ov::genai::VLMPerfMetrics& metrics,`
`191`	`193`	`const std::vector<size_t>& image_sequence) {`
`192`		`- return get_inputs_embeds_with_token_type_ids(prompt, encode_images(images, is_video), metrics, true, image_sequence);`
	`194`	`+ return get_inputs_embeds_with_token_type_ids(prompt, encode_images(images, video), metrics, true, image_sequence);`
`193`	`195`	`}`
`194`	`196`
`195`	`197`	`std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::IInputsEmbedder::get_inputs_embeds_with_token_type_ids(`
`@@ -267,8 +269,8 @@ InputsEmbedder::InputsEmbedder(const ModelsMap& models_map,`
`267`	`269`	`}`
`268`	`270`	`}`
`269`	`271`
`270`		`-ov::Tensor InputsEmbedder::get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const bool& is_video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence) {`
`271`		`- return m_impl->get_inputs_embeds(prompt, images, is_video, metrics, image_sequence);`
	`272`	`+ov::Tensor InputsEmbedder::get_inputs_embeds(const std::string& prompt, const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video, ov::genai::VLMPerfMetrics& metrics, const std::vector<size_t>& image_sequence) {`
	`273`	`+ return m_impl->get_inputs_embeds(prompt, images, video, metrics, image_sequence);`
`272`	`274`	`}`
`273`	`275`
`274`	`276`	`ov::Tensor InputsEmbedder::get_inputs_embeds(const std::string& prompt, const std::vector<ov::genai::EncodedImage>& images, ov::genai::VLMPerfMetrics& metrics, bool recalculate_merged_embeddings, const std::vector<size_t>& image_sequence) {`
`@@ -278,11 +280,10 @@ ov::Tensor InputsEmbedder::get_inputs_embeds(const std::string& prompt, const st`
`278`	`280`	`std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::get_inputs_embeds_with_token_type_ids(`
`279`	`281`	`const std::string& prompt,`
`280`	`282`	`const std::vector<ov::Tensor>& images,`
`281`		`- const bool& is_video,`
	`283`	`+ const std::vector<ov::Tensor>& video,`
`282`	`284`	`VLMPerfMetrics& metrics,`
`283`	`285`	`const std::vector<size_t>& image_sequence) {`
`284`		`- return m_impl->get_inputs_embeds_with_token_type_ids(`
`285`		`- prompt, images, is_video, metrics, image_sequence);`
	`286`	`+ return m_impl->get_inputs_embeds_with_token_type_ids(prompt, images, video, metrics, image_sequence);`
`286`	`287`	`}`
`287`	`288`
`288`	`289`	`std::pair<ov::Tensor, ov::Tensor> InputsEmbedder::get_inputs_embeds_with_token_type_ids(`
`@@ -299,8 +300,8 @@ bool InputsEmbedder::has_token_type_ids() const {`
`299`	`300`	`return m_impl->has_token_type_ids();`
`300`	`301`	`}`
`301`	`302`
`302`		`-std::vector<ov::genai::EncodedImage> InputsEmbedder::encode_images(const std::vector<ov::Tensor>& images, const bool& is_video) {`
`303`		`- return m_impl->encode_images(images, is_video);`
	`303`	`+std::vector<ov::genai::EncodedImage> InputsEmbedder::encode_images(const std::vector<ov::Tensor>& images, const std::vector<ov::Tensor>& video) {`
	`304`	`+ return m_impl->encode_images(images, video);`
`304`	`305`	`}`
`305`	`306`
`306`	`307`	`std::pair<ov::Tensor, std::optional<int64_t>> InputsEmbedder::get_position_ids(const size_t inputs_embeds_size, const size_t history_size) {`