openbmb
/

MiniCPM-V-2_6

@@ -359,6 +359,7 @@ class MiniCPMVImageProcessor(BaseImageProcessor):
             do_pad: Optional[bool] = True, # TODO: add pad for MiniCPM-Llama3-V-2_5
             max_slice_nums: int = None,
             return_tensors: Optional[Union[str, TensorType]] = None,
         ) -> MiniCPMVBatchFeature:
         if isinstance(images, Image.Image):
             images_list = [[images]]

             do_pad: Optional[bool] = True, # TODO: add pad for MiniCPM-Llama3-V-2_5
             max_slice_nums: int = None,
             return_tensors: Optional[Union[str, TensorType]] = None,
+            **kwargs
         ) -> MiniCPMVBatchFeature:
         if isinstance(images, Image.Image):
             images_list = [[images]]

processing_minicpmv.py CHANGED Viewed

@@ -59,11 +59,12 @@ class MiniCPMVProcessor(ProcessorMixin):
         max_slice_nums: int = None,
         use_image_id: bool = None,
         return_tensors: Optional[Union[str, TensorType]] = TensorType.PYTORCH,
     ) -> MiniCPMVBatchFeature:
         if images is not None:
             image_inputs = self.image_processor(images, do_pad=do_pad, max_slice_nums=max_slice_nums, return_tensors=return_tensors)
-        return self._convert_images_texts_to_inputs(image_inputs, text, max_slice_nums=max_slice_nums, use_image_id=use_image_id, max_length=max_length)
     # Copied from transformers.models.clip.processing_clip.CLIPProcessor.batch_decode with CLIP->Llama
     def batch_decode(self, *args, **kwargs):
@@ -133,10 +134,11 @@ class MiniCPMVProcessor(ProcessorMixin):
             max_length=None,
             max_slice_nums=None,
             use_image_id=None,
-            return_tensors=None
         ):
         if images is None or not len(images):
-            model_inputs = self.tokenizer(texts, return_tensors=return_tensors, truncation=truncation, max_length=max_length)
             return MiniCPMVBatchFeature(data={**model_inputs})
         pattern = "(<image>./</image>)"

         max_slice_nums: int = None,
         use_image_id: bool = None,
         return_tensors: Optional[Union[str, TensorType]] = TensorType.PYTORCH,
+        **kwargs
     ) -> MiniCPMVBatchFeature:
         if images is not None:
             image_inputs = self.image_processor(images, do_pad=do_pad, max_slice_nums=max_slice_nums, return_tensors=return_tensors)
+        return self._convert_images_texts_to_inputs(image_inputs, text, max_slice_nums=max_slice_nums, use_image_id=use_image_id, max_length=max_length, **kwargs)
     # Copied from transformers.models.clip.processing_clip.CLIPProcessor.batch_decode with CLIP->Llama
     def batch_decode(self, *args, **kwargs):
             max_length=None,
             max_slice_nums=None,
             use_image_id=None,
+            return_tensors=None,
+            **kwargs
         ):
         if images is None or not len(images):
+            model_inputs = self.tokenizer(texts, return_tensors=return_tensors, truncation=truncation, max_length=max_length, **kwargs)
             return MiniCPMVBatchFeature(data={**model_inputs})
         pattern = "(<image>./</image>)"