ó
    <±hŠ?  ã                   ó¼   • S SK JrJr  S SKrSSKJr  SSKJrJ	r	J
r
  SSKJrJrJrJrJr  SSKJrJr  SSKJrJr   " S	 S
\SS9r " S S\SS9r " S S\5      rS/rg)é    )ÚOptionalÚUnionNé   )ÚBatchFeature)Ú
ImageInputÚconcatenate_listÚmake_flat_list_of_images)ÚImagesKwargsÚMultiModalDataÚProcessingKwargsÚProcessorMixinÚUnpack)ÚPreTokenizedInputÚ	TextInput)Ú
VideoInputÚmake_batched_videosc                   óF   • \ rS rSr% \\   \S'   \\   \S'   \\   \S'   Srg)ÚInternVLImagesKwargsé   Úcrop_to_patchesÚmin_patchesÚmax_patches© N)	Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r   ÚboolÚ__annotations__ÚintÚ__static_attributes__r   ó    Úh/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/internvl/processing_internvl.pyr   r      s    ‡ Ø˜d‘^Ó#Ø˜#‘ÓØ˜#‘Ör"   r   F)Útotalc                   ó6   • \ rS rSr% \\S'   SSS.SS00 S.rS	rg
)ÚInternVLProcessorKwargsé!   Úimages_kwargsÚleftF)Úpadding_sideÚreturn_mm_token_type_idsr   T)Útext_kwargsr(   Úvideos_kwargsr   N)r   r   r   r   r   r   Ú	_defaultsr!   r   r"   r#   r&   r&   !   s-   ‡ Ø'Ó'ð #Ø(-ñ
ð
 ˜tð
ð ñ	ƒIr"   r&   c                   óH  ^ • \ rS rSrSr/ SQrSrSrSr     SS\	4U 4S jjjr
S	\\   S
\\	   S\\	   S\R                  S\R                  S\R                  4S jr    SS\\   S	\\\\\\   \\   4      S\\   S\\   S\4
S jjrSS jrS rS r\S 5       rSrU =r $ )ÚInternVLProcessoré/   a  
Constructs a InternVL processor which wraps a [`AutoImageProcessor`] and
[`PretrainedTokenizerFast`] tokenizer into a single processor that inherits both the image processor and
tokenizer functionalities. See the [`~InternVLProcessor.__call__`] and [`~InternVLProcessor.decode`] for more information.
Args:
    image_processor ([`AutoImageProcessor`], *optional*):
        The image processor is a required input.
    tokenizer ([`PreTrainedTokenizer`, `PreTrainedTokenizerFast`], *optional*):
        The tokenizer is a required input.
    video_processor ([`AutoVideoProcessor`], *optional*):
        The video processor is a required input.
    image_seq_length (`int`, *optional*, defaults to 256):
        The number of image token to use per image patch. it should be set so that:
        image_seq_length = (config.image_size // config.patch_size) ** 2 * (config.scale_factor**2)
    chat_template (`str`, *optional*): A Jinja template which will be used to convert lists of messages
        in a chat into a tokenizable string.
)Úimage_processorÚ	tokenizerÚvideo_processorÚAutoImageProcessorÚAutoVideoProcessorÚAutoTokenizerÚimage_seq_lengthc                 óx  >• X@l         UR                  U l        UR                  U l        UR                  U l        UR                  U l        UR
                  U l        UR                  U l        UR                  U l	        U R                  U R                  U R                  /U l
        [        TU ]0  " XU4SU0UD6  g )NÚchat_template)r8   Ústart_image_tokenÚend_image_tokenÚstart_image_token_idÚend_image_token_idÚcontext_image_tokenÚimage_tokenÚvideo_tokenÚcontext_image_token_idÚimage_token_idÚ	image_idsÚsuperÚ__init__)Úselfr2   r3   r4   r8   r:   ÚkwargsÚ	__class__s          €r#   rF   ÚInternVLProcessor.__init__G   s¨   ø€ ð !1ÔØ!*×!<Ñ!<ˆÔØ(×8Ñ8ˆÔØ$-×$BÑ$BˆÔ!Ø"+×">Ñ">ˆÔØ$×8Ñ8ˆÔØ$×0Ñ0ˆÔØ'×>Ñ>ˆÔØ×-Ñ-¨t×/HÑ/HÈ$×JaÑJaÐbˆŒä‰Ò˜°_ÑlÐTaÐlÐekÓlr"   ÚtextÚimage_num_patchesÚvideo_num_patchesÚimage_num_patches_indicesÚvideo_num_patches_indicesÚvideo_patch_indicesc	           	      óx  ^ ^• Sn	Sn
/ n/ n/ nU GH$  nUnT R                   U;   d  T R                  U;   Gaº  T R                   U;   aÙ  T R                  U;  d8  UR                  T R                   5      UR                  T R                  5      :  a‘  U	S:”  a  XiS-
     OSnXi   nUR                  UUU 5        UR	                  T R                   SS5      nUR                  T R
                   T R                   T R                  -  XI   -   T R                   35        U	S-  n	O«U
S:”  a  XŠS-
     OSnXŠ   nU
S:”  a  UU   OSnUUS-
     nUR                  UUU 5        [        UUU 5      mSR                  UU 4S j[        [        T5      5       5       5      nUR                  U5        UR	                  T R                  SS5      nU
S-  n
T R                   U;   a  GM§  T R                  U;   a  GMº  SU;   a,  UR                  S5      nUR	                  SUS5      nSU;   a  M,  UR                  U5        GM'     X¼Xš4$ )z£
Processes interleaved text with <image> and <video> placeholders, replacing them with appropriate
image and video tokens while keeping track of the patches used.
r   é   z<placeholder>Ú
c              3   ó¢   >#   • U HE  nS US-    STR                    TR                  TR                  -  TU   -   TR                   3v •  MG     g7f)ÚFramerR   z: N)r;   r@   r8   r<   )Ú.0ÚiÚnum_patchesrG   s     €€r#   Ú	<genexpr>Ú?InternVLProcessor._insert_media_placeholders.<locals>.<genexpr>Ž   sr   øé € ð -á!8˜Að    A¡˜w b¨×)?Ñ)?Ð(@À×AQÑAQÐTX×TiÑTiÑAiÐlwÐxyÑlzÑAzÐ@{ð  }A÷  }Qñ  }Qð  |Rõ  SÚ!8ùs   ƒAA)r@   rA   ÚindexÚappendÚreplacer;   r8   r<   ÚlistÚjoinÚrangeÚlenÚpop)rG   rK   Úimage_pixel_valuesÚvideo_pixel_valuesrL   rM   rN   rO   rP   Úimage_indexÚvideo_indexÚprocessed_textÚimage_video_patchesÚreplace_stringsÚpromptÚ
new_promptÚstart_indexÚ	end_indexÚcurrent_patch_indexÚend_patch_indexÚvideo_promptÚreplace_strrX   s   `                     @r#   Ú_insert_media_placeholdersÚ,InternVLProcessor._insert_media_placeholders\   s‘  ù€ ð ˆØˆØˆØ ÐØˆô ˆFØˆJØ×"Ñ" jÓ0°D×4DÑ4DÈ
Ô4RØ×#Ñ# zÓ1Ø×$Ñ$¨JÓ6Ø!×'Ñ'¨×(8Ñ(8Ó9¸J×<LÑ<LÈT×M]ÑM]Ó<^Ó^ð Q\Ð^_ÓP_Ð";È!¹OÒ"LÐefKØ 9Ñ FIØ'×.Ñ.Ð/AÀ+ÈiÐ/XÔYà!+×!3Ñ!3°D×4DÑ4DÀoÐWXÓ!YJØ#×*Ñ*Ø×1Ñ1Ð2°4×3CÑ3CÀd×F[ÑF[Ñ3[Ð^oÑ^|Ñ3|Ð2}ð  C÷  Sñ  Sð  ~Tð  Uôð   1Ñ$‘Kð
 S^Ð`aÓRaÐ*=ÈA¹oÒ*NÐghÐ'Ø&9Ñ&FOØT_ÐbcÓTcÐ";Ð<OÒ"PÐijKØ 9¸/ÈAÑ:MÑ NIØ'×.Ñ.Ð/AÀ+ÈiÐ/XÔYä"&Ð'8Ð9LÈ_Ð']Ó"^KØ#'§9¡9õ -ä!&¤s¨;Ó'7Ô!8ó-ó $Lð $×*Ñ*¨<Ô8Ø!+×!3Ñ!3°D×4DÑ4DÀoÐWXÓ!YJØ 1Ñ$KðA ×"Ñ" jÖ0°D×4DÑ4DÈ
Ö4RðB " ZÓ/Ø-×1Ñ1°!Ó4Ø'×/Ñ/°ÀÈaÓP
ð " ZÕ/ð ×!Ñ! *×-ñM ðP °KÐLÐLr"   ÚimagesÚvideosrH   Úreturnc           
      óü  • Uc  [        S5      eU R                  " [        4SU R                  R                  0UD6n[        U[        [        45      (       d  U/n/ n/ n0 n	Sn
Sn[        R                  " S/5      n[        R                  " S/5      n[        R                  " S/5      nUbZ  [        U5      nU R                  " SSU0US   D6nUR                  S5      nUR                  S5      n
[        R                  " U5      nUb°  [        U5      nU R                  " SS	U0US
   D6nUR                  S5      nU Vs/ sH  n[!        U5      PM     nnU VVs/ sH  n[#        U5       H  nSPM     M     nnn[        R                  " U5      n[        R                  " U5      nUR%                  SS5      nUc  Ubd  U R'                  UU
UUUUUU5      u  nnnnUb  U[!        U5      :w  a  [        S5      eUb  U[!        U5      :w  a  [        S5      eS[)        U5      0n	US   R                  SS5      nUS   R                  SS5      nU R                  " U40 US   D6nU R+                  UUS/S9  U(       ai  [        R                  " US   5      n[        R,                  " US   5      nSU[        R.                  " UU R0                  5      '   UR3                  5       US'   [5        0 UEU	EUS9$ s  snf s  snnf )aù  
Main method to prepare for the model one or several sequences(s) and image(s). This method forwards the `text`
and `kwargs` arguments to PreTrainedTokenizerFast's [`~PreTrainedTokenizerFast.__call__`] to encode the text if `text`
is not `None`, otherwise encode default OCR queries which depends on the `format`, `box`, `color`, `multi_page` and
`crop_to_patches` arguments. To prepare the vision inputs, this method forwards the `images` and `kwrags` arguments to
GotOcr2ImageProcessor's [`~GotOcr2ImageProcessor.__call__`] if `images` is not `None`.

Args:
    images (`PIL.Image.Image`, `np.ndarray`, `torch.Tensor`, `list[PIL.Image.Image]`, `list[np.ndarray]`, `list[torch.Tensor]`):
        The image or batch of images to be prepared. Each image can be a PIL image, NumPy array or PyTorch
        tensor. Both channels-first and channels-last formats are supported.
    text (`str`, `list[str]`, `list[list[str]]`):
        The sequence or batch of sequences to be encoded. Each sequence can be a string or a list of strings
        (pretokenized string). If the sequences are provided as list of strings (pretokenized), you must set
        `is_split_into_words=True` (to lift the ambiguity with a batch of sequences).
    videos (`np.ndarray`, `torch.Tensor`, `list[np.ndarray]`, `list[torch.Tensor]`):
        The image or batch of videos to be prepared. Each video can be a 4D NumPy array or PyTorch
    return_tensors (`str` or [`~utils.TensorType`], *optional*):
        If set, will return tensors of a particular framework. Acceptable values are:
        - `'tf'`: Return TensorFlow `tf.constant` objects.
        - `'pt'`: Return PyTorch `torch.Tensor` objects.
        - `'np'`: Return NumPy `np.ndarray` objects.
        - `'jax'`: Return JAX `jnp.ndarray` objects.

Returns:
    [`BatchFeature`]: A [`BatchFeature`] with the following fields:

    - **input_ids** -- List of token ids to be fed to a model. Returned when `text` is not `None`.
    - **attention_mask** -- List of indices specifying which tokens should be attended to by the model (when
      `return_attention_mask=True` or if *"attention_mask"* is in `self.model_input_names` and if `text` is not
      `None`).
    - **pixel_values** -- Pixel values to be fed to a model. Returned when `images` is not `None`.
NzYou have to specify text.Útokenizer_init_kwargsr   rt   r(   rX   Úpixel_valuesru   r-   Úpixel_values_videosrR   zONumber of image placeholders in the prompt does not match the number of images.zONumber of video placeholders in the prompt does not match the number of videos.r,   Úreturn_tensorsr+   Úimage)Ú
modalitiesÚ	input_idsÚmm_token_type_ids)ÚdataÚtensor_typer   )Ú
ValueErrorÚ_merge_kwargsr&   r3   Úinit_kwargsÚ
isinstancer^   ÚtupleÚnpÚarrayr	   r2   rb   Úcumsumr   r4   ra   r`   Úflattenrr   r   Ú_check_special_mm_tokensÚ
zeros_likeÚisinrD   Útolistr   )rG   rt   rK   Úaudioru   rH   Úoutput_kwargsrL   rM   Úimage_videos_inputsrc   rd   rN   rP   rO   Úimage_inputsÚvideo_inputsÚvideoÚnum_frames_per_videoÚframesÚ_rh   re   rf   r{   r+   Útext_inputsÚ	array_idsr   s                                r#   Ú__call__ÚInternVLProcessor.__call__œ   s-  € ðR ‰<ÜÐ8Ó9Ð9à×*Ò*Ü#ñ
à"&§.¡.×"<Ñ"<ð
ð ñ
ˆô ˜$¤¤u ×.Ñ.Ø6ˆDð ÐØÐØ ÐØ!ÐØ!ÐÜ$&§H¢H¨a¨S£MÐ!Ü Ÿhšh¨ s›mÐÜ$&§H¢H¨a¨S£MÐ!ØÑÜ-¨fÓ5ˆFØ×/Ò/Ñ`°vÐ`ÀÈÑA_Ñ`ˆLØ ,× 0Ñ 0°Ó ?ÐØ!-×!1Ñ!1°.Ó!AÐÜ(*¯	ª	Ð2CÓ(DÐ%ØÑÜ(¨Ó0ˆFØ×/Ò/Ñ`°vÐ`ÀÈÑA_Ñ`ˆLØ!-×!1Ñ!1Ð2GÓ!HÐñ =OÓ#OÑ<N°5¤C¨¦JÑ<NÐ Ð#OÙ1EÔ ]Ñ1E vÌuÐU[Î}È!£É}¡Ñ1EÐÑ ]Ü"$§)¢)Ð,@Ó"AÐÜ(*¯	ª	Ð2CÓ(DÐ%Ø!3×!;Ñ!;¸A¸qÓ!AÐàÑ Ñ!3ØBF×BaÑBaØØ"Ø"Ø!Ø!Ø)Ø)Ø#ó	CÑ?ˆDÐ% {°Kð Ñ! k´S¸³[Ó&@Ü Ð!rÓsÐsØÑ! k´S¸³[Ó&@Ü Ð!rÓsÐsð $2Ô3CÐDWÓ3XÐ"YÐà& }Ñ5×9Ñ9Ð:JÈDÓQˆØ#0°Ñ#?×#CÑ#CÐD^Ð`dÓ#eÐ Ø—n’n TÑJ¨]¸=Ñ-IÑJˆØ×%Ñ% d¨KÀWÀIÐ%ÑNæ#ÜŸš ¨[Ñ!9Ó:ˆIÜ "§¢¨k¸+Ñ.FÓ GÐØDEÐœbŸgšg i°·±Ó@ÑAØ/@×/GÑ/GÓ/IˆKÐ+Ñ,äÐ!G KÐ!GÐ3FÐ!GÐUcÑdÐdùòI $PùÛ ]s   Å K3ÅK8c                 óZ  • 0 nUb’  [         R                  R                  S0 5      nUR                  U5        U Vs/ sH!  nU R                  R
                  " / UQUP76 PM#     nnU Vs/ sH  nSU R                  U-  -   PM     nnUR                  X†S.5        [        S0 UD6$ s  snf s  snf )a{  
Computes the number of placeholder tokens needed for multimodal inputs with the given sizes.

Args:
    image_sizes (`list[list[int]]`, *optional*):
        The input sizes formatted as (height, width) per each image.

Returns:
    `MultiModalData`: A `MultiModalData` object holding number of tokens per each of the provided
    input modalities, along with other useful data.
r(   é   )Únum_image_tokensÚnum_image_patchesr   )r&   r.   ÚgetÚupdater2   Úget_number_of_image_patchesr8   r   )	rG   Úimage_sizesrH   Úvision_datar(   Ú
image_sizerŸ   rX   rž   s	            r#   Ú_get_num_multimodal_tokensÚ,InternVLProcessor._get_num_multimodal_tokens  sÇ   € ð ˆØÑ"Ü3×=Ñ=×AÑAÀ/ÐSUÓVˆMØ× Ñ  Ô(ñ #.ó!á"-Jð ×$Ñ$×@Ò@Ð\À*Ð\ÈmÕ\Ù"-ð ð !ñ
 ^oÓoÑ]nÈk  T×%:Ñ%:¸[Ñ%HÔ IÑ]nÐÐoØ×ÑÐ4DÑmÔnäÑ, Ñ,Ð,ùò!ùò
  ps   »'B#Á(B(c                 ó:   • U R                   R                  " U0 UD6$ )z¯
This method forwards all its arguments to PreTrainedTokenizerFast's [`~PreTrainedTokenizer.batch_decode`]. Please
refer to the docstring of this method for more information.
)r3   Úbatch_decode©rG   ÚargsrH   s      r#   r©   ÚInternVLProcessor.batch_decode(  s   € ð
 ~‰~×*Ò*¨DÐ;°FÑ;Ð;r"   c                 ó:   • U R                   R                  " U0 UD6$ )z©
This method forwards all its arguments to PreTrainedTokenizerFast's [`~PreTrainedTokenizer.decode`]. Please refer to
the docstring of this method for more information.
)r3   Údecoderª   s      r#   r®   ÚInternVLProcessor.decode/  s   € ð
 ~‰~×$Ò$ dÐ5¨fÑ5Ð5r"   c                 óˆ   • U R                   R                  nU R                  R                  n[        U5      [        U5      -   $ ©N)r3   Úmodel_input_namesr2   r^   )rG   Útokenizer_input_namesÚimage_processor_input_namess      r#   r²   Ú#InternVLProcessor.model_input_names6  s;   € à $§¡× @Ñ @ÐØ&*×&:Ñ&:×&LÑ&LÐ#ÜÐ)Ó*¬TÐ2MÓ-NÑNÐNr"   )	r<   r>   rD   r8   r@   rC   r;   r=   rA   )NNNé   N)NNNNr±   )!r   r   r   r   Ú__doc__Ú
attributesÚimage_processor_classÚvideo_processor_classÚtokenizer_classr    rF   r^   Ústrr‡   Úndarrayrr   r   r   r   r   r   r   r   r&   r   rš   r¦   r©   r®   Úpropertyr²   r!   Ú__classcell__)rI   s   @r#   r0   r0   /   sK  ø† ñò$ E€JØ0ÐØ0ÐØ%€Oð ØØØ #Øñmð
 ÷mð mð*>Mà3‰ið>Mð
   ™9ð>Mð   ™9ð>Mð $&§:¡:ð>Mð $&§:¡:ð>Mð  ŸZ™Zô>MðD (,ØhlØØ'+ñneà˜Ñ$ðneð u˜YÐ(9¸4À	¹?ÈDÐQbÑLcÐcÑdÑeðneð
 ˜Ñ$ðneð Ð0Ñ1ðneð 
õneô`-ò8<ò6ð ñOó öOr"   r0   )Útypingr   r   Únumpyr‡   Úimage_processing_utilsr   Úimage_utilsr   r   r	   Úprocessing_utilsr
   r   r   r   r   Útokenization_utils_baser   r   Úvideo_utilsr   r   r   r&   r0   Ú__all__r   r"   r#   Ú<module>rÈ      sZ   ð÷  #ã å 2ß QÑ Qß fÕ fß Cß :ô˜<¨uò ôÐ.°eò ôKO˜ô KOð\ Ð
r"   