ó
    <±hk¤  ã                   óF  • S SK rS SKJr  S SKJrJrJr  S SKrS SK	J
r
  SSKJr  SSKJr  SSKJr  SSKJr  SS	KJr  SS
KJr  SSKJrJrJr  SSKJrJr  SSKJr  SSK J!r!J"r"J#r#J$r$J%r%  SSK&J'r'  SSK(J)r)J*r*  \" S5       " S S\
RV                  5      5       r, SDS\
RV                  S\RZ                  S\RZ                  S\RZ                  S\\RZ                     S\.S\.4S jjr/ " S S\
RV                  5      r0\# " S  S!\5      5       r1\\#" S"S#9 " S$ S%\5      5       5       r2 " S& S'\
RV                  5      r3 " S( S)\
RV                  5      r4 " S* S+\
RV                  5      r5\
Rl                  \,S,.r7 " S- S.\5      r8 " S/ S0\
RV                  5      r9\# " S1 S2\15      5       r:\# " S3 S4\5      5       r; " S5 S6\
RV                  5      r<\\#" S7S#9 " S8 S9\5      5       5       r=\#" S:S#9 " S; S<\;5      5       r>\\#" S=S#9 " S> S?\!5      5       5       r?\#" S@S#9 " SA SB\;\5      5       r@/ SCQrAg)Eé    N)Ú	dataclass)ÚCallableÚOptionalÚUnioné   )ÚACT2FN)ÚCache)ÚGenerationMixin)Úuse_kernel_forward_from_hub)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPastÚBaseModelOutputWithPooling)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)ÚModelOutputÚTransformersKwargsÚauto_docstringÚcan_return_tupleÚ	torch_inté   )Ú	AutoModelé   )ÚInternVLConfigÚInternVLVisionConfigÚRMSNormc                   ó8   ^ • \ rS rSrSU 4S jjrS rS rSrU =r$ )ÚInternVLVisionRMSNormé,   c                 óŒ   >• [         TU ]  5         [        R                  " [        R
                  " U5      5      U l        X l        g)z4
InternVLVisionRMSNorm is equivalent to T5LayerNorm
N)ÚsuperÚ__init__ÚnnÚ	ParameterÚtorchÚonesÚweightÚvariance_epsilon)ÚselfÚhidden_sizeÚepsÚ	__class__s      €Úf/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/internvl/modeling_internvl.pyr$   ÚInternVLVisionRMSNorm.__init__.   s/   ø€ ô 	‰ÑÔÜ—l’l¤5§:¢:¨kÓ#:Ó;ˆŒØ #Õó    c                 ó  • UR                   nUR                  [        R                  5      nUR	                  S5      R                  SSS9nU[        R                  " X0R                  -   5      -  nU R                  UR                  U5      -  $ )Nr   éÿÿÿÿT)Úkeepdim)	ÚdtypeÚtor'   Úfloat32ÚpowÚmeanÚrsqrtr*   r)   )r+   Úhidden_statesÚinput_dtypeÚvariances       r/   ÚforwardÚInternVLVisionRMSNorm.forward6   sw   € Ø#×)Ñ)ˆØ%×(Ñ(¬¯©Ó7ˆØ ×$Ñ$ QÓ'×,Ñ,¨R¸Ð,Ð>ˆØ%¬¯ª°H×?TÑ?TÑ4TÓ(UÑUˆØ{‰{˜]×-Ñ-¨kÓ:Ñ:Ð:r1   c                 ó^   • [        U R                  R                  5       SU R                   3$ )Nz, eps=)Útupler)   Úshaper*   ©r+   s    r/   Ú
extra_reprÚ InternVLVisionRMSNorm.extra_repr=   s*   € Ü˜Ÿ™×)Ñ)Ó*Ð+¨6°$×2GÑ2GÐ1HÐIÐIr1   )r*   r)   )gíµ ÷Æ°>)	Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r$   r>   rD   Ú__static_attributes__Ú__classcell__©r.   s   @r/   r    r    ,   s   ø† ÷$ò;÷Jð Jr1   r    ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutc                 ó¤  • UnUn	[         R                  " XR                  SS5      5      U-  n
Ub"  US S 2S S 2S S 2S UR                  S   24   nX«-   n
[        R
                  R                  U
SS9n
[        R
                  R                  X¦U R                  S9n
[         R                  " X©5      nUR                  SS5      R                  5       nXÊ4$ )Nr   r   éþÿÿÿr3   ©Údim)ÚpÚtrainingr   )
r'   ÚmatmulÚ	transposerB   r%   Ú
functionalÚsoftmaxrS   rY   Ú
contiguous)rM   rN   rO   rP   rQ   rR   rS   ÚkwargsÚ
key_statesÚvalue_statesÚattn_weightsÚcausal_maskÚattn_outputs                r/   Úeager_attention_forwardre   A   sÊ   € ð €JØ€Lä—<’< ×';Ñ';¸A¸qÓ'AÓBÀWÑL€LØÑ!Ø$¢Qªª1Ð.D°
×0@Ñ0@ÀÑ0DÐ.DÐ%DÑEˆØ#Ñ1ˆô —=‘=×(Ñ(¨¸2Ð(Ð>€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó:€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r1   c            
       ó¤   ^ • \ rS rSrSrS\4U 4S jjr  SS\R                  S\	\R                     S\	\R                     S\
\   4S	 jjrS
rU =r$ )ÚInternVLVisionAttentioné\   z+Attention Class for InternVL Vision EncoderÚconfigc                 ó$  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        U R                  U R                  -  U l        U R                  U R                  -  U R                  :w  a&  [        SU R                   SU R                   S35      eU R                  S-  U l	        UR                  U l
        UR                  nUR                  nSU l        [        R                  " U R                  U R                  U R                  -  UR                   S9U l        [        R                  " U R                  U R                  U R                  -  UR                   S9U l        [        R                  " U R                  U R                  U R                  -  UR                   S9U l        [        R                  " U R                  U R                  5      U l        US:”  a  [        R*                  " U5      O[        R,                  " 5       U l        U(       a  [/        U R                  5      O[        R,                  " 5       U l        U(       a  [/        U R                  5      U l        g [        R,                  " 5       U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).g      à¿F©Úbiasr   )r#   r$   ri   r,   Ú	embed_dimÚnum_attention_headsÚ	num_headsÚhead_dimÚ
ValueErrorÚscaleÚattention_dropoutÚprojection_dropoutÚuse_qk_normÚ	is_causalr%   ÚLinearÚattention_biasÚq_projÚk_projÚv_projÚprojection_layerÚDropoutÚIdentityr    Úq_normÚk_norm)r+   ri   Úproj_dropoutÚqk_normr.   s       €r/   r$   Ú InternVLVisionAttention.__init___   sÆ  ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒØ=‰=˜4Ÿ>™>Ñ)¨T¯^©^Ó;ÜØMÈdÏnÉnÐM]ð ^Ø—N‘NÐ# 2ð'óð ð —]‘] DÑ(ˆŒ
Ø!'×!9Ñ!9ˆÔØ×0Ñ0ˆØ×$Ñ$ˆð ˆŒä—i’i §¡°·±ÀÇÁÑ0NÐU[×UjÑUjÑkˆŒÜ—i’i §¡°·±ÀÇÁÑ0NÐU[×UjÑUjÑkˆŒÜ—i’i §¡°·±ÀÇÁÑ0NÐU[×UjÑUjÑkˆŒÜ "§	¢	¨$¯.©.¸$¿.¹.Ó IˆÔØ>JÈQÓ>N¤"§*¢*¨\Ô":ÔTV×T_ÒT_ÓTaˆÔæ?FÔ+¨D¯N©NÔ;ÌBÏKÊKËMˆŒÞ?FÔ+¨D¯N©NÓ;ˆÌBÏKÊKËMˆr1   r;   rQ   Úoutput_attentionsr_   c                 óª  • UR                  5       u  pVnU R                  U5      nU R                  U5      n	U R                  U5      n
U R	                  U5      nU R                  U	5      n	UR                  XVU R                  U R                  5      R                  SS5      nU	R                  XVU R                  U R                  5      R                  SS5      n	U
R                  XVU R                  U R                  5      R                  SS5      n
[        nU R                  R                  S:w  a  [        U R                  R                     nU" U UU	U
U4U R                  (       d  SOU R                   U R"                  SS.UD6u  pÍUR                  XVU R$                  5      nU R'                  U5      nU R)                  U5      nU(       a  Xí4nU$ US 4nU$ )Nr   r   Úeagerç        F)rS   rR   rv   )Úsizery   rz   r{   r   r€   Úreshapero   rp   r[   Úviewre   ri   Ú_attn_implementationr   rY   rs   rr   rm   r|   rt   )r+   r;   rQ   r„   r_   Ú
batch_sizeÚseq_lenÚ_Úquery_statesr`   ra   Úattention_interfacerd   rb   ÚoutputÚoutputss                   r/   r>   ÚInternVLVisionAttention.forward{   s¯  € ð "/×!3Ñ!3Ó!5Ñˆ
˜Qà—{‘{ =Ó1ˆØ—[‘[ Ó/ˆ
Ø—{‘{ =Ó1ˆà—{‘{ <Ó0ˆØ—[‘[ Ó,ˆ
à#×+Ñ+¨JÀÇÁÐQU×Q^ÑQ^Ó_×iÑiÐjkÐmnÓoˆØ×'Ñ'¨
¸T¿^¹^ÈTÏ]É]Ó[×eÑeÐfgÐijÓkˆ
Ø#×(Ñ(¨¸d¿n¹nÈdÏmÉmÓ\×fÑfÐghÐjkÓlˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð
%
ð  $Ÿ}Ÿ}‘C°$×2HÑ2HØ—J‘JØñ
%
ð ñ
%
Ñ!ˆð "×)Ñ)¨*¸t¿~¹~ÓNˆà×&Ñ& {Ó3ˆØ×(Ñ(¨Ó0ˆæ,=6Ð(ˆØˆð EKÈDÀ>ˆØˆr1   )rs   ri   rm   rp   rv   r€   rz   ro   rt   r|   r   ry   rr   r{   ©NN)rF   rG   rH   rI   Ú__doc__r   r$   r'   ÚTensorr   r   r   r>   rJ   rK   rL   s   @r/   rg   rg   \   si   ø† Ù5ðZÐ3÷ Zð> 26Ø48ñ	)à—|‘|ð)ð ! §¡Ñ.ð)ð $ E§L¡LÑ1ð	)ð
 Ð-Ñ.÷)ó )r1   rg   c                   óV   ^ • \ rS rSr% \\S'   SrSrSrS/r	Sr
SrSrSrU 4S jrSrU =r$ )	ÚInternVLVisionPreTrainedModelé§   ri   Úinternvl_visionÚpixel_valuesTÚInternVLVisionLayerc                 ón  >• [         TU ]  U5        [        U[        5      (       aˆ  UR                  R
                  R                  5         UR                  b$  UR                  R
                  R                  5         UR                  b%  UR                  R
                  R                  5         gg[        U[        5      (       as  UR                  R
                  R                  U R                  R                  5        UR                  R
                  R                  U R                  R                  5        gg)zInitialize the weightsN)r#   Ú_init_weightsÚ
isinstanceÚInternVLVisionEmbeddingsÚ	cls_tokenÚdataÚzero_Ú
mask_tokenÚposition_embeddingsrœ   Úlambda_1Úfill_ri   Úlayer_scale_init_valueÚlambda_2)r+   rM   r.   s     €r/   rž   Ú+InternVLVisionPreTrainedModel._init_weights³   sÚ   ø€ ä‰Ñ˜fÔ%ÜfÔ6×7Ñ7Ø×Ñ×!Ñ!×'Ñ'Ô)Ø× Ñ Ñ,Ø×!Ñ!×&Ñ&×,Ñ,Ô.Ø×)Ñ)Ñ5Ø×*Ñ*×/Ñ/×5Ñ5Õ7ð 6ä˜Ô 3×4Ñ4ØO‰O× Ñ ×&Ñ& t§{¡{×'IÑ'IÔJØO‰O× Ñ ×&Ñ& t§{¡{×'IÑ'IÕJð 5r1   © )rF   rG   rH   rI   r   Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_sdpaÚ_supports_flash_attnÚ_supports_flex_attnÚ_supports_attention_backendrž   rJ   rK   rL   s   @r/   r˜   r˜   §   sF   ø‡ à Ó Ø)ÐØ$€OØ&*Ð#Ø.Ð/ÐØ€NØÐØÐØ"&Ð÷Kó Kr1   r˜   z7
    Class for outputs of [`InternVLVisionModel`].
    )Úcustom_introc                   ó   • \ rS rSrSrSrg)Ú$InternVLVisionModelOutputWithPoolingéÁ   a2  
pooler_output (`torch.FloatTensor` of shape `(batch_size, hidden_size)`):
    Average of the last layer hidden states of the patch tokens (excluding the *[CLS]* token) if
    *config.use_mean_pooling* is set to True. If set to False, then the final hidden state of the *[CLS]* token
    will be returned.
r«   N)rF   rG   rH   rI   r•   rJ   r«   r1   r/   r·   r·   Á   s   † ôr1   r·   c                   óf   ^ • \ rS rSrSrU 4S jrS\R                  S\R                  4S jrSr	U =r
$ )ÚInternVLVisionPatchEmbeddingséÐ   zÜ
This class turns `pixel_values` of shape `(batch_size, num_channels, height, width)` into the initial
`hidden_states` (patch embeddings) of shape `(batch_size, seq_length, hidden_size)` to be consumed by a
Transformer.
c                 óH  >• [         TU ]  5         UR                  UR                  p2UR                  UR
                  pTUS   US   -  US   US   -  -  nUS   US   -  US   US   -  4nX l        X0l        X@l        X`l        Xpl        [        R                  " XEX3S9U l
        g )Nr   r   )Úkernel_sizeÚstride)r#   r$   Ú
image_sizeÚ
patch_sizeÚnum_channelsr,   Únum_patchesÚpatch_shaper%   ÚConv2dÚ
projection)	r+   ri   r¿   rÀ   rÁ   r,   rÂ   rÃ   r.   s	           €r/   r$   Ú&InternVLVisionPatchEmbeddings.__init__×   s¬   ø€ Ü‰ÑÔØ!'×!2Ñ!2°F×4EÑ4EJØ$*×$7Ñ$7¸×9KÑ9Kkà! !‘}¨
°1©Ñ5¸*ÀQ¹-È:ÐVWÉ=Ñ:XÑYˆØ! !‘}¨
°1©Ñ5°zÀ!±}È
ÐSTÉÑ7UÐVˆØ$ŒØ$ŒØ(ÔØ&ÔØ&ÔäŸ)š) LÈ:Ñiˆr1   r›   Úreturnc                 óü   • UR                   u  p#pEX0R                  :w  a  [        S5      eU R                  U5      nUR                   S   UR                   S   p‡UR	                  S5      R                  SS5      nXgU44$ )NzeMake sure that the channel dimension of the pixel values match with the one set in the configuration.r   r   r   )rB   rÁ   rq   rÅ   Úflattenr[   )	r+   r›   rŒ   rÁ   ÚheightÚwidthÚ
embeddingsÚpatch_heightÚpatch_widths	            r/   r>   Ú%InternVLVisionPatchEmbeddings.forwardæ   s†   € Ø2>×2DÑ2DÑ/ˆ
 &Ø×,Ñ,Ó,ÜØwóð ð —_‘_ \Ó2ˆ
Ø$.×$4Ñ$4°QÑ$7¸×9IÑ9IÈ!Ñ9LkØ×'Ñ'¨Ó*×4Ñ4°Q¸Ó:ˆ
à¨+Ð6Ð6Ð6r1   )r¿   rÁ   rÂ   rÃ   rÀ   rÅ   )rF   rG   rH   rI   r•   r$   r'   r–   r>   rJ   rK   rL   s   @r/   rº   rº   Ð   s.   ø† ñõjð7 E§L¡Lð 7°U·\±\÷ 7ò 7r1   rº   c                   óØ   ^ • \ rS rSrSrS\SS4U 4S jjrS\R                  S\	S	\	S\R                  4S
 jr
 SS\R                  S\\R                     S\R                  4S jjrSrU =r$ )r    éö   z[
Construct the CLS token, position and patch embeddings. Optionally, also the mask token.

ri   rÇ   Nc                 ó^  >• [         TU ]  5         [        R                  " [        R
                  " SSUR                  5      5      U l        UR                  (       a<  [        R                  " [        R
                  " SSUR                  5      5      U l	        OS U l	        [        U5      U l        UR                  U l        [        UR                  [        R                   R"                  5      (       a  UR                  OUR                  UR                  4U l        U R                  R$                  nUR&                  (       a?  [        R                  " [        R
                  " SUS-   UR                  5      5      U l        OS U l        [        R*                  " UR,                  5      U l        g )Nr   )r#   r$   r%   r&   r'   Úzerosr,   r¡   Úuse_mask_tokenr¤   rº   Úpatch_embeddingsrÀ   rŸ   r¿   ÚcollectionsÚabcÚIterablerÂ   Ú use_absolute_position_embeddingsr¥   r}   Úhidden_dropout_probrS   )r+   ri   rÂ   r.   s      €r/   r$   Ú!InternVLVisionEmbeddings.__init__ü   s'  ø€ Ü‰ÑÔäŸš¤e§k¢k°!°Q¸×8JÑ8JÓ&KÓLˆŒØ× × Ü Ÿlšl¬5¯;ª;°q¸!¸V×=OÑ=OÓ+PÓQˆDOà"ˆDŒOÜ =¸fÓ EˆÔØ ×+Ñ+ˆŒô ˜&×+Ñ+¬[¯_©_×-EÑ-E×FÑFð ×Òà×#Ñ# V×%6Ñ%6Ð7ð 	Œð
 ×+Ñ+×7Ñ7ˆØ×2×2Ü')§|¢|´E·K²KÀÀ;ÐQRÁ?ÐTZ×TfÑTfÓ4gÓ'hˆDÕ$à'+ˆDÔ$Ü—z’z &×"<Ñ"<Ó=ˆr1   rÌ   rÊ   rË   c                 ó¨  • UR                   S   S-
  nU R                  R                   S   S-
  n[        R                  R	                  5       (       d  XE:X  a  X#:X  a  U R                  $ U R                  SS2SS24   nU R                  SS2SS24   nUR                   S   nX R
                  S   -  n	X0R
                  S   -  n
[        US-  5      nUR                  SX»U5      nUR                  SSSS5      n[        R                  R                  UXš4SS	S
9nUR                  SSSS5      R                  SSU5      n[        R                  " Xg4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   Nr3   r   ç      à?r   r   ÚbicubicF)rˆ   ÚmodeÚalign_cornersrV   )rB   r¥   r'   ÚjitÚ
is_tracingrÀ   r   r‰   Úpermuter%   r\   ÚinterpolaterŠ   Úcat)r+   rÌ   rÊ   rË   rÂ   Únum_positionsÚclass_pos_embedÚpatch_pos_embedrW   Ú
new_heightÚ	new_widthÚsqrt_num_positionss               r/   Úinterpolate_pos_encodingÚ1InternVLVisionEmbeddings.interpolate_pos_encoding  s]  € ð !×&Ñ& qÑ)¨AÑ-ˆØ×0Ñ0×6Ñ6°qÑ9¸AÑ=ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×+Ñ+Ð+à×2Ñ2²1°b°q°b°5Ñ9ˆØ×2Ñ2²1°a±b°5Ñ9ˆà×Ñ˜rÑ"ˆàŸ™¨qÑ1Ñ1ˆ
ØŸ_™_¨QÑ/Ñ/ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr1   r›   Úbool_masked_posc                 óà  • UR                   u    p4nU R                  U5      u  nu  pxUR                  5       u  pšnUbI  U R                  R	                  XšS5      nUR                  S5      R                  U5      nUSU-
  -  X¼-  -   nU R                  R	                  U	SS5      n[        R                  " XÖ4SS9nU R                  b  X`R                  XdU5      -   nU R                  U5      nXgU44$ )Nr3   r   rV   )rB   rÕ   rˆ   r¤   ÚexpandÚ	unsqueezeÚtype_asr¡   r'   rå   r¥   rì   rS   )r+   r›   rî   rŽ   rÊ   rË   rÌ   rÍ   rÎ   rŒ   r   Úmask_tokensÚwÚ
cls_tokenss                 r/   r>   Ú InternVLVisionEmbeddings.forward:  sô   € ð
 +×0Ñ0Ñˆˆ1eØ26×2GÑ2GÈÓ2UÑ/ˆ
Ñ/\Ø!+§¡Ó!2Ñˆ
˜QàÑ&ØŸ/™/×0Ñ0°ÀbÓIˆKà×)Ñ)¨"Ó-×5Ñ5°kÓBˆAØ# q¨1¡uÑ-°±Ñ?ˆJà—^‘^×*Ñ*¨:°r¸2Ó>ˆ
Ü—Y’Y 
Ð7¸QÑ?ˆ
à×#Ñ#Ñ/Ø#×&CÑ&CÀJÐX]Ó&^Ñ^ˆJà—\‘\ *Ó-ˆ
à¨+Ð6Ð6Ð6r1   )r¡   rS   r¿   r¤   rÕ   rÀ   r¥   ©N)rF   rG   rH   rI   r•   r   r$   r'   r–   Úintrì   r   Ú
BoolTensorr>   rJ   rK   rL   s   @r/   r    r    ö   s   ø† ñð
>Ð3ð >¸÷ >ð,&D°5·<±<ð &DÈð &DÐUXð &DÐ]b×]iÑ]iô &DðV 7;ñ7à—l‘lð7ð " %×"2Ñ"2Ñ3ð7ð 
‰÷	7ó 7r1   r    c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚInternVLVisionMLPiT  c                 ó  >• [         TU ]  5         Xl        [        UR                     U l        [        R                  " UR                  UR                  5      U l
        [        R                  " UR                  UR                  5      U l        g r÷   )r#   r$   ri   r   Ú
hidden_actÚactivation_fnr%   rw   r,   Úintermediate_sizeÚfc1Úfc2©r+   ri   r.   s     €r/   r$   ÚInternVLVisionMLP.__init__U  sb   ø€ Ü‰ÑÔØŒÜ# F×$5Ñ$5Ñ6ˆÔÜ—9’9˜V×/Ñ/°×1IÑ1IÓJˆŒÜ—9’9˜V×5Ñ5°v×7IÑ7IÓJˆr1   r;   rÇ   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ r÷   )r   rþ   r  )r+   r;   s     r/   r>   ÚInternVLVisionMLP.forward\  s4   € ØŸ™ Ó/ˆØ×*Ñ*¨=Ó9ˆØŸ™ Ó/ˆØÐr1   )rþ   ri   r   r  )
rF   rG   rH   rI   r$   r'   r–   r>   rJ   rK   rL   s   @r/   rû   rû   T  s)   ø† õKð U§\¡\ð °e·l±l÷ ò r1   rû   )Ú
layer_normÚrms_normc                   ó¾   ^ • \ rS rSrSrS\SS4U 4S jjr SS\R                  S\	S\
\\R                     \\R                  \R                  4   4   4S	 jjrS
rU =r$ )rœ   if  z?This corresponds to the Block class in the timm implementation.ri   rÇ   Nc                 ó¤  >• [         TU ]  5         UR                  U l        SU l        [	        U5      U l        [        U5      U l        [        UR                     " UR                  UR                  S9U l        [        UR                     " UR                  UR                  S9U l        UR                  n[        R                   " U["        R$                  " UR                  5      -  SS9U l        [        R                   " U["        R$                  " UR                  5      -  SS9U l        [        R*                  " UR,                  5      U l        g )Nr   ©r-   T)Úrequires_grad)r#   r$   Úchunk_size_feed_forwardÚseq_len_dimrg   Ú	attentionrû   ÚmlpÚNORM2FNÚ	norm_typer,   Úlayer_norm_epsÚlayernorm_beforeÚlayernorm_afterr¨   r%   r&   r'   r(   r¦   r©   r}   rÚ   rS   )r+   ri   Úinit_valuesr.   s      €r/   r$   ÚInternVLVisionLayer.__init__i  sù   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ0°Ó8ˆŒÜ$ VÓ,ˆŒä '¨×(8Ñ(8Ò 9¸&×:LÑ:LÐRX×RgÑRgÑ hˆÔÜ& v×'7Ñ'7Ò8¸×9KÑ9KÐQW×QfÑQfÑgˆÔà×3Ñ3ˆÜŸš [´5·:²:¸f×>PÑ>PÓ3QÑ%QÐaeÑfˆŒÜŸš [´5·:²:¸f×>PÑ>PÓ3QÑ%QÐaeÑfˆŒÜ—z’z &×"<Ñ"<Ó=ˆr1   r;   r„   c                 ó  • U R                  U R                  U5      US9u  p4U R                  U-  nX1-   nU R                  U5      nU R	                  U5      nU R                  U5      nU R                  b  U R                  U-  nXQ-   nXT4$ )N)r„   )r  r  r¦   r  r  rS   r©   )r+   r;   r„   Úattention_outputÚattention_weightsÚlayer_outputs         r/   r>   ÚInternVLVisionLayer.forwardx  s¡   € ð
 /3¯n©nØ×!Ñ! -Ó0Ø/ð /=ð /
Ñ+Ðð
  Ÿ=™=Ð+;Ñ;Ðð )Ñ8ˆð ×+Ñ+¨MÓ:ˆà—x‘x Ó-ˆØ—|‘| LÓ1ˆà=‰=Ñ$ØŸ=™=¨<Ñ7ˆLð $Ñ3ˆàÐ.Ð.r1   )	r  r  rS   r¦   r©   r  r  r  r  )F)rF   rG   rH   rI   r•   r   r$   r'   r–   Úboolr   rA   r>   rJ   rK   rL   s   @r/   rœ   rœ   f  sn   ø† ÙIð>Ð3ð >¸÷ >ð$ #(ñ/à—|‘|ð/ð  ð/ð 
ˆuU—\‘\Ñ" E¨%¯,©,¸¿¹Ð*DÑ$EÐEÑ	F÷	/ó /r1   rœ   c                   ó~   ^ • \ rS rSrS\SS4U 4S jjr\  SS\R                  S\	S\	S\
\\4   4S	 jj5       rS
rU =r$ )ÚInternVLVisionEncoderi–  ri   rÇ   Nc                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf )NF)
r#   r$   ri   r%   Ú
ModuleListÚrangeÚnum_hidden_layersrœ   ÚlayerÚgradient_checkpointing)r+   ri   Úir.   s      €r/   r$   ÚInternVLVisionEncoder.__init__—  sS   ø€ Ü‰ÑÔØŒÜ—]’]ÌÈv×OgÑOgÔIhÓ#iÑIhÀAÔ$7¸Ö$?ÑIhÑ#iÓjˆŒ
Ø&+ˆÕ#ùò $js   ½A%r;   r„   Úoutput_hidden_statesc                 óì   • U(       a  SOS nU(       a  SOS n[        U R                  5       H/  u  pgU(       a  XA4-   nU" X5      nUS   nU(       d  M'  XXS   4-   nM1     U(       a  XA4-   n[        UUUS9$ )Nr«   r   r   ©Úlast_hidden_stater;   Ú
attentions)Ú	enumerater#  r   )	r+   r;   r„   r'  Úall_hidden_statesÚall_self_attentionsr%  Úlayer_moduleÚlayer_outputss	            r/   r>   ÚInternVLVisionEncoder.forward  sŽ   € ö #7™B¸DÐÞ$5™b¸4Ðä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!á(¨ÓJˆMà)¨!Ñ,ˆMç Ð Ø&9È1Ñ=MÐ<OÑ&OÒ#ñ  5ö  Ø 1Ð4DÑ DÐäØ+Ø+Ø*ñ
ð 	
r1   )ri   r$  r#  )FF)rF   rG   rH   rI   r   r$   r   r'   r–   r  r   rA   r   r>   rJ   rK   rL   s   @r/   r  r  –  sg   ø† ð,Ð3ð ,¸÷ ,ð ð #(Ø%*ñ	
à—|‘|ð
ð  ð
ð #ð	
ð
 
ˆuoÐ%Ñ	&ô
ó ö
r1   r  c                   óº   ^ • \ rS rSrS\SS4U 4S jjrS r\\   SS\	R                  S\\	R                     S	\\   S
\\   S\\\4   4
S jj5       5       rSrU =r$ )ÚInternVLVisionModeli¼  ri   rÇ   Nc                 ó8  >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        UR                  (       a  [        R                  " 5       O([        R                  " UR                  UR                  S9U l        U R                  5         g )Nr
  )r#   r$   ri   r    rÌ   r  ÚencoderÚuse_mean_poolingr%   r~   Ú	LayerNormr,   r  Ú	layernormÚ	post_initr  s     €r/   r$   ÚInternVLVisionModel.__init__¾  sm   ø€ Ü‰Ñ˜Ô ØŒä2°6Ó:ˆŒÜ,¨VÓ4ˆŒð $×4×4ŒBKŠKŒM¼"¿,º,Àv×GYÑGYÐ_e×_tÑ_tÑ:uð 	Œð
 	‰Õr1   c                 ó.   • U R                   R                  $ r÷   )rÌ   rÕ   rC   s    r/   Úget_input_embeddingsÚ(InternVLVisionModel.get_input_embeddingsÌ  s   € Ø‰×/Ñ/Ð/r1   r›   rî   r„   r'  c                 ó  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU R                  XS9u  pVU R	                  UUUS9nUS   nU R                  U5      n[        UUR                  UR                  S9$ )z³
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, num_patches)`, *optional*):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).
)rî   )r„   r'  r   r)  )	ri   r„   r'  rÌ   r5  r8  r·   r;   r+  )	r+   r›   rî   r„   r'  Úembedding_outputrŽ   Úencoder_outputsÚsequence_outputs	            r/   r>   ÚInternVLVisionModel.forwardÏ  s¨   € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð #Ÿo™o¨l˜oÐ\ÑÐàŸ,™,ØØ/Ø!5ð 'ð 
ˆð
 *¨!Ñ,ˆØŸ.™.¨Ó9ˆä3Ø-Ø)×7Ñ7Ø&×1Ñ1ñ
ð 	
r1   )ri   rÌ   r5  r8  )NNN)rF   rG   rH   rI   r   r$   r<  r   r   r'   r–   r   rù   r  r   rA   r·   r>   rJ   rK   rL   s   @r/   r3  r3  ¼  s•   ø† ðÐ3ð ¸÷ ò0ð Øð 7;Ø,0Ø/3ñ
à—l‘lð
ð " %×"2Ñ"2Ñ3ð
ð $ D™>ð	
ð
 ' t™nð
ð 
ˆuÐ:Ð:Ñ	;ô
ó ó ö
r1   r3  c                   ó@   • \ rS rSr% \\S'   SrSrSrSr	Sr
SrSrSrSrg)ÚInternVLPreTrainedModeliò  ri   Ú TÚpast_key_valuesr«   N)rF   rG   rH   rI   r   r¬   r­   r¯   Ú_skip_keys_device_placementr²   r±   Ú_can_compile_fullgraphr³   r´   rJ   r«   r1   r/   rD  rD  ò  s7   ‡ àÓØÐØ&*Ð#Ø"3ÐàÐØ€Nà!ÐØÐØ"&Ór1   rD  c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )ÚInternVLMultiModalProjectori  ri   c                 ó0  >• [         TU ]  5         [        R                  " UR                  R
                  [        SUR                  -  5      S-  -  5      U l        [        R                  " UR                  R
                  [        SUR                  -  5      S-  -  UR                  R
                  5      U l        [        UR                     U l        [        R                  " UR                  R
                  UR                  R
                  5      U l        g )Nr   r   )r#   r$   r%   r7  Úvision_configr,   rø   Údownsample_ratior  rw   Útext_configÚlinear_1r   Úprojector_hidden_actÚactÚlinear_2r  s     €r/   r$   Ú$InternVLMultiModalProjector.__init__  sÍ   ø€ Ü‰ÑÔÜŸ,š, v×';Ñ';×'GÑ'GÌ#ÈaÐRX×RiÑRiÑNiÓJjÐnoÑJoÑ'oÓpˆŒÜŸ	š	Ø× Ñ ×,Ñ,¬s°1°v×7NÑ7NÑ3NÓ/OÐSTÑ/TÑTÐV\×VhÑVh×VtÑVtó
ˆŒô ˜&×5Ñ5Ñ6ˆŒÜŸ	š	 &×"4Ñ"4×"@Ñ"@À&×BTÑBT×B`ÑB`Óaˆr1   c                 óŽ   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ r÷   )r  rO  rQ  rR  )r+   Úimage_featuresr;   s      r/   r>   Ú#InternVLMultiModalProjector.forward  s@   € ØŸ™¨Ó7ˆØŸ™ mÓ4ˆØŸ™ Ó/ˆØŸ™ mÓ4ˆØÐr1   )rQ  r  rO  rR  )	rF   rG   rH   rI   r   r$   r>   rJ   rK   rL   s   @r/   rJ  rJ    s   ø† ðb˜~÷ b÷ð r1   rJ  zM
    Base class for InternVL outputs, with hidden states and attentions.
    c                   óB   • \ rS rSr% SrSr\\R                     \	S'   Sr
g)ÚInternVLModelOutputWithPasti  aÔ  
past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of shape
    `(batch_size, num_heads, sequence_length, embed_size_per_head)`)

    Contains pre-computed hidden-states (key and values in the self-attention blocks) that can be used (see
    `past_key_values` input) to speed up sequential decoding.
image_hidden_states (`torch.FloatTensor`, *optional*):
    A `torch.FloatTensor` of size `(batch_size, num_images, sequence_length, hidden_size)`.
    image_hidden_states of the model produced by the vision encoder and after projecting the last hidden state.
NÚimage_hidden_statesr«   )rF   rG   rH   rI   r•   rY  r   r'   ÚFloatTensorr¬   rJ   r«   r1   r/   rX  rX    s   ‡ ñ
ð 8<Ð˜ %×"3Ñ"3Ñ4Ö;r1   rX  zx
    The InternVL model which consists of a vision backbone and a language model, without a language modeling head.
    c            #       ól  ^ • \ rS rSrSS0rS\4U 4S jjrS rS rS r	S	 r
  S!S
\R                  S\\\\\   4      S\\   4S jjrS\R&                  S\R                  S\R                  4S jr\\             S"S\R&                  S
\R                  S\\R.                     S\\R&                     S\\   S\\R                     S\\\\\   4      S\\   S\\   S\\   S\\   S\\   S\\R&                     S\\   S\\\4   4S jj5       5       rS#S\R.                  S\4S jjr S r!U =r"$ )$ÚInternVLModeli)  zlanguage_model.modelÚlanguage_modelri   c                 óø   >• [         TU ]  U5        [        R                  " UR                  5      U l        [        U5      U l        [        R                  " UR                  5      U l	        U R                  5         g r÷   )r#   r$   r   Úfrom_configrL  Úvision_towerrJ  Úmulti_modal_projectorrN  r]  r9  r  s     €r/   r$   ÚInternVLModel.__init__1  sY   ø€ Ü‰Ñ˜Ô Ü%×1Ò1°&×2FÑ2FÓGˆÔä%@ÀÓ%HˆÔ"Ü'×3Ò3°F×4FÑ4FÓGˆÔØ‰Õr1   c                 ó6   • U R                   R                  5       $ r÷   )r]  r<  rC   s    r/   r<  Ú"InternVLModel.get_input_embeddings9  s   € Ø×"Ñ"×7Ñ7Ó9Ð9r1   c                 ó:   • U R                   R                  U5        g r÷   )r]  Úset_input_embeddings©r+   rP   s     r/   rf  Ú"InternVLModel.set_input_embeddings<  s   € Ø×Ñ×0Ñ0°Õ7r1   c                 ó   • Xl         g r÷   ©r]  ©r+   Údecoders     r/   Úset_decoderÚInternVLModel.set_decoder?  s   € Ø%Õr1   c                 ó   • U R                   $ r÷   rj  rC   s    r/   Úget_decoderÚInternVLModel.get_decoderB  s   € Ø×"Ñ"Ð"r1   r›   Úvision_feature_layerÚvision_feature_select_strategyc                 ó<  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU R                   R                  nUS:X  a  U R	                  US9R
                  nOU R                  US9R                  U   nUS:X  a  USS2SS2SS24   nUR                  S   n[        US-  5      nUR                  S   n	UR                  X˜US5      nU R                  XeS9nUR                  U	SUR                  S   5      nU R                  U5      nU$ )	aÝ  
Obtains image last hidden states from the vision tower and apply multimodal projection.

Args:
    pixel_values (`torch.FloatTensor]` of shape `(batch_size, channels, height, width)`)
       The tensors corresponding to the input images.
    vision_feature_layer (`int` or `list[int]`):
        Layer index or list of layer indices to extract features from.
Returns:
    vision_features (`torch.Tensor`): Image feature tensor of shape `(num_images, image_length, embed_dim)`.
Nr3   )r›   Údefaultr   rÝ   r   )Úscale_factor)ri   rr  rs  rM  r`  r*  Úvision_modelr;   rB   rø   r‰   Úpixel_shufflera  )
r+   r›   rr  rs  r_   rM  Úvision_featuresÚchannelsÚfeature_sizerŒ   s
             r/   Úget_image_featuresÚ InternVLModel.get_image_featuresE  s?  € ð& %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð
 .Ñ9ñ +à—‘×;Ñ;ð 	'ð  Ÿ;™;×7Ñ7ÐØ 2Ó%Ø"×/Ñ/¸\Ð/ÐJ×\Ñ\‰Oà"×/Ñ/¸\Ð/ÐJ×XÑXÐYmÑnˆOØ)¨YÓ6Ø-ªa°±²Q¨hÑ7ˆOð #×(Ñ(¨Ñ+ˆÜ˜8 S™=Ó)ˆØ$×*Ñ*¨1Ñ-ˆ
ð *×1Ñ1°*ÈLÐZ\Ó]ˆð ×,Ñ,¨_Ð,Ð\ˆð *×1Ñ1°*¸bÀ/×BWÑBWÐXZÑB[Ó\ˆð ×4Ñ4°_ÓEˆØÐr1   Ú	input_idsÚinputs_embedsrU  c           	      óJ  • Ucj  X R                  5       " [        R                  " U R                  R                  [        R
                  UR                  S95      :H  nUR                  S5      nOXR                  R                  :H  nUR                  5       nUR                  S5      R                  U5      R                  UR                  5      nUR                  S   UR                  S   -  nX$   R                  5       UR                  5       :w  a  [        SU SU 35      eU$ )zÖ
Obtains multimodal placeholdr mask from `input_ids` or `inputs_embeds`, and checks that the placeholder token count is
equal to the length of multimodal features. If the lengths are different, an error is raised.
)r5   Údevicer3   r   r   z6Image features and image tokens do not match: tokens: z, features )r<  r'   Útensorri   Úimage_token_idÚlongr  ÚallÚsumrñ   Ú	expand_asr6   rB   Únumelrq   )r+   r~  r  rU  Úspecial_image_maskÚn_image_tokensÚn_image_featuress          r/   Úget_placeholder_maskÚ"InternVLModel.get_placeholder_maskz  s  € ð ÑØ!.×2KÑ2KÔ2MÜ—’˜TŸ[™[×7Ñ7¼u¿z¹zÐR_×RfÑRfÑgó3ñ "Ðð "4×!7Ñ!7¸Ó!;Ñà!*¯k©k×.HÑ.HÑ!HÐà+×/Ñ/Ó1ˆØ/×9Ñ9¸"Ó=×GÑGÈÓV×YÑYÐZg×ZnÑZnÓoÐØ)×/Ñ/°Ñ2°^×5IÑ5IÈ!Ñ5LÑLÐØÑ,×2Ñ2Ó4¸×8LÑ8LÓ8NÓNÜØHÈÐHXÐXcÐdtÐcuÐvóð ð "Ð!r1   rQ   Úposition_idsrF  Ú	use_cacher„   r'  Úreturn_dictÚcache_positionr_   rÇ   c                 óÜ  • U
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R
                  nUS L US L-  (       a  [        S5      eUc  U R                  5       " U5      nUbY  U R                  UUUS9nUR                  UR                  UR                  5      nU R                  XUS9nUR                  UU5      nU R                  " SUUUUU	U
USUS.	UD6n[        UR                   UR"                  UR$                  UR&                  Ub  WS9$ S S9$ )Nz:You must specify exactly one of input_ids or inputs_embeds©r›   rr  rs  )r  rU  T)	rQ   rŽ  rF  r  r  r„   r'  r  r‘  )r*  rF  r;   r+  rY  r«   )ri   r„   r'  Úuse_return_dictrr  rs  rq   r<  r|  r6   r  r5   rŒ  Úmasked_scatterr]  rX  r*  rF  r;   r+  )r+   r~  r›   rQ   rŽ  rF  r  rr  rs  r  r„   r'  r  r‘  r_   rU  r‰  r’   s                     r/   r>   ÚInternVLModel.forward’  s¾  € ð& 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð
 .Ñ9ñ +à—‘×;Ñ;ð 	'ð ˜Ð -°tÐ";×<ÜÐYÓZÐZàÑ Ø ×5Ñ5Ô7¸	ÓBˆMàÑ#Ø!×4Ñ4Ø)Ø%9Ø/Mð 5ð ˆNð
 ,×.Ñ.¨}×/CÑ/CÀ]×EXÑEXÓYˆNØ!%×!:Ñ!:ØÀ~ð ";ð "Ðð *×8Ñ8Ð9KÈ^Ó\ˆMà×%Ò%ð 
Ø)Ø%Ø+Ø'ØØ/Ø!5ØØ)ñ
ð ñ
ˆô +Ø%×7Ñ7Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø2>Ñ2J ñ
ð 	
ð
 QUñ
ð 	
r1   ry  rv  c           
      ó¬  • UR                  5       u  p4pVXR-  S:w  d  XB-  S:w  a  [        S5      eUR                  X4[        XR-  5      [        Xb-  5      5      nUR	                  SSSS5      R                  5       nUR                  U[        XR-  5      [        XB-  5      [        XbS-  -  5      5      nUR	                  SSSS5      R                  5       nU$ )aÞ  Perform pixel shuffle downsampling on vision features.

Args:
    vision_features (`torch.Tensor`):
        Input tensor of shape (batch_size, width, height, channels).
    scale_factor (`float`, *optional*, defaults to `0.5`):
        Factor by which to downsample. Default is 0.5, which halves the dimensions.

Returns:
    vision_features (`torch.Tensor`):
        Downsampled tensor of shape (batch_size, height*scale_factor, width*scale_factor, channels/(scale_factor^2)).
r   zKHeight and width must be divisible by scale_factor for proper downsampling.r   r   r   )rˆ   rq   rŠ   rø   rã   r^   )r+   ry  rv  rŒ   rË   rÊ   rz  s          r/   rx  ÚInternVLModel.pixel_shuffleÚ  sã   € ð />×.BÑ.BÓ.DÑ+ˆ
˜6àÑ  AÓ%¨Ñ)=ÀÓ)BÜÐjÓkÐkð *×.Ñ.Øœs 6Ñ#8Ó9¼3¸xÑ?VÓ;Wó
ˆð *×1Ñ1°!°Q¸¸1Ó=×HÑHÓJˆð *×.Ñ.Øœ˜FÑ1Ó2´C¸Ñ8LÓ4MÌsÐS[ÐmnÑ_nÑSoÓOpó
ˆð
 *×1Ñ1°!°Q¸¸1Ó=×HÑHÓJˆàÐr1   )r]  ra  r`  r”   )NNNNNNNNNNNNN)rÝ   )#rF   rG   rH   rI   Ú_checkpoint_conversion_mappingr   r$   r<  rf  rm  rp  r'   rZ  r   r   rø   ÚlistÚstrr|  Ú
LongTensorrŒ  r   r   r–   r	   r  r   r   rA   rX  r>   Úfloatrx  rJ   rK   rL   s   @r/   r\  r\  )  s   ø† ð '=Ð>NÐ%OÐ"ð˜~÷ ò:ò8ò&ò#ð AEØ8<ñ	3à×'Ñ'ð3ð ' u¨S°$°s±)¨^Ñ'<Ñ=ð3ð )1°©õ	3ðj"Ø×)Ñ)ð"Ø:?×:KÑ:Kð"Ø]b×]nÑ]nô"ð0 Øð '+Ø*.Ø15Ø37Ø+/Ø59Ø@DØ8<Ø$(Ø,0Ø/3Ø&*Ø59ñD
à×#Ñ#ðD
ð ×'Ñ'ðD
ð ! §¡Ñ.ð	D
ð
 ˜u×/Ñ/Ñ0ðD
ð " %™ðD
ð   × 1Ñ 1Ñ2ðD
ð ' u¨S°$°s±)¨^Ñ'<Ñ=ðD
ð )1°©ðD
ð ˜D‘>ðD
ð $ D™>ðD
ð ' t™nðD
ð ˜d‘^ðD
ð ! ×!1Ñ!1Ñ2ðD
ð Ð-Ñ.ðD
ð  
ˆuÐ1Ð1Ñ	2ô!D
ó ó ðD
ñL!¨U¯\©\ð !È÷ !ó !r1   r\  zT
    Base class for InternVL causal language model (or autoregressive) outputs.
    c                   ó  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Sr\\R                     \	S	'   S
rg)ÚInternVLCausalLMOutputWithPastiþ  a)  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
    Language modeling loss (for next-token prediction).
logits (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.vocab_size)`):
    Prediction scores of the language modeling head (scores for each vocabulary token before SoftMax).
past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of shape
    `(batch_size, num_heads, sequence_length, embed_size_per_head)`)

    Contains pre-computed hidden-states (key and values in the self-attention blocks) that can be used (see
    `past_key_values` input) to speed up sequential decoding.
image_hidden_states (`torch.FloatTensor`, *optional*):
    A `torch.FloatTensor` of size `(batch_size, num_images, sequence_length, hidden_size)`.
    image_hidden_states of the model produced by the vision encoder and after projecting the last hidden state.
NÚlossÚlogitsrF  r;   r+  rY  r«   )rF   rG   rH   rI   r•   r   r   r'   rZ  r¬   r¡  rF  rš  r;   rA   r+  rY  rJ   r«   r1   r/   rŸ  rŸ  þ  s—   ‡ ñð  )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø*.€FˆHU×&Ñ&Ñ'Ó.Ø9=€OX˜d 5×#4Ñ#4Ñ5Ñ6Ó=Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ó9Ø7;Ð˜ %×"3Ñ"3Ñ4Ö;r1   rŸ  zV
    The INTERNVL model which consists of a vision backbone and a language model.
    c            )       óÎ  ^ • \ rS rSrSSSSS.rS/rS\4U 4S	 jjrS
 rS r	S\
R                  4S jrS rS r  S(S\R                   S\\\\\   4      S\\   4S jjr\S 5       r\S 5       r\S 5       r\\                S)S\R:                  S\R                   S\\R<                     S\\R:                     S\\   S\\R                      S\\\\\   4      S\\   S\\R:                     S\\    S\\    S\\    S \\    S!\\R:                     S"\\\R<                  4   S#\\R<                     S$\!\"   S\\#\$4   4$S% jj5       5       r%      S*U 4S& jjr&S'r'U =r($ )+Ú InternVLForConditionalGenerationi  zmodel.language_modelzmodel.vision_towerzmodel.multi_modal_projectorÚlm_head)z^language_model.modelz^vision_towerz^multi_modal_projectorz^language_model.lm_headzlm_head.weightri   c                 óê   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  R                  UR                  R                  SS9U l	        U R                  5         g )NFrk   )r#   r$   r\  Úmodelr%   rw   rN  r,   Ú
vocab_sizer¤  r9  r  s     €r/   r$   Ú)InternVLForConditionalGeneration.__init__+  sS   ø€ Ü‰Ñ˜Ô Ü" 6Ó*ˆŒ
Ü—y’y ×!3Ñ!3×!?Ñ!?À×ASÑAS×A^ÑA^ÐejÑkˆŒØ‰Õr1   c                 ó6   • U R                   R                  5       $ r÷   )r¦  r<  rC   s    r/   r<  Ú5InternVLForConditionalGeneration.get_input_embeddings1  s   € Øz‰z×.Ñ.Ó0Ð0r1   c                 ó:   • U R                   R                  U5        g r÷   )r¦  rf  rg  s     r/   rf  Ú5InternVLForConditionalGeneration.set_input_embeddings4  s   € Ø
‰
×'Ñ'¨Õ.r1   rÇ   c                 ó   • U R                   $ r÷   )r¤  rC   s    r/   Úget_output_embeddingsÚ6InternVLForConditionalGeneration.get_output_embeddings7  s   € Ø|‰|Ðr1   c                 ó:   • U R                   R                  U5        g r÷   )r¦  rm  rk  s     r/   rm  Ú,InternVLForConditionalGeneration.set_decoder:  s   € Ø
‰
×Ñ˜wÕ'r1   c                 ó6   • U R                   R                  5       $ r÷   )r¦  rp  rC   s    r/   rp  Ú,InternVLForConditionalGeneration.get_decoder=  s   € Øz‰z×%Ñ%Ó'Ð'r1   r›   rr  rs  c                 óB   • U R                   R                  " SUUUS.UD6$ )Nr“  r«   )r¦  r|  )r+   r›   rr  rs  r_   s        r/   r|  Ú3InternVLForConditionalGeneration.get_image_features@  s3   € ð z‰z×,Ò,ð 
Ø%Ø!5Ø+Iñ
ð ñ	
ð 	
r1   c                 ó.   • U R                   R                  $ r÷   )r¦  r]  rC   s    r/   r]  Ú/InternVLForConditionalGeneration.language_modelO  s   € àz‰z×(Ñ(Ð(r1   c                 ó.   • U R                   R                  $ r÷   )r¦  r`  rC   s    r/   r`  Ú-InternVLForConditionalGeneration.vision_towerS  s   € àz‰z×&Ñ&Ð&r1   c                 ó.   • U R                   R                  $ r÷   )r¦  ra  rC   s    r/   ra  Ú6InternVLForConditionalGeneration.multi_modal_projectorW  s   € àz‰z×/Ñ/Ð/r1   r~  rQ   rŽ  rF  r  Úlabelsr  r„   r'  r  r‘  Úlogits_to_keepÚimage_sizesr_   c                 ó¶  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R
                  nU R                  " SUUUUUUUUU
UUSUUS.UD6nUS   n[        U[        5      (       a  [        U* S5      OUnU R                  USS2USS24   5      nSnU	b3  U R                  " SUXR                   R                  R                  S.UD6n[        UUUR                  UR                   UR"                  UR$                  S9$ )ay  
Example:

```python
>>> import torch
>>> from transformers import AutoProcessor, AutoModelForImageTextToText

>>> torch_device = "cuda"
>>> processor = AutoProcessor.from_pretrained("OpenGVLab/InternVL3-1B-hf")
>>> model = AutoModelForImageTextToText.from_pretrained(
...     "OpenGVLab/InternVL3-1B-hf", torch_dtype=torch.bfloat16, device_map=torch_device
... )

>>> messages = [
...     {
...         "role": "user",
...         "content": [
...             {
...                 "type": "image",
...                 "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg",
...             },
...             {
...                 "type": "image",
...                 "url": "https://thumbs.dreamstime.com/b/golden-gate-bridge-san-francisco-purple-flowers-california-echium-candicans-36805947.jpg",
...             },
...             {"type": "text", "text": "These images depict two different landmarks. Can you identify them?"},
...         ],
...     },
... ]

>>> inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(torch_device)
>>> generate_ids = model.generate(**inputs, max_new_tokens=200)
>>> print(processor.decode(generate_ids[0, inputs["input_ids"].shape[1] :], skip_special_tokens=True))
The images depict the Statue of Liberty and the Golden Gate Bridge.
```NT)r~  r›   rQ   rŽ  rF  r  rr  rs  r  r„   r'  r  r‘  r¾  r   )r¡  r¼  r§  )r   r¡  rF  r;   r+  rY  r«   )ri   r„   r'  r”  rr  rs  r¦  rŸ   rø   Úslicer¤  Úloss_functionrN  r§  rŸ  rF  r;   r+  rY  )r+   r~  r›   rQ   rŽ  rF  r  rr  rs  r¼  r  r„   r'  r  r‘  r½  r¾  r_   r’   r;   Úslice_indicesr¡  r   s                          r/   r>   Ú(InternVLForConditionalGeneration.forward[  sŽ  € ðr 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð
 .Ñ9ñ +à—‘×;Ñ;ð 	'ð —*’*ð 
ØØ%Ø)Ø%Ø+Ø'Ø!5Ø+IØØ/Ø!5ØØ)Ø#ñ
ð ñ
ˆð$   ™
ˆä8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆàˆØÑØ×%Ò%ð Ø f¿¹×9PÑ9P×9[Ñ9[ñØ_eñˆDô .ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø '× ;Ñ ;ñ
ð 	
r1   c           	      óP   >• [         T
U ]  " U4UUUUUS.UD6n	US   S:X  a  XIS'   U	$ )N)rF  r  rQ   r‘  r½  r   r›   )r#   Úprepare_inputs_for_generation)r+   r~  rF  r  r›   rQ   r‘  r½  r_   Úmodel_inputsr.   s             €r/   rÅ  Ú>InternVLForConditionalGeneration.prepare_inputs_for_generationÈ  sT   ø€ ô ‘wÒ<Øð
à+Ø'Ø)Ø)Ø)ñ
ð ñ
ˆð ˜!Ñ Ó!ð ,8˜Ñ(àÐr1   )r¤  r¦  r”   )NNNNNNNNNNNNNNr   N)NNNNNN))rF   rG   rH   rI   r™  Ú_tied_weights_keysr   r$   r<  rf  r%   ÚModuler®  rm  rp  r'   rZ  r   r   rø   rš  r›  r|  Úpropertyr]  r`  ra  r   r   rœ  r–   r	   r  r   r   rA   rŸ  r>   rÅ  rJ   rK   rL   s   @r/   r£  r£    s  ø† ð "8Ø-Ø"?Ø#,ñ	&Ð"ð +Ð+Ðð˜~÷ ò1ò/ð r§y¡yô ò(ò(ð AEØ8<ñ	
à×'Ñ'ð
ð ' u¨S°$°s±)¨^Ñ'<Ñ=ð
ð )1°©õ	
ð ñ)ó ð)ð ñ'ó ð'ð ñ0ó ð0ð Øð '+Ø*.Ø15Ø37Ø+/Ø59Ø@DØ8<Ø-1Ø$(Ø,0Ø/3Ø&*Ø59Ø34Ø.2ñ#i
à×#Ñ#ði
ð ×'Ñ'ði
ð ! §¡Ñ.ð	i
ð
 ˜u×/Ñ/Ñ0ði
ð " %™ði
ð   × 1Ñ 1Ñ2ði
ð ' u¨S°$°s±)¨^Ñ'<Ñ=ði
ð )1°©ði
ð ˜×)Ñ)Ñ*ði
ð ˜D‘>ði
ð $ D™>ði
ð ' t™nði
ð ˜d‘^ði
ð ! ×!1Ñ!1Ñ2ði
ð  ˜c 5§<¡<Ð/Ñ0ð!i
ð" ˜eŸl™lÑ+ð#i
ð$ Ð+Ñ,ð%i
ð& 
ˆuÐ4Ð4Ñ	5ô'i
ó ó ði
ð\ ØØØØØ÷õ r1   r£  )r˜   r3  rD  r\  r£  )r‡   )BÚcollections.abcrÖ   Údataclassesr   Útypingr   r   r   r'   Útorch.nnr%   Úactivationsr   Úcache_utilsr	   Ú
generationr
   Úintegrationsr   Úmodeling_flash_attention_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   r   r   Úautor   Úconfiguration_internvlr   r   rÉ  r    r–   r  re   rg   r˜   r·   rº   r    rû   r7  r  rœ   r  r3  rD  rJ  rX  r\  rŸ  r£  Ú__all__r«   r1   r/   Ú<module>rÜ     s’  ðó. Ý !ß ,Ñ ,ã Ý å !Ý  Ý )Ý 7Ý BÝ 9ß dÑ dß FÝ &ß aÕ aÝ ß Hñ ˜YÓ'ôJ˜BŸI™Ió Jó (ðJð6 ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô6H˜bŸi™iô HðV ôK Oó Kó ðKð2 Ùðñô
Ð+Eó óó ðô!7 B§I¡Iô !7ôL[7˜rŸy™yô [7ô|˜Ÿ	™	ô ð Ÿ™Ð3HÑ
I€ô-/Ð4ô -/ô`#
˜BŸI™Iô #
ðL ô2
Ð7ó 2
ó ð2
ðj ô'˜oó 'ó ð'ô "§)¡)ô ð$ Ùðñô
<Ð"9ó <óó ð<ñ  ðñô
MÐ+ó Móð
Mð` Ùðñô
< [ó <óó ð<ñ2 ðñô
BÐ'>Àó Bóð
BòJr1   