ó
    <±hCm  ã                   óÐ  • S SK rS SKJr  S SKJrJrJr  S SKrS SK	J
r
  S SKrSSKJr  SSKJr  SSKJr  SSKJr  SS	KJrJr  SS
KJrJr  SSKJr  SSKJrJrJrJ r   SSK!J"r"  SSK#J$r$  SSK%J&r&  SSK'J(r(J)r)J*r*J+r+J,r,  SSK-J.r.J/r/  \R`                  " \15      r2 S@S\
Rf                  S\Rh                  S\Rh                  S\Rh                  S\\Rh                     S\5S\54S jjr6 " S S\&5      r7 " S S\$5      r8\ " S  S!\5      5       r9\\" S"S#9 " S$ S%\5      5       5       r: " S& S'\
Rf                  5      r; " S( S)\
Rf                  5      r< " S* S+\"5      r=\
R|                  \7S,.r? " S- S.\5      r@ " S/ S0\
Rf                  5      rA\ " S1 S2\95      5       rB " S3 S4\,5      rCSrD " S5 S6\
Rf                  5      rE " S7 S8\+5      rF " S9 S:\*5      rG " S; S<\(5      rH " S= S>\)5      rI/ S?QrJg)Aé    N)Ú	dataclass)ÚCallableÚOptionalÚUnioné   )ÚACT2FN)ÚCache)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPooling)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)Úauto_docstringÚcan_return_tupleÚloggingÚ	torch_inté   )ÚCLIPMLP)ÚJanusVisionAttention)ÚLlamaRMSNorm)ÚLlavaCausalLMOutputWithPastÚLlavaForConditionalGenerationÚ
LlavaModelÚLlavaModelOutputWithPastÚLlavaPreTrainedModelé   )ÚInternVLConfigÚInternVLVisionConfigÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutc                 ó¤  • UnUn	[         R                  " XR                  SS5      5      U-  n
Ub"  US S 2S S 2S S 2S UR                  S   24   nX«-   n
[        R
                  R                  U
SS9n
[        R
                  R                  X¦U R                  S9n
[         R                  " X©5      nUR                  SS5      R                  5       nXÊ4$ )Nr   r   éþÿÿÿéÿÿÿÿ©Údim)ÚpÚtrainingr   )
ÚtorchÚmatmulÚ	transposeÚshapeÚnnÚ
functionalÚsoftmaxr'   r.   Ú
contiguous)r!   r"   r#   r$   r%   r&   r'   ÚkwargsÚ
key_statesÚvalue_statesÚattn_weightsÚcausal_maskÚattn_outputs                Úe/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/internvl/modular_internvl.pyÚeager_attention_forwardr>   1   sÊ   € ð €JØ€Lä—<’< ×';Ñ';¸A¸qÓ'AÓBÀWÑL€LØÑ!Ø$¢Qªª1Ð.D°
×0@Ñ0@ÀÑ0DÐ.DÐ%DÑEˆØ#Ñ1ˆô —=‘=×(Ñ(¨¸2Ð(Ð>€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó:€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$ó    c                   ó   • \ rS rSrSrg)ÚInternVLVisionRMSNorméL   © N©Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__static_attributes__rC   r?   r=   rA   rA   L   ó   † Úr?   rA   c            
       ó    ^ • \ rS rSrS\4U 4S jjr  S
S\R                  S\\R                     S\\R                     S\	\
   4S jjrS	rU =r$ )ÚInternVLVisionAttentionéP   Úconfigc                 ó0  >• [         TU ]  5         U ?SU l        UR                  nU(       a  [        U R                  5      O[        R                  " 5       U l	        U(       a  [        U R                  5      U l
        g [        R                  " 5       U l
        g ©NF)ÚsuperÚ__init__Únum_key_value_groupsÚ	is_causalÚuse_qk_normrA   Ú	embed_dimr3   ÚIdentityÚq_normÚk_norm)ÚselfrN   Úqk_normÚ	__class__s      €r=   rR   Ú InternVLVisionAttention.__init__Q   sb   ø€ Ü‰ÑÔØÐ%ð ˆŒØ×$Ñ$ˆæ?FÔ+¨D¯N©NÔ;ÌBÏKÊKËMˆŒÞ?FÔ+¨D¯N©NÓ;ˆÌBÏKÊKËMˆr?   Úhidden_statesr%   Úoutput_attentionsr7   c                 óª  • UR                  5       u  pVnU R                  U5      nU R                  U5      n	U R                  U5      n
U R	                  U5      nU R                  U	5      n	UR                  XVU R                  U R                  5      R                  SS5      nU	R                  XVU R                  U R                  5      R                  SS5      n	U
R                  XVU R                  U R                  5      R                  SS5      n
[        nU R                  R                  S:w  a  [        U R                  R                     nU" U UU	U
U4U R                  (       d  SOU R                   U R"                  SS.UD6u  pÍUR                  XVU R$                  5      nU R'                  U5      nU R)                  U5      nU(       a  Xí4nU$ US 4nU$ )Nr   r   Úeagerç        F)r'   r&   rT   )ÚsizeÚq_projÚk_projÚv_projrX   rY   ÚreshapeÚ	num_headsÚhead_dimr1   Úviewr>   rN   Ú_attn_implementationr   r.   Úattention_dropoutÚscalerV   Úprojection_layerÚprojection_dropout)rZ   r^   r%   r_   r7   Ú
batch_sizeÚseq_lenÚ_Úquery_statesr8   r9   Úattention_interfacer<   r:   ÚoutputÚoutputss                   r=   ÚforwardÚInternVLVisionAttention.forward\   s¯  € ð "/×!3Ñ!3Ó!5Ñˆ
˜Qà—{‘{ =Ó1ˆØ—[‘[ Ó/ˆ
Ø—{‘{ =Ó1ˆà—{‘{ <Ó0ˆØ—[‘[ Ó,ˆ
à#×+Ñ+¨JÀÇÁÐQU×Q^ÑQ^Ó_×iÑiÐjkÐmnÓoˆØ×'Ñ'¨
¸T¿^¹^ÈTÏ]É]Ó[×eÑeÐfgÐijÓkˆ
Ø#×(Ñ(¨¸d¿n¹nÈdÏmÉmÓ\×fÑfÐghÐjkÓlˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð
%
ð  $Ÿ}Ÿ}‘C°$×2HÑ2HØ—J‘JØñ
%
ð ñ
%
Ñ!ˆð "×)Ñ)¨*¸t¿~¹~ÓNˆà×&Ñ& {Ó3ˆØ×(Ñ(¨Ó0ˆæ,=6Ð(ˆØˆð EKÈDÀ>ˆØˆr?   )rT   rY   rX   ©NN)rE   rF   rG   rH   r    rR   r/   ÚTensorr   r   r
   rw   rI   Ú__classcell__©r\   s   @r=   rL   rL   P   sf   ø† ð	ZÐ3÷ 	Zð 26Ø48ñ	)à—|‘|ð)ð ! §¡Ñ.ð)ð $ E§L¡LÑ1ð	)ð
 Ð-Ñ.÷)ó )r?   rL   c                   óV   ^ • \ rS rSr% \\S'   SrSrSrS/r	Sr
SrSrSrU 4S jrSrU =r$ )	ÚInternVLVisionPreTrainedModeléˆ   rN   Úinternvl_visionÚpixel_valuesTÚInternVLVisionLayerc                 ón  >• [         TU ]  U5        [        U[        5      (       aˆ  UR                  R
                  R                  5         UR                  b$  UR                  R
                  R                  5         UR                  b%  UR                  R
                  R                  5         gg[        U[        5      (       as  UR                  R
                  R                  U R                  R                  5        UR                  R
                  R                  U R                  R                  5        gg)zInitialize the weightsN)rQ   Ú_init_weightsÚ
isinstanceÚInternVLVisionEmbeddingsÚ	cls_tokenÚdataÚzero_Ú
mask_tokenÚposition_embeddingsr‚   Úlambda_1Úfill_rN   Úlayer_scale_init_valueÚlambda_2)rZ   r!   r\   s     €r=   r„   Ú+InternVLVisionPreTrainedModel._init_weights”   sÚ   ø€ ä‰Ñ˜fÔ%ÜfÔ6×7Ñ7Ø×Ñ×!Ñ!×'Ñ'Ô)Ø× Ñ Ñ,Ø×!Ñ!×&Ñ&×,Ñ,Ô.Ø×)Ñ)Ñ5Ø×*Ñ*×/Ñ/×5Ñ5Õ7ð 6ä˜Ô 3×4Ñ4ØO‰O× Ñ ×&Ñ& t§{¡{×'IÑ'IÔJØO‰O× Ñ ×&Ñ& t§{¡{×'IÑ'IÕJð 5r?   rC   )rE   rF   rG   rH   r    Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_sdpaÚ_supports_flash_attnÚ_supports_flex_attnÚ_supports_attention_backendr„   rI   r{   r|   s   @r=   r~   r~   ˆ   sF   ø‡ à Ó Ø)ÐØ$€OØ&*Ð#Ø.Ð/ÐØ€NØÐØÐØ"&Ð÷Kó Kr?   r~   z7
    Class for outputs of [`InternVLVisionModel`].
    )Úcustom_introc                   ó   • \ rS rSrSrSrg)Ú$InternVLVisionModelOutputWithPoolingé¢   a2  
pooler_output (`torch.FloatTensor` of shape `(batch_size, hidden_size)`):
    Average of the last layer hidden states of the patch tokens (excluding the *[CLS]* token) if
    *config.use_mean_pooling* is set to True. If set to False, then the final hidden state of the *[CLS]* token
    will be returned.
rC   N)rE   rF   rG   rH   Ú__doc__rI   rC   r?   r=   rœ   rœ   ¢   s   † ôr?   rœ   c                   óf   ^ • \ rS rSrSrU 4S jrS\R                  S\R                  4S jrSr	U =r
$ )ÚInternVLVisionPatchEmbeddingsé±   zÜ
This class turns `pixel_values` of shape `(batch_size, num_channels, height, width)` into the initial
`hidden_states` (patch embeddings) of shape `(batch_size, seq_length, hidden_size)` to be consumed by a
Transformer.
c                 óH  >• [         TU ]  5         UR                  UR                  p2UR                  UR
                  pTUS   US   -  US   US   -  -  nUS   US   -  US   US   -  4nX l        X0l        X@l        X`l        Xpl        [        R                  " XEX3S9U l
        g )Nr   r   )Úkernel_sizeÚstride)rQ   rR   Ú
image_sizeÚ
patch_sizeÚnum_channelsÚhidden_sizeÚnum_patchesÚpatch_shaper3   ÚConv2dÚ
projection)	rZ   rN   r¥   r¦   r§   r¨   r©   rª   r\   s	           €r=   rR   Ú&InternVLVisionPatchEmbeddings.__init__¸   s¬   ø€ Ü‰ÑÔØ!'×!2Ñ!2°F×4EÑ4EJØ$*×$7Ñ$7¸×9KÑ9Kkà! !‘}¨
°1©Ñ5¸*ÀQ¹-È:ÐVWÉ=Ñ:XÑYˆØ! !‘}¨
°1©Ñ5°zÀ!±}È
ÐSTÉÑ7UÐVˆØ$ŒØ$ŒØ(ÔØ&ÔØ&ÔäŸ)š) LÈ:Ñiˆr?   r   Úreturnc                 óü   • UR                   u  p#pEX0R                  :w  a  [        S5      eU R                  U5      nUR                   S   UR                   S   p‡UR	                  S5      R                  SS5      nXgU44$ )NzeMake sure that the channel dimension of the pixel values match with the one set in the configuration.r   r   r   )r2   r§   Ú
ValueErrorr¬   Úflattenr1   )	rZ   r   rp   r§   ÚheightÚwidthÚ
embeddingsÚpatch_heightÚpatch_widths	            r=   rw   Ú%InternVLVisionPatchEmbeddings.forwardÇ   s†   € Ø2>×2DÑ2DÑ/ˆ
 &Ø×,Ñ,Ó,ÜØwóð ð —_‘_ \Ó2ˆ
Ø$.×$4Ñ$4°QÑ$7¸×9IÑ9IÈ!Ñ9LkØ×'Ñ'¨Ó*×4Ñ4°Q¸Ó:ˆ
à¨+Ð6Ð6Ð6r?   )r¥   r§   r©   rª   r¦   r¬   )rE   rF   rG   rH   rž   rR   r/   rz   rw   rI   r{   r|   s   @r=   r    r    ±   s.   ø† ñõjð7 E§L¡Lð 7°U·\±\÷ 7ò 7r?   r    c                   óØ   ^ • \ rS rSrSrS\SS4U 4S jjrS\R                  S\	S	\	S\R                  4S
 jr
 SS\R                  S\\R                     S\R                  4S jjrSrU =r$ )r†   é×   z[
Construct the CLS token, position and patch embeddings. Optionally, also the mask token.

rN   r®   Nc                 ó^  >• [         TU ]  5         [        R                  " [        R
                  " SSUR                  5      5      U l        UR                  (       a<  [        R                  " [        R
                  " SSUR                  5      5      U l	        OS U l	        [        U5      U l        UR                  U l        [        UR                  [        R                   R"                  5      (       a  UR                  OUR                  UR                  4U l        U R                  R$                  nUR&                  (       a?  [        R                  " [        R
                  " SUS-   UR                  5      5      U l        OS U l        [        R*                  " UR,                  5      U l        g )Nr   )rQ   rR   r3   Ú	Parameterr/   Úzerosr¨   r‡   Úuse_mask_tokenrŠ   r    Úpatch_embeddingsr¦   r…   r¥   ÚcollectionsÚabcÚIterabler©   Ú use_absolute_position_embeddingsr‹   ÚDropoutÚhidden_dropout_probr'   )rZ   rN   r©   r\   s      €r=   rR   Ú!InternVLVisionEmbeddings.__init__Ý   s'  ø€ Ü‰ÑÔäŸš¤e§k¢k°!°Q¸×8JÑ8JÓ&KÓLˆŒØ× × Ü Ÿlšl¬5¯;ª;°q¸!¸V×=OÑ=OÓ+PÓQˆDOà"ˆDŒOÜ =¸fÓ EˆÔØ ×+Ñ+ˆŒô ˜&×+Ñ+¬[¯_©_×-EÑ-E×FÑFð ×Òà×#Ñ# V×%6Ñ%6Ð7ð 	Œð
 ×+Ñ+×7Ñ7ˆØ×2×2Ü')§|¢|´E·K²KÀÀ;ÐQRÁ?ÐTZ×TfÑTfÓ4gÓ'hˆDÕ$à'+ˆDÔ$Ü—z’z &×"<Ñ"<Ó=ˆr?   r´   r²   r³   c                 ó¨  • UR                   S   S-
  nU R                  R                   S   S-
  n[        R                  R	                  5       (       d  XE:X  a  X#:X  a  U R                  $ U R                  SS2SS24   nU R                  SS2SS24   nUR                   S   nX R
                  S   -  n	X0R
                  S   -  n
[        US-  5      nUR                  SX»U5      nUR                  SSSS5      n[        R                  R                  UXš4SS	S
9nUR                  SSSS5      R                  SSU5      n[        R                  " Xg4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   Nr*   r   ç      à?r   r   ÚbicubicF)rc   ÚmodeÚalign_cornersr+   )r2   r‹   r/   ÚjitÚ
is_tracingr¦   r   rg   Úpermuter3   r4   Úinterpolaterj   Úcat)rZ   r´   r²   r³   r©   Únum_positionsÚclass_pos_embedÚpatch_pos_embedr,   Ú
new_heightÚ	new_widthÚsqrt_num_positionss               r=   Úinterpolate_pos_encodingÚ1InternVLVisionEmbeddings.interpolate_pos_encodingó   s]  € ð !×&Ñ& qÑ)¨AÑ-ˆØ×0Ñ0×6Ñ6°qÑ9¸AÑ=ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×+Ñ+Ð+à×2Ñ2²1°b°q°b°5Ñ9ˆØ×2Ñ2²1°a±b°5Ñ9ˆà×Ñ˜rÑ"ˆàŸ™¨qÑ1Ñ1ˆ
ØŸ_™_¨QÑ/Ñ/ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr?   r   Úbool_masked_posc                 óà  • UR                   u    p4nU R                  U5      u  nu  pxUR                  5       u  pšnUbI  U R                  R	                  XšS5      nUR                  S5      R                  U5      nUSU-
  -  X¼-  -   nU R                  R	                  U	SS5      n[        R                  " XÖ4SS9nU R                  b  X`R                  XdU5      -   nU R                  U5      nXgU44$ )Nr*   r   r+   )r2   r¾   rc   rŠ   ÚexpandÚ	unsqueezeÚtype_asr‡   r/   rÏ   r‹   rÖ   r'   )rZ   r   rØ   rr   r²   r³   r´   rµ   r¶   rp   rq   Úmask_tokensÚwÚ
cls_tokenss                 r=   rw   Ú InternVLVisionEmbeddings.forward  sô   € ð
 +×0Ñ0Ñˆˆ1eØ26×2GÑ2GÈÓ2UÑ/ˆ
Ñ/\Ø!+§¡Ó!2Ñˆ
˜QàÑ&ØŸ/™/×0Ñ0°ÀbÓIˆKà×)Ñ)¨"Ó-×5Ñ5°kÓBˆAØ# q¨1¡uÑ-°±Ñ?ˆJà—^‘^×*Ñ*¨:°r¸2Ó>ˆ
Ü—Y’Y 
Ð7¸QÑ?ˆ
à×#Ñ#Ñ/Ø#×&CÑ&CÀJÐX]Ó&^Ñ^ˆJà—\‘\ *Ó-ˆ
à¨+Ð6Ð6Ð6r?   )r‡   r'   r¥   rŠ   r¾   r¦   r‹   ©N)rE   rF   rG   rH   rž   r    rR   r/   rz   ÚintrÖ   r   Ú
BoolTensorrw   rI   r{   r|   s   @r=   r†   r†   ×   s   ø† ñð
>Ð3ð >¸÷ >ð,&D°5·<±<ð &DÈð &DÐUXð &DÐ]b×]iÑ]iô &DðV 7;ñ7à—l‘lð7ð " %×"2Ñ"2Ñ3ð7ð 
‰÷	7ó 7r?   r†   c                   ó   • \ rS rSrSrg)ÚInternVLVisionMLPi5  rC   NrD   rC   r?   r=   rå   rå   5  rJ   r?   rå   )Ú
layer_normÚrms_normc                   ó¾   ^ • \ rS rSrSrS\SS4U 4S jjr SS\R                  S\	S\
\\R                     \\R                  \R                  4   4   4S	 jjrS
rU =r$ )r‚   i<  z?This corresponds to the Block class in the timm implementation.rN   r®   Nc                 ó¤  >• [         TU ]  5         UR                  U l        SU l        [	        U5      U l        [        U5      U l        [        UR                     " UR                  UR                  S9U l        [        UR                     " UR                  UR                  S9U l        UR                  n[        R                   " U["        R$                  " UR                  5      -  SS9U l        [        R                   " U["        R$                  " UR                  5      -  SS9U l        [        R*                  " UR,                  5      U l        g )Nr   ©ÚepsT)Úrequires_grad)rQ   rR   Úchunk_size_feed_forwardÚseq_len_dimrL   Ú	attentionrå   ÚmlpÚNORM2FNÚ	norm_typer¨   Úlayer_norm_epsÚlayernorm_beforeÚlayernorm_afterrŽ   r3   r»   r/   ÚonesrŒ   r   rÃ   rÄ   r'   )rZ   rN   Úinit_valuesr\   s      €r=   rR   ÚInternVLVisionLayer.__init__?  sù   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ0°Ó8ˆŒÜ$ VÓ,ˆŒä '¨×(8Ñ(8Ò 9¸&×:LÑ:LÐRX×RgÑRgÑ hˆÔÜ& v×'7Ñ'7Ò8¸×9KÑ9KÐQW×QfÑQfÑgˆÔà×3Ñ3ˆÜŸš [´5·:²:¸f×>PÑ>PÓ3QÑ%QÐaeÑfˆŒÜŸš [´5·:²:¸f×>PÑ>PÓ3QÑ%QÐaeÑfˆŒÜ—z’z &×"<Ñ"<Ó=ˆr?   r^   r_   c                 ó  • U R                  U R                  U5      US9u  p4U R                  U-  nX1-   nU R                  U5      nU R	                  U5      nU R                  U5      nU R                  b  U R                  U-  nXQ-   nXT4$ )N)r_   )rï   rô   rŒ   rõ   rð   r'   r   )rZ   r^   r_   Úattention_outputÚattention_weightsÚlayer_outputs         r=   rw   ÚInternVLVisionLayer.forwardN  s¡   € ð
 /3¯n©nØ×!Ñ! -Ó0Ø/ð /=ð /
Ñ+Ðð
  Ÿ=™=Ð+;Ñ;Ðð )Ñ8ˆð ×+Ñ+¨MÓ:ˆà—x‘x Ó-ˆØ—|‘| LÓ1ˆà=‰=Ñ$ØŸ=™=¨<Ñ7ˆLð $Ñ3ˆàÐ.Ð.r?   )	rï   rí   r'   rŒ   r   rõ   rô   rð   rî   )F)rE   rF   rG   rH   rž   r    rR   r/   rz   Úboolr   Útuplerw   rI   r{   r|   s   @r=   r‚   r‚   <  sn   ø† ÙIð>Ð3ð >¸÷ >ð$ #(ñ/à—|‘|ð/ð  ð/ð 
ˆuU—\‘\Ñ" E¨%¯,©,¸¿¹Ð*DÑ$EÐEÑ	F÷	/ó /r?   r‚   c                   ó~   ^ • \ rS rSrS\SS4U 4S jjr\  SS\R                  S\	S\	S\
\\4   4S	 jj5       rS
rU =r$ )ÚInternVLVisionEncoderil  rN   r®   Nc                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf rP   )
rQ   rR   rN   r3   Ú
ModuleListÚrangeÚnum_hidden_layersr‚   ÚlayerÚgradient_checkpointing)rZ   rN   Úir\   s      €r=   rR   ÚInternVLVisionEncoder.__init__m  sS   ø€ Ü‰ÑÔØŒÜ—]’]ÌÈv×OgÑOgÔIhÓ#iÑIhÀAÔ$7¸Ö$?ÑIhÑ#iÓjˆŒ
Ø&+ˆÕ#ùò $js   ½A%r^   r_   Úoutput_hidden_statesc                 óì   • U(       a  SOS nU(       a  SOS n[        U R                  5       H/  u  pgU(       a  XA4-   nU" X5      nUS   nU(       d  M'  XXS   4-   nM1     U(       a  XA4-   n[        UUUS9$ )NrC   r   r   ©Úlast_hidden_stater^   Ú
attentions)Ú	enumerater  r   )	rZ   r^   r_   r
  Úall_hidden_statesÚall_self_attentionsr  Úlayer_moduleÚlayer_outputss	            r=   rw   ÚInternVLVisionEncoder.forwards  sŽ   € ö #7™B¸DÐÞ$5™b¸4Ðä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!á(¨ÓJˆMà)¨!Ñ,ˆMç Ð Ø&9È1Ñ=MÐ<OÑ&OÒ#ñ  5ö  Ø 1Ð4DÑ DÐäØ+Ø+Ø*ñ
ð 	
r?   )rN   r  r  )FF)rE   rF   rG   rH   r    rR   r   r/   rz   rþ   r   rÿ   r   rw   rI   r{   r|   s   @r=   r  r  l  sg   ø† ð,Ð3ð ,¸÷ ,ð ð #(Ø%*ñ	
à—|‘|ð
ð  ð
ð #ð	
ð
 
ˆuoÐ%Ñ	&ô
ó ö
r?   r  c                   óº   ^ • \ rS rSrS\SS4U 4S jjrS r\\   SS\	R                  S\\	R                     S	\\   S
\\   S\\\4   4
S jj5       5       rSrU =r$ )ÚInternVLVisionModeli’  rN   r®   Nc                 ó8  >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        UR                  (       a  [        R                  " 5       O([        R                  " UR                  UR                  S9U l        U R                  5         g )Nrê   )rQ   rR   rN   r†   r´   r  ÚencoderÚuse_mean_poolingr3   rW   Ú	LayerNormr¨   ró   Ú	layernormÚ	post_init©rZ   rN   r\   s     €r=   rR   ÚInternVLVisionModel.__init__”  sm   ø€ Ü‰Ñ˜Ô ØŒä2°6Ó:ˆŒÜ,¨VÓ4ˆŒð $×4×4ŒBKŠKŒM¼"¿,º,Àv×GYÑGYÐ_e×_tÑ_tÑ:uð 	Œð
 	‰Õr?   c                 ó.   • U R                   R                  $ rá   )r´   r¾   )rZ   s    r=   Úget_input_embeddingsÚ(InternVLVisionModel.get_input_embeddings¢  s   € Ø‰×/Ñ/Ð/r?   r   rØ   r_   r
  c                 ó  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU R                  XS9u  pVU R	                  UUUS9nUS   nU R                  U5      n[        UUR                  UR                  S9$ )z³
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, num_patches)`, *optional*):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).
)rØ   )r_   r
  r   r  )	rN   r_   r
  r´   r  r  rœ   r^   r  )	rZ   r   rØ   r_   r
  Úembedding_outputrr   Úencoder_outputsÚsequence_outputs	            r=   rw   ÚInternVLVisionModel.forward¥  s¨   € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð #Ÿo™o¨l˜oÐ\ÑÐàŸ,™,ØØ/Ø!5ð 'ð 
ˆð
 *¨!Ñ,ˆØŸ.™.¨Ó9ˆä3Ø-Ø)×7Ñ7Ø&×1Ñ1ñ
ð 	
r?   )rN   r´   r  r  )NNN)rE   rF   rG   rH   r    rR   r   r   r   r/   rz   r   rã   rþ   r   rÿ   rœ   rw   rI   r{   r|   s   @r=   r  r  ’  s•   ø† ðÐ3ð ¸÷ ò0ð Øð 7;Ø,0Ø/3ñ
à—l‘lð
ð " %×"2Ñ"2Ñ3ð
ð $ D™>ð	
ð
 ' t™nð
ð 
ˆuÐ:Ð:Ñ	;ô
ó ó ö
r?   r  c                   ó   • \ rS rSrSrg)ÚInternVLPreTrainedModeliÈ  rC   NrD   rC   r?   r=   r(  r(  È  rJ   r?   r(  c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )ÚInternVLMultiModalProjectoriÏ  rN   c                 ó0  >• [         TU ]  5         [        R                  " UR                  R
                  [        SUR                  -  5      S-  -  5      U l        [        R                  " UR                  R
                  [        SUR                  -  5      S-  -  UR                  R
                  5      U l        [        UR                     U l        [        R                  " UR                  R
                  UR                  R
                  5      U l        g )Nr   r   )rQ   rR   r3   r  Úvision_configr¨   râ   Údownsample_ratioræ   ÚLinearÚtext_configÚlinear_1r   Úprojector_hidden_actÚactÚlinear_2r  s     €r=   rR   Ú$InternVLMultiModalProjector.__init__Ð  sÍ   ø€ Ü‰ÑÔÜŸ,š, v×';Ñ';×'GÑ'GÌ#ÈaÐRX×RiÑRiÑNiÓJjÐnoÑJoÑ'oÓpˆŒÜŸ	š	Ø× Ñ ×,Ñ,¬s°1°v×7NÑ7NÑ3NÓ/OÐSTÑ/TÑTÐV\×VhÑVh×VtÑVtó
ˆŒô ˜&×5Ñ5Ñ6ˆŒÜŸ	š	 &×"4Ñ"4×"@Ñ"@À&×BTÑBT×B`ÑB`Óaˆr?   c                 óŽ   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ rá   )ræ   r0  r2  r3  )rZ   Úimage_featuresr^   s      r=   rw   Ú#InternVLMultiModalProjector.forwardÙ  s@   € ØŸ™¨Ó7ˆØŸ™ mÓ4ˆØŸ™ Ó/ˆØŸ™ mÓ4ˆØÐr?   )r2  ræ   r0  r3  )	rE   rF   rG   rH   r   rR   rw   rI   r{   r|   s   @r=   r*  r*  Ï  s   ø† ðb˜~÷ b÷ð r?   r*  c                   ó   • \ rS rSrSrg)ÚInternVLModelOutputWithPastiá  rC   NrD   rC   r?   r=   r9  r9  á  rJ   r?   r9  c            #       óÞ  • \ rS rSrSS\R
                  S\4S jjr  SS\R                  S\	\
\\\   4      S\	\   4S	 jjr\\             SS
\R"                  S\R                  S\	\R
                     S\	\R"                     S\	\   S\	\R                     S\	\
\\\   4      S\	\   S\	\   S\	\   S\	\   S\	\   S\	\R"                     S\\   S\
\\4   4S jj5       5       rSrg)ÚInternVLModeliå  Úvision_featuresÚscale_factorc           
      ó¬  • UR                  5       u  p4pVXR-  S:w  d  XB-  S:w  a  [        S5      eUR                  X4[        XR-  5      [        Xb-  5      5      nUR	                  SSSS5      R                  5       nUR                  U[        XR-  5      [        XB-  5      [        XbS-  -  5      5      nUR	                  SSSS5      R                  5       nU$ )aÞ  Perform pixel shuffle downsampling on vision features.

Args:
    vision_features (`torch.Tensor`):
        Input tensor of shape (batch_size, width, height, channels).
    scale_factor (`float`, *optional*, defaults to `0.5`):
        Factor by which to downsample. Default is 0.5, which halves the dimensions.

Returns:
    vision_features (`torch.Tensor`):
        Downsampled tensor of shape (batch_size, height*scale_factor, width*scale_factor, channels/(scale_factor^2)).
r   zKHeight and width must be divisible by scale_factor for proper downsampling.r   r   r   )rc   r°   rj   râ   rÍ   r6   )rZ   r<  r=  rp   r³   r²   Úchannelss          r=   Úpixel_shuffleÚInternVLModel.pixel_shuffleæ  sã   € ð />×.BÑ.BÓ.DÑ+ˆ
˜6àÑ  AÓ%¨Ñ)=ÀÓ)BÜÐjÓkÐkð *×.Ñ.Øœs 6Ñ#8Ó9¼3¸xÑ?VÓ;Wó
ˆð *×1Ñ1°!°Q¸¸1Ó=×HÑHÓJˆð *×.Ñ.Øœ˜FÑ1Ó2´C¸Ñ8LÓ4MÌsÐS[ÐmnÑ_nÑSoÓOpó
ˆð
 *×1Ñ1°!°Q¸¸1Ó=×HÑHÓJˆàÐr?   Nr   Úvision_feature_layerÚvision_feature_select_strategyc                 ó<  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU R                   R                  nUS:X  a  U R	                  US9R
                  nOU R                  US9R                  U   nUS:X  a  USS2SS2SS24   nUR                  S   n[        US-  5      nUR                  S   n	UR                  X˜US5      nU R                  XeS9nUR                  U	SUR                  S   5      nU R                  U5      nU$ )	aÝ  
Obtains image last hidden states from the vision tower and apply multimodal projection.

Args:
    pixel_values (`torch.FloatTensor]` of shape `(batch_size, channels, height, width)`)
       The tensors corresponding to the input images.
    vision_feature_layer (`int` or `list[int]`):
        Layer index or list of layer indices to extract features from.
Returns:
    vision_features (`torch.Tensor`): Image feature tensor of shape `(num_images, image_length, embed_dim)`.
Nr*   )r   Údefaultr   rÇ   r   )r=  )rN   rB  rC  r-  Úvision_towerr  Úvision_modelr^   r2   râ   rg   r@  Úmulti_modal_projector)
rZ   r   rB  rC  r7   r-  r<  r?  Úfeature_sizerp   s
             r=   Úget_image_featuresÚ InternVLModel.get_image_features	  s?  € ð& %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð
 .Ñ9ñ +à—‘×;Ñ;ð 	'ð  Ÿ;™;×7Ñ7ÐØ 2Ó%Ø"×/Ñ/¸\Ð/ÐJ×\Ñ\‰Oà"×/Ñ/¸\Ð/ÐJ×XÑXÐYmÑnˆOØ)¨YÓ6Ø-ªa°±²Q¨hÑ7ˆOð #×(Ñ(¨Ñ+ˆÜ˜8 S™=Ó)ˆØ$×*Ñ*¨1Ñ-ˆ
ð *×1Ñ1°*ÈLÐZ\Ó]ˆð ×,Ñ,¨_Ð,Ð\ˆð *×1Ñ1°*¸bÀ/×BWÑBWÐXZÑB[Ó\ˆð ×4Ñ4°_ÓEˆØÐr?   Ú	input_idsr%   Úposition_idsÚpast_key_valuesÚinputs_embedsÚ	use_cacher_   r
  Úreturn_dictÚcache_positionr7   r®   c                 óÜ  • U
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R
                  nUS L US L-  (       a  [        S5      eUc  U R                  5       " U5      nUbY  U R                  UUUS9nUR                  UR                  UR                  5      nU R                  XUS9nUR                  UU5      nU R                  " SUUUUU	U
USUS.	UD6n[        UR                   UR"                  UR$                  UR&                  Ub  WS9$ S S9$ )Nz:You must specify exactly one of input_ids or inputs_embeds)r   rB  rC  )rO  r6  T)	r%   rM  rN  rO  rP  r_   r
  rQ  rR  )r  rN  r^   r  Úimage_hidden_statesrC   )rN   r_   r
  Úuse_return_dictrB  rC  r°   r   rJ  ÚtoÚdeviceÚdtypeÚget_placeholder_maskÚmasked_scatterÚlanguage_modelr9  r  rN  r^   r  )rZ   rL  r   r%   rM  rN  rO  rB  rC  rP  r_   r
  rQ  rR  r7   r6  Úspecial_image_maskrv   s                     r=   rw   ÚInternVLModel.forward>  s¾  € ð& 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð
 .Ñ9ñ +à—‘×;Ñ;ð 	'ð ˜Ð -°tÐ";×<ÜÐYÓZÐZàÑ Ø ×5Ñ5Ô7¸	ÓBˆMàÑ#Ø!×4Ñ4Ø)Ø%9Ø/Mð 5ð ˆNð
 ,×.Ñ.¨}×/CÑ/CÀ]×EXÑEXÓYˆNØ!%×!:Ñ!:ØÀ~ð ";ð "Ðð *×8Ñ8Ð9KÈ^Ó\ˆMà×%Ò%ð 
Ø)Ø%Ø+Ø'ØØ/Ø!5ØØ)ñ
ð ñ
ˆô +Ø%×7Ñ7Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø2>Ñ2J ñ
ð 	
ð
 QUñ
ð 	
r?   rC   )rÇ   ry   )NNNNNNNNNNNNN)rE   rF   rG   rH   r/   rz   Úfloatr@  ÚFloatTensorr   r   râ   ÚlistÚstrrJ  r   r   Ú
LongTensorr	   rþ   r   r
   rÿ   r9  rw   rI   rC   r?   r=   r;  r;  å  s½  † ñ!¨U¯\©\ð !Èõ !ðL AEØ8<ñ	3à×'Ñ'ð3ð ' u¨S°$°s±)¨^Ñ'<Ñ=ð3ð )1°©õ	3ðj Øð '+Ø*.Ø15Ø37Ø+/Ø59Ø@DØ8<Ø$(Ø,0Ø/3Ø&*Ø59ñD
à×#Ñ#ðD
ð ×'Ñ'ðD
ð ! §¡Ñ.ð	D
ð
 ˜u×/Ñ/Ñ0ðD
ð " %™ðD
ð   × 1Ñ 1Ñ2ðD
ð ' u¨S°$°s±)¨^Ñ'<Ñ=ðD
ð )1°©ðD
ð ˜D‘>ðD
ð $ D™>ðD
ð ' t™nðD
ð ˜d‘^ðD
ð ! ×!1Ñ!1Ñ2ðD
ð Ð-Ñ.ðD
ð  
ˆuÐ1Ð1Ñ	2ô!D
ó ó óD
r?   r;  c                   ó   • \ rS rSrSrg)ÚInternVLCausalLMOutputWithPasti‡  rC   NrD   rC   r?   r=   rd  rd  ‡  rJ   r?   rd  c                   ó(   ^ • \ rS rSrU 4S jrSrU =r$ )Ú InternVLForConditionalGenerationi‹  c                  ó:   >• [        5       R                  " S0 U D6  g)ay  
Example:

```python
>>> import torch
>>> from transformers import AutoProcessor, AutoModelForImageTextToText

>>> torch_device = "cuda"
>>> processor = AutoProcessor.from_pretrained("OpenGVLab/InternVL3-1B-hf")
>>> model = AutoModelForImageTextToText.from_pretrained(
...     "OpenGVLab/InternVL3-1B-hf", torch_dtype=torch.bfloat16, device_map=torch_device
... )

>>> messages = [
...     {
...         "role": "user",
...         "content": [
...             {
...                 "type": "image",
...                 "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg",
...             },
...             {
...                 "type": "image",
...                 "url": "https://thumbs.dreamstime.com/b/golden-gate-bridge-san-francisco-purple-flowers-california-echium-candicans-36805947.jpg",
...             },
...             {"type": "text", "text": "These images depict two different landmarks. Can you identify them?"},
...         ],
...     },
... ]

>>> inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(torch_device)
>>> generate_ids = model.generate(**inputs, max_new_tokens=200)
>>> print(processor.decode(generate_ids[0, inputs["input_ids"].shape[1] :], skip_special_tokens=True))
The images depict the Statue of Liberty and the Golden Gate Bridge.
```NrC   )rQ   rw   )Úsuper_kwargsr\   s    €r=   rw   Ú(InternVLForConditionalGeneration.forwardŒ  s   ø€ ôH 	‹ŠÑ'˜,Ó'r?   rC   )rE   rF   rG   rH   rw   rI   r{   r|   s   @r=   rf  rf  ‹  s   ø† ÷$(ó $(r?   rf  )r~   r  r(  r;  rf  )rb   )KÚcollections.abcr¿   Údataclassesr   Útypingr   r   r   r/   Útorch.nnr3   Útorch.utils.checkpointÚactivationsr   Úcache_utilsr	   Úmodeling_flash_attention_utilsr
   Úmodeling_layersr   Úmodeling_outputsr   r   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   r   Úclip.modeling_clipr   Újanus.modeling_janusr   Úllama.modeling_llamar   Úllava.modeling_llavar   r   r   r   r   Úconfiguration_internvlr   r    Ú
get_loggerrE   ÚloggerÚModulerz   r^  r>   rA   rL   r~   rœ   r    r†   rå   r  rñ   r‚   r  r  r(  ÚINTERNVL_INPUTS_DOCSTRINGr*  r9  r;  rd  rf  Ú__all__rC   r?   r=   Ú<module>r     s  ðó" Ý !ß ,Ñ ,ã Ý Û å !Ý  Ý BÝ 9ß Kß FÝ &ß IÓ IÝ (Ý 7Ý /÷õ ÷ Ið 
×	Ò	˜HÓ	%€ð ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô6	˜Lô 	ô5Ð2ô 5ðp ôK Oó Kó ðKð2 Ùðñô
Ð+Eó óó ðô!7 B§I¡Iô !7ôL[7˜rŸy™yô [7ô|	˜ô 	ð Ÿ™Ð3HÑ
I€ô-/Ð4ô -/ô`#
˜BŸI™Iô #
ðL ô2
Ð7ó 2
ó ð2
ôj	Ð2ô 	ð !Ð ô "§)¡)ô ô$	Ð":ô 	ô_
Jô _
ôD	Ð%@ô 	ô%(Ð'Dô %(òPr?   