ó
    <±h¤j  ã                   ó‚  • S SK JrJrJr  S SKrS SKJr  SSKJr  SSK	J
r
  SSKJr  SSKJrJr  SSKJrJr  SS	KJr  SS
KJrJrJr  SSKJr   " S S\R6                  5      r " S S\R6                  5      r " S S\R6                  5      r S4S\R6                  S\R>                  S\R>                  S\R>                  S\\R>                     S\ S\ S\\   4S jjr!S r"S\R>                  S\#S\R>                  4S  jr$S!\R>                  S"\R>                  S#\R>                  S$\R>                  S\%\R>                  \R>                  4   4
S% jr& " S& S'\R6                  5      r' " S( S)\5      r( " S* S+\R6                  5      r) " S, S-\R6                  5      r*\ " S. S/\5      5       r+\" S0S19 " S2 S3\+5      5       r,S/S3/r-g)5é    )ÚCallableÚOptionalÚUnionNé   )ÚACT2FN)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPooling)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)ÚTransformersKwargsÚauto_docstringÚ	torch_inté   )ÚMLCDVisionConfigc                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚMLCDMLPé$   c                 ó  >• [         TU ]  5         Xl        [        UR                     U l        [        R                  " UR                  UR                  5      U l
        [        R                  " UR                  UR                  5      U l        g ©N)ÚsuperÚ__init__Úconfigr   Ú
hidden_actÚactivation_fnÚnnÚLinearÚhidden_sizeÚintermediate_sizeÚfc1Úfc2©Úselfr   Ú	__class__s     €Ú^/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/mlcd/modeling_mlcd.pyr   ÚMLCDMLP.__init__%   sb   ø€ Ü‰ÑÔØŒÜ# F×$5Ñ$5Ñ6ˆÔÜ—9’9˜V×/Ñ/°×1IÑ1IÓJˆŒÜ—9’9˜V×5Ñ5°v×7IÑ7IÓJˆó    Úhidden_statesÚreturnc                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ r   )r"   r   r#   )r%   r*   s     r'   ÚforwardÚMLCDMLP.forward,   s4   € ØŸ™ Ó/ˆØ×*Ñ*¨=Ó9ˆØŸ™ Ó/ˆØÐr)   )r   r   r"   r#   )
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r   ÚtorchÚTensorr-   Ú__static_attributes__Ú__classcell__©r&   s   @r'   r   r   $   s)   ø† õKð U§\¡\ð °e·l±l÷ ò r)   r   c                   óf   ^ • \ rS rSrSS\S\SS4U 4S jjjrS\S\S\R                  4S	 jr	S
r
U =r$ )ÚMLCDRotaryEmbeddingé3   ÚdimÚthetar+   Nc           	      ó    >• [         TU ]  5         SU[        R                  " SUS[        R                  S9U-  -  -  nU R                  SUSS9  g )Nç      ð?r   é   ©ÚdtypeÚinv_freqF©Ú
persistent)r   r   r3   ÚarangeÚfloatÚregister_buffer)r%   r;   r<   rB   r&   s       €r'   r   ÚMLCDRotaryEmbedding.__init__4   sK   ø€ Ü‰ÑÔØ˜%¤E§L¢L°°C¸Ä%Ç+Á+Ñ$NÐQTÑ$TÑUÑVˆØ×Ñ˜Z¨¸eÐÒDr)   Únum_patches_heightÚnum_patches_widthc                 ó~  • [         R                  " XR                  R                  S9R	                  S5      R                  SU5      n[         R                  " X R                  R                  S9R	                  S5      R                  US5      n[         R                  " UR                  5       UR                  5       /SS9n[        X5      n[         R                  " X`R                  R                  U R                  R                  S9n[         R                  " XpR                  5      nX…   R                  S5      n	U	$ )aE  
Calculate the Rotary Position Embedding (RoPE) for MLCDVisionModel based on the grid size.

Args:
    num_patches_height (int): Number of patches in the height dimension.
    num_patches_width (int): Number of patches in the width dimension.

Returns:
    torch.Tensor: Rotary positional embeddings for the given grid size.
)Údevicer   éÿÿÿÿr   ©r;   )rL   rA   )r3   rE   rB   rL   Ú	unsqueezeÚexpandÚstackÚflattenÚmaxrA   Úouter)
r%   rI   rJ   Úhpos_idsÚwpos_idsÚpos_idsÚmax_grid_sizeÚseqÚrotary_pos_emb_fullÚrotary_pos_embs
             r'   r-   ÚMLCDRotaryEmbedding.forward9   sü   € ô LŠLÐ+·M±M×4HÑ4HÑI×SÑSÐTUÓV×]Ñ]Ð^`ÐbsÓtð 	ô LŠLÐ*·=±=×3GÑ3GÑH×RÑRÐSTÓU×\Ñ\Ð]oÐqsÓtð 	ô
 —+’+˜x×/Ñ/Ó1°8×3CÑ3CÓ3EÐFÈBÑOˆô Ð.ÓBˆÜlŠl˜=·±×1EÑ1EÈTÏ]É]×M`ÑM`ÑaˆÜ#Ÿkšk¨#¯}©}Ó=Ðð -Ñ5×=Ñ=¸aÓ@ˆàÐr)   © )g     ˆÃ@)r/   r0   r1   r2   ÚintrF   r   r3   r4   r-   r5   r6   r7   s   @r'   r9   r9   3   sJ   ø† ñE˜Cð E¨ð E¸D÷ Eð Eð
¨#ð À#ð È%Ï,É,÷ ò r)   r9   c                   ó¬   ^ • \ rS rSrS\4U 4S jjrS\R                  S\S\S\R                  4S jr	S	\R                  S\R                  4S
 jrSrU =r$ )ÚMLCDVisionEmbeddingséZ   r   c                 óv  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        UR                  U l        [        R                  " [        R                  " U R                  5      5      U l        [        R                  " UR                  U R                  U R                  U R                  SS9U l        U R
                  U R                  -  S-  U l        U R                  S-   U l        U R#                  S[        R$                  " U R                   5      R'                  S5      SS9  g )NF)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚbiasr?   r   Úposition_ids)r   rM   rC   )r   r   r   r    Ú	embed_dimÚ
image_sizeÚ
patch_sizer   Ú	Parameterr3   ÚrandnÚclass_embeddingÚConv2dÚnum_channelsÚpatch_embeddingÚnum_patchesÚnum_positionsrG   rE   rP   r$   s     €r'   r   ÚMLCDVisionEmbeddings.__init__[   sê   ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ ×+Ñ+ˆŒØ ×+Ñ+ˆŒä!Ÿ|š|¬E¯KªK¸¿¹Ó,GÓHˆÔä!ŸyšyØ×+Ñ+ØŸ™ØŸ™Ø—?‘?Øñ 
ˆÔð !ŸO™O¨t¯©Ñ>À1ÑDˆÔØ!×-Ñ-°Ñ1ˆÔØ×Ñ˜^¬U¯\ª\¸$×:LÑ:LÓ-M×-TÑ-TÐU\Ó-]ÐjoÐÒpr)   Ú
embeddingsÚheightÚwidthr+   c                 óÈ  • UR                   S   S-
  nU R                  R                  R                  S5      nUR                   S   S-
  n[        R
                  R                  5       (       d%  XF:X  a   X#:X  a  U R                  U R                  5      $ USS2SS24   nUSS2SS24   nUR                   S   n	X R                  -  n
X0R                  -  n[        US-  5      nUR                  SXÌU	5      nUR                  SSSS5      n[        R                  R                  UX«4SS	S
9nUR                  SSSS5      R                  SSU	5      n[        R                   " Xx4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   r   NrM   g      à?r   r?   ÚbicubicF)ÚsizeÚmodeÚalign_cornersrN   )ÚshapeÚposition_embeddingÚweightrO   r3   ÚjitÚ
is_tracingrh   rk   r   ÚreshapeÚpermuter   Ú
functionalÚinterpolateÚviewÚcat)r%   ru   rv   rw   rr   r~   rs   Úclass_pos_embedÚpatch_pos_embedr;   Ú
new_heightÚ	new_widthÚsqrt_num_positionss                r'   Úinterpolate_pos_encodingÚ-MLCDVisionEmbeddings.interpolate_pos_encodingp   si  € ð !×&Ñ& qÑ)¨AÑ-ˆØ!×4Ñ4×;Ñ;×EÑEÀaÓHÐØ*×0Ñ0°Ñ3°aÑ7ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×*Ñ*¨4×+<Ñ+<Ó=Ð=à,ªQ°°°¨UÑ3ˆØ,ªQ°±¨UÑ3ˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ
ØŸ_™_Ñ,ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr)   Úpixel_valuesc                 óH  • UR                   S   nU R                  R                  R                  nU R                  UR	                  US95      nUR                  S5      R                  SS5      nU R                  R                  USS5      n[        R                  " XT/SS9nU$ )Nr   r@   r?   r   rM   rN   )r}   rq   r   rA   ÚtorR   Ú	transposern   rP   r3   r‡   )r%   r   Ú
batch_sizeÚtarget_dtypeÚpatch_embedsÚclass_embedsru   s          r'   r-   ÚMLCDVisionEmbeddings.forward™   s”   € Ø!×'Ñ'¨Ñ*ˆ
Ø×+Ñ+×2Ñ2×8Ñ8ˆà×+Ñ+¨L¯O©OÀ,¨OÐ,OÓPˆØ#×+Ñ+¨AÓ.×8Ñ8¸¸AÓ>ˆà×+Ñ+×2Ñ2°:¸qÀ"ÓEˆÜ—Y’Y Ð;ÀÑCˆ
àÐr)   )rn   r   ri   rj   rr   rs   rq   rk   )r/   r0   r1   r2   r   r   r3   r4   r^   r   ÚFloatTensorr-   r5   r6   r7   s   @r'   r`   r`   Z   sg   ø† ðqÐ/÷ qð*'D°5·<±<ð 'DÈð 'DÐUXð 'DÐ]b×]iÑ]iô 'DðR
 E×$5Ñ$5ð 
¸%¿,¹,÷ 
ò 
r)   r`   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutÚkwargsc                 ó@  • [        X R                  5      n[        X0R                  5      n	[        R                  " XR	                  SS5      5      U-  n
Ub"  US S 2S S 2S S 2S UR
                  S   24   nX«-   n
[        R                  R                  U
S[        R                  S9R                  UR                  5      n
[        R                  R                  X¦U R                  S9n
[        R                  " X©5      nUR	                  SS5      R                  5       nXÊ4$ )Nr?   r   éþÿÿÿrM   )r;   rA   )ÚpÚtrainingr   )Ú	repeat_kvÚnum_key_value_groupsr3   Úmatmulr’   r}   r   r„   ÚsoftmaxÚfloat32r‘   rA   rŸ   r¤   Ú
contiguous)r™   rš   r›   rœ   r   rž   rŸ   r    Ú
key_statesÚvalue_statesÚattn_weightsÚcausal_maskÚattn_outputs                r'   Úeager_attention_forwardr°   ¦   sö   € ô ˜3× ;Ñ ;Ó<€JÜ˜U×$?Ñ$?Ó@€Lä—<’< ×';Ñ';¸A¸qÓ'AÓBÀWÑL€LØÑ!Ø$¢Qªª1Ð.D°
×0@Ñ0@ÀÑ0DÐ.DÐ%DÑEˆØ#Ñ1ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó:€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r)   c                 ó–   • U SSU R                   S   S-  24   nU SU R                   S   S-  S24   n[        R                  " U* U4SS9$ )z*Rotates half the hidden dims of the input..NrM   r?   rN   )r}   r3   r‡   )ÚxÚx1Úx2s      r'   Úrotate_halfrµ   À   sZ   € à	
ˆ3Ð"!—'‘'˜"‘+ Ñ"Ð"Ð"Ñ	#€BØ	
ˆ3—‘˜‘˜qÑ Ñ"Ð"Ñ	#€BÜ9Š9rc˜2Y BÑ'Ð'r)   r*   Ún_repr+   c                 ó    • U R                   u  p#pEUS:X  a  U $ U SS2SS2SSS2SS24   R                  X#XU5      n U R                  X#U-  XE5      $ )zÈ
This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
r   N)r}   rP   r‚   )r*   r¶   ÚbatchÚnum_key_value_headsÚslenÚhead_dims         r'   r¥   r¥   Ç   s_   € ð
 2?×1DÑ1DÑ.€E ØƒzØÐØ!¢!¢Q¨ªa²Ð"2Ñ3×:Ñ:¸5ÐW\ÐdlÓm€MØ× Ñ  ¸eÑ(CÀTÓTÐTr)   ÚqÚkÚcosÚsinc                 ó€  • U R                   nUR                   nU R                  5       UR                  5       pUR                  S5      R                  5       UR                  S5      R                  5       p2X-  [        U 5      U-  -   nX-  [        U5      U-  -   nUR	                  U5      nUR	                  U5      nXg4$ )Nr¢   )rA   rF   rO   rµ   r‘   )r¼   r½   r¾   r¿   Úorig_q_dtypeÚorig_k_dtypeÚq_embedÚk_embeds           r'   Úapply_rotary_pos_emb_visionrÅ   Ó   s£   € ð —7‘7€LØ—7‘7€LØ7‰7‹9a—g‘g“i€qØ}‰}˜RÓ ×&Ñ&Ó(¨#¯-©-¸Ó*;×*AÑ*AÓ*CˆØ‰wœ; q›>¨CÑ/Ñ0€GØ‰wœ; q›>¨CÑ/Ñ0€GØj‰j˜Ó&€GØj‰j˜Ó&€GØÐÐr)   c                   óö   ^ • \ rS rSrSrS\4U 4S jjr SS\R                  S\	\R                  \R                  4   S\
\R                     S\\   S	\	\R                  \
\R                     4   4
S
 jjrSrU =r$ )ÚMLCDAttentionéá   zëMulti-headed attention with RoPE. Refer to papers:
- Attention is all you need:
    https://huggingface.co/papers/1706.03762
- RoFormer: Enhanced Transformer with Rotary Position Embedding:
    https://huggingface.co/papers/2104.09864
r   c                 óB  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        U R                  U R                  -  U l        U R                  U R                  -  U R                  :w  a&  [        SU R                   SU R                   S35      eU R                  S-  U l	        UR                  U l        SU l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        UR&                  U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).ç      à¿F)r   r   r   r    ri   Únum_attention_headsÚ	num_headsr»   Ú
ValueErrorÚscaleÚattention_dropoutrŸ   Ú	is_causalr   r   Úk_projÚv_projÚq_projÚout_projr¦   r$   s     €r'   r   ÚMLCDAttention.__init__é   s&  ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒØ=‰=˜4Ÿ>™>Ñ)¨T¯^©^Ó;ÜØMÈdÏnÉnÐM]ð ^Ø—N‘NÐ# 2ð'óð ð —]‘] DÑ(ˆŒ
Ø×/Ñ/ˆŒØˆŒä—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜŸ	š	 $§.¡.°$·.±.ÓAˆŒØ$*×$?Ñ$?ˆÕ!r)   r*   Úposition_embeddingsr   r    r+   c                 ó²  • UR                   SS u  pVU R                  U5      R                  XVU R                  U R                  45      nU R                  U5      R                  XVU R                  U R                  45      nU R                  U5      R                  XVU R                  U R                  45      n	US   R                  S5      R                  5       n
US   R                  S5      R                  5       n[        XxX«5      u  pxUR                  SSSS5      R                  5       nUR                  SSSS5      R                  5       nU	R                  SSSS5      R                  5       n	[        nU R                  R                  S:w  a  [        U R                  R                     nU" U UUU	U4U R                   (       d  SOU R"                  U R$                  U R&                  S	.UD6u  pÞUR                  SSSS5      R                  5       nUR)                  XeS5      nU R+                  U5      nUR                  SSS5      R                  5       nXÞ4$ )
z#Input shape: Batch x Time x ChannelNrM   r   r   r?   r   Úeagerç        )rŸ   rž   rÐ   )r}   rÓ   r‚   rÌ   r»   rÑ   rÒ   rO   rF   rÅ   rƒ   rª   r°   r   Ú_attn_implementationr   r¤   rŸ   rÎ   rÐ   r†   rÔ   )r%   r*   rÖ   r   r    r“   Ú
seq_lengthÚquery_statesr«   r¬   r¾   r¿   Úattention_interfacer¯   r­   s                  r'   r-   ÚMLCDAttention.forwardþ   s0  € ð "/×!4Ñ!4°S°bÐ!9Ñˆ
ð —{‘{ =Ó1×9Ñ9¸:ÐSW×SaÑSaÐcg×cpÑcpÐ:qÓrˆØ—[‘[ Ó/×7Ñ7¸ÐQU×Q_ÑQ_Ðae×anÑanÐ8oÓpˆ
Ø—{‘{ =Ó1×9Ñ9¸:ÐSW×SaÑSaÐcg×cpÑcpÐ:qÓrˆð " !Ñ$×.Ñ.¨qÓ1×7Ñ7Ó9ˆØ! !Ñ$×.Ñ.¨qÓ1×7Ñ7Ó9ˆÜ#>¸|ÐY\Ó#bÑ ˆð $×+Ñ+¨A¨q°!°QÓ7×BÑBÓDˆØ×'Ñ'¨¨1¨a°Ó3×>Ñ>Ó@ˆ
Ø#×+Ñ+¨A¨q°!°QÓ7×BÑBÓDˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð
%
ð  $Ÿ}Ÿ}‘C°$·,±,Ø—J‘JØ—n‘nñ
%
ð ñ
%
Ñ!ˆð "×)Ñ)¨!¨Q°°1Ó5×@Ñ@ÓBˆØ!×&Ñ& z¸rÓBˆØ—m‘m KÓ0ˆØ!×)Ñ)¨!¨Q°Ó2×=Ñ=Ó?ˆØÐ(Ð(r)   )r   rŸ   ri   r»   rÐ   rÑ   rÌ   r¦   rÔ   rÓ   rÎ   rÒ   r   )r/   r0   r1   r2   Ú__doc__r   r   r3   r4   Útupler   r   r   r-   r5   r6   r7   s   @r'   rÇ   rÇ   á   s’   ø† ñð@Ð/÷ @ð2 26ñ	-)à—|‘|ð-)ð # 5§<¡<°·±Ð#=Ñ>ð-)ð ! §¡Ñ.ð	-)ð
 Ð-Ñ.ð-)ð 
ˆu|‰|˜X e§l¡lÑ3Ð3Ñ	4÷-)ó -)r)   rÇ   c                   óÖ   ^ • \ rS rSrS\4U 4S jjr  SS\R                  S\\R                  \R                  4   S\	\R                     S\	\
   S\\R                     4
S	 jjrS
rU =r$ )ÚMLCDEncoderLayeri.  r   c                 ó<  >• [         TU ]  5         UR                  U l        [	        U5      U l        [        R                  " U R                  UR                  S9U l	        [        U5      U l        [        R                  " U R                  UR                  S9U l        g )N©Úeps)r   r   r    ri   rÇ   Ú	self_attnr   Ú	LayerNormÚlayer_norm_epsÚlayer_norm1r   ÚmlpÚlayer_norm2r$   s     €r'   r   ÚMLCDEncoderLayer.__init__/  sl   ø€ Ü‰ÑÔØ×+Ñ+ˆŒÜ& vÓ.ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÔÜ˜6“?ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÕr)   r*   rÖ   r   Úoutput_attentionsr+   c                 óÊ   • UnU R                  U5      nU R                  UUUUS9u  pXQ-   nUnU R                  U5      nU R                  U5      nXQ-   nU4nU(       a  Xv4-  nU$ )a;  
Args:
    hidden_states (`torch.FloatTensor`):
        Input to the layer of shape `(batch, seq_len, embed_dim)`.
        Represents the hidden states from the previous layer or the input embeddings.
    position_embeddings (`tuple[torch.Tensor, torch.Tensor]`):
        A tuple of two tensors, each of shape `(batch, seq_len, embed_dim)`.
        Represents absolute positional embeddings for the query and key in the attention mechanism.
    attention_mask (`torch.FloatTensor`):
        Attention mask of shape `(batch, 1, q_len, k_v_seq_len)` where padding elements are indicated by very large negative values.
    output_attentions (`bool`, *optional*, defaults to `False`):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
©r*   rÖ   r   rí   )ré   ræ   rë   rê   )r%   r*   rÖ   r   rí   Úresidualr­   Úoutputss           r'   r-   ÚMLCDEncoderLayer.forward7  sŠ   € ð* !ˆà×(Ñ(¨Ó7ˆØ&*§n¡nØ'Ø 3Ø)Ø/ð	 '5ð '
Ñ#ˆð !Ñ0ˆà ˆØ×(Ñ(¨Ó7ˆØŸ™ Ó/ˆØ Ñ0ˆà Ð"ˆæØÑ&ˆGàˆr)   )ri   ré   rë   rê   ræ   )NF)r/   r0   r1   r2   r   r   r3   r4   rà   r   Úboolr˜   r-   r5   r6   r7   s   @r'   râ   râ   .  s‚   ø† ðSÐ/÷ Sð 26Ø,1ñ*à—|‘|ð*ð # 5§<¡<°·±Ð#=Ñ>ð*ð ! §¡Ñ.ð	*ð
 $ D™>ð*ð 
ˆu× Ñ Ñ	!÷*ó *r)   râ   c                   óâ   ^ • \ rS rSrSrS\4U 4S jjr    SS\R                  S\	\R                  \R                  4   S\\R                     S\\   S	\\   S
\\   S\\	\4   4S jjrSrU =r$ )ÚMLCDEncoderid  zŸ
Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a
[`MLCDEncoderLayer`].

Args:
    config: MLCDVisionConfig
r   c                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        gs  snf )z3Overwrite dummy `MLCDConfig` to `MLCDVisionConfig`.FN)
r   r   r   r   Ú
ModuleListÚrangeÚnum_hidden_layersrâ   ÚlayersÚgradient_checkpointing)r%   r   Ú_r&   s      €r'   r   ÚMLCDEncoder.__init__m  sS   ø€ ä‰ÑÔØŒÜ—m’mÄuÈV×MeÑMeÔGfÓ$gÑGfÀ!Ô%5°fÖ%=ÑGfÑ$gÓhˆŒØ&+ˆÕ#ùò %hs   ½A%Úinputs_embedsrÖ   r   rí   Úoutput_hidden_statesÚreturn_dictr+   c                 óÊ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU(       a  SOSnU(       a  SOSnUn	[	        U R
                  5       H0  u  p«U(       a  Xy4-   nU" U	UUUS9nUS   n	U(       d  M(  XŒS   4-   nM2     U(       a  Xy4-   nU(       d  [        S X—U4 5       5      $ [        U	UUS9$ )aº  
Args:
    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
        Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.
        This is useful if you want more control over how to convert `input_ids` indices into associated vectors
        than the model's internal embedding lookup matrix.
    position_embeddings (`tuple[torch.Tensor, torch.Tensor]`):
        A tuple of two tensors, each of shape `(batch, seq_len, embed_dim)`.
        Represents absolute positional embeddings for the query and key in the attention mechanism.
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:
        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.
        [What are attention masks?](../glossary#attention-mask)
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
Nr]   rï   r   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr   r]   )Ú.0Úvs     r'   Ú	<genexpr>Ú&MLCDEncoder.forward.<locals>.<genexpr>²  s   é € ÐeÑ$S˜qŸ™Ò$Sùs   ‚‹	)Úlast_hidden_stater*   Ú
attentions)r   rÿ   Úuse_return_dictrí   Ú	enumeraterú   rà   r
   )r%   rþ   rÖ   r   rí   rÿ   r   Úencoder_statesÚall_attentionsr*   ÚidxÚencoder_layerÚlayer_outputss                r'   r-   ÚMLCDEncoder.forwardt  s  € ðD %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐæ3™¸ˆÞ0™°dˆà%ˆÜ"+¨D¯K©KÖ"8ÑˆCÞ#Ø!/Ð2BÑ!BÙ)Ø+Ø$7Ø-Ø"3ñ	ˆMð *¨!Ñ,ˆMç Ð Ø!/ÀÑ3CÐ2EÑ!E’ñ #9ö  Ø+Ð.>Ñ>ˆNæÜÑe ]ÀNÑ$SÓeÓeÐeÜØ+Ø(Ø%ñ
ð 	
r)   )r   rû   rú   ©NNNN)r/   r0   r1   r2   rß   r   r   r3   r˜   rà   r4   r   ró   r   r
   r-   r5   r6   r7   s   @r'   rõ   rõ   d  s±   ø† ñð,Ð/÷ ,ð 26Ø,0Ø/3Ø&*ñC
à×(Ñ(ðC
ð # 5§<¡<°·±Ð#=Ñ>ðC
ð ! §¡Ñ.ð	C
ð
 $ D™>ðC
ð ' t™nðC
ð ˜d‘^ðC
ð 
ˆuoÐ%Ñ	&÷C
ó C
r)   rõ   c                   óš   ^ • \ rS rSrS\4U 4S jjr\    SS\\R                     S\\
   S\\
   S\\
   S\\\4   4
S	 jj5       rS
rU =r$ )ÚMLCDVisionTransformeriº  r   c                 óú  >• [         TU ]  5         Xl        UR                  n[	        U5      U l        [        R                  " X!R                  S9U l	        [        U5      U l        [        R                  " X!R                  S9U l        [        UR                  UR                  -  S-  5      U l        [        R                   " ["        R$                  " SUR                  UR                  -  S-  5      5      U l        g )Nrä   r?   r   )r   r   r   r    r`   ru   r   rç   rè   Úpre_layrnormrõ   ÚencoderÚpost_layernormr9   rË   Úvision_rotary_embeddingrl   r3   rm   Úclass_pos_emb)r%   r   ri   r&   s      €r'   r   ÚMLCDVisionTransformer.__init__»  s¼   ø€ Ü‰ÑÔØŒØ×&Ñ&ˆ	ä.¨vÓ6ˆŒÜŸLšL¨×8MÑ8MÑNˆÔÜ" 6Ó*ˆŒÜ Ÿlšl¨9×:OÑ:OÑPˆÔÜ':¸6×;MÑ;MÐQW×QkÑQkÑ;kÐopÑ;pÓ'qˆÔ$ÜŸ\š\¬%¯+ª+°a¸×9KÑ9KÈv×OiÑOiÑ9iÐmnÑ9nÓ*oÓpˆÕr)   r   rí   rÿ   r   r+   c                 ó€  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eUR
                  S   U R                   R                  -  nUR
                  S   U R                   R                  -  nU R                  XV5      nUR                  U R                  R                  5      n[        R                  " U R                  U/SS9n[        R                  " Xw4SS9nUR                  5       UR                  5       4n	U R                  U5      n
U R!                  U
5      n
U R#                  U
U	UUUS9nUS   nUS S 2SS S 24   nU R%                  U5      nU(       d	  XÍ4USS  -   $ ['        UUUR(                  UR*                  S9$ )	Nz You have to specify pixel_valuesr¢   rM   r   rN   )rþ   rÖ   rí   rÿ   r   r   )r  Úpooler_outputr*   r  )r   rÿ   r	  rí   rÍ   r}   rk   r  r‘   r  rL   r3   r‡   r¾   r¿   ru   r  r  r  r   r*   r  )r%   r   rí   rÿ   r   rI   rJ   r[   ÚembrÖ   r*   Úencoder_outputsr  Úpooled_outputs                 r'   r-   ÚMLCDVisionTransformer.forwardÇ  s¿  € ð %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐàÑÜÐ?Ó@Ð@à)×/Ñ/°Ñ3°t·{±{×7MÑ7MÑMÐØ(×.Ñ.¨rÑ2°d·k±k×6LÑ6LÑLÐØ×5Ñ5Ð6HÓ\ˆØ'×*Ñ*¨4×+=Ñ+=×+DÑ+DÓEˆÜŸš D×$6Ñ$6¸Ð#GÈQÑOˆÜiŠi˜Ð8¸bÑAˆØ"Ÿw™w›y¨#¯'©'«)Ð4ÐàŸ™¨Ó5ˆØ×)Ñ)¨-Ó8ˆàŸ,™,Ø'Ø 3Ø/Ø!5Ø#ð 'ð 
ˆð ,¨AÑ.ÐØ)ª!¨Q²¨'Ñ2ˆØ×+Ñ+¨MÓ:ˆæØ%Ð5¸ÈÈÐ8KÑKÐKä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r)   )r  r   ru   r  r  r  r  r  )r/   r0   r1   r2   r   r   r   r   r3   r˜   ró   r   rà   r   r-   r5   r6   r7   s   @r'   r  r  º  s†   ø† ð
qÐ/÷ 
qð ð 59Ø,0Ø/3Ø&*ñ/
à˜u×0Ñ0Ñ1ð/
ð $ D™>ð/
ð ' t™nð	/
ð
 ˜d‘^ð/
ð 
ˆuÐ0Ð0Ñ	1ô/
ó ö/
r)   r  c                   ó6   • \ rS rSr% \\S'   SrSrSrSr	S r
Srg)ÚMLCDPreTrainedModeliú  r   ÚmlcdTc                 óT  • U R                   R                  n[        U[        5      (       a™  U R                   R                  n[        R
                  R                  UR                  SUR                  S-  U-  S9  [        R
                  R                  UR                  R                  UR                   R                  U-  S9  g[        U[        5      (       Ga   U R                   R                  nUR                  S-  SUR                   R                  -  S-  -  U-  nUR                  S-  U-  n[        R
                  R                  UR                  R                  US9  [        R
                  R                  UR                  R                  US9  [        R
                  R                  UR                   R                  US9  [        R
                  R                  UR"                  R                  US9  g[        U[$        5      (       aÓ  U R                   R                  nUR                   R&                  S-  SUR                   R                  -  S-  -  U-  nSUR                   R&                  -  S-  U-  n[        R
                  R                  UR(                  R                  US9  [        R
                  R                  UR*                  R                  US9  g[        U[,        5      (       av  U R                   R                  nUR                   R&                  UR                   R.                  -  S-  S-  U-  n[        R
                  R                  UR0                  SUS9  g[        U[        R2                  5      (       aJ  UR4                  R6                  R9                  5         UR                  R6                  R;                  S5        g[        U[        R<                  5      (       a3  UR4                  b%  UR4                  R6                  R9                  5         ggg)zInitialize the weightsrÙ   rÊ   )ÚmeanÚstd)r&  r?   r>   N)r   Úinitializer_factorÚ
isinstancer`   r   ÚinitÚnormal_rn   ri   rq   r   Úinitializer_rangerÇ   rù   rÓ   rÑ   rÒ   rÔ   r   r    r"   r#   r  rË   r  rç   rg   ÚdataÚzero_Úfill_r   )r%   r™   ÚfactorÚin_proj_stdÚout_proj_stdÚfc_stdÚpos_emb_stds          r'   Ú_init_weightsÚ!MLCDPreTrainedModel._init_weights  sð  € à—‘×/Ñ/ˆÜfÔ2×3Ñ3Ø—[‘[×3Ñ3ˆFÜG‰GO‰O˜F×2Ñ2¸À&×BRÑBRÐTXÑBXÐ[aÑBaˆOÑbÜG‰GO‰O˜F×2Ñ2×9Ñ9¸v¿}¹}×?^Ñ?^ÐagÑ?gˆOÒhÜ˜¤×.Ò.Ø—[‘[×3Ñ3ˆFØ!×+Ñ+¨TÑ1°q¸6¿=¹=×;ZÑ;ZÑ7ZÐ_cÑ6cÑdÐgmÑmˆKØ"×,Ñ,¨dÑ2°fÑ<ˆLÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸO™O×2Ñ2¸ˆOÒEÜ˜¤×(Ñ(Ø—[‘[×3Ñ3ˆFØ!Ÿ=™=×4Ñ4°dÑ:ÀÀFÇMÁM×DcÑDcÑ@cÐhlÑ?lÑmÐpvÑvˆKØ˜&Ÿ-™-×3Ñ3Ñ3¸Ñ<¸vÑEˆFÜG‰GO‰O˜FŸJ™J×-Ñ-°6ˆOÑ:ÜG‰GO‰O˜FŸJ™J×-Ñ-°;ˆOÒ?Ü˜Ô 5×6Ñ6Ø—[‘[×3Ñ3ˆFØ!Ÿ=™=×4Ñ4¸¿¹×8YÑ8YÑYÐ]^Ñ^ÐcgÑgÐjpÑpˆKÜG‰GO‰O˜F×0Ñ0°sÀˆOÒLÜ˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤§	¡	×*Ñ*¨v¯{©{Ñ/FØK‰K×Ñ×"Ñ"Õ$ð 0GÐ*r)   r]   N)r/   r0   r1   r2   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_supports_flash_attnÚ_supports_sdpar4  r5   r]   r)   r'   r"  r"  ú  s$   ‡ àÓØÐØ&*Ð#ØÐØ€Nõ%r)   r"  zN
    The vision model from M_L_C_D without any head or projection on top.
    )Úcustom_introc                   óÒ   ^ • \ rS rSr% \\S'   SrS/rS\4U 4S jjrS\	R                  4S jr\    SS\\R                     S\\   S	\\   S
\\   S\\\4   4
S jj5       rSrU =r$ )ÚMLCDVisionModeli"  r   r   râ   c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g r   )r   r   r  Úvision_modelÚ	post_initr$   s     €r'   r   ÚMLCDVisionModel.__init__,  s'   ø€ Ü‰Ñ˜Ô Ü1°&Ó9ˆÔà‰Õr)   r+   c                 óB   • U R                   R                  R                  $ r   )r?  ru   rq   )r%   s    r'   Úget_input_embeddingsÚ$MLCDVisionModel.get_input_embeddings2  s   € Ø× Ñ ×+Ñ+×;Ñ;Ð;r)   rí   rÿ   r   c                 óÈ   • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  UUUUS9$ )a"  
Example:

```python
>>> import requests
>>> from PIL import Image
>>> from transformers import AutoProcessor, MLCDVisionModel
>>> model = MLCDVisionModel.from_pretrained("DeepGlint-AI/mlcd-vit-bigG-patch14-448")
>>> processor = AutoProcessor.from_pretrained("DeepGlint-AI/mlcd-vit-bigG-patch14-448")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(images=image, return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs, output_attentions=True)

>>> features = outputs.last_hidden_state
>>> print(f"Extracted features shape: {features.shape}")
>>> print(f"Number of attention layers: {len(outputs.attentions)}")
>>> print(f"Attention shape: {outputs.attentions[0].shape}")
```)r   rí   rÿ   r   )r   rÿ   r	  rí   r?  )r%   r   rí   rÿ   r   s        r'   r-   ÚMLCDVisionModel.forward5  su   € ð> %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà× Ñ Ø%Ø/Ø!5Ø#ð	 !ð 
ð 	
r)   )r?  r  )r/   r0   r1   r2   r   r6  Úmain_input_nameÚ_no_split_modulesr   r   ÚModulerC  r   r   r3   r˜   ró   r   rà   r   r-   r5   r6   r7   s   @r'   r=  r=  "  sª   ø‡ ð ÓØ$€OØ+Ð,ÐðÐ/÷ ð< b§i¡iô <ð ð 59Ø,0Ø/3Ø&*ñ(
à˜u×0Ñ0Ñ1ð(
ð $ D™>ð(
ð ' t™nð	(
ð
 ˜d‘^ð(
ð 
ˆuÐ0Ð0Ñ	1ô(
ó ö(
r)   r=  )rÙ   ).Útypingr   r   r   r3   Útorch.nnr   Úactivationsr   Úmodeling_flash_attention_utilsr   Úmodeling_layersr	   Úmodeling_outputsr
   r   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   Úconfiguration_mlcdr   rI  r   r9   r`   r4   rF   r°   rµ   r^   r¥   rà   rÅ   rÇ   râ   rõ   r  r"  r=  Ú__all__r]   r)   r'   Ú<module>rU     sæ  ð÷* -Ñ ,ã Ý å !Ý BÝ 9ß Kß FÝ &ß BÑ BÝ 0ôˆbi‰iô ô$˜"Ÿ)™)ô $ôNI˜2Ÿ9™9ô Iðf ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð ð%ð Ð'Ñ(õ%ò4(ð	U˜UŸ\™\ð 	U°#ð 	U¸%¿,¹,ô 	UðØ‡||ðØŸ™ðØ+0¯<©<ðØ>C¿l¹lðà
ˆ5<‰<˜Ÿ™Ð%Ñ&ôôJ)B—I‘Iô J)ôZ3Ð1ô 3ôlS
"—)‘)ô S
ôl=
˜BŸI™Iô =
ð@ ô$%˜/ó $%ó ð$%ñN ðñô
7
Ð)ó 7
óð
7
ðt !Ð"3Ð
4r)   