ó
    <±h'…  ã                   ó®  • S r SSKrSSKrSSKJrJrJr  SSKrSSK	rSSKJ
r
  SSKJrJrJr  SSKJr  SSKJr  SS	KJrJrJrJr  SS
KJrJr  SSKJrJr  SSKJrJ r J!r!  SSK"J#r#  \ RH                  " \%5      r& " S S\
RN                  5      r( " S S\
RN                  5      r) S7S\
RN                  S\RT                  S\RT                  S\RT                  S\\RT                     S\+S\+4S jjr, " S S\
RN                  5      r- " S S\
RN                  5      r. " S S \
RN                  5      r/ " S! S"\
RN                  5      r0 " S# S$\
RN                  5      r1 " S% S&\5      r2 " S' S(\
RN                  5      r3\ " S) S*\5      5       r4\ " S+ S,\45      5       r5 " S- S.\
RN                  5      r6\" S/S09 " S1 S2\45      5       r7\" S3S09 " S4 S5\45      5       r8/ S6Qr9g)8zPyTorch ViT model.é    N)ÚCallableÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPoolingÚImageClassifierOutputÚMaskedImageModelingOutput)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)Ú find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚloggingÚ	torch_inté   )Ú	ViTConfigc            	       óæ   ^ • \ rS rSrSrSS\S\SS4U 4S jjjrS\R                  S	\
S
\
S\R                  4S jr  SS\R                  S\\R                     S\S\R                  4S jjrSrU =r$ )ÚViTEmbeddingsé+   zZ
Construct the CLS token, position and patch embeddings. Optionally, also the mask token.
ÚconfigÚuse_mask_tokenÚreturnNc                 ó`  >• [         TU ]  5         [        R                  " [        R
                  " SSUR                  5      5      U l        U(       a6  [        R                  " [        R                  " SSUR                  5      5      OS U l	        [        U5      U l        U R                  R                  n[        R                  " [        R
                  " SUS-   UR                  5      5      U l        [        R                  " UR                  5      U l        UR"                  U l        Xl        g )Nr   )ÚsuperÚ__init__r   Ú	ParameterÚtorchÚrandnÚhidden_sizeÚ	cls_tokenÚzerosÚ
mask_tokenÚViTPatchEmbeddingsÚpatch_embeddingsÚnum_patchesÚposition_embeddingsÚDropoutÚhidden_dropout_probÚdropoutÚ
patch_sizer   )Úselfr   r   r,   Ú	__class__s       €Ú\/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/vit/modeling_vit.pyr"   ÚViTEmbeddings.__init__0   sÈ   ø€ Ü‰ÑÔäŸš¤e§k¢k°!°Q¸×8JÑ8JÓ&KÓLˆŒÞQ_œ"Ÿ,š,¤u§{¢{°1°a¸×9KÑ9KÓ'LÔMÐeiˆŒÜ 2°6Ó :ˆÔØ×+Ñ+×7Ñ7ˆÜ#%§<¢<´·²¸A¸{ÈQ¹ÐPV×PbÑPbÓ0cÓ#dˆÔ Ü—z’z &×"<Ñ"<Ó=ˆŒØ ×+Ñ+ˆŒØó    Ú
embeddingsÚheightÚwidthc                 óœ  • UR                   S   S-
  nU R                  R                   S   S-
  n[        R                  R	                  5       (       d  XE:X  a  X#:X  a  U R                  $ U R                  SS2SS24   nU R                  SS2SS24   nUR                   S   nX R
                  -  n	X0R
                  -  n
[        US-  5      nUR                  SX»U5      nUR                  SSSS5      n[        R                  R                  UXš4SS	S
9nUR                  SSSS5      R                  SSU5      n[        R                  " Xg4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   Néÿÿÿÿç      à?r   r
   é   ÚbicubicF)ÚsizeÚmodeÚalign_corners©Údim)Úshaper-   r$   ÚjitÚ
is_tracingr1   r   ÚreshapeÚpermuter   Ú
functionalÚinterpolateÚviewÚcat)r2   r7   r8   r9   r,   Únum_positionsÚclass_pos_embedÚpatch_pos_embedrC   Ú
new_heightÚ	new_widthÚsqrt_num_positionss               r4   Úinterpolate_pos_encodingÚ&ViTEmbeddings.interpolate_pos_encoding<   sS  € ð !×&Ñ& qÑ)¨AÑ-ˆØ×0Ñ0×6Ñ6°qÑ9¸AÑ=ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×+Ñ+Ð+à×2Ñ2²1°b°q°b°5Ñ9ˆØ×2Ñ2²1°a±b°5Ñ9ˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ
ØŸ_™_Ñ,ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr6   Úpixel_valuesÚbool_masked_posrS   c                 óÔ  • UR                   u  pEpgU R                  XS9nUbX  UR                   S   n	U R                  R                  XIS5      n
UR	                  S5      R                  U
5      nUSU-
  -  X«-  -   nU R                  R                  USS5      n[        R                  " XÈ4SS9nU(       a  X€R                  X†U5      -   nOX€R                  -   nU R                  U5      nU$ )N)rS   r   r;   ç      ð?rB   )rD   r+   r)   ÚexpandÚ	unsqueezeÚtype_asr'   r$   rL   rS   r-   r0   )r2   rU   rV   rS   Ú
batch_sizeÚnum_channelsr8   r9   r7   Ú
seq_lengthÚmask_tokensÚmaskÚ
cls_tokenss                r4   ÚforwardÚViTEmbeddings.forwardd   sî   € ð 3?×2DÑ2DÑ/ˆ
 &Ø×*Ñ*¨<Ð*Ðkˆ
àÑ&Ø#×)Ñ)¨!Ñ,ˆJØŸ/™/×0Ñ0°ÈÓLˆKà"×,Ñ,¨RÓ0×8Ñ8¸ÓEˆDØ# s¨T¡zÑ2°[Ñ5GÑGˆJð —^‘^×*Ñ*¨:°r¸2Ó>ˆ
Ü—Y’Y 
Ð7¸QÑ?ˆ
ö $Ø#×&CÑ&CÀJÐX]Ó&^Ñ^‰Jà#×&>Ñ&>Ñ>ˆJà—\‘\ *Ó-ˆ
àÐr6   )r'   r   r0   r)   r+   r1   r-   ©F©NF)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   Úboolr"   r$   ÚTensorÚintrS   r   Ú
BoolTensorrb   Ú__static_attributes__Ú__classcell__©r3   s   @r4   r   r   +   s¥   ø† ññ
˜yð 
¸$ð 
È4÷ 
ð 
ð&D°5·<±<ð &DÈð &DÐUXð &DÐ]b×]iÑ]iô &DðV 7;Ø).ñ	à—l‘lðð " %×"2Ñ"2Ñ3ðð #'ð	ð
 
‰÷ó r6   r   c                   ón   ^ • \ rS rSrSrU 4S jrS	S\R                  S\S\R                  4S jjr	Sr
U =r$ )
r*   éƒ   zÜ
This class turns `pixel_values` of shape `(batch_size, num_channels, height, width)` into the initial
`hidden_states` (patch embeddings) of shape `(batch_size, seq_length, hidden_size)` to be consumed by a
Transformer.
c                 óÈ  >• [         TU ]  5         UR                  UR                  p2UR                  UR
                  pT[        U[        R                  R                  5      (       a  UOX"4n[        U[        R                  R                  5      (       a  UOX34nUS   US   -  US   US   -  -  nX l        X0l        X@l        X`l
        [        R                  " XEX3S9U l        g )Nr   r   )Úkernel_sizeÚstride)r!   r"   Ú
image_sizer1   r]   r&   Ú
isinstanceÚcollectionsÚabcÚIterabler,   r   ÚConv2dÚ
projection)r2   r   rw   r1   r]   r&   r,   r3   s          €r4   r"   ÚViTPatchEmbeddings.__init__Š   sÃ   ø€ Ü‰ÑÔØ!'×!2Ñ!2°F×4EÑ4EJØ$*×$7Ñ$7¸×9KÑ9Kkä#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ü#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ø! !‘}¨
°1©Ñ5¸*ÀQ¹-È:ÐVWÉ=Ñ:XÑYˆØ$ŒØ$ŒØ(ÔØ&ÔäŸ)š) LÈ:Ñiˆr6   rU   rS   r   c                 ó”  • UR                   u  p4pVX@R                  :w  a  [        SU R                   SU S35      eU(       dV  XPR                  S   :w  d  X`R                  S   :w  a2  [        SU SU SU R                  S    SU R                  S    S	3	5      eU R	                  U5      R                  S
5      R                  SS
5      nU$ )NzoMake sure that the channel dimension of the pixel values match with the one set in the configuration. Expected z	 but got Ú.r   r   zInput image size (Ú*z) doesn't match model (z).r=   )rD   r]   Ú
ValueErrorrw   r}   ÚflattenÚ	transpose)r2   rU   rS   r\   r]   r8   r9   r7   s           r4   rb   ÚViTPatchEmbeddings.forward™   sà   € Ø2>×2DÑ2DÑ/ˆ
 &Ø×,Ñ,Ó,ÜðØ!×.Ñ.Ð/¨y¸¸ÀaðIóð ö (ØŸ™¨Ñ+Ó+¨u¿¹ÈÑ8JÓ/JÜ Ø(¨¨°°%°ð 9ØŸ™¨Ñ+Ð,¨A¨d¯o©o¸aÑ.@Ð-AÀðEóð ð —_‘_ \Ó2×:Ñ:¸1Ó=×GÑGÈÈ1ÓMˆ
ØÐr6   )rw   r]   r,   r1   r}   rd   )rf   rg   rh   ri   rj   r"   r$   rl   rk   rb   ro   rp   rq   s   @r4   r*   r*   ƒ   s8   ø† ñõjñ E§L¡Lð ÈDð Ð]b×]iÑ]i÷ ó r6   r*   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingr0   c                 ó°  • [         R                  " XR                  SS5      5      U-  n[        R                  R                  US[         R                  S9R                  UR                  5      n[        R                  R                  X†U R                  S9nUb  X„-  n[         R                  " Xƒ5      n	U	R                  SS5      R                  5       n	X˜4$ )Nr;   éþÿÿÿ)rC   Údtype)ÚpÚtrainingr   r=   )r$   Úmatmulr„   r   rI   ÚsoftmaxÚfloat32ÚtorŽ   r0   r   Ú
contiguous)
r†   r‡   rˆ   r‰   rŠ   r‹   r0   ÚkwargsÚattn_weightsÚattn_outputs
             r4   Úeager_attention_forwardr™   ª   s¶   € ô —<’< §}¡}°R¸Ó'<Ó=ÀÑG€Lô —=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€Lô —=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€Lð Ñ!Ø#Ñ4ˆä—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r6   c            
       óÂ   ^ • \ rS rSrS\SS4U 4S jjr  S
S\\R                     S\	S\
\\R                  \R                  4   \\R                     4   4S jjrS	rU =r$ )ÚViTSelfAttentionéÈ   r   r   Nc                 ó0  >• [         TU ]  5         UR                  UR                  -  S:w  a7  [	        US5      (       d&  [        SUR                   SUR                   S35      eXl        UR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l	        UR                  U l        U R                  S-  U l        SU l        [        R                  " UR                  U R                  UR                   S9U l        [        R                  " UR                  U R                  UR                   S9U l        [        R                  " UR                  U R                  UR                   S9U l        g )	Nr   Úembedding_sizezThe hidden size z4 is not a multiple of the number of attention heads r€   g      à¿F)Úbias)r!   r"   r&   Únum_attention_headsÚhasattrr‚   r   rm   Úattention_head_sizeÚall_head_sizeÚattention_probs_dropout_probÚdropout_probr‹   Ú	is_causalr   ÚLinearÚqkv_biasr‡   rˆ   r‰   ©r2   r   r3   s     €r4   r"   ÚViTSelfAttention.__init__É   sG  ø€ Ü‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ" 6×#5Ñ#5Ð"6ð 7Ø×3Ñ3Ð4°Að7óð ð
 ŒØ#)×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔØ"×?Ñ?ˆÔØ×/Ñ/°Ñ5ˆŒØˆŒä—Y’Y˜v×1Ñ1°4×3EÑ3EÈFÏOÉOÑ\ˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÈ&Ï/É/ÑZˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÈFÏOÉOÑ\ˆ
r6   Ú	head_maskÚoutput_attentionsc                 ó¸  • UR                   u  pEnU R                  U5      R                  USU R                  U R                  5      R                  SS5      nU R                  U5      R                  USU R                  U R                  5      R                  SS5      nU R                  U5      R                  USU R                  U R                  5      R                  SS5      n	[        n
U R                  R                  S:w  aT  U R                  R                  S:X  a  U(       a  [        R                  S5        O[        U R                  R                     n
U
" U U	UUUU R                  U R                  U R                   (       d  SOU R"                  S9u  p¼UR%                  5       S S	 U R&                  4-   nUR)                  U5      nU(       a  X¼4nU$ U4nU$ )
Nr;   r   r=   ÚeagerÚsdpazã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.ç        )r¦   r‹   r0   r   )rD   rˆ   rK   r    r¢   r„   r‰   r‡   r™   r   Ú_attn_implementationÚloggerÚwarning_oncer   r¦   r‹   r   r¥   r?   r£   rG   )r2   Úhidden_statesr«   r¬   r\   r^   Ú_Ú	key_layerÚvalue_layerÚquery_layerÚattention_interfaceÚcontext_layerÚattention_probsÚnew_context_layer_shapeÚoutputss                  r4   rb   ÚViTSelfAttention.forwardÝ   s­  € ð %2×$7Ñ$7Ñ!ˆ
 àH‰H]Ó#ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð J‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð J‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ô )@ÐØ;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9Ö>OÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#á)<ØØØØØØ—n‘nØ—L‘LØ#Ÿ}Ÿ}‘C°$×2CÑ2Cñ	*
Ñ&ˆð #0×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×-Ñ-Ð.EÓFˆæ6G=Ð2ˆàˆð O\ÐM]ˆàˆr6   )
r£   r¢   r   r¥   r¦   rˆ   r    r‡   r‹   r‰   re   )rf   rg   rh   ri   r   r"   r   r$   rl   rk   r   Útuplerb   ro   rp   rq   s   @r4   r›   r›   È   sw   ø† ð]˜yð ]¨T÷ ]ð. -1Ø"'ñ	1ð ˜EŸL™LÑ)ð1ð  ð	1ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷1ó 1r6   r›   c                   óŠ   ^ • \ rS rSrSrS\SS4U 4S jjrS\R                  S\R                  S\R                  4S	 jr	S
r
U =r$ )ÚViTSelfOutputi  z”
The residual connection is defined in ViTLayer instead of here (as is the case with other models), due to the
layernorm applied before each block.
r   r   Nc                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  5      U l        g ©N)	r!   r"   r   r§   r&   Údenser.   r/   r0   r©   s     €r4   r"   ÚViTSelfOutput.__init__  sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr6   r´   Úinput_tensorc                 óJ   • U R                  U5      nU R                  U5      nU$ rÃ   ©rÄ   r0   ©r2   r´   rÆ   s      r4   rb   ÚViTSelfOutput.forward  s$   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆàÐr6   rÈ   )rf   rg   rh   ri   rj   r   r"   r$   rl   rb   ro   rp   rq   s   @r4   rÁ   rÁ     sI   ø† ñð
>˜yð >¨T÷ >ð
 U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r6   rÁ   c                   óò   ^ • \ rS rSrS\SS4U 4S jjrS\\   SS4S jr  SS\	R                  S	\\	R                     S
\S\\\	R                  \	R                  4   \\	R                     4   4S jjrSrU =r$ )ÚViTAttentioni#  r   r   Nc                 ó€   >• [         TU ]  5         [        U5      U l        [	        U5      U l        [        5       U l        g rÃ   )r!   r"   r›   Ú	attentionrÁ   ÚoutputÚsetÚpruned_headsr©   s     €r4   r"   ÚViTAttention.__init__$  s0   ø€ Ü‰ÑÔÜ)¨&Ó1ˆŒÜ# FÓ+ˆŒÜ›EˆÕr6   Úheadsc                 ó6  • [        U5      S:X  a  g [        XR                  R                  U R                  R                  U R
                  5      u  p[        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l	        [        U R                  R                  USS9U R                  l        U R                  R                  [        U5      -
  U R                  l        U R                  R                  U R                  R                  -  U R                  l        U R
                  R                  U5      U l        g )Nr   r   rB   )Úlenr   rÎ   r    r¢   rÑ   r   r‡   rˆ   r‰   rÏ   rÄ   r£   Úunion)r2   rÓ   Úindexs      r4   Úprune_headsÚViTAttention.prune_heads*  s  € Üˆu‹:˜‹?ØÜ7Ø—>‘>×5Ñ5°t·~±~×7YÑ7YÐ[_×[lÑ[ló
‰ˆô
  2°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ/°·±×0BÑ0BÀEÓJˆ‰ÔÜ1°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð .2¯^©^×-OÑ-OÔRUÐV[ÓR\Ñ-\ˆ‰Ô*Ø'+§~¡~×'IÑ'IÈDÏNÉN×LnÑLnÑ'nˆ‰Ô$Ø ×-Ñ-×3Ñ3°EÓ:ˆÕr6   r´   r«   r¬   c                 óf   • U R                  XU5      nU R                  US   U5      nU4USS  -   nU$ )Nr   r   )rÎ   rÏ   )r2   r´   r«   r¬   Úself_outputsÚattention_outputr½   s          r4   rb   ÚViTAttention.forward<  sC   € ð —~‘~ mÐ@QÓRˆàŸ;™; |°A¡¸ÓFÐà#Ð%¨°Q°RÐ(8Ñ8ˆØˆr6   )rÎ   rÏ   rÑ   re   )rf   rg   rh   ri   r   r"   rÐ   rm   rØ   r$   rl   r   rk   r   r¿   rb   ro   rp   rq   s   @r4   rÌ   rÌ   #  s—   ø† ð"˜yð "¨T÷ "ð;  S¡ð ;¨dô ;ð* -1Ø"'ñ	à—|‘|ðð ˜EŸL™LÑ)ðð  ð	ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷ó r6   rÌ   c                   ón   ^ • \ rS rSrS\SS4U 4S jjrS\R                  S\R                  4S jrSr	U =r
$ )	ÚViTIntermediateiJ  r   r   Nc                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g rÃ   )r!   r"   r   r§   r&   Úintermediate_sizerÄ   rx   Ú
hidden_actÚstrr   Úintermediate_act_fnr©   s     €r4   r"   ÚViTIntermediate.__init__K  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$r6   r´   c                 óJ   • U R                  U5      nU R                  U5      nU$ rÃ   ©rÄ   rä   )r2   r´   s     r4   rb   ÚViTIntermediate.forwardS  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆàÐr6   rç   ©rf   rg   rh   ri   r   r"   r$   rl   rb   ro   rp   rq   s   @r4   rß   rß   J  s6   ø† ð9˜yð 9¨T÷ 9ð U§\¡\ð °e·l±l÷ ò r6   rß   c                   ó†   ^ • \ rS rSrS\SS4U 4S jjrS\R                  S\R                  S\R                  4S jrS	r	U =r
$ )
Ú	ViTOutputiZ  r   r   Nc                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR                  5      U l	        g rÃ   )
r!   r"   r   r§   rá   r&   rÄ   r.   r/   r0   r©   s     €r4   r"   ÚViTOutput.__init__[  sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr6   r´   rÆ   c                 óR   • U R                  U5      nU R                  U5      nX-   nU$ rÃ   rÈ   rÉ   s      r4   rb   ÚViTOutput.forward`  s,   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆà%Ñ4ˆàÐr6   rÈ   ré   rq   s   @r4   rë   rë   Z  sD   ø† ð>˜yð >¨T÷ >ð
 U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r6   rë   c                   óÞ   ^ • \ rS rSrSrS\SS4U 4S jjr  SS\R                  S\	\R                     S	\
S\\\R                  \R                  4   \\R                     4   4S
 jjrSrU =r$ )ÚViTLayerii  z?This corresponds to the Block class in the timm implementation.r   r   Nc                 ój  >• [         TU ]  5         UR                  U l        SU l        [	        U5      U l        [        U5      U l        [        U5      U l	        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  UR                  S9U l        g )Nr   ©Úeps)r!   r"   Úchunk_size_feed_forwardÚseq_len_dimrÌ   rÎ   rß   Úintermediaterë   rÏ   r   Ú	LayerNormr&   Úlayer_norm_epsÚlayernorm_beforeÚlayernorm_afterr©   s     €r4   r"   ÚViTLayer.__init__l  s‡   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ% fÓ-ˆŒÜ+¨FÓ3ˆÔÜ Ó'ˆŒÜ "§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÔÜ!Ÿ|š|¨F×,>Ñ,>ÀF×DYÑDYÑZˆÕr6   r´   r«   r¬   c                 óÔ   • U R                  U R                  U5      UUS9nUS   nUSS  nXQ-   nU R                  U5      nU R                  U5      nU R	                  Xq5      nU4U-   nU$ )N)r¬   r   r   )rÎ   rú   rû   r÷   rÏ   )r2   r´   r«   r¬   Úself_attention_outputsrÜ   r½   Úlayer_outputs           r4   rb   ÚViTLayer.forwardv  s’   € ð "&§¡Ø×!Ñ! -Ó0ØØ/ð "0ð "
Ðð
 2°!Ñ4ÐØ(¨¨Ð,ˆð )Ñ8ˆð ×+Ñ+¨MÓ:ˆØ×(Ñ(¨Ó6ˆð —{‘{ <Ó?ˆà/ GÑ+ˆàˆr6   )rÎ   rõ   r÷   rû   rú   rÏ   rö   re   )rf   rg   rh   ri   rj   r   r"   r$   rl   r   rk   r   r¿   rb   ro   rp   rq   s   @r4   rñ   rñ   i  s†   ø† ÙIð[˜yð [¨T÷ [ð -1Ø"'ñ	à—|‘|ðð ˜EŸL™LÑ)ðð  ð	ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷ó r6   rñ   c                   óš   ^ • \ rS rSrS\SS4U 4S jjr    SS\R                  S\\R                     S\	S	\	S
\	S\
\\4   4S jjrSrU =r$ )Ú
ViTEncoderi“  r   r   Nc                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf re   )
r!   r"   r   r   Ú
ModuleListÚrangeÚnum_hidden_layersrñ   ÚlayerÚgradient_checkpointing)r2   r   rµ   r3   s      €r4   r"   ÚViTEncoder.__init__”  sR   ø€ Ü‰ÑÔØŒÜ—]’]¼eÀF×D\ÑD\Ô>]Ó#^Ñ>]¸¤H¨VÖ$4Ñ>]Ñ#^Ó_ˆŒ
Ø&+ˆÕ#ùò $_s   ½A%r´   r«   r¬   Úoutput_hidden_statesÚreturn_dictc                 ó6  • U(       a  SOS nU(       a  SOS n[        U R                  5       H9  u  p‰U(       a  Xa4-   nUb  X(   OS n
U	" XU5      nUS   nU(       d  M1  X{S   4-   nM;     U(       a  Xa4-   nU(       d  [        S XU4 5       5      $ [        UUUS9$ )N© r   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frÃ   r  )Ú.0Úvs     r4   Ú	<genexpr>Ú%ViTEncoder.forward.<locals>.<genexpr>¶  s   é € ÐmÑ$[˜qŸ™Ò$[ùs   ‚‹	)Úlast_hidden_stater´   Ú
attentions)Ú	enumerater  r¿   r   )r2   r´   r«   r¬   r
  r  Úall_hidden_statesÚall_self_attentionsÚiÚlayer_moduleÚlayer_head_maskÚlayer_outputss               r4   rb   ÚViTEncoder.forwardš  s¹   € ö #7™B¸DÐÞ$5™b¸4Ðä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜išlÈˆOá(¨ÐIZÓ[ˆMà)¨!Ñ,ˆMç Ð Ø&9È1Ñ=MÐ<OÑ&OÒ#ñ  5ö  Ø 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+Ø+Ø*ñ
ð 	
r6   )r   r  r  )NFFT)rf   rg   rh   ri   r   r"   r$   rl   r   rk   r   r¿   r   rb   ro   rp   rq   s   @r4   r  r  “  s   ø† ð,˜yð ,¨T÷ ,ð -1Ø"'Ø%*Ø ñ!
à—|‘|ð!
ð ˜EŸL™LÑ)ð!
ð  ð	!
ð
 #ð!
ð ð!
ð 
ˆuoÐ%Ñ	&÷!
ó !
r6   r  c                   óž   • \ rS rSr% \\S'   SrSrSrSS/r	Sr
SrSrSrS\\R                   \R"                  \R$                  4   S	S
4S jrSrg
)ÚViTPreTrainedModeli¾  r   ÚvitrU   Tr   rñ   r†   r   Nc                 ó°  • [        U[        R                  [        R                  45      (       aÉ  [        R                  R                  UR                  R                  R                  [        R                  5      SU R                  R                  S9R                  UR                  R                  5      UR                  l        UR                  b%  UR                  R                  R                  5         gg[        U[        R                   5      (       aJ  UR                  R                  R                  5         UR                  R                  R#                  S5        g[        U[$        5      (       Ga_  [        R                  R                  UR&                  R                  R                  [        R                  5      SU R                  R                  S9R                  UR&                  R                  5      UR&                  l        [        R                  R                  UR(                  R                  R                  [        R                  5      SU R                  R                  S9R                  UR(                  R                  5      UR(                  l        UR*                  b%  UR*                  R                  R                  5         ggg)zInitialize the weightsr°   )ÚmeanÚstdNrX   )rx   r   r§   r|   ÚinitÚtrunc_normal_ÚweightÚdatar”   r$   r“   r   Úinitializer_rangerŽ   rŸ   Úzero_rø   Úfill_r   r-   r'   r)   )r2   r†   s     r4   Ú_init_weightsÚ ViTPreTrainedModel._init_weightsÊ  sû  € äfœrŸy™y¬"¯)©)Ð4×5Ñ5ô "$§¡×!6Ñ!6Ø—‘×"Ñ"×%Ñ%¤e§m¡mÓ4¸3ÀDÇKÁK×DaÑDað "7ð "ç‰b—‘×$Ñ$Ó%ð M‰MÔð {‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤×.Ò.Ü.0¯g©g×.CÑ.CØ×*Ñ*×/Ñ/×2Ñ2´5·=±=ÓAØØ—K‘K×1Ñ1ð /Dð /÷ ‰b×+Ñ+×1Ñ1Ó2ð	 ×&Ñ&Ô+ô %'§G¡G×$9Ñ$9Ø× Ñ ×%Ñ%×(Ñ(¬¯©Ó7ØØ—K‘K×1Ñ1ð %:ð %÷ ‰b×!Ñ!×'Ñ'Ó(ð	 ×ÑÔ!ð × Ñ Ñ,Ø×!Ñ!×&Ñ&×,Ñ,Õ.ð -ð /r6   r  )rf   rg   rh   ri   r   Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_sdpaÚ_supports_flash_attnÚ_supports_flex_attnÚ_supports_attention_backendr   r   r§   r|   rø   r*  ro   r  r6   r4   r  r  ¾  sg   ‡ àÓØÐØ$€OØ&*Ð#Ø(¨*Ð5ÐØ€NØÐØÐØ"&Ðð/ E¨"¯)©)°R·Y±YÀÇÁÐ*LÑ$Mð /ÐRV÷ /r6   r  c                   ó"  ^ • \ rS rSrSS\S\S\4U 4S jjjrS\4S jrS\	\
\\
   4   SS	4S
 jr\       SS\\R                      S\\R"                     S\\R                      S\\   S\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚViTModeliè  r   Úadd_pooling_layerr   c                 ó  >• [         TU ]  U5        Xl        [        XS9U l        [        U5      U l        [        R                  " UR                  UR                  S9U l        U(       a  [        U5      OSU l        U R                  5         g)zÓ
add_pooling_layer (bool, *optional*, defaults to `True`):
    Whether to add a pooling layer
use_mask_token (`bool`, *optional*, defaults to `False`):
    Whether to use a mask token for masked image modeling.
)r   ró   N)r!   r"   r   r   r7   r  Úencoderr   rø   r&   rù   Ú	layernormÚ	ViTPoolerÚpoolerÚ	post_init)r2   r   r7  r   r3   s       €r4   r"   ÚViTModel.__init__ê  si   ø€ ô 	‰Ñ˜Ô ØŒä'¨ÑNˆŒÜ! &Ó)ˆŒäŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÞ+<”i Ô'À$ˆŒð 	‰Õr6   r   c                 ó.   • U R                   R                  $ rÃ   )r7   r+   )r2   s    r4   Úget_input_embeddingsÚViTModel.get_input_embeddingsý  s   € Ø‰×/Ñ/Ð/r6   Úheads_to_pruneNc                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)Úitemsr9  r  rÎ   rØ   )r2   rB  r  rÓ   s       r4   Ú_prune_headsÚViTModel._prune_heads   s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r6   rU   rV   r«   r¬   r
  rS   r  c                 óÔ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eU R                  X0R                   R                  5      nU R                  R                  R                  R                  R                  nUR                  U:w  a  UR                  U5      nU R                  XUS9n	U R                  U	UUUUS9n
U
S   nU R                  U5      nU R                  b  U R                  U5      OSnU(       d  Ub  X¼4OU4nXÚSS -   $ [!        UUU
R"                  U
R$                  S9$ )z³
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, num_patches)`, *optional*):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).
Nz You have to specify pixel_values)rV   rS   )r«   r¬   r
  r  r   r   )r  Úpooler_outputr´   r  )r   r¬   r
  Úuse_return_dictr‚   Úget_head_maskr  r7   r+   r}   r%  rŽ   r”   r9  r:  r<  r   r´   r  )r2   rU   rV   r«   r¬   r
  rS   r  Úexpected_dtypeÚembedding_outputÚencoder_outputsÚsequence_outputÚpooled_outputÚhead_outputss                 r4   rb   ÚViTModel.forward  s|  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ?Ó@Ð@ð ×&Ñ& y·+±+×2OÑ2OÓPˆ	ð Ÿ™×9Ñ9×DÑD×KÑK×QÑQˆØ×Ñ Ó/Ø'Ÿ?™?¨>Ó:ˆLàŸ?™?ØÐTlð +ð 
Ðð Ÿ,™,ØØØ/Ø!5Ø#ð 'ð 
ˆð *¨!Ñ,ˆØŸ.™.¨Ó9ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆæØ?LÑ?X˜OÑ;Ð_nÐ^pˆLØ°!°"Ð"5Ñ5Ð5ä)Ø-Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r6   )r   r7   r9  r:  r<  )TF©NNNNNNN)rf   rg   rh   ri   r   rk   r"   r*   r@  Údictrm   ÚlistrE  r   r   r$   rl   rn   r   r¿   r   rb   ro   rp   rq   s   @r4   r6  r6  è  s  ø† ñ˜yð ¸Tð ÐZ^÷ ð ð&0Ð&8ô 0ðC¨4°°T¸#±Y°Ñ+?ð CÀDô Cð ð 04Ø6:Ø,0Ø,0Ø/3Ø37Ø&*ñ;
à˜uŸ|™|Ñ,ð;
ð " %×"2Ñ"2Ñ3ð;
ð ˜EŸL™LÑ)ð	;
ð
 $ D™>ð;
ð ' t™nð;
ð #+¨4¡.ð;
ð ˜d‘^ð;
ð 
ˆuÐ0Ð0Ñ	1ô;
ó ö;
r6   r6  c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )r;  iG  r   c                 ó²   >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                     U l	        g rÃ   )
r!   r"   r   r§   r&   Úpooler_output_sizerÄ   r   Ú
pooler_actÚ
activationr©   s     €r4   r"   ÚViTPooler.__init__H  s>   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3LÑ3LÓMˆŒ
Ü  ×!2Ñ!2Ñ3ˆr6   c                 ó\   • US S 2S4   nU R                  U5      nU R                  U5      nU$ )Nr   )rÄ   rY  )r2   r´   Úfirst_token_tensorrO  s       r4   rb   ÚViTPooler.forwardM  s6   € ð +ª1¨a¨4Ñ0ÐØŸ
™
Ð#5Ó6ˆØŸ™¨Ó6ˆØÐr6   )rY  rÄ   )	rf   rg   rh   ri   r   r"   rb   ro   rp   rq   s   @r4   r;  r;  G  s   ø† ð4˜y÷ 4÷
ð r6   r;  ac  
    ViT Model with a decoder on top for masked image modeling, as proposed in [SimMIM](https://huggingface.co/papers/2111.09886).

    <Tip>

    Note that we provide a script to pre-train this model on custom data in our [examples
    directory](https://github.com/huggingface/transformers/tree/main/examples/pytorch/image-pretraining).

    </Tip>
    )Úcustom_introc                   óê   ^ • \ rS rSrS\SS4U 4S jjr\       SS\\R                     S\\R                     S\\R                     S	\\   S
\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚViTForMaskedImageModelingiV  r   r   Nc                 óH  >• [         TU ]  U5        [        USSS9U l        [        R
                  " [        R                  " UR                  UR                  S-  UR                  -  SS9[        R                  " UR                  5      5      U l        U R                  5         g )NFT)r7  r   r=   r   )Úin_channelsÚout_channelsru   )r!   r"   r6  r  r   Ú
Sequentialr|   r&   Úencoder_strider]   ÚPixelShuffleÚdecoderr=  r©   s     €r4   r"   Ú"ViTForMaskedImageModeling.__init__c  s   ø€ Ü‰Ñ˜Ô ä˜F°eÈDÑQˆŒä—}’}ÜIŠIØ"×.Ñ.Ø#×2Ñ2°AÑ5¸×8KÑ8KÑKØñô
 OŠO˜F×1Ñ1Ó2ó
ˆŒð 	‰Õr6   rU   rV   r«   r¬   r
  rS   r  c           
      óš  • Ub  UOU R                   R                  nUbh  U R                   R                  U R                   R                  :w  a:  [	        SU R                   R                   SU R                   R                   S35      eU R                  UUUUUUUS9nUS   n	U	SS2SS24   n	U	R                  u  p«n[        R                  " US-  5      =pÞU	R                  SS	S5      R                  X¬XÞ5      n	U R                  U	5      nSnUGb  U R                   R                  U R                   R                  -  nUR                  S
UU5      nUR                  U R                   R                  S5      R                  U R                   R                  S	5      R                  S5      R                  5       n[         R"                  R%                  XSS9nUU-  R'                  5       UR'                  5       S-   -  U R                   R(                  -  nU(       d  U4USS -   nUb  U4U-   $ U$ [+        UUUR,                  UR.                  S9$ )aƒ  
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, num_patches)`):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).

Examples:
```python
>>> from transformers import AutoImageProcessor, ViTForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("google/vit-base-patch16-224-in21k")
>>> model = ViTForMaskedImageModeling.from_pretrained("google/vit-base-patch16-224-in21k")

>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()

>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 224, 224]
```Nz³When `bool_masked_pos` is provided, `patch_size` must be equal to `encoder_stride` to ensure that the reconstructed image has the same dimensions as the input. Got `patch_size` = z and `encoder_stride` = r€   )rV   r«   r¬   r
  rS   r  r   r   r<   r=   r;   Únone)Ú	reductiongñhãˆµøä>)ÚlossÚreconstructionr´   r  )r   rI  r1   re  r‚   r  rD   ÚmathÚfloorrH   rG   rg  rw   Úrepeat_interleaverZ   r•   r   rI   Úl1_lossÚsumr]   r   r´   r  )r2   rU   rV   r«   r¬   r
  rS   r  r½   rN  r\   Úsequence_lengthr]   r8   r9   Úreconstructed_pixel_valuesÚmasked_im_lossr?   r`   Úreconstruction_lossrÏ   s                        r4   rb   Ú!ViTForMaskedImageModeling.forwardt  sF  € ðL &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ&¨D¯K©K×,BÑ,BÀdÇkÁk×F`ÑF`Ó,`Üð&à&*§k¡k×&<Ñ&<Ð%=Ð=UÐVZ×VaÑVa×VpÑVpÐUqÐqrðtóð ð —(‘(ØØ+ØØ/Ø!5Ø%=Ø#ð ð 
ˆð " !™*ˆð *ª!¨Q©R¨%Ñ0ˆØ4C×4IÑ4IÑ1ˆ
 \ÜŸš O°SÑ$8Ó9Ð9ˆØ)×1Ñ1°!°Q¸Ó:×BÑBÀ:Ð]cÓkˆð &*§\¡\°/Ó%BÐ"àˆØÒ&Ø—;‘;×)Ñ)¨T¯[©[×-CÑ-CÑCˆDØ-×5Ñ5°b¸$ÀÓEˆOà×1Ñ1°$·+±+×2HÑ2HÈ!ÓLß"Ñ" 4§;¡;×#9Ñ#9¸1Ó=ß‘˜1“ß‘“ð	 ô #%§-¡-×"7Ñ"7¸ÐlrÐ"7Ð"sÐØ1°DÑ8×=Ñ=Ó?À4Ç8Á8Ã:ÐPTÑCTÑUÐX\×XcÑXc×XpÑXpÑpˆNæØ0Ð2°W¸Q¸R°[Ñ@ˆFØ3AÑ3M^Ð%¨Ñ.ÐYÐSYÐYä(ØØ5Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
r6   )rg  r  rR  )rf   rg   rh   ri   r   r"   r   r   r$   rl   rn   rk   r   r¿   r   rb   ro   rp   rq   s   @r4   r`  r`  V  sÑ   ø† ð˜yð ¨T÷ ð" ð 04Ø6:Ø,0Ø,0Ø/3Ø37Ø&*ñY
à˜uŸ|™|Ñ,ðY
ð " %×"2Ñ"2Ñ3ðY
ð ˜EŸL™LÑ)ð	Y
ð
 $ D™>ðY
ð ' t™nðY
ð #+¨4¡.ðY
ð ˜d‘^ðY
ð 
ˆuÐ/Ð/Ñ	0ôY
ó öY
r6   r`  aà  
    ViT Model transformer with an image classification head on top (a linear layer on top of the final hidden state of
    the [CLS] token) e.g. for ImageNet.

    <Tip>

        Note that it's possible to fine-tune ViT on higher resolution images than the ones it has been trained on, by
        setting `interpolate_pos_encoding` to `True` in the forward of the model. This will interpolate the pre-trained
        position embeddings to the higher resolution.

    </Tip>
    c                   óê   ^ • \ rS rSrS\SS4U 4S jjr\       SS\\R                     S\\R                     S\\R                     S	\\
   S
\\
   S\\
   S\\
   S\\\4   4S jj5       rSrU =r$ )ÚViTForImageClassificationiÑ  r   r   Nc                 ó.  >• [         TU ]  U5        UR                  U l        [        USS9U l        UR                  S:”  a+  [
        R                  " UR                  UR                  5      O[
        R                  " 5       U l	        U R                  5         g )NF)r7  r   )r!   r"   Ú
num_labelsr6  r  r   r§   r&   ÚIdentityÚ
classifierr=  r©   s     €r4   r"   Ú"ViTForImageClassification.__init__à  ss   ø€ Ü‰Ñ˜Ô à ×+Ñ+ˆŒÜ˜F°eÑ<ˆŒð OU×N_ÑN_ÐbcÓNcœ"Ÿ)š) F×$6Ñ$6¸×8IÑ8IÔJÔik×itÒitÓivˆŒð 	‰Õr6   rU   r«   Úlabelsr¬   r
  rS   r  c           	      ót  • Ub  UOU R                   R                  nU R                  UUUUUUS9nUS   n	U R                  U	SS2SSS24   5      n
SnUGb©  UR	                  U
R
                  5      nU R                   R                  c‘  U R                  S:X  a  SU R                   l        OoU R                  S:”  aN  UR                  [        R                  :X  d  UR                  [        R                  :X  a  SU R                   l        OSU R                   l        U R                   R                  S:X  aI  [        5       nU R                  S:X  a&  U" U
R                  5       UR                  5       5      nOŒU" X£5      nOƒU R                   R                  S:X  a=  [        5       nU" U
R                  SU R                  5      UR                  S5      5      nO,U R                   R                  S:X  a  [!        5       nU" X£5      nU(       d  U
4USS -   nUb  U4U-   $ U$ [#        UU
UR$                  UR&                  S	9$ )
ab  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
N)r«   r¬   r
  rS   r  r   r   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationr;   )rl  Úlogitsr´   r  )r   rI  r  r}  r”   ÚdeviceÚproblem_typer{  rŽ   r$   Úlongrm   r	   Úsqueezer   rK   r   r   r´   r  )r2   rU   r«   r  r¬   r
  rS   r  r½   rN  r„  rl  Úloss_fctrÏ   s                 r4   rb   Ú!ViTForImageClassification.forwardì  sê  € ð" &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—(‘(ØØØ/Ø!5Ø%=Ø#ð ð 
ˆð " !™*ˆà—‘ ²°A²q°Ñ!9Ó:ˆàˆØÒà—Y‘Y˜vŸ}™}Ó-ˆFØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/æØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r6   )r}  r{  r  rR  )rf   rg   rh   ri   r   r"   r   r   r$   rl   rk   r   r¿   r   rb   ro   rp   rq   s   @r4   ry  ry  Ñ  sÏ   ø† ð
˜yð 
¨T÷ 
ð ð 04Ø,0Ø)-Ø,0Ø/3Ø37Ø&*ñA
à˜uŸ|™|Ñ,ðA
ð ˜EŸL™LÑ)ðA
ð ˜Ÿ™Ñ&ð	A
ð
 $ D™>ðA
ð ' t™nðA
ð #+¨4¡.ðA
ð ˜d‘^ðA
ð 
ˆuÐ+Ð+Ñ	,ôA
ó öA
r6   ry  )ry  r`  r6  r  )r°   ):rj   Úcollections.abcry   rn  Útypingr   r   r   r$   Útorch.utils.checkpointr   Útorch.nnr   r   r	   Úactivationsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   Úmodeling_utilsr   r   Úpytorch_utilsr   r   Úutilsr   r   r   Úconfiguration_vitr   Ú
get_loggerrf   r²   ÚModuler   r*   rl   Úfloatr™   r›   rÁ   rÌ   rß   rë   rñ   r  r  r6  r;  r`  ry  Ú__all__r  r6   r4   Ú<module>rš     sý  ðñ ã Û ß ,Ñ ,ã Û Ý ß AÑ Aå !Ý 9÷ó ÷ Gß Qß 7Ñ 7Ý (ð 
×	Ò	˜HÓ	%€ôUB—I‘Iô Uôp$˜Ÿ™ô $ð\ ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô<Fr—y‘yô FôRB—I‘Iô ô$$2—9‘9ô $ôNb—i‘iô ô —	‘	ô ô'Ð)ô 'ôT(
—‘ô (
ðV ô&/˜ó &/ó ð&/ðR ô[
Ð!ó [
ó ð[
ô|—	‘	ô ñ ð	ñôl
Ð 2ó l
óðl
ñ^ ðñôO
Ð 2ó O
óðO
òd gr6   