ó
    <±hñ•  ã                   ó  • S r SSKrSSKJr  SSKJrJrJr  SSK	r	SSK
r	SSK	Jr  SSKJrJrJr  SSKJr  SS	KJr  SS
KJrJrJrJr  SSKJrJr  SSKJrJr  SSKJ r J!r!J"r"J#r#  SSK$J%r%  \"RL                  " \'5      r( " S S\RR                  5      r* " S S\RR                  5      r+ S>S\RR                  S\	RX                  S\	RX                  S\	RX                  S\\	RX                     S\-S\-4S jjr. " S S\RR                  5      r/ " S S\RR                  5      r0 " S  S!\RR                  5      r1 " S" S#\RR                  5      r2 " S$ S%\RR                  5      r3 " S& S'\5      r4 " S( S)\RR                  5      r5\! " S* S+\5      5       r6\! " S, S-\65      5       r7 " S. S/\RR                  5      r8\!" S0S19 " S2 S3\65      5       r9\!" S4S19 " S5 S6\65      5       r:\\!" S7S19 " S8 S9\ 5      5       5       r;\!" S:S19 " S; S<\65      5       r</ S=Qr=g)?zPyTorch DeiT model.é    N)Ú	dataclass)ÚCallableÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPoolingÚImageClassifierOutputÚMaskedImageModelingOutput)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)Ú find_pruneable_heads_and_indicesÚprune_linear_layer)ÚModelOutputÚauto_docstringÚloggingÚ	torch_inté   )Ú
DeiTConfigc            	       óæ   ^ • \ rS rSrSrSS\S\SS4U 4S jjjrS\R                  S	\
S
\
S\R                  4S jr  SS\R                  S\\R                     S\S\R                  4S jjrSrU =r$ )ÚDeiTEmbeddingsé+   zn
Construct the CLS token, distillation token, position and patch embeddings. Optionally, also the mask token.
ÚconfigÚuse_mask_tokenÚreturnNc                 óÊ  >• [         TU ]  5         [        R                  " [        R
                  " SSUR                  5      5      U l        [        R                  " [        R
                  " SSUR                  5      5      U l        U(       a6  [        R                  " [        R
                  " SSUR                  5      5      OS U l	        [        U5      U l        U R                  R                  n[        R                  " [        R
                  " SUS-   UR                  5      5      U l        [        R                  " UR                  5      U l        UR"                  U l        g )Nr   é   )ÚsuperÚ__init__r   Ú	ParameterÚtorchÚzerosÚhidden_sizeÚ	cls_tokenÚdistillation_tokenÚ
mask_tokenÚDeiTPatchEmbeddingsÚpatch_embeddingsÚnum_patchesÚposition_embeddingsÚDropoutÚhidden_dropout_probÚdropoutÚ
patch_size)Úselfr   r    r/   Ú	__class__s       €Ú^/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/deit/modeling_deit.pyr%   ÚDeiTEmbeddings.__init__0   sç   ø€ Ü‰ÑÔäŸš¤e§k¢k°!°Q¸×8JÑ8JÓ&KÓLˆŒÜ"$§,¢,¬u¯{ª{¸1¸aÀ×ASÑASÓ/TÓ"UˆÔÞQ_œ"Ÿ,š,¤u§{¢{°1°a¸×9KÑ9KÓ'LÔMÐeiˆŒÜ 3°FÓ ;ˆÔØ×+Ñ+×7Ñ7ˆÜ#%§<¢<´·²¸A¸{ÈQ¹ÐPV×PbÑPbÓ0cÓ#dˆÔ Ü—z’z &×"<Ñ"<Ó=ˆŒØ ×+Ñ+ˆó    Ú
embeddingsÚheightÚwidthc                 óœ  • UR                   S   S-
  nU R                  R                   S   S-
  n[        R                  R	                  5       (       d  XE:X  a  X#:X  a  U R                  $ U R                  SS2SS24   nU R                  SS2SS24   nUR                   S   nX R
                  -  n	X0R
                  -  n
[        US-  5      nUR                  SX»U5      nUR                  SSSS5      n[        R                  R                  UXš4SS	S
9nUR                  SSSS5      R                  SSU5      n[        R                  " Xg4SS9$ )aç  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing and 2 class embeddings.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   r#   Néÿÿÿÿç      à?r   r   ÚbicubicF)ÚsizeÚmodeÚalign_corners©Údim)Úshaper0   r'   ÚjitÚ
is_tracingr4   r   ÚreshapeÚpermuter   Ú
functionalÚinterpolateÚviewÚcat)r5   r:   r;   r<   r/   Únum_positionsÚclass_and_dist_pos_embedÚpatch_pos_embedrE   Ú
new_heightÚ	new_widthÚsqrt_num_positionss               r7   Úinterpolate_pos_encodingÚ'DeiTEmbeddings.interpolate_pos_encoding<   sU  € ð !×&Ñ& qÑ)¨AÑ-ˆØ×0Ñ0×6Ñ6°qÑ9¸AÑ=ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×+Ñ+Ð+à#'×#;Ñ#;ºA¸rÀ¸r¸EÑ#BÐ Ø×2Ñ2²1°a±b°5Ñ9ˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ
ØŸ_™_Ñ,ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠyÐ2ÐDÈ!ÑLÐLr9   Úpixel_valuesÚbool_masked_posrU   c                 ó  • UR                   u    pEnU R                  U5      nUR                  5       u  p‰nUbI  U R                  R	                  X‰S5      n
UR                  S5      R                  U
5      nUSU-
  -  X«-  -   nU R                  R	                  USS5      nU R                  R	                  USS5      n[        R                  " XÍU4SS9nU R                  nU(       a  U R                  XuU5      nX~-   nU R                  U5      nU$ )Nr>   ç      ð?r   rD   )rF   r.   rA   r,   ÚexpandÚ	unsqueezeÚtype_asr*   r+   r'   rN   r0   rU   r3   )r5   rW   rX   rU   Ú_r;   r<   r:   Ú
batch_sizeÚ
seq_lengthÚmask_tokensÚmaskÚ
cls_tokensÚdistillation_tokensÚposition_embeddings                  r7   ÚforwardÚDeiTEmbeddings.forwardd   s  € ð +×0Ñ0Ñˆˆ1eØ×*Ñ*¨<Ó8ˆ
à$.§O¡OÓ$5Ñ!ˆ
 àÑ&ØŸ/™/×0Ñ0°ÈÓLˆKà"×,Ñ,¨RÓ0×8Ñ8¸ÓEˆDØ# s¨T¡zÑ2°[Ñ5GÑGˆJà—^‘^×*Ñ*¨:°r¸2Ó>ˆ
à"×5Ñ5×<Ñ<¸ZÈÈRÓPÐä—Y’Y 
ÀÐLÐRSÑTˆ
Ø!×5Ñ5Ðæ#Ø!%×!>Ñ!>¸zÐSXÓ!YÐàÑ4ˆ
Ø—\‘\ *Ó-ˆ
ØÐr9   )r*   r+   r3   r,   r.   r4   r0   )F©NF)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   Úboolr%   r'   ÚTensorÚintrU   r   Ú
BoolTensorrf   Ú__static_attributes__Ú__classcell__©r6   s   @r7   r   r   +   s¥   ø† ññ
,˜zð 
,¸4ð 
,ÈD÷ 
,ð 
,ð&M°5·<±<ð &MÈð &MÐUXð &MÐ]b×]iÑ]iô &MðV 7;Ø).ñ	à—l‘lðð " %×"2Ñ"2Ñ3ðð #'ð	ð
 
‰÷ó r9   r   c                   óf   ^ • \ rS rSrSrU 4S jrS\R                  S\R                  4S jrSr	U =r
$ )r-   é„   zÜ
This class turns `pixel_values` of shape `(batch_size, num_channels, height, width)` into the initial
`hidden_states` (patch embeddings) of shape `(batch_size, seq_length, hidden_size)` to be consumed by a
Transformer.
c                 óÈ  >• [         TU ]  5         UR                  UR                  p2UR                  UR
                  pT[        U[        R                  R                  5      (       a  UOX"4n[        U[        R                  R                  5      (       a  UOX34nUS   US   -  US   US   -  -  nX l        X0l        X@l        X`l
        [        R                  " XEX3S9U l        g )Nr   r   )Úkernel_sizeÚstride)r$   r%   Ú
image_sizer4   Únum_channelsr)   Ú
isinstanceÚcollectionsÚabcÚIterabler/   r   ÚConv2dÚ
projection)r5   r   rz   r4   r{   r)   r/   r6   s          €r7   r%   ÚDeiTPatchEmbeddings.__init__‹   sÃ   ø€ Ü‰ÑÔØ!'×!2Ñ!2°F×4EÑ4EJØ$*×$7Ñ$7¸×9KÑ9Kkä#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ü#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ø! !‘}¨
°1©Ñ5¸*ÀQ¹-È:ÐVWÉ=Ñ:XÑYˆØ$ŒØ$ŒØ(ÔØ&ÔäŸ)š) LÈ:Ñiˆr9   rW   r!   c                 ó¸   • UR                   u  p#pEX0R                  :w  a  [        S5      eU R                  U5      R	                  S5      R                  SS5      nU$ )NzeMake sure that the channel dimension of the pixel values match with the one set in the configuration.r#   r   )rF   r{   Ú
ValueErrorr   ÚflattenÚ	transpose)r5   rW   r_   r{   r;   r<   Úxs          r7   rf   ÚDeiTPatchEmbeddings.forwardš   s[   € Ø2>×2DÑ2DÑ/ˆ
 &Ø×,Ñ,Ó,ÜØwóð ð O‰O˜LÓ)×1Ñ1°!Ó4×>Ñ>¸qÀ!ÓDˆØˆr9   )rz   r{   r/   r4   r   )ri   rj   rk   rl   rm   r%   r'   ro   rf   rr   rs   rt   s   @r7   r-   r-   „   s.   ø† ñõjð E§L¡Lð °U·\±\÷ ò r9   r-   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingr3   c                 ó°  • [         R                  " XR                  SS5      5      U-  n[        R                  R                  US[         R                  S9R                  UR                  5      n[        R                  R                  X†U R                  S9nUb  X„-  n[         R                  " Xƒ5      n	U	R                  SS5      R                  5       n	X˜4$ )Nr>   éþÿÿÿ)rE   Údtype)ÚpÚtrainingr   r#   )r'   Úmatmulr†   r   rK   ÚsoftmaxÚfloat32Útor‘   r3   r“   Ú
contiguous)
r‰   rŠ   r‹   rŒ   r   rŽ   r3   ÚkwargsÚattn_weightsÚattn_outputs
             r7   Úeager_attention_forwardrœ   ¥   s¶   € ô —<’< §}¡}°R¸Ó'<Ó=ÀÑG€Lô —=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€Lô —=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€Lð Ñ!Ø#Ñ4ˆä—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r9   c            
       óÂ   ^ • \ rS rSrS\SS4U 4S jjr  S
S\\R                     S\	S\
\\R                  \R                  4   \\R                     4   4S jjrS	rU =r$ )ÚDeiTSelfAttentionéÄ   r   r!   Nc                 ó0  >• [         TU ]  5         UR                  UR                  -  S:w  a7  [	        US5      (       d&  [        SUR                   SUR                   S35      eXl        UR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l	        UR                  U l        U R                  S-  U l        SU l        [        R                  " UR                  U R                  UR                   S9U l        [        R                  " UR                  U R                  UR                   S9U l        [        R                  " UR                  U R                  UR                   S9U l        g )	Nr   Úembedding_sizezThe hidden size z4 is not a multiple of the number of attention heads Ú.g      à¿F)Úbias)r$   r%   r)   Únum_attention_headsÚhasattrr„   r   rp   Úattention_head_sizeÚall_head_sizeÚattention_probs_dropout_probÚdropout_probrŽ   Ú	is_causalr   ÚLinearÚqkv_biasrŠ   r‹   rŒ   ©r5   r   r6   s     €r7   r%   ÚDeiTSelfAttention.__init__Å   sG  ø€ Ü‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ" 6×#5Ñ#5Ð"6ð 7Ø×3Ñ3Ð4°Að7óð ð
 ŒØ#)×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔØ"×?Ñ?ˆÔØ×/Ñ/°Ñ5ˆŒØˆŒä—Y’Y˜v×1Ñ1°4×3EÑ3EÈFÏOÉOÑ\ˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÈ&Ï/É/ÑZˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÈFÏOÉOÑ\ˆ
r9   Ú	head_maskÚoutput_attentionsc                 ó¸  • UR                   u  pEnU R                  U5      R                  USU R                  U R                  5      R                  SS5      nU R                  U5      R                  USU R                  U R                  5      R                  SS5      nU R                  U5      R                  USU R                  U R                  5      R                  SS5      n	[        n
U R                  R                  S:w  aT  U R                  R                  S:X  a  U(       a  [        R                  S5        O[        U R                  R                     n
U
" U U	UUUU R                  U R                  U R                   (       d  SOU R"                  S9u  p¼UR%                  5       S S	 U R&                  4-   nUR)                  U5      nU(       a  X¼4nU$ U4nU$ )
Nr>   r   r#   ÚeagerÚsdpazã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.ç        )rª   rŽ   r3   r   )rF   r‹   rM   r¤   r¦   r†   rŒ   rŠ   rœ   r   Ú_attn_implementationÚloggerÚwarning_oncer   rª   rŽ   r“   r©   rA   r§   rI   )r5   Úhidden_statesr¯   r°   r_   r`   r^   Ú	key_layerÚvalue_layerÚquery_layerÚattention_interfaceÚcontext_layerÚattention_probsÚnew_context_layer_shapeÚoutputss                  r7   rf   ÚDeiTSelfAttention.forwardÙ   s­  € ð %2×$7Ñ$7Ñ!ˆ
 àH‰H]Ó#ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð J‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð J‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ô )@ÐØ;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9Ö>OÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#á)<ØØØØØØ—n‘nØ—L‘LØ#Ÿ}Ÿ}‘C°$×2CÑ2Cñ	*
Ñ&ˆð #0×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×-Ñ-Ð.EÓFˆæ6G=Ð2ˆàˆð O\ÐM]ˆàˆr9   )
r§   r¦   r   r©   rª   r‹   r¤   rŠ   rŽ   rŒ   rh   )ri   rj   rk   rl   r   r%   r   r'   ro   rn   r   Útuplerf   rr   rs   rt   s   @r7   rž   rž   Ä   sw   ø† ð]˜zð ]¨d÷ ]ð. -1Ø"'ñ	1ð ˜EŸL™LÑ)ð1ð  ð	1ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷1ó 1r9   rž   c                   óŠ   ^ • \ rS rSrSrS\SS4U 4S jjrS\R                  S\R                  S\R                  4S	 jr	S
r
U =r$ )ÚDeiTSelfOutputi  z•
The residual connection is defined in DeiTLayer instead of here (as is the case with other models), due to the
layernorm applied before each block.
r   r!   Nc                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  5      U l        g ©N)	r$   r%   r   r«   r)   Údenser1   r2   r3   r­   s     €r7   r%   ÚDeiTSelfOutput.__init__  sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr9   r¸   Úinput_tensorc                 óJ   • U R                  U5      nU R                  U5      nU$ rÆ   ©rÇ   r3   ©r5   r¸   rÉ   s      r7   rf   ÚDeiTSelfOutput.forward  s$   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆàÐr9   rË   )ri   rj   rk   rl   rm   r   r%   r'   ro   rf   rr   rs   rt   s   @r7   rÄ   rÄ     sI   ø† ñð
>˜zð >¨d÷ >ð
 U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r9   rÄ   c                   óò   ^ • \ rS rSrS\SS4U 4S jjrS\\   SS4S jr  SS\	R                  S	\\	R                     S
\S\\\	R                  \	R                  4   \\	R                     4   4S jjrSrU =r$ )ÚDeiTAttentioni!  r   r!   Nc                 ó€   >• [         TU ]  5         [        U5      U l        [	        U5      U l        [        5       U l        g rÆ   )r$   r%   rž   Ú	attentionrÄ   ÚoutputÚsetÚpruned_headsr­   s     €r7   r%   ÚDeiTAttention.__init__"  s0   ø€ Ü‰ÑÔÜ*¨6Ó2ˆŒÜ$ VÓ,ˆŒÜ›EˆÕr9   Úheadsc                 ó6  • [        U5      S:X  a  g [        XR                  R                  U R                  R                  U R
                  5      u  p[        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l	        [        U R                  R                  USS9U R                  l        U R                  R                  [        U5      -
  U R                  l        U R                  R                  U R                  R                  -  U R                  l        U R
                  R                  U5      U l        g )Nr   r   rD   )Úlenr   rÑ   r¤   r¦   rÔ   r   rŠ   r‹   rŒ   rÒ   rÇ   r§   Úunion)r5   rÖ   Úindexs      r7   Úprune_headsÚDeiTAttention.prune_heads(  s  € Üˆu‹:˜‹?ØÜ7Ø—>‘>×5Ñ5°t·~±~×7YÑ7YÐ[_×[lÑ[ló
‰ˆô
  2°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ/°·±×0BÑ0BÀEÓJˆ‰ÔÜ1°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð .2¯^©^×-OÑ-OÔRUÐV[ÓR\Ñ-\ˆ‰Ô*Ø'+§~¡~×'IÑ'IÈDÏNÉN×LnÑLnÑ'nˆ‰Ô$Ø ×-Ñ-×3Ñ3°EÓ:ˆÕr9   r¸   r¯   r°   c                 óf   • U R                  XU5      nU R                  US   U5      nU4USS  -   nU$ )Nr   r   )rÑ   rÒ   )r5   r¸   r¯   r°   Úself_outputsÚattention_outputrÀ   s          r7   rf   ÚDeiTAttention.forward:  sC   € ð —~‘~ mÐ@QÓRˆàŸ;™; |°A¡¸ÓFÐà#Ð%¨°Q°RÐ(8Ñ8ˆØˆr9   )rÑ   rÒ   rÔ   rh   )ri   rj   rk   rl   r   r%   rÓ   rp   rÛ   r'   ro   r   rn   r   rÂ   rf   rr   rs   rt   s   @r7   rÏ   rÏ   !  s—   ø† ð"˜zð "¨d÷ "ð;  S¡ð ;¨dô ;ð* -1Ø"'ñ	à—|‘|ðð ˜EŸL™LÑ)ðð  ð	ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷ó r9   rÏ   c                   ón   ^ • \ rS rSrS\SS4U 4S jjrS\R                  S\R                  4S jrSr	U =r
$ )	ÚDeiTIntermediateiI  r   r!   Nc                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g rÆ   )r$   r%   r   r«   r)   Úintermediate_sizerÇ   r|   Ú
hidden_actÚstrr   Úintermediate_act_fnr­   s     €r7   r%   ÚDeiTIntermediate.__init__J  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$r9   r¸   c                 óJ   • U R                  U5      nU R                  U5      nU$ rÆ   ©rÇ   rç   )r5   r¸   s     r7   rf   ÚDeiTIntermediate.forwardR  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆàÐr9   rê   ©ri   rj   rk   rl   r   r%   r'   ro   rf   rr   rs   rt   s   @r7   râ   râ   I  s6   ø† ð9˜zð 9¨d÷ 9ð U§\¡\ð °e·l±l÷ ò r9   râ   c                   ó†   ^ • \ rS rSrS\SS4U 4S jjrS\R                  S\R                  S\R                  4S jrS	r	U =r
$ )
Ú
DeiTOutputiZ  r   r!   Nc                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR                  5      U l	        g rÆ   )
r$   r%   r   r«   rä   r)   rÇ   r1   r2   r3   r­   s     €r7   r%   ÚDeiTOutput.__init__[  sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr9   r¸   rÉ   c                 óR   • U R                  U5      nU R                  U5      nX-   nU$ rÆ   rË   rÌ   s      r7   rf   ÚDeiTOutput.forward`  s,   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆà%Ñ4ˆàÐr9   rË   rì   rt   s   @r7   rî   rî   Z  sD   ø† ð>˜zð >¨d÷ >ð
 U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r9   rî   c                   óÞ   ^ • \ rS rSrSrS\SS4U 4S jjr  SS\R                  S\	\R                     S	\
S\\\R                  \R                  4   \\R                     4   4S
 jjrSrU =r$ )Ú	DeiTLayerij  z?This corresponds to the Block class in the timm implementation.r   r!   Nc                 ój  >• [         TU ]  5         UR                  U l        SU l        [	        U5      U l        [        U5      U l        [        U5      U l	        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  UR                  S9U l        g )Nr   ©Úeps)r$   r%   Úchunk_size_feed_forwardÚseq_len_dimrÏ   rÑ   râ   Úintermediaterî   rÒ   r   Ú	LayerNormr)   Úlayer_norm_epsÚlayernorm_beforeÚlayernorm_afterr­   s     €r7   r%   ÚDeiTLayer.__init__m  s‡   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ& vÓ.ˆŒÜ,¨VÓ4ˆÔÜ  Ó(ˆŒÜ "§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÔÜ!Ÿ|š|¨F×,>Ñ,>ÀF×DYÑDYÑZˆÕr9   r¸   r¯   r°   c                 óÔ   • U R                  U R                  U5      UUS9nUS   nUSS  nXQ-   nU R                  U5      nU R                  U5      nU R	                  Xq5      nU4U-   nU$ )N)r°   r   r   )rÑ   rý   rþ   rú   rÒ   )r5   r¸   r¯   r°   Úself_attention_outputsrß   rÀ   Úlayer_outputs           r7   rf   ÚDeiTLayer.forwardw  s’   € ð "&§¡Ø×!Ñ! -Ó0ØØ/ð "0ð "
Ðð
 2°!Ñ4ÐØ(¨¨Ð,ˆð )Ñ8ˆð ×+Ñ+¨MÓ:ˆØ×(Ñ(¨Ó6ˆð —{‘{ <Ó?ˆà/ GÑ+ˆàˆr9   )rÑ   rø   rú   rþ   rý   rÒ   rù   rh   )ri   rj   rk   rl   rm   r   r%   r'   ro   r   rn   r   rÂ   rf   rr   rs   rt   s   @r7   rô   rô   j  s†   ø† ÙIð[˜zð [¨d÷ [ð -1Ø"'ñ	à—|‘|ðð ˜EŸL™LÑ)ðð  ð	ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷ó r9   rô   c                   óš   ^ • \ rS rSrS\SS4U 4S jjr    SS\R                  S\\R                     S\	S	\	S
\	S\
\\4   4S jjrSrU =r$ )ÚDeiTEncoderi•  r   r!   Nc                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf rh   )
r$   r%   r   r   Ú
ModuleListÚrangeÚnum_hidden_layersrô   ÚlayerÚgradient_checkpointing)r5   r   r^   r6   s      €r7   r%   ÚDeiTEncoder.__init__–  sR   ø€ Ü‰ÑÔØŒÜ—]’]¼uÀV×E]ÑE]Ô?^Ó#_Ñ?^¸!¤I¨fÖ$5Ñ?^Ñ#_Ó`ˆŒ
Ø&+ˆÕ#ùò $`s   ½A%r¸   r¯   r°   Úoutput_hidden_statesÚreturn_dictc                 ó6  • U(       a  SOS nU(       a  SOS n[        U R                  5       H9  u  p‰U(       a  Xa4-   nUb  X(   OS n
U	" XU5      nUS   nU(       d  M1  X{S   4-   nM;     U(       a  Xa4-   nU(       d  [        S XU4 5       5      $ [        UUUS9$ )N© r   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frÆ   r  )Ú.0Úvs     r7   Ú	<genexpr>Ú&DeiTEncoder.forward.<locals>.<genexpr>¸  s   é € ÐmÑ$[˜qŸ™Ò$[ùs   ‚‹	)Úlast_hidden_stater¸   Ú
attentions)Ú	enumerater
  rÂ   r   )r5   r¸   r¯   r°   r  r  Úall_hidden_statesÚall_self_attentionsÚiÚlayer_moduleÚlayer_head_maskÚlayer_outputss               r7   rf   ÚDeiTEncoder.forwardœ  s¹   € ö #7™B¸DÐÞ$5™b¸4Ðä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜išlÈˆOá(¨ÐIZÓ[ˆMà)¨!Ñ,ˆMç Ð Ø&9È1Ñ=MÐ<OÑ&OÒ#ñ  5ö  Ø 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+Ø+Ø*ñ
ð 	
r9   )r   r  r
  )NFFT)ri   rj   rk   rl   r   r%   r'   ro   r   rn   r   rÂ   r   rf   rr   rs   rt   s   @r7   r  r  •  s   ø† ð,˜zð ,¨d÷ ,ð -1Ø"'Ø%*Ø ñ!
à—|‘|ð!
ð ˜EŸL™LÑ)ð!
ð  ð	!
ð
 #ð!
ð ð!
ð 
ˆuoÐ%Ñ	&÷!
ó !
r9   r  c                   óœ   • \ rS rSr% \\S'   SrSrSrS/r	Sr
SrSrSrS\\R                   \R"                  \R$                  4   SS	4S
 jrSrg	)ÚDeiTPreTrainedModeliÀ  r   ÚdeitrW   Trô   r‰   r!   Nc                 ó.  • [        U[        R                  [        R                  45      (       aÉ  [        R                  R                  UR                  R                  R                  [        R                  5      SU R                  R                  S9R                  UR                  R                  5      UR                  l        UR                  b%  UR                  R                  R                  5         gg[        U[        R                   5      (       aJ  UR                  R                  R                  5         UR                  R                  R#                  S5        g[        U[$        5      (       aŸ  UR&                  R                  R                  5         UR(                  R                  R                  5         UR*                  R                  R                  5         UR,                  b%  UR,                  R                  R                  5         ggg)zInitialize the weightsr´   )ÚmeanÚstdNrZ   )r|   r   r«   r€   ÚinitÚtrunc_normal_ÚweightÚdatar—   r'   r–   r   Úinitializer_ranger‘   r£   Úzero_rû   Úfill_r   r*   r0   r+   r,   )r5   r‰   s     r7   Ú_init_weightsÚ!DeiTPreTrainedModel._init_weightsÌ  sh  € äfœrŸy™y¬"¯)©)Ð4×5Ñ5ô "$§¡×!6Ñ!6Ø—‘×"Ñ"×%Ñ%¤e§m¡mÓ4¸3ÀDÇKÁK×DaÑDað "7ð "ç‰b—‘×$Ñ$Ó%ð M‰MÔð {‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤×/Ñ/Ø×Ñ×!Ñ!×'Ñ'Ô)Ø×&Ñ&×+Ñ+×1Ñ1Ô3Ø×%Ñ%×*Ñ*×0Ñ0Ô2Ø× Ñ Ñ,Ø×!Ñ!×&Ñ&×,Ñ,Õ.ð -ð	 0r9   r  )ri   rj   rk   rl   r   Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_sdpaÚ_supports_flash_attnÚ_supports_flex_attnÚ_supports_attention_backendr   r   r«   r€   rû   r-  rr   r  r9   r7   r!  r!  À  sd   ‡ àÓØÐØ$€OØ&*Ð#Ø$˜ÐØ€NØÐØÐØ"&Ðð/ E¨"¯)©)°R·Y±YÀÇÁÐ*LÑ$Mð /ÐRV÷ /r9   r!  c                   ó  ^ • \ rS rSrSS\S\S\SS4U 4S jjjrS\4S jrS	 r	\
       SS
\\R                     S\\R                     S\\R                     S\\   S\\   S\\   S\S\\\4   4S jj5       rSrU =r$ )Ú	DeiTModeliá  r   Úadd_pooling_layerr    r!   Nc                 ó  >• [         TU ]  U5        Xl        [        XS9U l        [        U5      U l        [        R                  " UR                  UR                  S9U l        U(       a  [        U5      OSU l        U R                  5         g)zÓ
add_pooling_layer (bool, *optional*, defaults to `True`):
    Whether to add a pooling layer
use_mask_token (`bool`, *optional*, defaults to `False`):
    Whether to use a mask token for masked image modeling.
)r    rö   N)r$   r%   r   r   r:   r  Úencoderr   rû   r)   rü   Ú	layernormÚ
DeiTPoolerÚpoolerÚ	post_init)r5   r   r:  r    r6   s       €r7   r%   ÚDeiTModel.__init__ã  si   ø€ ô 	‰Ñ˜Ô ØŒä(¨ÑOˆŒÜ" 6Ó*ˆŒäŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÞ,=”j Ô(À4ˆŒð 	‰Õr9   c                 ó.   • U R                   R                  $ rÆ   )r:   r.   )r5   s    r7   Úget_input_embeddingsÚDeiTModel.get_input_embeddingsö  s   € Ø‰×/Ñ/Ð/r9   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)Úitemsr<  r
  rÑ   rÛ   )r5   Úheads_to_pruner
  rÖ   s       r7   Ú_prune_headsÚDeiTModel._prune_headsù  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r9   rW   rX   r¯   r°   r  r  rU   c                 óÔ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eU R                  X0R                   R                  5      nU R                  R                  R                  R                  R                  nUR                  U:w  a  UR                  U5      nU R                  XUS9n	U R                  U	UUUUS9n
U
S   nU R                  U5      nU R                  b  U R                  U5      OSnU(       d  Ub  X¼4OU4nXÚSS -   $ [!        UUU
R"                  U
R$                  S9$ )z³
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, num_patches)`, *optional*):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).
Nz You have to specify pixel_values)rX   rU   )r¯   r°   r  r  r   r   )r  Úpooler_outputr¸   r  )r   r°   r  Úuse_return_dictr„   Úget_head_maskr	  r:   r.   r   r(  r‘   r—   r<  r=  r?  r   r¸   r  )r5   rW   rX   r¯   r°   r  r  rU   Úexpected_dtypeÚembedding_outputÚencoder_outputsÚsequence_outputÚpooled_outputÚhead_outputss                 r7   rf   ÚDeiTModel.forward  s|  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ?Ó@Ð@ð ×&Ñ& y·+±+×2OÑ2OÓPˆ	ð Ÿ™×9Ñ9×DÑD×KÑK×QÑQˆØ×Ñ Ó/Ø'Ÿ?™?¨>Ó:ˆLàŸ?™?ØÐTlð +ð 
Ðð Ÿ,™,ØØØ/Ø!5Ø#ð 'ð 
ˆð *¨!Ñ,ˆØŸ.™.¨Ó9ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆæØ?LÑ?X˜OÑ;Ð_nÐ^pˆLØ°!°"Ð"5Ñ5Ð5ä)Ø-Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r9   )r   r:   r<  r=  r?  )TF©NNNNNNF)ri   rj   rk   rl   r   rn   r%   r-   rC  rH  r   r   r'   ro   rq   r   rÂ   r   rf   rr   rs   rt   s   @r7   r9  r9  á  së   ø† ñ˜zð ¸dð Ð[_ð Ðlp÷ ð ð&0Ð&9ô 0òCð ð 04Ø6:Ø,0Ø,0Ø/3Ø&*Ø).ñ;
à˜uŸ|™|Ñ,ð;
ð " %×"2Ñ"2Ñ3ð;
ð ˜EŸL™LÑ)ð	;
ð
 $ D™>ð;
ð ' t™nð;
ð ˜d‘^ð;
ð #'ð;
ð 
ˆuÐ0Ð0Ñ	1ô;
ó ö;
r9   r9  c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )r>  iA  r   c                 ó²   >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                     U l	        g rÆ   )
r$   r%   r   r«   r)   Úpooler_output_sizerÇ   r   Ú
pooler_actÚ
activationr­   s     €r7   r%   ÚDeiTPooler.__init__B  s>   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3LÑ3LÓMˆŒ
Ü  ×!2Ñ!2Ñ3ˆr9   c                 ó\   • US S 2S4   nU R                  U5      nU R                  U5      nU$ )Nr   )rÇ   rZ  )r5   r¸   Úfirst_token_tensorrR  s       r7   rf   ÚDeiTPooler.forwardG  s6   € ð +ª1¨a¨4Ñ0ÐØŸ
™
Ð#5Ó6ˆØŸ™¨Ó6ˆØÐr9   )rZ  rÇ   )	ri   rj   rk   rl   r   r%   rf   rr   rs   rt   s   @r7   r>  r>  A  s   ø† ð4˜z÷ 4÷
ð r9   r>  ad  
    DeiT Model with a decoder on top for masked image modeling, as proposed in [SimMIM](https://huggingface.co/papers/2111.09886).

    <Tip>

    Note that we provide a script to pre-train this model on custom data in our [examples
    directory](https://github.com/huggingface/transformers/tree/main/examples/pytorch/image-pretraining).

    </Tip>
    )Úcustom_introc                   óä   ^ • \ rS rSrS\SS4U 4S jjr\       SS\\R                     S\\R                     S\\R                     S	\\   S
\\   S\\   S\S\\\4   4S jj5       rSrU =r$ )ÚDeiTForMaskedImageModelingiP  r   r!   Nc                 óH  >• [         TU ]  U5        [        USSS9U l        [        R
                  " [        R                  " UR                  UR                  S-  UR                  -  SS9[        R                  " UR                  5      5      U l        U R                  5         g )NFT)r:  r    r#   r   )Úin_channelsÚout_channelsrx   )r$   r%   r9  r"  r   Ú
Sequentialr€   r)   Úencoder_strider{   ÚPixelShuffleÚdecoderr@  r­   s     €r7   r%   Ú#DeiTForMaskedImageModeling.__init__]  s   ø€ Ü‰Ñ˜Ô ä˜f¸ÈdÑSˆŒ	ä—}’}ÜIŠIØ"×.Ñ.Ø#×2Ñ2°AÑ5¸×8KÑ8KÑKØñô
 OŠO˜F×1Ñ1Ó2ó
ˆŒð 	‰Õr9   rW   rX   r¯   r°   r  r  rU   c           
      ó®  • Ub  UOU R                   R                  nU R                  UUUUUUUS9nUS   n	U	SS2SS24   n	U	R                  u  p«n[	        US-  5      =pÞU	R                  SSS5      R                  X¬XÞ5      n	U R                  U	5      nSnUGb  U R                   R                  U R                   R                  -  nUR                  SUU5      nUR                  U R                   R                  S5      R                  U R                   R                  S5      R                  S5      R                  5       n[        R                  R                  XSS	9nUU-  R!                  5       UR!                  5       S
-   -  U R                   R"                  -  nU(       d  U4USS -   nUb  U4U-   $ U$ [%        UUUR&                  UR(                  S9$ )a“  
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, num_patches)`):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).

Examples:
```python
>>> from transformers import AutoImageProcessor, DeiTForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("facebook/deit-base-distilled-patch16-224")
>>> model = DeiTForMaskedImageModeling.from_pretrained("facebook/deit-base-distilled-patch16-224")

>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()

>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 224, 224]
```N)rX   r¯   r°   r  r  rU   r   r   r>   r?   r#   Únone)Ú	reductiongñhãˆµøä>)ÚlossÚreconstructionr¸   r  )r   rL  r"  rF   rp   rJ   rI   rh  rz   r4   Úrepeat_interleaver\   r˜   r   rK   Úl1_lossÚsumr{   r   r¸   r  )r5   rW   rX   r¯   r°   r  r  rU   rÀ   rQ  r_   Úsequence_lengthr{   r;   r<   Úreconstructed_pixel_valuesÚmasked_im_lossrA   rb   Úreconstruction_lossrÒ   s                        r7   rf   Ú"DeiTForMaskedImageModeling.forwardn  sá  € ðL &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—)‘)ØØ+ØØ/Ø!5Ø#Ø%=ð ð 
ˆð " !™*ˆð *ª!¨Q¨r¨T¨'Ñ2ˆØ4C×4IÑ4IÑ1ˆ
 \Ü˜_¨cÑ1Ó2Ð2ˆØ)×1Ñ1°!°Q¸Ó:×BÑBÀ:Ð]cÓkˆð &*§\¡\°/Ó%BÐ"àˆØÒ&Ø—;‘;×)Ñ)¨T¯[©[×-CÑ-CÑCˆDØ-×5Ñ5°b¸$ÀÓEˆOà×1Ñ1°$·+±+×2HÑ2HÈ!ÓLß"Ñ" 4§;¡;×#9Ñ#9¸1Ó=ß‘˜1“ß‘“ð	 ô #%§-¡-×"7Ñ"7¸ÐlrÐ"7Ð"sÐØ1°DÑ8×=Ñ=Ó?À4Ç8Á8Ã:ÐPTÑCTÑUÐX\×XcÑXc×XpÑXpÑpˆNæØ0Ð2°W¸Q¸R°[Ñ@ˆFØ3AÑ3M^Ð%¨Ñ.ÐYÐSYÐYä(ØØ5Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
r9   )rh  r"  rU  )ri   rj   rk   rl   r   r%   r   r   r'   ro   rq   rn   r   rÂ   r   rf   rr   rs   rt   s   @r7   ra  ra  P  sÍ   ø† ð˜zð ¨d÷ ð" ð 04Ø6:Ø,0Ø,0Ø/3Ø&*Ø).ñR
à˜uŸ|™|Ñ,ðR
ð " %×"2Ñ"2Ñ3ðR
ð ˜EŸL™LÑ)ð	R
ð
 $ D™>ðR
ð ' t™nðR
ð ˜d‘^ðR
ð #'ðR
ð 
ˆuÐ/Ð/Ñ	0ôR
ó öR
r9   ra  z¥
    DeiT Model transformer with an image classification head on top (a linear layer on top of the final hidden state of
    the [CLS] token) e.g. for ImageNet.
    c                   óä   ^ • \ rS rSrS\SS4U 4S jjr\       SS\\R                     S\\R                     S\\R                     S	\\
   S
\\
   S\\
   S\
S\\\4   4S jj5       rSrU =r$ )ÚDeiTForImageClassificationiÄ  r   r!   Nc                 ó.  >• [         TU ]  U5        UR                  U l        [        USS9U l        UR                  S:”  a+  [
        R                  " UR                  UR                  5      O[
        R                  " 5       U l	        U R                  5         g ©NF)r:  r   )r$   r%   Ú
num_labelsr9  r"  r   r«   r)   ÚIdentityÚ
classifierr@  r­   s     €r7   r%   Ú#DeiTForImageClassification.__init__Ë  ss   ø€ Ü‰Ñ˜Ô à ×+Ñ+ˆŒÜ˜f¸Ñ>ˆŒ	ð OU×N_ÑN_ÐbcÓNcœ"Ÿ)š) F×$6Ñ$6¸×8IÑ8IÔJÔik×itÒitÓivˆŒð 	‰Õr9   rW   r¯   Úlabelsr°   r  r  rU   c           	      ót  • Ub  UOU R                   R                  nU R                  UUUUUUS9nUS   n	U R                  U	SS2SSS24   5      n
SnUGb©  UR	                  U
R
                  5      nU R                   R                  c‘  U R                  S:X  a  SU R                   l        OoU R                  S:”  aN  UR                  [        R                  :X  d  UR                  [        R                  :X  a  SU R                   l        OSU R                   l        U R                   R                  S:X  aI  [        5       nU R                  S:X  a&  U" U
R                  5       UR                  5       5      nOŒU" X£5      nOƒU R                   R                  S:X  a=  [        5       nU" U
R                  SU R                  5      UR                  S5      5      nO,U R                   R                  S:X  a  [!        5       nU" X£5      nU(       d  U
4USS -   nUb  U4U-   $ U$ [#        UU
UR$                  UR&                  S	9$ )
a’  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

Examples:

```python
>>> from transformers import AutoImageProcessor, DeiTForImageClassification
>>> import torch
>>> from PIL import Image
>>> import requests

>>> torch.manual_seed(3)  # doctest: +IGNORE_RESULT
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> # note: we are loading a DeiTForImageClassificationWithTeacher from the hub here,
>>> # so the head will be randomly initialized, hence the predictions will be random
>>> image_processor = AutoImageProcessor.from_pretrained("facebook/deit-base-distilled-patch16-224")
>>> model = DeiTForImageClassification.from_pretrained("facebook/deit-base-distilled-patch16-224")

>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_class_idx = logits.argmax(-1).item()
>>> print("Predicted class:", model.config.id2label[predicted_class_idx])
Predicted class: Polaroid camera, Polaroid Land camera
```N©r¯   r°   r  r  rU   r   r   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationr>   )rm  Úlogitsr¸   r  )r   rL  r"  r}  r—   ÚdeviceÚproblem_typer{  r‘   r'   Úlongrp   r
   Úsqueezer	   rM   r   r   r¸   r  )r5   rW   r¯   r  r°   r  r  rU   rÀ   rQ  r…  rm  Úloss_fctrÒ   s                 r7   rf   Ú"DeiTForImageClassification.forward×  sí  € ðT &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—)‘)ØØØ/Ø!5Ø#Ø%=ð ð 
ˆð " !™*ˆà—‘ ²°A²q°Ñ!9Ó:ˆð ˆØÒØ—Y‘Y˜vŸ}™}Ó-ˆFØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/ÞØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r9   )r}  r"  r{  rU  )ri   rj   rk   rl   r   r%   r   r   r'   ro   rn   r   rÂ   r   rf   rr   rs   rt   s   @r7   rx  rx  Ä  sË   ø† ð
˜zð 
¨d÷ 
ð ð 04Ø,0Ø)-Ø,0Ø/3Ø&*Ø).ñY
à˜uŸ|™|Ñ,ðY
ð ˜EŸL™LÑ)ðY
ð ˜Ÿ™Ñ&ð	Y
ð
 $ D™>ðY
ð ' t™nðY
ð ˜d‘^ðY
ð #'ðY
ð 
ˆuÐ+Ð+Ñ	,ôY
ó öY
r9   rx  zC
    Output type of [`DeiTForImageClassificationWithTeacher`].
    c                   óî   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   S	rg)
Ú+DeiTForImageClassificationWithTeacherOutputi4  aF  
logits (`torch.FloatTensor` of shape `(batch_size, config.num_labels)`):
    Prediction scores as the average of the cls_logits and distillation logits.
cls_logits (`torch.FloatTensor` of shape `(batch_size, config.num_labels)`):
    Prediction scores of the classification head (i.e. the linear layer on top of the final hidden state of the
    class token).
distillation_logits (`torch.FloatTensor` of shape `(batch_size, config.num_labels)`):
    Prediction scores of the distillation head (i.e. the linear layer on top of the final hidden state of the
    distillation token).
Nr…  Ú
cls_logitsÚdistillation_logitsr¸   r  r  )ri   rj   rk   rl   rm   r…  r   r'   ÚFloatTensorr/  rŽ  r  r¸   rÂ   r  rr   r  r9   r7   r  r  4  s}   ‡ ñ	ð +/€FˆHU×&Ñ&Ñ'Ó.Ø.2€J˜×*Ñ*Ñ+Ó2Ø7;Ð˜ %×"3Ñ"3Ñ4Ó;Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ö9r9   r  aˆ  
    DeiT Model transformer with image classification heads on top (a linear layer on top of the final hidden state of
    the [CLS] token and a linear layer on top of the final hidden state of the distillation token) e.g. for ImageNet.

    .. warning::

           This model supports inference-only. Fine-tuning with distillation (i.e. with a teacher) is not yet
           supported.
    c                   óÄ   ^ • \ rS rSrS\SS4U 4S jjr\      SS\\R                     S\\R                     S\\
   S	\\
   S
\\
   S\
S\\\4   4S jj5       rSrU =r$ )Ú%DeiTForImageClassificationWithTeacheriM  r   r!   Nc                 óØ  >• [         TU ]  U5        UR                  U l        [        USS9U l        UR                  S:”  a+  [
        R                  " UR                  UR                  5      O[
        R                  " 5       U l	        UR                  S:”  a+  [
        R                  " UR                  UR                  5      O[
        R                  " 5       U l
        U R                  5         g rz  )r$   r%   r{  r9  r"  r   r«   r)   r|  Úcls_classifierÚdistillation_classifierr@  r­   s     €r7   r%   Ú.DeiTForImageClassificationWithTeacher.__init__Y  s·   ø€ Ü‰Ñ˜Ô à ×+Ñ+ˆŒÜ˜f¸Ñ>ˆŒ	ð AG×@QÑ@QÐTUÓ@UŒBIŠIf×(Ñ(¨&×*;Ñ*;Ô<Ô[]×[fÒ[fÓ[hð 	Ôð AG×@QÑ@QÐTUÓ@UŒBIŠIf×(Ñ(¨&×*;Ñ*;Ô<Ô[]×[fÒ[fÓ[hð 	Ô$ð
 	‰Õr9   rW   r¯   r°   r  r  rU   c           	      óL  • Ub  UOU R                   R                  nU R                  UUUUUUS9nUS   nU R                  US S 2SS S 24   5      n	U R	                  US S 2SS S 24   5      n
Xš-   S-  nU(       d  X¹U
4USS  -   nU$ [        UU	U
UR                  UR                  S9$ )Nr  r   r   r#   )r…  rŽ  r  r¸   r  )r   rL  r"  r”  r•  r  r¸   r  )r5   rW   r¯   r°   r  r  rU   rÀ   rQ  rŽ  r  r…  rÒ   s                r7   rf   Ú-DeiTForImageClassificationWithTeacher.forwardj  s×   € ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—)‘)ØØØ/Ø!5Ø#Ø%=ð ð 
ˆð " !™*ˆà×(Ñ(¨º¸Aºq¸Ñ)AÓBˆ
Ø"×:Ñ:¸?Ê1ÈaÒQRÈ7Ñ;SÓTÐð Ñ2°aÑ7ˆæØÐ*=Ð>ÀÈÈÀÑLˆFØˆMä:ØØ!Ø 3Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r9   )r”  r"  r•  r{  )NNNNNF)ri   rj   rk   rl   r   r%   r   r   r'   ro   rn   r   rÂ   r  rf   rr   rs   rt   s   @r7   r’  r’  M  s«   ø† ð˜zð ¨d÷ ð" ð 04Ø,0Ø,0Ø/3Ø&*Ø).ñ&
à˜uŸ|™|Ñ,ð&
ð ˜EŸL™LÑ)ð&
ð $ D™>ð	&
ð
 ' t™nð&
ð ˜d‘^ð&
ð #'ð&
ð 
ˆuÐAÐAÑ	Bô&
ó ö&
r9   r’  )rx  r’  ra  r9  r!  )r´   )>rm   Úcollections.abcr}   Údataclassesr   Útypingr   r   r   r'   Útorch.utils.checkpointr   Útorch.nnr   r	   r
   Úactivationsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   Úmodeling_utilsr   r   Úpytorch_utilsr   r   Úutilsr   r   r   r   Úconfiguration_deitr   Ú
get_loggerri   r¶   ÚModuler   r-   ro   Úfloatrœ   rž   rÄ   rÏ   râ   rî   rô   r  r!  r9  r>  ra  rx  r  r’  Ú__all__r  r9   r7   Ú<module>r©     sP  ðñ ã Ý !ß ,Ñ ,ã Û Ý ß AÑ Aå !Ý 9÷ó ÷ Gß Qß DÓ DÝ *ð 
×	Ò	˜HÓ	%€ôVR—Y‘Yô Vôr˜"Ÿ)™)ô ðP ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô>F˜Ÿ	™	ô FôTR—Y‘Yô ô&$B—I‘Iô $ôPr—y‘yô ô"—‘ô ô 'Ð*ô 'ôV(
"—)‘)ô (
ðV ô/˜/ó /ó ð/ð@ ô[
Ð#ó [
ó ð[
ô~—‘ô ñ ð	ñôe
Ð!4ó e
óðe
ñP ðñôg
Ð!4ó g
óðg
ðT Ùðñô
:°+ó :óó ð:ñ& ðñ
ô9
Ð,?ó 9
ó
ð9
òxr9   