ó
    <±h# ã            	       óH  • S r SSKrSSKrSSKrSSKJr  SSKJrJ	r	  SSK
r
SSKr
SSK
JrJr  SSKJrJrJr  SSKJr  SS	KJr  SS
KJrJrJrJrJrJr  SSKJr  SSKJ r J!r!J"r"  SSK#J$r$J%r%J&r&  SSK'J(r(  SSK)J*r*  \%RV                  " \,5      r-\\$" SS9 " S S\5      5       5       r.SOS\
R                  S\/S\0S\
R                  4S jjr1 " S S\Rd                  5      r3 " S S\Rd                  5      r4 " S S\Rd                  5      r5 " S  S!\Rd                  5      r6 " S" S#\65      r7 " S$ S%\Rd                  5      r8\6\7S&.r9 " S' S(\Rd                  5      r: " S) S*\Rd                  5      r; " S+ S,\Rd                  5      r< " S- S.\5      r= " S/ S0\Rd                  5      r> " S1 S2\Rd                  5      r?\$ " S3 S4\5      5       r@\$ " S5 S6\@5      5       rA " S7 S8\Rd                  5      rB\$" S9S9 " S: S;\@5      5       rC\$" S<S9 " S= S>\@5      5       rD " S? S@\Rd                  5      rE " SA SB\Rd                  5      rF " SC SD\Rd                  5      rG " SE SF\Rd                  5      rH " SG SH\Rd                  5      rI\$ " SI SJ\@5      5       rJ\$" SKS9 " SL SM\@\(5      5       rK/ SNQrLg)PzPyTorch BEiT model.é    N)Ú	dataclass)ÚOptionalÚUnion)ÚTensorÚnn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚGradientCheckpointingLayer)ÚBackboneOutputÚBaseModelOutputÚBaseModelOutputWithPoolingÚImageClassifierOutputÚMaskedLMOutputÚSemanticSegmenterOutput)ÚPreTrainedModel)Ú#compile_compatible_method_lru_cacheÚ find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚloggingÚ	torch_int)ÚBackboneMixiné   )Ú
BeitConfigz-
    Class for outputs of [`BeitModel`].
    )Úcustom_introc                   ó   • \ rS rSrSrSrg)ÚBeitModelOutputWithPoolingé0   a2  
pooler_output (`torch.FloatTensor` of shape `(batch_size, hidden_size)`):
    Average of the last layer hidden states of the patch tokens (excluding the *[CLS]* token) if
    *config.use_mean_pooling* is set to True. If set to False, then the final hidden state of the *[CLS]* token
    will be returned.
© N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Ú__static_attributes__r"   ó    Ú^/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/beit/modeling_beit.pyr    r    0   s   † ôr)   r    ÚinputÚ	drop_probÚtrainingÚreturnc                 ó  • US:X  d  U(       d  U $ SU-
  nU R                   S   4SU R                  S-
  -  -   nU[        R                  " X@R                  U R
                  S9-   nUR                  5         U R                  U5      U-  nU$ )a*  
Drop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).

Comment by Ross Wightman: This is the same as the DropConnect impl I created for EfficientNet, etc networks,
however, the original name is misleading as 'Drop Connect' is a different form of dropout in a separate paper...
See discussion: https://github.com/tensorflow/tpu/issues/494#issuecomment-532968956 ... I've opted for changing the
layer and argument names to 'drop path' rather than mix DropConnect as a layer name and use 'survival rate' as the
argument.
ç        r   r   )r   )ÚdtypeÚdevice)ÚshapeÚndimÚtorchÚrandr1   r2   Úfloor_Údiv)r+   r,   r-   Ú	keep_probr3   Úrandom_tensorÚoutputs          r*   Ú	drop_pathr<   ?   s   € ð CÓžxØˆØI‘€IØ[‰[˜‰^Ð ¨¯
©
°Q©Ñ 7Ñ7€EØ¤§
¢
¨5¿¹ÈEÏLÉLÑ YÑY€MØ×ÑÔØY‰YyÓ! MÑ1€FØ€Mr)   c                   óŠ   ^ • \ rS rSrSrSS\\   SS4U 4S jjjrS\R                  S\R                  4S jr
S\4S	 jrS
rU =r$ )ÚBeitDropPathéS   zXDrop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).Nr,   r.   c                 ó.   >• [         TU ]  5         Xl        g ©N)ÚsuperÚ__init__r,   )Úselfr,   Ú	__class__s     €r*   rC   ÚBeitDropPath.__init__V   s   ø€ Ü‰ÑÔØ"r)   Úhidden_statesc                 óB   • [        XR                  U R                  5      $ rA   )r<   r,   r-   ©rD   rG   s     r*   ÚforwardÚBeitDropPath.forwardZ   s   € Ü˜¯©¸¿¹ÓFÐFr)   c                 ó    • SU R                    3$ )Nzp=©r,   ©rD   s    r*   Ú
extra_reprÚBeitDropPath.extra_repr]   s   € ØD—N‘NÐ#Ð$Ð$r)   rM   rA   )r#   r$   r%   r&   r'   r   ÚfloatrC   r5   r   rJ   ÚstrrO   r(   Ú__classcell__©rE   s   @r*   r>   r>   S   sQ   ø† Ùbñ# (¨5¡/ð #¸T÷ #ð #ðG U§\¡\ð G°e·l±lô Gð%˜C÷ %ò %r)   r>   c            	       óä   ^ • \ rS rSrSrS\SS4U 4S jjrS\R                  S\	S	\	S\R                  4S
 jr
  SS\R                  S\\R                     S\\   S\R                  4S jjrSrU =r$ )ÚBeitEmbeddingséc   z[
Construct the CLS token, position and patch embeddings. Optionally, also the mask token.

Úconfigr.   Nc                 ó^  >• [         TU ]  5         [        R                  " [        R
                  " SSUR                  5      5      U l        UR                  (       a<  [        R                  " [        R
                  " SSUR                  5      5      U l	        OS U l	        [        U5      U l        UR                  U l        [        UR                  [        R                   R"                  5      (       a  UR                  OUR                  UR                  4U l        U R                  R$                  nUR&                  (       a?  [        R                  " [        R
                  " SUS-   UR                  5      5      U l        OS U l        [        R*                  " UR,                  5      U l        g )Nr   )rB   rC   r   Ú	Parameterr5   ÚzerosÚhidden_sizeÚ	cls_tokenÚuse_mask_tokenÚ
mask_tokenÚBeitPatchEmbeddingsÚpatch_embeddingsÚ
patch_sizeÚ
isinstanceÚ
image_sizeÚcollectionsÚabcÚIterableÚnum_patchesÚ use_absolute_position_embeddingsÚposition_embeddingsÚDropoutÚhidden_dropout_probÚdropout)rD   rX   rh   rE   s      €r*   rC   ÚBeitEmbeddings.__init__i   s'  ø€ Ü‰ÑÔäŸš¤e§k¢k°!°Q¸×8JÑ8JÓ&KÓLˆŒØ× × Ü Ÿlšl¬5¯;ª;°q¸!¸V×=OÑ=OÓ+PÓQˆDOà"ˆDŒOÜ 3°FÓ ;ˆÔØ ×+Ñ+ˆŒô ˜&×+Ñ+¬[¯_©_×-EÑ-E×FÑFð ×Òà×#Ñ# V×%6Ñ%6Ð7ð 	Œð
 ×+Ñ+×7Ñ7ˆØ×2×2Ü')§|¢|´E·K²KÀÀ;ÐQRÁ?ÐTZ×TfÑTfÓ4gÓ'hˆDÕ$à'+ˆDÔ$Ü—z’z &×"<Ñ"<Ó=ˆr)   Ú
embeddingsÚheightÚwidthc                 óœ  • UR                   S   S-
  nU R                  R                   S   S-
  n[        R                  R	                  5       (       d  XE:X  a  X#:X  a  U R                  $ U R                  SS2SS24   nU R                  SS2SS24   nUR                   S   nX R
                  -  n	X0R
                  -  n
[        US-  5      nUR                  SX»U5      nUR                  SSSS5      n[        R                  R                  UXš4SS	S
9nUR                  SSSS5      R                  SSU5      n[        R                  " Xg4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   Néÿÿÿÿg      à?r   r   é   ÚbicubicF©ÚsizeÚmodeÚalign_corners©Údim)r3   rj   r5   ÚjitÚ
is_tracingrb   r   ÚreshapeÚpermuter   Ú
functionalÚinterpolateÚviewÚcat)rD   ro   rp   rq   rh   Únum_positionsÚclass_pos_embedÚpatch_pos_embedr{   Ú
new_heightÚ	new_widthÚsqrt_num_positionss               r*   Úinterpolate_pos_encodingÚ'BeitEmbeddings.interpolate_pos_encoding€   sS  € ð !×&Ñ& qÑ)¨AÑ-ˆØ×0Ñ0×6Ñ6°qÑ9¸AÑ=ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×+Ñ+Ð+à×2Ñ2²1°b°q°b°5Ñ9ˆØ×2Ñ2²1°a±b°5Ñ9ˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ
ØŸ_™_Ñ,ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr)   Úpixel_valuesÚbool_masked_posrŠ   c                 ó,  • U R                   b  Ub  [        R                  " S5        UR                  u    pEnU R	                  U5      u  nu  p‰UR                  5       u  p«nUbI  U R                  R                  X«S5      nUR                  S5      R                  U5      nUSU-
  -  XÍ-  -   nU R                  R                  U
SS5      n[        R                  " Xç4SS9nU R                   b  XpR                  XuU5      -   nU R                  U5      nXxU	44$ )Nz·`interpolate_pos_encoding` argument has no effect for BEiTEmbeddings, embeddings are always interpolated to the input image size. The argument will be removed in transformers v4.51.0.rs   r   rz   )rj   ÚwarningsÚwarnr3   ra   rw   r_   ÚexpandÚ	unsqueezeÚtype_asr]   r5   rƒ   rŠ   rm   )rD   rŒ   r   rŠ   Ú_rp   rq   ro   Úpatch_heightÚpatch_widthÚ
batch_sizeÚseq_lenÚmask_tokensÚwÚ
cls_tokenss                  r*   rJ   ÚBeitEmbeddings.forward¨   s  € ð ×#Ñ#Ñ/Ð4LÑ4XÜMŠMðnôð
 +×0Ñ0Ñˆˆ1eØ26×2GÑ2GÈÓ2UÑ/ˆ
Ñ/\Ø!+§¡Ó!2Ñˆ
˜QàÑ&ØŸ/™/×0Ñ0°ÀbÓIˆKà×)Ñ)¨"Ó-×5Ñ5°kÓBˆAØ# q¨1¡uÑ-°±Ñ?ˆJà—^‘^×*Ñ*¨:°r¸2Ó>ˆ
Ü—Y’Y 
Ð7¸QÑ?ˆ
à×#Ñ#Ñ/Ø#×&CÑ&CÀJÐX]Ó&^Ñ^ˆJà—\‘\ *Ó-ˆ
à¨+Ð6Ð6Ð6r)   )r]   rm   rd   r_   ra   rb   rj   ©NN)r#   r$   r%   r&   r'   r   rC   r5   r   ÚintrŠ   r   Ú
BoolTensorÚboolrJ   r(   rS   rT   s   @r*   rV   rV   c   s   ø† ñð
>˜zð >¨d÷ >ð.&D°5·<±<ð &DÈð &DÐUXð &DÐ]b×]iÑ]iô &DðV 7;Ø37ñ	7à—l‘lð7ð " %×"2Ñ"2Ñ3ð7ð #+¨4¡.ð	7ð
 
‰÷7ó 7r)   rV   c                   óf   ^ • \ rS rSrSrU 4S jrS\R                  S\R                  4S jrSr	U =r
$ )r`   éÉ   zÜ
This class turns `pixel_values` of shape `(batch_size, num_channels, height, width)` into the initial
`hidden_states` (patch embeddings) of shape `(batch_size, seq_length, hidden_size)` to be consumed by a
Transformer.
c                 ó   >• [         TU ]  5         UR                  UR                  p2UR                  UR
                  pT[        U[        R                  R                  5      (       a  UOX"4n[        U[        R                  R                  5      (       a  UOX34nUS   US   -  US   US   -  -  nUS   US   -  US   US   -  4nX l        X0l        X@l        X`l
        Xpl        [        R                  " XEX3S9U l        g )Nr   r   ©Úkernel_sizeÚstride)rB   rC   rd   rb   Únum_channelsr\   rc   re   rf   rg   rh   Úpatch_shaper   ÚConv2dÚ
projection)	rD   rX   rd   rb   r§   r\   rh   r¨   rE   s	           €r*   rC   ÚBeitPatchEmbeddings.__init__Ð   sî   ø€ Ü‰ÑÔØ!'×!2Ñ!2°F×4EÑ4EJØ$*×$7Ñ$7¸×9KÑ9Kkä#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ü#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ø! !‘}¨
°1©Ñ5¸*ÀQ¹-È:ÐVWÉ=Ñ:XÑYˆØ! !‘}¨
°1©Ñ5°zÀ!±}È
ÐSTÉÑ7UÐVˆØ$ŒØ$ŒØ(ÔØ&ÔØ&ÔäŸ)š) LÈ:Ñiˆr)   rŒ   r.   c                 óü   • UR                   u  p#pEX0R                  :w  a  [        S5      eU R                  U5      nUR                   S   UR                   S   p‡UR	                  S5      R                  SS5      nXgU44$ )NzeMake sure that the channel dimension of the pixel values match with the one set in the configuration.rt   r   r   )r3   r§   Ú
ValueErrorrª   ÚflattenÚ	transpose)	rD   rŒ   r—   r§   rp   rq   ro   r•   r–   s	            r*   rJ   ÚBeitPatchEmbeddings.forwardá   s†   € Ø2>×2DÑ2DÑ/ˆ
 &Ø×,Ñ,Ó,ÜØwóð ð —_‘_ \Ó2ˆ
Ø$.×$4Ñ$4°QÑ$7¸×9IÑ9IÈ!Ñ9LkØ×'Ñ'¨Ó*×4Ñ4°Q¸Ó:ˆ
à¨+Ð6Ð6Ð6r)   )rd   r§   rh   r¨   rb   rª   )r#   r$   r%   r&   r'   rC   r5   r   rJ   r(   rS   rT   s   @r*   r`   r`   É   s.   ø† ñõjð"7 E§L¡Lð 7°U·\±\÷ 7ò 7r)   r`   c                   ó   ^ • \ rS rSrSS\S\\   SS4U 4S jjjr     SS\R                  S\\R                     S	\
S
\\R                     S\
S\\\      S\\\R                     \\R                  \R                  4   4   4S jjrSrU =r$ )ÚBeitSelfAttentionéï   NrX   Úwindow_sizer.   c                 óJ  >• [         TU ]  5         Xl        UR                  UR                  -  S:w  a7  [        US5      (       d&  [        SUR                   SUR                   S35      eUR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l	        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  SS9U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                   5      U l        [%        U5      U l        U R&                  (       a  [)        XS9U l        g g )	Nr   Úembedding_sizezThe hidden size z4 is not a multiple of the number of attention heads Ú.F)Úbias©r´   )rB   rC   rX   r\   Únum_attention_headsÚhasattrr­   rž   Úattention_head_sizeÚall_head_sizer   ÚLinearÚqueryÚkeyÚvaluerk   Úattention_probs_dropout_probrm   r    Úhas_relative_position_biasÚBeitRelativePositionBiasÚrelative_position_bias©rD   rX   r´   rE   s      €r*   rC   ÚBeitSelfAttention.__init__ð   sN  ø€ Ü‰ÑÔØŒØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ" 6×#5Ñ#5Ð"6ð 7Ø×3Ñ3Ð4°Að7óð ð
 $*×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔä—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÈ%ÑPˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
ä—z’z &×"EÑ"EÓFˆŒä*.¨{Ó*;ˆÔ'Ø×*×*Ü*BÀ6Ñ*cˆDÕ'ð +r)   rG   Ú	head_maskÚoutput_attentionsrÅ   rŠ   Ú
resolutionc                 ó–  • UR                   u  pxn	U R                  U5      R                  USU R                  U R                  5      R                  SS5      n
U R                  U5      R                  USU R                  U R                  5      R                  SS5      nU R                  U5      R                  USU R                  U R                  5      R                  SS5      n[        R                  " X«R                  SS5      5      nU[        R                  " U R                  5      -  nU R                  (       aS  Uu  pïXàR                  R                  -  XðR                  R                  -  4nXÐR                  UXQR                   S   S9-   nUb  XÔ-   n[         R"                  R%                  USS9nU R'                  U5      nUb  UU-  n[        R                  " UU5      nUR)                  SSSS5      R+                  5       nUR-                  5       S S U R.                  4-   nUR                  " U6 nU(       a  UU4nU$ U4nU$ )	Nrs   r   rt   éþÿÿÿ©Údim_sizerz   r   r   )r3   r¿   r‚   rº   r¼   r¯   rÀ   rÁ   r5   ÚmatmulÚmathÚsqrtrÃ   rX   rb   rÅ   r   r€   Úsoftmaxrm   r   Ú
contiguousrw   r½   )rD   rG   rÈ   rÉ   rÅ   rŠ   rÊ   r—   Ú
seq_lengthr”   Úquery_layerÚ	key_layerÚvalue_layerÚattention_scoresrp   rq   r´   Úattention_probsÚcontext_layerÚnew_context_layer_shapeÚoutputss                        r*   rJ   ÚBeitSelfAttention.forward  s1  € ð %2×$7Ñ$7Ñ!ˆ
 àJ‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð H‰H]Ó#ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð J‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ô !Ÿ<š<¨×5HÑ5HÈÈRÓ5PÓQÐà+¬d¯iªi¸×8PÑ8PÓ.QÑQÐð ×*×*Ø&‰MˆFØ!§[¡[×%;Ñ%;Ñ;¸UÇkÁk×F\ÑF\Ñ=\Ð]ˆKØ/×2MÑ2MØÐ5×@SÑ@SÐTUÑ@Vð 3Nð 3ñ  Ðð
 "Ñ-Ø/ÑHÐô Ÿ-™-×/Ñ/Ð0@ÀbÐ/ÐIˆð Ÿ,™, Ó7ˆð Ñ Ø-°	Ñ9ˆOäŸš _°kÓBˆà%×-Ñ-¨a°°A°qÓ9×DÑDÓFˆØ"/×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×*Ò*Ð,CÐDˆæ6G= /Ð2ˆàˆð O\ÐM]ˆàˆr)   )
r½   r¼   rX   rm   rÃ   rÀ   rº   r¿   rÅ   rÁ   rA   ©NFNFN)r#   r$   r%   r&   r   r   ÚtuplerC   r5   r   r    rž   r   rJ   r(   rS   rT   s   @r*   r²   r²   ï   sÏ   ø† ñd˜zð d¸À¹ð dÐSW÷ dð dð4 -1Ø"'Ø9=Ø).Ø+/ñ>à—|‘|ð>ð ˜EŸL™LÑ)ð>ð  ð	>ð
 !)¨¯©Ñ 6ð>ð #'ð>ð ˜U 3™ZÑ(ð>ð 
ˆuU—\‘\Ñ" E¨%¯,©,¸¿¹Ð*DÑ$EÐEÑ	F÷>ó >r)   r²   c                   ó   ^ • \ rS rSr     SS\R
                  S\\R
                     S\S\\R
                     S\S\\\	      S\
\\R
                     \\R
                  \R
                  4   4   4U 4S	 jjjrS
rU =r$ )ÚBeitSdpaSelfAttentioniH  rG   rÈ   rÉ   rÅ   rŠ   rÊ   r.   c           
      óª  >• U(       d  Ub'  [         R                  S5        [        TU ]  UUUUUUS9$ UR                  u  pxn	U R                  U5      R                  USU R                  U R                  5      R                  SS5      n
U R                  U5      R                  USU R                  U R                  5      R                  SS5      nU R                  U5      R                  USU R                  U R                  5      R                  SS5      nS nU R                  (       aQ  Uu  pïXàR                  R                  -  XðR                  R                  -  4nU R                  UXQR                  S   S9nUb
  Uc  UnOXÔ-  nS[         R"                  " U R                  5      -  n[$        R&                  R(                  R+                  U
UUUU R,                  (       a  U R                  R.                  OSSUS	9nUR1                  S
SSS5      R3                  5       nUR5                  5       S S U R6                  4-   nUR                  " U6 nUS 4$ )NaŽ  `BeitSdpaSelfAttention` is used but `torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True` or `head_mask`. Falling back to the manual attention implementation, but specifying the manual implementation will be required from Transformers version v5.0.0 onwards. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.)rG   rÈ   rÉ   rÅ   rŠ   rÊ   rs   r   rt   rÍ   r0   F)Ú	attn_maskÚ	dropout_pÚ	is_causalÚscaler   r   rÌ   )ÚloggerÚwarning_oncerB   rJ   r3   r¿   r‚   rº   r¼   r¯   rÀ   rÁ   rÃ   rX   rb   rÅ   rÐ   rÑ   r5   r   r€   Úscaled_dot_product_attentionr-   rÂ   r   rÓ   rw   r½   )rD   rG   rÈ   rÉ   rÅ   rŠ   rÊ   r—   rÔ   r”   rÕ   rÖ   r×   Ú	attn_biasrp   rq   r´   ÚscalingrÚ   rÛ   rE   s                       €r*   rJ   ÚBeitSdpaSelfAttention.forwardI  sH  ø€ ö  	Ñ 5Ü×Ñðwôô ‘7‘?Ø+Ø#Ø"3Ø'=Ø)AØ%ð #ð ð ð %2×$7Ñ$7Ñ!ˆ
 àJ‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð H‰H]Ó#ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð J‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð ˆ	Ø×*×*Ø&‰MˆFØ!§[¡[×%;Ñ%;Ñ;¸UÇkÁk×F\ÑF\Ñ=\Ð]ˆKØ×3Ñ3ØÐ5×@SÑ@SÐTUÑ@Vð 4ð ˆIð
 "Ñ-ØÑ Ø2‘	àÑ3	à”d—i’i × 8Ñ 8Ó9Ñ9ˆÜŸ™×+Ñ+×HÑHØØØØØBFÇ-Ç-d—k‘k×>Ò>ÐUXØØð Ið 
ˆð &×-Ñ-¨a°°A°qÓ9×DÑDÓFˆØ"/×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×*Ò*Ð,CÐDˆØ˜dÐ"Ð"r)   r"   rÞ   )r#   r$   r%   r&   r5   r   r   r    rß   rž   r   rJ   r(   rS   rT   s   @r*   rá   rá   H  s¯   ø† ð -1Ø"'Ø9=Ø).Ø+/ñF#à—|‘|ðF#ð ˜EŸL™LÑ)ðF#ð  ð	F#ð
 !)¨¯©Ñ 6ðF#ð #'ðF#ð ˜U 3™ZÑ(ðF#ð 
ˆuU—\‘\Ñ" E¨%¯,©,¸¿¹Ð*DÑ$EÐEÑ	F÷F#ö F#r)   rá   c                   óŽ   ^ • \ rS rSrSrS\SS4U 4S jjrSS\R                  S\R                  S\R                  4S	 jjr	S
r
U =r$ )ÚBeitSelfOutputi’  z•
The residual connection is defined in BeitLayer instead of here (as is the case with other models), due to the
layernorm applied before each block.
rX   r.   Nc                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  5      U l        g rA   )	rB   rC   r   r¾   r\   Údenserk   rl   rm   ©rD   rX   rE   s     €r*   rC   ÚBeitSelfOutput.__init__˜  sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr)   rG   Úinput_tensorc                 óJ   • U R                  U5      nU R                  U5      nU$ rA   ©rð   rm   )rD   rG   ró   Úgammas       r*   rJ   ÚBeitSelfOutput.forward  ó$   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆàÐr)   rõ   rA   )r#   r$   r%   r&   r'   r   rC   r5   r   rJ   r(   rS   rT   s   @r*   rî   rî   ’  sI   ø† ñð
>˜zð >¨d÷ >ñ
 U§\¡\ð ÀÇÁð Ð^c×^jÑ^j÷ ó r)   rî   )ÚeagerÚsdpac                   ó&  ^ • \ rS rSrSS\S\\   SS4U 4S jjjrS r     SS\	R                  S	\\	R                     S
\S\\	R                     S\S\\\      S\\\	R                     \\	R                  \	R                  4   4   4S jjrSrU =r$ )ÚBeitAttentioniª  NrX   r´   r.   c                 ó˜   >• [         TU ]  5         [        UR                     " XS9U l        [        U5      U l        [        5       U l        g )Nr¹   )	rB   rC   ÚBEIT_SELF_ATTENTION_CLASSESÚ_attn_implementationÚ	attentionrî   r;   ÚsetÚpruned_headsrÆ   s      €r*   rC   ÚBeitAttention.__init__«  s<   ø€ Ü‰ÑÔÜ4°V×5PÑ5PÒQÐRXÑrˆŒÜ$ VÓ,ˆŒÜ›EˆÕr)   c                 ó6  • [        U5      S:X  a  g [        XR                  R                  U R                  R                  U R
                  5      u  p[        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l	        [        U R                  R                  USS9U R                  l        U R                  R                  [        U5      -
  U R                  l        U R                  R                  U R                  R                  -  U R                  l        U R
                  R                  U5      U l        g )Nr   r   rz   )Úlenr   r   rº   r¼   r  r   r¿   rÀ   rÁ   r;   rð   r½   Úunion)rD   ÚheadsÚindexs      r*   Úprune_headsÚBeitAttention.prune_heads±  s  € Üˆu‹:˜‹?ØÜ7Ø—>‘>×5Ñ5°t·~±~×7YÑ7YÐ[_×[lÑ[ló
‰ˆô
  2°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ/°·±×0BÑ0BÀEÓJˆ‰ÔÜ1°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð .2¯^©^×-OÑ-OÔRUÐV[ÓR\Ñ-\ˆ‰Ô*Ø'+§~¡~×'IÑ'IÈDÏNÉN×LnÑLnÑ'nˆ‰Ô$Ø ×-Ñ-×3Ñ3°EÓ:ˆÕr)   rG   rÈ   rÉ   rÅ   rŠ   rÊ   c                 óh   • U R                  XX4XV5      nU R                  US   U5      nU4USS  -   n	U	$ )Nr   r   )r   r;   )
rD   rG   rÈ   rÉ   rÅ   rŠ   rÊ   Úself_outputsÚattention_outputrÜ   s
             r*   rJ   ÚBeitAttention.forwardÃ  sK   € ð —~‘~ØÐ&7ÐQió
ˆð  Ÿ;™; |°A¡¸ÓFÐà#Ð%¨°Q°RÐ(8Ñ8ˆØˆr)   )r   r;   r  rA   rÞ   )r#   r$   r%   r&   r   r   rß   rC   r	  r5   r   r    rž   r   rJ   r(   rS   rT   s   @r*   rü   rü   ª  sÏ   ø† ñ"˜zð "¸À¹ð "ÐSW÷ "ð "ò;ð* -1Ø"'Ø9=Ø).Ø+/ñà—|‘|ðð ˜EŸL™LÑ)ðð  ð	ð
 !)¨¯©Ñ 6ðð #'ðð ˜U 3™ZÑ(ðð 
ˆuU—\‘\Ñ" E¨%¯,©,¸¿¹Ð*DÑ$EÐEÑ	F÷ó r)   rü   c                   ón   ^ • \ rS rSrS\SS4U 4S jjrS\R                  S\R                  4S jrSr	U =r
$ )	ÚBeitIntermediateiÖ  rX   r.   Nc                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g rA   )rB   rC   r   r¾   r\   Úintermediate_sizerð   rc   Ú
hidden_actrR   r   Úintermediate_act_fnrñ   s     €r*   rC   ÚBeitIntermediate.__init__×  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$r)   rG   c                 óJ   • U R                  U5      nU R                  U5      nU$ rA   ©rð   r  rI   s     r*   rJ   ÚBeitIntermediate.forwardß  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆàÐr)   r  ©r#   r$   r%   r&   r   rC   r5   r   rJ   r(   rS   rT   s   @r*   r  r  Ö  s6   ø† ð9˜zð 9¨d÷ 9ð U§\¡\ð °e·l±l÷ ò r)   r  c                   ón   ^ • \ rS rSrS\SS4U 4S jjrS\R                  S\R                  4S jrSr	U =r
$ )	Ú
BeitOutputiæ  rX   r.   Nc                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR                  5      U l	        g rA   )
rB   rC   r   r¾   r  r\   rð   rk   rl   rm   rñ   s     €r*   rC   ÚBeitOutput.__init__ç  sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr)   rG   c                 óJ   • U R                  U5      nU R                  U5      nU$ rA   rõ   rI   s     r*   rJ   ÚBeitOutput.forwardì  rø   r)   rõ   r  rT   s   @r*   r  r  æ  s6   ø† ð>˜zð >¨d÷ >ð
 U§\¡\ð °e·l±l÷ ò r)   r  c                   ó,  ^ • \ rS rSrSrSS\S\\   S\SS4U 4S jjjr	     SS	\
R                  S
\\
R                     S\S\\
R                     S\S\\\\4      S\\\
R                     \\
R                  \
R                  4   4   4S jjrSrU =r$ )Ú	BeitLayerió  z?This corresponds to the Block class in the timm implementation.NrX   r´   Údrop_path_rater.   c                 óì  >• [         TU ]  5         UR                  U l        SU l        [	        XS9U l        [        U5      U l        [        U5      U l	        [        R                  " UR                  UR                  S9U l        US:”  a  [        U5      O[        R                   " 5       U l        [        R                  " UR                  UR                  S9U l        UR&                  nUS:”  aw  [        R(                  " U[*        R,                  " UR                  5      -  SS9U l        [        R(                  " U[*        R,                  " UR                  5      -  SS9U l        g Su  U l        U l        g )	Nr   r¹   ©Úepsr0   r   T)Úrequires_gradr   )rB   rC   Úchunk_size_feed_forwardÚseq_len_dimrü   r   r  Úintermediater  r;   r   Ú	LayerNormr\   Úlayer_norm_epsÚlayernorm_beforer>   ÚIdentityr<   Úlayernorm_afterÚlayer_scale_init_valuerZ   r5   ÚonesÚlambda_1Úlambda_2)rD   rX   r´   r"  Úinit_valuesrE   s        €r*   rC   ÚBeitLayer.__init__ö  s  ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ& vÑGˆŒÜ,¨VÓ4ˆÔÜ  Ó(ˆŒÜ "§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÔØ9GÈ#Ó9Mœ nÔ5ÔSU×S^ÒS^ÓS`ˆŒÜ!Ÿ|š|¨F×,>Ñ,>ÀF×DYÑDYÑZˆÔà×3Ñ3ˆØ˜‹?ÜŸLšL¨´u·z²zÀ&×BTÑBTÓ7UÑ)UÐeiÑjˆDŒMÜŸLšL¨´u·z²zÀ&×BTÑBTÓ7UÑ)UÐeiÑjˆDMà+5Ñ(ˆDŒM˜4=r)   rG   rÈ   rÉ   rÅ   rŠ   rÊ   c           	      ó’  • U R                  U R                  U5      UUUUUS9nUS   nUSS  n	U R                  b  U R                  U-  nU R                  U5      U-   nU R	                  U5      n
U R                  U
5      n
U R                  U
5      n
U R                  b  U R                  U
-  n
U R                  U
5      U-   n
U
4U	-   n	U	$ )N)rÉ   rÅ   rŠ   rÊ   r   r   )r   r,  r1  r<   r.  r)  r;   r2  )rD   rG   rÈ   rÉ   rÅ   rŠ   rÊ   Úself_attention_outputsr  rÜ   Úlayer_outputs              r*   rJ   ÚBeitLayer.forward  sî   € ð "&§¡Ø×!Ñ! -Ó0ØØ/Ø#9Ø%=Ø!ð "0ð "
Ðð 2°!Ñ4ÐØ(¨¨Ð,ˆð =‰=Ñ$Ø#Ÿ}™}Ð/?Ñ?Ðð Ÿ™Ð'7Ó8¸=ÑHˆð ×+Ñ+¨MÓ:ˆà×(Ñ(¨Ó6ˆØ—{‘{ <Ó0ˆà=‰=Ñ$ØŸ=™=¨<Ñ7ˆLð —~‘~ lÓ3°mÑCˆà/ GÑ+ˆàˆr)   )
r   r'  r<   r)  r1  r2  r.  r,  r;   r(  )Nr0   rÞ   )r#   r$   r%   r&   r'   r   r   rß   rQ   rC   r5   r   r    rž   r   rJ   r(   rS   rT   s   @r*   r!  r!  ó  sÙ   ø† ÙIñ6˜zð 6¸À¹ð 6Ð`eð 6Ðpt÷ 6ð 6ð* -1Ø"'Ø9=Ø).Ø04ñ)à—|‘|ð)ð ˜EŸL™LÑ)ð)ð  ð	)ð
 !)¨¯©Ñ 6ð)ð #'ð)ð ˜U 3¨ 8™_Ñ-ð)ð 
ˆuU—\‘\Ñ" E¨%¯,©,¸¿¹Ð*DÑ$EÐEÑ	F÷)ó )r)   r!  c                   ó¤   ^ • \ rS rSrS\S\SS4U 4S jjr\" SS9S\\\4   S\	R                  4S	 j5       rSS
\S\	R                  4S jjrSrU =r$ )rÄ   i4  rX   r´   r.   Nc                 óô   >• [         TU ]  5         X l        SUS   -  S-
  SUS   -  S-
  -  S-   U l        [        R
                  " [        R                  " U R                  UR                  5      5      U l	        g )Nrt   r   r   r   )
rB   rC   r´   Únum_relative_distancer   rZ   r5   r[   rº   Úrelative_position_bias_tablerÆ   s      €r*   rC   Ú!BeitRelativePositionBias.__init__5  sp   ø€ Ü‰ÑÔØ&ÔØ&'¨+°a©.Ñ&8¸1Ñ&<ÀÀ[ÐQRÁ^ÑASÐVWÑAWÑ%XÐ[\Ñ%\ˆÔ"Ü,.¯LªLÜKŠK˜×2Ñ2°F×4NÑ4NÓOó-
ˆÕ)r)   é
   )Úmaxsizec                 ó  • SUS   -  S-
  SUS   -  S-
  -  S-   nUS   US   -  n[         R                  " [         R                  " US   5      [         R                  " US   5      SS9n[         R                  " U5      n[         R                  " US5      nUSS2SS2S4   USS2SSS24   -
  nUR                  SSS5      R                  5       nUSS2SS2S4==   US   S-
  -  ss'   USS2SS2S4==   US   S-
  -  ss'   USS2SS2S4==   SUS   -  S-
  -  ss'   [         R                  " US-   4S-  UR                  S9nUR                  S	5      USS2SS24'   US-
  USSS24'   US-
  USS2S4'   US-
  US
'   U$ )z§
This method creates the relative position index, modified to support arbitrary window sizes,
as introduced in [MiDaS v3.1](https://huggingface.co/papers/2307.14460).
rt   r   r   r   Úij)ÚindexingN)rw   r1   rs   )r   r   )
r5   ÚmeshgridÚarangeÚstackr®   r   rÓ   r[   r1   Úsum)	rD   r´   r;  Úwindow_areaÚgridÚcoordsÚcoords_flattenÚrelative_coordsÚrelative_position_indexs	            r*   Ú generate_relative_position_indexÚ9BeitRelativePositionBias.generate_relative_position_index>  sµ  € ð "# [°¡^Ñ!3°aÑ!7¸AÀÈAÁÑ<NÐQRÑ<RÑ SÐVWÑ WÐð " !‘n {°1¡~Ñ5ˆÜ~Š~œeŸlšl¨;°q©>Ó:¼E¿LºLÈÐUVÉÓ<XÐcgÑhˆÜ—’˜TÓ"ˆÜŸš v¨qÓ1ˆØ(ªªA¨t¨Ñ4°~ÂaÈÊqÀjÑ7QÑQˆØ)×1Ñ1°!°Q¸Ó:×EÑEÓGˆØšš1˜a˜Ó  K°¡N°QÑ$6Ñ6Ó Øšš1˜a˜Ó  K°¡N°QÑ$6Ñ6Ó Øšš1˜a˜Ó  A¨°A©Ñ$6¸Ñ$:Ñ:Ó Ü"'§+¢+°KÀ!±OÐ3EÈÑ3IÐQ`×QfÑQfÑ"gÐØ*9×*=Ñ*=¸bÓ*AÐ ¡ A¡B Ñ'Ø)>ÀÑ)BÐ  1¡2 Ñ&Ø)>ÀÑ)BÐ ¡ A Ñ&Ø(=ÀÑ(AÐ Ñ%Ø&Ð&r)   rŠ   c                 ó–  • SU R                   S   -  S-
  nSU R                   S   -  S-
  nSUS   -  S-
  nSUS   -  S-
  nU R                  nU R                  n	Xg-  S-   n
USU	S-
   nUR                  SXTS5      R	                  SSSS5      n[
        R                  R                  U[        U5      [        U5      4SS9nUR	                  SSSS5      R                  U
S-
  S5      n[        R                  " XÈU	S-
  S /5      nU R                  U5      nXÞR                  S5         nUR                  US   US   -  S-   US   US   -  S-   S5      nUR	                  SSS5      R                  5       nU(       a?  [
        R                  R                  UR                  S5      X34SS	S
9R                  S5      nUR                  S5      $ )ze
Modification of timm.models.beit.py: Attention._get_rel_pos_bias to support arbitrary window sizes.
rt   r   r   r   Nrs   Úbilinear)rw   rx   Frv   )r´   r<  r;  r~   r   r   r€   r   r   r5   rƒ   rM  r‚   rÓ   r’   Úsqueeze)rD   r´   rŠ   rÎ   Ú
old_heightÚ	old_widthr‡   rˆ   Ú old_relative_position_bias_tableÚold_num_relative_distanceÚnew_num_relative_distanceÚold_sub_tableÚnew_sub_tableÚ new_relative_position_bias_tablerL  rÅ   s                   r*   rJ   Ú BeitRelativePositionBias.forwardW  s!  € ð ˜×)Ñ)¨!Ñ,Ñ,¨qÑ0ˆ
Ø˜×(Ñ(¨Ñ+Ñ+¨aÑ/ˆ	à˜ Q™Ñ'¨!Ñ+ˆ
Ø˜ A™Ñ&¨Ñ*ˆ	à+/×+LÑ+LÐ(à$(×$>Ñ$>Ð!Ø$.Ñ$:¸QÑ$>Ð!à8Ð9XÐ;TÐWXÑ;XÐYˆà%×-Ñ-¨a°ÈÓK×SÑSÐTUÐWXÐZ[Ð]^Ó_ˆÜŸ™×1Ñ1Ø¤¨:Ó!6¼	À)Ó8LÐ MÐT^ð 2ð 
ˆð &×-Ñ-¨a°°A°qÓ9×AÑAÐB[Ð^_ÑB_ÐacÓdˆä+0¯9ª9ØÐ=VÐYZÑ=ZÐ=\Ð]Ð^ó,
Ð(ð #'×"GÑ"GÈÓ"TÐØ!A×B^ÑB^Ð_aÓBbÑ!cÐð "8×!<Ñ!<Ø˜‰N˜[¨™^Ñ+¨aÑ/°¸Q±À+ÈaÁ.Ñ1PÐSTÑ1TÐVXó"
Ðð "8×!?Ñ!?ÀÀ1ÀaÓ!H×!SÑ!SÓ!UÐæ#Ü%'§]¡]×%>Ñ%>Ø&×0Ñ0°Ó3ØÐ)ØØ#ð	 &?ð &÷
 ‰ga‹jð #ð &×/Ñ/°Ó2Ð2r)   )r;  r<  r´   )FN)r#   r$   r%   r&   r   rß   rC   r   rž   r5   r   rM  r    rJ   r(   rS   rT   s   @r*   rÄ   rÄ   4  sr   ø† ð
˜zð 
¸ð 
À$÷ 
ñ )°Ñ4ð'¸EÀ#ÀsÀ(¹Oð 'ÐPU×P\ÑP\ó 'ó 5ð'ñ0-3¸Tð -3Ð]b×]iÑ]i÷ -3ó -3r)   rÄ   c                   óÄ   ^ • \ rS rSrSS\S\\   SS4U 4S jjjr      SS\R                  S\\R                     S	\
S
\
S\
S\\\\4      S\
S\\\4   4S jjrSrU =r$ )ÚBeitEncoderi‡  NrX   r´   r.   c                 óö  >• [         TU ]  5         Xl        UR                  U l        U R                  (       a  [        XS9U l        [        R                  " SUR                  UR                  SS9 Vs/ sH  o3R                  5       PM     nn[        R                  " [        UR                  5       Vs/ sH#  n[        UUR                   (       a  UOS XE   S9PM%     sn5      U l        SU l        g s  snf s  snf )Nr¹   r   Úcpu)r2   )r´   r"  F)rB   rC   rX   Ú!use_shared_relative_position_biasrÃ   rÄ   rÅ   r5   Úlinspacer"  Únum_hidden_layersÚitemr   Ú
ModuleListÚranger!  Úuse_relative_position_biasÚlayerÚgradient_checkpointing)rD   rX   r´   ÚxÚdprÚirE   s         €r*   rC   ÚBeitEncoder.__init__ˆ  sÛ   ø€ Ü‰ÑÔØŒØ*0×*RÑ*RˆÔ'Ø×*×*Ü*BÀ6Ñ*cˆDÔ'ô "'§¢°°6×3HÑ3HÈ&×JbÑJbÐkpÒ!qÓrÑ!q˜Av‰vŽxÑ!qˆÐrÜ—]’]ô ˜v×7Ñ7Ô8óñ 9Aô ØØ/5×/P×/P¡ÐVZØ#&¡6ôñ
 9ñó	
ˆŒ
ð ',ˆÕ#ùò sùòs   Á3C1Â4)C6rG   rÈ   rÉ   Úoutput_hidden_statesrŠ   rÊ   Úreturn_dictc           
      ó  • U(       a  SOS nU(       a  SOS n	[        U R                  5       H¡  u  p«U(       a  X4-   nU R                  (       aR  Uu  pÍXÀR                  R                  -  XÐR                  R                  -  4nU R                  XåUR                  S   S9nOS nUb  X*   OS nU" UUUUUUS9nUS   nU(       d  M˜  U	US   4-   n	M£     U(       a  X4-   nU(       d  [        S XU	4 5       5      $ [        UUU	S9$ )Nr"   r   )rŠ   rÎ   )rÈ   rÉ   rÅ   rŠ   rÊ   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frA   r"   )Ú.0Úvs     r*   Ú	<genexpr>Ú&BeitEncoder.forward.<locals>.<genexpr>Ë  s   é € ÐmÑ$[˜qŸ™Ò$[ùs   ‚‹	)Úlast_hidden_staterG   Ú
attentions)	Ú	enumeraterf  rÃ   rX   rb   rÅ   r3   rß   r   )rD   rG   rÈ   rÉ   rl  rŠ   rÊ   rm  Úall_hidden_statesÚall_self_attentionsrj  Úlayer_modulerp   rq   r´   rÅ   Úlayer_head_maskÚlayer_outputss                     r*   rJ   ÚBeitEncoder.forward  s1  € ö #7™B¸DÐÞ$5™b¸4Ðä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!à×.×.Ø *‘Ø%¯©×)?Ñ)?Ñ?ÀÏ+É+×J`ÑJ`ÑA`ÐaØ)-×)DÑ)DØÐ]j×]pÑ]pÐqrÑ]sð *Eð *Ñ&ð *.Ð&à.7Ñ.C˜išlÈˆOá(ØØ)Ø"3Ø'=Ø)AØ%ñˆMð *¨!Ñ,ˆMç Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÒ#ñ7  5ö:  Ø 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+Ø+Ø*ñ
ð 	
r)   )rX   rg  rÃ   rf  rÅ   rA   )NFFFNT)r#   r$   r%   r&   r   r   rß   rC   r5   r   r    rž   r   r   rJ   r(   rS   rT   s   @r*   r\  r\  ‡  s·   ø† ñ,˜zð ,¸À¹ð ,ÐSW÷ ,ð ,ð0 -1Ø"'Ø%*Ø).Ø04Ø ñ3
à—|‘|ð3
ð ˜EŸL™LÑ)ð3
ð  ð	3
ð
 #ð3
ð #'ð3
ð ˜U 3¨ 8™_Ñ-ð3
ð ð3
ð 
ˆuoÐ%Ñ	&÷3
ó 3
r)   r\  c                   óB   • \ rS rSr% \\S'   SrSrSrS/r	S/r
SrS rS	rg
)ÚBeitPreTrainedModeliÓ  rX   ÚbeitrŒ   Tr!  z.*relative_position_index.*c                 ó0  • [        U[        R                  [        R                  [        R                  45      (       ak  UR
                  R                  R                  SU R                  R                  S9  UR                  b%  UR                  R                  R                  5         gg[        U[        R                  5      (       ax  UR
                  R                  R                  SU R                  R                  S9  UR                  b2  UR
                  R                  UR                     R                  5         gg[        U[        R                  5      (       aJ  UR                  R                  R                  5         UR
                  R                  R                  S5        g[        U[         5      (       aˆ  UR"                  R                  R                  5         UR$                  b$  UR$                  R                  R                  5         UR&                  b%  UR&                  R                  R                  5         gg[        U[(        5      (       a%  UR*                  R                  R                  5         g[        U[,        5      (       a  UR.                  bs  UR.                  R                  R                  U R                  R0                  5        UR2                  R                  R                  U R                  R0                  5        ggg)zInitialize the weightsr0   )ÚmeanÚstdNg      ð?)rc   r   r¾   r©   ÚConvTranspose2dÚweightÚdataÚnormal_rX   Úinitializer_ranger¸   Úzero_Ú	EmbeddingÚpadding_idxr*  Úfill_rV   r]   r_   rj   rÄ   r<  r!  r1  r/  r2  )rD   Úmodules     r*   Ú_init_weightsÚ!BeitPreTrainedModel._init_weightsÝ  s  € äfœrŸy™y¬"¯)©)´R×5GÑ5GÐH×IÑIð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤×/Ñ/Ø×Ñ×!Ñ!×'Ñ'Ô)Ø× Ñ Ñ,Ø×!Ñ!×&Ñ&×,Ñ,Ô.Ø×)Ñ)Ñ5Ø×*Ñ*×/Ñ/×5Ñ5Õ7ð 6ä˜Ô 8×9Ñ9Ø×/Ñ/×4Ñ4×:Ñ:Õ<Ü˜¤	×*Ñ*Ø‰Ñ*Ø—‘×$Ñ$×*Ñ*¨4¯;©;×+MÑ+MÔNØ—‘×$Ñ$×*Ñ*¨4¯;©;×+MÑ+MÕNð +ð +r)   r"   N)r#   r$   r%   r&   r   Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesÚ"_keys_to_ignore_on_load_unexpectedÚ_supports_sdpar  r(   r"   r)   r*   r~  r~  Ó  s5   ‡ àÓØÐØ$€OØ&*Ð#Ø$˜ÐØ*HÐ)IÐ&Ø€NõOr)   r~  c                   óð   ^ • \ rS rSrSS\S\SS4U 4S jjjrS rS r\	      SS	\
R                  S
\\
R                     S\\
R                     S\\   S\\   S\S\\   S\\\4   4S jj5       rSrU =r$ )Ú	BeitModeliú  rX   Úadd_pooling_layerr.   Nc                 ó¢  >• [         TU ]  U5        Xl        [        U5      U l        [        XR                  R                  R                  S9U l        UR                  (       a  [        R                  " 5       O([        R                  " UR                  UR                  S9U l        U(       a  [!        U5      OSU l        U R%                  5         g)z^
add_pooling_layer (bool, *optional*, defaults to `True`):
    Whether to add a pooling layer
r¹   r$  N)rB   rC   rX   rV   ro   r\  ra   r¨   ÚencoderÚuse_mean_poolingr   r-  r*  r\   r+  Ú	layernormÚ
BeitPoolerÚpoolerÚ	post_init)rD   rX   r˜  rE   s      €r*   rC   ÚBeitModel.__init__ü  s‘   ø€ ô
 	‰Ñ˜Ô ØŒä(¨Ó0ˆŒÜ" 6·±×7WÑ7W×7cÑ7cÑdˆŒð $×4×4ŒBKŠKŒM¼"¿,º,Àv×GYÑGYÐ_e×_tÑ_tÑ:uð 	Œö ->”j Ô(À4ˆŒð 	‰Õr)   c                 ó.   • U R                   R                  $ rA   ©ro   ra   rN   s    r*   Úget_input_embeddingsÚBeitModel.get_input_embeddings  ó   € Ø‰×/Ñ/Ð/r)   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)Úitemsrš  rf  r   r	  )rD   Úheads_to_prunerf  r  s       r*   Ú_prune_headsÚBeitModel._prune_heads  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r)   rŒ   r   rÈ   rÉ   rl  rŠ   rm  c           
      ó2  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  X0R                   R
                  5      nU R                  XS9u  p‰UR                  SS n
U R                  UUUUU
UUS9nUS   nU R                  U5      nU R                  b  U R                  U5      OSnU(       d  Ub  XÍ4OU4nXëSS -   $ [        UUUR                  UR                  S9$ )z³
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, num_patches)`, *optional*):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).
N)r   rt   )rÈ   rÉ   rl  rÊ   rm  rŠ   r   r   )rt  Úpooler_outputrG   ru  )rX   rÉ   rl  Úuse_return_dictÚget_head_maskra  ro   r3   rš  rœ  rž  r    rG   ru  )rD   rŒ   r   rÈ   rÉ   rl  rŠ   rm  Úembedding_outputr”   rÊ   Úencoder_outputsÚsequence_outputÚpooled_outputÚhead_outputss                  r*   rJ   ÚBeitModel.forward  s;  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð ×&Ñ& y·+±+×2OÑ2OÓPˆ	à"Ÿo™o¨l˜oÐ\ÑÐØ!×'Ñ'¨¨Ð+ˆ
àŸ,™,ØØØ/Ø!5Ø!Ø#Ø%=ð 'ð 
ˆð *¨!Ñ,ˆØŸ.™.¨Ó9ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆæØ?LÑ?X˜OÑ;Ð_nÐ^pˆLØ°!°"Ð"5Ñ5Ð5ä)Ø-Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r)   )rX   ro   rš  rœ  rž  )T)NNNNFN)r#   r$   r%   r&   r   r    rC   r£  r©  r   r5   r   r   rŸ   r   rß   r    rJ   r(   rS   rT   s   @r*   r—  r—  ú  sÒ   ø† ñ˜zð ¸dð Èd÷ ð ò&0òCð ð 7;Ø,0Ø,0Ø/3Ø).Ø&*ñ4
à—l‘lð4
ð " %×"2Ñ"2Ñ3ð4
ð ˜EŸL™LÑ)ð	4
ð
 $ D™>ð4
ð ' t™nð4
ð #'ð4
ð ˜d‘^ð4
ð 
ˆuÐ0Ð0Ñ	1ô4
ó ö4
r)   r—  c                   ón   ^ • \ rS rSrS\SS4U 4S jjrS\R                  S\R                  4S jrSr	U =r
$ )	r  iR  rX   r.   Nc                 ó°   >• [         TU ]  5         UR                  (       a/  [        R                  " UR
                  UR                  S9U l        g S U l        g )Nr$  )rB   rC   r›  r   r*  r\   r+  rœ  rñ   s     €r*   rC   ÚBeitPooler.__init__S  sA   ø€ Ü‰ÑÔàKQ×Kb×KbŒBLŠL˜×+Ñ+°×1FÑ1FÑGð 	Øhlð 	r)   rG   c                 ó’   • U R                   b0  US S 2SS 2S S 24   nU R                  UR                  S5      5      nU$ US S 2S4   nU$ )Nr   r   )rœ  r  )rD   rG   Úpatch_tokensr²  s       r*   rJ   ÚBeitPooler.forwardY  sU   € Ø>‰>Ñ%à(ª¨A©B²¨Ñ2ˆLØ ŸN™N¨<×+<Ñ+<¸QÓ+?Ó@ˆMð
 Ðð *ª!¨Q¨$Ñ/ˆMàÐr)   )rœ  r  rT   s   @r*   r  r  R  s6   ø† ð
˜zð 
¨d÷ 
ð	 U§\¡\ð 	°e·l±l÷ 	ò 	r)   r  aÔ  
    Beit Model transformer with a 'language' modeling head on top. BEiT does masked image modeling by predicting
    visual tokens of a Vector-Quantize Variational Autoencoder (VQ-VAE), whereas other vision models like ViT and DeiT
    predict RGB pixel values. As a result, this class is incompatible with [`AutoModelForMaskedImageModeling`], so you
    will need to use [`BeitForMaskedImageModeling`] directly if you wish to do masked image modeling with BEiT.
    c                   ó
  ^ • \ rS rSrS\SS4U 4S jjrS r\        SS\\	R                     S\\	R                     S	\\	R                     S
\\	R                     S\\   S\\   S\S\\   S\\\4   4S jj5       rSrU =r$ )ÚBeitForMaskedImageModelingie  rX   r.   Nc                 ó@  >• [         TU ]  U5        UR                  U l        [        USS9U l        [
        R                  " UR                  UR                  S9U l	        [
        R                  " UR                  UR                  5      U l        U R                  5         g )NF©r˜  r$  )rB   rC   Ú
num_labelsr—  r  r   r*  r\   r+  rœ  r¾   Ú
vocab_sizeÚlm_headrŸ  rñ   s     €r*   rC   Ú#BeitForMaskedImageModeling.__init__n  su   ø€ Ü‰Ñ˜Ô à ×+Ñ+ˆŒÜ˜f¸Ñ>ˆŒ	ô Ÿš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—y’y ×!3Ñ!3°V×5FÑ5FÓGˆŒð 	‰Õr)   c                 ó   • g rA   r"   rN   s    r*   Úget_output_embeddingsÚ0BeitForMaskedImageModeling.get_output_embeddings{  s   € ð r)   rŒ   r   rÈ   ÚlabelsrÉ   rl  rŠ   rm  c	           
      ól  • Ub  UOU R                   R                  nU R                  UUUUUUUS9n	U	S   n
U R                  U
5      n
U R	                  U
SS2SS24   5      nSnUb  [        5       nU" X²   U5      nU(       d  U4U	SS -   nUb  U4U-   $ U$ [        UUU	R                  U	R                  S9$ )a½  
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, num_patches)`):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

Examples:

```python
>>> from transformers import AutoImageProcessor, BeitForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/beit-base-patch16-224-pt22k")
>>> model = BeitForMaskedImageModeling.from_pretrained("microsoft/beit-base-patch16-224-pt22k")

>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()

>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, logits = outputs.loss, outputs.logits
>>> list(logits.shape)
[1, 196, 8192]
```N)r   rÈ   rÉ   rl  rŠ   rm  r   r   ©ÚlossÚlogitsrG   ru  )	rX   r­  r  rœ  rÁ  r	   r   rG   ru  )rD   rŒ   r   rÈ   rÆ  rÉ   rl  rŠ   rm  rÜ   r±  Úprediction_scoresÚmasked_lm_lossÚloss_fctr;   s                  r*   rJ   Ú"BeitForMaskedImageModeling.forward  sí   € ðX &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—)‘)ØØ+ØØ/Ø!5Ø%=Ø#ð ð 
ˆð " !™*ˆØŸ.™.¨Ó9ˆØ ŸL™L¨º¸A¹B¸Ñ)?Ó@ÐàˆØÑÜ'Ó)ˆHÙ%Ð&7Ñ&HÈ&ÓQˆNæØ'Ð)¨G°A°B¨KÑ7ˆFØ3AÑ3M^Ð%¨Ñ.ÐYÐSYÐYäØØ$Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
r)   )r  rœ  rÁ  r¿  )NNNNNNFN)r#   r$   r%   r&   r   rC   rÄ  r   r   r5   r   rŸ   r    r   rß   r   rJ   r(   rS   rT   s   @r*   r¼  r¼  e  sè   ø† ð˜zð ¨d÷ òð ð 04Ø6:Ø,0Ø)-Ø,0Ø/3Ø).Ø&*ñI
à˜uŸ|™|Ñ,ðI
ð " %×"2Ñ"2Ñ3ðI
ð ˜EŸL™LÑ)ð	I
ð
 ˜Ÿ™Ñ&ðI
ð $ D™>ðI
ð ' t™nðI
ð #'ðI
ð ˜d‘^ðI
ð 
ˆunÐ$Ñ	%ôI
ó öI
r)   r¼  z¶
    Beit Model transformer with an image classification head on top (a linear layer on top of the average of the final
    hidden states of the patch tokens) e.g. for ImageNet.
    c                   óä   ^ • \ rS rSrS\SS4U 4S jjr\       SS\\R                     S\\R                     S\\R                     S	\\
   S
\\
   S\
S\\
   S\\\4   4S jj5       rSrU =r$ )ÚBeitForImageClassificationiÎ  rX   r.   Nc                 ó.  >• [         TU ]  U5        UR                  U l        [        USS9U l        UR                  S:”  a+  [
        R                  " UR                  UR                  5      O[
        R                  " 5       U l	        U R                  5         g )NTr¾  r   )rB   rC   r¿  r—  r  r   r¾   r\   r-  Ú
classifierrŸ  rñ   s     €r*   rC   Ú#BeitForImageClassification.__init__Õ  ss   ø€ Ü‰Ñ˜Ô à ×+Ñ+ˆŒÜ˜f¸Ñ=ˆŒ	ð OU×N_ÑN_ÐbcÓNcœ"Ÿ)š) F×$6Ñ$6¸×8IÑ8IÔJÔik×itÒitÓivˆŒð 	‰Õr)   rŒ   rÈ   rÆ  rÉ   rl  rŠ   rm  c           	      óP  • Ub  UOU R                   R                  nU R                  UUUUUUS9nU(       a  UR                  OUS   n	U R	                  U	5      n
SnUGbŽ  U R                   R
                  c‘  U R                  S:X  a  SU R                   l        OoU R                  S:”  aN  UR                  [        R                  :X  d  UR                  [        R                  :X  a  SU R                   l        OSU R                   l        U R                   R
                  S:X  aI  [        5       nU R                  S:X  a&  U" U
R                  5       UR                  5       5      nOŒU" X£5      nOƒU R                   R
                  S:X  a=  [        5       nU" U
R                  SU R                  5      UR                  S5      5      nO,U R                   R
                  S:X  a  [        5       nU" X£5      nU(       d  U
4USS -   nUb  U4U-   $ U$ [!        UU
UR"                  UR$                  S	9$ )
ab  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
N©rÈ   rÉ   rl  rŠ   rm  r   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationrs   rt   rÈ  )rX   r­  r  r¬  rÒ  Úproblem_typer¿  r1   r5   Úlongrž   r
   rQ  r	   r‚   r   r   rG   ru  )rD   rŒ   rÈ   rÆ  rÉ   rl  rŠ   rm  rÜ   r²  rÊ  rÉ  rÍ  r;   s                 r*   rJ   Ú"BeitForImageClassification.forwardá  s×  € ð" &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ—)‘)ØØØ/Ø!5Ø%=Ø#ð ð 
ˆö 2=˜×-Ò-À'È!Á*ˆà—‘ Ó/ˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/ÞØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r)   )r  rÒ  r¿  ©NNNNNFN)r#   r$   r%   r&   r   rC   r   r   r5   r   r    r   rß   r   rJ   r(   rS   rT   s   @r*   rÐ  rÐ  Î  sÁ   ø† ð
˜zð 
¨d÷ 
ð ð 04Ø,0Ø)-Ø,0Ø/3Ø).Ø&*ñ=
à˜uŸ|™|Ñ,ð=
ð ˜EŸL™LÑ)ð=
ð ˜Ÿ™Ñ&ð	=
ð
 $ D™>ð=
ð ' t™nð=
ð #'ð=
ð ˜d‘^ð=
ð 
ˆuÐ+Ð+Ñ	,ô=
ó ö=
r)   rÐ  c                   óÎ   ^ • \ rS rSrSr   SS\S\S\\\\\4   4   S\\\\\4   \4   S\	S\\\\\4   4   S	S
4U 4S jjjr
S\R                  S	\R                  4S jrSrU =r$ )ÚBeitConvModulei"  a4  
A convolutional block that bundles conv/norm/activation layers. This block simplifies the usage of convolution
layers, which are commonly used with a norm layer (e.g., BatchNorm) and activation layer (e.g., ReLU).

Based on OpenMMLab's implementation, found in https://github.com/open-mmlab/mmsegmentation.
Úin_channelsÚout_channelsr¥   Úpaddingr¸   Údilationr.   Nc           	      óÈ   >• [         TU ]  5         [        R                  " UUUUUUS9U l        [        R
                  " U5      U l        [        R                  " 5       U l        g )N)rß  rà  r¥   rá  r¸   râ  )	rB   rC   r   r©   ÚconvÚBatchNorm2dÚbnÚReLUÚ
activation)rD   rß  rà  r¥   rá  r¸   râ  rE   s          €r*   rC   ÚBeitConvModule.__init__*  sQ   ø€ ô 	‰ÑÔÜ—I’IØ#Ø%Ø#ØØØñ
ˆŒ	ô —.’. Ó.ˆŒÜŸ'š'›)ˆr)   r+   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ rA   )rä  ræ  rè  )rD   r+   r;   s      r*   rJ   ÚBeitConvModule.forward?  s0   € Ø—‘˜5Ó!ˆØ—‘˜“ˆØ—‘ Ó(ˆàˆr)   )rè  ræ  rä  )r   Fr   )r#   r$   r%   r&   r'   rž   r   rß   rR   r    rC   r5   r   rJ   r(   rS   rT   s   @r*   rÞ  rÞ  "  s¹   ø† ñð 56ØØ01ñ$àð$ð ð$ð ˜3  c¨3 h¡Ð/Ñ0ð	$ð
 s˜E # s (™O¨SÐ0Ñ1ð$ð ð$ð ˜˜U 3¨ 8™_Ð,Ñ-ð$ð 
÷$ð $ð*˜UŸ\™\ð ¨e¯l©l÷ ò r)   rÞ  c                   óv   ^ • \ rS rSrS\S\S\SS4U 4S jjrS\R                  S\R                  4S	 jrS
r	U =r
$ )ÚBeitPyramidPoolingBlockiG  Ú
pool_scalerß  Úchannelsr.   Nc                 óÞ   >• [         TU ]  5         [        R                  " U5      [	        X#SS9/U l        [        U R
                  5       H   u  pEU R                  [        U5      U5        M"     g )Nr   ©r¥   )	rB   rC   r   ÚAdaptiveAvgPool2drÞ  Úlayersrv  Ú
add_modulerR   )rD   rî  rß  rï  rj  rf  rE   s         €r*   rC   Ú BeitPyramidPoolingBlock.__init__H  sX   ø€ Ü‰ÑÔä× Ò  Ó,Ü˜;¸aÑ@ð
ˆŒô " $§+¡+Ö.‰HˆAØO‰OœC ›F EÖ*ò /r)   r+   c                 ó@   • UnU R                    H  nU" U5      nM     U$ rA   ©ró  )rD   r+   Úhidden_staterf  s       r*   rJ   ÚBeitPyramidPoolingBlock.forwardQ  s%   € ØˆØ—[”[ˆEÙ  Ó.ŠLñ !àÐr)   r÷  )r#   r$   r%   r&   rž   rC   r5   r   rJ   r(   rS   rT   s   @r*   rí  rí  G  sD   ø† ð+ 3ð +°Sð +ÀCð +ÈD÷ +ð˜UŸ\™\ð ¨e¯l©l÷ ò r)   rí  c            
       óŽ   ^ • \ rS rSrSrS\\S4   S\S\S\SS	4
U 4S
 jjrS\	R                  S\\	R                     4S jrSrU =r$ )ÚBeitPyramidPoolingModuleiX  aŽ  
Pyramid Pooling Module (PPM) used in PSPNet.

Args:
    pool_scales (tuple[int]): Pooling scales used in Pooling Pyramid
        Module.
    in_channels (int): Input channels.
    channels (int): Channels after modules, before conv_seg.
    align_corners (bool): align_corners argument of F.interpolate.

Based on OpenMMLab's implementation, found in https://github.com/open-mmlab/mmsegmentation.
Úpool_scales.rß  rï  ry   r.   Nc                 ó  >• [         TU ]  5         Xl        X@l        X l        X0l        / U l        [        U5       HE  u  pV[        XbUS9nU R                  R                  U5        U R                  [        U5      U5        MG     g )N)rî  rß  rï  )rB   rC   rü  ry   rß  rï  Úblocksrv  rí  Úappendrô  rR   )	rD   rü  rß  rï  ry   rj  rî  ÚblockrE   s	           €r*   rC   Ú!BeitPyramidPoolingModule.__init__f  sn   ø€ Ü‰ÑÔØ&ÔØ*ÔØ&ÔØ ŒØˆŒÜ& {Ö3‰MˆAÜ+°zÐemÑnˆEØK‰K×Ñ˜uÔ%ØO‰OœC ›F EÖ*ò 4r)   rh  c                 óÖ   • / nU R                    HV  nU" U5      n[        R                  R                  XAR	                  5       SS  SU R
                  S9nUR                  U5        MX     U$ )Nrt   rP  rv   )rþ  r   r€   r   rw   ry   rÿ  )rD   rh  Úppm_outsÚppmÚppm_outÚupsampled_ppm_outs         r*   rJ   Ú BeitPyramidPoolingModule.forwardr  sg   € ØˆØ—;”;ˆCÙ˜!“fˆGÜ "§¡× 9Ñ 9ØŸf™f›h q r˜l°È4×K]ÑK]ð !:ð !Ðð O‰OÐ-Ö.ñ ð ˆr)   )ry   rþ  rï  rß  rü  )r#   r$   r%   r&   r'   rß   rž   r    rC   r5   r   ÚlistrJ   r(   rS   rT   s   @r*   rû  rû  X  s`   ø† ñð
+ E¨#¨s¨(¡Oð 
+À#ð 
+ÐQTð 
+Ðeið 
+Ðnr÷ 
+ð˜Ÿ™ð ¨$¨u¯|©|Ñ*<÷ ò r)   rû  c                   óx   ^ • \ rS rSrSrS\SS4U 4S jjrS rS\R                  S\R                  4S	 jr
S
rU =r$ )ÚBeitUperHeadi}  zê
Unified Perceptual Parsing for Scene Understanding. This head is the implementation of
[UPerNet](https://huggingface.co/papers/1807.10221).

Based on OpenMMLab's implementation, found in https://github.com/open-mmlab/mmsegmentation.
rX   r.   Nc                 óè  >• [         TU ]  5         UR                  U l        UR                  /S-  U l        UR                  U l        SU l        [        R                  " U R
                  UR                  SS9U l
        [        U R                  U R                  S   U R
                  U R                  S9U l        [        U R                  S   [        U R                  5      U R
                  -  -   U R
                  SSS9U l        [        R                   " 5       U l        [        R                   " 5       U l        U R                  S S  Hm  n[        X R
                  SS9n[        U R
                  U R
                  SSS9nU R"                  R'                  U5        U R$                  R'                  U5        Mo     [        [        U R                  5      U R
                  -  U R
                  SSS9U l        g )	Né   Fr   rñ  rs   )ry   r   ©r¥   rá  )rB   rC   rü  r\   rß  rï  ry   r   r©   r¿  rÒ  rû  Úpsp_modulesrÞ  r  Ú
bottleneckrc  Úlateral_convsÚ	fpn_convsrÿ  Úfpn_bottleneck)rD   rX   rß  Úl_convÚfpn_convrE   s        €r*   rC   ÚBeitUperHead.__init__…  s•  ø€ Ü‰ÑÔà!×-Ñ-ˆÔØ"×.Ñ.Ð/°!Ñ3ˆÔØ×*Ñ*ˆŒØ"ˆÔÜŸ)š) D§M¡M°6×3DÑ3DÐRSÑTˆŒô 4Ø×ÑØ×Ñ˜RÑ ØM‰MØ×,Ñ,ñ	
ˆÔô )Ø×Ñ˜RÑ ¤3 t×'7Ñ'7Ó#8¸4¿=¹=Ñ#HÑHØM‰MØØñ	
ˆŒô  Ÿ]š]›_ˆÔÜŸš›ˆŒØ×+Ñ+¨C¨RÓ0ˆKÜ# K·±ÈAÑNˆFÜ% d§m¡m°T·]±]ÐPQÐ[\Ñ]ˆHØ×Ñ×%Ñ% fÔ-ØN‰N×!Ñ! (Ö+ñ	 1ô -Ü× Ñ Ó! D§M¡MÑ1ØM‰MØØñ	
ˆÕr)   c                 ó¢   • US   nU/nUR                  U R                  U5      5        [        R                  " USS9nU R	                  U5      nU$ )Nrs   r   rz   )Úextendr  r5   rƒ   r  )rD   Úinputsrh  Úpsp_outsr;   s        r*   Úpsp_forwardÚBeitUperHead.psp_forward«  sL   € Ø2‰JˆØ3ˆØ‰˜×(Ñ(¨Ó+Ô,Ü—9’9˜X¨1Ñ-ˆØ—‘ Ó*ˆàˆr)   Úencoder_hidden_statesc           	      ó<  • [        U R                  5       VVs/ sH  u  p#U" X   5      PM     nnnUR                  U R                  U5      5        [	        U5      n[        US-
  SS5       HP  nXBS-
     R                  SS  nXBS-
     [        R                  R                  XB   USU R                  S9-   XBS-
  '   MR     [        US-
  5       Vs/ sH  o R                  U   " XB   5      PM     nnUR                  US   5        [        US-
  SS5       HA  n[        R                  R                  Xr   US   R                  SS  SU R                  S9Xr'   MC     [        R                  " USS9nU R                  U5      nU R                  U5      nU$ s  snnf s  snf )Nr   r   rs   rt   rP  rv   rz   )rv  r  rÿ  r  r  rd  r3   r   r€   r   ry   r  r5   rƒ   r  rÒ  )	rD   r  rj  Úlateral_convÚlateralsÚused_backbone_levelsÚ
prev_shapeÚfpn_outsr;   s	            r*   rJ   ÚBeitUperHead.forward´  s  € äR[Ð\`×\nÑ\nÔRoÔpÑRo¹¸q‘LÐ!6Ñ!9Ö:ÑRoˆÑpà‰˜×(Ñ(Ð)>Ó?Ô@ô  # 8›}ÐÜÐ+¨aÑ/°°BÖ7ˆAØ! a¡%™×.Ñ.¨q¨rÐ2ˆJØ&¨1¡u™o´·±×0IÑ0IØ‘ *°:ÈT×M_ÑM_ð 1Jð 1ñ ˆH˜‘U‹Oñ 8ô =BÐBVÐYZÑBZÔ<[Ó\Ñ<[°q—N‘N 1Ò% h¡kÖ2Ñ<[ˆÐ\à‰˜ ™Ô%äÐ+¨aÑ/°°BÖ7ˆAÜŸ-™-×3Ñ3Ø‘ (¨1¡+×"3Ñ"3°A°BÐ"7¸jÐX\×XjÑXjð 4ð ˆH‹Kñ 8ô —9’9˜X¨1Ñ-ˆØ×$Ñ$ XÓ.ˆØ—‘ Ó(ˆàˆùó3 qùò ]s   ™FÃF)
ry   r  rï  rÒ  r  r  rß  r  rü  r  )r#   r$   r%   r&   r'   r   rC   r  r5   r   rJ   r(   rS   rT   s   @r*   r
  r
  }  sA   ø† ñð$
˜zð $
¨d÷ $
òLð¨U¯\©\ð ¸e¿l¹l÷ ò r)   r
  c                   ó˜   ^ • \ rS rSrSr SS\S\S\S\\\\\4   4   SS4
U 4S	 jjjr	S
\
R                  S\
R                  4S jrSrU =r$ )ÚBeitFCNHeadiÒ  a·  
Fully Convolution Networks for Semantic Segmentation. This head is implemented of
[FCNNet](https://huggingface.co/papers/1411.4038>).

Args:
    config (BeitConfig): Configuration.
    in_channels
    kernel_size (int): The kernel size for convs in the head. Default: 3.
    dilation (int): The dilation rate for convs in the head. Default: 1.


Based on OpenMMLab's implementation, found in https://github.com/open-mmlab/mmsegmentation.
rX   Úin_indexr¥   râ  r.   Nc                 ó2  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U l        UR                  U l	        X l
        US-  U-  n/ nUR                  [        U R                  U R
                  X5US95        [        U R                  S-
  5       H2  nUR                  [        U R
                  U R
                  X5US95        M4     U R                  S:X  a  [        R                  " 5       U l        O[        R"                  " U6 U l        U R                  (       a4  [        U R                  U R
                  -   U R
                  X3S-  S9U l        [        R&                  " U R
                  UR(                  SS9U l        g )Nrt   )r¥   rá  râ  r   r   r  rñ  )rB   rC   r\   rß  Úauxiliary_channelsrï  Úauxiliary_num_convsÚ	num_convsÚauxiliary_concat_inputÚconcat_inputr&  rÿ  rÞ  rd  r   r-  ÚconvsÚ
SequentialÚconv_catr©   r¿  rÒ  )	rD   rX   r&  r¥   râ  Úconv_paddingr-  rj  rE   s	           €r*   rC   ÚBeitFCNHead.__init__á  sH  ø€ ô 	‰ÑÔØ!×-Ñ-ˆÔØ×1Ñ1ˆŒØ×3Ñ3ˆŒØ"×9Ñ9ˆÔØ Œà# qÑ(¨HÑ4ˆØˆØ‰ÜØ× Ñ  $§-¡-¸[Ðiqñô	
ô
 t—~‘~¨Ñ)Ö*ˆAØL‰LÜØ—M‘M 4§=¡=¸kÐjrñöñ +ð >‰>˜QÓÜŸš›ˆDJäŸš¨Ð.ˆDŒJØ××Ü*Ø× Ñ  4§=¡=Ñ0°$·-±-È[ÐqrÑbrñˆDŒMô Ÿ)š) D§M¡M°6×3DÑ3DÐRSÑTˆr)   r  c                 óÒ   • XR                      nU R                  U5      nU R                  (       a%  U R                  [        R
                  " X#/SS95      nU R                  U5      nU$ )Nr   rz   )r&  r-  r,  r/  r5   rƒ   rÒ  )rD   r  rG   r;   s       r*   rJ   ÚBeitFCNHead.forward  sT   € à-¯m©mÑ<ˆØ—‘˜MÓ*ˆØ××Ø—]‘]¤5§9¢9¨mÐ-DÈ!Ñ#LÓMˆFØ—‘ Ó(ˆØˆr)   )rï  rÒ  r,  r/  r-  rß  r&  r*  )rt   r   r   )r#   r$   r%   r&   r'   r   rž   r   rß   rC   r5   r   rJ   r(   rS   rT   s   @r*   r%  r%  Ò  s   ø† ñð tuñ UØ ð UØ,/ð UØBEð UØUZÐ[^Ð`eÐfiÐknÐfnÑ`oÐ[oÑUpð Uà	÷ Uð  UðD¨U¯\©\ð ¸e¿l¹l÷ ò r)   r%  c                   óê   ^ • \ rS rSrS\SS4U 4S jjrS r\       SS\\	R                     S\\	R                     S	\\	R                     S
\\   S\\   S\S\\   S\\\4   4S jj5       rSrU =r$ )ÚBeitForSemanticSegmentationi  rX   r.   Nc                 óx  >• [         TU ]  U5        UR                  U l        [        USS9U l        [        U R                  R                  5      S:w  a  [        S5      e[        R                  " [        R                  " UR                  UR                  SSS9[        R                  " UR                  5      [        R                  " 5       [        R                  " UR                  UR                  SSS95      U l        [        R                  " [        R                  " UR                  UR                  SSS95      U l        [        R"                  " 5       U l        [        R&                  " SSS9U l        [+        U5      U l        UR.                  (       a  [1        U5      OS U l        U R5                  5         g )NFr¾  r  zÇBeitForSemanticSegmentation requires config.out_indices to be a list of 4 integers, specifying which features to use from the backbone. One can use [3, 5, 7, 11] in case of a base-sized architecture.rt   r¤   )rB   rC   r¿  r—  r  r  rX   Úout_indicesr­   r   r.  rƒ  r\   rå  ÚGELUÚfpn1Úfpn2r-  Úfpn3Ú	MaxPool2dÚfpn4r
  Údecode_headÚuse_auxiliary_headr%  Úauxiliary_headrŸ  rñ   s     €r*   rC   Ú$BeitForSemanticSegmentation.__init__  sO  ø€ Ü‰Ñ˜Ô à ×+Ñ+ˆŒÜ˜f¸Ñ>ˆŒ	ô ˆt{‰{×&Ñ&Ó'¨1Ó,Üð-óð ô
 —M’MÜ×Ò˜v×1Ñ1°6×3EÑ3EÐSTÐ]^Ñ_ÜNŠN˜6×-Ñ-Ó.ÜGŠG‹IÜ×Ò˜v×1Ñ1°6×3EÑ3EÐSTÐ]^Ñ_ó	
ˆŒ	ô —M’MÜ×Ò˜v×1Ñ1°6×3EÑ3EÐSTÐ]^Ñ_ó
ˆŒ	ô —K’K“MˆŒ	Ü—L’L¨Q°qÑ9ˆŒ	ô (¨Ó/ˆÔØ5;×5N×5Nœk¨&Ô1ÐTXˆÔð 	‰Õr)   c                 óX  • [         R                  R                  XR                  SS  SSS9nUb,  [         R                  R                  X#R                  SS  SSS9n[	        U R
                  R                  S9nU" XC5      nUnUb$  U" WU5      n	X€R
                  R                  U	-  -  nU$ )NrÌ   rP  Frv   )Úignore_index)r   r€   r   r3   r	   rX   Úsemantic_loss_ignore_indexÚauxiliary_loss_weight)
rD   rÊ  Úauxiliary_logitsrÆ  Úupsampled_logitsÚupsampled_auxiliary_logitsrÍ  Ú	main_lossrÉ  Úauxiliary_losss
             r*   Úcompute_lossÚ(BeitForSemanticSegmentation.compute_loss/  s¹   € äŸ=™=×4Ñ4ØŸ™ b cÐ*°È5ð 5ð 
Ðð Ñ'Ü)+¯©×)BÑ)BØ §|¡|°B°CÐ'8¸zÐY^ð *Cð *Ð&ô $°·±×1WÑ1WÑXˆÙÐ-Ó6ˆ	ØˆØÑ'Ù%Ð&@À&ÓIˆNØ—K‘K×5Ñ5¸ÑFÑFˆDàˆr)   rŒ   rÈ   rÆ  rÉ   rl  rŠ   rm  c           	      óŠ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb%  U R                   R                  S:X  a  [	        S5      eU R                  UUUSUUS9nU(       a  UR                  OUS   n	[        U	5       V
Vs/ sH&  u  p«U
S-   U R                   R                  ;   d  M$  UPM(     nn
nUR                  S   nU R                   R                  U R                   R                  -  nU Vs/ sH2  oÿSS2SS2SS24   R                  SSS5      R                  USXî5      PM4     nnU R                  U R                  U R                   U R"                  /n[%        ['        U5      5       H  nUU   " UU   5      UU'   M     U R)                  U5      nSnU R*                  b  U R+                  U5      nSnUb  U R-                  UUU5      nU(       d%  U(       a
  U4USS -   nO	U4USS -   nUb  U4U-   $ U$ [/        UUU(       a  UR                  OSUR0                  S	9$ s  snn
f s  snf )
a¼  
labels (`torch.LongTensor` of shape `(batch_size, height, width)`, *optional*):
    Ground truth semantic segmentation maps for computing the loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels > 1`, a classification loss is computed (Cross-Entropy).

Examples:

```python
>>> from transformers import AutoImageProcessor, BeitForSemanticSegmentation
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/beit-base-finetuned-ade-640-640")
>>> model = BeitForSemanticSegmentation.from_pretrained("microsoft/beit-base-finetuned-ade-640-640")

>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> # logits are of shape (batch_size, num_labels, height, width)
>>> logits = outputs.logits
```Nr   z/The number of labels should be greater than oneTrÕ  r   rt   rs   rÈ  )rX   r­  rl  r¿  r­   r  rG   rv  r7  r3   rd   rb   r   r~   r9  r:  r;  r=  rd  r  r>  r@  rK  r   ru  )rD   rŒ   rÈ   rÆ  rÉ   rl  rŠ   rm  rÜ   r  ÚidxÚfeatureÚfeaturesr—   Úpatch_resolutionrh  Úopsrj  rÊ  rF  rÉ  r;   s                         r*   rJ   Ú#BeitForSemanticSegmentation.forwardB  s[  € ðD &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð Ñ $§+¡+×"8Ñ"8¸AÓ"=ÜÐNÓOÐOà—)‘)ØØØ/Ø!%Ø%=Ø#ð ð 
ˆö :E × 5Ò 5È'ÐRSÉ*Ðô 1:Ð:OÔ0PÔwÑ0P¡ ÐTWÐZ[ÑT[Ð_c×_jÑ_j×_vÑ_vÑTv—GÑ0PˆÑwØ!×'Ñ'¨Ñ*ˆ
ØŸ;™;×1Ñ1°T·[±[×5KÑ5KÑKÐánvó
ÙnvÐijŠa‘’Qˆh‰K×Ñ  1 aÓ(×0Ñ0°¸RÐAQÖdÑnvð 	ð 
ð
 y‰y˜$Ÿ)™) T§Y¡Y°·	±	Ð:ˆÜ”s˜8“}Ö%ˆAØ˜aš& ¨!¡Ó-ˆHQ‹Kñ &ð ×!Ñ! (Ó+ˆàÐØ×ÑÑ*Ø#×2Ñ2°8Ó<ÐàˆØÑØ×$Ñ$ VÐ-=¸vÓFˆDæÞ#Ø ˜ W¨Q¨R [Ñ0‘à ˜ W¨Q¨R [Ñ0Ø)-Ñ)9TG˜fÑ$ÐE¸vÐEä&ØØÞ3G˜'×/Ò/ÈTØ×)Ñ)ñ	
ð 	
ùó; xùò
s   Â"H:Â?H:Ä8I )r@  r  r>  r9  r:  r;  r=  r¿  rÜ  )r#   r$   r%   r&   r   rC   rK  r   r   r5   r   r    r   rß   r   rJ   r(   rS   rT   s   @r*   r5  r5    sÑ   ø† ð˜zð ¨d÷ ò@ð& ð 04Ø,0Ø)-Ø,0Ø/3Ø).Ø&*ñX
à˜uŸ|™|Ñ,ðX
ð ˜EŸL™LÑ)ðX
ð ˜Ÿ™Ñ&ð	X
ð
 $ D™>ðX
ð ' t™nðX
ð #'ðX
ð ˜d‘^ðX
ð 
ˆuÐ-Ð-Ñ	.ôX
ó öX
r)   r5  zM
    BEiT backbone, to be used with frameworks like DETR and MaskFormer.
    c                   ór   ^ • \ rS rSrU 4S jrS r\   SS\S\\	   S\\	   S\\	   S\
4
S	 jj5       rS
rU =r$ )ÚBeitBackboneiž  c                 ó˜  >• [         TU ]  U5        [         TU ]	  U5        [        UR                  S-   5       Vs/ sH  o!R
                  PM     snU l        [        U5      U l        [        XR                  R                  R                  S9U l        UR                  (       Ga  [        U R                  R                   5      S:w  a  [#        S5      eUR
                  n[$        R&                  " [$        R(                  " X3SSS9[$        R*                  " X1R,                  S9[$        R.                  " 5       [$        R(                  " X3SSS95      U l        [$        R&                  " [$        R(                  " X3SSS95      U l        [$        R4                  " 5       U l        [$        R8                  " SSS9U l        U R=                  5         g s  snf )Nr   r¹   r  z¸BeitBackbone requires config.out_indices to be a list of 4 integers, specifying which features to use from the backbone. One can use [3, 5, 7, 11] in case of a base-sized architecture.rt   r¤   r$  )rB   rC   Ú_init_backbonerd  ra  r\   Únum_featuresrV   ro   r\  ra   r¨   rš  Úadd_fpnr  rX   r7  r­   r   r.  rƒ  rå  Úbatch_norm_epsr8  r9  r:  r-  r;  r<  r=  rŸ  )rD   rX   r”   r\   rE   s       €r*   rC   ÚBeitBackbone.__init__¤  sW  ø€ Ü‰Ñ˜Ô Ü‰Ñ˜vÔ&ä9>¸v×?WÑ?WÐZ[Ñ?[Ô9\Ó]Ñ9\°A×/Ô/Ñ9\Ñ]ˆÔÜ(¨Ó0ˆŒÜ" 6·±×7WÑ7W×7cÑ7cÑdˆŒà>>ˆ>Ü4—;‘;×*Ñ*Ó+¨qÓ0Ü ð1óð ð
 !×,Ñ,ˆKÜŸšÜ×"Ò" ;ÈÐSTÑUÜ—’˜{×0EÑ0EÑFÜ—’“	Ü×"Ò" ;ÈÐSTÑUó	ˆDŒIô Ÿš¤b×&8Ò&8¸Ð_`ÐijÑ&kÓlˆDŒIÜŸš›ˆDŒIÜŸš°¸1Ñ=ˆDŒIð 	‰Õùò1 ^s   ºGc                 ó.   • U R                   R                  $ rA   r¢  rN   s    r*   r£  Ú!BeitBackbone.get_input_embeddingsÂ  r¥  r)   rŒ   rl  rÉ   rm  r.   c                 óî  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUR                  S   nU R                  U5      u  nu  pxUR                  SS n	U R                  USUU	US9n
U(       a  U
R                  OU
S   nSn[        U R                  U5       Hj  u  pÞXÐR                  ;   d  M  U R                   R                  (       a4  USS2SS2SS24   nUR                  SSS5      nUR                  USXx5      nXÎ4-  nMl     U R                   R                  (       aY  U R                  US   5      U R!                  US   5      U R#                  US   5      U R%                  US	   5      /n['        U5      nU(       d  U(       a  U4U
SS -   nU$ U4U
SS -   nU$ [)        UU(       a  U
R                  OSU
R*                  S
9$ )aª  
Examples:

```python
>>> from transformers import AutoImageProcessor, AutoBackbone
>>> import torch
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> processor = AutoImageProcessor.from_pretrained("microsoft/beit-base-patch16-224")
>>> model = AutoBackbone.from_pretrained(
...     "microsoft/beit-base-patch16-224", out_features=["stage1", "stage2", "stage3", "stage4"]
... )

>>> inputs = processor(image, return_tensors="pt")

>>> outputs = model(**inputs)
>>> feature_maps = outputs.feature_maps
>>> list(feature_maps[-1].shape)
[1, 768, 14, 14]
```Nr   rt   T)rl  rÉ   rÊ   rm  r   r"   rs   r   )Úfeature_mapsrG   ru  )rX   r­  rl  rÉ   r3   ro   rš  rG   ÚzipÚstage_namesÚout_featuresÚreshape_hidden_statesr   r~   rY  r9  r:  r;  r=  rß   r   ru  )rD   rŒ   rl  rÉ   rm  r—   r¯  r•   r–   rÊ   rÜ   rG   r_  Ústagerø  r;   s                   r*   rJ   ÚBeitBackbone.forwardÅ  s   € ð@ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà!×'Ñ'¨Ñ*ˆ
Ø8<¿¹ÈÓ8UÑ5ÐÑ5˜<Ø!×'Ñ'¨¨Ð+ˆ
à—,‘,ØØ!%Ø/Ø!Ø#ð ð 
ˆö 2=˜×-Ò-À'È!Á*ˆàˆÜ#& t×'7Ñ'7¸Ö#GÑˆEØ×)Ñ)Õ)Ø—;‘;×4×4Ø#/²°1±2²q°Ñ#9LØ#/×#7Ñ#7¸¸1¸aÓ#@LØ#/×#7Ñ#7¸
ÀBÈÓ#bLà Ñ/’ñ $Hð ;‰;××à—	‘	˜, q™/Ó*Ø—	‘	˜, q™/Ó*Ø—	‘	˜, q™/Ó*Ø—	‘	˜, q™/Ó*ð	ˆLô ! Ó.ˆLæÞ#Ø&˜¨7°1°2¨;Ñ6ð ˆMð '˜¨7°1°2¨;Ñ6ØˆMäØ%Þ3G˜'×/Ò/ÈTØ×)Ñ)ñ
ð 	
r)   )ro   rš  r9  r:  r;  r=  rX  )NNN)r#   r$   r%   r&   rC   r£  r   r   r   r    r   rJ   r(   rS   rT   s   @r*   rU  rU  ž  so   ø† õò<0ð ð 04Ø,0Ø&*ñQ
àðQ
ð ' t™nðQ
ð $ D™>ð	Q
ð
 ˜d‘^ðQ
ð 
ôQ
ó öQ
r)   rU  )rÐ  r¼  r5  r—  r~  rU  )r0   F)Mr'   Úcollections.abcre   rÐ   r   Údataclassesr   Útypingr   r   r5   Útorch.utils.checkpointr   r   Útorch.nnr   r	   r
   Úactivationsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   r   Úmodeling_utilsr   Úpytorch_utilsr   r   r   Úutilsr   r   r   Úutils.backbone_utilsr   Úconfiguration_beitr   Ú
get_loggerr#   rç   r    rQ   r    r<   ÚModuler>   rV   r`   r²   rá   rî   rþ   rü   r  r  r!  rÄ   r\  r~  r—  r  r¼  rÐ  rÞ  rí  rû  r
  r%  r5  rU  Ú__all__r"   r)   r*   Ú<module>rv     sã  ðñ ã Û Û Ý !ß "ã Û ß ß AÑ Aå !Ý 9÷÷ õ .ß vÑ vß 7Ñ 7Ý 1Ý *ð 
×	Ò	˜HÓ	%€ð Ùðñô
Ð!;ó óó ðñU—\‘\ð ¨eð ÀTð ÐV[×VbÑVbõ ô(%2—9‘9ô %ô c7R—Y‘Yô c7ôL#7˜"Ÿ)™)ô #7ôLV˜Ÿ	™	ô VôrG#Ð-ô G#ôTR—Y‘Yô ð& Ø!ñÐ ô)B—I‘Iô )ôXr—y‘yô ô 
—‘ô 
ô>Ð*ô >ôBP3˜rŸy™yô P3ôfI
"—)‘)ô I
ðX ô#O˜/ó #Oó ð#OðL ôT
Ð#ó T
ó ðT
ôn—‘ô ñ& ðñô^
Ð!4ó ^
óð^
ñB ðñôK
Ð!4ó K
óðK
ô\"R—Y‘Yô "ôJ˜bŸi™iô ô""˜rŸy™yô "ôJR2—9‘9ô Rôj8"—)‘)ô 8ðv ôM
Ð"5ó M
ó ðM
ñ` ðñô
t
Ð&¨ó t
óð
t
ònr)   