ó
    <±hà–  ã            	       óð  • S r SSKrSSKrSSKJr  SSKJrJr  SSK	r	SSK
r	SSK	Jr  SSKJrJrJr  SSKJr  SS	KJr  SS
KJr  SSKJr  SSKJrJrJr  SSKJr  SSKJr  \R@                  " \!5      r"\\" SS9 " S S\5      5       5       r#\\" SS9 " S S\5      5       5       r$\\" SS9 " S S\5      5       5       r%\\" SS9 " S S\5      5       5       r& " S S\RN                  5      r( " S S \RN                  5      r)S@S!\	RT                  S"\+S#\,S$\	RT                  4S% jjr- " S& S'\RN                  5      r. " S( S)\RN                  5      r/ " S* S+\RN                  5      r0 " S, S-\RN                  5      r1 " S. S/\5      r2 " S0 S1\RN                  5      r3\ " S2 S3\5      5       r4\ " S4 S5\45      5       r5\" S6S9 " S7 S8\45      5       r6\" S9S9 " S: S;\45      5       r7\" S<S9 " S= S>\4\5      5       r8/ S?Qr9g)AzPyTorch FocalNet model.é    N)Ú	dataclass)ÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚGradientCheckpointingLayer)ÚBackboneOutput)ÚPreTrainedModel)ÚModelOutputÚauto_docstringÚlogging)ÚBackboneMixiné   )ÚFocalNetConfigzC
    FocalNet encoder's outputs, with potential hidden states.
    )Úcustom_introc                   óž   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\\R                        \	S'   Sr\\\R                        \	S'   Srg)ÚFocalNetEncoderOutputé'   aÕ  
reshaped_hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each stage) of
    shape `(batch_size, hidden_size, height, width)`.

    Hidden-states of the model at the output of each layer plus the initial embedding outputs reshaped to
    include the spatial dimensions.
NÚlast_hidden_stateÚhidden_statesÚreshaped_hidden_states© )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   r   ÚtorchÚFloatTensorÚ__annotations__r   Útupler   Ú__static_attributes__r   ó    Úf/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/focalnet/modeling_focalnet.pyr   r   '   sT   ‡ ñð 6:Ðx × 1Ñ 1Ñ2Ó9Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<ØAEÐ˜H U¨5×+<Ñ+<Ñ%=Ñ>ÖEr'   r   zZ
    FocalNet model's outputs that also contains a pooling of the last hidden states.
    c                   óÆ   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Srg)	ÚFocalNetModelOutputé<   a‘  
pooler_output (`torch.FloatTensor` of shape `(batch_size, hidden_size)`, *optional*, returned when `add_pooling_layer=True` is passed):
    Average pooling of the last layer hidden-state.
reshaped_hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each stage) of
    shape `(batch_size, hidden_size, height, width)`.

    Hidden-states of the model at the output of each layer plus the initial embedding outputs reshaped to
    include the spatial dimensions.
Nr   Úpooler_outputr   r   r   )r   r   r   r    r!   r   r   r"   r#   r$   r,   r   r%   r   r&   r   r'   r(   r*   r*   <   si   ‡ ñ	ð 6:Ðx × 1Ñ 1Ñ2Ó9Ø15€M8˜E×-Ñ-Ñ.Ó5Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<ØAEÐ˜H U¨5×+<Ñ+<Ñ%=Ñ>ÖEr'   r*   z.
    FocalNet masked image model outputs.
    c                   óÆ   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Srg)	Ú!FocalNetMaskedImageModelingOutputéT   aÛ  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `bool_masked_pos` is provided):
    Masked image modeling (MLM) loss.
reconstruction (`torch.FloatTensor` of shape `(batch_size, num_channels, height, width)`):
    Reconstructed pixel values.
reshaped_hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each stage) of
    shape `(batch_size, hidden_size, height, width)`.

    Hidden-states of the model at the output of each layer plus the initial embedding outputs reshaped to
    include the spatial dimensions.
NÚlossÚreconstructionr   r   r   )r   r   r   r    r!   r0   r   r"   r#   r$   r1   r   r%   r   r&   r   r'   r(   r.   r.   T   sh   ‡ ñð )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø26€NH˜U×.Ñ.Ñ/Ó6Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<ØAEÐ˜H U¨5×+<Ñ+<Ñ%=Ñ>ÖEr'   r.   z4
    FocalNet outputs for image classification.
    c                   óÆ   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Srg)	ÚFocalNetImageClassifierOutputén   a  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
    Classification (or regression if config.num_labels==1) loss.
logits (`torch.FloatTensor` of shape `(batch_size, config.num_labels)`):
    Classification (or regression if config.num_labels==1) scores (before SoftMax).
reshaped_hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each stage) of
    shape `(batch_size, hidden_size, height, width)`.

    Hidden-states of the model at the output of each layer plus the initial embedding outputs reshaped to
    include the spatial dimensions.
Nr0   Úlogitsr   r   r   )r   r   r   r    r!   r0   r   r"   r#   r$   r5   r   r%   r   r&   r   r'   r(   r3   r3   n   sh   ‡ ñð )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø*.€FˆHU×&Ñ&Ñ'Ó.Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<ØAEÐ˜H U¨5×+<Ñ+<Ñ%=Ñ>ÖEr'   r3   c                   óš   ^ • \ rS rSrSrS	U 4S jjr S
S\\R                     S\\R                     S\
\R                     4S jjrSrU =r$ )ÚFocalNetEmbeddingséˆ   zP
Construct the patch embeddings and layernorm. Optionally, also the mask token.
c           
      ó  >• [         TU ]  5         [        UUR                  UR                  UR
                  UR                  UR                  SS9U l        U R                  R                  U l
        U(       a6  [        R                  " [        R                  " SSUR                  5      5      OS U l        [        R                   " UR                  UR"                  S9U l        [        R&                  " UR(                  5      U l        g )NT)ÚconfigÚ
image_sizeÚ
patch_sizeÚnum_channelsÚ	embed_dimÚuse_conv_embedÚis_stemr   ©Úeps)ÚsuperÚ__init__ÚFocalNetPatchEmbeddingsr;   r<   r=   r>   r?   Úpatch_embeddingsÚ	grid_sizeÚ
patch_gridr   Ú	Parameterr"   ÚzerosÚ
mask_tokenÚ	LayerNormÚlayer_norm_epsÚnormÚDropoutÚhidden_dropout_probÚdropout)Úselfr:   Úuse_mask_tokenÚ	__class__s      €r(   rD   ÚFocalNetEmbeddings.__init__   s¿   ø€ Ü‰ÑÔä 7ØØ×(Ñ(Ø×(Ñ(Ø×,Ñ,Ø×&Ñ&Ø!×0Ñ0Øñ!
ˆÔð ×/Ñ/×9Ñ9ˆŒÞO]œ"Ÿ,š,¤u§{¢{°1°a¸×9IÑ9IÓ'JÔKÐcgˆŒä—L’L ×!1Ñ!1°v×7LÑ7LÑMˆŒ	Ü—z’z &×"<Ñ"<Ó=ˆr'   Úpixel_valuesÚbool_masked_posÚreturnc                 ó0  • U R                  U5      u  p4U R                  U5      nUR                  5       u  pVnUbI  U R                  R	                  XVS5      nUR                  S5      R                  U5      n	USU	-
  -  X‰-  -   nU R                  U5      nX44$ )Néÿÿÿÿç      ð?)rF   rN   ÚsizerK   ÚexpandÚ	unsqueezeÚtype_asrQ   )
rR   rV   rW   Ú
embeddingsÚoutput_dimensionsÚ
batch_sizeÚseq_lenÚ_Úmask_tokensÚmasks
             r(   ÚforwardÚFocalNetEmbeddings.forwardŸ   sš   € ð )-×(=Ñ(=¸lÓ(KÑ%ˆ
Ø—Y‘Y˜zÓ*ˆ
Ø!+§¡Ó!2Ñˆ
˜QàÑ&ØŸ/™/×0Ñ0°ÀbÓIˆKà"×,Ñ,¨RÓ0×8Ñ8¸ÓEˆDØ# s¨T¡zÑ2°[Ñ5GÑGˆJà—\‘\ *Ó-ˆ
ØÐ,Ð,r'   )rQ   rK   rN   rF   rH   )F©N)r   r   r   r    r!   rD   r   r"   r#   Ú
BoolTensorr%   ÚTensorrg   r&   Ú__classcell__©rT   s   @r(   r7   r7   ˆ   sV   ø† ñ÷>ð& hlñ-Ø$ U×%6Ñ%6Ñ7ð-ØJRÐSX×ScÑScÑJdð-à	ˆu|‰|Ñ	÷-ó -r'   r7   c                   óˆ   ^ • \ rS rSr   SU 4S jjrS rS\\R                     S\	\R                  \	\   4   4S jrSrU =r$ )	rE   é°   c	                 ót  >• [         TU ]  5         [        U[        R                  R
                  5      (       a  UOX"4n[        U[        R                  R
                  5      (       a  UOX34nUS   US   -  US   US   -  -  n	X l        X0l        X@l        Xl	        US   US   -  US   US   -  4U l
        U(       a0  U(       a  Sn
SnSnOSn
SnSn[        R                  " XEX¬US9U l        O[        R                  " XEX3S9U l        U(       a$  [        R                  " XQR                  S	9U l        g S U l        g )
Nr   r   é   é   é   r
   )Úkernel_sizeÚstrideÚpadding)rt   ru   rA   )rC   rD   Ú
isinstanceÚcollectionsÚabcÚIterabler;   r<   r=   Únum_patchesrG   r   ÚConv2dÚ
projectionrL   rM   rN   )rR   r:   r;   r<   r=   r>   Úadd_normr?   r@   r{   rt   rv   ru   rT   s                €r(   rD   Ú FocalNetPatchEmbeddings.__init__±   s$  ø€ ô 	‰ÑÔÜ#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ü#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ø! !‘}¨
°1©Ñ5¸*ÀQ¹-È:ÐVWÉ=Ñ:XÑYˆØ$ŒØ$ŒØ(ÔØ&ÔØ$ Q™-¨:°a©=Ñ8¸*ÀQ¹-È:ÐVWÉ=Ñ:XÐYˆŒææØØØ‘àØØÜ ŸišiØ°[ÐY`ñˆDOô !Ÿiši¨ÈZÑkˆDŒOæÜŸš Y×4IÑ4IÑJˆDIàˆDIr'   c                 óf  • X0R                   S   -  S:w  aB  SU R                   S   X0R                   S   -  -
  4n[        R                  R                  X5      nX R                   S   -  S:w  aD  SSSU R                   S   X R                   S   -  -
  4n[        R                  R                  X5      nU$ )Nr   r   )r<   r   Ú
functionalÚpad)rR   rV   ÚheightÚwidthÚ
pad_valuess        r(   Ú	maybe_padÚ!FocalNetPatchEmbeddings.maybe_padÛ   s¥   € Ø—?‘? 1Ñ%Ñ%¨Ó*Ø˜TŸ_™_¨QÑ/°%¿/¹/È!Ñ:LÑ2LÑLÐMˆJÜŸ=™=×,Ñ,¨\ÓFˆLØ—O‘O AÑ&Ñ&¨!Ó+Ø˜Q  4§?¡?°1Ñ#5¸ÇÁÐQRÑASÑ8SÑ#SÐTˆJÜŸ=™=×,Ñ,¨\ÓFˆLØÐr'   rV   rX   c                 óD  • UR                   u  p#pEX0R                  :w  a  [        S5      eU R                  XU5      nU R	                  U5      nUR                   u    p$nXE4nUR                  S5      R                  SS5      nU R                  b  U R                  U5      nXg4$ )NzeMake sure that the channel dimension of the pixel values match with the one set in the configuration.rr   r   )Úshaper=   Ú
ValueErrorr†   r}   ÚflattenÚ	transposerN   )rR   rV   rd   r=   rƒ   r„   r`   ra   s           r(   rg   ÚFocalNetPatchEmbeddings.forwardä   s¦   € Ø)5×);Ñ);Ñ&ˆ˜Ø×,Ñ,Ó,ÜØwóð ð —~‘~ l¸EÓBˆØ—_‘_ \Ó2ˆ
Ø(×.Ñ.Ñˆˆ1eØ#˜OÐØ×'Ñ'¨Ó*×4Ñ4°Q¸Ó:ˆ
à9‰9Ñ ØŸ™ :Ó.ˆJàÐ,Ð,r'   )rG   r;   rN   r=   r{   r<   r}   )FFF)r   r   r   r    rD   r†   r   r"   r#   r%   rk   Úintrg   r&   rl   rm   s   @r(   rE   rE   °   sQ   ø† ð ØØ÷(òTð- H¨U×->Ñ->Ñ$?ð -ÀEÈ%Ï,É,ÐX]Ð^aÑXbÐJbÑDc÷ -ò -r'   rE   ÚinputÚ	drop_probÚtrainingrX   c                 ó  • US:X  d  U(       d  U $ SU-
  nU R                   S   4SU R                  S-
  -  -   nU[        R                  " X@R                  U R
                  S9-   nUR                  5         U R                  U5      U-  nU$ )a*  
Drop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).

Comment by Ross Wightman: This is the same as the DropConnect impl I created for EfficientNet, etc networks,
however, the original name is misleading as 'Drop Connect' is a different form of dropout in a separate paper...
See discussion: https://github.com/tensorflow/tpu/issues/494#issuecomment-532968956 ... I've opted for changing the
layer and argument names to 'drop path' rather than mix DropConnect as a layer name and use 'survival rate' as the
argument.
ç        r   r   )r   )ÚdtypeÚdevice)r‰   Úndimr"   Úrandr”   r•   Úfloor_Údiv)r   r   r‘   Ú	keep_probr‰   Úrandom_tensorÚoutputs          r(   Ú	drop_pathr   ø   s   € ð CÓžxØˆØI‘€IØ[‰[˜‰^Ð ¨¯
©
°Q©Ñ 7Ñ7€EØ¤§
¢
¨5¿¹ÈEÏLÉLÑ YÑY€MØ×ÑÔØY‰YyÓ! MÑ1€FØ€Mr'   c                   óŠ   ^ • \ rS rSrSrSS\\   SS4U 4S jjjrS\R                  S\R                  4S jr
S\4S	 jrS
rU =r$ )ÚFocalNetDropPathi  zXDrop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).Nr   rX   c                 ó.   >• [         TU ]  5         Xl        g ri   )rC   rD   r   )rR   r   rT   s     €r(   rD   ÚFocalNetDropPath.__init__  s   ø€ Ü‰ÑÔØ"r'   r   c                 óB   • [        XR                  U R                  5      $ ri   )r   r   r‘   )rR   r   s     r(   rg   ÚFocalNetDropPath.forward  s   € Ü˜¯©¸¿¹ÓFÐFr'   c                 ó    • SU R                    3$ )Nzp=©r   ©rR   s    r(   Ú
extra_reprÚFocalNetDropPath.extra_repr  s   € ØD—N‘NÐ#Ð$Ð$r'   r¥   ri   )r   r   r   r    r!   r   ÚfloatrD   r"   rk   rg   Ústrr§   r&   rl   rm   s   @r(   rŸ   rŸ     sQ   ø† Ùbñ# (¨5¡/ð #¸T÷ #ð #ðG U§\¡\ð G°e·l±lô Gð%˜C÷ %ò %r'   rŸ   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚFocalNetModulationi  c                 ó  >• [         T	U ]  5         X0l        UR                  U   U l        UR
                  U   U l        X@l        UR                  U l        UR                  U l	        [        R                  " USU-  U R                  S-   -   US9U l        [        R                  " X3SSUS9U l        [        R                  " 5       U l        [        R                  " X35      U l        [        R$                  " U5      U l        [        R(                  " 5       U l        / U l        [/        U R                  5       H–  nU R                  U-  U R                  -   nU R*                  R1                  [        R2                  " [        R                  " X3USX8S-  SS9[        R                  " 5       5      5        U R,                  R1                  U5        M˜     U R                  (       a$  [        R4                  " X1R6                  S9U l        g g )Nrr   r   )Úbias)rt   ru   r®   F)rt   ru   Úgroupsrv   r®   rA   )rC   rD   ÚdimÚfocal_windowsÚfocal_windowÚfocal_levelsÚfocal_levelÚfocal_factorÚ use_post_layernorm_in_modulationÚnormalize_modulatorr   ÚLinearÚprojection_inr|   Úprojection_contextÚGELUÚ
activationÚprojection_outrO   Úprojection_dropoutÚ
ModuleListÚfocal_layersÚkernel_sizesÚrangeÚappendÚ
SequentialrL   rM   Ú	layernorm)
rR   r:   Úindexr°   rµ   r®   r¾   Úkrt   rT   s
            €r(   rD   ÚFocalNetModulation.__init__  s˜  ø€ Ü‰ÑÔàŒØ"×0Ñ0°Ñ7ˆÔØ!×.Ñ.¨uÑ5ˆÔØ(ÔØ06×0WÑ0WˆÔ-Ø#)×#=Ñ#=ˆÔ äŸYšY s¨A°©G°t×7GÑ7GÈ!Ñ7KÑ,LÐSWÑXˆÔÜ"$§)¢)¨CÀ!ÈAÐTXÑ"YˆÔäŸ'š'›)ˆŒÜ Ÿiši¨Ó1ˆÔÜ"$§*¢*Ð-?Ó"@ˆÔÜŸMšM›OˆÔàˆÔÜt×'Ñ'Ö(ˆAØ×+Ñ+¨aÑ/°$×2CÑ2CÑCˆKØ×Ñ×$Ñ$Ü—’Ü—I’IØ¨kÀ!ÈCÐhiÑYiÐpuñô —G’G“Ió	ôð ×Ñ×$Ñ$ [Ö1ñ )ð ×0×0ÜŸ\š\¨#×3HÑ3HÑIˆDNð 1r'   c                 ó*  • UR                   S   nU R                  U5      R                  SSSS5      R                  5       n[        R
                  " X2X R                  S-   4S5      u  pEnSn[        U R                  5       H*  nU R                  U   " U5      nXuUSS2XˆS-   24   -  -   nM,     U R                  UR                  SSS9R                  SSS95      n	XyUSS2U R                  S24   -  -   nU R                  (       a  XpR                  S-   -  nU R                  U5      n
XJ-  nUR                  SSSS5      R                  5       nU R                  (       a  U R                  U5      nU R                  U5      nU R!                  U5      nU$ )	zh
Args:
    hidden_state:
        Input features with shape of (batch_size, height, width, num_channels)
rZ   r   r
   r   rr   NT)Úkeepdim)r‰   r¹   ÚpermuteÚ
contiguousr"   Úsplitr´   rÂ   rÀ   r¼   Úmeanr·   rº   r¶   rÅ   r½   r¾   )rR   Úhidden_stater=   ÚxÚqÚctxÚgatesÚctx_allÚlevelÚ
ctx_globalÚ	modulatorÚx_outs               r(   rg   ÚFocalNetModulation.forward=  s”  € ð $×)Ñ)¨"Ñ-ˆð ×Ñ˜|Ó,×4Ñ4°Q¸¸1¸aÓ@×KÑKÓMˆÜŸš A°l×DTÑDTÐWXÑDXÐ'YÐ[\Ó]‰ˆð ˆÜ˜4×+Ñ+Ö,ˆEØ×#Ñ# EÒ*¨3Ó/ˆCØ eªA¨u¸q±yÐ/@Ð,@Ñ&AÑ AÑAŠGñ -ð —_‘_ S§X¡X¨a¸ XÐ%>×%CÑ%CÀAÈtÐ%CÐ%TÓUˆ
Ø¨ªq°$×2BÑ2BÑ2DÐ/DÑ)EÑEÑEˆð ×#×#Ø×!1Ñ!1°AÑ!5Ñ6ˆGð ×+Ñ+¨GÓ4ˆ	Ø‘ˆØ—‘˜a  A qÓ)×4Ñ4Ó6ˆØ×0×0Ø—N‘N 5Ó)ˆEð ×#Ñ# EÓ*ˆØ×'Ñ'¨Ó.ˆØˆr'   )r¼   r°   rµ   rÀ   r´   r²   rÁ   rÅ   r·   rº   r¾   r¹   r½   r¶   )rr   Tr“   ©r   r   r   r    rD   rg   r&   rl   rm   s   @r(   r¬   r¬     s   ø† ÷J÷B"ð "r'   r¬   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚFocalNetMlpib  c                 ó   >• [         TU ]  5         U=(       d    UnU=(       d    Un[        R                  " X#5      U l        [
        UR                     U l        [        R                  " X45      U l        [        R                  " U5      U l
        g ri   )rC   rD   r   r¸   Úfc1r   Ú
hidden_actr¼   Úfc2rO   Údrop)rR   r:   Úin_featuresÚhidden_featuresÚout_featuresrá   rT   s         €r(   rD   ÚFocalNetMlp.__init__c  sd   ø€ Ü‰ÑÔØ#×2 {ˆØ)×8¨[ˆÜ—9’9˜[Ó:ˆŒÜ  ×!2Ñ!2Ñ3ˆŒÜ—9’9˜_Ó;ˆŒÜ—J’J˜tÓ$ˆ	r'   c                 ó°   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ ri   )rÞ   r¼   rá   rà   )rR   rÏ   s     r(   rg   ÚFocalNetMlp.forwardl  sN   € Ø—x‘x Ó-ˆØ—‘ |Ó4ˆØ—y‘y Ó.ˆØ—x‘x Ó-ˆØ—y‘y Ó.ˆØÐr'   )r¼   rá   rÞ   rà   )NNr“   rÚ   rm   s   @r(   rÜ   rÜ   b  s   ø† ÷%÷ð r'   rÜ   c                   ó6   ^ • \ rS rSrSrSU 4S jjrS rSrU =r$ )ÚFocalNetLayeriu  aS  Focal Modulation Network layer (block).

Args:
    config (`FocalNetConfig`):
        Model config.
    index (`int`):
        Layer index.
    dim (`int`):
        Number of input channels.
    input_resolution (`tuple[int]`):
        Input resolution.
    drop_path (`float`, *optional*, defaults to 0.0):
        Stochastic depth rate.
c                 ó.  >• [         TU ]  5         Xl        X0l        X@l        UR
                  U l        UR                  U l        [        R                  " X1R                  S9U l        [        UUUU R                  S9U l        US:”  a  [        U5      O[        R                  " 5       U l        [        R                  " X1R                  S9U l        [%        X1R&                  -  5      n[)        XX`R                  S9U l        SU l        SU l        UR0                  (       aw  [        R2                  " UR4                  [6        R8                  " U5      -  SS9U l        [        R2                  " UR4                  [6        R8                  " U5      -  SS9U l        g g )NrA   )r:   rÆ   r°   r¾   r“   )r:   râ   rã   rá   r[   T)Úrequires_grad)rC   rD   r:   r°   Úinput_resolutionrP   rá   Úuse_post_layernormr   rL   rM   Únorm1r¬   Ú
modulationrŸ   ÚIdentityr   Únorm2rŽ   Ú	mlp_ratiorÜ   ÚmlpÚgamma_1Úgamma_2Úuse_layerscalerI   Úlayerscale_valuer"   Úones)rR   r:   rÆ   r°   rì   r   Úmlp_hidden_dimrT   s          €r(   rD   ÚFocalNetLayer.__init__…  s2  ø€ Ü‰ÑÔàŒð ŒØ 0Ôð ×.Ñ.ˆŒ	Ø"(×";Ñ";ˆÔä—\’\ #×+@Ñ+@ÑAˆŒ
Ü,ØØØØ#Ÿy™yñ	
ˆŒð 9BÀC»Ô)¨)Ô4ÌRÏ[Ê[Ë]ˆŒÜ—\’\ #×+@Ñ+@ÑAˆŒ
Ü˜S×#3Ñ#3Ñ3Ó4ˆÜ fÈ~×dmÑdmÑnˆŒàˆŒØˆŒØ× × ÜŸ<š<¨×(?Ñ(?Ä%Ç*Â*ÈSÃ/Ñ(QÐaeÑfˆDŒLÜŸ<š<¨×(?Ñ(?Ä%Ç*Â*ÈSÃ/Ñ(QÐaeÑfˆDLð !r'   c           	      óJ  • Uu  p4UR                   u  pVnUnU R                  (       a  UOU R                  U5      nUR                  XSXG5      nU R	                  U5      R                  XSU-  U5      nU R                  (       d  UOU R                  U5      nX€R                  U R                  U-  5      -   nXR                  U R                  U R                  (       a   U R                  U R                  U5      5      OU R                  U R                  U5      5      -  5      -   nU$ ri   )
r‰   rí   rî   Úviewrï   r   rô   rõ   rñ   ró   )	rR   rÏ   Úinput_dimensionsrƒ   r„   rb   rd   r=   Úshortcuts	            r(   rg   ÚFocalNetLayer.forward¥  sÿ   € Ø(‰ˆØ&2×&8Ñ&8Ñ#ˆ
|Øˆð (,×'>×'>‘|ÀDÇJÁJÈ|ÓD\ˆØ#×(Ñ(¨¸UÓQˆØ—‘ |Ó4×9Ñ9¸*ÈuÁnÐVbÓcˆØ+/×+B×+B‘|ÈÏ
É
ÐS_ÓH`ˆð  §.¡.°·±ÀÑ1LÓ"MÑMˆØ#§n¡nØL‰LØ59×5L×5Lˆtz‰z˜$Ÿ(™( <Ó0Ô1ÐRV×RZÑRZÐ[_×[eÑ[eÐfrÓ[sÓRtñvó'
ñ 
ˆð
 Ðr'   )r:   r°   rá   r   rô   rõ   rì   ró   rï   rî   rñ   rí   )r“   )	r   r   r   r    r!   rD   rg   r&   rl   rm   s   @r(   ré   ré   u  s   ø† ñ÷g÷@ð r'   ré   c                   óv   ^ • \ rS rSrU 4S jrS\R                  S\\\4   S\\R                     4S jr	Sr
U =r$ )ÚFocalNetStageiº  c                 ó†  >• [         TU ]  5         Xl        [        UR                  5      U l        [        U R
                  5       Vs/ sH  oAR                  SU-  -  PM     nnXR   nX R
                  S-
  :  a  XRS-      OS nX R
                  S-
  :  a  [        OS n[        R                  " SUR                  [        UR                  5      SS9 V	s/ sH  o™R                  5       PM     n
n	U
[        UR                  S U 5      [        UR                  S US-    5       n[        R                  " [        UR                  U   5       Vs/ sH)  n[!        UUUU[#        U[$        5      (       a  X´   OUS9PM+     sn5      U l        Ub  U" UUSUUSUR(                  SS	9U l        OS U l        SU l        g s  snf s  sn	f s  snf )
Nrr   r   r   Úcpu)r•   )r:   rÆ   r°   rì   r   TF)r:   r;   r<   r=   r>   r~   r?   r@   )rC   rD   r:   ÚlenÚdepthsÚ
num_stagesrÂ   r>   rE   r"   ÚlinspaceÚdrop_path_rateÚsumÚitemr   r¿   ré   rw   ÚlistÚlayersr?   Ú
downsampleÚpointing)rR   r:   rÆ   rì   Úir>   r°   Úout_dimr  rÐ   Údprr   rT   s               €r(   rD   ÚFocalNetStage.__init__»  s­  ø€ Ü‰ÑÔàŒÜ˜fŸm™mÓ,ˆŒä8=¸d¿o¹oÔ8NÓOÑ8N°1×%Ñ%¨¨A©Ô.Ñ8Nˆ	ÐOØÑˆØ+0·?±?ÀQÑ3FÓ+F) A™IÒ&ÈTˆØ16¿¹È1Ñ9LÓ1LÕ,ÐSWˆ
ô "'§¢°°6×3HÑ3HÌ#ÈfÏmÉmÓJ\ÐejÒ!kÓlÑ!k˜Av‰vŽxÑ!kˆÐlØœ˜FŸM™M¨&¨5Ð1Ó2´S¸¿¹À{ÈÐQRÉÐ9SÓ5TÐUˆ	ä—m’mô ˜vŸ}™}¨UÑ3Ô4ó	ñ 5Aô Ø!ØØØ%5Ü.8¸ÄD×.IÑ.I˜išlÈyôñ 5ñ	ó
ˆŒð Ñ!Ù(ØØ+ØØ Ø!ØØ%×4Ñ4Øñ	ˆDOð #ˆDŒOàˆùòI Pùò mùò	s   ÁF4ÃF9Å
/F>r   rý   rX   c                 ó  • Uu  p4U R                    H  nU" X5      nM     UnU R                  bH  Uu  p4UR                  SS5      R                  UR                  S   SX45      nU R                  U5      u  pOX4X44nXU4nU$ )Nr   rr   r   rZ   )r  r  rŒ   Úreshaper‰   )	rR   r   rý   rƒ   r„   Úlayer_moduleÚ!hidden_states_before_downsamplingra   Ústage_outputss	            r(   rg   ÚFocalNetStage.forwardç  s   € Ø(‰ˆØ ŸKœKˆLÙ(¨ÓIŠMñ (ð -:Ð)Ø?‰?Ñ&Ø,‰MˆFØ)×3Ñ3°A°qÓ9×AÑAØ1×7Ñ7¸Ñ:¸BÀóˆMð 04¯©¸}Ó/MÑ,ˆMÐ,ð "(°Ð >Ðà&ÐK\Ð]ˆàÐr'   )r:   r  r  r  r  )r   r   r   r    rD   r"   rk   r%   rŽ   rg   r&   rl   rm   s   @r(   r  r  º  sB   ø† õ*ðX U§\¡\ð ÀUÈ3ÐPSÈ8Á_ð ÐY^Ð_d×_kÑ_kÑYl÷ ò r'   r  c                   óŽ   ^ • \ rS rSrU 4S jr   SS\R                  S\\\4   S\	\
   S\	\
   S\	\
   S\\\4   4S	 jjrS
rU =r$ )ÚFocalNetEncoderiü  c                 ó0  >• [         TU ]  5         [        UR                  5      U l        Xl        [        R                  " [        U R                  5       Vs/ sH"  n[        UUUS   SU-  -  US   SU-  -  4S9PM$     sn5      U l
        SU l        g s  snf )Nr   rr   r   )r:   rÆ   rì   F)rC   rD   r  r  r  r:   r   r¿   rÂ   r  ÚstagesÚgradient_checkpointing)rR   r:   rG   Úi_layerrT   s       €r(   rD   ÚFocalNetEncoder.__init__ý  sœ   ø€ Ü‰ÑÔÜ˜fŸm™mÓ,ˆŒØŒä—m’mô  % T§_¡_Ô5óñ  6Gô Ø!Ø!Ø&/°¡l°q¸'±zÑ&BÀIÈaÁLÐUVÐX_ÑU_ÑD`Ð%aôñ
  6ñó	
ˆŒð ',ˆÕ#ùòs   Á(Br   rý   Úoutput_hidden_statesÚ(output_hidden_states_before_downsamplingÚreturn_dictrX   c                 óä  • U(       a  SOS nU(       a  SOS nU(       aB  UR                   u  p‰n
UR                  " U/UQU
P76 nUR                  SSSS5      nXa4-  nX{4-  n[        U R                  5       HÔ  u  pÍU" X5      nUS   nUS   nUS   nUS   US   4nU(       aS  U(       aL  UR                   u  p‰n
UR                  " U/US   US   4QU
P76 nUR                  SSSS5      nXo4-  nX{4-  nM€  U(       d  M‰  U(       a  M’  UR                   u  p‰n
UR                  " U/UQU
P76 nUR                  SSSS5      nXa4-  nX{4-  nMÖ     U(       d  [        S X4 5       5      $ [        UUUS	9$ )
Nr   r   r
   r   rr   éþÿÿÿrZ   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fri   r   )Ú.0Úvs     r(   Ú	<genexpr>Ú*FocalNetEncoder.forward.<locals>.<genexpr>>  s   é € ÐXÑ$F˜qŸ™Ò$Fùs   ‚‹	)r   r   r   )r‰   rü   rË   Ú	enumerater  r%   r   )rR   r   rý   r   r!  r"  Úall_hidden_statesÚall_reshaped_hidden_statesrb   rd   Úhidden_sizeÚreshaped_hidden_stater  Ústage_moduler  r  ra   s                    r(   rg   ÚFocalNetEncoder.forward  sá  € ö #7™B¸DÐÞ+?¡RÀTÐ"æØ)6×)<Ñ)<Ñ&ˆJ˜;à$1×$6Ò$6°zÐ$bÐDTÐ$bÐVaÒ$bÐ!Ø$9×$AÑ$AÀ!ÀQÈÈ1Ó$MÐ!ØÐ!1Ñ1ÐØ&Ð*BÑBÐ&ä(¨¯©Ö5‰OˆAÙ(¨ÓIˆMà)¨!Ñ,ˆMØ0=¸aÑ0@Ð-Ø -¨aÑ 0Ðà 1°"Ñ 5Ð7HÈÑ7LÐMÐæ#Ö(PØ-N×-TÑ-TÑ*
˜{ð )J×(NÒ(NØð)Ø"3°AÑ"6Ð8IÈ!Ñ8LÐ!Mð)ØOZò)Ð%ð )>×(EÑ(EÀaÈÈAÈqÓ(QÐ%Ø!Ð%IÑIÐ!Ø*Ð.FÑFÒ*ß%Ð%×.VÐ.VØ-:×-@Ñ-@Ñ*
˜{à(5×(:Ò(:¸:Ð(fÐHXÐ(fÐZeÒ(fÐ%Ø(=×(EÑ(EÀaÈÈAÈqÓ(QÐ%Ø!Ð%5Ñ5Ð!Ø*Ð.FÑFÒ*ñ3  6ö6 ÜÑX ]Ñ$FÓXÓXÐXä$Ø+Ø+Ø#=ñ
ð 	
r'   )r:   r  r  r  )FFT)r   r   r   r    rD   r"   rk   r%   rŽ   r   Úboolr   r   rg   r&   rl   rm   s   @r(   r  r  ü  sz   ø† õ,ð, 05ØCHØ&*ñ5
à—|‘|ð5
ð    S ™/ð5
ð ' t™nð	5
ð
 3;¸4±.ð5
ð ˜d‘^ð5
ð 
ˆuÐ+Ð+Ñ	,÷5
ó 5
r'   r  c                   ó8   • \ rS rSr% \\S'   SrSrSrS/r	S r
Srg	)
ÚFocalNetPreTrainedModeliG  r:   ÚfocalnetrV   Tr  c                 óâ  • [        U[        R                  [        R                  45      (       ak  UR                  R
                  R                  SU R                  R                  S9  UR                  b%  UR                  R
                  R                  5         gg[        U[        R                  5      (       aJ  UR                  R
                  R                  5         UR                  R
                  R                  S5        g[        U[        5      (       a3  UR                  b%  UR                  R
                  R                  5         gg[        U[        5      (       a  U R                  R                   (       as  UR"                  R
                  R                  U R                  R$                  5        UR&                  R
                  R                  U R                  R$                  5        ggg)zInitialize the weightsr“   )rÎ   ÚstdNr[   )rw   r   r¸   r|   ÚweightÚdataÚnormal_r:   Úinitializer_ranger®   Úzero_rL   Úfill_r7   rK   ré   rö   rô   r÷   rõ   )rR   Úmodules     r(   Ú_init_weightsÚ%FocalNetPreTrainedModel._init_weightsO  sH  € äfœrŸy™y¬"¯)©)Ð4×5Ñ5ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜Ô 2×3Ñ3Ø× Ñ Ñ,Ø×!Ñ!×&Ñ&×,Ñ,Õ.ð -ä˜¤×.Ñ.Ø{‰{×)×)Ø—‘×#Ñ#×)Ñ)¨$¯+©+×*FÑ*FÔGØ—‘×#Ñ#×)Ñ)¨$¯+©+×*FÑ*FÕGð *ð /r'   r   N)r   r   r   r    r   r$   Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesr>  r&   r   r'   r(   r3  r3  G  s(   ‡ àÓØ"ÐØ$€OØ&*Ð#Ø(Ð)ÐõHr'   r3  c                   ó°   ^ • \ rS rSrSU 4S jjrS r\    SS\\R                     S\\R                     S\\   S\\   S\\\4   4
S	 jj5       rS
rU =r$ )ÚFocalNetModelic  c                 óæ  >• [         TU ]  U5        Xl        [        UR                  5      U l        [        UR                  SU R
                  S-
  -  -  5      U l        [        XS9U l
        [        XR                  R                  5      U l        [        R                  " U R                  UR                   S9U l        U(       a  [        R$                  " S5      OSU l        U R)                  5         g)zÓ
add_pooling_layer (bool, *optional*, defaults to `True`):
    Whether to add a pooling layer
use_mask_token (`bool`, *optional*, defaults to `False`):
    Whether to use a mask token for masked image modeling.
rr   r   )rS   rA   N)rC   rD   r:   r  r  r  rŽ   r>   Únum_featuresr7   r`   r  rH   Úencoderr   rL   rM   rÅ   ÚAdaptiveAvgPool1dÚpoolerÚ	post_init)rR   r:   Úadd_pooling_layerrS   rT   s       €r(   rD   ÚFocalNetModel.__init__e  s¯   ø€ ô 	‰Ñ˜Ô ØŒÜ˜fŸm™mÓ,ˆŒÜ × 0Ñ 0°1¸¿¹È1Ñ9LÑ3MÑ MÓNˆÔä,¨VÑSˆŒÜ& v¯©×/IÑ/IÓJˆŒäŸš d×&7Ñ&7¸V×=RÑ=RÑSˆŒÞ1B”b×*Ò*¨1Ô-ÈˆŒð 	‰Õr'   c                 ó.   • U R                   R                  $ ri   )r`   rF   r¦   s    r(   Úget_input_embeddingsÚ"FocalNetModel.get_input_embeddingsz  s   € Ø‰×/Ñ/Ð/r'   rV   rW   r   r"  rX   c                 óî  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUc  [        S5      eU R	                  XS9u  pVU R                  UUUUS9nUS   nU R                  U5      nSn	U R                  b8  U R                  UR                  SS5      5      n	[        R                  " U	S5      n	U(       d  X‰4USS -   n
U
$ [        UU	UR                  UR                  S9$ )	z§
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, num_patches)`):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).
Nz You have to specify pixel_values)rW   ©r   r"  r   r   rr   )r   r,   r   r   )r:   r   Úuse_return_dictrŠ   r`   rH  rÅ   rJ  rŒ   r"   r‹   r*   r   r   )rR   rV   rW   r   r"  Úembedding_outputrý   Úencoder_outputsÚsequence_outputÚpooled_outputrœ   s              r(   rg   ÚFocalNetModel.forward}  s  € ð %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ?Ó@Ð@à-1¯_©_¸\¨_Ð-kÑ*ÐàŸ,™,ØØØ!5Ø#ð	 'ð 
ˆð *¨!Ñ,ˆØŸ.™.¨Ó9ˆàˆØ;‰;Ñ"Ø ŸK™K¨×(AÑ(AÀ!ÀQÓ(GÓHˆMÜ!ŸMšM¨-¸Ó;ˆMæØ%Ð5¸ÈÈÐ8KÑKˆFàˆMä"Ø-Ø'Ø)×7Ñ7Ø#2×#IÑ#Iñ	
ð 	
r'   )r:   r`   rH  rÅ   rG  r  rJ  )TF©NNNN)r   r   r   r    rD   rO  r   r   r"   r#   rj   r1  r   r%   r*   rg   r&   rl   rm   s   @r(   rE  rE  c  sˆ   ø† ÷ò*0ð ð 59Ø6:Ø/3Ø&*ñ.
à˜u×0Ñ0Ñ1ð.
ð " %×"2Ñ"2Ñ3ð.
ð ' t™nð	.
ð
 ˜d‘^ð.
ð 
ˆuÐ)Ð)Ñ	*ô.
ó ö.
r'   rE  a‰  
    FocalNet Model with a decoder on top for masked image modeling.

    This follows the same implementation as in [SimMIM](https://huggingface.co/papers/2111.09886).

    <Tip>

    Note that we provide a script to pre-train this model on custom data in our [examples
    directory](https://github.com/huggingface/transformers/tree/main/examples/pytorch/image-pretraining).

    </Tip>
    c                   ó¦   ^ • \ rS rSrU 4S jr\    S
S\\R                     S\\R                     S\\
   S\\
   S\\\4   4
S jj5       rS	rU =r$ )ÚFocalNetForMaskedImageModelingi¯  c                 ó¶  >• [         TU ]  U5        [        USSS9U l        [	        UR
                  5      U l        [        UR                  SU R                  S-
  -  -  5      n[        R                  " [        R                  " X!R                  S-  UR                  -  SS9[        R                  " UR                  5      5      U l        U R!                  5         g )NFT)rL  rS   rr   r   )Úin_channelsÚout_channelsrt   )rC   rD   rE  r4  r  r  r  rŽ   r>   r   rÄ   r|   Úencoder_strider=   ÚPixelShuffleÚdecoderrK  )rR   r:   rG  rT   s      €r(   rD   Ú'FocalNetForMaskedImageModeling.__init__¾  s­   ø€ Ü‰Ñ˜Ô ä% fÀÐVZÑ[ˆŒä˜fŸm™mÓ,ˆŒÜ˜6×+Ñ+¨a°D·O±OÀaÑ4GÑ.HÑHÓIˆÜ—}’}ÜIŠIØ(×7LÑ7LÈaÑ7OÐRX×ReÑReÑ7eÐstñô OŠO˜F×1Ñ1Ó2ó	
ˆŒð 	‰Õr'   rV   rW   r   r"  rX   c                 ó¨  • Ub  UOU R                   R                  nU R                  UUUUS9nUS   nUR                  SS5      nUR                  u  pxn	[
        R                  " U	S-  5      =p«UR                  XxX«5      nU R                  U5      nSnUGb  U R                   R                  U R                   R                  -  nUR                  SXî5      nUR                  U R                   R                  S5      R                  U R                   R                  S5      R                  S5      R                  5       n[        R                  R!                  XSS	9nUU-  R#                  5       UR#                  5       S
-   -  U R                   R$                  -  nU(       d  U4USS -   nUb  U4U-   $ U$ ['        UUUR(                  UR*                  S9$ )a  
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, num_patches)`):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).

Examples:
```python
>>> from transformers import AutoImageProcessor, FocalNetConfig, FocalNetForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/focalnet-base-simmim-window6-192")
>>> config = FocalNetConfig()
>>> model = FocalNetForMaskedImageModeling(config)

>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()

>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.logits
>>> list(reconstructed_pixel_values.shape)
[1, 3, 192, 192]
```N)rW   r   r"  r   r   rr   g      à?rZ   Únone)Ú	reductiongñhãˆµøä>)r0   r1   r   r   )r:   rS  r4  rŒ   r‰   ÚmathÚfloorr  ra  r;   r<   Úrepeat_interleaver^   rÌ   r   r   Úl1_lossr	  r=   r.   r   r   )rR   rV   rW   r   r"  ÚoutputsrV  rb   r=   Úsequence_lengthrƒ   r„   Úreconstructed_pixel_valuesÚmasked_im_lossr\   rf   Úreconstruction_lossrœ   s                     r(   rg   Ú&FocalNetForMaskedImageModeling.forwardÏ  sÈ  € ðH &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—-‘-ØØ+Ø!5Ø#ð	  ð 
ˆð " !™*ˆà)×3Ñ3°A°qÓ9ˆØ4C×4IÑ4IÑ1ˆ
 /ÜŸš O°SÑ$8Ó9Ð9ˆØ)×1Ñ1°*ÈFÓZˆð &*§\¡\°/Ó%BÐ"àˆØÒ&Ø—;‘;×)Ñ)¨T¯[©[×-CÑ-CÑCˆDØ-×5Ñ5°b¸$ÓEˆOà×1Ñ1°$·+±+×2HÑ2HÈ!ÓLß"Ñ" 4§;¡;×#9Ñ#9¸1Ó=ß‘˜1“ß‘“ð	 ô #%§-¡-×"7Ñ"7¸ÐlrÐ"7Ð"sÐØ1°DÑ8×=Ñ=Ó?À4Ç8Á8Ã:ÐPTÑCTÑUÐX\×XcÑXc×XpÑXpÑpˆNæØ0Ð2°W¸Q¸R°[Ñ@ˆFØ3AÑ3M^Ð%¨Ñ.ÐYÐSYÐYä0ØØ5Ø!×/Ñ/Ø#*×#AÑ#Añ	
ð 	
r'   )ra  r4  r  rY  )r   r   r   r    rD   r   r   r"   r#   rj   r1  r   r%   r.   rg   r&   rl   rm   s   @r(   r[  r[  ¯  sŠ   ø† õð" ð 59Ø6:Ø/3Ø&*ñL
à˜u×0Ñ0Ñ1ðL
ð " %×"2Ñ"2Ñ3ðL
ð ' t™nð	L
ð
 ˜d‘^ðL
ð 
ˆuÐ7Ð7Ñ	8ôL
ó öL
r'   r[  z…
    FocalNet Model with an image classification head on top (a linear layer on top of the pooled output) e.g. for
    ImageNet.
    c                   ó¦   ^ • \ rS rSrU 4S jr\    S
S\\R                     S\\R                     S\\
   S\\
   S\\\4   4
S jj5       rS	rU =r$ )ÚFocalNetForImageClassificationi  c                 óD  >• [         TU ]  U5        UR                  U l        [        U5      U l        UR                  S:”  a5  [
        R                  " U R                  R                  UR                  5      O[
        R                  " 5       U l	        U R                  5         g )Nr   )rC   rD   Ú
num_labelsrE  r4  r   r¸   rG  rð   Ú
classifierrK  ©rR   r:   rT   s     €r(   rD   Ú'FocalNetForImageClassification.__init__'  sx   ø€ Ü‰Ñ˜Ô à ×+Ñ+ˆŒÜ% fÓ-ˆŒð IO×HYÑHYÐ\]ÓH]ŒBIŠId—m‘m×0Ñ0°&×2CÑ2CÔDÔce×cnÒcnÓcpð 	Œð
 	‰Õr'   rV   Úlabelsr   r"  rX   c                 ó$  • Ub  UOU R                   R                  nU R                  UUUS9nUS   nU R                  U5      nSnUGbŽ  U R                   R                  c‘  U R
                  S:X  a  SU R                   l        OoU R
                  S:”  aN  UR                  [        R                  :X  d  UR                  [        R                  :X  a  SU R                   l        OSU R                   l        U R                   R                  S:X  aI  [        5       n	U R
                  S:X  a&  U	" UR                  5       UR                  5       5      nOŒU	" Xr5      nOƒU R                   R                  S:X  a=  [        5       n	U	" UR                  SU R
                  5      UR                  S5      5      nO,U R                   R                  S:X  a  [        5       n	U	" Xr5      nU(       d  U4USS -   n
Ub  U4U
-   $ U
$ [        UUUR                   UR"                  S	9$ )
ab  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
NrR  r   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationrZ   rr   )r0   r5   r   r   )r:   rS  r4  rt  Úproblem_typers  r”   r"   ÚlongrŽ   r	   Úsqueezer   rü   r   r3   r   r   )rR   rV   rw  r   r"  rj  rW  r5   r0   Úloss_fctrœ   s              r(   rg   Ú&FocalNetForImageClassification.forward5  sÄ  € ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—-‘-ØØ!5Ø#ð  ð 
ˆð   ™
ˆà—‘ Ó/ˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/æØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä,ØØØ!×/Ñ/Ø#*×#AÑ#Añ	
ð 	
r'   )rt  r4  rs  rY  )r   r   r   r    rD   r   r   r"   r#   Ú
LongTensorr1  r   r%   r3   rg   r&   rl   rm   s   @r(   rq  rq    sƒ   ø† õð ð 59Ø-1Ø/3Ø&*ñ9
à˜u×0Ñ0Ñ1ð9
ð ˜×)Ñ)Ñ*ð9
ð ' t™nð	9
ð
 ˜d‘^ð9
ð 
ˆuÐ3Ð3Ñ	4ô9
ó ö9
r'   rq  zG
    FocalNet backbone, to be used with frameworks like X-Decoder.
    c            
       ó|   ^ • \ rS rSrS\4U 4S jjr\  S
S\R                  S\	\
   S\	\
   S\4S jj5       rS	rU =r$ )ÚFocalNetBackboneir  r:   c                 óÀ   >• [         TU ]  U5        [         TU ]	  U5        UR                  /UR                  -   U l        [        U5      U l        U R                  5         g ri   )	rC   rD   Ú_init_backboner>   Úhidden_sizesrG  rE  r4  rK  ru  s     €r(   rD   ÚFocalNetBackbone.__init__x  sQ   ø€ Ü‰Ñ˜Ô Ü‰Ñ˜vÔ&à#×-Ñ-Ð.°×1DÑ1DÑDˆÔÜ% fÓ-ˆŒð 	‰Õr'   rV   r   r"  rX   c                 ó   • Ub  UOU R                   R                  nUb  UOU R                   R                  nU R                  USSS9nUR                  nSn[        U R                  5       H  u  pxX€R                  ;   d  M  XeU   4-  nM      U(       d  U4n	U(       a  X”R                  4-  n	U	$ [        UU(       a  UR                  SS9$ SSS9$ )a  
Examples:

```python
>>> from transformers import AutoImageProcessor, AutoBackbone
>>> import torch
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> processor = AutoImageProcessor.from_pretrained("microsoft/focalnet-tiny-lrf")
>>> model = AutoBackbone.from_pretrained("microsoft/focalnet-tiny-lrf")

>>> inputs = processor(image, return_tensors="pt")
>>> outputs = model(**inputs)
```NTrR  r   )Úfeature_mapsr   Ú
attentions)
r:   rS  r   r4  r   r*  Ústage_namesrä   r   r   )
rR   rV   r   r"  rj  r   r‰  ÚidxÚstagerœ   s
             r(   rg   ÚFocalNetBackbone.forward‚  sá   € ð2 &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð —-‘- À4ÐUY-ÐZˆà×6Ñ6ˆàˆÜ# D×$4Ñ$4Ö5‰JˆCØ×)Ñ)Õ)Ø¨sÑ!3Ð 5Ñ5’ñ 6ö Ø"_ˆFÞ#Ø×0Ñ0Ð2Ñ2ØˆMäØ%Þ3G˜'×/Ñ/Øñ
ð 	
àMQØñ
ð 	
r'   )r4  rG  )NN)r   r   r   r    r   rD   r   r"   rk   r   r1  r   rg   r&   rl   rm   s   @r(   rƒ  rƒ  r  s]   ø† ð˜~÷ ð ð 04Ø&*ñ	0
à—l‘lð0
ð ' t™nð0
ð ˜d‘^ð	0
ð
 
ô0
ó ö0
r'   rƒ  )rq  r[  rƒ  rE  r3  )r“   F):r!   Úcollections.abcrx   rf  Údataclassesr   Útypingr   r   r"   Útorch.utils.checkpointr   Útorch.nnr   r   r	   Úactivationsr   Úmodeling_layersr   Úmodeling_outputsr   Úmodeling_utilsr   Úutilsr   r   r   Úutils.backbone_utilsr   Úconfiguration_focalnetr   Ú
get_loggerr   Úloggerr   r*   r.   r3   ÚModuler7   rE   rk   r©   r1  r   rŸ   r¬   rÜ   ré   r  r  r3  rE  r[  rq  rƒ  Ú__all__r   r'   r(   Ú<module>rŸ     sˆ  ðñ ã Û Ý !ß "ã Û Ý ß AÑ Aå !Ý 9Ý .Ý -ß 9Ñ 9Ý 1Ý 2ð 
×	Ò	˜HÓ	%€ð Ùðñô
F˜Kó Fóó ðFð Ùðñô
F˜+ó Fóó ðFð$ Ùðñô
F¨ó Fóó ðFð( Ùðñô
F Kó Fóó ðFô(%-˜Ÿ™ô %-ôPD-˜bŸi™iô D-ñPU—\‘\ð ¨eð ÀTð ÐV[×VbÑVbõ ô*%r—y‘yô %ôD˜Ÿ™ô DôN"—)‘)ô ô&BB—I‘Iô BôJ?Ð.ô ?ôDH
b—i‘iô H
ðV ôH˜oó Hó ðHð6 ôH
Ð+ó H
ó ðH
ñV ðñô_
Ð%<ó _
óð_
ñD ðñôJ
Ð%<ó J
óðJ
ñZ ðñô
<
Ð.°ó <
óð
<
ò~r'   