ó
    <±h‹~  ã            	       ó(  • S r SSKrSSKrSSKJrJr  SSKrSSKrSSKJ	r	  SSK
Jr  SSKJr  SSKJrJr  SS	KJr  SS
KJrJr  SSKJr  SSKJr  \R4                  " \5      r " S S\	R:                  5      r\R>                  R@                  S 5       r!S r" " S S\	R:                  5      r#S2S\RH                  S\%S\&S\RH                  4S jjr' " S S\	R:                  5      r( " S S\	R:                  5      r) " S S\	R:                  5      r* " S S \	R:                  5      r+S! r,S" r- " S# S$\5      r. " S% S&\	R:                  5      r/S'\	R:                  SS4S( jr0\ " S) S*\5      5       r1\ " S+ S,\15      5       r2\" S-S.9 " S/ S0\1\5      5       r3/ S1Qr4g)3zPyTorch ViTDet backbone.é    N)ÚOptionalÚUnion)Únné   )ÚACT2FN)ÚGradientCheckpointingLayer)ÚBackboneOutputÚBaseModelOutput)ÚPreTrainedModel)Úauto_docstringÚlogging)ÚBackboneMixiné   )ÚVitDetConfigc                   ól   ^ • \ rS rSrSrU 4S jrS rS\R                  S\R                  4S jr	Sr
U =r$ )	ÚVitDetEmbeddingsé%   z«
This class turns `pixel_values` of shape `(batch_size, num_channels, height, width)` into the initial
`hidden_states` (patch embeddings) to be consumed by a Transformer.
c                 óx  >• [         TU ]  5         UR                  UR                  p2UR                  UR
                  pT[        U[        R                  R                  5      (       a  UOX"4n[        U[        R                  R                  5      (       a  UOX34nUS   US   -  US   US   -  -  nX l
        X0l        X@l        X`l        UR                  (       a@  US-   n[        R                  " [        R                   " SXqR
                  5      5      U l        OS U l        [        R$                  " XEX3S9U l        g )Nr   r   )Úkernel_sizeÚstride)ÚsuperÚ__init__Úpretrain_image_sizeÚ
patch_sizeÚnum_channelsÚhidden_sizeÚ
isinstanceÚcollectionsÚabcÚIterableÚ
image_sizeÚnum_patchesÚ use_absolute_position_embeddingsr   Ú	ParameterÚtorchÚzerosÚposition_embeddingsÚConv2dÚ
projection)	ÚselfÚconfigr!   r   r   r   r"   Únum_positionsÚ	__class__s	           €Úb/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/vitdet/modeling_vitdet.pyr   ÚVitDetEmbeddings.__init__+   sÿ   ø€ Ü‰ÑÔØ!'×!;Ñ!;¸V×=NÑ=NJØ$*×$7Ñ$7¸×9KÑ9Kkä#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ü#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ø! !‘}¨
°1©Ñ5¸*ÀQ¹-È:ÐVWÉ=Ñ:XÑYˆØ$ŒØ$ŒØ(ÔØ&Ôà×2×2à'¨!™OˆMÜ')§|¢|´E·K²KÀÀ=×RdÑRdÓ4eÓ'fˆDÕ$à'+ˆDÔ$äŸ)š) LÈ:Ñiˆó    c                 óØ  • U(       a  USS2SS24   nUR                   S   n[        [        R                  " U5      5      nXf-  U:w  a  [	        S5      e[
        R                  R                  5       (       d
  Xc:w  d  Xd:w  aX  [        R                  R                  UR                  SXfS5      R                  SSSS5      X44SS	S
9nUR                  SSSS5      $ UR                  SX4S5      $ )a?  
Calculate absolute positional embeddings. If needed, resize embeddings and remove cls_token dimension for the
original embeddings.

Args:
    abs_pos_embeddings (`torch.Tensor`):
        Absolute positional embeddings with (1, num_position, num_channels).
    has_cls_token (`bool`):
        If true, has 1 embedding in abs_pos_embeddings for cls token.
    height (`int`):
        Height of input image tokens.
    width (`int`):
        Width of input image tokens.

Returns:
    Absolute positional embeddings after processing with shape (1, height, width, num_channels)
Nr   z5Absolute position embeddings must be a square number.éÿÿÿÿr   r   é   ÚbicubicF)ÚsizeÚmodeÚalign_corners)ÚshapeÚintÚmathÚsqrtÚ
ValueErrorr%   ÚjitÚ
is_tracingr   Ú
functionalÚinterpolateÚreshapeÚpermute)r*   Úabs_pos_embeddingsÚhas_cls_tokenÚheightÚwidthÚnum_positionr5   Únew_abs_pos_embeddingss           r.   Úget_absolute_positionsÚ'VitDetEmbeddings.get_absolute_positionsA   sâ   € ö$ Ø!3²A°q±r°EÑ!:ÐØ)×/Ñ/°Ñ2ˆÜ”4—9’9˜\Ó*Ó+ˆØ‰;˜,Ó&ÜÐTÓUÐUä9‰9×Ñ×!Ñ! d£n¸»ä%'§]¡]×%>Ñ%>Ø"×*Ñ*¨1¨d¸"Ó=×EÑEÀaÈÈAÈqÓQØ_ØØ#ð	 &?ð &Ð"ð *×1Ñ1°!°Q¸¸1Ó=Ð=à%×-Ñ-¨a°ÀÓCÐCr0   Úpixel_valuesÚreturnc                 óz  • UR                   S   nX R                  :w  a  [        SU R                   SU S35      eU R                  U5      nU R                  bb  UR                  SSSS5      nX0R                  U R                  SUR                   S   UR                   S   5      -   nUR                  SSSS5      nU$ )	Nr   zoMake sure that the channel dimension of the pixel values match with the one set in the configuration. Expected z	 but got Ú.r   r3   r   T)r8   r   r<   r)   r'   rB   rI   )r*   rK   r   Ú
embeddingss       r.   ÚforwardÚVitDetEmbeddings.forwardg   sÕ   € Ø#×)Ñ)¨!Ñ,ˆØ×,Ñ,Ó,ÜðØ!×.Ñ.Ð/¨y¸¸ÀaðIóð ð —_‘_ \Ó2ˆ
à×#Ñ#Ñ/à#×+Ñ+¨A¨q°!°QÓ7ˆJà#×&AÑ&AØ×(Ñ(¨$°
×0@Ñ0@ÀÑ0CÀZ×EUÑEUÐVWÑEXó'ñ ˆJð $×+Ñ+¨A¨q°!°QÓ7ˆJàÐr0   )r!   r   r"   r   r'   r)   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   rI   r%   ÚTensorrP   Ú__static_attributes__Ú__classcell__©r-   s   @r.   r   r   %   s5   ø† ñõ
jò,$DðL E§L¡Lð °U·\±\÷ ò r0   r   c                 óH  • [        S[        X5      -  S-
  5      nUR                  S   U:w  aq  [        R                  R                  UR                  SUR                  S   S5      R                  SSS5      USS9nUR                  SU5      R                  SS5      nOUn[        R                  " U 5      SS2S4   [        X-  S5      -  n[        R                  " U5      SSS24   [        X-  S5      -  nXV-
  US-
  [        X-  S5      -  -   nXGR                  5          $ )	aq  
Get relative positional embeddings according to the relative positions of query and key sizes.

Args:
    q_size (`int`):
        Size of query q.
    k_size (`int`):
        Size of key k.
    rel_pos (`torch.Tensor`):
        Relative position embeddings (num_embeddings, num_channels).

Returns:
    Extracted positional embeddings according to relative positions.
r3   r   r   r2   Úlinear)r5   r6   Nç      ð?)r9   Úmaxr8   r   r?   r@   rA   rB   r%   ÚarangeÚlong)Úq_sizeÚk_sizeÚrel_posÚmax_rel_distÚrel_pos_resizedÚq_coordsÚk_coordsÚrelative_coordss           r.   Úget_rel_posri   }   s  € ô  qœ3˜vÓ.Ñ.°Ñ2Ó3€Là‡}}QÑ˜<Ó'äŸ-™-×3Ñ3ØO‰O˜A˜wŸ}™}¨QÑ/°Ó4×<Ñ<¸QÀÀ1ÓEØØð 4ð 
ˆð
 *×1Ñ1°"°lÓC×KÑKÈAÈqÓQ‰à!ˆô |Š|˜FÓ#¢A t GÑ,¬s°6±?ÀCÓ/HÑH€HÜ|Š|˜FÓ# Dª! GÑ,¬s°6±?ÀCÓ/HÑH€HØÑ*¨v¸©z¼SÀÁÐRUÓ=VÑ.VÑV€Oà×/Ñ/Ó1Ñ2Ð2r0   c                 ó€  • Uu  pgUu  p‰[        XhU5      n
[        XyU5      nUR                  u  pÍnUR                  XÆX~5      n[        R                  " SXú5      n
[        R                  " SXû5      nU R                  XÆXxU	5      U
SS2SS2SS2SS2S4   -   USS2SS2SS2SSS24   -   R                  XÆU-  X‰-  5      n U $ )ax  
Calculate decomposed Relative Positional Embeddings as introduced in
[MViT2](https://github.com/facebookresearch/mvit/blob/19786631e330df9f3622e5402b4a419a263a2c80/mvit/models/attention.py).

Args:
    attn (`torch.Tensor`):
        Attention map.
    queries (`torch.Tensor`):
        Query q in the attention layer with shape (batch_size, queries_height * queries_width, num_channels).
    rel_pos_h (`torch.Tensor`):
        Relative position embeddings (Lh, num_channels) for height axis.
    rel_pos_w (`torch.Tensor`):
        Relative position embeddings (Lw, num_channels) for width axis.
    q_size (`tuple[int]`):
        Spatial sequence size of query q with (queries_height, queries_width).
    k_size (`tuple[int]`):
        Spatial sequence size of key k with (keys_height, keys_width).

Returns:
    attn (Tensor): attention map with added relative positional embeddings.
zbhwc,hkc->bhwkzbhwc,wkc->bhwkN)ri   r8   rA   r%   ÚeinsumÚview)ÚattnÚqueriesÚ	rel_pos_hÚ	rel_pos_wra   rb   Úqueries_heightÚqueries_widthÚkeys_heightÚ
keys_widthÚrelative_heightÚrelative_widthÚ
batch_sizeÚ_ÚdimÚr_qÚrelative_weights                    r.   Ú!add_decomposed_relative_positionsr|   ¢   sÐ   € ð, %+Ñ!€NØ$Ñ€KÜ! .¸yÓI€OÜ  ¸IÓF€Nà Ÿ™Ñ€J3Ø
/‰/˜*°mÓ
I€CÜ—l’lÐ#3°SÓJ€OÜ—l’lÐ#3°SÓI€Oð 		‰	*¨mÈ*ÓUØ
š!šQ¢¢1 dÐ*Ñ
+ñ	,à
š!šQ¢ 4ªÐ*Ñ
+ñ	,÷ dˆ:¨Ñ5°{Ñ7OÓPð	 	ð €Kr0   c                   ó:   ^ • \ rS rSrSrSU 4S jjrSS jrSrU =r$ )ÚVitDetAttentionéË   z=Multi-head Attention block with relative position embeddings.c                 ó(  >• [         TU ]  5         UR                  nUR                  nX@l        X4-  nUS-  U l        [        R                  " X3S-  UR                  S9U l	        [        R                  " X35      U l
        UR                  U l        U R                  (       as  [        R                  " [        R                  " SUS   -  S-
  U5      5      U l        [        R                  " [        R                  " SUS   -  S-
  U5      5      U l        gg)zÄ
Args:
    config (`VitDetConfig`):
        Model configuration.
    input_size (`tuple[int]`, *optional*):
        Input resolution, only required in case relative position embeddings are added.
g      à¿r   ©Úbiasr3   r   r   N)r   r   r   Únum_attention_headsÚ	num_headsÚscaler   ÚLinearÚqkv_biasÚqkvÚprojÚ use_relative_position_embeddingsr$   r%   r&   ro   rp   )r*   r+   Ú
input_sizery   r„   Úhead_dimr-   s         €r.   r   ÚVitDetAttention.__init__Î   sÖ   ø€ ô 	‰ÑÔà× Ñ ˆØ×.Ñ.ˆ	à"ŒØÑ#ˆØ˜t‘^ˆŒ
ä—9’9˜S¨¡'°·±Ñ@ˆŒÜ—I’I˜cÓ'ˆŒ	à06×0WÑ0WˆÔ-Ø×0×0äŸ\š\¬%¯+ª+°a¸*ÀQ¹-Ñ6GÈ!Ñ6KÈXÓ*VÓWˆDŒNÜŸ\š\¬%¯+ª+°a¸*ÀQ¹-Ñ6GÈ!Ñ6KÈXÓ*VÓWˆDNð 1r0   c           	      ó  • UR                   u  p4pVU R                  U5      R                  X4U-  SU R                  S5      R	                  SSSSS5      nUR                  SX0R                  -  XE-  S5      R                  S5      u  p‰n
X€R                  -  U	R                  SS5      -  nU R                  (       a%  [        X¸U R                  U R                  XE4XE45      nUR                  SS9nXÊ-  nUR                  X0R                  XES5      nUR	                  SSSSS5      nUR                  X4US5      nU R                  U5      nU(       a<  UR                  X0R                  UR                   S   UR                   S   5      nX4nU$ U4nU$ )	Nr   r2   r3   r   r   é   éþÿÿÿ)ry   )r8   rˆ   rA   r„   rB   Úunbindr…   Ú	transposerŠ   r|   ro   rp   Úsoftmaxrl   r‰   )r*   Úhidden_stateÚoutput_attentionsrw   rE   rF   rx   rˆ   rn   ÚkeysÚvaluesÚattention_scoresÚattention_probsÚoutputss                 r.   rP   ÚVitDetAttention.forwardè   s  € Ø'3×'9Ñ'9Ñ$ˆ
˜Eàh‰h|Ó$×,Ñ,¨ZÀ%¹ÈÈDÏNÉNÐ\^Ó_×gÑgÐhiÐklÐnoÐqrÐtuÓvˆà #§¡¨A¨z¿N¹NÑ/JÈFÉNÐ\^Ó _× fÑ fÐghÓ iÑˆvà#§j¡jÑ0°D·N±NÀ2ÀrÓ4JÑJÐà×0×0Ü@Ø ¨4¯>©>¸4¿>¹>ÈFÈ?Ð]cÐ\kó Ðð +×2Ñ2°rÐ2Ð:ˆà&Ñ/ˆØ#×(Ñ(¨·^±^ÀVÐTVÓWˆØ#×+Ñ+¨A¨q°!°Q¸Ó:ˆØ#×+Ñ+¨JÀÀrÓJˆØ—y‘y Ó.ˆæØ-×5Ñ5ØŸN™N¨O×,AÑ,AÀ"Ñ,EÀ×G\ÑG\Ð]_ÑG`óˆOð $Ð5ˆGð ˆð $oˆGàˆr0   )r„   r‰   rˆ   ro   rp   r…   rŠ   ©N)F©	rR   rS   rT   rU   rV   r   rP   rX   rY   rZ   s   @r.   r~   r~   Ë   s   ø† ÙG÷X÷4ò r0   r~   ÚinputÚ	drop_probÚtrainingrL   c                 ó  • US:X  d  U(       d  U $ SU-
  nU R                   S   4SU R                  S-
  -  -   nU[        R                  " X@R                  U R
                  S9-   nUR                  5         U R                  U5      U-  nU$ )a*  
Drop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).

Comment by Ross Wightman: This is the same as the DropConnect impl I created for EfficientNet, etc networks,
however, the original name is misleading as 'Drop Connect' is a different form of dropout in a separate paper...
See discussion: https://github.com/tensorflow/tpu/issues/494#issuecomment-532968956 ... I've opted for changing the
layer and argument names to 'drop path' rather than mix DropConnect as a layer name and use 'survival rate' as the
argument.
ç        r   r   )r   )ÚdtypeÚdevice)r8   Úndimr%   Úrandr£   r¤   Úfloor_Údiv)rž   rŸ   r    Ú	keep_probr8   Úrandom_tensorÚoutputs          r.   Ú	drop_pathr¬   
  s   € ð CÓžxØˆØI‘€IØ[‰[˜‰^Ð ¨¯
©
°Q©Ñ 7Ñ7€EØ¤§
¢
¨5¿¹ÈEÏLÉLÑ YÑY€MØ×ÑÔØY‰YyÓ! MÑ1€FØ€Mr0   c                   óŠ   ^ • \ rS rSrSrSS\\   SS4U 4S jjjrS\R                  S\R                  4S jr
S\4S	 jrS
rU =r$ )ÚVitDetDropPathi  zXDrop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).NrŸ   rL   c                 ó.   >• [         TU ]  5         Xl        g rœ   )r   r   rŸ   )r*   rŸ   r-   s     €r.   r   ÚVitDetDropPath.__init__"  s   ø€ Ü‰ÑÔØ"r0   Úhidden_statesc                 óB   • [        XR                  U R                  5      $ rœ   )r¬   rŸ   r    )r*   r±   s     r.   rP   ÚVitDetDropPath.forward&  s   € Ü˜¯©¸¿¹ÓFÐFr0   c                 ó    • SU R                    3$ )Nzp=©rŸ   ©r*   s    r.   Ú
extra_reprÚVitDetDropPath.extra_repr)  s   € ØD—N‘NÐ#Ð$Ð$r0   rµ   rœ   )rR   rS   rT   rU   rV   r   Úfloatr   r%   rW   rP   Ústrr·   rX   rY   rZ   s   @r.   r®   r®     sQ   ø† Ùbñ# (¨5¡/ð #¸T÷ #ð #ðG U§\¡\ð G°e·l±lô Gð%˜C÷ %ò %r0   r®   c                   ó6   ^ • \ rS rSrSrSU 4S jjrS rSrU =r$ )ÚVitDetLayerNormi-  a<  
A LayerNorm variant, popularized by Transformers, that performs point-wise mean and variance normalization over the
channel dimension for inputs that have shape (batch_size, channels, height, width).
https://github.com/facebookresearch/ConvNeXt/blob/d1fa8f6fef0a165b27399986cc2bdacc92777e40/models/convnext.py#L119
c                 óú   >• [         TU ]  5         [        R                  " [        R
                  " U5      5      U l        [        R                  " [        R                  " U5      5      U l        X l	        U4U l
        g rœ   )r   r   r   r$   r%   ÚonesÚweightr&   r‚   ÚepsÚnormalized_shape)r*   rÁ   rÀ   r-   s      €r.   r   ÚVitDetLayerNorm.__init__4  sR   ø€ Ü‰ÑÔÜ—l’l¤5§:¢:Ð.>Ó#?Ó@ˆŒÜ—L’L¤§¢Ð-=Ó!>Ó?ˆŒ	ØŒØ!1Ð 3ˆÕr0   c                 ó  • UR                  SSS9nX-
  R                  S5      R                  SSS9nX-
  [        R                  " X0R                  -   5      -  nU R
                  S S 2S S 4   U-  U R                  S S 2S S 4   -   nU$ )Nr   T)Úkeepdimr3   )ÚmeanÚpowr%   r;   rÀ   r¿   r‚   )r*   ÚxÚuÚss       r.   rP   ÚVitDetLayerNorm.forward;  s€   € ØF‰F1˜dˆFÐ#ˆØ‰UK‰K˜‹N×Ñ ¨4ÐÐ0ˆØ‰U”e—j’j §X¡X¡Ó.Ñ.ˆØK‰Kš˜4 ˜Ñ&¨Ñ*¨T¯Y©Y²q¸$À°}Ñ-EÑEˆØˆr0   )r‚   rÀ   rÁ   r¿   )gíµ ÷Æ°>r   rZ   s   @r.   r¼   r¼   -  s   ø† ñ÷4÷ð r0   r¼   c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚVitDetResBottleneckBlockiC  z
The standard bottleneck residual block without the last activation layer. It contains 3 conv layers with kernels
1x1, 3x3, 1x1.
c                 ó†  >• [         TU ]  5         [        R                  " X$SSS9U l        [        U5      U l        [        UR                     U l	        [        R                  " XDSSSS9U l
        [        U5      U l        [        UR                     U l        [        R                  " XCSSS9U l        [        U5      U l        g)a"  
Args:
    config (`VitDetConfig`):
        Model configuration.
    in_channels (`int`):
        Number of input channels.
    out_channels (`int`):
        Number of output channels.
    bottleneck_channels (`int`):
        Number of output channels for the 3x3 "bottleneck" conv layers.
r   Fr   r   )Úpaddingr‚   N)r   r   r   r(   Úconv1r¼   Únorm1r   Ú
hidden_actÚact1Úconv2Únorm2Úact2Úconv3Únorm3)r*   r+   Úin_channelsÚout_channelsÚbottleneck_channelsr-   s        €r.   r   Ú!VitDetResBottleneckBlock.__init__I  sœ   ø€ ô 	‰ÑÔÜ—Y’Y˜{ÀÈÑOˆŒ
Ü$Ð%8Ó9ˆŒ
Ü˜6×,Ñ,Ñ-ˆŒ	ä—Y’YÐ2ÈÐTUÐ\aÑbˆŒ
Ü$Ð%8Ó9ˆŒ
Ü˜6×,Ñ,Ñ-ˆŒ	ä—Y’YÐ2À!È%ÑPˆŒ
Ü$ \Ó2ˆ
r0   c                 óP   • UnU R                  5        H  nU" U5      nM     X-   nU$ rœ   )Úchildren)r*   rÇ   ÚoutÚlayers       r.   rP   Ú VitDetResBottleneckBlock.forwarda  s.   € ØˆØ—]‘]–_ˆEÙ˜“*ŠCñ %ð ‰gˆØˆ
r0   )rÒ   rÕ   rÏ   rÓ   rÖ   rÐ   rÔ   r×   r   rZ   s   @r.   rÌ   rÌ   C  s   ø† ñõ
3÷0ð r0   rÌ   c                   ór   ^ • \ rS rSrS\S\SS4U 4S jjrS\R                  S\R                  4S jrS	r	U =r
$ )
Ú	VitDetMlpij  Úin_featuresÚhidden_featuresrL   Nc                 ó  >• [         TU ]  5         [        R                  " X#5      U l        [
        UR                     U l        [        R                  " X25      U l        [        R                  " UR                  5      U l        g rœ   )r   r   r   r†   Úfc1r   rÑ   ÚactÚfc2ÚDropoutÚdropout_probÚdrop)r*   r+   rã   rä   r-   s       €r.   r   ÚVitDetMlp.__init__k  sV   ø€ Ü‰ÑÔÜ—9’9˜[Ó:ˆŒÜ˜&×+Ñ+Ñ,ˆŒÜ—9’9˜_Ó:ˆŒÜ—J’J˜v×2Ñ2Ó3ˆ	r0   rÇ   c                 ó°   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ rœ   )ræ   rç   rë   rè   )r*   rÇ   s     r.   rP   ÚVitDetMlp.forwardr  sH   € ØH‰HQ‹KˆØH‰HQ‹KˆØI‰Ia‹LˆØH‰HQ‹KˆØI‰Ia‹Lˆàˆr0   )rç   rë   ræ   rè   )rR   rS   rT   rU   r9   r   r%   rW   rP   rX   rY   rZ   s   @r.   râ   râ   j  s=   ø† ð4¨Cð 4À#ð 4È$÷ 4ð˜Ÿ™ð ¨%¯,©,÷ ò r0   râ   c           	      óH  • U R                   u  p#pEXU-  -
  U-  nXU-  -
  U-  n[        R                  R                  U SSSUSU45      n X6-   XG-   p˜U R	                  X(U-  XU-  X5      n U R                  SSSSSS5      R                  5       R	                  SXU5      n
X¨U	44$ )aá  
Partition into non-overlapping windows with padding if needed.

Args:
    hidden_state (`torch.Tensor`):
        Input tokens with [batch_size, height, width, num_channels].
    window_size (`int`):
        Window size.

Returns:
    `tuple(torch.FloatTensor)` comprising various elements:
    - windows: windows after partition with [batch_size * num_windows, window_size, window_size, num_channels].
    - (padded_height, padded_width): padded height and width before partition
r   r   r   r3   r   é   r2   )r8   r   r?   Úpadrl   rB   Ú
contiguous)r”   Úwindow_sizerw   rE   rF   r   Ú
pad_heightÚ	pad_widthÚpadded_heightÚpadded_widthÚwindowss              r.   Úwindow_partitionrù   |  sÏ   € ð /;×.@Ñ.@Ñ+€J˜à¨Ñ 4Ñ4¸ÑC€JØ {Ñ2Ñ2°kÑA€Iô —=‘=×$Ñ$ \°A°q¸!¸YÈÈ:Ð3VÓW€Là"(Ñ"5°uÑ7H<à×$Ñ$Ø [Ñ0°+È{Ñ?ZÐ\gó€Lð ×"Ñ" 1 a¨¨A¨q°!Ó4×?Ñ?ÓA×FÑFÀrÈ;ÐeqÓr€GØ LÐ1Ð1Ð1r0   c                 ó(  • Uu  pEUu  pgU R                   S   XE-  U-  U-  -  nU R                  X„U-  XQ-  XS5      n	U	R                  SSSSSS5      R                  5       n	U	R                  X„US5      n	U	SS2SU2SU2SS24   R                  5       n	U	$ )	a  
Window unpartition into original sequences and removing padding.

Args:
    windows (`torch.Tensor`):
        Input tokens with [batch_size * num_windows, window_size, window_size, num_channels].
    window_size (`int`):
        Window size.
    pad_height_width (`tuple[int]`):
        Padded height and width (padded_height, padded_width).
    height_width (`tuple[int]`):
        Original height and width before padding.

Returns:
    hidden_state: unpartitioned sequences with [batch_size, height, width, num_channels].
r   r2   r   r   r3   r   rð   N)r8   rl   rB   rò   )
rø   ró   Úpad_height_widthÚheight_widthrö   r÷   rE   rF   rw   r”   s
             r.   Úwindow_unpartitionrý   œ  s¹   € ð" #3Ñ€MØ M€FØ—‘˜qÑ! mÑ&BÀkÑ&QÐU`Ñ&`Ña€JØ—<‘<Ø [Ñ0°,Ñ2MÈ{Ðikó€Lð  ×'Ñ'¨¨1¨a°°A°qÓ9×DÑDÓF€LØ×$Ñ$ ZÀÈbÓQ€Lð  ¢ 7 F 7¨F¨U¨F²AÐ 5Ñ6×AÑAÓC€LØÐr0   c                   óð   ^ • \ rS rSrSr SS\S\S\S\SS4
U 4S	 jjjr	  SS
\
R                  S\\
R                     S\S\\\
R                  \
R                  4   \\
R                     4   4S jjrSrU =r$ )ÚVitDetLayeri»  zCThis corresponds to the Block class in the original implementation.r+   Údrop_path_rateró   Úuse_residual_blockrL   Nc                 óÒ  >• [         T	U ]  5         UR                  nUR                  n[	        U[
        [        45      (       a  UOXf4nUR                  n[	        U[
        [        45      (       a  UOXw4nUS   US   -  US   US   -  4n[        R                  " XQR                  S9U l        [        XS:X  a  UOX34S9U l        US:”  a  [        U5      O[        R                  " 5       U l        [        R                  " XQR                  S9U l        [%        X['        XQR(                  -  5      S9U l        X0l        X@l        U R.                  (       a  [1        UUUUS-  S9U l        g g )	Nr   r   )rÀ   )r‹   r¢   )r+   rã   rä   r3   )r+   rØ   rÙ   rÚ   )r   r   r   r!   r   ÚlistÚtupler   r   Ú	LayerNormÚlayer_norm_epsrÐ   r~   Ú	attentionr®   ÚIdentityr¬   rÔ   râ   r9   Ú	mlp_ratioÚmlpró   r  rÌ   Úresidual)
r*   r+   r   ró   r  ry   r!   r   r‹   r-   s
            €r.   r   ÚVitDetLayer.__init__¾  sF  ø€ ô 	‰ÑÔà× Ñ ˆà×&Ñ&ˆ
Ü#-¨j¼4Ä¸-×#HÑ#H‘ZÈzÐNfˆ
à×&Ñ&ˆ
Ü#-¨j¼4Ä¸-×#HÑ#H‘ZÈzÐNfˆ
à  ‘m z°!¡}Ñ4°jÀ±mÀzÐRSÁ}Ñ6TÐUˆ
Ü—\’\ #×+@Ñ+@ÑAˆŒ
Ü(Ø¸AÓ-=™zÀKÐC]ñ
ˆŒð <JÈCÓ;Oœ¨Ô7ÔUW×U`ÒU`ÓUbˆŒÜ—\’\ #×+@Ñ+@ÑAˆŒ
Ü FÌSÐQT×WgÑWgÑQgÓMhÑiˆŒà&Ôà"4ÔØ×"×"ä4ØØØ Ø$'¨1¡Hñ	ˆDMð #r0   r±   Ú	head_maskr•   c                 ób  • UR                  SSSS5      nUnU R                  U5      nU R                  S:”  a4  UR                  S   UR                  S   pe[	        XR                  5      u  pU R                  UUS9nUS   nUSS  n	U R                  S:”  a  [        XR                  WWW45      nX@R                  U5      -   nXR                  U R                  U R                  U5      5      5      -   nUR                  SSSS5      nU R                  (       a  U R                  U5      nU4U	-   n	U	$ )Nr   r3   r   r   )r•   )rB   rÐ   ró   r8   rù   r  rý   r¬   r
  rÔ   r  r  )
r*   r±   r  r•   ÚshortcutrE   rF   rû   Úself_attention_outputsrš   s
             r.   rP   ÚVitDetLayer.forwardá  s@  € ð &×-Ñ-¨a°°A°qÓ9ˆà ˆàŸ
™
 =Ó1ˆð ×Ñ˜aÓØ)×/Ñ/°Ñ2°M×4GÑ4GÈÑ4JEÜ.>¸}×N^ÑN^Ó._Ñ+ˆMà!%§¡ØØ/ð "0ð "
Ðð /¨qÑ1ˆØ(¨¨Ð,ˆð ×Ñ˜aÓÜ.¨}×>NÑ>NÐP`ÐciÐkpÐbqÓrˆMð !§>¡>°-Ó#@Ñ@ˆà%¯©°t·x±xÀÇ
Á
È=Ó@YÓ7ZÓ([Ñ[ˆà%×-Ñ-¨a°°A°qÓ9ˆà×"×"Ø ŸM™M¨-Ó8ˆMà Ð" WÑ,ˆàˆr0   )r  r¬   r
  rÐ   rÔ   r  r  ró   )r   r   F)NF)rR   rS   rT   rU   rV   r   r¹   r9   Úboolr   r%   rW   r   r   r  rP   rX   rY   rZ   s   @r.   rÿ   rÿ   »  sª   ø† ÙMð qvñ!Ø"ð!Ø49ð!ØLOð!Øimð!à	÷!ð !ðL -1Ø"'ñ	(à—|‘|ð(ð ˜EŸL™LÑ)ð(ð  ð	(ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷(ó (r0   rÿ   c                   óš   ^ • \ rS rSrS\SS4U 4S jjr    SS\R                  S\\R                     S\	S	\	S
\	S\
\\4   4S jjrSrU =r$ )ÚVitDetEncoderi  r+   rL   Nc           
      ó¾  >• [         TU ]  5         Xl        UR                  n[        R
                  " SUR                  USS9 Vs/ sH  o3R                  5       PM     nn/ n[        U5       HG  nUR                  [        UXF   XaR                  ;   a  UR                  OSXaR                  ;   S95        MI     [        R                  " U5      U l        SU l        g s  snf )Nr   Úcpu)r¤   )r   ró   r  F)r   r   r+   Únum_hidden_layersr%   Úlinspacer   ÚitemÚrangeÚappendrÿ   Úwindow_block_indicesró   Úresidual_block_indicesr   Ú
ModuleListrß   Úgradient_checkpointing)r*   r+   ÚdepthrÇ   r   ÚlayersÚir-   s          €r.   r   ÚVitDetEncoder.__init__  sÄ   ø€ Ü‰ÑÔØŒØ×(Ñ(ˆô -2¯NªN¸1¸f×>SÑ>SÐUZÐchÒ,iÓjÑ,i qŸ&™&ž(Ñ,iˆÐjàˆÜu–ˆAØM‰MÜØØ#1Ñ#4Ø67×;VÑ;VÓ6V × 2Ò 2Ð\]Ø'(×,IÑ,IÑ'Iñ	öñ ô —]’] 6Ó*ˆŒ
Ø&+ˆÕ#ùò ks   ÁCr±   r  r•   Úoutput_hidden_statesÚreturn_dictc                 ó6  • U(       a  SOS nU(       a  SOS n[        U R                  5       H9  u  p‰U(       a  Xa4-   nUb  X(   OS n
U	" XU5      nUS   nU(       d  M1  X{S   4-   nM;     U(       a  Xa4-   nU(       d  [        S XU4 5       5      $ [        UUUS9$ )N© r   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frœ   r'  )Ú.0Úvs     r.   Ú	<genexpr>Ú(VitDetEncoder.forward.<locals>.<genexpr>?  s   é € ÐmÑ$[˜qŸ™Ò$[ùs   ‚‹	©Úlast_hidden_stater±   Ú
attentions)Ú	enumeraterß   r  r
   )r*   r±   r  r•   r$  r%  Úall_hidden_statesÚall_self_attentionsr"  Úlayer_moduleÚlayer_head_maskÚlayer_outputss               r.   rP   ÚVitDetEncoder.forward#  s¹   € ö #7™B¸DÐÞ$5™b¸4Ðä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜išlÈˆOá(¨ÐIZÓ[ˆMà)¨!Ñ,ˆMç Ð Ø&9È1Ñ=MÐ<OÑ&OÒ#ñ  5ö  Ø 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+Ø+Ø*ñ
ð 	
r0   )r+   r  rß   )NFFT)rR   rS   rT   rU   r   r   r%   rW   r   r  r   r  r
   rP   rX   rY   rZ   s   @r.   r  r    s   ø† ð,˜|ð ,°÷ ,ð2 -1Ø"'Ø%*Ø ñ!
à—|‘|ð!
ð ˜EŸL™LÑ)ð!
ð  ð	!
ð
 #ð!
ð ð!
ð 
ˆuoÐ%Ñ	&÷!
ó !
r0   r  Úmodulec                 óÆ   • [         R                  R                  U R                  SSS9  U R                  b+  [         R                  R                  U R                  S5        gg)a  
Initialize `module.weight` using the "MSRAFill" implemented in Caffe2. Also initializes `module.bias` to 0.

Source: https://detectron2.readthedocs.io/en/latest/_modules/fvcore/nn/weight_init.html.

Args:
    module (torch.nn.Module): module to initialize.
Úfan_outÚrelu)r6   ÚnonlinearityNr   )r   ÚinitÚkaiming_normal_r¿   r‚   Ú	constant_)r7  s    r.   Úcaffe2_msra_fillr?  G  sH   € ô ‡GG×Ñ˜FŸM™M°	ÈÐÑOØ‡{{ÑÜ
‰×Ñ˜&Ÿ+™+ qÕ)ð r0   c                   óŠ   • \ rS rSr% \\S'   SrSrSr/ r	S\
\R                  \R                  \R                  4   SS4S	 jrS
rg)ÚVitDetPreTrainedModeliU  r+   ÚvitdetrK   Tr7  rL   Nc                 ól  • [        U[        R                  [        R                  45      (       aÉ  [        R                  R                  UR                  R                  R                  [        R                  5      SU R                  R                  S9R                  UR                  R                  5      UR                  l        UR                  b%  UR                  R                  R                  5         gg[        U[        R                   5      (       aJ  UR                  R                  R                  5         UR                  R                  R#                  S5        g[        U[$        5      (       a—  [        R                  R                  UR&                  R                  R                  [        R                  5      SU R                  R                  S9R                  UR&                  R                  5      UR&                  l        g[        U[(        5      (       Ga  U R                  R*                  (       aç  [        R                  R                  UR,                  R                  R                  [        R                  5      SU R                  R                  S9UR,                  l        [        R                  R                  UR.                  R                  R                  [        R                  5      SU R                  R                  S9UR.                  l        g[        U[0        5      (       aú  UR2                  UR4                  UR6                  4 H  n[9        U5        M     UR:                  UR<                  4 HL  nUR                  R                  R#                  S5        UR                  R                  R                  5         MN     UR>                  R                  R                  R                  5         UR>                  R                  R                  R                  5         gg)zInitialize the weightsr¢   )rÅ   ÚstdNr]   ) r   r   r†   r(   r<  Útrunc_normal_r¿   ÚdataÚtor%   Úfloat32r+   Úinitializer_ranger£   r‚   Úzero_r  Úfill_r   r'   r~   rŠ   ro   rp   rÌ   rÏ   rÓ   rÖ   r?  rÐ   rÔ   r×   )r*   r7  rß   s      r.   Ú_init_weightsÚ#VitDetPreTrainedModel._init_weights]  sÔ  € äfœrŸy™y¬"¯)©)Ð4×5Ñ5ô "$§¡×!6Ñ!6Ø—‘×"Ñ"×%Ñ%¤e§m¡mÓ4¸3ÀDÇKÁK×DaÑDað "7ð "ç‰b—‘×$Ñ$Ó%ð M‰MÔð {‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)ä˜Ô 0×1Ñ1Ü.0¯g©g×.CÑ.CØ×*Ñ*×/Ñ/×2Ñ2´5·=±=ÓAØØ—K‘K×1Ñ1ð /Dð /÷ ‰b×+Ñ+×1Ñ1Ó2ð	 ×&Ñ&Õ+ô ˜¤×0Ò0°T·[±[×5a×5aÜ$&§G¡G×$9Ñ$9Ø× Ñ ×%Ñ%×(Ñ(¬¯©Ó7ØØ—K‘K×1Ñ1ð %:ð %ˆF×ÑÔ!ô
 %'§G¡G×$9Ñ$9Ø× Ñ ×%Ñ%×(Ñ(¬¯©Ó7ØØ—K‘K×1Ñ1ð %:ð %ˆF×ÑÕ!ô ˜Ô 8×9Ñ9Ø Ÿ,™,¨¯©°f·l±lÓCÜ  Ö'ñ Dà Ÿ,™,¨¯©Ó5Ø—‘×!Ñ!×'Ñ'¨Ô,Ø—
‘
—‘×%Ñ%Ö'ñ 6ð L‰L×Ñ×$Ñ$×*Ñ*Ô,ØL‰L×Ñ×"Ñ"×(Ñ(Õ*ð :r0   r'  )rR   rS   rT   rU   r   Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesr   r   r†   r(   r  rL  rX   r'  r0   r.   rA  rA  U  sK   ‡ àÓØ ÐØ$€OØ&*Ð#ØÐð)+ E¨"¯)©)°R·Y±YÀÇÁÐ*LÑ$Mð )+ÐRV÷ )+r0   rA  c                   óê   ^ • \ rS rSrS\4U 4S jjrS\4S jrS\\	\
\	   4   SS4S jr\     SS	\\R                     S
\\R                     S\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚVitDetModeli‰  r+   c                 ó   >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        U R                  5         g rœ   )r   r   r+   r   rO   r  ÚencoderÚ	post_init)r*   r+   r-   s     €r.   r   ÚVitDetModel.__init__‹  s9   ø€ Ü‰Ñ˜Ô ØŒä*¨6Ó2ˆŒÜ$ VÓ,ˆŒð 	‰Õr0   rL   c                 ó.   • U R                   R                  $ rœ   ©rO   r)   r¶   s    r.   Úget_input_embeddingsÚ VitDetModel.get_input_embeddings•  ó   € Ø‰×)Ñ)Ð)r0   Úheads_to_pruneNc                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)ÚitemsrV  rß   r  Úprune_heads)r*   r^  rß   Úheadss       r.   Ú_prune_headsÚVitDetModel._prune_heads˜  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r0   rK   r  r•   r$  r%  c                 óº  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eU R                  X R                   R                  5      nU R                  U5      nU R                  UUUUUS9nUS   nU(       d	  U4USS -   $ [        UUR                  UR                  S9$ )aw  
Examples:

```python
>>> from transformers import VitDetConfig, VitDetModel
>>> import torch

>>> config = VitDetConfig()
>>> model = VitDetModel(config)

>>> pixel_values = torch.randn(1, 3, 224, 224)

>>> with torch.no_grad():
...     outputs = model(pixel_values)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 768, 14, 14]
```Nz You have to specify pixel_values)r  r•   r$  r%  r   r   r-  )r+   r•   r$  Úuse_return_dictr<   Úget_head_maskr  rO   rV  r
   r±   r/  )	r*   rK   r  r•   r$  r%  Úembedding_outputÚencoder_outputsÚsequence_outputs	            r.   rP   ÚVitDetModel.forward   s÷   € ð8 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ?Ó@Ð@ð ×&Ñ& y·+±+×2OÑ2OÓPˆ	àŸ?™?¨<Ó8ÐàŸ,™,ØØØ/Ø!5Ø#ð 'ð 
ˆð *¨!Ñ,ˆæØ#Ð%¨¸¸Ð(;Ñ;Ð;äØ-Ø)×7Ñ7Ø&×1Ñ1ñ
ð 	
r0   )r+   rO   rV  )NNNNN)rR   rS   rT   rU   r   r   r   r[  Údictr9   r  rc  r   r   r%   rW   r  r   r  r
   rP   rX   rY   rZ   s   @r.   rT  rT  ‰  sÆ   ø† ð˜|÷ ð*Ð&6ô *ðC¨4°°T¸#±Y°Ñ+?ð CÀDô Cð ð 04Ø,0Ø,0Ø/3Ø&*ñ=
à˜uŸ|™|Ñ,ð=
ð ˜EŸL™LÑ)ð=
ð $ D™>ð	=
ð
 ' t™nð=
ð ˜d‘^ð=
ð 
ˆuoÐ%Ñ	&ô=
ó ö=
r0   rT  zF
    ViTDet backbone, to be used with frameworks like Mask R-CNN.
    )Úcustom_introc                   óŽ   ^ • \ rS rSrU 4S jrS\4S jr\   SS\R                  S\
\   S\
\   S\
\   S\4
S	 jj5       rS
rU =r$ )ÚVitDetBackboneiá  c                 ó  >• [         TU ]  U5        [         TU ]	  U5        [        U5      U l        [        U5      U l        [        UR                  S-   5       Vs/ sH  o!R                  PM     snU l
        U R                  5         g s  snf )Nr   )r   r   Ú_init_backboner   rO   r  rV  r  r  r   Únum_featuresrW  )r*   r+   rx   r-   s      €r.   r   ÚVitDetBackbone.__init__ç  su   ø€ Ü‰Ñ˜Ô Ü‰Ñ˜vÔ&ä*¨6Ó2ˆŒÜ$ VÓ,ˆŒÜ9>¸v×?WÑ?WÐZ[Ñ?[Ô9\Ó]Ñ9\°A×/Ô/Ñ9\Ñ]ˆÔð 	‰Õùò ^s   ÁBrL   c                 ó.   • U R                   R                  $ rœ   rZ  r¶   s    r.   r[  Ú#VitDetBackbone.get_input_embeddingsò  r]  r0   rK   r$  r•   r%  c                 ó   • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  U5      nU R                  USUUS9nU(       a  UR                  OUS   nSn[        U R                  U5       H  u  pšXR                  ;   d  M  XŠ4-  nM     U(       d  U(       a  U4USS -   nU$ U4USS -   nU$ [        UU(       a  UR                  OSUR                  S9$ )ap  
Examples:

```python
>>> from transformers import VitDetConfig, VitDetBackbone
>>> import torch

>>> config = VitDetConfig()
>>> model = VitDetBackbone(config)

>>> pixel_values = torch.randn(1, 3, 224, 224)

>>> with torch.no_grad():
...     outputs = model(pixel_values)

>>> feature_maps = outputs.feature_maps
>>> list(feature_maps[-1].shape)
[1, 768, 14, 14]
```NT)r$  r•   r%  r   r'  r3   )Úfeature_mapsr±   r/  )r+   rf  r$  r•   rO   rV  r±   ÚzipÚstage_namesÚout_featuresr	   r/  )r*   rK   r$  r•   r%  rh  rš   r±   rw  Ústager”   r«   s               r.   rP   ÚVitDetBackbone.forwardõ  s+  € ð6 &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐàŸ?™?¨<Ó8Ðà—,‘,ØØ!%Ø/Ø#ð	 ð 
ˆö 2=˜×-Ò-À'È!Á*ˆàˆÜ#& t×'7Ñ'7¸Ö#GÑˆEØ×)Ñ)Õ)Ø Ñ/’ñ $Hö Þ#Ø&˜¨7°1°2¨;Ñ6ð ˆMð '˜¨7°1°2¨;Ñ6ØˆMäØ%Þ3G˜'×/Ò/ÈTØ×)Ñ)ñ
ð 	
r0   )rO   rV  rr  )NNN)rR   rS   rT   rU   r   r   r[  r   r%   rW   r   r  r	   rP   rX   rY   rZ   s   @r.   ro  ro  á  st   ø† õ	ð*Ð&6ô *ð ð 04Ø,0Ø&*ñ;
à—l‘lð;
ð ' t™nð;
ð $ D™>ð	;
ð
 ˜d‘^ð;
ð 
ô;
ó ö;
r0   ro  )rT  rA  ro  )r¢   F)5rV   Úcollections.abcr   r:   Útypingr   r   r%   Útorch.utils.checkpointr   Úactivationsr   Úmodeling_layersr   Úmodeling_outputsr	   r
   Úmodeling_utilsr   Úutilsr   r   Úutils.backbone_utilsr   Úconfiguration_vitdetr   Ú
get_loggerrR   ÚloggerÚModuler   r=   Úscript_if_tracingri   r|   r~   rW   r¹   r  r¬   r®   r¼   rÌ   râ   rù   rý   rÿ   r  r?  rA  rT  ro  Ú__all__r'  r0   r.   Ú<module>rŒ     s¬  ðñ ã Û ß "ã Û Ý å !Ý 9ß ?Ý -ß ,Ý 1Ý .ð 
×	Ò	˜HÓ	%€ôUr—y‘yô Uðp ‡×Ññ!3ó ð!3òH&ôR;b—i‘iô ;ñ~U—\‘\ð ¨eð ÀTð ÐV[×VbÑVbõ ô*%R—Y‘Yô %ôb—i‘iô ô,$˜rŸy™yô $ôN—	‘	ô ò$2ò@ô>NÐ,ô Nôb8
B—I‘Iô 8
ðv*˜RŸY™Yð *¨4ô *ð ô0+˜Oó 0+ó ð0+ðf ôT
Ð'ó T
ó ðT
ñn ðñô
K
Ð*¨Mó K
óð
K
ò\ Er0   