ó
    <±h³|  ã                   ón  • S r SSKJrJrJr  SSKrSSKrSSKJr  SSKJ	r	J
r
  SSKJr  SSKJr  SS	KJrJrJr  SS
KJrJr  SSKJrJr  SSKJrJrJr  SSKJr  \R>                  " \ 5      r! " S S\RD                  5      r# " S S\RD                  5      r$ S4S\RD                  S\RJ                  S\RJ                  S\RJ                  S\\RJ                     S\&S\&4S jjr' " S S\RD                  5      r( " S S\RD                  5      r) " S S \RD                  5      r* " S! S"\RD                  5      r+ " S# S$\RD                  5      r, " S% S&\5      r- " S' S(\RD                  5      r. " S) S*\RD                  5      r/\ " S+ S,\5      5       r0\ " S- S.\05      5       r1\" S/S09 " S1 S2\05      5       r2/ S3Qr3g)5zPyTorch ViViT model.é    )ÚCallableÚOptionalÚUnionN)Únn)ÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPoolingÚImageClassifierOutput)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)Ú find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚloggingÚ	torch_inté   )ÚVivitConfigc                   ó>   ^ • \ rS rSrSrU 4S jrSS\4S jjrSrU =r	$ )ÚVivitTubeletEmbeddingsé$   az  
Construct Vivit Tubelet embeddings.

This module turns a batch of videos of shape (batch_size, num_frames, num_channels, height, width) into a tensor of
shape (batch_size, seq_len, hidden_size) to be consumed by a Transformer encoder.

The seq_len (the number of patches) equals (number of frames // tubelet_size[0]) * (height // tubelet_size[1]) *
(width // tubelet_size[2]).
c                 óè  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U l        U R                  U R
                  S   -  U R                  U R
                  S   -  -  U R                  U R
                  S   -  -  U l        UR                  U l        [        R                  " UR                  UR                  UR                  UR                  S9U l        g )Né   r   r   )Úkernel_sizeÚstride)ÚsuperÚ__init__Ú
num_framesÚ
image_sizeÚtubelet_sizeÚ
patch_sizeÚnum_patchesÚhidden_sizeÚ	embed_dimr   ÚConv3dÚnum_channelsÚ
projection©ÚselfÚconfigÚ	__class__s     €Ú`/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/vivit/modeling_vivit.pyr    ÚVivitTubeletEmbeddings.__init__/   sÇ   ø€ Ü‰ÑÔØ ×+Ñ+ˆŒØ ×+Ñ+ˆŒØ ×-Ñ-ˆŒà_‰_ §¡°Ñ 2Ñ2Ø‰ $§/¡/°!Ñ"4Ñ4ñ6à‰ $§/¡/°!Ñ"4Ñ4ñ6ð 	Ôð
  ×+Ñ+ˆŒäŸ)š)Ø×Ñ ×!3Ñ!3À×ATÑATÐ]c×]pÑ]pñ
ˆó    Úinterpolate_pos_encodingc                 ób  • UR                   u  p4pVnU(       dP  X`R                  :w  d  XpR                  :w  a2  [        SU SU SU R                  S    SU R                  S    S3	5      eUR                  SSSSS	5      nU R	                  U5      nUR                  S5      R                  SS5      nU$ )
NzImage image size (Ú*z) doesn't match model (r   r   z).r   r	   é   )Úshaper"   Ú
ValueErrorÚpermuter*   ÚflattenÚ	transpose)	r,   Úpixel_valuesr2   Ú
batch_sizer!   r)   ÚheightÚwidthÚxs	            r/   ÚforwardÚVivitTubeletEmbeddings.forward?   s»   € Ø>J×>PÑ>PÑ;ˆ
 °eÞ'¨V·±Ó-FÈ%×SbÑSbÓJbÜØ$ V H¨A¨e¨WÐ4KÈDÏOÉOÐ\]ÑL^ÐK_Ð_`Ðae×apÑapÐqrÑasÐ`tÐtvÐwóð ð
 $×+Ñ+¨A¨q°!°Q¸Ó:ˆàO‰O˜LÓ)ˆð I‰Ia‹L×"Ñ" 1 aÓ(ˆØˆr1   )r'   r"   r!   r%   r$   r*   ©F)
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r    Úboolr@   Ú__static_attributes__Ú__classcell__©r.   s   @r/   r   r   $   s   ø† ñõ
ñ ¸d÷ ó r1   r   c                   ó€   ^ • \ rS rSrSrU 4S jrS\R                  S\S\S\R                  4S jr	SS	\
4S
 jjrSrU =r$ )ÚVivitEmbeddingséP   z|
Vivit Embeddings.

Creates embeddings from a video using VivitTubeletEmbeddings, adds CLS token and positional embeddings.
c                 óÚ  >• [         TU ]  5         [        R                  " [        R
                  " SSUR                  5      5      U l        [        U5      U l	        [        R                  " [        R
                  " SU R                  R                  S-   UR                  5      5      U l        [        R                  " UR                  5      U l        UR                  SS  U l        Xl        g )Nr   )r   r    r   Ú	ParameterÚtorchÚzerosr&   Ú	cls_tokenr   Úpatch_embeddingsr%   Úposition_embeddingsÚDropoutÚhidden_dropout_probÚdropoutr#   r$   r-   r+   s     €r/   r    ÚVivitEmbeddings.__init__W   s§   ø€ Ü‰ÑÔäŸš¤e§k¢k°!°Q¸×8JÑ8JÓ&KÓLˆŒÜ 6°vÓ >ˆÔä#%§<¢<ÜKŠK˜˜4×0Ñ0×<Ñ<¸qÑ@À&×BTÑBTÓUó$
ˆÔ ô —z’z &×"<Ñ"<Ó=ˆŒØ ×-Ñ-¨a¨bÐ1ˆŒØr1   Ú
embeddingsr=   r>   Úreturnc                 ó¨  • UR                   S   S-
  nU R                  R                   S   S-
  n[        R                  R	                  5       (       d  XE:X  a  X#:X  a  U R                  $ U R                  SS2SS24   nU R                  SS2SS24   nUR                   S   nX R
                  S   -  n	X0R
                  S   -  n
[        US-  5      nUR                  SX»U5      nUR                  SSSS5      n[        R                  R                  UXš4SS	S
9nUR                  SSSS5      R                  SSU5      n[        R                  " Xg4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   Néÿÿÿÿr   g      à?r	   r   ÚbicubicF)ÚsizeÚmodeÚalign_corners©Údim)r6   rU   rQ   ÚjitÚ
is_tracingr$   r   Úreshaper8   r   Ú
functionalÚinterpolateÚviewÚcat)r,   rZ   r=   r>   r%   Únum_positionsÚclass_pos_embedÚpatch_pos_embedrc   Ú
new_heightÚ	new_widthÚsqrt_num_positionss               r/   r2   Ú(VivitEmbeddings.interpolate_pos_encodinge   s]  € ð !×&Ñ& qÑ)¨AÑ-ˆØ×0Ñ0×6Ñ6°qÑ9¸AÑ=ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×+Ñ+Ð+à×2Ñ2²1°b°q°b°5Ñ9ˆØ×2Ñ2²1°a±b°5Ñ9ˆà×Ñ˜rÑ"ˆàŸ™¨qÑ1Ñ1ˆ
ØŸ_™_¨QÑ/Ñ/ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr1   r2   c                 ó"  • UR                   u  p4pVnU R                  XS9nU R                  R                  USS/5      n	[        R
                  " X˜4SS9nU(       a  X€R                  X†U5      -   nOX€R                  -   nU R                  U5      nU$ )N©r2   r   rb   )	r6   rT   rS   ÚtilerQ   rj   r2   rU   rX   )
r,   r;   r2   r<   r!   r)   r=   r>   rZ   Ú
cls_tokenss
             r/   r@   ÚVivitEmbeddings.forward   s’   € Ø>J×>PÑ>PÑ;ˆ
 °eØ×*Ñ*¨<Ð*Ðkˆ
à—^‘^×(Ñ(¨*°a¸Ð);Ó<ˆ
Ü—Y’Y 
Ð7¸QÑ?ˆ
ö $Ø#×&CÑ&CÀJÐX]Ó&^Ñ^‰Jà#×&>Ñ&>Ñ>ˆJà—\‘\ *Ó-ˆ
àÐr1   )rS   r-   rX   rT   r$   rU   rB   )rC   rD   rE   rF   rG   r    rQ   ÚTensorÚintr2   rH   r@   rI   rJ   rK   s   @r/   rM   rM   P   sQ   ø† ñõð&D°5·<±<ð &DÈð &DÐUXð &DÐ]b×]iÑ]iô &DñP¸d÷ ó r1   rM   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingrX   c                 ó°  • [         R                  " XR                  SS5      5      U-  n[        R                  R                  US[         R                  S9R                  UR                  5      n[        R                  R                  X†U R                  S9nUb  X„-  n[         R                  " Xƒ5      n	U	R                  SS5      R                  5       n	X˜4$ )Nr]   éþÿÿÿ)rc   Údtype)ÚpÚtrainingr   r   )rQ   Úmatmulr:   r   rg   ÚsoftmaxÚfloat32Útor   rX   rƒ   Ú
contiguous)
ry   rz   r{   r|   r}   r~   rX   ÚkwargsÚattn_weightsÚattn_outputs
             r/   Úeager_attention_forwardrŒ       s¶   € ô —<’< §}¡}°R¸Ó'<Ó=ÀÑG€Lô —=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€Lô —=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€Lð Ñ!Ø#Ñ4ˆä—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r1   c            
       óÂ   ^ • \ rS rSrS\SS4U 4S jjr  S
S\\R                     S\	S\
\\R                  \R                  4   \\R                     4   4S jjrS	rU =r$ )ÚVivitSelfAttentioné¿   r-   r[   Nc                 ó0  >• [         TU ]  5         UR                  UR                  -  S:w  a7  [	        US5      (       d&  [        SUR                   SUR                   S35      eXl        UR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l	        UR                  U l        U R                  S-  U l        SU l        [        R                  " UR                  U R                  UR                   S9U l        [        R                  " UR                  U R                  UR                   S9U l        [        R                  " UR                  U R                  UR                   S9U l        g )	Nr   Úembedding_sizezThe hidden size z4 is not a multiple of the number of attention heads Ú.g      à¿F)Úbias)r   r    r&   Únum_attention_headsÚhasattrr7   r-   rx   Úattention_head_sizeÚall_head_sizeÚattention_probs_dropout_probÚdropout_probr~   Ú	is_causalr   ÚLinearÚqkv_biasrz   r{   r|   r+   s     €r/   r    ÚVivitSelfAttention.__init__À   sG  ø€ Ü‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ" 6×#5Ñ#5Ð"6ð 7Ø×3Ñ3Ð4°Að7óð ð
 ŒØ#)×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔØ"×?Ñ?ˆÔØ×/Ñ/°Ñ5ˆŒØˆŒä—Y’Y˜v×1Ñ1°4×3EÑ3EÈFÏOÉOÑ\ˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÈ&Ï/É/ÑZˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÈFÏOÉOÑ\ˆ
r1   Ú	head_maskÚoutput_attentionsc                 ó¸  • UR                   u  pEnU R                  U5      R                  USU R                  U R                  5      R                  SS5      nU R                  U5      R                  USU R                  U R                  5      R                  SS5      nU R                  U5      R                  USU R                  U R                  5      R                  SS5      n	[        n
U R                  R                  S:w  aT  U R                  R                  S:X  a  U(       a  [        R                  S5        O[        U R                  R                     n
U
" U U	UUUU R                  U R                  U R                   (       d  SOU R"                  S9u  p¼UR%                  5       S S	 U R&                  4-   nUR)                  U5      nU(       a  X¼4nU$ U4nU$ )
Nr]   r   r   ÚeagerÚsdpazã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.ç        )rš   r~   rX   r€   )r6   r{   ri   r”   r–   r:   r|   rz   rŒ   r-   Ú_attn_implementationÚloggerÚwarning_oncer   rš   r~   rƒ   r™   r_   r—   rf   )r,   Úhidden_statesrž   rŸ   r<   Ú
seq_lengthÚ_Ú	key_layerÚvalue_layerÚquery_layerÚattention_interfaceÚcontext_layerÚattention_probsÚnew_context_layer_shapeÚoutputss                  r/   r@   ÚVivitSelfAttention.forwardÔ   s­  € ð %2×$7Ñ$7Ñ!ˆ
 àH‰H]Ó#ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð J‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð J‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ô )@ÐØ;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9Ö>OÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#á)<ØØØØØØ—n‘nØ—L‘LØ#Ÿ}Ÿ}‘C°$×2CÑ2Cñ	*
Ñ&ˆð #0×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×-Ñ-Ð.EÓFˆæ6G=Ð2ˆàˆð O\ÐM]ˆàˆr1   )
r—   r–   r-   r™   rš   r{   r”   rz   r~   r|   ©NF)rC   rD   rE   rF   r   r    r   rQ   rw   rH   r   Útupler@   rI   rJ   rK   s   @r/   rŽ   rŽ   ¿   sw   ø† ð]˜{ð ]¨t÷ ]ð. -1Ø"'ñ	1ð ˜EŸL™LÑ)ð1ð  ð	1ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷1ó 1r1   rŽ   c                   óŠ   ^ • \ rS rSrSrS\SS4U 4S jjrS\R                  S\R                  S\R                  4S	 jr	S
r
U =r$ )ÚVivitSelfOutputi	  z–
The residual connection is defined in VivitLayer instead of here (as is the case with other models), due to the
layernorm applied before each block.
r-   r[   Nc                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  5      U l        g ©N)	r   r    r   r›   r&   ÚdenserV   rW   rX   r+   s     €r/   r    ÚVivitSelfOutput.__init__  sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr1   r§   Úinput_tensorc                 óJ   • U R                  U5      nU R                  U5      nU$ r¸   ©r¹   rX   ©r,   r§   r»   s      r/   r@   ÚVivitSelfOutput.forward  s$   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆàÐr1   r½   )rC   rD   rE   rF   rG   r   r    rQ   rw   r@   rI   rJ   rK   s   @r/   r¶   r¶   	  sI   ø† ñð
>˜{ð >¨t÷ >ð
 U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r1   r¶   c                   óò   ^ • \ rS rSrS\SS4U 4S jjrS\\   SS4S jr  SS\	R                  S	\\	R                     S
\S\\\	R                  \	R                  4   \\	R                     4   4S jjrSrU =r$ )ÚVivitAttentioni  r-   r[   Nc                 ó€   >• [         TU ]  5         [        U5      U l        [	        U5      U l        [        5       U l        g r¸   )r   r    rŽ   Ú	attentionr¶   ÚoutputÚsetÚpruned_headsr+   s     €r/   r    ÚVivitAttention.__init__  s0   ø€ Ü‰ÑÔÜ+¨FÓ3ˆŒÜ% fÓ-ˆŒÜ›EˆÕr1   Úheadsc                 ó6  • [        U5      S:X  a  g [        XR                  R                  U R                  R                  U R
                  5      u  p[        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l	        [        U R                  R                  USS9U R                  l        U R                  R                  [        U5      -
  U R                  l        U R                  R                  U R                  R                  -  U R                  l        U R
                  R                  U5      U l        g )Nr   r   rb   )Úlenr   rÃ   r”   r–   rÆ   r   rz   r{   r|   rÄ   r¹   r—   Úunion)r,   rÈ   Úindexs      r/   Úprune_headsÚVivitAttention.prune_heads#  s  € Üˆu‹:˜‹?ØÜ7Ø—>‘>×5Ñ5°t·~±~×7YÑ7YÐ[_×[lÑ[ló
‰ˆô
  2°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ/°·±×0BÑ0BÀEÓJˆ‰ÔÜ1°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð .2¯^©^×-OÑ-OÔRUÐV[ÓR\Ñ-\ˆ‰Ô*Ø'+§~¡~×'IÑ'IÈDÏNÉN×LnÑLnÑ'nˆ‰Ô$Ø ×-Ñ-×3Ñ3°EÓ:ˆÕr1   r§   rž   rŸ   c                 óf   • U R                  XU5      nU R                  US   U5      nU4USS  -   nU$ )Nr   r   )rÃ   rÄ   )r,   r§   rž   rŸ   Úself_outputsÚattention_outputr±   s          r/   r@   ÚVivitAttention.forward5  sC   € ð —~‘~ mÐ@QÓRˆàŸ;™; |°A¡¸ÓFÐà#Ð%¨°Q°RÐ(8Ñ8ˆØˆr1   )rÃ   rÄ   rÆ   r³   )rC   rD   rE   rF   r   r    rÅ   rx   rÍ   rQ   rw   r   rH   r   r´   r@   rI   rJ   rK   s   @r/   rÁ   rÁ     s—   ø† ð"˜{ð "¨t÷ "ð;  S¡ð ;¨dô ;ð* -1Ø"'ñ	à—|‘|ðð ˜EŸL™LÑ)ðð  ð	ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷ó r1   rÁ   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚVivitIntermediateiC  c                 ó^  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR                  5      U l	        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g r¸   )r   r    r   r›   r&   Úintermediate_sizer¹   rV   rW   rX   Ú
isinstanceÚ
hidden_actÚstrr
   Úintermediate_act_fnr+   s     €r/   r    ÚVivitIntermediate.__init__D  sv   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆŒÜf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$r1   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ r¸   )r¹   rÚ   rX   )r,   r§   s     r/   r@   ÚVivitIntermediate.forwardM  s4   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆØŸ™ ]Ó3ˆàÐr1   )r¹   rX   rÚ   ©rC   rD   rE   rF   r    r@   rI   rJ   rK   s   @r/   rÔ   rÔ   C  s   ø† õ9÷ð r1   rÔ   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚVivitOutputiU  c                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR                  5      U l	        g r¸   )
r   r    r   r›   rÖ   r&   r¹   rV   rW   rX   r+   s     €r/   r    ÚVivitOutput.__init__V  sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr1   c                 óR   • U R                  U5      nU R                  U5      nX-   nU$ r¸   r½   r¾   s      r/   r@   ÚVivitOutput.forward[  s,   € ØŸ
™
 =Ó1ˆàŸ™ ]Ó3ˆà%Ñ4ˆàÐr1   r½   rÞ   rK   s   @r/   rà   rà   U  s   ø† õ>÷
ð r1   rà   c                   ó6   ^ • \ rS rSrSrU 4S jrSS jrSrU =r$ )Ú
VivitLayerie  zNThis corresponds to the EncoderBlock class in the scenic/vivit implementation.c                 ój  >• [         TU ]  5         UR                  U l        SU l        [	        U5      U l        [        U5      U l        [        U5      U l	        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  UR                  S9U l        g )Nr   ©Úeps)r   r    Úchunk_size_feed_forwardÚseq_len_dimrÁ   rÃ   rÔ   Úintermediaterà   rÄ   r   Ú	LayerNormr&   Úlayer_norm_epsÚlayernorm_beforeÚlayernorm_afterr+   s     €r/   r    ÚVivitLayer.__init__h  s‡   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ'¨Ó/ˆŒÜ-¨fÓ5ˆÔÜ! &Ó)ˆŒÜ "§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÔÜ!Ÿ|š|¨F×,>Ñ,>ÀF×DYÑDYÑZˆÕr1   c                 óÔ   • U R                  U R                  U5      UUS9nUS   nUSS  nXQ-   nU R                  U5      nU R                  U5      nU R	                  Xq5      nU4U-   nU$ )N)rŸ   r   r   )rÃ   rï   rð   rì   rÄ   )r,   r§   rž   rŸ   Úself_attention_outputsrÑ   r±   Úlayer_outputs           r/   r@   ÚVivitLayer.forwardr  s   € Ø!%§¡à×!Ñ! -Ó0ØØ/ð	 "0ð "
Ðð 2°!Ñ4Ðà(¨¨Ð,ˆð )Ñ8ˆð ×+Ñ+¨MÓ:ˆØ×(Ñ(¨Ó6ˆð —{‘{ <Ó?ˆà/ GÑ+ˆàˆr1   )rÃ   rê   rì   rð   rï   rÄ   rë   r³   )	rC   rD   rE   rF   rG   r    r@   rI   rJ   rK   s   @r/   ræ   ræ   e  s   ø† ÙXõ[÷ò r1   ræ   c                   ó:   ^ • \ rS rSrU 4S jr    SS jrSrU =r$ )ÚVivitEncoderiŒ  c                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf r³   )
r   r    r-   r   Ú
ModuleListÚrangeÚnum_hidden_layersræ   ÚlayerÚgradient_checkpointing)r,   r-   r©   r.   s      €r/   r    ÚVivitEncoder.__init__  sR   ø€ Ü‰ÑÔØŒÜ—]’]ÄÀf×F^ÑF^Ô@_Ó#`Ñ@_¸1¤J¨vÖ$6Ñ@_Ñ#`ÓaˆŒ
Ø&+ˆÕ#ùò $as   ½A%c                 ó6  • U(       a  SOS nU(       a  SOS n[        U R                  5       H9  u  p‰U(       a  Xa4-   nUb  X(   OS n
U	" XU5      nUS   nU(       d  M1  X{S   4-   nM;     U(       a  Xa4-   nU(       d  [        S XU4 5       5      $ [        UUUS9$ )N© r   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr¸   r   )Ú.0Úvs     r/   Ú	<genexpr>Ú'VivitEncoder.forward.<locals>.<genexpr>¯  s   é € ÐmÑ$[˜qŸ™Ò$[ùs   ‚‹	)Úlast_hidden_stater§   Ú
attentions)Ú	enumeraterü   r´   r   )r,   r§   rž   rŸ   Úoutput_hidden_statesÚreturn_dictÚall_hidden_statesÚall_self_attentionsÚiÚlayer_moduleÚlayer_head_maskÚlayer_outputss               r/   r@   ÚVivitEncoder.forward“  s¹   € ö #7™B¸DÐÞ$5™b¸4Ðä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜išlÈˆOá(¨ÐIZÓ[ˆMà)¨!Ñ,ˆMç Ð Ø&9È1Ñ=MÐ<OÑ&OÒ#ñ  5ö  Ø 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+Ø+Ø*ñ
ð 	
r1   )r-   rý   rü   )NFFTrÞ   rK   s   @r/   r÷   r÷   Œ  s    ø† õ,ð ØØ"Ø÷!
ò !
r1   r÷   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚVivitPooleri·  c                 ó¶   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " 5       U l        g r¸   )r   r    r   r›   r&   r¹   ÚTanhÚ
activationr+   s     €r/   r    ÚVivitPooler.__init__¸  s9   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ'š'›)ˆr1   c                 ó\   • US S 2S4   nU R                  U5      nU R                  U5      nU$ )Nr   )r¹   r  )r,   r§   Úfirst_token_tensorÚpooled_outputs       r/   r@   ÚVivitPooler.forward½  s6   € ð +ª1¨a¨4Ñ0ÐØŸ
™
Ð#5Ó6ˆØŸ™¨Ó6ˆØÐr1   )r  r¹   rÞ   rK   s   @r/   r  r  ·  s   ø† õ$÷
ð r1   r  c                   óF   • \ rS rSr% \\S'   SrSrSr/ r	Sr
SrSrSrS rSrg)	ÚVivitPreTrainedModeliÆ  r-   Úvivitr;   Tc                 óô  • [        U[        R                  [        R                  45      (       ak  UR                  R
                  R                  SU R                  R                  S9  UR                  b%  UR                  R
                  R                  5         gg[        U[        R                  5      (       ax  UR                  R
                  R                  SU R                  R                  S9  UR                  b2  UR                  R
                  UR                     R                  5         gg[        U[        R                  5      (       aJ  UR                  R
                  R                  5         UR                  R
                  R                  S5        g[        U[        5      (       aI  UR                   R
                  R                  5         UR"                  R
                  R                  5         gg)zInitialize the weightsr£   )ÚmeanÚstdNg      ð?)r×   r   r›   r(   ÚweightÚdataÚnormal_r-   Úinitializer_ranger“   Úzero_Ú	EmbeddingÚpadding_idxrí   Úfill_rM   rS   rU   )r,   ry   s     r/   Ú_init_weightsÚ"VivitPreTrainedModel._init_weightsÒ  sU  € äfœrŸy™y¬"¯)©)Ð4×5Ñ5ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤×0Ñ0Ø×Ñ×!Ñ!×'Ñ'Ô)Ø×&Ñ&×+Ñ+×1Ñ1Õ3ð 1r1   r   N)rC   rD   rE   rF   r   Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_sdpaÚ_supports_flash_attnÚ_supports_flex_attnÚ_supports_attention_backendr*  rI   r   r1   r/   r  r  Æ  s;   ‡ àÓØÐØ$€OØ&*Ð#ØÐØ€NØÐØÐØ"&Ðõ4r1   r  c                   óâ   ^ • \ rS rSrSU 4S jjrS rS r\      SS\\	R                     S\\	R                     S\\   S\\   S	\S
\\   S\\\	R                     \4   4S jj5       rSrU =r$ )Ú
VivitModeliæ  c                 ó  >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        [        R                  " UR                  UR                  S9U l        U(       a  [        U5      OSU l        U R                  5         g)z^
add_pooling_layer (bool, *optional*, defaults to `True`):
    Whether to add a pooling layer
rè   N)r   r    r-   rM   rZ   r÷   Úencoderr   rí   r&   rî   Ú	layernormr  ÚpoolerÚ	post_init)r,   r-   Úadd_pooling_layerr.   s      €r/   r    ÚVivitModel.__init__è  si   ø€ ô
 	‰Ñ˜Ô ØŒä)¨&Ó1ˆŒÜ# FÓ+ˆŒäŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÞ->”k &Ô)ÀDˆŒð 	‰Õr1   c                 ó.   • U R                   R                  $ r¸   )rZ   rT   )r,   s    r/   Úget_input_embeddingsÚVivitModel.get_input_embeddingsù  s   € Ø‰×/Ñ/Ð/r1   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)zy
Prunes heads of the model.

Args:
    heads_to_prune:
        dict of {layer_num: list of heads to prune in this layer}
N)Úitemsr8  rü   rÃ   rÍ   )r,   Úheads_to_prunerü   rÈ   s       r/   Ú_prune_headsÚVivitModel._prune_headsü  s<   € ð +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r1   r;   rž   rŸ   r	  r2   r
  r[   c                 ó  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eU R                  X R                   R                  5      nU R                  XS9nU R                  UUUUUS9nUS   n	U R                  U	5      n	U R                  b  U R                  U	5      OSn
U(       d	  Xš4USS -   $ [        U	U
UR                  UR                  S9$ )a(
  
Examples:

```python
>>> import av
>>> import numpy as np

>>> from transformers import VivitImageProcessor, VivitModel
>>> from huggingface_hub import hf_hub_download

>>> np.random.seed(0)


>>> def read_video_pyav(container, indices):
...     '''
...     Decode the video with PyAV decoder.
...     Args:
...         container (`av.container.input.InputContainer`): PyAV container.
...         indices (`list[int]`): List of frame indices to decode.
...     Returns:
...         result (np.ndarray): np array of decoded frames of shape (num_frames, height, width, 3).
...     '''
...     frames = []
...     container.seek(0)
...     start_index = indices[0]
...     end_index = indices[-1]
...     for i, frame in enumerate(container.decode(video=0)):
...         if i > end_index:
...             break
...         if i >= start_index and i in indices:
...             frames.append(frame)
...     return np.stack([x.to_ndarray(format="rgb24") for x in frames])


>>> def sample_frame_indices(clip_len, frame_sample_rate, seg_len):
...     '''
...     Sample a given number of frame indices from the video.
...     Args:
...         clip_len (`int`): Total number of frames to sample.
...         frame_sample_rate (`int`): Sample every n-th frame.
...         seg_len (`int`): Maximum allowed index of sample's last frame.
...     Returns:
...         indices (`list[int]`): List of sampled frame indices
...     '''
...     converted_len = int(clip_len * frame_sample_rate)
...     end_idx = np.random.randint(converted_len, seg_len)
...     start_idx = end_idx - converted_len
...     indices = np.linspace(start_idx, end_idx, num=clip_len)
...     indices = np.clip(indices, start_idx, end_idx - 1).astype(np.int64)
...     return indices


>>> # video clip consists of 300 frames (10 seconds at 30 FPS)
>>> file_path = hf_hub_download(
...     repo_id="nielsr/video-demo", filename="eating_spaghetti.mp4", repo_type="dataset"
... )
>>> container = av.open(file_path)

>>> # sample 32 frames
>>> indices = sample_frame_indices(clip_len=32, frame_sample_rate=1, seg_len=container.streams.video[0].frames)
>>> video = read_video_pyav(container=container, indices=indices)

>>> image_processor = VivitImageProcessor.from_pretrained("google/vivit-b-16x2-kinetics400")
>>> model = VivitModel.from_pretrained("google/vivit-b-16x2-kinetics400")

>>> # prepare video for the model
>>> inputs = image_processor(list(video), return_tensors="pt")

>>> # forward pass
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 3137, 768]
```Nz You have to specify pixel_valuesrs   )rž   rŸ   r	  r
  r   r   )r  Úpooler_outputr§   r  )r-   rŸ   r	  Úuse_return_dictr7   Úget_head_maskrû   rZ   r8  r9  r:  r   r§   r  )r,   r;   rž   rŸ   r	  r2   r
  Úembedding_outputÚencoder_outputsÚsequence_outputr  s              r/   r@   ÚVivitModel.forward  s#  € ðh 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ?Ó@Ð@à×&Ñ& y·+±+×2OÑ2OÓPˆ	àŸ?™?¨<˜?ÐkÐàŸ,™,ØØØ/Ø!5Ø#ð 'ð 
ˆð *¨!Ñ,ˆØŸ.™.¨Ó9ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆæØ#Ð3°oÀaÀbÐ6IÑIÐIä)Ø-Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r1   )r-   rZ   r8  r9  r:  )T)NNNNFN)rC   rD   rE   rF   r    r?  rD  r   r   rQ   ÚFloatTensorrH   r   r´   r   r@   rI   rJ   rK   s   @r/   r6  r6  æ  sÀ   ø† ÷ò"0ò	Cð ð 59Ø15Ø,0Ø/3Ø).Ø&*ñs
à˜u×0Ñ0Ñ1ðs
ð ˜E×-Ñ-Ñ.ðs
ð $ D™>ð	s
ð
 ' t™nðs
ð #'ðs
ð ˜d‘^ðs
ð 
ˆuU×&Ñ&Ñ'Ð)CÐCÑ	Dôs
ó ös
r1   r6  aý  
        ViViT Transformer model with a video classification head on top (a linear layer on top of the final hidden state of the
    [CLS] token) e.g. for Kinetics-400.

        <Tip>

            Note that it's possible to fine-tune ViT on higher resolution images than the ones it has been trained on, by
            setting `interpolate_pos_encoding` to `True` in the forward of the model. This will interpolate the pre-trained
            position embeddings to the higher resolution.

        </Tip>
    )Úcustom_introc                   óò   ^ • \ rS rSrU 4S jr\       SS\\R                     S\\R                     S\\R                     S\\
   S\\
   S\
S	\\
   S
\\\R                     \4   4S jj5       rSrU =r$ )ÚVivitForVideoClassificationi~  c                 ó.  >• [         TU ]  U5        UR                  U l        [        USS9U l        UR                  S:”  a+  [
        R                  " UR                  UR                  5      O[
        R                  " 5       U l	        U R                  5         g )NF)r<  r   )r   r    Ú
num_labelsr6  r  r   r›   r&   ÚIdentityÚ
classifierr;  r+   s     €r/   r    Ú$VivitForVideoClassification.__init__  ss   ø€ Ü‰Ñ˜Ô à ×+Ñ+ˆŒÜ ¸%Ñ@ˆŒ
ð OU×N_ÑN_ÐbcÓNcœ"Ÿ)š) F×$6Ñ$6¸×8IÑ8IÔJÔik×itÒitÓivˆŒð 	‰Õr1   r;   rž   ÚlabelsrŸ   r	  r2   r
  r[   c           	      ó  • Ub  UOU R                   R                  nU R                  UUUUUUS9nUS   n	U R                  U	SS2SSS24   5      n
SnUb~  U R                  S:X  a2  [        5       nU" U
R                  S5      UR                  S5      5      nO<[        5       nU" U
R                  SU R                  5      UR                  S5      5      nU(       d  U
4USS -   nUb  U4U-   $ U$ [        UU
UR                  UR                  S9$ )a  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

Examples:

```python
>>> import av
>>> import numpy as np
>>> import torch

>>> from transformers import VivitImageProcessor, VivitForVideoClassification
>>> from huggingface_hub import hf_hub_download

>>> np.random.seed(0)


>>> def read_video_pyav(container, indices):
...     '''
...     Decode the video with PyAV decoder.
...     Args:
...         container (`av.container.input.InputContainer`): PyAV container.
...         indices (`list[int]`): List of frame indices to decode.
...     Returns:
...         result (np.ndarray): np array of decoded frames of shape (num_frames, height, width, 3).
...     '''
...     frames = []
...     container.seek(0)
...     start_index = indices[0]
...     end_index = indices[-1]
...     for i, frame in enumerate(container.decode(video=0)):
...         if i > end_index:
...             break
...         if i >= start_index and i in indices:
...             frames.append(frame)
...     return np.stack([x.to_ndarray(format="rgb24") for x in frames])


>>> def sample_frame_indices(clip_len, frame_sample_rate, seg_len):
...     '''
...     Sample a given number of frame indices from the video.
...     Args:
...         clip_len (`int`): Total number of frames to sample.
...         frame_sample_rate (`int`): Sample every n-th frame.
...         seg_len (`int`): Maximum allowed index of sample's last frame.
...     Returns:
...         indices (`list[int]`): List of sampled frame indices
...     '''
...     converted_len = int(clip_len * frame_sample_rate)
...     end_idx = np.random.randint(converted_len, seg_len)
...     start_idx = end_idx - converted_len
...     indices = np.linspace(start_idx, end_idx, num=clip_len)
...     indices = np.clip(indices, start_idx, end_idx - 1).astype(np.int64)
...     return indices


>>> # video clip consists of 300 frames (10 seconds at 30 FPS)
>>> file_path = hf_hub_download(
...     repo_id="nielsr/video-demo", filename="eating_spaghetti.mp4", repo_type="dataset"
... )
>>> container = av.open(file_path)

>>> # sample 32 frames
>>> indices = sample_frame_indices(clip_len=32, frame_sample_rate=4, seg_len=container.streams.video[0].frames)
>>> video = read_video_pyav(container=container, indices=indices)

>>> image_processor = VivitImageProcessor.from_pretrained("google/vivit-b-16x2-kinetics400")
>>> model = VivitForVideoClassification.from_pretrained("google/vivit-b-16x2-kinetics400")

>>> inputs = image_processor(list(video), return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs)
...     logits = outputs.logits

>>> # model predicts one of the 400 Kinetics-400 classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
LABEL_116
```N)rž   rŸ   r	  r2   r
  r   r   r]   r   )ÚlossÚlogitsr§   r  )r-   rH  r  rU  rS  r   ri   r   r   r§   r  )r,   r;   rž   rW  rŸ   r	  r2   r
  r±   rL  rZ  rY  Úloss_fctrÄ   s                 r/   r@   Ú#VivitForVideoClassification.forward™  s  € ðz &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—*‘*ØØØ/Ø!5Ø%=Ø#ð ð 
ˆð " !™*ˆà—‘ ²°A²q°Ñ!9Ó:ˆàˆØÑØ‰ !Ó#ä"›9Ù §¡¨B£°·±¸R³ÓA‘ä+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓRæØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r1   )rU  rS  r  )NNNNNFN)rC   rD   rE   rF   r    r   r   rQ   rN  Ú
LongTensorrH   r   r´   r   r@   rI   rJ   rK   s   @r/   rQ  rQ  ~  sÎ   ø† õ
ð ð 59Ø15Ø-1Ø,0Ø/3Ø).Ø&*ñ~
à˜u×0Ñ0Ñ1ð~
ð ˜E×-Ñ-Ñ.ð~
ð ˜×)Ñ)Ñ*ð	~
ð
 $ D™>ð~
ð ' t™nð~
ð #'ð~
ð ˜d‘^ð~
ð 
ˆuU×&Ñ&Ñ'Ð)>Ð>Ñ	?ô~
ó ö~
r1   rQ  )r6  r  rQ  )r£   )4rG   Útypingr   r   r   rQ   Útorch.utils.checkpointr   Útorch.nnr   r   Úactivationsr
   Úmodeling_layersr   Úmodeling_outputsr   r   r   Úmodeling_utilsr   r   Úpytorch_utilsr   r   Úutilsr   r   r   Úconfiguration_vivitr   Ú
get_loggerrC   r¥   ÚModuler   rM   rw   ÚfloatrŒ   rŽ   r¶   rÁ   rÔ   rà   ræ   r÷   r  r  r6  rQ  Ú__all__r   r1   r/   Ú<module>rl     sÂ  ðñ ç ,Ñ ,ã Û Ý ß .å !Ý 9ß bÑ bß Fß Qß 7Ñ 7Ý ,ð 
×	Ò	˜HÓ	%€ô)˜RŸY™Yô )ôXLb—i‘iô Lðn ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô>F˜Ÿ™ô FôTb—i‘iô ô&$R—Y‘Yô $ôN˜Ÿ	™	ô ô$"—)‘)ô ô $Ð+ô $ôN(
2—9‘9ô (
ôV"—)‘)ô ð ô4˜?ó 4ó ð4ð> ôT
Ð%ó T
ó ðT
ñn ðñôL
Ð"6ó L
óðL
ò^ Pr1   