ó
    <±h~œ  ã                   óŽ  • S r SSKrSSKJr  SSKJr  SSKrSSKrSSKJr  SSK	J
r
  SSKJr  SS	KJrJrJr  SS
KJr  SSKJr  SSKJrJr  SSKJr  SSKJr  \R8                  " \5      r\\ " S S\5      5       5       r " S S\R@                  5      r! " S S\R@                  5      r" " S S\R@                  5      r# " S S\R@                  5      r$ " S S\R@                  5      r% " S S\R@                  5      r& " S S\R@                  5      r' " S  S!\5      r( " S" S#\R@                  5      r) " S$ S%\R@                  5      r*\ " S& S'\5      5       r+ " S( S)\R@                  5      r, " S* S+\R@                  5      r-\,\-S,.r.\" S-S.9 " S/ S0\+5      5       r/ " S1 S2\R@                  5      r0\" S3S.9 " S4 S5\+5      5       r1/ S6Qr2g)7zPyTorch TVP Modelé    N)Ú	dataclass)ÚOptional)Únné   )ÚACT2FN)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPoolingÚModelOutput)ÚPreTrainedModel)Úprune_linear_layer)Úauto_docstringÚlogging)Úload_backboneé   )Ú	TvpConfigc                   óÎ   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\\R                  S4      \	S'   Sr\\\R                  S4      \	S'   S	rg)
ÚTvpVideoGroundingOutputé&   a\  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `return_loss` is `True`):
    Temporal-Distance IoU loss for video grounding.
logits (`torch.FloatTensor` of shape `(batch_size, 2)`):
    Contains start_time/duration and end_time/duration. It is the time slot of the videos corresponding to the
    input texts.
attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
    Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_heads, sequence_length,
    sequence_length)`.
NÚlossÚlogits.Úhidden_statesÚ
attentions© )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   r   ÚtorchÚFloatTensorÚ__annotations__r   r   Útupler   Ú__static_attributes__r   ó    Ú\/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/tvp/modeling_tvp.pyr   r   &   sq   ‡ ñ	ð )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø*.€FˆHU×&Ñ&Ñ'Ó.Ø=A€M8˜E %×"3Ñ"3°SÐ"8Ñ9Ñ:ÓAØ:>€J˜˜u×0Ñ0°#Ð5Ñ6Ñ7Ö>r%   r   c                   óD   ^ • \ rS rSrSrU 4S jrS rS rS rS r	Sr
U =r$ )	ÚTvpLossé:   ab  
This class computes the losses for `TvpForVideoGrounding`. The process happens in two steps: 1) we compute
hungarian assignment between ground truth boxes and the outputs of the model 2) we supervise each pair of matched
ground-truth / prediction (supervise class and box).

Args:
    losses (`list[str]`):
        List of all the losses to be applied.
c                 óÎ   >• [         TU ]  5         U R                  U R                  U R                  S.U l        U H!  nX R
                  ;  d  M  [        SU S35      e   Xl        g )N©ÚiouÚdistanceÚdurationzLoss z not supported)ÚsuperÚ__init__Úloss_iouÚloss_distanceÚloss_durationÚloss_mapÚ
ValueErrorÚlosses)Úselfr6   r   Ú	__class__s      €r&   r0   ÚTvpLoss.__init__E   sa   ø€ Ü‰ÑÔà—=‘=Ø×*Ñ*Ø×*Ñ*ñ
ˆŒó
 ˆDØŸ=™=Õ(Ü  5¨¨¨nÐ!=Ó>Ð>ñ ð r%   c                 óä   • [         R                  " XB5      [         R                  " X15      -
  n[         R                  " XB5      [         R                  " X15      -
  nSUR                  SS9U-  -
  nU$ )z&
Measure the intersection over union.
r   r   ©Úmin)r    r<   ÚmaxÚclamp)	r7   Ú
start_timeÚend_timeÚcandidates_start_timeÚcandidates_end_timer.   ÚinterÚunionr,   s	            r&   r1   ÚTvpLoss.loss_iouR   s_   € ô —	’	Ð-Ó8¼5¿9º9ÐEZÓ;gÑgˆÜ—	’	Ð-Ó8¼5¿9º9ÐEZÓ;gÑgˆØ%—+‘+ !+Ð$ uÑ,Ñ,ˆàˆ
r%   c                 óP  • [         R                  " [         R                  " X45      S5      n[         R                  " [         R                  " X5      S5      n[         R                  " [         R                  " Xg5      [         R                  " Xg5      -
  U5      R                  SS9nU$ )z%
Measure the distance of mid points.
g       @gš™™™™™É?r;   )r    ÚdivÚaddr=   r<   r>   )	r7   r?   r@   rA   rB   r.   Úmid_candidatesÚmid_groundtruthÚdistance_diffs	            r&   r2   ÚTvpLoss.loss_distance\   sy   € ô Ÿš¤5§9¢9Ð-BÓ#XÐZ]Ó^ˆÜŸ)š)¤E§I¢I¨jÓ$CÀSÓIˆÜŸ	š	ÜIŠInÓ6¼¿ºÀ>Ó9cÑcÐemó
ç
‰%Cˆ%ˆ.ð 	ð Ðr%   c                 óú   • [         R                  " XC5      n[         R                  " X!5      n[         R                  " [         R                  " [         R                  " Xg5      U5      5      nUR	                  SS9nU$ )z%
Measure the difference of duration.
gš™™™™™Ù?r;   )r    ÚsubÚsquarerG   r>   )	r7   r?   r@   rA   rB   r.   Úduration_candidatesÚduration_groundtruthÚduration_diffs	            r&   r3   ÚTvpLoss.loss_durationh   s`   € ô $ŸišiÐ(;ÓSÐÜ$Ÿyšy¨Ó>ÐÜŸš¤U§Y¢Y¬u¯yªyÐ9LÓ/cÐemÓ%nÓoˆØ%×+Ñ+°Ð+Ð4ˆàÐr%   c                 ó  • Uu  p4n[         R                  " X5      nUSS2S4   R                  5       USS2S4   R                  5       p‡0 n	U R                   H*  n
U	R	                  X R
                  U
   " XEXxU5      05        M,     U	$ )a5  
This performs the loss computation.

Args:
    logits (`torch.FloatTensor`):
        The output logits of head module.
    labels (`list[torch.FloatTensor]`):
        List of tensors ([start, end, duration]), which contains start time, end time of the video corresponding to the text, and also the duration.
Nr   r   )r    ÚmulÚfloatr6   Úupdater4   )r7   r   Úlabelsr.   r?   r@   Ú
candidatesrA   rB   Úlosses_dictr   s              r&   ÚforwardÚTvpLoss.forwards   sŽ   € ð *0Ñ&ˆ˜hÜ—Y’Y˜vÓ0ˆ
Ø5?ÂÀ1ÀÑ5E×5KÑ5KÓ5MÈzÒZ[Ð]^ÐZ^ÑO_×OeÑOeÓOgÐ2àˆØ—K”KˆDØ×ÑØ—}‘} TÒ*¨:ÐAVÐmuÓvÐwöñ  ð
 Ðr%   )r4   r6   )r   r   r   r   r   r0   r1   r2   r3   r[   r$   Ú__classcell__©r8   s   @r&   r(   r(   :   s&   ø† ñõòò
ò	÷ð r%   r(   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚTvpVisionModeléŠ   c           
      ó‚  >• [         TU ]  5         [        U5      U l        UR                  b  UR                  R
                  S   nOÐ[        U R                  S5      (       aI  [        U R                  R                  S5      (       a$  U R                  R                  R
                  S   nOl[        U R                  S5      (       aF  [        U R                  R                  S5      (       a!  U R                  R                  R                  nO[        S5      e[        R                  " UUR                  SSSSSS	9U l        g )
NéÿÿÿÿÚconfigÚhidden_sizesÚhidden_sizezBackbone config not foundr   r   F)Úkernel_sizeÚstrideÚpaddingÚgroupsÚbias)r/   r0   r   ÚbackboneÚbackbone_configre   Úhasattrrd   rf   r5   r   ÚConv2dÚgrid_encoder_conv)r7   rd   Úin_channelsr8   s      €r&   r0   ÚTvpVisionModel.__init__‹   só   ø€ Ü‰ÑÔÜ% fÓ-ˆŒà×!Ñ!Ñ-Ø ×0Ñ0×=Ñ=¸bÑA‰KÜT—]‘] H×-Ñ-´'¸$¿-¹-×:NÑ:NÐP^×2_Ñ2_ØŸ-™-×.Ñ.×;Ñ;¸BÑ?‰KÜT—]‘] H×-Ñ-´'¸$¿-¹-×:NÑ:NÐP]×2^Ñ2^ØŸ-™-×.Ñ.×:Ñ:‰KäÐ8Ó9Ð9ä!#§¢ØØ×ÑØØØØØñ"
ˆÕr%   c                 óŽ  • UR                   u  p#pEnUR                  X#-  XEU5      nU R                  U5      S   S   nU R                  U5      n[        R
                  R                  USSS9n[        R
                  R                  USS9nUR                   SS  u  pšnUR                  X#XšU5      nUR                  SSS	S
S5      nU$ )NÚfeature_mapsr   é   )rg   rh   T)Úinplaceéýÿÿÿr   r   é   )	ÚshapeÚviewrl   rp   r   Ú
functionalÚ
max_pool2dÚreluÚpermute)r7   Úpixel_valuesÚ
batch_sizeÚ
num_framesÚnum_channelsÚheightÚwidthÚgrid_feat_outputsÚgridÚnew_channelÚ
new_heightÚ	new_widths               r&   r[   ÚTvpVisionModel.forward¢   sË   € Ø>J×>PÑ>PÑ;ˆ
 °eà#×(Ñ(¨Ñ)@À,ÐX]Ó^ˆØ ŸM™M¨,Ó7¸ÑGÈÑJÐØ×%Ñ%Ð&7Ó8ˆÜ}‰}×'Ñ'¨¸!ÀAÐ'ÐFˆÜ}‰}×!Ñ! $°Ð!Ð5ˆØ-1¯Z©Z¸¸¨_Ñ*ˆ ày‰y˜°È)ÓTˆà|‰|˜A˜q ! Q¨Ó*ˆØˆr%   )rl   rp   ©r   r   r   r   r0   r[   r$   r]   r^   s   @r&   r`   r`   Š   s   ø† õ
÷.ð r%   r`   c                   ó’   ^ • \ rS rSrSrU 4S jrS\R                  S\S\S\R                  4S jr	SS	\
4S
 jjrSS	\
4S jjrSrU =r$ )ÚTvpVisualInputEmbeddingé²   z3
Takes input of both image and video (multi-frame)
c                 óx  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR                  UR
                  5      U l        [        R                  " UR                  UR
                  5      U l
        [        R                  " SUR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                   5      U l        UR                  U l        UR                  U l	        g )Nr   ©Úeps)r/   r0   r   Ú	EmbeddingÚmax_position_embeddingsrf   Úposition_embeddingsÚ max_grid_row_position_embeddingsÚrow_position_embeddingsÚ max_grid_col_position_embeddingsÚcol_position_embeddingsÚtoken_type_embeddingsÚ	LayerNormÚlayer_norm_epsÚ
layer_normÚDropoutÚhidden_dropout_probÚdropout©r7   rd   r8   s     €r&   r0   Ú TvpVisualInputEmbedding.__init__·   s×   ø€ Ü‰ÑÔä#%§<¢<°×0NÑ0NÐPV×PbÑPbÓ#cˆÔ Ü')§|¢|°F×4[Ñ4[Ð]c×]oÑ]oÓ'pˆÔ$Ü')§|¢|°F×4[Ñ4[Ð]c×]oÑ]oÓ'pˆÔ$Ü%'§\¢\°!°V×5GÑ5GÓ%HˆÔ"ÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒØ06×0WÑ0WˆÔ-Ø06×0WÑ0WˆÕ-r%   Ú	embeddingrƒ   r„   Úreturnc                 ó  • S=pEX R                   :”  a  X R                   -  nX0R                  :”  a  X0R                  -  nUR                  SSSS5      n[        R                  R                  UXE4SSS9nUR                  SSSS5      nU$ )z 
This method allows to interpolate the pre-trained pad weights , to be able to use the model on collection of high
resolution images (high resolution videos).

r   r   r   ru   ÚbicubicF©Úscale_factorÚmodeÚalign_corners)r•   r—   r~   r   r{   Úinterpolate)r7   r¢   rƒ   r„   Úh0Úw0s         r&   Úinterpolate_pos_encodingÚ0TvpVisualInputEmbedding.interpolate_pos_encodingÃ   sš   € ð ˆˆà×9Ñ9Ó9Ø×?Ñ?Ñ?ˆBà×8Ñ8Ó8Ø×>Ñ>Ñ>ˆBØ×%Ñ% a¨¨A¨qÓ1ˆ	Ü—M‘M×-Ñ-ØØ˜ØØð	 .ð 
ˆ	ð ×%Ñ% a¨¨A¨qÓ1ˆ	ØÐr%   r­   c                 ó†  • UR                   u  p4pV[        U R                  U5      n[        R                  " U[        R
                  UR                  S9nU R                  U5      n	S[        UR                   5      S-
  -  USU4-   n
U	R                  " U
6 n	[        U R                  U5      n[        R                  " U[        R
                  UR                  S9nU R                  U5      nUSX¶4nUR                  " U6 nX-   nU(       a4  X@R                  :”  d  XPR                  :”  a  XR                  XôU5      -   nU$ X-   nU$ )a.  
Args:
    grid: (batch_size, height, width, hidden_dim)
    interpolate_pos_encoding: (`bool`, *optional*, defaults to `False`):
        Whether to interpolate the pre-trained position encodings.
Returns:
    grid + col_position_embeddings.view(*col_shape): (batch_size, *, height, width, hidden_dim)
©ÚdtypeÚdevice)r   r   r   )ry   r<   r•   r    ÚarangeÚlongr²   r–   Úlenrz   r—   r˜   r­   )r7   r†   r­   r€   rƒ   r„   Ú
hidden_dimÚ
row_heightÚrow_position_idsr–   Ú	row_shapeÚ	row_widthÚcol_position_idsr˜   Ú	col_shapeÚpositional_embeddingss                   r&   Úadd_2d_positional_embeddingsÚ4TvpVisualInputEmbedding.add_2d_positional_embeddingsÚ   s7  € ð 15·
±
Ñ-ˆ
˜Eô ˜×>Ñ>ÀÓGˆ
Ü Ÿ<š<¨
¼%¿*¹*ÈTÏ[É[ÑYÐà"&×">Ñ">Ð?OÓ"PÐØœC §
¡
›O¨aÑ/Ñ0°JÀÀ:Ð3NÑNˆ	à"9×">Ò">À	Ð"JÐô ˜×=Ñ=¸uÓEˆ	Ü Ÿ<š<¨	¼¿¹ÈDÏKÉKÑXÐà"&×">Ñ">Ð?OÓ"PÐØ  IÐ:ˆ	à"9×">Ò">À	Ð"JÐà 7Ñ QÐö $Ø×:Ñ:Ó:¸e×FkÑFkÓ>kà×7Ñ7Ð8MÐW\Ó]Ñ]ˆDð ˆð Ñ/ˆDØˆr%   c                 óx  • UR                   u  p4pVnUR                  S5      nU R                  XS9nUR                  USU5      nUR                   SS n	UR                  n
[
        R                  " U	[
        R                  U
S9nU R                  U5      nXŒ-   nU R                  U5      nU R                  U5      nU$ )aÏ  
Args:
    grid: Array of shape (batch_size, num_frames, height, width, num_channels).
        It contains processed frames extracted from videos, and is generated by Tvp image preprocessor. Note,
        num_frames can be 1
    interpolate_pos_encoding: (bool, *optional*, defaults to `False`):
        Whether to interpolate the pre-trained position encodings.

Returns:
    embeddings: The embedding of grid with size (batch_size, height*width, num_channels)

r   ©r­   rc   Nr°   )ry   Úmeanr¾   rz   r²   r    Úzerosr´   r™   rœ   rŸ   )r7   r†   r­   r€   r   rƒ   r„   r‚   Úvisual_tokensÚvisual_tokens_shaper²   Útoken_type_idsr™   Ú
embeddingss                 r&   r[   ÚTvpVisualInputEmbedding.forward  sº   € ð ?C¿j¹jÑ;ˆ
 ¨|ày‰y˜‹|ˆØ×0Ñ0°Ð0ÐiˆàŸ	™	 *¨b°,Ó?ˆØ+×1Ñ1°#°2Ð6ÐØ×%Ñ%ˆô ŸšÐ%8ÄÇ
Á
ÐSYÑZˆØ $× :Ñ :¸>Ó JÐà"Ñ:ˆ
Ø—_‘_ ZÓ0ˆ
Ø—\‘\ *Ó-ˆ
ØÐr%   )r˜   rŸ   rœ   r—   r•   r”   r–   r™   ©F)r   r   r   r   r   r0   r    ÚTensorÚintr­   Úboolr¾   r[   r$   r]   r^   s   @r&   r   r   ²   sY   ø† ñõ
Xð°%·,±,ð Èð ÐTWð Ð\a×\hÑ\hô ñ.'È4õ 'ñR°d÷ ó r%   r   c                   ó6   ^ • \ rS rSrSrU 4S jrSS jrSrU =r$ )ÚTvpTextInputEmbeddingsi#  zGConstruct the embeddings from word, position and token_type embeddings.c                 óú  >• [         TU ]  5         [        R                  " UR                  UR
                  UR                  S9U l        [        R                  " UR                  UR
                  5      U l	        [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                   5      U l        g )N)Úpadding_idxr   )r/   r0   r   r’   Ú
vocab_sizerf   Úpad_token_idÚword_embeddingsr“   r”   Útype_vocab_sizer™   rš   r›   rœ   r   rž   rŸ   r    s     €r&   r0   ÚTvpTextInputEmbeddings.__init__&  s©   ø€ Ü‰ÑÔÜ!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ#%§<¢<°×0NÑ0NÐPV×PbÑPbÓ#cˆÔ Ü%'§\¢\°&×2HÑ2HÈ&×J\ÑJ\Ó%]ˆÔ"ÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ—z’z &×"<Ñ"<Ó=ˆr%   c                 ó.  • Ub  UR                  5       nOUR                  5       S S nUS   nUb  UR                  OUR                  nUcD  [        R                  " U[        R                  US9nUR                  S5      R                  U5      nUc$  [        R                  " U[        R                  US9nUc  U R                  U5      nU R                  U5      nU R                  U5      n	XH-   U	-   n
U R                  U
5      n
U R                  U
5      n
U
$ )Nrc   r   r°   r   )Úsizer²   r    r³   r´   Ú	unsqueezeÚexpandrÃ   rÓ   r”   r™   rœ   rŸ   )r7   Ú	input_idsrÆ   Úposition_idsÚinputs_embedsÚinput_shapeÚ
seq_lengthr²   r”   r™   rÇ   s              r&   r[   ÚTvpTextInputEmbeddings.forward.  s  € ØÑ Ø#Ÿ.™.Ó*‰Kà'×,Ñ,Ó.¨s°Ð3ˆKà  ‘^ˆ
Ø%.Ñ%:×!Ò!À×@TÑ@TˆØÑÜ Ÿ<š<¨
¼%¿*¹*ÈVÑTˆLØ'×1Ñ1°!Ó4×;Ñ;¸KÓHˆLØÑ!Ü"Ÿ[š[¨¼E¿J¹JÈvÑVˆNàÑ Ø ×0Ñ0°Ó;ˆMØ"×6Ñ6°|ÓDÐØ $× :Ñ :¸>Ó JÐà"Ñ8Ð;PÑPˆ
Ø—_‘_ ZÓ0ˆ
Ø—\‘\ *Ó-ˆ
ØÐr%   )rŸ   rœ   r”   r™   rÓ   )NNNN©	r   r   r   r   r   r0   r[   r$   r]   r^   s   @r&   rÎ   rÎ   #  s   ø† ÙQõ>÷ò r%   rÎ   c                   óv   ^ • \ rS rSrU 4S jrS rS\R                  S\S\4S jr	   SS\
\   4S	 jjrS
rU =r$ )ÚTvpAttentioniG  c                 ó  >• [         TU ]  5         UR                  UR                  -  S:w  a6  [	        US5      (       d%  [        SUR                   SUR                   35      eUR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  5      U l        [        R                  " UR                  UR                  5      U l        [        R$                  " UR                  UR&                  S9U l        [        R                  " UR*                  5      U l        [/        5       U l        g )Nr   Úembedding_sizezThe hidden size z4 is not a multiple of the number of attention heads r   )r/   r0   rf   Únum_attention_headsrn   r5   rË   Úattention_head_sizeÚall_head_sizer   ÚLinearÚqueryÚkeyÚvaluer   Úattention_probs_dropout_probÚattn_dropoutÚdenserš   r›   rœ   rž   rŸ   ÚsetÚpruned_headsr    s     €r&   r0   ÚTvpAttention.__init__H  s…  ø€ Ü‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ" 6×#5Ñ#5Ð"6Ð6jÐkq÷  lFñ  lFð  kGð  Hóð ð $*×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔä—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÓDˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
ÜŸJšJ v×'JÑ'JÓKˆÔä—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒÜ›EˆÕr%   c                 óT  ^• [        U5      S:X  a  g [        R                  " U R                  U R                  5      n[        U5      U R                  -
  nU H*  mT[        U4S jU R                   5       5      -
  mSUT'   M,     UR                  S5      R                  5       R                  S5      n[        R                  " [        U5      5      U   R                  5       n[        U R                  U5      U l        [        U R                  U5      U l        [        U R                   U5      U l        [        U R"                  USS9U l        U R                  [        U5      -
  U l        U R                  U R                  -  U l        U R                  R'                  U5      U l        g )Nr   c              3   ó4   >#   • U H  oT:  a  S OSv •  M     g7f)r   r   Nr   )Ú.0ÚhÚheads     €r&   Ú	<genexpr>Ú+TvpAttention.prune_heads.<locals>.<genexpr>d  s   øé € ÐNÑ<M°q t£8™a°Ô2Ò<Mùs   ƒrc   r   ©Údim)rµ   r    Úonesrå   ræ   rï   rð   Úsumrz   Ú
contiguousÚeqr³   r´   r   ré   rê   rë   rî   rç   rD   )r7   ÚheadsÚmaskÚindexrö   s       @r&   Úprune_headsÚTvpAttention.prune_heads]  sI  ø€ Üˆu‹:˜‹?ØÜzŠz˜$×2Ñ2°D×4LÑ4LÓMˆÜE“
˜T×.Ñ.Ñ.ˆÛˆDàœ#ÔN¸D×<MÒ<MÓNÓNÑNˆDØˆD‹Jñ ð y‰y˜‹}×'Ñ'Ó)×,Ñ,¨QÓ/ˆÜ—’œS ›YÓ'¨Ñ-×2Ñ2Ó4ˆô (¨¯
©
°EÓ:ˆŒ
Ü% d§h¡h°Ó6ˆŒÜ'¨¯
©
°EÓ:ˆŒ
Ü'¨¯
©
°E¸qÑAˆŒ
ð $(×#;Ñ#;¼cÀ%»jÑ#HˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔØ ×-Ñ-×3Ñ3°EÓ:ˆÕr%   ÚtensorÚsequence_lengthr€   c                 óŒ   • UR                  X2U R                  U R                  5      R                  SS5      R	                  5       $ )Nr   ru   )rz   rå   ræ   Ú	transposerý   )r7   r  r  r€   s       r&   Ú_reshapeÚTvpAttention._reshapet  s5   € àK‰K˜
°T×5MÑ5MÈt×OgÑOgÓhß‰Yq˜!‹_ß‰Z‹\ð	
r%   Úoutput_attentionsc                 ó2  • UR                   S S u  pVU R                  U5      nU R                  U5      nU R                  U5      n	U R	                  XvU5      n
U R	                  X†U5      nU R	                  X–U5      n[
        R                  " X«R                  SS5      5      nU[        R                  " U R                  5      -  nUb  XÒ-   n[        R                  R                  USS9nU R                  U5      nUb  Xã-  n[
        R                  " Xì5      nUR                  SS5      R                  5       nUR!                  XVU R"                  5      nU R%                  U5      nU R'                  U5      nU R)                  Xñ-   5      nU(       a  Xþ4nU$ U4nU$ )Nru   rc   éþÿÿÿrù   r   )ry   ré   rê   rë   r  r    Úmatmulr  ÚmathÚsqrtræ   r   r{   Úsoftmaxrí   rý   Úreshaperç   rî   rŸ   rœ   )r7   r   Úattention_maskÚ	head_maskr
  r€   r  Úmixed_query_layerÚmixed_key_layerÚmixed_value_layerÚquery_layerÚ	key_layerÚvalue_layerÚattention_scoresÚattention_probsÚattn_outputÚoutputss                    r&   r[   ÚTvpAttention.forward{  s‰  € ð '4×&9Ñ&9¸"¸1Ð&=Ñ#ˆ
Ø ŸJ™J }Ó5ÐàŸ(™( =Ó1ˆØ ŸJ™J }Ó5Ðà—m‘mÐ$5È
ÓSˆØ—M‘M /ÀJÓOˆ	Ø—m‘mÐ$5È
ÓSˆô !Ÿ<š<¨×5HÑ5HÈÈRÓ5PÓQÐØ+¬d¯iªi¸×8PÑ8PÓ.QÑQÐØÑ%Ø/Ñ@Ðô Ÿ-™-×/Ñ/Ð0@ÀbÐ/ÐIˆð ×+Ñ+¨OÓ<ˆð Ñ Ø-Ñ9ˆOä—l’l ?Ó@ˆØ!×+Ñ+¨A¨qÓ1×<Ñ<Ó>ˆØ!×)Ñ)¨*Àt×GYÑGYÓZˆà—j‘j Ó-ˆØ—l‘l ;Ó/ˆØ—o‘o kÑ&AÓBˆæ4E;Ð0ˆØˆð MXÈ>ˆØˆr%   )rç   ræ   rí   rî   rŸ   rê   rœ   rå   rð   ré   rë   ©NNN)r   r   r   r   r0   r  r    rÊ   rË   r  r   rÌ   r[   r$   r]   r^   s   @r&   râ   râ   G  sN   ø† õ"ò*;ð.
˜uŸ|™|ð 
¸cð 
Èsô 
ð ØØ,0ñ+ð
 $ D™>÷+ó +r%   râ   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚTvpIntermediateiª  c                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g ©N)r/   r0   r   rè   rf   Úintermediate_sizerî   Ú
isinstanceÚ
hidden_actÚstrr   Úintermediate_act_fnr    s     €r&   r0   ÚTvpIntermediate.__init__«  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$r%   r   r£   c                 óJ   • U R                  U5      nU R                  U5      nU$ r#  ©rî   r(  )r7   r   s     r&   r[   ÚTvpIntermediate.forward³  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆØÐr%   r+  ©
r   r   r   r   r0   r    rÊ   r[   r$   r]   r^   s   @r&   r!  r!  ª  s(   ø† õ9ð U§\¡\ð °e·l±l÷ ò r%   r!  c                   óz   ^ • \ rS rSrU 4S jrS\R                  S\R                  S\R                  4S jrSrU =r	$ )ÚTvpOutputLayeri¹  c                 ó(  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l	        [        R                  " UR                  5      U l        g )Nr   )r/   r0   r   rè   r$  rf   rî   rš   r›   rœ   r   rž   rŸ   r    s     €r&   r0   ÚTvpOutputLayer.__init__º  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
ÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ—z’z &×"<Ñ"<Ó=ˆr%   r   Úinput_tensorr£   c                 óp   • U R                  U5      nU R                  U5      nU R                  X-   5      nU$ r#  ©rî   rŸ   rœ   )r7   r   r2  s      r&   r[   ÚTvpOutputLayer.forwardÀ  s5   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆØŸ™¨Ñ(DÓEˆØÐr%   r4  r-  r^   s   @r&   r/  r/  ¹  s6   ø† õ>ð U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r%   r/  c                   óF   ^ • \ rS rSrU 4S jr   SS\\   4S jjrSrU =r	$ )ÚTvpEncodeLayeriÇ  c                 ó‚   >• [         TU ]  5         [        U5      U l        [	        U5      U l        [        U5      U l        g r#  )r/   r0   râ   Ú	attentionr!  Úintermediater/  Úoutputr    s     €r&   r0   ÚTvpEncodeLayer.__init__È  s3   ø€ Ü‰ÑÔÜ% fÓ-ˆŒÜ+¨FÓ3ˆÔÜ$ VÓ,ˆr%   r
  c                 óŽ   • U R                  UUUUS9nUS   nUSS  nU R                  U5      nU R                  X†5      n	U	4U-   nU$ )N)r
  r   r   ©r9  r:  r;  )
r7   r   r  r  r
  Úself_attention_outputsÚattention_outputr  Úintermediate_outputÚlayer_outputs
             r&   r[   ÚTvpEncodeLayer.forwardÎ  so   € ð "&§¡ØØØØ/ð	 "0ð "
Ðð 2°!Ñ4ÐØ(¨¨Ð,ˆØ"×/Ñ/Ð0@ÓAÐØ—{‘{Ð#6ÓIˆØ/ GÑ+ˆØˆr%   r>  r  )
r   r   r   r   r0   r   rÌ   r[   r$   r]   r^   s   @r&   r7  r7  Ç  s+   ø† õ-ð ØØ,0ñð
 $ D™>÷ó r%   r7  c            
       ó|   ^ • \ rS rSrU 4S jr     S	S\\R                     S\\   S\\   S\\   4S jjr	Sr
U =r$ )
Ú
TvpEncoderiã  c                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf )NF)
r/   r0   rd   r   Ú
ModuleListÚrangeÚnum_hidden_layersr7  ÚlayerÚgradient_checkpointing)r7   rd   Ú_r8   s      €r&   r0   ÚTvpEncoder.__init__ä  sR   ø€ Ü‰ÑÔØŒÜ—]’]ÄEÈ&×JbÑJbÔDcÓ#dÑDc¸q¤N°6Ö$:ÑDcÑ#dÓeˆŒ
Ø&+ˆÕ#ùò $es   ½A%r  r
  Úoutput_hidden_statesÚreturn_dictc                 óâ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nSnSn[	        U R
                  5       H3  u  pšU(       a  Xq4-   nU
" XX9   U5      nUS   nU(       d  M+  X‹S   4-   nM5     U(       a  Xq4-   nU(       d  U4nU(       a  XÇ4-   nU(       a  XÈ4-   nU$ [        UU(       a  UOS U(       a  US9$ S S9$ )Nr   r   r   )Úlast_hidden_stater   r   )rd   rO  r
  rN  Ú	enumeraterJ  r	   )r7   r   r  r  r
  rN  rO  Úall_hidden_statesÚall_attentionsÚiÚlayer_moduleÚlayer_outputsr  s                r&   r[   ÚTvpEncoder.forwardê  s  € ð &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆØ1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð ÐØˆä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!á(¨È	ÉÐVgÓhˆMà)¨!Ñ,ˆMß Ð Ø!/ÀÑ3CÐ2EÑ!E’ñ  5ö  Ø 1Ð4DÑ DÐæØ$Ð&ˆGÞ#Ø!Ð$8Ñ8Þ Ø!Ð$5Ñ5ØˆNäØ+Þ/CÑ+ÈÞ):~ñ
ð 	
ð AEñ
ð 	
r%   )rd   rK  rJ  )NNNNN)r   r   r   r   r0   r   r    r!   rÌ   r[   r$   r]   r^   s   @r&   rE  rE  ã  sb   ø† õ,ð Ø15Ø,0Ø/3Ø&*ñ+
ð ˜E×-Ñ-Ñ.ð	+
ð
 $ D™>ð+
ð ' t™nð+
ð ˜d‘^÷+
ó +
r%   rE  c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )Ú	TvpPooleri  c                 ó¶   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " 5       U l        g r#  )r/   r0   r   rè   rf   rî   ÚTanhÚ
activationr    s     €r&   r0   ÚTvpPooler.__init__  s9   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ'š'›)ˆr%   r   r£   c                 ó\   • US S 2S4   nU R                  U5      nU R                  U5      nU$ )Nr   )rî   r]  )r7   r   Úfirst_token_tensorÚpooled_outputs       r&   r[   ÚTvpPooler.forward  s6   € ð +ª1¨a¨4Ñ0ÐØŸ
™
Ð#5Ó6ˆØŸ™¨Ó6ˆØÐr%   )r]  rî   r-  r^   s   @r&   rZ  rZ    s(   ø† õ$ð
 U§\¡\ð °e·l±l÷ ò r%   rZ  c                   óJ   • \ rS rSr% \\S'   SrSrS\R                  4S jr
Srg)	ÚTvpPreTrainedModeli(  rd   ÚmodelTÚmodulec                 ó–  • [        U[        R                  [        R                  45      (       a:  UR                  R
                  R                  SU R                  R                  S9  GO'[        U[        R                  5      (       aJ  UR                  R
                  R                  5         UR                  R
                  R                  S5        O¾[        U[        R                  5      (       aa  [        R                  R                  UR                  SSS9  UR                  b*  [        R                  R!                  UR                  S5        O>[        U["        5      (       a)  [        R                  R                  UR$                  5        [        U[        R                  5      (       a1  UR                  b$  UR                  R
                  R                  5         ['        US	5      (       a)  [        R                  R                  UR(                  5        ['        US
5      (       a)  [        R                  R                  UR*                  5        ['        US5      (       a)  [        R                  R                  UR,                  5        ['        US5      (       a*  [        R                  R                  UR.                  5        gg)zInitialize the weightsç        )rÂ   Ústdg      ð?Úfan_outr}   )r¨   ÚnonlinearityNr   Úpad_upÚpad_downÚpad_leftÚ	pad_right)r%  r   rè   r’   ÚweightÚdataÚnormal_rd   Úinitializer_rangerš   rk   Úzero_Úfill_ro   ÚinitÚkaiming_normal_Ú	constant_ÚTvpModelÚtext_promptrn   rl  rm  rn  ro  )r7   rf  s     r&   Ú_init_weightsÚ TvpPreTrainedModel._init_weights.  s´  € äfœrŸy™y¬"¯,©,Ð7×8Ñ8ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÓSÜ˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤§	¡	×*Ñ*ÜG‰G×#Ñ# F§M¡M¸	ÐPVÐ#ÑWØ{‰{Ñ&Ü—‘×!Ñ! &§+¡+¨qÔ1øÜ˜¤×)Ñ)ÜG‰GO‰O˜F×.Ñ.Ô/äfœbŸi™i×(Ñ(¨V¯[©[Ñ-DØK‰K×Ñ×"Ñ"Ô$Ü6˜8×$Ñ$ÜG‰GO‰O˜FŸM™MÔ*Ü6˜:×&Ñ&ÜG‰GO‰O˜FŸO™OÔ,Ü6˜:×&Ñ&ÜG‰GO‰O˜FŸO™OÔ,Ü6˜;×'Ñ'ÜG‰GO‰O˜F×,Ñ,Õ-ð (r%   r   N)r   r   r   r   r   r"   Úbase_model_prefixÚsupports_gradient_checkpointingr   ÚModuler{  r$   r   r%   r&   rd  rd  (  s$   ‡ àÓØÐØ&*Ð#ð. B§I¡I÷ .r%   rd  c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚTvpFrameDownPadPrompteriJ  z6
Pad frames extracted from videos only at the bottom.
c           	      ó„  >• UR                   S;  a  [        S5      e[        TU ]  5         UR                  U l        UR
                  U l        UR                  U l        UR                   U l         [        R                  " [        R                  " SUR
                  SUR                  UR                  /5      5      U l        g )N©rH   ÚreplaceÚremoveú9`visual_prompter_apply` must be in (add, replace, remove)r   r   )Úvisual_prompter_applyr5   r/   r0   Úvisual_prompt_sizeÚ	frame_numÚmax_img_sizer   Ú	Parameterr    Úrandnrm  r    s     €r&   r0   Ú TvpFrameDownPadPrompter.__init__O  s™   ø€ Ø×'Ñ'Ð/KÓKÜÐXÓYÐYä‰ÑÔØ"(×";Ñ";ˆÔØ×)Ñ)ˆŒØ"×/Ñ/ˆÔØ%+×%AÑ%AˆÔ"äŸšÜKŠK˜˜F×,Ñ,¨a°×1JÑ1JÈF×L_ÑL_Ð`Óaó
ˆr%   c                 ó‚  • U R                   S:w  ao  [        R                  " U R                  U R                  /UR                  UR
                  S9nSX R                  U R                  -
  U R                  2S S 24'   X-  nU R                   S:w  a¯  [        R                  " UR                  S   UR                  S   SU R                  U R                  /UR
                  S9nU R                  U R                  -
  nU R                  US S 2S S 2S S 2X@R                  2S S 24'   XR                  UR                  5      -  nU$ )	NrH   r°   rh  r…  r   r   r   ©r²   )r‡  r    rû   rŠ  r±   r²   rˆ  rÃ   ry   rm  Úto)r7   r   Úvisual_prompt_maskÚpromptÚstart_points        r&   r[   ÚTvpFrameDownPadPrompter.forward]  s(  € Ø×%Ñ%¨Ó.Ü!&§¢Ø×"Ñ" D×$5Ñ$5Ð6¸l×>PÑ>PÐYe×YlÑYlñ"Ðð fiÐ×0Ñ0°4×3JÑ3JÑJÈT×M^ÑM^Ð^Ò`aÐaÑbØÑ.ˆLØ×%Ñ%¨Ó1Ü—[’[Ø×#Ñ# AÑ&¨×(:Ñ(:¸1Ñ(=¸qÀ$×BSÑBSÐUY×UfÑUfÐgØ#×*Ñ*ñˆFð ×+Ñ+¨d×.EÑ.EÑEˆKØBFÇ-Á-ˆF’1’aš˜K×*;Ñ*;Ð;ºQÐ>Ñ?ØŸI™I l×&8Ñ&8Ó9Ñ9ˆLØÐr%   )r‰  rŠ  rm  rˆ  r‡  rà   r^   s   @r&   r  r  J  s   ø† ñõ
÷ð r%   r  c                   ó€   ^ • \ rS rSrSrU 4S jrS\R                  S\S\S\R                  4S jr	SS	\
4S
 jjrSrU =r$ )ÚTvpFramePadPrompterio  z7
Pad frames extracted from videos in the surroundings.
c           
      óÐ  >• UR                   S;  a  [        S5      e[        TU ]  5         UR                  U l        UR
                  U l        UR                   U l         UR
                  UR                  S-  -
  U l        [        R                  " [        R                  " SUR                  SUR                  UR
                  /5      5      U l        [        R                  " [        R                  " SUR                  SUR                  UR
                  /5      5      U l        [        R                  " [        R                  " SUR                  SUR
                  UR                  S-  -
  UR                  /5      5      U l        [        R                  " [        R                  " SUR                  SUR
                  UR                  S-  -
  UR                  /5      5      U l        g )Nrƒ  r†  ru   r   r   )r‡  r5   r/   r0   r   rŠ  rˆ  Ú	base_sizer   r‹  r    rŒ  rl  rm  rn  ro  r    s     €r&   r0   ÚTvpFramePadPrompter.__init__t  s‹  ø€ Ø×'Ñ'Ð/KÓKÜÐXÓYÐYä‰ÑÔØ ×+Ñ+ˆŒØ"×/Ñ/ˆÔØ%+×%AÑ%AˆÔ"Ø×,Ñ,¨v×/HÑ/HÈ1Ñ/LÑLˆŒÜ—l’lÜKŠK˜˜F×-Ñ-¨q°&×2KÑ2KÈV×M`ÑM`ÐaÓbó
ˆŒô ŸšÜKŠK˜˜F×-Ñ-¨q°&×2KÑ2KÈV×M`ÑM`ÐaÓbó
ˆŒô ŸšÜKŠKàØ×%Ñ%ØØ×'Ñ'¨&×*CÑ*CÀaÑ*GÑGØ×-Ñ-ðóó

ˆŒô ŸšÜKŠKàØ×%Ñ%ØØ×'Ñ'¨&×*CÑ*CÀaÑ*GÑGØ×-Ñ-ðóó

ˆr%   r’  rƒ   r„   r£   c                 óî   • X R                   -  X0R                   -  pTUR                  u  pgp‰n
UR                  Xg-  X‰U
5      n[        R                  R                  UXE4SSS9nUR                  XgX‚U5      nU$ )zŸ
This method allows to interpolate the pre-trained pad weights, to be able to use the model on collection of high
resolution images (high resolution videos).

r¥   Fr¦   )rŠ  ry   r  r   r{   rª   )r7   r’  rƒ   r„   r«   r¬   Úbatchr   ÚchannelsÚprompt_heightÚprompt_widths              r&   Úinterpolate_pad_encodingÚ,TvpFramePadPrompter.interpolate_pad_encodingš  s„   € ð ×+Ñ+Ñ+¨U×5FÑ5FÑ-FˆBàCIÇ<Á<Ñ@ˆ˜8°Lð —‘ Ñ 2°HÈ\ÓZˆÜ—‘×*Ñ*ØØ˜ØØð	 +ð 
ˆð —‘ °8ÀUÓKˆØˆr%   rŸ  c           	      ó^  • U(       a  UR                   S   UR                   S   4OU R                  U R                  4u  p4U R                  S;  a  [        SU R                   35      eU R                  S;   a/  [        R
                  " X4/UR                  UR                  S9nX-  nU R                  S;   aö  [        R                  " SU R                  S	U R                  U R                  UR                  S
9n[        R                  " U R                  X`R                  /SS9n[        R                  " U R                  XpR                  /S	S9n[        R                  " UR!                  S5      U/-  5      nU(       a  U R#                  XsU5      nXR%                  UR                  5      -   nU$ )Nr  rc   )rH   r…  r„  z$Invalid visual_prompter_apply value )r„  r…  r°   )r„  rH   r   r   r  rx   rù   r   )ry   rŠ  r‡  r5   r    rû   r±   r²   rÃ   r   r˜  Úcatrn  ro  rl  rm  r×   rŸ  r  )r7   r   rŸ  rƒ   r„   r‘  Úbaser’  s           r&   r[   ÚTvpFramePadPrompter.forward²  sl  € ö (ð ×Ñ Ñ# \×%7Ñ%7¸Ñ%;Ñ<à×#Ñ# T×%6Ñ%6Ð7ñ 	ˆð
 ×%Ñ%Ð-IÓIÜÐCÀD×D^ÑD^ÐC_Ð`ÓaÐaØ×%Ñ%Ð)>Ó>Ü!&§¢¨V¨OÀ<×CUÑCUÐ^j×^qÑ^qÑ!rÐØÑ.ˆLØ×%Ñ%Ð);Ó;Ü—;’;˜q $§/¡/°1°d·n±nÀdÇnÁnÐ]i×]pÑ]pÑqˆDä—Y’Y §¡¨t·^±^ÐDÈ!ÑLˆFÜ—Y’Y §¡¨V·]±]ÐCÈÑKˆFÜ—Y’Y˜|×0Ñ0°Ó3°v°hÑ>Ó?ˆFÞ'Ø×6Ñ6°vÀuÓMØ'¯)©)°L×4FÑ4FÓ*GÑGˆLØÐr%   )r˜  rŠ  r   rm  rn  ro  rl  r‡  rÉ   )r   r   r   r   r   r0   r    rÊ   rË   rŸ  rÌ   r[   r$   r]   r^   s   @r&   r–  r–  o  sL   ø† ñõ$
ðL¨u¯|©|ð ÀSð ÐQTð ÐY^×YeÑYeô ñ0¸d÷ ó r%   r–  )ÚframedownpadÚframepadzw
    The bare Tvp Model transformer outputting BaseModelOutputWithPooling object without any specific head on top.
    )Úcustom_introc                   óü   ^ • \ rS rSrU 4S jrS rS rS r\        SS\	\
R                     S\	\
R                     S\	\
R                     S	\	\
R                     S
\	\   S\	\   S\	\   S\4S jj5       rSrU =r$ )ry  iÏ  c                 ó,  >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        [        U5      U l        [        U5      U l
        [        U5      U l        [        R                  " [        R                   " SSUR"                  /5      5      U l        [        R&                  " UR(                  5      U l        UR,                  [.        ;  a  [1        S5      e[.        UR,                     " U5      U l        U R5                  5         g )Nr   é
   z:`visual_prompter_type` must be in (framedownpad, framepad))r/   r0   rd   r`   Úvision_modelrÎ   rÇ   r   Úvisual_embeddingsrE  ÚencoderrZ  Úpoolerr   r‹  r    rŒ  rf   rz  r   rž   rŸ   Úvisual_prompter_typeÚTVP_PROMPTER_CLASSES_MAPPINGr5   Úvisual_prompterÚ	post_initr    s     €r&   r0   ÚTvpModel.__init__Õ  sÎ   ø€ Ü‰Ñ˜Ô ØŒÜ*¨6Ó2ˆÔÜ0°Ó8ˆŒÜ!8¸Ó!@ˆÔÜ! &Ó)ˆŒÜ Ó'ˆŒÜŸ<š<¬¯ª°Q¸¸F×<NÑ<NÐ4OÓ(PÓQˆÔÜ—z’z &×"<Ñ"<Ó=ˆŒØ×&Ñ&Ô.JÓJÜÐYÓZÐZÜ;¸F×<WÑ<WÒXÐY_Ó`ˆÔà‰Õr%   c                 ó.   • U R                   R                  $ r#  ©rÇ   rÓ   )r7   s    r&   Úget_input_embeddingsÚTvpModel.get_input_embeddingså  s   € Ø‰×.Ñ.Ð.r%   c                 ó$   • XR                   l        g r#  rµ  )r7   rë   s     r&   Úset_input_embeddingsÚTvpModel.set_input_embeddingsè  s   € Ø*/‰Õ'r%   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z„Prunes heads of the model.
heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base class PreTrainedModel
N)Úitemsr­  rJ  r9  r  )r7   Úheads_to_prunerJ  rÿ   s       r&   Ú_prune_headsÚTvpModel._prune_headsë  s<   € ð +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r%   rÚ   r   r  r  r
  rN  rO  r­   c	           	      ó  • Ub  UOU R                   R                  nU R                  U R                  X(S95      nU R	                  US9n	U R                  X(S9n
Ub³  UR                  U
R                  SS 5      n[        R                  " UR                  S   S5      R                  UR                  UR                  S9n[        R                  " XÃU/S	S
9nU R                  X1R                  5       5      R                  UR                  5      nU R                   R#                  U	R                  S   S	S	5      n[        R                  " XÙU
/SS
9nU R%                  UUU R'                  X@R                   R(                  5      UUUS9nU(       a  UR*                  OUS   nU R-                  U5      nU R/                  U5      nU R/                  U5      nU(       d
  UU4USS -   $ [1        UUUR2                  UR4                  S9$ )aÆ  
Examples:
```python
>>> import torch
>>> from transformers import AutoConfig, AutoTokenizer, TvpModel

>>> model = TvpModel.from_pretrained("Jiqing/tiny-random-tvp")

>>> tokenizer = AutoTokenizer.from_pretrained("Jiqing/tiny-random-tvp")

>>> pixel_values = torch.rand(1, 1, 3, 448, 448)
>>> text_inputs = tokenizer("This is an example input", return_tensors="pt")
>>> output = model(text_inputs.input_ids, pixel_values, text_inputs.attention_mask)
```N)rŸ  )rÚ   rÁ   ru   r   rª  )r²   r±   rc   rù   r   )r  r  r
  rN  rO  )rQ  Úpooler_outputr   r   )rd   rO  r«  r±  rÇ   r¬  Únew_onesry   r    rû   r  r²   r±   r¢  Úget_extended_attention_maskr×   rz  rÙ   r­  Úget_head_maskrI  rQ  r®  rŸ   r
   r   r   )r7   rÚ   r   r  r  r
  rN  rO  r­   Útext_embedding_outputÚvisual_embedding_outputÚvisual_attention_maskÚpt_maskrz  Úembedding_outputÚencoder_outputsrQ  ra  s                     r&   r[   ÚTvpModel.forwardò  s  € ð4 &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆà×(Ñ(Ø× Ñ  Ð Ðaó
ˆð !%§¡¸) Ð DÐà"&×"8Ñ"8Øð #9ð #
Ðð Ñ%à$2×$;Ñ$;Ð<S×<YÑ<YÐZ\Ð[\Ð<]Ó$^Ð!Ü—j’j ×!5Ñ!5°aÑ!8¸"Ó=×@Ñ@Ø%×,Ñ,°N×4HÑ4Hð Að ˆGô #ŸYšY¨ÐAVÐ'WÐ]_Ñ`ˆNð "×=Ñ=¸nÏnÉnÓN^Ó_×bÑbÐcl×csÑcsÓtˆNØ×&Ñ&×-Ñ-Ð.C×.IÑ.IÈ!Ñ.LÈbÐRTÓUˆä Ÿ9š9 kÐJaÐ%bÐhiÑjÐàŸ,™,ØØ)Ø×(Ñ(¨·K±K×4QÑ4QÓRØ/Ø!5Ø#ð 'ð 
ˆö BM˜O×=Ò=ÐRaÐbcÑRdÐØŸ™Ð$5Ó6ˆØ ŸL™LÐ):Ó;ÐØŸ™ ]Ó3ˆÞØ% }Ð5¸ÈÈÐ8KÑKÐKÜ)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r%   )	rd   rŸ   rÇ   r­  r®  rz  r«  r¬  r±  )NNNNNNNF)r   r   r   r   r0   r¶  r¹  r¾  r   r   r    Ú
LongTensorr!   rÌ   r[   r$   r]   r^   s   @r&   ry  ry  Ï  sÖ   ø† õò /ò0òCð ð 15Ø48Ø59Ø15Ø,0Ø/3Ø&*Ø).ñF
à˜E×,Ñ,Ñ-ðF
ð ˜u×0Ñ0Ñ1ðF
ð ! ×!1Ñ!1Ñ2ð	F
ð
 ˜E×-Ñ-Ñ.ðF
ð $ D™>ðF
ð ' t™nðF
ð ˜d‘^ðF
ð #'ôF
ó öF
r%   ry  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚTvpVideoGroundingHeadi<  c                 óB  >• [         TU ]  5         [        R                  " UR                  UR                  S-  5      U l        [        R                  " UR                  S-  S5      U l        [        R                  " 5       U l        [        R                  " 5       U l
        g )Nru   )r/   r0   r   rè   rf   Úlayer_0Úlayer_1ÚReLUÚactivation_0ÚSigmoidÚactivation_1r    s     €r&   r0   ÚTvpVideoGroundingHead.__init__=  sj   ø€ Ü‰ÑÔÜ—y’y ×!3Ñ!3°V×5GÑ5GÈ!Ñ5KÓLˆŒÜ—y’y ×!3Ñ!3°aÑ!7¸Ó;ˆŒÜŸGšG›IˆÔÜŸJšJ›LˆÕr%   c                 ó†   • U R                  U R                  U5      5      nU R                  U R                  U5      5      nU$ r#  )rÓ  rÐ  rÕ  rÑ  )r7   rÁ  r   s      r&   r[   ÚTvpVideoGroundingHead.forwardD  s9   € Ø×"Ñ" 4§<¡<°Ó#>Ó?ˆØ×"Ñ" 4§<¡<°Ó#7Ó8ˆØˆr%   )rÓ  rÕ  rÐ  rÑ  r‹   r^   s   @r&   rÎ  rÎ  <  s   ø† õ)÷ð r%   rÎ  zb
    Tvp Model with a video grounding head on top computing IoU, distance, and duration loss.
    c                   ó  ^ • \ rS rSrU 4S jr\         SS\\R                     S\\R                     S\\R                     S\\
\R                        S\\R                     S\\   S	\\   S
\\   S\4S jj5       rSrU =r$ )ÚTvpForVideoGroundingiJ  c                 ó   >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        U R                  5         g r#  )r/   r0   rd   ry  re  rÎ  Úvideo_grounding_headr²  r    s     €r&   r0   ÚTvpForVideoGrounding.__init__P  s8   ø€ Ü‰Ñ˜Ô ØŒÜ˜fÓ%ˆŒ
Ü$9¸&Ó$AˆÔ!à‰Õr%   rÚ   r   r  rX   r  r
  rN  rO  r­   c
                 óî  • Ub  UOU R                   R                  nU R                  UUUUUUUU	S9n
U
S   nU R                  U5      nSnUbo  [	        / SQ5      nUR                  U R                  5        U" XÄ5      nUS   U R                   R                  US   -  -   U R                   R                  US   -  -   nU(       d  U4U
SS -   n
Ub  U4U
-   n
U
$ [        UUU
R                  U
R                  S	9$ )
a‡  
labels (`torch.FloatTensor` of shape `(batch_size, 3)`, *optional*):
    The labels contains duration, start time, and end time of the video corresponding to the text.

Examples:
```python
>>> import torch
>>> from transformers import AutoConfig, AutoTokenizer, TvpForVideoGrounding

>>> model = TvpForVideoGrounding.from_pretrained("Jiqing/tiny-random-tvp")

>>> tokenizer = AutoTokenizer.from_pretrained("Jiqing/tiny-random-tvp")

>>> pixel_values = torch.rand(1, 1, 3, 448, 448)
>>> text_inputs = tokenizer("This is an example input", return_tensors="pt")
>>> output = model(text_inputs.input_ids, pixel_values, text_inputs.attention_mask)
```N)r  r
  rN  rO  r­   r   r+   r,   r-   r.   ru   )r   r   r   r   )rd   rO  re  rÜ  r(   r  r²   Údistance_loss_weightÚduration_loss_weightr   r   r   )r7   rÚ   r   r  rX   r  r
  rN  rO  r­   r  rÁ  r   r   Ú	criterionÚ	loss_dicts                   r&   r[   ÚTvpForVideoGrounding.forwardX  s*  € ð< &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆØ—*‘*ØØØØØ/Ø!5Ø#Ø%=ð ð 	
ˆð   ™
ˆØ×*Ñ*¨=Ó9ˆàˆØÑÜÒ ?Ó@ˆIØL‰L˜Ÿ™Ô%Ù! &Ó1ˆIà˜%Ñ Ø—+‘+×2Ñ2°Y¸zÑ5JÑJñKà—+‘+×2Ñ2°Y¸zÑ5JÑJñKð ö
 Øi '¨!¨" +Ñ-ˆGØÑØ˜' GÑ+ØˆNä&ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r%   )rd   re  rÜ  )	NNNNNNNNF)r   r   r   r   r0   r   r   r    rÌ  r!   r#   rÊ   rÌ   r[   r$   r]   r^   s   @r&   rÚ  rÚ  J  sâ   ø† õð ð 15Ø48Ø59Ø04Ø15Ø,0Ø/3Ø&*Ø).ñ@
à˜E×,Ñ,Ñ-ð@
ð ˜u×0Ñ0Ñ1ð@
ð ! ×!1Ñ!1Ñ2ð	@
ð
 ˜˜uŸ|™|Ñ,Ñ-ð@
ð ˜E×-Ñ-Ñ.ð@
ð $ D™>ð@
ð ' t™nð@
ð ˜d‘^ð@
ð #'ô@
ó ö@
r%   rÚ  )ry  rd  rÚ  )3r   r  Údataclassesr   Útypingr   r    Útorch.utils.checkpointr   Úactivationsr   Úmodeling_layersr   Úmodeling_outputsr	   r
   r   Úmodeling_utilsr   Úpytorch_utilsr   Úutilsr   r   Úutils.backbone_utilsr   Úconfiguration_tvpr   Ú
get_loggerr   Úloggerr   r  r(   r`   r   rÎ   râ   r!  r/  r7  rE  rZ  rd  r  r–  r°  ry  rÎ  rÚ  Ú__all__r   r%   r&   Ú<module>rò     sÑ  ðñ ã Ý !Ý ã Û Ý å !Ý 9ß XÑ XÝ -Ý /ß ,Ý 1Ý (ð 
×	Ò	˜HÓ	%€ð Øô?˜kó ?ó ó ð?ô$Mˆbi‰iô Mô`%R—Y‘Yô %ôPn˜bŸi™iô nôb!˜RŸY™Yô !ôH_2—9‘9ô _ôFb—i‘iô ôR—Y‘Yô ôÐ/ô ô82
—‘ô 2
ôl—	‘	ô ð ô.˜ó .ó ð.ôB"˜bŸi™iô "ôJW˜"Ÿ)™)ô Wðv ,Ø#ñ Ð ñ ðñô
e
Ð!ó e
óð
e
ôP˜BŸI™Iô ñ ðñô
J
Ð-ó J
óð
J
òZ Er%   