ó
    <±h‹ ã                   ó   • S r SSKrSSKrSSKJr  SSKJrJrJr  SSK	r
SSKrSSKrSSKJr  SSKJr  SSKJr  SS	KJr  SS
KJr  SSKJrJr  SSKJr  SSKJr  SSKJrJrJ r J!r!J"r"J#r#J$r$  SSK%J&r&J'r'  SSK(J)r)  SSK*J+r+J,r,J-r-J.r.J/r/J0r0J1r1J2r2  SSK3J4r4  Sr5Sr6\0" 5       (       a  SSK7J8r9  \1" 5       (       a  SSK:J;r;  \2Rx                  " \=5      r>Sr?\\," SS9 " S S\+5      5       5       r@  SmS\A\B\B4   S\CS\BS \\Rˆ                     S!\BS"\
RŠ                  4S# jjrF SnS$\AS%\BS&\\
RŠ                     4S' jjrG " S( S)\5      rH " S* S+\5      rI " S, S-\5      rJ " S. S/\R–                  5      rL " S0 S1\R–                  5      rM " S2 S3\R–                  5      rN " S4 S5\N5      rO " S6 S7\R–                  5      rP   SoS8\R–                  S9\R¢                  S:\R¢                  S;\R¢                  S \\R¢                     S<\\C   S=\CS>\\R¢                     4S? jjrR " S@ SA\R–                  5      rS " SB SC\R–                  5      rT " SD SE\5      rU " SF SG\5      rV " SH SI\R–                  5      rW " SJ SK\R–                  5      rX " SL SM\R–                  5      rY " SN SO\R–                  5      rZ " SP SQ\R–                  5      r[ " SR SS\R–                  5      r\\, " ST SU\'5      5       r]\, " SV SW\]5      5       r^\," SXS9 " SY SZ\]5      5       r_\, " S[ S\\]5      5       r`\," S]S9 " S^ S_\]5      5       ra\," S`S9 " Sa Sb\]5      5       rb\, " Sc Sd\]5      5       rc " Se Sf\R–                  5      rd " Sg Sh\R–                  5      re\," SiS9 " Sj Sk\]5      5       rf/ SlQrgg)pzPyTorch Wav2Vec2 model.é    N)Ú	dataclass)ÚCallableÚOptionalÚUnion)Únn)ÚCrossEntropyLossé   )ÚACT2FN)Úis_deepspeed_zero3_enabled)Úis_fsdp_managed_module)Ú_prepare_4d_attention_maskÚ#_prepare_4d_attention_mask_for_sdpa)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚCausalLMOutputÚMaskedLMOutputÚSequenceClassifierOutputÚTokenClassifierOutputÚWav2Vec2BaseModelOutputÚXVectorOutput)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)ÚModelOutputÚauto_docstringÚcached_fileÚcheck_torch_load_is_safeÚis_peft_availableÚis_safetensors_availableÚis_torch_flex_attn_availableÚloggingé   )ÚWav2Vec2Configzadapter.{}.binzadapter.{}.safetensors)Ú	load_file)Úmake_flex_block_causal_maské   za
    Output type of [`Wav2Vec2ForPreTraining`], with potential hidden states and attentions.
    )Úcustom_introc                   óf  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S	'   Sr\\R                     \	S
'   Sr\\R                     \	S'   Srg)ÚWav2Vec2ForPreTrainingOutputéN   a  
loss (*optional*, returned when `sample_negative_indices` are passed, `torch.FloatTensor` of shape `(1,)`):
    Total loss as the sum of the contrastive loss (L_m) and the diversity loss (L_d) as stated in the [official
    paper](https://arxiv.org/pdf/2006.11477.pdf) . (classification) loss.
projected_states (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.proj_codevector_dim)`):
    Hidden-states of the model projected to *config.proj_codevector_dim* that can be used to predict the masked
    projected quantized states.
projected_quantized_states (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.proj_codevector_dim)`):
    Quantized extracted feature vectors projected to *config.proj_codevector_dim* representing the positive
    target vectors for contrastive loss.
codevector_perplexity (`torch.FloatTensor` of shape `(1,)`):
    The perplexity of the codevector distribution, used to measure the diversity of the codebook.
contrastive_loss (*optional*, returned when `sample_negative_indices` are passed, `torch.FloatTensor` of shape `(1,)`):
    The contrastive loss (L_m) as stated in the [official paper](https://arxiv.org/pdf/2006.11477.pdf) .
diversity_loss (*optional*, returned when `sample_negative_indices` are passed, `torch.FloatTensor` of shape `(1,)`):
    The diversity loss (L_d) as stated in the [official paper](https://arxiv.org/pdf/2006.11477.pdf) .
NÚlossÚprojected_statesÚprojected_quantized_statesÚcodevector_perplexityÚhidden_statesÚ
attentionsÚcontrastive_lossÚdiversity_loss© )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r,   r   ÚtorchÚFloatTensorÚ__annotations__r-   r.   r/   r0   Útupler1   r2   r3   Ú__static_attributes__r4   ó    Úf/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/wav2vec2/modeling_wav2vec2.pyr*   r*   N   s¿   ‡ ñð$ )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø>BÐ ¨×):Ñ):Ñ ;ÓBØ9=Ð˜8 E×$5Ñ$5Ñ6Ó=Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ó9Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø26€NH˜U×.Ñ.Ñ/Ö6r?   r*   ÚshapeÚ	mask_probÚmask_lengthÚattention_maskÚ	min_masksÚreturnc           	      óè  ^^^^^• U u  nmTS:  a  [        S5      eTT:”  a  [        ST ST S35      e[        R                  R                  S5      R	                  5       mUUUUU4S jnUb-  UR                  5       R                  S5      R                  5       O[        U5       Vs/ sH  nTPM     snn[        R                  " UT4[        S	9n	/ n
U" T5      nUS
:X  a  U	$ U H­  nU" U5      n[        R                  R                  [        R                  " UTS-
  -
  5      USS9n[        U5      S
:X  a  TS-
  nOUS
   n[        R                  " U[        R                  " X½-
  [        R                   S	9U-  /5      nU
R#                  U5        M¯     [        R$                  " U
5      n
[        R&                  " U
SS2SS2S4   X[T45      n
U
R)                  X[T-  5      n
[        R                  " T5      SSSS24   n[        R&                  " UX[T45      R)                  X[T-  5      nU
U-   n
U
R+                  5       TS-
  :”  a  TS-
  XªTS-
  :„  '   [        R,                  " XšSS5        U	$ s  snf )a2  
Computes random mask spans for a given shape. Used to implement [SpecAugment: A Simple Data Augmentation Method for
ASR](https://huggingface.co/papers/1904.08779). Note that this method is not optimized to run on TPU and should be run on
CPU as part of the preprocessing during training.

Args:
    shape: The shape for which to compute masks. This should be of a tuple of size 2 where
           the first element is the batch size and the second element is the length of the axis to span.
    mask_prob:  The percentage of the whole axis (between 0 and 1) which will be masked. The number of
                independently generated mask spans of length `mask_length` is computed by
                `mask_prob*shape[1]/mask_length`. Note that due to overlaps, `mask_prob` is an upper bound and the
                actual percentage will be smaller.
    mask_length: size of the mask
    min_masks: minimum number of masked spans
    attention_mask: A (right-padded) attention mask which independently shortens the feature axis of
                    each batch dimension.
r#   z&`mask_length` has to be bigger than 0.zO`mask_length` has to be smaller than `sequence_length`, but got `mask_length`: z and `sequence_length`: Ú`c                 ó    >• [        TU -  T-  T-   5      n[        UT5      nUT-  T:”  a  TT-  nU TS-
  -
  U:  a  [        U TS-
  -
  S5      nU$ )z;Given input length, compute how many spans should be maskedr#   r   )ÚintÚmax)Úinput_lengthÚnum_masked_spanÚepsilonrC   rB   rE   Úsequence_lengths     €€€€€r@   Úcompute_num_masked_spanÚ6_compute_mask_indices.<locals>.compute_num_masked_span—   so   ø€ ä˜i¨,Ñ6¸ÑDÀwÑNÓOˆÜ˜o¨yÓ9ˆð ˜[Ñ(¨?Ó:Ø-°Ñ<ˆOð ˜;¨™?Ñ+¨oÓ=Ü! ,°+À±/Ñ"BÀAÓFˆOàÐr?   Néÿÿÿÿ©Údtyper   F)Úreplace)Ú
ValueErrorÚnpÚrandomÚrandÚitemÚdetachÚsumÚtolistÚrangeÚzerosÚboolÚchoiceÚarangeÚlenÚconcatenateÚonesÚint32ÚappendÚarrayÚbroadcast_toÚreshaperK   Úput_along_axis)rA   rB   rC   rD   rE   Ú
batch_sizerP   Ú_Úinput_lengthsÚspec_aug_maskÚspec_aug_mask_idxsÚmax_num_masked_spanrL   rM   Úspec_aug_mask_idxÚdummy_mask_idxÚoffsetsrN   rO   s    `` `            @@r@   Ú_compute_mask_indicesru   q   sš  ü€ ð0 #(Ñ€JàQƒÜÐAÓBÐBà_Ó$ÜØ]Ð^iÐ]jØ& Ð&7°qð:ó
ð 	
ô i‰in‰n˜QÓ×$Ñ$Ó&€G÷ñ ð$ Ñ%ð 	×ÑÓ×#Ñ# BÓ'×.Ñ.Ô0ä',¨ZÔ'8Ó9Ñ'8 !‹oÑ'8Ñ9ð ô —H’H˜j¨/Ð:Ä$ÑG€MØÐá1°/ÓBÐà˜aÓØÐã%ˆá1°,Ó?ˆô ŸI™I×,Ñ,ÜIŠIl k°A¡oÑ6Ó7¸ÐRWð -ð 
Ðô Ð Ó! QÓ&ð -¨qÑ0‰Nà.¨qÑ1ˆNäŸNšNØ¤§¢Ð(;Ñ(MÔUW×U]ÑU]Ñ ^ÐaoÑ oÐpó
Ðð 	×!Ñ!Ð"3Ö4ñ/ &ô2 ŸšÐ"4Ó5Ðô ŸšØš1ša ˜:Ñ&¨È+Ð(VóÐð ,×3Ñ3°JÐVaÑ@aÓbÐô iŠi˜Ó$ T¨4² ]Ñ3€GÜoŠo˜g¨
ÈÐ'UÓV×^Ñ^Ø¨+Ñ5ó€Gð ,¨gÑ5Ðð ×ÑÓ /°AÑ"5Ó5ØGVÐYZÑGZÐ°À!Ñ0CÑCÑDô ×Òm¸¸BÔ?àÐùòw :s   Â(I/Úfeatures_shapeÚnum_negativesÚmask_time_indicesc                 óL  • U u  p4[         R                  " U5      n[         R                  " X4U4[         R                  S9nUb  UR	                  [
        5      O[         R                  " U [
        S9n[        U5       H¤  nX'   R                  5       S-
  nXRU      n	[         R                  " [         R                  " US-   5      SS2S4   US-   U45      n
[         R                  R                  SXˆS-   U4S9nX»U
:¬  ==   S-  ss'   X›   Xg   X'   '   Xg==   Xt-  -  ss'   M¦     U$ )z6
Sample `num_negatives` vectors from feature vectors.
)rA   rT   NrS   r#   r   )Úsize)rW   rb   r_   rf   Úastyper`   re   r^   r\   ri   rX   Úrandint)rv   rw   rx   rl   rO   Úsequence_length_rangeÚsampled_negative_indicesÚ	batch_idxÚhighÚmapped_masked_indicesÚfeature_indicesÚsampled_indicess               r@   Ú_sample_negative_indicesr„   è   s5  € ð #1Ñ€Jô ŸIšI oÓ6Ðô  "Ÿxšx¨zÈMÐ.ZÔbd×bjÑbjÑkÐð +<Ñ*GÐ× Ñ ¤Ô&ÌRÏWÊWÐUcÔkoÑMpð ô ˜:Ö&ˆ	Ø Ñ+×/Ñ/Ó1°AÑ5ˆØ 5È	Ñ6RÑ SÐäŸ/š/¬"¯)ª)°D¸1±HÓ*=ºaÀ¸gÑ*FÈÐPQÉÐS`ÐHaÓbˆÜŸ)™)×+Ñ+¨A¨tÀ!¹8À]Ð:SÐ+ÐTˆà¨?Ñ:Ó;¸qÑ@Ó;ð MbÑLrÐ Ñ+Ð,=Ñ,HÑIð 	!Ó+¨yÑ/JÑJÕ+ñ 'ð $Ð#r?   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚWav2Vec2NoLayerNormConvLayeri  c                 ób  >• [         TU ]  5         US:”  a  UR                  US-
     OSU l        UR                  U   U l        [
        R                  " U R                  U R                  UR                  U   UR                  U   UR                  S9U l
        [        UR                     U l        g )Nr   r#   ©Úkernel_sizeÚstrideÚbias)ÚsuperÚ__init__Úconv_dimÚin_conv_dimÚout_conv_dimr   ÚConv1dÚconv_kernelÚconv_strideÚ	conv_biasÚconvr
   Úfeat_extract_activationÚ
activation©ÚselfÚconfigÚlayer_idÚ	__class__s      €r@   r   Ú%Wav2Vec2NoLayerNormConvLayer.__init__  s—   ø€ Ü‰ÑÔØ<DÀq»L˜6Ÿ?™?¨8°a©<Ò8ÈaˆÔØ"ŸO™O¨HÑ5ˆÔä—I’IØ×ÑØ×ÑØ×*Ñ*¨8Ñ4Ø×%Ñ% hÑ/Ø×!Ñ!ñ
ˆŒ	ô ! ×!?Ñ!?Ñ@ˆr?   c                 óJ   • U R                  U5      nU R                  U5      nU$ ©N)r•   r—   ©r™   r0   s     r@   ÚforwardÚ$Wav2Vec2NoLayerNormConvLayer.forward  s$   € ØŸ	™	 -Ó0ˆØŸ™¨Ó6ˆØÐr?   )r—   r•   r   r   ©r   ©r5   r6   r7   r8   r   r¡   r>   Ú__classcell__©rœ   s   @r@   r†   r†     s   ø† ÷A÷ð r?   r†   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚWav2Vec2LayerNormConvLayeri!  c                 óª  >• [         TU ]  5         US:”  a  UR                  US-
     OSU l        UR                  U   U l        [
        R                  " U R                  U R                  UR                  U   UR                  U   UR                  S9U l
        [
        R                  " U R                  SS9U l        [        UR                     U l        g )Nr   r#   rˆ   T)Úelementwise_affine)rŒ   r   rŽ   r   r   r   r‘   r’   r“   r”   r•   Ú	LayerNormÚ
layer_normr
   r–   r—   r˜   s      €r@   r   Ú#Wav2Vec2LayerNormConvLayer.__init__"  s¯   ø€ Ü‰ÑÔØ<DÀq»L˜6Ÿ?™?¨8°a©<Ò8ÈaˆÔØ"ŸO™O¨HÑ5ˆÔä—I’IØ×ÑØ×ÑØ×*Ñ*¨8Ñ4Ø×%Ñ% hÑ/Ø×!Ñ!ñ
ˆŒ	ô Ÿ,š, t×'8Ñ'8ÈTÑRˆŒÜ  ×!?Ñ!?Ñ@ˆr?   c                 ó´   • U R                  U5      nUR                  SS5      nU R                  U5      nUR                  SS5      nU R                  U5      nU$ )NéþÿÿÿrR   )r•   Ú	transposer¬   r—   r    s     r@   r¡   Ú"Wav2Vec2LayerNormConvLayer.forward1  sV   € ØŸ	™	 -Ó0ˆà%×/Ñ/°°BÓ7ˆØŸ™¨Ó6ˆØ%×/Ñ/°°BÓ7ˆàŸ™¨Ó6ˆØÐr?   ©r—   r•   r   r¬   r   r£   r¤   r¦   s   @r@   r¨   r¨   !  s   ø† ÷A÷ð r?   r¨   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚWav2Vec2GroupNormConvLayeri<  c                 óÀ  >• [         TU ]  5         US:”  a  UR                  US-
     OSU l        UR                  U   U l        [
        R                  " U R                  U R                  UR                  U   UR                  U   UR                  S9U l
        [        UR                     U l        [
        R                  " U R                  U R                  SS9U l        g )Nr   r#   rˆ   T)Ú
num_groupsÚnum_channelsÚaffine)rŒ   r   rŽ   r   r   r   r‘   r’   r“   r”   r•   r
   r–   r—   Ú	GroupNormr¬   r˜   s      €r@   r   Ú#Wav2Vec2GroupNormConvLayer.__init__=  s¹   ø€ Ü‰ÑÔØ<DÀq»L˜6Ÿ?™?¨8°a©<Ò8ÈaˆÔØ"ŸO™O¨HÑ5ˆÔä—I’IØ×ÑØ×ÑØ×*Ñ*¨8Ñ4Ø×%Ñ% hÑ/Ø×!Ñ!ñ
ˆŒ	ô ! ×!?Ñ!?Ñ@ˆŒäŸ,š,°$×2CÑ2CÐRV×RcÑRcÐlpÑqˆr?   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ rŸ   )r•   r¬   r—   r    s     r@   r¡   Ú"Wav2Vec2GroupNormConvLayer.forwardM  s2   € ØŸ	™	 -Ó0ˆØŸ™¨Ó6ˆØŸ™¨Ó6ˆØÐr?   r²   r£   r¤   r¦   s   @r@   r´   r´   <  s   ø† ÷r÷ ð r?   r´   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚWav2Vec2PositionalConvEmbeddingiT  c                 ó´  >• [         TU ]  5         [        R                  " UR                  UR                  UR
                  UR
                  S-  UR                  S9U l        [        R                  R                  n[        [        R                  R                  S5      (       a$  [        R                  R                  R                  n[        5       (       Ga%  SS KnUR                  R                  U R                  R                   SS9   U" U R                  SSS9U l        S S S 5        [        U R                  S5      (       aU  U R                  R                  R                   R"                  nU R                  R                  R                   R$                  nO,U R                  R&                  nU R                  R(                  nUR                  R+                  X5        UR                  R+                  X5        OU" U R                  SSS9U l        [-        UR
                  5      U l        [0        UR2                     U l        g ! , (       d  f       GN,= f)	Nr'   )r‰   ÚpaddingÚgroupsÚweight_normr   )Úmodifier_rankÚweight)ÚnameÚdimÚparametrizations)rŒ   r   r   r‘   Úhidden_sizeÚnum_conv_pos_embeddingsÚnum_conv_pos_embedding_groupsr•   ÚutilsrÂ   ÚhasattrrÇ   r   Ú	deepspeedÚzeroÚGatheredParametersrÄ   Ú	original0Ú	original1Úweight_gÚweight_vÚregister_external_parameterÚWav2Vec2SamePadLayerrÀ   r
   r–   r—   )r™   rš   rÂ   rÍ   rÒ   rÓ   rœ   s         €r@   r   Ú(Wav2Vec2PositionalConvEmbedding.__init__U  s¡  ø€ Ü‰ÑÔÜ—I’IØ×ÑØ×ÑØ×6Ñ6Ø×2Ñ2°aÑ7Ø×7Ñ7ñ
ˆŒ	ô —h‘h×*Ñ*ˆÜ”2—8‘8×,Ñ,¨m×<Ñ<ÜŸ(™(×3Ñ3×?Ñ?ˆKä%×'Ò'Ûà—‘×2Ñ2°4·9±9×3CÑ3CÐSTÐ2ÒUÙ'¨¯	©	¸ÀaÑH”	÷ Vät—y‘yÐ"4×5Ñ5ØŸ9™9×5Ñ5×<Ñ<×FÑFØŸ9™9×5Ñ5×<Ñ<×FÑF‘àŸ9™9×-Ñ-ØŸ9™9×-Ñ-ØN‰N×6Ñ6°tÔFØN‰N×6Ñ6°tÕFá# D§I¡I°HÀ!ÑDˆDŒIä+¨F×,JÑ,JÓKˆŒÜ  ×!?Ñ!?Ñ@ˆ÷ VÖUús   ÄIÉ
Ic                 ó´   • UR                  SS5      nU R                  U5      nU R                  U5      nU R                  U5      nUR                  SS5      nU$ ©Nr#   r'   )r°   r•   rÀ   r—   r    s     r@   r¡   Ú'Wav2Vec2PositionalConvEmbedding.forwardv  sV   € Ø%×/Ñ/°°1Ó5ˆàŸ	™	 -Ó0ˆØŸ™ ]Ó3ˆØŸ™¨Ó6ˆà%×/Ñ/°°1Ó5ˆØÐr?   )r—   r•   rÀ   r¤   r¦   s   @r@   r¾   r¾   T  s   ø† õA÷Bð r?   r¾   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )rÕ   i  c                 óR   >• [         TU ]  5         US-  S:X  a  SU l        g SU l        g )Nr'   r   r#   )rŒ   r   Únum_pad_remove)r™   rÉ   rœ   s     €r@   r   ÚWav2Vec2SamePadLayer.__init__‚  s)   ø€ Ü‰ÑÔØ#:¸QÑ#>À!Ó#C˜aˆÕÈˆÕr?   c                 óX   • U R                   S:”  a  US S 2S S 2S U R                   * 24   nU$ ©Nr   ©rÜ   r    s     r@   r¡   ÚWav2Vec2SamePadLayer.forward†  s6   € Ø×Ñ Ó"Ø)ª!ªQÐ0F°4×3FÑ3FÐ2FÐ0FÐ*FÑGˆMØÐr?   rà   r¤   r¦   s   @r@   rÕ   rÕ     s   ø† õK÷ð r?   rÕ   c                   ó8   ^ • \ rS rSrSrU 4S jrS rS rSrU =r	$ )ÚWav2Vec2FeatureEncoderiŒ  z.Construct the features from raw audio waveformc           	      óÐ  >• [         TU ]  5         UR                  S:X  a?  [        USS9/[	        UR
                  S-
  5       Vs/ sH  n[        XS-   S9PM     sn-   nOUUR                  S:X  a,  [	        UR
                  5       Vs/ sH  n[        XS9PM     nnO[        SUR                   S35      e[        R                  " U5      U l        SU l        S	U l        g s  snf s  snf )
NÚgroupr   )r›   r#   Úlayerz`config.feat_extract_norm` is z), but has to be one of ['group', 'layer']FT)rŒ   r   Úfeat_extract_normr´   r^   Únum_feat_extract_layersr†   r¨   rV   r   Ú
ModuleListÚconv_layersÚgradient_checkpointingÚ_requires_grad)r™   rš   Úirê   rœ   s       €r@   r   ÚWav2Vec2FeatureEncoder.__init__  s÷   ø€ Ü‰ÑÔà×#Ñ# wÓ.Ü5°fÀqÑIÐJÜNSÐTZ×TrÑTrÐuvÑTvÔNwóNÙNwÈÔ,¨VÀ!¹eÔDÑNwñNñ ‰Kð ×%Ñ%¨Ó0äHMÈf×NlÑNlÔHmóÙHmÀ1Ô*¨6Ô>ÑHmð ð ˆKô Ø0°×1IÑ1IÐ0JÐJsÐtóð ô Ÿ=š=¨Ó5ˆÔØ&+ˆÔ#Ø"ˆÕùòNùòs   ÁCÂC#c                 óN   • U R                  5        H
  nSUl        M     SU l        g ©NF)Ú
parametersÚrequires_gradrì   ©r™   Úparams     r@   Ú_freeze_parametersÚ)Wav2Vec2FeatureEncoder._freeze_parameters¢  s#   € Ø—_‘_Ö&ˆEØ"'ˆEÖñ 'à#ˆÕr?   c                 ó    • US S 2S 4   nU R                   (       a  U R                  (       a  SUl        U R                   H  nU" U5      nM     U$ )NT)rì   Útrainingrò   rê   )r™   Úinput_valuesr0   Ú
conv_layers       r@   r¡   ÚWav2Vec2FeatureEncoder.forward§  sK   € Ø$¢Q¨ WÑ-ˆð ×× 4§=§=Ø*.ˆMÔ'à×*Ô*ˆJÙ& }Ó5ŠMñ +ð Ðr?   )rì   rê   rë   )
r5   r6   r7   r8   r9   r   rõ   r¡   r>   r¥   r¦   s   @r@   rã   rã   Œ  s   ø† Ù8õ#ò&$÷

ð 
r?   rã   c                   ó(   ^ • \ rS rSrU 4S jrSrU =r$ )ÚWav2Vec2FeatureExtractori´  c                 óÒ   >• [         TU ]  U5        [        R                  " SU R                  R
                   SU R                  R                  S   R
                   S3[        5        g )NzThe class `zD` has been depreciated and will be removed in Transformers v5. Use `r   z
` instead.)rŒ   r   ÚwarningsÚwarnrœ   r5   Ú	__bases__ÚFutureWarning©r™   rš   rœ   s     €r@   r   Ú!Wav2Vec2FeatureExtractor.__init__µ  s[   ø€ Ü‰Ñ˜Ô ÜŠØ˜$Ÿ.™.×1Ñ1Ð2ð 3à—N‘N×,Ñ,¨QÑ/×8Ñ8Ð9¸ðEô õ		
r?   r4   )r5   r6   r7   r8   r   r>   r¥   r¦   s   @r@   rý   rý   ´  s   ø† ÷
ó 
r?   rý   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚWav2Vec2FeatureProjectioni¿  c                 ó4  >• [         TU ]  5         [        R                  " UR                  S   UR
                  S9U l        [        R                  " UR                  S   UR                  5      U l	        [        R                  " UR                  5      U l        g )NrR   ©Úeps)rŒ   r   r   r«   rŽ   Úlayer_norm_epsr¬   ÚLinearrÈ   Ú
projectionÚDropoutÚfeat_proj_dropoutÚdropoutr  s     €r@   r   Ú"Wav2Vec2FeatureProjection.__init__À  sf   ø€ Ü‰ÑÔÜŸ,š, v§¡°rÑ':À×@UÑ@UÑVˆŒÜŸ)š) F§O¡O°BÑ$7¸×9KÑ9KÓLˆŒÜ—z’z &×":Ñ":Ó;ˆr?   c                 ón   • U R                  U5      nU R                  U5      nU R                  U5      nX4$ rŸ   )r¬   r  r  )r™   r0   Únorm_hidden_statess      r@   r¡   Ú!Wav2Vec2FeatureProjection.forwardÆ  s7   € à!Ÿ_™_¨]Ó;ÐØŸ™Ð(:Ó;ˆØŸ™ ]Ó3ˆØÐ0Ð0r?   )r  r¬   r  r¤   r¦   s   @r@   r  r  ¿  s   ø† õ<÷1ð 1r?   r  ÚmoduleÚqueryÚkeyÚvalueÚscalingr  Ú	head_maskc                 óÀ  • Uc  UR                  S5      S-  n[        R                  " XR                  SS5      5      U-  n	Ub  X”-   n	[        R
                  R                  U	SS9n	Ub  X—R                  SSSS5      -  n	[        R
                  R                  X–U R                  S9n	[        R                  " X“5      n
U
R                  SS5      R                  5       n
X©4$ )NrR   ç      à¿r'   r	   ©rÆ   r#   )Úprø   )rz   r:   Úmatmulr°   r   Ú
functionalÚsoftmaxÚviewr  rø   Ú
contiguous)r  r  r  r  rD   r  r  r  ÚkwargsÚattn_weightsÚattn_outputs              r@   Úeager_attention_forwardr&  Ï  sÌ   € ð Ø—*‘*˜R“. DÑ(ˆä—<’< §}¡}°Q¸Ó':Ó;¸gÑE€LØÑ!Ø#Ñ4ˆä—=‘=×(Ñ(¨¸2Ð(Ð>€LàÑØ#§n¡n°Q¸¸A¸qÓ&AÑAˆä—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r?   c                   óZ  ^ • \ rS rSrSr     SS\S\S\S\S\S\S	\\	   4U 4S
 jjjr
    SS\R                  S\\R                     S\\R                     S\\R                     S\\   S\\   S\\R                  \\R                     \\\R                        4   4S jjrSrU =r$ )ÚWav2Vec2Attentionií  z=Multi-headed attention from 'Attention Is All You Need' paperÚ	embed_dimÚ	num_headsr  Ú
is_decoderr‹   Ú	is_causalrš   c                 óæ  >• [         TU ]  5         Xl        X l        X0l        X-  U l        Xpl        U R
                  U-  U R                  :w  a  [        SU R                   SU S35      eU R
                  S-  U l        X@l	        X`l
        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).r  )r‹   )rŒ   r   r)  r*  r  Úhead_dimrš   rV   r  r+  r,  r   r  Úk_projÚv_projÚq_projÚout_proj)	r™   r)  r*  r  r+  r‹   r,  rš   rœ   s	           €r@   r   ÚWav2Vec2Attention.__init__ð  sÎ   ø€ ô 	‰ÑÔØ"ŒØ"ŒØŒØ!Ñ.ˆŒØŒàM‰M˜IÑ%¨$¯.©.Ó8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ŒØ"Œä—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜŸ	š	 )¸TÑBˆr?   r0   Úkey_value_statesrD   Úlayer_head_maskÚoutput_attentionsr#  rF   c                 ó   • USLnUR                   SS u  p‰U(       a  UR                   S   OU	n
X‰SU R                  4nXŠSU R                  4nU R                  U5      R                  " U6 R	                  SS5      nU(       a  UOUnU R                  U5      R                  " U6 R	                  SS5      nU R                  U5      R                  " U6 R	                  SS5      n[        nU R                  R                  S:w  a  [        U R                  R                     nU" U UUUU4U R                  (       d  SOU R                  U R                  UUS.UD6u  nnUR                  X‰S5      R                  5       nU R!                  U5      nUUS4$ )z#Input shape: Batch x Time x ChannelNrR   r#   r'   Úeagerç        )r  r  r6  r  )rA   r.  r1  r!  r°   r/  r0  r&  rš   Ú_attn_implementationr   rø   r  r  rj   r"  r2  )r™   r0   r4  rD   r5  r6  r#  Úis_cross_attentionÚbszÚtgt_lenÚsrc_lenÚq_input_shapeÚkv_input_shapeÚquery_statesÚcurrent_statesÚ
key_statesÚvalue_statesÚattention_interfacer%  r$  s                       r@   r¡   ÚWav2Vec2Attention.forward  sŽ  € ð .°TÐ9Ðð %×*Ñ*¨3¨BÐ/‰ˆÞ/AÐ"×(Ñ(¨Ò+Àwˆà r¨4¯=©=Ð9ˆØ¨¨D¯M©MÐ:ˆð —{‘{ =Ó1×6Ò6¸ÐF×PÑPÐQRÐTUÓVˆæ-?Ñ)À]ˆØ—[‘[ Ó0×5Ò5°~ÐF×PÑPÐQRÐTUÓVˆ
Ø—{‘{ >Ó2×7Ò7¸ÐH×RÑRÐSTÐVWÓXˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð%
ð  $Ÿ}Ÿ}‘C°$·,±,Ø—L‘LØ/Ø%ñ%
ð ñ%
Ñ!ˆ\ð "×)Ñ)¨#¸Ó;×FÑFÓHˆØ—m‘m KÓ0ˆà˜L¨$Ð.Ð.r?   )rš   r  r)  r.  r,  r+  r/  r*  r2  r1  r  r0  )r9  FTFN)NNNF)r5   r6   r7   r8   r9   rJ   Úfloatr`   r   r$   r   r:   ÚTensorr   r   r=   r¡   r>   r¥   r¦   s   @r@   r(  r(  í  s   ø† ÙGð Ø ØØØ+/ñCàðCð ðCð ð	Cð
 ðCð ðCð ðCð ˜Ñ(÷Cð CðD 48Ø15Ø26Ø,1ñ3/à—|‘|ð3/ð # 5§<¡<Ñ0ð3/ð ! §¡Ñ.ð	3/ð
 " %§,¡,Ñ/ð3/ð $ D™>ð3/ð Ð-Ñ.ð3/ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷3/ó 3/r?   r(  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚWav2Vec2FeedForwardiE  c                 ó  >• [         TU ]  5         [        R                  " UR                  5      U l        [        R                  " UR                  UR                  5      U l	        [        UR                  [        5      (       a  [        UR                     U l        OUR                  U l        [        R                  " UR                  UR                  5      U l        [        R                  " UR                   5      U l        g rŸ   )rŒ   r   r   r  Úactivation_dropoutÚintermediate_dropoutr  rÈ   Úintermediate_sizeÚintermediate_denseÚ
isinstanceÚ
hidden_actÚstrr
   Úintermediate_act_fnÚoutput_denseÚhidden_dropoutÚoutput_dropoutr  s     €r@   r   ÚWav2Vec2FeedForward.__init__F  s®   ø€ Ü‰ÑÔÜ$&§J¢J¨v×/HÑ/HÓ$IˆÔ!ä"$§)¢)¨F×,>Ñ,>À×@XÑ@XÓ"YˆÔÜf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÔ$äŸIšI f×&>Ñ&>À×@RÑ@RÓSˆÔÜ Ÿjšj¨×)>Ñ)>Ó?ˆÕr?   c                 ó°   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU R	                  U5      nU$ rŸ   )rO  rS  rM  rT  rV  r    s     r@   r¡   ÚWav2Vec2FeedForward.forwardS  sX   € Ø×/Ñ/°Ó>ˆØ×0Ñ0°Ó?ˆØ×1Ñ1°-Ó@ˆà×)Ñ)¨-Ó8ˆØ×+Ñ+¨MÓ:ˆØÐr?   )rS  rO  rM  rT  rV  r¤   r¦   s   @r@   rJ  rJ  E  s   ø† õ@÷ð r?   rJ  c                   ó2   ^ • \ rS rSrU 4S jrSS jrSrU =r$ )ÚWav2Vec2EncoderLayeri]  c                 ó¤  >• [         TU ]  5         [        UR                  UR                  UR
                  SUS9U l        [        R                  " UR                  5      U l
        [        R                  " UR                  UR                  S9U l        [        U5      U l        [        R                  " UR                  UR                  S9U l        g )NF©r)  r*  r  r+  rš   r  )rŒ   r   r(  rÈ   Únum_attention_headsÚattention_dropoutÚ	attentionr   r  rU  r  r«   r
  r¬   rJ  Úfeed_forwardÚfinal_layer_normr  s     €r@   r   ÚWav2Vec2EncoderLayer.__init__^  s   ø€ Ü‰ÑÔÜ*Ø×(Ñ(Ø×0Ñ0Ø×,Ñ,ØØñ
ˆŒô —z’z &×"7Ñ"7Ó8ˆŒÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ/°Ó7ˆÔÜ "§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÕr?   c                 óâ   • UnU R                  XUS9u  pnU R                  U5      nXA-   nU R                  U5      nXR                  U5      -   nU R	                  U5      nU4nU(       a  Xu4-  nU$ ©N©rD   r6  )r`  r  r¬   ra  rb  ©r™   r0   rD   r6  Úattn_residualr$  rm   Úoutputss           r@   r¡   ÚWav2Vec2EncoderLayer.forwardm  sˆ   € Ø%ˆØ)-¯©ØÐL]ð *8ð *
Ñ&ˆ Qð Ÿ™ ]Ó3ˆØ%Ñ5ˆàŸ™¨Ó6ˆØ%×(9Ñ(9¸-Ó(HÑHˆØ×-Ñ-¨mÓ<ˆà Ð"ˆæØÑ&ˆGàˆr?   )r`  r  ra  rb  r¬   rð   r¤   r¦   s   @r@   r[  r[  ]  s   ø† õ\÷ò r?   r[  c                   ót   ^ • \ rS rSrU 4S jr  SS\R                  S\\R                     S\4S jjr	Sr
U =r$ )	Ú#Wav2Vec2EncoderLayerStableLayerNormi  c                 óð  >• [         TU ]  5         [        UR                  UR                  UR
                  SUS9U l        [        R                  " UR                  5      U l
        [        R                  " UR                  UR                  S9U l        [        U5      U l        [        R                  " UR                  UR                  S9U l        [#        USS 5      b  [%        U5      U l        g S U l        g )NFr]  r  Úadapter_attn_dim)rŒ   r   r(  rÈ   r^  r_  r`  r   r  rU  r  r«   r
  r¬   rJ  ra  rb  ÚgetattrÚWav2Vec2AttnAdapterLayerÚadapter_layerr  s     €r@   r   Ú,Wav2Vec2EncoderLayerStableLayerNorm.__init__‚  sÂ   ø€ Ü‰ÑÔÜ*Ø×(Ñ(Ø×0Ñ0Ø×,Ñ,ØØñ
ˆŒô —z’z &×"7Ñ"7Ó8ˆŒÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ/°Ó7ˆÔÜ "§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÔä6Ð-¨tÓ4Ñ@Ü!9¸&Ó!AˆDÕà!%ˆDÕr?   r0   rD   r6  c                 ó  • UnU R                  U5      nU R                  XUS9u  pnU R                  U5      nXA-   nXR                  U R	                  U5      5      -   nU R
                  b  XR                  U5      -   nU4nU(       a  Xu4-  nU$ re  )r¬   r`  r  ra  rb  rq  rg  s           r@   r¡   Ú+Wav2Vec2EncoderLayerStableLayerNorm.forward•  s¥   € ð &ˆØŸ™¨Ó6ˆØ)-¯©ØÐL]ð *8ð *
Ñ&ˆ Qð Ÿ™ ]Ó3ˆØ%Ñ5ˆØ%×(9Ñ(9¸$×:OÑ:OÐP]Ó:^Ó(_Ñ_ˆà×ÑÑ)Ø)×,>Ñ,>¸}Ó,MÑMˆMà Ð"ˆæØÑ&ˆGàˆr?   )rq  r`  r  ra  rb  r¬   rð   )r5   r6   r7   r8   r   r:   rH  r   r`   r¡   r>   r¥   r¦   s   @r@   rl  rl    sC   ø† õ&ð, 26Ø"'ñ	à—|‘|ðð ! §¡Ñ.ðð  ÷	ó r?   rl  c                   óÄ   ^ • \ rS rSrU 4S jr    SS\R                  S\\R                     S\	S\	S\	4
S	 jjr
S\\R                  S4   S
\R                  4S jrSrU =r$ )ÚWav2Vec2Encoderi¯  c                 óš  >• [         TU ]  5         Xl        [        U5      U l        [
        R                  " UR                  UR                  S9U l	        [
        R                  " UR                  5      U l        [
        R                  " [        UR                  5       Vs/ sH  n[!        U5      PM     sn5      U l        SU l        g s  snf ©Nr  F)rŒ   r   rš   r¾   Úpos_conv_embedr   r«   rÈ   r
  r¬   r  rU  r  ré   r^   Únum_hidden_layersr[  Úlayersrë   ©r™   rš   rm   rœ   s      €r@   r   ÚWav2Vec2Encoder.__init__°  s•   ø€ Ü‰ÑÔØŒÜ=¸fÓEˆÔÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ—z’z &×"7Ñ"7Ó8ˆŒÜ—m’mÌ5ÐQW×QiÑQiÔKjÓ$kÑKjÀaÔ%9¸&Ö%AÑKjÑ$kÓlˆŒØ&+ˆÕ#ùò %ló   Â CNr0   rD   r6  Úoutput_hidden_statesÚreturn_dictc                 óô  • U(       a  SOS nU(       a  SOS nUb4  UR                  S5      R                  SSUR                  S   5      nSX) '   U R                  UU5      nU R	                  U5      n	X-   nU R                  U5      nU R                  U5      n[        5       =(       d    [        U 5      n
U R                   H…  nU(       a  Xa4-   n[        R                  " / 5      nU R                  =(       a    XÀR                  R                  :  nU(       a  U
(       a  U" XUS9nUS   nU(       a  SnU(       d  M|  UWS   4-   nM‡     U(       a  Xa4-   nU(       d  [        S XU4 5       5      $ [!        UUUS	9$ )
Nr4   rR   r#   r'   r   rf  ©NNc              3   ó,   #   • U H  oc  M  Uv •  M     g 7frŸ   r4   ©Ú.0Úvs     r@   Ú	<genexpr>Ú*Wav2Vec2Encoder.forward.<locals>.<genexpr>î  ó   é € ÐmÑ$[˜qŸ™Ò$[ùó   ‚‹	©Úlast_hidden_stater0   r1   )Ú	unsqueezeÚrepeatrA   Ú_update_full_maskry  r¬   r  r   r   r{  r:   rY   rø   rš   Ú	layerdropr=   r   ©r™   r0   rD   r6  r  r€  Úall_hidden_statesÚall_self_attentionsÚexpand_attention_maskÚposition_embeddingsÚsynced_gpusræ   Údropout_probabilityÚskip_the_layerÚlayer_outputss                  r@   r¡   ÚWav2Vec2Encoder.forward¹  s  € ö #7™B¸DÐÞ$5™b¸4ÐàÑ%à$2×$<Ñ$<¸RÓ$@×$GÑ$GÈÈ1Èm×NaÑNaÐbcÑNdÓ$eÐ!Ø45ˆMÐ0Ñ1à×/Ñ/ØØó
ˆð
 #×1Ñ1°-Ó@ÐØ%Ñ;ˆØŸ™¨Ó6ˆØŸ™ ]Ó3ˆä0Ó2×RÔ6LÈTÓ6Rˆà—[”[ˆEÞ#Ø$5Ð8HÑ$HÐ!ô #(§*¢*¨R£.Ðà!Ÿ]™]×ZÐ/BÇ[Á[×EZÑEZÑ/ZˆNÞ!¦[á %Ø!ÐTeñ!ð !.¨aÑ 0æØ ,ç Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÒ#ñ' !ö*  Ø 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+Ø+Ø*ñ
ð 	
r?   Úinputs_embedsc                 ór  • Ub³  U R                   R                  S:X  a  SU;   a  UnU$ S nU$ U R                   R                  S:X  a  [        XR                  5      nU$ U R                   R                  S:X  a+  [	        U[
        R                  5      (       a
  [        USS9nU$ [        XR                  5      nU$ ©NÚflash_attention_2r   ÚsdpaÚflex_attentionF)r,  ©	rš   r:  r   rT   rP  r:   rH  r&   r   ©r™   rD   r›  s      r@   r  Ú!Wav2Vec2Encoder._update_full_maskö  óÄ   € ð
 Ñ%Ø{‰{×/Ñ/Ð3FÓFØ34¸Ó3F ð Ðð MQð Ðð —‘×1Ñ1°VÓ;ô "EÀ^×UhÑUhÓ!ið Ðð —‘×1Ñ1Ð5EÓEÜ˜n¬e¯l©l×;Ñ;Ü%@ÀÐ[`Ñ%aNð
 Ðô "<¸N×L_ÑL_Ó!`àÐr?   ©rš   r  rë   r¬   r{  ry  ©NFFT)r5   r6   r7   r8   r   r:   Útensorr   rH  r`   r¡   r   r  r>   r¥   r¦   s   @r@   rv  rv  ¯  s‡   ø† õ,ð 26Ø"'Ø%*Ø ñ:
à—|‘|ð:
ð ! §¡Ñ.ð:
ð  ð	:
ð
 #ð:
ð õ:
ðzà˜eŸl™l¨DÐ0Ñ1ðð —|‘|÷ò r?   rv  c                   ó~   ^ • \ rS rSrU 4S jr    S	S jrS\\R                  S4   S\R                  4S jr	Sr
U =r$ )
ÚWav2Vec2EncoderStableLayerNormi  c                 óš  >• [         TU ]  5         Xl        [        U5      U l        [
        R                  " UR                  UR                  S9U l	        [
        R                  " UR                  5      U l        [
        R                  " [        UR                  5       Vs/ sH  n[!        U5      PM     sn5      U l        SU l        g s  snf rx  )rŒ   r   rš   r¾   ry  r   r«   rÈ   r
  r¬   r  rU  r  ré   r^   rz  rl  r{  rë   r|  s      €r@   r   Ú'Wav2Vec2EncoderStableLayerNorm.__init__  s™   ø€ Ü‰ÑÔØŒÜ=¸fÓEˆÔÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ—z’z &×"7Ñ"7Ó8ˆŒÜ—m’mÜBGÈ×H`ÑH`ÔBaÓbÑBa¸QÔ0°Ö8ÑBaÑbó
ˆŒð ',ˆÕ#ùò cr~  Nc                 óô  • U(       a  SOS nU(       a  SOS nUb4  UR                  S5      R                  SSUR                  S   5      nSX) '   U R                  UU5      nU R	                  U5      n	X-   nU R                  U5      n[        5       =(       d    [        U 5      n
U R                   H…  nU(       a  Xa4-   n[        R                  " / 5      nU R                  =(       a    XÀR                  R                  :  nU(       a  U
(       a  U" XUS9nUS   nU(       a  SnU(       d  M|  UWS   4-   nM‡     U R                  U5      nU(       a  Xa4-   nU(       d  [        S XU4 5       5      $ [!        UUUS	9$ )
Nr4   rR   r#   r'   r   rf  r‚  c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frŸ   r4   r„  s     r@   r‡  Ú9Wav2Vec2EncoderStableLayerNorm.forward.<locals>.<genexpr>P  r‰  rŠ  r‹  )r  rŽ  rA   r  ry  r  r   r   r{  r:   rY   rø   rš   r  r¬   r=   r   r‘  s                  r@   r¡   Ú&Wav2Vec2EncoderStableLayerNorm.forward  sƒ  € ö #7™B¸DÐÞ$5™b¸4ÐàÑ%à$2×$<Ñ$<¸RÓ$@×$GÑ$GÈÈ1Èm×NaÑNaÐbcÑNdÓ$eÐ!Ø45ˆMÐ0Ñ1à×/Ñ/ØØó
ˆð
 #×1Ñ1°-Ó@ÐØ%Ñ;ˆØŸ™ ]Ó3ˆä0Ó2×RÔ6LÈTÓ6Rˆà—[”[ˆEÞ#Ø$5Ð8HÑ$HÐ!ô #(§*¢*¨R£.Ðà!Ÿ]™]×ZÐ/BÇ[Á[×EZÑEZÑ/ZˆNÞ!¦[ñ !&Ø!ÐTeñ!ð !.¨aÑ 0æØ ,ç Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÒ#ñ) !ð, Ÿ™¨Ó6ˆæØ 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+Ø+Ø*ñ
ð 	
r?   rD   r›  c                 ór  • Ub³  U R                   R                  S:X  a  SU;   a  UnU$ S nU$ U R                   R                  S:X  a  [        XR                  5      nU$ U R                   R                  S:X  a+  [	        U[
        R                  5      (       a
  [        USS9nU$ [        XR                  5      nU$ r  r¡  r¢  s      r@   r  Ú0Wav2Vec2EncoderStableLayerNorm._update_full_maskX  r¤  r?   r¥  r¦  )r5   r6   r7   r8   r   r¡   r   r:   rH  r  r>   r¥   r¦   s   @r@   r©  r©    sJ   ø† õ	,ð ØØ"Øô<
ð~à˜eŸl™l¨DÐ0Ñ1ðð —|‘|÷ò r?   r©  c                   óJ   ^ • \ rS rSrSrU 4S jr\SS j5       rSS jrSr	U =r
$ )ÚWav2Vec2GumbelVectorQuantizerio  z¥
Vector quantization using gumbel softmax. See `[CATEGORICAL REPARAMETERIZATION WITH
GUMBEL-SOFTMAX](https://huggingface.co/papers/1611.01144) for more information.
c                 ó8  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U R                  -  S:w  a&  [        SUR                   SU R                   S35      e[        R                  " [        R                  " SU R                  U R
                  -  UR                  U R                  -  5      5      U l        [        R                  " UR                  S   U R                  U R
                  -  5      U l        SU l        g )Nr   z`config.codevector_dim z5 must be divisible by `config.num_codevector_groups` z for concatenationr#   rR   r'   )rŒ   r   Únum_codevector_groupsr¶   Únum_codevectors_per_groupÚnum_varsÚcodevector_dimrV   r   Ú	Parameterr:   r;   Úcodevectorsr  rŽ   Úweight_projÚtemperaturer  s     €r@   r   Ú&Wav2Vec2GumbelVectorQuantizer.__init__u  sì   ø€ Ü‰ÑÔØ ×6Ñ6ˆŒØ×8Ñ8ˆŒà× Ñ  4§?¡?Ñ2°aÓ7ÜØ)¨&×*?Ñ*?Ð)@ð A5Ø59·_±_Ð4EÐEWðYóð ô Ÿ<š<Ü×Ò˜a §¡°4·=±=Ñ!@À&×BWÑBWÐ[_×[jÑ[jÑBjÓkó
ˆÔô Ÿ9š9 V§_¡_°RÑ%8¸$¿/¹/ÈDÏMÉMÑ:YÓZˆÔð ˆÕr?   c           	      óÈ  • Ub}  UR                  5       S S 2S S 4   R                  U R                  5      n[        R                  " X [        R
                  " U 5      5      n U R                  SS9UR                  5       -  nOU R                  SS9n[        R                  " [        R                  " U[        R                  " US-   5      -  SS9* 5      R                  5       nU$ )Nr   r  gH¯¼šò×z>rR   )
ÚflattenÚexpandrA   r:   ÚwhereÚ
zeros_liker\   ÚmeanÚexpÚlog)ÚprobsÚmaskÚmask_extendedÚmarginal_probsÚ
perplexitys        r@   Ú_compute_perplexityÚ1Wav2Vec2GumbelVectorQuantizer._compute_perplexity‰  s³   € àÑØ ŸL™L›Nª1¨d°D¨=Ñ9×@Ñ@ÀÇÁÓMˆMÜ—K’K ´e×6FÒ6FÀuÓ6MÓNˆEØ"ŸY™Y¨1˜YÐ-°·±³
Ñ:‰Nà"ŸZ™Z¨A˜ZÐ.ˆNä—Y’Y¤§	¢	¨.¼5¿9º9À^ÐVZÑEZÓ;[Ñ*[ÐacÑ dÐdÓe×iÑiÓkˆ
ØÐr?   c                 óÌ  • UR                   u  p4nU R                  U5      nUR                  X4-  U R                  -  S5      nU R                  (       a˜  [
        R                  R                  UR                  5       U R                  SS9R                  U5      n[        R                  " UR                  X4-  U R                  S5      R                  5       SS9nU R                  Xr5      nO{UR                  SS9n	UR                  UR                   5      R!                  SU	R                  SS5      S5      nUR                  X4-  U R                  S5      nU R                  Xb5      nUR                  X4-  S5      nUR#                  S5      U R$                  -  n
U
R                  X4-  U R                  U R&                  S5      nUR)                  S5      R                  X4S5      nX¸4$ )NrR   T)ÚtauÚhardr  r#   ç      ð?r¯   )rA   r»  r!  r¶   rø   r   r  Úgumbel_softmaxrG  r¼  Útype_asr:   r   rË  ÚargmaxÚ	new_zerosÚscatter_r  rº  r·  r\   )r™   r0   rx   rl   rO   rÈ   Úcodevector_probsÚcodevector_soft_distrÊ  Úcodevector_idxÚcodevectors_per_grouprº  s               r@   r¡   Ú%Wav2Vec2GumbelVectorQuantizer.forward•  sÉ  € Ø3@×3FÑ3FÑ0ˆ
 [ð ×(Ñ(¨Ó7ˆØ%×*Ñ*¨:Ñ+GÈ$Ï/É/Ñ+YÐ[]Ó^ˆà==ä!Ÿ}™}×;Ñ;Ø×#Ñ#Ó%¨4×+;Ñ+;À$ð  <ð  ç‰gmÓ$ð ô
 $)§=¢=Ø×"Ñ" :Ñ#?ÀÇÁÐRTÓU×[Ñ[Ó]Ðceñ$Ð ð ×1Ñ1Ð2FÓZ‰Jð +×1Ñ1°bÐ1Ð9ˆNØ,×6Ñ6°}×7JÑ7JÓK×TÑTØN×'Ñ'¨¨AÓ.°ó Ðð  0×4Ñ4°ZÑ5QÐSW×SbÑSbÐdfÓgÐà×1Ñ1Ð2BÓVˆJà+×0Ñ0°Ñ1MÈrÓRÐà 0× :Ñ :¸2Ó >À×AQÑAQÑ QÐØ+×0Ñ0°Ñ1MÈtÏÉÐ`d×`mÑ`mÐoqÓrˆØ!—o‘o bÓ)×.Ñ.¨zÈBÓOˆàÐ&Ð&r?   )rº  r¶   r·  r¼  r»  rŸ   )r5   r6   r7   r8   r9   r   ÚstaticmethodrË  r¡   r>   r¥   r¦   s   @r@   r³  r³  o  s+   ø† ñõ
ð( ó	ó ð	÷#'ò #'r?   r³  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚWav2Vec2Adapteri»  c                 ó²  >^• [         TU ]  5         TR                  TR                  :w  aV  [        R
                  " TR                  TR                  5      U l        [        R                  " TR                  5      U l        OS =U l        U l        [        R                  " U4S j[        TR                  5       5       5      U l        TR                  U l        g )Nc              3   ó8   >#   • U H  n[        T5      v •  M     g 7frŸ   )ÚWav2Vec2AdapterLayer)r…  rm   rš   s     €r@   r‡  Ú+Wav2Vec2Adapter.__init__.<locals>.<genexpr>Æ  s   øé € Ð#kÑJjÀQÔ$8¸×$@Ð$@ÒJjùs   ƒ)rŒ   r   Úoutput_hidden_sizerÈ   r   r  Úprojr«   Úproj_layer_normré   r^   Únum_adapter_layersr{  r  r  s    `€r@   r   ÚWav2Vec2Adapter.__init__¼  s—   ù€ Ü‰ÑÔð ×$Ñ$¨×(:Ñ(:Ó:ÜŸ	š	 &×"4Ñ"4°f×6OÑ6OÓPˆDŒIÜ#%§<¢<°×0IÑ0IÓ#JˆDÕ à/3Ð3ˆDŒI˜Ô,ä—m’mÔ#kÌ%ÐPV×PiÑPiÔJjÓ#kÓkˆŒØ×)Ñ)ˆr?   c                 ó|  • U R                   b/  U R                  b"  U R                  U5      nU R                  U5      nUR                  SS5      nU R                   HK  n[        R
                  R                  5       nU R                  (       a  X0R                  :”  d  MC  U" U5      nMM     UR                  SS5      nU$ rØ   )rã  rä  r°   r{  rW   rX   rø   r  )r™   r0   ræ   Úlayerdrop_probs       r@   r¡   ÚWav2Vec2Adapter.forwardÉ  s›   € à9‰9Ñ  T×%9Ñ%9Ñ%EØ ŸI™I mÓ4ˆMØ ×0Ñ0°Ó?ˆMà%×/Ñ/°°1Ó5ˆà—[”[ˆEÜŸY™Y×-Ñ-Ó/ˆNØ—=—= ^·n±nÕ%DÙ % mÓ 4’ñ !ð
 &×/Ñ/°°1Ó5ˆØÐr?   )r  r{  rã  rä  r¤   r¦   s   @r@   rÝ  rÝ  »  s   ø† õ*÷ð r?   rÝ  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )rà  iÚ  c                 ó²   >• [         TU ]  5         [        R                  " UR                  SUR                  -  UR
                  UR                  SS9U l        g )Nr'   r#   )rŠ   rÀ   )rŒ   r   r   r‘   râ  Úadapter_kernel_sizeÚadapter_strider•   r  s     €r@   r   ÚWav2Vec2AdapterLayer.__init__Û  sJ   ø€ Ü‰ÑÔÜ—I’IØ×%Ñ%Ø×)Ñ)Ñ)Ø×&Ñ&Ø×(Ñ(Øñ
ˆ	r?   c                 ód   • U R                  U5      n[        R                  R                  USS9nU$ )Nr#   r  )r•   r   r  Úglur    s     r@   r¡   ÚWav2Vec2AdapterLayer.forwardå  s/   € ØŸ	™	 -Ó0ˆÜŸ™×)Ñ)¨-¸QÐ)Ð?ˆàÐr?   )r•   r¤   r¦   s   @r@   rà  rà  Ú  s   ø† õ
÷ð r?   rà  c                   óJ   ^ • \ rS rSrU 4S jrS\R                  4S jrSrU =r	$ )rp  iì  c                 ó¤  >• [         TU ]  5         UR                  U l        UR                  U l        [        R                  " U R
                  5      U l        [        R                  " U R
                  U R                  5      U l
        [        R                  " 5       U l        [        R                  " U R                  U R
                  5      U l        g)z‡
Implements adapter modules directly with 3D tensor weight as parameters and without using ModuleList to speed
up training throughput.
N)rŒ   r   rn  Ú	input_dimrÈ   Ú
hidden_dimr   r«   Únormr  Úlinear_1ÚReLUÚact_fnÚlinear_2r  s     €r@   r   Ú!Wav2Vec2AttnAdapterLayer.__init__í  s   ø€ ô
 	‰ÑÔØ×0Ñ0ˆŒØ ×,Ñ,ˆŒä—L’L §¡Ó1ˆŒ	ÜŸ	š	 $§/¡/°4·>±>ÓBˆŒÜ—g’g“iˆŒÜŸ	š	 $§.¡.°$·/±/ÓBˆr?   r0   c                 óŽ   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ rŸ   )rö  r÷  rù  rú  r    s     r@   r¡   Ú Wav2Vec2AttnAdapterLayer.forwardû  s@   € ØŸ	™	 -Ó0ˆàŸ™ mÓ4ˆØŸ™ MÓ2ˆØŸ™ mÓ4ˆàÐr?   )rù  rõ  rô  r÷  rú  rö  )
r5   r6   r7   r8   r   r:   r;   r¡   r>   r¥   r¦   s   @r@   rp  rp  ì  s    ø† õCð U×%6Ñ%6÷ ò r?   rp  c                   óÄ   • \ rS rSr% \\S'   SrSrSrSr	Sr
SrS r SS\\R                  \4   S	\\   4S
 jjr SS\S\R                  4S jjrS rS rSS\4S jjrSrg)ÚWav2Vec2PreTrainedModeli  rš   Úwav2vec2rù   Tc           
      ót  • [        U[        5      (       aW  UR                  R                  5         UR                  R                  5         SUR                  l        SUR                  l        g[        U[        5      (       a†  UR                  R                  R                  R                  SSS9  UR                  R                  R                  R                  5         [        R                  R                  UR                   5        g[        U["        5      (       a°  [        R                  R                  UR$                  R                  SS[&        R(                  " SUR$                  R*                  S   UR$                  R,                  -  -  5      -  S9  [        R                  R/                  UR$                  R                  S5        g[        U[0        5      (       a–  [&        R(                  " SUR2                  R4                  -  5      n[        R                  R                  UR2                  R                  U* US9  [        R                  R                  UR2                  R                  U* US9  g[        U[        R6                  5      (       ak  UR                  R                  R                  SU R8                  R:                  S9  UR                  b%  UR                  R                  R                  5         gg[        U[        R<                  [        R>                  45      (       aJ  UR                  R                  R                  5         UR                  R                  RA                  S	5        g[        U[        RB                  5      (       aŸ  [        R                  RE                  UR                  5        UR                  bh  [&        R(                  " URF                  UR,                  UR*                  S   -  -  5      n[        R                  R                  UR                  U* US9  ggg)
zInitialize the weightsTr9  r#   )rÃ  Ústdr   r'   )ÚaÚbNrÐ  )$rP  ÚWav2Vec2ForPreTrainingÚproject_hidÚreset_parametersÚ	project_qÚ_is_hf_initializedr³  r»  rÄ   ÚdataÚnormal_r‹   Úzero_r   ÚinitÚuniform_rº  r¾   r•   ÚmathÚsqrtr‰   Úin_channelsÚ	constant_r  r  Úin_featuresr  rš   Úinitializer_ranger«   r¹   Úfill_r‘   Úkaiming_normal_rÁ   )r™   r  Úks      r@   Ú_init_weightsÚ%Wav2Vec2PreTrainedModel._init_weights  sê  € ô fÔ4×5Ñ5Ø×Ñ×/Ñ/Ô1Ø×Ñ×-Ñ-Ô/Ø48ˆF×ÑÔ1Ø26ˆF×ÑÕ/ä˜Ô =×>Ñ>Ø×Ñ×%Ñ%×*Ñ*×2Ñ2¸ÀÐ2ÑCØ×Ñ×#Ñ#×(Ñ(×.Ñ.Ô0ÜG‰G×Ñ˜V×/Ñ/Õ0Ü˜Ô ?×@Ñ@ÜG‰GO‰OØ—‘×"Ñ"ØØœŸ	š	 ! v§{¡{×'>Ñ'>¸qÑ'AÀFÇKÁK×D[ÑD[Ñ'[Ñ"\Ó]Ñ]ð ñ ô
 G‰G×Ñ˜fŸk™k×.Ñ.°Õ2Ü˜Ô 9×:Ñ:Ü—	’	˜!˜f×/Ñ/×;Ñ;Ñ;Ó<ˆAÜG‰G×Ñ˜V×.Ñ.×5Ñ5¸!¸¸qÐÑAÜG‰G×Ñ˜V×.Ñ.×3Ñ3¸°r¸QÐÒ?Ü˜¤§	¡	×*Ñ*ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSà{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡¬r¯|©|Ð <×=Ñ=ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤§	¡	×*Ñ*ÜG‰G×#Ñ# F§M¡MÔ2à{‰{Ñ&Ü—I’I˜fŸm™m¨v×/AÑ/AÀF×DVÑDVÐWXÑDYÑ/YÑZÓ[Ü—‘× Ñ  §¡°°°aÐ Ò8ð 'ð +r?   Nrn   Úadd_adapterc                 ód  • Uc  U R                   R                  OUnS n[        U R                   R                  U R                   R                  5       H  u  pEU" XU5      nM     U(       aD  [        U R                   R                  5       H!  nU" USU R                   R                  5      nM#     U$ )z8
Computes the output length of the convolutional layers
c                 ó8   • [         R                  " X-
  USS9S-   $ )NÚfloor)Úrounding_moder#   )r:   Údiv©rL   r‰   rŠ   s      r@   Ú_conv_out_lengthÚRWav2Vec2PreTrainedModel._get_feat_extract_output_lengths.<locals>._conv_out_length?  s    € ô —9’9˜\Ñ7¸ÈwÑWÐZ[Ñ[Ð[r?   r#   )rš   r  Úzipr’   r“   r^   rå  rí  )r™   rn   r  r!  r‰   rŠ   rm   s          r@   Ú _get_feat_extract_output_lengthsÚ8Wav2Vec2PreTrainedModel._get_feat_extract_output_lengths6  s•   € ð 2=Ñ1Dd—k‘k×-Ò-È+ˆò	\ô
 $' t§{¡{×'>Ñ'>ÀÇÁ×@WÑ@WÖ#XÑˆKÙ,¨]ÈÓPŠMñ $Yö Ü˜4Ÿ;™;×9Ñ9Ö:Ù 0°ÀÀ4Ç;Á;×C]ÑC]Ó ^’ñ ;ð Ðr?   Úfeature_vector_lengthrD   c                 óè  • UR                  SS9S S 2S4   nU R                  XCS9nUR                  [        R                  5      nUR
                  S   n[        R                  " Xa4UR                  UR                  S9nSU[        R                  " UR
                  S   UR                  S9US-
  4'   UR                  S/5      R                  S5      R                  S/5      R                  5       nU$ )NrR   r  ©r  r   )rT   Údevicer#   )r)  )Úcumsumr$  Útor:   ÚlongrA   r_   rT   r)  rb   Úflipr`   )r™   r&  rD   r  Únon_padded_lengthsÚoutput_lengthsrl   s          r@   Ú"_get_feature_vector_attention_maskÚ:Wav2Vec2PreTrainedModel._get_feature_vector_attention_maskM  sí   € ð
 ,×2Ñ2°rÐ2Ð:º1¸b¸5ÑAÐà×>Ñ>Ð?QÐ>ÐkˆØ'×*Ñ*¬5¯:©:Ó6ˆà#×)Ñ)¨!Ñ,ˆ
äŸšØÐ/°~×7KÑ7KÐTb×TiÑTiñ
ˆð uvˆœŸš ^×%9Ñ%9¸!Ñ%<À^×EZÑEZÑ[Ð]kÐnoÑ]oÐpÑqØ'×,Ñ,¨b¨TÓ2×9Ñ9¸"Ó=×BÑBÀBÀ4ÓH×MÑMÓOˆØÐr?   c                 ó¼  • U R                   R                  c  [        U R                   S35      e0 nU R	                  5        HI  u  p#[        U[        5      (       d  M  UR                  5        H  u  pEXQSR                  X$/5      '   M     MK     [        U [        5      (       a8  U R                  R                  5        H  u  p%XQSR                  SU/5      '   M     U$ )NzF has no adapter layers. Make sure to define `config.adapter_attn_dim`.Ú.Úlm_head)rš   rn  rV   rœ   Únamed_modulesrP  rp  Únamed_parametersÚjoinÚWav2Vec2ForCTCr4  )r™   Úadapter_weightsrÅ   r  Ú
param_namerô   s         r@   Ú_get_adaptersÚ%Wav2Vec2PreTrainedModel._get_adaptersa  sÃ   € Ø;‰;×'Ñ'Ñ/Ü §¡Ð/Ð/uÐvÓwÐwàˆØ ×.Ñ.Ö0‰LˆDÜ˜&Ô":×;Ó;Ø)/×)@Ñ)@Ö)BÑ%JØDI C§H¡H¨dÐ-?Ó$@ÓAó *Cñ 1ô
 dœN×+Ñ+Ø#Ÿ|™|×<Ñ<Ö>‘Ø?D §¡¨)°TÐ):Ó ;Ó<ñ  ?ð Ðr?   c                 óä   • U R                  5        H+  n[        U[        5      (       d  M  U R                  U5        M-     [        U [        5      (       a  U R                  U R
                  5        gg)zS
(Re-)initialize attention adapter layers and lm head for adapter-only fine-tuning
N)ÚmodulesrP  rp  r  r8  r4  )r™   r  s     r@   Úinit_adapter_layersÚ+Wav2Vec2PreTrainedModel.init_adapter_layersq  sV   € ð
 —l‘l–nˆFÜ˜&Ô":×;Ó;Ø×"Ñ" 6Ö*ñ %ô
 dœN×+Ñ+Ø×Ñ˜tŸ|™|Õ,ð ,r?   Útarget_langc                 óè  • U R                   R                  c  [        SU S35      eXR                  :X  a!  U(       d  [        R                  SU S35        gUR                  SS5      nUR                  SS5      nUR                  S	S5      nUR                  S
S5      nUR                  SS5      nUR                  SS5      n	UR                  SS5      n
UR                  SS5      nUR                  S[        5       (       a  SOS5      nU
b+  [        R                  " S[        5        U	b  [        S5      eU
n	U R                   R                  nSnUSLa2  [        R                  U5      n [        UUUUUUU	UUS9	n[        U5      nUcG  [$        R                  U5      n [        UUUUUUU	UUS9	n['        5         [(        R*                  " USSS9nU R-                  5       n[/        UR1                  5       5      [/        UR1                  5       5      -
  n[/        UR1                  5       5      [/        UR1                  5       5      -
  n[3        U5      S:”  a!  [        SW SSR5                  U5       S35      e[3        U5      S:”  a!  [        SW SSR5                  U5       S35      eUS   R6                  S   nUU R                   R8                  :w  aU  [:        R<                  " U R                   R>                  UU R@                  U RB                  S9U l"        UU R                   l        URG                  5        VVs0 sH  u  nnUURI                  UU   5      _M     nnnU RK                  USS 9  Xl        g! [          a    U(       a  e  GN["         a     U(       a  [!        SU SU SU S35      e GN,f = f! [          a    e [         a    e ["         a    [!        SU SU SU S35      ef = fs  snnf )!a/  
Load a language adapter model from a pre-trained adapter model.

Parameters:
    target_lang (`str`):
        Has to be a language id of an existing adapter weight. Adapter weights are stored in the format
        adapter.<lang>.safetensors or adapter.<lang>.bin
    force_load (`bool`, defaults to `True`):
        Whether the weights shall be loaded even if `target_lang` matches `self.target_lang`.
    cache_dir (`Union[str, os.PathLike]`, *optional*):
        Path to a directory in which a downloaded pretrained model configuration should be cached if the
        standard cache should not be used.
    force_download (`bool`, *optional*, defaults to `False`):
        Whether or not to force the (re-)download of the model weights and configuration files, overriding the
        cached versions if they exist.
    resume_download:
        Deprecated and ignored. All downloads are now resumed by default when possible.
        Will be removed in v5 of Transformers.
    proxies (`dict[str, str]`, *optional*):
        A dictionary of proxy servers to use by protocol or endpoint, e.g., `{'http': 'foo.bar:3128',
        'http://hostname': 'foo.bar:4012'}`. The proxies are used on each request.
    local_files_only(`bool`, *optional*, defaults to `False`):
        Whether or not to only look at local files (i.e., do not try to download the model).
    token (`str` or `bool`, *optional*):
        The token to use as HTTP bearer authorization for remote files. If `True`, or not specified, will use
        the token generated when running `hf auth login` (stored in `~/.huggingface`).
    revision (`str`, *optional*, defaults to `"main"`):
        The specific model version to use. It can be a branch name, a tag name, or a commit id, since we use a
        git-based system for storing models and other artifacts on huggingface.co, so `revision` can be any
        identifier allowed by git.

        <Tip>

        To test a pull request you made on the Hub, you can pass `revision="refs/pr/<pr_number>"`.

        </Tip>

    mirror (`str`, *optional*):
        Mirror source to accelerate downloads in China. If you are from China and have an accessibility
        problem, you can set this option to resolve it. Note that we do not guarantee the timeliness or safety.
        Please refer to the mirror site for more information.

<Tip>

Activate the special ["offline-mode"](https://huggingface.co/transformers/installation.html#offline-mode) to
use this method in a firewalled environment.

</Tip>

Examples:

```python
>>> from transformers import Wav2Vec2ForCTC, AutoProcessor

>>> ckpt = "facebook/mms-1b-all"
>>> processor = AutoProcessor.from_pretrained(ckpt)
>>> model = Wav2Vec2ForCTC.from_pretrained(ckpt, target_lang="eng")
>>> # set specific language
>>> processor.tokenizer.set_target_lang("spa")
>>> model.load_adapter("spa")
```
NzCannot load_adapter for ú- if `config.adapter_attn_dim` is not defined.z#Adapter weights are already set to r3  Ú	cache_dirÚforce_downloadFÚresume_downloadÚproxiesÚlocal_files_onlyÚtokenÚuse_auth_tokenÚrevisionÚuse_safetensorszrThe `use_auth_token` argument is deprecated and will be removed in v5 of Transformers. Please use `token` instead.zV`token` and `use_auth_token` are both specified. Please set only the argument `token`.)ÚfilenamerE  rF  rG  rH  rI  rK  rD  zCan't load the model for 'zœ'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure 'z=' is the correct path to a directory containing a file named ÚcpuT)Úmap_locationÚweights_onlyr   zThe adapter weights z has unexpected keys: z, z has missing keys: zlm_head.weight©r)  rT   )Ústrict)&rš   rn  rV   rA  ÚloggerÚwarningÚpopr    rÿ   r   r  Ú_name_or_pathÚWAV2VEC2_ADAPTER_SAFE_FILEÚformatr   Úsafe_load_fileÚOSErrorÚ	ExceptionÚWAV2VEC2_ADAPTER_PT_FILEr   r:   Úloadr;  ÚsetÚkeysrc   r7  rA   Ú
vocab_sizer   r  râ  r)  rT   r4  Úitemsr+  Úload_state_dict)r™   rA  Ú
force_loadr#  rD  rE  rF  rG  rH  rI  rJ  rK  rL  Úmodel_path_or_idÚ
state_dictÚfilepathÚweight_pathr9  Úunexpected_keysÚmissing_keysÚtarget_vocab_sizer  r†  s                          r@   Úload_adapterÚ$Wav2Vec2PreTrainedModel.load_adapter~  sA  € ð~ ;‰;×'Ñ'Ñ/ÜÐ7¸°}ÐDqÐrÓsÐsà×*Ñ*Ó*¶:ÜN‰NÐ@ÀÀÈQÐOÔPØà—J‘J˜{¨DÓ1ˆ	ØŸ™Ð$4°eÓ<ˆØ Ÿ*™*Ð%6¸Ó=ˆØ—*‘*˜Y¨Ó-ˆØ!Ÿ:™:Ð&8¸%Ó@ÐØ—
‘
˜7 DÓ)ˆØŸ™Ð$4°dÓ;ˆØ—:‘:˜j¨$Ó/ˆØ Ÿ*™*Ð%6Ô@X×@ZÑ@Z¹Ð`eÓfˆàÑ%ÜMŠMð EÜôð Ñ Ü Ølóð ð #ˆEàŸ;™;×4Ñ4ÐØˆ
ð  %Ò'Ü1×8Ñ8¸ÓEˆHðÜ)Ø$Ø%Ø#1Ø$3Ø#Ø%5ØØ%Ø'ñ
ô ,¨KÓ8
ð& ÑÜ/×6Ñ6°{ÓCˆHð#Ü)Ø$Ø%Ø#1Ø$3Ø#Ø%5ØØ%Ø'ñ
ô )Ô*Ü"ŸZšZØØ!&Ø!%ñ
ð. ×,Ñ,Ó.ˆÜ˜jŸo™oÓ/Ó0´3°×7KÑ7KÓ7MÓ3NÑNˆÜ˜?×/Ñ/Ó1Ó2´S¸¿¹Ó9JÓ5KÑKˆäˆÓ !Ó#ÜÐ3°K°=Ð@VÐW[×W`ÑW`ÐapÓWqÐVrÐrsÐtÓuÐuÜÓ Ó"ÜÐ3°K°=Ð@SÐTX×T]ÑT]Ð^jÓTkÐSlÐlmÐnÓoÐoð 'Ð'7Ñ8×>Ñ>¸qÑAÐØ §¡× 6Ñ 6Ó6ÜŸ9š9Ø—‘×.Ñ.Ð0AÈ$Ï+É+Ð]a×]gÑ]gñˆDŒLð &7ˆDK‰KÔ"ð ?I×>NÑ>NÔ>PÔQÑ>P±d°a¸a˜Ÿ™˜o¨aÑ0Ó1Ò1Ñ>Pˆ
ÑQØ×Ñ˜Z°ÐÑ6ð 'Õøô_ ó Þ"ð ò #ô
 ó æ"Ü!Ø4Ð5EÐ4Fð G=à=MÐ<Nð O>Ø>F¸ZÀqðJóð ò #ðûôD ó ð äó Øäó äØ0Ð1AÐ0Bð C9à9IÐ8Jð K:Ø:B¸À1ðFóð ðüó6 Rs*   Å+M6 Æ 1N7 Ì;!O.Í6N4Î%N4Î3N4Î74O+)r4  rA  rŸ   )T)r5   r6   r7   r8   r$   r<   Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnr  r   r:   Ú
LongTensorrJ   r   r`   r$  r0  r;  r?  rR  rk  r>   r4   r?   r@   rÿ  rÿ    s¡   ‡ àÓØ"ÐØ$€OØ&*Ð#ØÐØ€NØÐò%9ðP Z^ñØ" 5×#3Ñ#3°SÐ#8Ñ9ðØHPÐQUÉõð0 Y]ñØ%(ðØ:?×:JÑ:Jõò(ò -ñ@'¨÷ @'ð @'r?   rÿ  c                   óJ  ^ • \ rS rSrS\4U 4S jjrS rS r  SS\R                  S\
\R                     S\
\R                     4S	 jjr\     SS
\
\R                     S\
\R                     S\
\R                     S\
\   S\
\   S\
\   S\\\4   4S jj5       rSrU =r$ )ÚWav2Vec2ModeliA  rš   c                 ó  >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        UR                  S:”  d  UR                  S:”  aG  [        R                  " [        R                  " UR                  5      R                  5       5      U l        UR                   (       a  [#        U5      U l        O['        U5      U l        UR(                  (       a  [+        U5      OS U l        U R/                  5         g )Nr9  )rŒ   r   rš   rã   Úfeature_extractorr  Úfeature_projectionÚmask_time_probÚmask_feature_probr   r¹  r:   rH  rÈ   r  Úmasked_spec_embedÚdo_stable_layer_normr©  Úencoderrv  r  rÝ  ÚadapterÚ	post_initr  s     €r@   r   ÚWav2Vec2Model.__init__C  s¸   ø€ Ü‰Ñ˜Ô ØŒÜ!7¸Ó!?ˆÔÜ";¸FÓ"CˆÔð × Ñ  3Ó&¨&×*BÑ*BÀSÓ*HÜ%'§\¢\´%·,²,¸v×?QÑ?QÓ2R×2[Ñ2[Ó2]Ó%^ˆDÔ"à×&×&Ü9¸&ÓAˆDLä*¨6Ó2ˆDŒLà28×2D×2D” vÔ.È$ˆŒð 	‰Õr?   c                 óZ   • [         R                  " S[        5        U R                  5         g©z‘
Calling this function will disable the gradient computation for the feature encoder so that its parameters will
not be updated during training.
úžThe method `freeze_feature_extractor` is deprecated and will be removed in Transformers v5. Please use the equivalent `freeze_feature_encoder` method instead.N©rÿ   r   r  Úfreeze_feature_encoder©r™   s    r@   Úfreeze_feature_extractorÚ&Wav2Vec2Model.freeze_feature_extractorW  ó'   € ô
 	ŠðQäô	
ð
 	×#Ñ#Õ%r?   c                 ó8   • U R                   R                  5         g©ú
Calling this function will disable the gradient computation for the feature encoder so that its parameter will
not be updated during training.
N)rw  rõ   r†  s    r@   r…  Ú$Wav2Vec2Model.freeze_feature_encoderc  s   € ð
 	×Ñ×1Ñ1Õ3r?   r0   rx   rD   c                 óÎ  • [        U R                  SS5      (       d  U$ UR                  5       u  pEnUb(  U R                  R	                  UR
                  5      X'   OÉU R                  R                  S:”  a¯  U R                  (       až  [        XE4U R                  R                  U R                  R                  UU R                  R                  S9n[        R                  " X!R                  [        R                  S9nU R                  R	                  UR
                  5      X'   U R                  R                  S:”  a¥  U R                  (       a”  [        XF4U R                  R                  U R                  R                   U R                  R"                  S9n[        R                  " XqR                  [        R                  S9nUSS2S4   R%                  SUS5      nSX'   U$ )	zŠ
Masks extracted features along time axis and/or along feature axis according to
[SpecAugment](https://huggingface.co/papers/1904.08779).
Úapply_spec_augmentTNr   )rB   rC   rD   rE   rQ  )rB   rC   rE   rR   )ro  rš   rz   r{  r+  rT   ry  rø   ru   Úmask_time_lengthÚmask_time_min_masksr:   r§  r)  r`   rz  Úmask_feature_lengthÚmask_feature_min_masksrÀ  )r™   r0   rx   rD   rl   rO   rÈ   Úmask_feature_indicess           r@   Ú_mask_hidden_statesÚ!Wav2Vec2Model._mask_hidden_statesj  sŠ  € ô t—{‘{Ð$8¸$×?Ñ?Ø Ð ð 4A×3EÑ3EÓ3GÑ0ˆ
 [àÑ(à/3×/EÑ/E×/HÑ/HÈ×I\ÑI\Ó/]ˆMÒ,Ø[‰[×'Ñ'¨!Ó+°··Ü 5ØÐ-ØŸ+™+×4Ñ4Ø ŸK™K×8Ñ8Ø-ØŸ+™+×9Ñ9ñ!Ðô !&§¢Ð->×G[ÑG[Ôch×cmÑcmÑ nÐØ/3×/EÑ/E×/HÑ/HÈ×I\ÑI\Ó/]ˆMÑ,à;‰;×(Ñ(¨1Ó,°··ä#8ØÐ)ØŸ+™+×7Ñ7Ø ŸK™K×;Ñ;ØŸ+™+×<Ñ<ñ	$Ð ô $)§<¢<Ð0D×MaÑMaÔin×isÑisÑ#tÐ Ø#7º¸4¸Ñ#@×#GÑ#GÈÈOÐ]_Ó#`Ð Ø23ˆMÑ/àÐr?   rù   r6  r  r€  rF   c                 ó>  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  U5      nUR                  SS5      nUb  U R                  UR                  S   USS9nU R                  U5      u  p‡U R                  XƒUS9nU R                  UUUUUS9n	U	S   nU R                  b  U R                  U5      nU(       d	  X‡4U	SS -   $ [        UUU	R                  U	R                  S	9$ )
a  
mask_time_indices (`torch.BoolTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Indices to mask extracted features for contrastive loss. When in training mode, model learns to predict
    masked extracted features in *config.proj_codevector_dim* space.
Nr#   r'   Fr(  )rx   rD   ©rD   r6  r  r€  r   )rŒ  Úextract_featuresr0   r1   )rš   r6  r  Úuse_return_dictrw  r°   r0  rA   rx  r•  r}  r~  r   r0   r1   )
r™   rù   rD   rx   r6  r  r€  r™  r0   Úencoder_outputss
             r@   r¡   ÚWav2Vec2Model.forward˜  sY  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×1Ñ1°,Ó?ÐØ+×5Ñ5°a¸Ó;ÐàÑ%à!×DÑDØ ×&Ñ& qÑ)¨>Àuð Eð ˆNð +/×*AÑ*AÐBRÓ*SÑ'ˆØ×0Ñ0ØÈ~ð 1ð 
ˆð Ÿ,™,ØØ)Ø/Ø!5Ø#ð 'ð 
ˆð (¨Ñ*ˆà<‰<Ñ#Ø ŸL™L¨Ó7ˆMæØ!Ð4°ÀqÀrÐ7JÑJÐJä&Ø+Ø-Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r?   )r~  rš   r}  rw  rx  r{  r‚  ©NNNNN)r5   r6   r7   r8   r$   r   r‡  r…  r:   r;   r   rs  r•  r   rH  r`   r   r=   r   r¡   r>   r¥   r¦   s   @r@   ru  ru  A  sü   ø† ð˜~÷ ò(
&ò4ð :>Ø59ñ	,à×(Ñ(ð,ð $ E×$5Ñ$5Ñ6ð,ð ! ×!1Ñ!1Ñ2õ	,ð\ ð 26Ø9=Ø,0Ø/3Ø&*ñ7
à˜uŸ|™|Ñ,ð7
ð ! §¡Ñ.ð7
ð $ E×$5Ñ$5Ñ6ð	7
ð
 $ D™>ð7
ð ' t™nð7
ð ˜d‘^ð7
ð 
ˆuÐ-Ð-Ñ	.ô7
ó ö7
r?   ru  z?
    Wav2Vec2 Model with a quantizer and `VQ` head on top.
    c                   óx  ^ • \ rS rSrS\4U 4S jjrS\4S jrS rS r	\
 SS\R                  S	\R                  S
\R                  S\4S jj5       r\      SS\\R                      S\\R                      S\\R"                     S\\R"                     S\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )r  iÓ  rš   c                 óŽ  >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  5      U l        [        U5      U l	        [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  5      U l        U R!                  5         g rŸ   )rŒ   r   ru  r   r   r  Úfeat_quantizer_dropoutÚdropout_featuresr³  Ú	quantizerr  rÈ   Úproj_codevector_dimr  r¸  r  r  r  s     €r@   r   ÚWav2Vec2ForPreTraining.__init__Ù  sˆ   ø€ Ü‰Ñ˜Ô Ü% fÓ-ˆŒÜ "§
¢
¨6×+HÑ+HÓ IˆÔä6°vÓ>ˆŒäŸ9š9 V×%7Ñ%7¸×9SÑ9SÓTˆÔÜŸš 6×#8Ñ#8¸&×:TÑ:TÓUˆŒð 	‰Õr?   r¼  c                 ó$   • XR                   l        g)zR
Set the Gumbel softmax temperature to a given value. Only necessary for training
N)r¢  r¼  )r™   r¼  s     r@   Úset_gumbel_temperatureÚ-Wav2Vec2ForPreTraining.set_gumbel_temperatureæ  s   € ð &1‰Õ"r?   c                 óZ   • [         R                  " S[        5        U R                  5         gr‚  r„  r†  s    r@   r‡  Ú/Wav2Vec2ForPreTraining.freeze_feature_extractorì  r‰  r?   c                 óL   • U R                   R                  R                  5         gr‹  ©r   rw  rõ   r†  s    r@   r…  Ú-Wav2Vec2ForPreTraining.freeze_feature_encoderø  ó   € ð
 	‰×'Ñ'×:Ñ:Õ<r?   Útarget_featuresÚnegative_featuresÚpredicted_featuresc                 ó¼   • [         R                  " X/SS9n [         R                  " UR                  5       U R                  5       SS9R	                  U 5      nXC-  nU$ )zÑ
Compute logits for contrastive loss based using cosine similarity as the distance measure between
`[positive_feature, negative_features]` and `[predicted_features]`. Additionally, temperature can be applied.
r   r  rR   )r:   ÚcatÚcosine_similarityrG  rÒ  )r®  r¯  r°  r¼  Úlogitss        r@   Úcompute_contrastive_logitsÚ1Wav2Vec2ForPreTraining.compute_contrastive_logitsÿ  s\   € ô  Ÿ)š) _Ð$HÈaÑPˆä×(Ò(Ð);×)AÑ)AÓ)CÀ_×EZÑEZÓE\ÐbdÑe×mÑmØó
ˆð
 Ñ%ˆØˆr?   rù   rD   rx   r~   r6  r  r€  rF   c                 óö  • Ub  UOU R                   R                  nUb  UR                  [        R                  5      nU R                  UUUUUUS9nU R                  US   5      n	U R                  US   5      n
Ub  U R                  U
R                  S   USS9nU R                  X£S9u  p¼UR                  U R                  R                  R                  5      nU R                  U5      nS=n=pïUGbÄ  UR                  u  nnnUR                  SU5      UR                  5       R                  S5         nUR                  UUSU5      R!                  S	SSS
5      nU R#                  USSS24   UU	U R                   R$                  5      nUU:H  R'                  S5      nUR)                  5       (       a  [+        S5      USS U'   UR-                  SS	5      R/                  SUR1                  S5      5      nSUR                  5       -
  S-  R-                  SS5      R3                  5       n[4        R6                  R9                  UR+                  5       USS9nU R                   R:                  U R                   R<                  -  nUU-
  U-  UR?                  5       -  nXàR                   R@                  U-  -   nU(       d  Ub
  XÙX¼4US	S -   $ X›U4US	S -   $ [C        UU	UUURD                  URF                  UUS9$ )aE
  
mask_time_indices (`torch.BoolTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Indices to mask extracted features for contrastive loss. When in training mode, model learns to predict
    masked extracted features in *config.proj_codevector_dim* space.
sampled_negative_indices (`torch.BoolTensor` of shape `(batch_size, sequence_length, num_negatives)`, *optional*):
    Indices indicating which quantized target vectors are used as negative sampled vectors in contrastive loss.
    Required input for pre-training.

Example:

```python
>>> import torch
>>> from transformers import AutoFeatureExtractor, Wav2Vec2ForPreTraining
>>> from transformers.models.wav2vec2.modeling_wav2vec2 import _compute_mask_indices, _sample_negative_indices
>>> from datasets import load_dataset

>>> feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/wav2vec2-base")
>>> model = Wav2Vec2ForPreTraining.from_pretrained("facebook/wav2vec2-base")

>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> input_values = feature_extractor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # Batch size 1

>>> # compute masked indices
>>> batch_size, raw_sequence_length = input_values.shape
>>> sequence_length = model._get_feat_extract_output_lengths(raw_sequence_length).item()
>>> mask_time_indices = _compute_mask_indices(
...     shape=(batch_size, sequence_length), mask_prob=0.2, mask_length=2
... )
>>> sampled_negative_indices = _sample_negative_indices(
...     features_shape=(batch_size, sequence_length),
...     num_negatives=model.config.num_negatives,
...     mask_time_indices=mask_time_indices,
... )
>>> mask_time_indices = torch.tensor(data=mask_time_indices, device=input_values.device, dtype=torch.long)
>>> sampled_negative_indices = torch.tensor(
...     data=sampled_negative_indices, device=input_values.device, dtype=torch.long
... )

>>> with torch.no_grad():
...     outputs = model(input_values, mask_time_indices=mask_time_indices)

>>> # compute cosine similarity between predicted (=projected_states) and target (=projected_quantized_states)
>>> cosine_sim = torch.cosine_similarity(outputs.projected_states, outputs.projected_quantized_states, dim=-1)

>>> # show that cosine similarity is much higher than random
>>> cosine_sim[mask_time_indices.to(torch.bool)].mean() > 0.5
tensor(True)

>>> # for contrastive loss training model should be put into train mode
>>> model = model.train()
>>> loss = model(
...     input_values, mask_time_indices=mask_time_indices, sampled_negative_indices=sampled_negative_indices
... ).loss
```N)rD   r6  r  rx   r€  r   r#   Fr(  )rx   rR   r'   r	   z-infiœÿÿÿr\   )Ú	reduction)r,   r-   r.   r/   r0   r1   r2   r3   )$rš   rš  r+  r:   r`   r   r  r¡  r0  rA   r¢  r  rÄ   rT   r!  r,  Úpermuterµ  Úcontrastive_logits_temperatureÚallÚanyrG  r°   rj   rz   r¿  r   r  Úcross_entropyr¶  rµ  r\   Údiversity_loss_weightr*   r0   r1   )r™   rù   rD   rx   r~   r6  r  r€  ri  Útransformer_featuresr™  Úquantized_featuresr/   r,   r2   r3   rl   rO   rÈ   Únegative_quantized_featuresr´  Ú
neg_is_posÚtargetÚnum_codevectorss                           r@   r¡   ÚWav2Vec2ForPreTraining.forward  s9  € ðD &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ(Ø 1× 4Ñ 4´U·Z±ZÓ @Ðà—-‘-ØØ)Ø/Ø!5Ø/Ø#ð  ð 
ˆð  $×/Ñ/°¸±
Ó;Ðð  ×0Ñ0°¸±Ó<ÐàÑ%à!×DÑDØ ×&Ñ& qÑ)¨>Àuð Eð ˆNð 59·N±NØð 5Cð 5
Ñ1Ðð 0×2Ñ2°4·>±>×3HÑ3H×3NÑ3NÓOÐØ!Ÿ^™^Ð,>Ó?Ðà37Ð7ˆÐ7ÐØ#Ò/Ø7I×7OÑ7OÑ4ˆJ˜¨ð +=×*AÑ*AÀ"ÀkÓ*RØ(×-Ñ-Ó/×4Ñ4°RÓ8ñ+Ð'ð +F×*JÑ*JØ˜O¨R°ó+ç‰ga˜˜A˜qÓ!ð (ð ×4Ñ4Ø" 4ª 7Ñ+Ø+Ø$Ø—‘×:Ñ:ó	ˆFð -Ð0KÑK×PÑPÐQSÓTˆJà~‰~×ÑÜ).¨v«qr
˜:Ñ&ð ×%Ñ% a¨Ó+×3Ñ3°B¸¿¹ÀA»ÓGˆFØÐ,×1Ñ1Ó3Ñ3°tÑ;×FÑFÀqÈ!ÓL×TÑTÓVˆFä!Ÿ}™}×:Ñ:¸6¿<¹<»>È6Ð]bÐ:ÐcÐà"Ÿk™k×CÑCÀdÇkÁk×FgÑFgÑgˆOØ.Ð1FÑFÈ/ÑYÐ]n×]rÑ]rÓ]tÑtˆNð $§k¡k×&GÑ&GÈ.Ñ&XÑXˆDæØÑØÐ4FÐ^ÐahÐijÐikÐalÑlÐlØ(Ð>SÐTÐW^Ð_`Ð_aÐWbÑbÐbä+ØØ1Ø'9Ø"7Ø!×/Ñ/Ø×)Ñ)Ø-Ø)ñ	
ð 		
r?   )r¡  r  r  r¢  r   )gš™™™™™¹?)NNNNNN)r5   r6   r7   r8   r$   r   rJ   r¦  r‡  r…  rÛ  r:   r;   rµ  r   r   rH  Ú
BoolTensorr`   r   r=   r*   r¡   r>   r¥   r¦   s   @r@   r  r  Ó  s3  ø† ð˜~÷ ð1°#ô 1ò
&ò=ð ð
 ñ	Ø×*Ñ*ðà ×,Ñ,ðð "×-Ñ-ðð ô	ó ðð( ð 26Ø8<Ø?CØ,0Ø/3Ø&*ñ\
à˜uŸ|™|Ñ,ð\
ð ! §¡Ñ.ð\
ð $ E×$4Ñ$4Ñ5ð	\
ð
 #+¨5×+;Ñ+;Ñ"<ð\
ð $ D™>ð\
ð ' t™nð\
ð ˜d‘^ð\
ð 
ˆuÐ2Ð2Ñ	3ô\
ó ö\
r?   r  c                   óÊ   ^ • \ rS rSrU 4S jr\     SS\R                  S\\R                     S\\
   S\\
   S\\
   S\\R                     S	\\\4   4S
 jj5       rSrU =r$ )ÚWav2Vec2ForMaskedLMi´  c                 óD  >• [         TU ]  U5        [        R                  " S[        5        [        U5      U l        [        R                  " UR                  5      U l
        [        R                  " UR                  UR                  5      U l        U R                  5         g )NzSThe class `Wav2Vec2ForMaskedLM` is deprecated. Please use `Wav2Vec2ForCTC` instead.)rŒ   r   rÿ   r   r  ru  r   r   r  Úfinal_dropoutr  r  rÈ   r`  r4  r  r  s     €r@   r   ÚWav2Vec2ForMaskedLM.__init__¶  sp   ø€ Ü‰Ñ˜Ô äŠØaÔcpô	
ô & fÓ-ˆŒÜ—z’z &×"6Ñ"6Ó7ˆŒÜ—y’y ×!3Ñ!3°V×5FÑ5FÓGˆŒð 	‰Õr?   rù   rD   r6  r  r€  ÚlabelsrF   c                 ó
  • Ub  UOU R                   R                  nU R                  UUUUS9nUS   nU R                  U5      nU R	                  U5      n	U(       d  U	4USS  -   n
U
$ [        X—R                  UR                  S9$ )N)r6  r  r€  r   r'   )r´  r0   r1   )rš   rš  r   r  r4  r   r0   r1   )r™   rù   rD   r6  r  r€  rÌ  ri  r0   r´  Úoutputs              r@   r¡   ÚWav2Vec2ForMaskedLM.forwardÄ  s”   € ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—-‘-ØØ/Ø!5Ø#ð	  ð 
ˆð   ™
ˆØŸ™ ]Ó3ˆØ—‘˜mÓ,ˆæØY ¨¨ Ñ,ˆFØˆMä V×;PÑ;PÐ]d×]oÑ]oÑpÐpr?   )r  r4  r   r  )r5   r6   r7   r8   r   r   r:   r;   r   rs  r`   rH  r   r=   r   r¡   r>   r¥   r¦   s   @r@   rÈ  rÈ  ´  sª   ø† õð ð 6:Ø,0Ø/3Ø&*Ø)-ñqà×'Ñ'ðqð ! ×!1Ñ!1Ñ2ðqð $ D™>ð	qð
 ' t™nðqð ˜d‘^ðqð ˜Ÿ™Ñ&ðqð 
ˆunÐ$Ñ	%ôqó öqr?   rÈ  zp
    Wav2Vec2 Model with a `language modeling` head on top for Connectionist Temporal Classification (CTC).
    c                   óú   ^ • \ rS rSrSS\\   4U 4S jjjrS rS rS r	S r
\     SS\\R                     S	\\R                     S
\\   S\\   S\\   S\\R                     S\\\4   4S jj5       rSrU =r$ )r8  iâ  rA  c                 óÄ  >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  5      U l        X l        UR                  c  [        SU R                   S35      e[        US5      (       a  UR                  (       a  UR                  OUR                  n[        R                   " X1R                  5      U l        U R%                  5         g)a
  
target_lang (`str`, *optional*):
    Language id of adapter weights. Adapter weights are stored in the format adapter.<lang>.safetensors or
    adapter.<lang>.bin. Only relevant when using an instance of [`Wav2Vec2ForCTC`] with adapters. Uses 'eng' by
    default.
NzYou are trying to instantiate z÷ with a configuration that does not define the vocabulary size of the language model head. Please instantiate the model as follows: `Wav2Vec2ForCTC.from_pretrained(..., vocab_size=vocab_size)`. or define `vocab_size` of your model's configuration.r  )rŒ   r   ru  r   r   r  rÊ  r  rA  r`  rV   rœ   rÌ   r  râ  rÈ   r  r4  r  )r™   rš   rA  râ  rœ   s       €r@   r   ÚWav2Vec2ForCTC.__init__è  s¾   ø€ ô 	‰Ñ˜Ô ä% fÓ-ˆŒÜ—z’z &×"6Ñ"6Ó7ˆŒà&Ôà×ÑÑ$ÜØ0°·±Ð0@ð AHð Hóð ô *1°¸×)GÑ)GÈF×L^×L^ˆF×%Ò%Ðdj×dvÑdvð 	ô —y’yÐ!3×5FÑ5FÓGˆŒð 	‰Õr?   c                 óú   • U R                   nUb'  [        U R                  SS5      c  [        SU S35      eUc.  [        U R                  SS5      b  [        R                  S5        gUb  U R                  USS9  gg)a  
This method overwrites [`~PreTrainedModel.tie_weights`] so that adapter weights can be correctly loaded when
passing `target_lang=...` to `from_pretrained(...)`.

This method is **not** supposed to be called by the user and is prone to be changed in the future.
Nrn  zCannot pass `target_lang`: rC  z)By default `target_lang` is set to 'eng'.T)rc  )rA  ro  rš   rV   rS  Úinfork  )r™   rA  s     r@   Útie_weightsÚWav2Vec2ForCTC.tie_weights  sƒ   € ð ×&Ñ&ˆàÑ"¤w¨t¯{©{Ð<NÐPTÓ'UÑ']ÜÐ:¸;¸-ÐGtÐuÓvÐvØÑ ¤W¨T¯[©[Ð:LÈdÓ%SÑ%_ÜK‰KÐCÕDØÑ$Ø×Ñ˜k°dÐÒ;ð %r?   c                 óZ   • [         R                  " S[        5        U R                  5         g©rŒ  rƒ  Nr„  r†  s    r@   r‡  Ú'Wav2Vec2ForCTC.freeze_feature_extractor  r‰  r?   c                 óL   • U R                   R                  R                  5         gr‹  r«  r†  s    r@   r…  Ú%Wav2Vec2ForCTC.freeze_feature_encoder&  r­  r?   c                 óT   • U R                   R                  5        H
  nSUl        M     g©zº
Calling this function will disable the gradient computation for the base model so that its parameters will not
be updated during training. Only the classification head will be updated.
FN©r   rñ   rò   ró   s     r@   Úfreeze_base_modelÚ Wav2Vec2ForCTC.freeze_base_model-  ó#   € ð
 —]‘]×-Ñ-Ö/ˆEØ"'ˆEÖò 0r?   rù   rD   r6  r  r€  rÌ  rF   c                 ó   • Ub  UOU R                   R                  nUbJ  UR                  5       U R                   R                  :¼  a"  [	        SU R                   R                   35      eU R                  UUUUUS9nUS   nU R                  U5      nU R                  U5      n	Sn
UGbX  Ub  UO"[        R                  " U[        R                  S9nU R                  UR                  S5      5      R                  [        R                  5      nUS:¬  nUR                  S5      nUR                  U5      n[        R                   R#                  U	S[        R$                  S9R'                  SS5      n[        R(                  R*                  R-                  S	S
9   [        R                   R/                  UUUUU R                   R0                  U R                   R2                  U R                   R4                  S9n
SSS5        U(       d  U	4U[6        S -   nU
b  U
4U-   $ U$ [9        X©UR:                  UR<                  S9$ ! , (       d  f       NL= f)a°  
labels (`torch.LongTensor` of shape `(batch_size, target_length)`, *optional*):
    Labels for connectionist temporal classification. Note that `target_length` has to be smaller or equal to
    the sequence length of the output logits. Indices are selected in `[-100, 0, ..., config.vocab_size - 1]`.
    All labels set to `-100` are ignored (masked), the loss is only computed for labels in `[0, ...,
    config.vocab_size - 1]`.
Nz$Label values must be <= vocab_size: r˜  r   rS   rR   )rÆ   rT   r#   F)Úenabled)Úblankr¸  Úzero_infinity©r,   r´  r0   r1   )rš   rš  rK   r`  rV   r   r  r4  r:   Ú	ones_liker,  r$  r\   r+  Úmasked_selectr   r  Úlog_softmaxÚfloat32r°   ÚbackendsÚcudnnÚflagsÚctc_lossÚpad_token_idÚctc_loss_reductionÚctc_zero_infinityÚ_HIDDEN_STATES_START_POSITIONr   r0   r1   )r™   rù   rD   r6  r  r€  rÌ  ri  r0   r´  r,   rn   Úlabels_maskÚtarget_lengthsÚflattened_targetsÚ	log_probsrÎ  s                    r@   r¡   ÚWav2Vec2ForCTC.forward5  s  € ð" &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ &§*¡*£,°$·+±+×2HÑ2HÓ"HÜÐCÀDÇKÁK×DZÑDZÐC[Ð\Ó]Ð]à—-‘-ØØ)Ø/Ø!5Ø#ð  ð 
ˆð   ™
ˆØŸ™ ]Ó3ˆà—‘˜mÓ,ˆàˆØÒð #1Ñ"<‘Ä%Ç/Â/ÐR^Ôfk×fpÑfpÑBqð ð !×AÑAÀ.×BTÑBTÐUWÓBXÓY×\Ñ\Ô]b×]gÑ]gÓhˆMð ! A™+ˆKØ(Ÿ_™_¨RÓ0ˆNØ &× 4Ñ 4°[Ó AÐô Ÿ™×1Ñ1°&¸bÌÏÉÐ1ÐV×`Ñ`ÐabÐdeÓfˆIä—‘×%Ñ%×+Ñ+°EÐ+Ò:Ü—}‘}×-Ñ-ØØ%Ø!Ø"ØŸ+™+×2Ñ2Ø"Ÿk™k×<Ñ<Ø"&§+¡+×"?Ñ"?ð .ð ÷ ;ö ØY Ô)FÐ)GÐ!HÑHˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEäØ°G×4IÑ4IÐV]×VhÑVhñ
ð 	
÷ ;Õ:ús   ÆA H?È?
I)r  r4  rA  r   rŸ   r  )r5   r6   r7   r8   r   rR  r   rÕ  r‡  r…  rß  r   r:   rH  r`   r   r=   r   r¡   r>   r¥   r¦   s   @r@   r8  r8  â  sÏ   ø† ñ¨H°S©M÷ ð ò:<ò*
&ò=ò(ð ð 26Ø,0Ø/3Ø&*Ø)-ñD
à˜uŸ|™|Ñ,ðD
ð ! §¡Ñ.ðD
ð $ D™>ð	D
ð
 ' t™nðD
ð ˜d‘^ðD
ð ˜Ÿ™Ñ&ðD
ð 
ˆunÐ$Ñ	%ôD
ó öD
r?   r8  z—
    Wav2Vec2 Model with a sequence classification head on top (a linear layer over the pooled output) for tasks like
    SUPERB Keyword Spotting.
    c                   óâ   ^ • \ rS rSrU 4S jrS rS rS r\     SS\	\
R                     S\	\
R                     S\	\   S	\	\   S
\	\   S\	\
R                     S\\\4   4S jj5       rSrU =r$ )Ú!Wav2Vec2ForSequenceClassificationi}  c                 ó"  >• [         TU ]  U5        [        US5      (       a  UR                  (       a  [	        S5      e[        U5      U l        UR                  S-   nUR                  (       a2  [        R                  " [        R                  " U5      U-  5      U l        [        R                  " UR                  UR                   5      U l        [        R                  " UR                   UR$                  5      U l        U R)                  5         g )Nr  z_Sequence classification does not support the use of Wav2Vec2 adapters (config.add_adapter=True)r#   )rŒ   r   rÌ   r  rV   ru  r   rz  Úuse_weighted_layer_sumr   r¹  r:   re   Úlayer_weightsr  rÈ   Úclassifier_proj_sizeÚ	projectorÚ
num_labelsÚ
classifierr  ©r™   rš   Ú
num_layersrœ   s      €r@   r   Ú*Wav2Vec2ForSequenceClassification.__init__„  sÃ   ø€ Ü‰Ñ˜Ô ä6˜=×)Ñ)¨f×.@×.@ÜØqóð ô & fÓ-ˆŒØ×-Ñ-°Ñ1ˆ
Ø×(×(Ü!#§¢¬e¯jªj¸Ó.DÀzÑ.QÓ!RˆDÔÜŸš 6×#5Ñ#5°v×7RÑ7RÓSˆŒÜŸ)š) F×$?Ñ$?À×ARÑARÓSˆŒð 	‰Õr?   c                 óZ   • [         R                  " S[        5        U R                  5         gr‚  r„  r†  s    r@   r‡  Ú:Wav2Vec2ForSequenceClassification.freeze_feature_extractor•  r‰  r?   c                 óL   • U R                   R                  R                  5         gr‹  r«  r†  s    r@   r…  Ú8Wav2Vec2ForSequenceClassification.freeze_feature_encoder¡  r­  r?   c                 óT   • U R                   R                  5        H
  nSUl        M     grÝ  rÞ  ró   s     r@   rß  Ú3Wav2Vec2ForSequenceClassification.freeze_base_model¨  rá  r?   rù   rD   r6  r  r€  rÌ  rF   c                 ó0  • Ub  UOU R                   R                  nU R                   R                  (       a  SOUnU R                  UUUUUS9nU R                   R                  (       ai  U[           n[
        R                  " USS9n[        R                  R                  U R                  SS9n	X‰R                  SSS5      -  R                  SS9nOUS   nU R                  U5      nUc  UR                  SS9n
O‚U R                  UR                   S   U5      nUR#                  S5      R%                  SSUR                   S   5      nS	XŒ) '   UR                  SS9UR                  SS9R                  SS5      -  n
U R'                  U
5      nSnUbF  [)        5       nU" UR                  SU R                   R*                  5      UR                  S5      5      nU(       d  U4U[        S -   nUb  U4U-   $ U$ [-        UUUR.                  UR0                  S
9$ )á´  
input_values (`torch.FloatTensor` of shape `(batch_size, sequence_length)`):
    Float values of input raw speech waveform. Values can be obtained by loading a `.flac` or `.wav` audio file
    into an array of type `list[float]`, a `numpy.ndarray` or a `torch.Tensor`, *e.g.* via the torchcodec library
    (`pip install torchcodec`) or the soundfile library (`pip install soundfile`).
    To prepare the array into `input_values`, the [`AutoProcessor`] should be used for padding and conversion
    into a tensor of type `torch.FloatTensor`. See [`Wav2Vec2Processor.__call__`] for details.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
NTr˜  r#   r  rR   r   r'   r9  ræ  )rš   rš  rû  r   rò  r:   Ústackr   r  r   rü  r!  r\   rþ  rÃ  r0  rA   r  rŽ  r   r   rÿ  r   r0   r1   )r™   rù   rD   r6  r  r€  rÌ  ri  r0   Únorm_weightsÚpooled_outputÚpadding_maskÚexpand_padding_maskr´  r,   Úloss_fctrÎ  s                    r@   r¡   Ú)Wav2Vec2ForSequenceClassification.forward°  s  € ð. &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ'+§{¡{×'I×'I™tÐOcÐà—-‘-ØØ)Ø/Ø!5Ø#ð  ð 
ˆð ;‰;×-×-Ø#Ô$AÑBˆMÜ!ŸKšK¨¸1Ñ=ˆMÜŸ=™=×0Ñ0°×1CÑ1CÈÐ0ÐLˆLØ*×->Ñ->¸rÀ1ÀaÓ-HÑH×MÑMÐRSÐMÐT‰Mà# A™JˆMàŸ™ }Ó5ˆØÑ!Ø)×.Ñ.°1Ð.Ð5‰Mà×BÑBÀ=×CVÑCVÐWXÑCYÐ[iÓjˆLØ".×"8Ñ"8¸Ó"<×"CÑ"CÀAÀqÈ-×J]ÑJ]Ð^_ÑJ`Ó"aÐØ25ˆMÐ.Ñ/Ø)×-Ñ-°!Ð-Ð4°|×7GÑ7GÈAÐ7GÐ7N×7SÑ7SÐTVÐXYÓ7ZÑZˆMà—‘ Ó/ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯K©K×,BÑ,BÓCÀVÇ[Á[ÐQSÃ_ÓUˆDæØY Ô)FÐ)GÐ!HÑHˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r?   )r   rü  rþ  r   r  )r5   r6   r7   r8   r   r‡  r…  rß  r   r   r:   rH  r`   r   r=   r   r¡   r>   r¥   r¦   s   @r@   rù  rù  }  s»   ø† õò"
&ò=ò(ð ð 26Ø,0Ø/3Ø&*Ø)-ñB
à˜uŸ|™|Ñ,ðB
ð ! §¡Ñ.ðB
ð $ D™>ð	B
ð
 ' t™nðB
ð ˜d‘^ðB
ð ˜Ÿ™Ñ&ðB
ð 
ˆuÐ.Ð.Ñ	/ôB
ó öB
r?   rù  c                   óâ   ^ • \ rS rSrU 4S jrS rS rS r\     SS\	\
R                     S\	\
R                     S\	\
R                     S	\	\   S
\	\   S\	\   S\\\4   4S jj5       rSrU =r$ )Ú#Wav2Vec2ForAudioFrameClassificationiö  c                 óä  >• [         TU ]  U5        [        US5      (       a  UR                  (       a  [	        S5      e[        U5      U l        UR                  S-   nUR                  (       a2  [        R                  " [        R                  " U5      U-  5      U l        [        R                  " UR                  UR                   5      U l        UR                   U l        U R%                  5         g )Nr  zbAudio frame classification does not support the use of Wav2Vec2 adapters (config.add_adapter=True)r#   )rŒ   r   rÌ   r  rV   ru  r   rz  rû  r   r¹  r:   re   rü  r  rÈ   rÿ  r   Úinit_weightsr  s      €r@   r   Ú,Wav2Vec2ForAudioFrameClassification.__init__ø  s²   ø€ Ü‰Ñ˜Ô ä6˜=×)Ñ)¨f×.@×.@ÜØtóð ô & fÓ-ˆŒØ×-Ñ-°Ñ1ˆ
Ø×(×(Ü!#§¢¬e¯jªj¸Ó.DÀzÑ.QÓ!RˆDÔÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒØ ×+Ñ+ˆŒà×ÑÕr?   c                 óZ   • [         R                  " S[        5        U R                  5         grØ  r„  r†  s    r@   r‡  Ú<Wav2Vec2ForAudioFrameClassification.freeze_feature_extractor  r‰  r?   c                 óL   • U R                   R                  R                  5         gr‹  r«  r†  s    r@   r…  Ú:Wav2Vec2ForAudioFrameClassification.freeze_feature_encoder  r­  r?   c                 óT   • U R                   R                  5        H
  nSUl        M     grÝ  rÞ  ró   s     r@   rß  Ú5Wav2Vec2ForAudioFrameClassification.freeze_base_model  rá  r?   rù   rD   rÌ  r6  r  r€  rF   c           	      óú  • Ub  UOU R                   R                  nU R                   R                  (       a  SOUnU R                  UUUUUS9nU R                   R                  (       ai  U[           n[
        R                  " USS9n[        R                  R                  U R                  SS9n	X‰R                  SSS5      -  R                  SS9nOUS   nU R                  U5      n
SnUbZ  [        5       nU" U
R                  SU R                  5      [
        R                   " UR                  SU R                  5      SS95      nU(       d  U
4U[        S -   nU$ [#        UU
UR$                  UR&                  S	9$ )
r  NTr˜  r#   r  rR   r   )Úaxisræ  )rš   rš  rû  r   rò  r:   r  r   r  r   rü  r!  r\   r   r   rÿ  rÓ  r   r0   r1   )r™   rù   rD   rÌ  r6  r  r€  ri  r0   r  r´  r,   r  rÎ  s                 r@   r¡   Ú+Wav2Vec2ForAudioFrameClassification.forward#  sf  € ð. &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ'+§{¡{×'I×'I™tÐOcÐà—-‘-ØØ)Ø/Ø!5Ø#ð  ð 
ˆð ;‰;×-×-Ø#Ô$AÑBˆMÜ!ŸKšK¨¸1Ñ=ˆMÜŸ=™=×0Ñ0°×1CÑ1CÈÐ0ÐLˆLØ*×->Ñ->¸rÀ1ÀaÓ-HÑH×MÑMÐRSÐMÐT‰Mà# A™JˆMà—‘ Ó/ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯O©OÓ<¼e¿lºlÈ6Ï;É;ÐWYÐ[_×[jÑ[jÓKkÐrsÑ>tÓuˆDæØY Ô)FÐ)GÐ!HÑHˆFØˆMä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r?   )r   rü  rÿ  r   r  )r5   r6   r7   r8   r   r‡  r…  rß  r   r   r:   rH  r`   r   r=   r   r¡   r>   r¥   r¦   s   @r@   r  r  ö  s²   ø† õò 
&ò=ò(ð ð 26Ø)-Ø,0Ø/3Ø&*ñ9
à˜uŸ|™|Ñ,ð9
ð ! §¡Ñ.ð9
ð ˜Ÿ™Ñ&ð	9
ð
 $ D™>ð9
ð ' t™nð9
ð ˜d‘^ð9
ð 
ˆuÐ+Ð+Ñ	,ô9
ó ö9
r?   r  c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚAMSoftmaxLossi`  c                 óÖ   >• [         TU ]  5         X0l        X@l        X l        [
        R                  " [        R                  " X5      SS9U l	        [
        R                  " 5       U l        g )NT)rò   )rŒ   r   ÚscaleÚmarginrÿ  r   r¹  r:   ÚrandnrÄ   r   r,   )r™   rô  rÿ  r$  r%  rœ   s        €r@   r   ÚAMSoftmaxLoss.__init__a  sI   ø€ Ü‰ÑÔØŒ
ØŒØ$ŒÜ—l’l¤5§;¢;¨yÓ#EÐUYÑZˆŒÜ×'Ò'Ó)ˆ	r?   c                 óÒ  • UR                  5       n[        R                  R                  U R                  SS9n[        R                  R                  USS9n[
        R                  " X5      nX@R                  -
  n[        R                  R                  X R                  5      nU R                  [
        R                  " UR                  5       XT5      -  nU R                  Xr5      nU$ )Nr   r  r#   )r¿  r   r  Ú	normalizerÄ   r:   Úmmr%  Úone_hotrÿ  r$  rÁ  r`   r,   )	r™   r0   rÌ  rÄ   Ú	cos_thetaÚpsiÚonehotr´  r,   s	            r@   r¡   ÚAMSoftmaxLoss.forwardi  s¨   € Ø—‘Ó!ˆÜ—‘×(Ñ(¨¯©¸!Ð(Ð<ˆÜŸ™×/Ñ/°À1Ð/ÐEˆÜ—H’H˜]Ó3ˆ	ØŸ+™+Ñ%ˆä—‘×&Ñ& v¯©Ó?ˆØ—‘œeŸkšk¨&¯+©+«-¸ÓHÑHˆØy‰y˜Ó(ˆàˆr?   )r,   r%  rÿ  r$  rÄ   )g      >@gš™™™™™Ù?r¤   r¦   s   @r@   r"  r"  `  s   ø† ÷*÷ð r?   r"  c                   óf   ^ • \ rS rSrSU 4S jjrS\R                  S\R                  4S jrSrU =r	$ )Ú	TDNNLayeriw  c                 ó   >• [         TU ]  5         US:”  a  UR                  US-
     OUR                  U   U l        UR                  U   U l        UR
                  U   U l        UR                  U   U l        [        R                  " U R                  U R                  -  U R                  5      U l        [        R                  " 5       U l        g )Nr   r#   )rŒ   r   Útdnn_dimr   r   Útdnn_kernelr‰   Útdnn_dilationÚdilationr   r  Úkernelrø  r—   r˜   s      €r@   r   ÚTDNNLayer.__init__x  s¡   ø€ Ü‰ÑÔØ<DÀq»L˜6Ÿ?™?¨8°a©<Ò8ÈfÏoÉoÐ^fÑNgˆÔØ"ŸO™O¨HÑ5ˆÔØ!×-Ñ-¨hÑ7ˆÔØ×,Ñ,¨XÑ6ˆŒä—i’i × 0Ñ 0°4×3CÑ3CÑ CÀT×EVÑEVÓWˆŒÜŸ'š'›)ˆr?   r0   rF   c                 ó>  • [        5       (       a  SSKJn  [        5       (       a1  [        U R                  W5      (       a  [
        R                  " S5        UR                  SS5      nU R                  R                  R                  U R                  U R                  U R                  5      R                  SS5      n[        R                  R                  XU R                  R                   U R"                  S9nUR                  SS5      nU R%                  U5      nU$ )Nr   )Ú	LoraLayerz‡Detected LoRA on TDNNLayer. LoRA weights won't be applied due to optimization. You should exclude TDNNLayer from LoRA's target modules.r#   r'   )r6  )r   Úpeft.tuners.lorar:  rP  r7  rÿ   r   r°   rÄ   r!  r   r‰   r   r   r  Úconv1dr‹   r6  r—   )r™   r0   r:  rÄ   s       r@   r¡   ÚTDNNLayer.forward‚  sß   € Ü×ÑÝ2ä×ÑÜ˜$Ÿ+™+ y×1Ñ1Ü—’ðOôð &×/Ñ/°°1Ó5ˆØ—‘×#Ñ#×(Ñ(¨×):Ñ):¸D×<LÑ<LÈd×N^ÑN^Ó_×iÑiÐjkÐmnÓoˆÜŸ™×,Ñ,¨]ÀDÇKÁK×DTÑDTÐ_c×_lÑ_lÐ,ÐmˆØ%×/Ñ/°°1Ó5ˆàŸ™¨Ó6ˆØÐr?   )r—   r6  r   r7  r‰   r   r£   )
r5   r6   r7   r8   r   r:   rH  r¡   r>   r¥   r¦   s   @r@   r1  r1  w  s(   ø† ÷$ð U§\¡\ð °e·l±l÷ ò r?   r1  zl
    Wav2Vec2 Model with an XVector feature extraction head on top for tasks like Speaker Verification.
    c                   ó  ^ • \ rS rSrU 4S jrS rS rS rS\\	R                  \4   4S jr\     SS\\	R                     S	\\	R                     S
\\   S\\   S\\   S\\	R                     S\\\4   4S jj5       rSrU =r$ )ÚWav2Vec2ForXVectori—  c                 ó0  >• [         TU ]  U5        [        U5      U l        UR                  S-   nUR
                  (       a2  [        R                  " [        R                  " U5      U-  5      U l
        [        R                  " UR                  UR                  S   5      U l        [        [!        UR                  5      5       Vs/ sH  n[#        X5      PM     nn[        R$                  " U5      U l        [        R                  " UR                  S   S-  UR(                  5      U l        [        R                  " UR(                  UR(                  5      U l        [/        UR(                  UR0                  5      U l        U R5                  5         g s  snf )Nr#   r   rR   r'   )rŒ   r   ru  r   rz  rû  r   r¹  r:   re   rü  r  rÈ   r3  rþ  r^   rc   r1  ré   ÚtdnnÚxvector_output_dimrw  r   r"  rÿ  Ú	objectiver  )r™   rš   r  rí   Útdnn_layersrœ   s        €r@   r   ÚWav2Vec2ForXVector.__init__  s  ø€ Ü‰Ñ˜Ô ä% fÓ-ˆŒØ×-Ñ-°Ñ1ˆ
Ø×(×(Ü!#§¢¬e¯jªj¸Ó.DÀzÑ.QÓ!RˆDÔÜŸš 6×#5Ñ#5°v·±ÀqÑ7IÓJˆŒä5:¼3¸v¿¹Ó;OÔ5PÓQÑ5P°”y Ö+Ñ5PˆÐQÜ—M’M +Ó.ˆŒ	ä!#§¢¨6¯?©?¸2Ñ+>ÀÑ+BÀF×D]ÑD]Ó!^ˆÔÜŸ)š) F×$=Ñ$=¸v×?XÑ?XÓYˆŒä& v×'@Ñ'@À&×BSÑBSÓTˆŒà×ÑÕùò Rs   ÃFc                 óZ   • [         R                  " S[        5        U R                  5         grØ  r„  r†  s    r@   r‡  Ú+Wav2Vec2ForXVector.freeze_feature_extractor°  r‰  r?   c                 óL   • U R                   R                  R                  5         gr‹  r«  r†  s    r@   r…  Ú)Wav2Vec2ForXVector.freeze_feature_encoder¼  r­  r?   c                 óT   • U R                   R                  5        H
  nSUl        M     grÝ  rÞ  ró   s     r@   rß  Ú$Wav2Vec2ForXVector.freeze_base_modelÃ  rá  r?   rn   c                 óX   • S nU R                   R                   H  nU" XS5      nM     U$ )z/
Computes the output length of the TDNN layers
c                 ó   • X-
  U-  S-   $ )Nr#   r4   r   s      r@   r!  ÚEWav2Vec2ForXVector._get_tdnn_output_lengths.<locals>._conv_out_lengthÐ  s   € ð !Ñ.°6Ñ9¸AÑ=Ð=r?   r#   )rš   r4  )r™   rn   r!  r‰   s       r@   Ú_get_tdnn_output_lengthsÚ+Wav2Vec2ForXVector._get_tdnn_output_lengthsË  s1   € ò
	>ð
  Ÿ;™;×2Ô2ˆKÙ,¨]ÈÓKŠMñ 3ð Ðr?   rù   rD   r6  r  r€  rÌ  rF   c                 óâ  • Ub  UOU R                   R                  nU R                   R                  (       a  SOUnU R                  UUUUUS9nU R                   R                  (       ai  U[           n[
        R                  " USS9n[        R                  R                  U R                  SS9n	X‰R                  SSS5      -  R                  SS9nOUS   nU R                  U5      nU R                   H  n
U
" U5      nM     Uc  UR                  SS9nUR!                  SS9nO¼U R#                  UR                  SS95      nU R%                  U5      n/ n/ n['        U5       HN  u  nnUR)                  XSU24   R                  SS95        UR)                  XSU24   R!                  SS95        MP     [
        R                  " U5      n[
        R                  " U5      n[
        R*                  " X¼/SS9nU R-                  U5      nU R/                  U5      nSnUb  U R1                  UU5      nU(       d  UU4U[        S -   nUb  U4U-   $ U$ [3        UUUUR4                  UR6                  S9$ )	r  NTr˜  r#   r  rR   r   )r,   r´  Ú
embeddingsr0   r1   )rš   rš  rû  r   rò  r:   r  r   r  r   rü  r!  r\   rþ  rA  rÃ  r  r$  rO  Ú	enumeraterg   r²  rw  r   rC  r   r0   r1   )r™   rù   rD   r6  r  r€  rÌ  ri  r0   r  Ú
tdnn_layerÚmean_featuresÚstd_featuresÚfeat_extract_output_lengthsÚtdnn_output_lengthsrí   ÚlengthÚstatistic_poolingÚoutput_embeddingsr´  r,   rÎ  s                         r@   r¡   ÚWav2Vec2ForXVector.forwardÚ  s…  € ð. &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ'+§{¡{×'I×'I™tÐOcÐà—-‘-ØØ)Ø/Ø!5Ø#ð  ð 
ˆð ;‰;×-×-Ø#Ô$AÑBˆMÜ!ŸKšK¨¸1Ñ=ˆMÜŸ=™=×0Ñ0°×1CÑ1CÈÐ0ÐLˆLØ*×->Ñ->¸rÀ1ÀaÓ-HÑH×MÑMÐRSÐMÐT‰Mà# A™JˆMàŸ™ }Ó5ˆàŸ)œ)ˆJÙ& }Ó5ŠMñ $ð Ñ!Ø)×.Ñ.°1Ð.Ð5ˆMØ(×,Ñ,°Ð,Ð3‰Là*.×*OÑ*OÐP^×PbÑPbÐghÐPbÐPiÓ*jÐ'Ø"&×"?Ñ"?Ð@[Ó"\ÐØˆMØˆLÜ&Ð':Ö;‘	6Ø×$Ñ$ ]°g°v°g°:Ñ%>×%CÑ%CÈÐ%CÐ%JÔKØ×#Ñ# M°W°f°W°*Ñ$=×$AÑ$AÀaÐ$AÐ$HÖIñ <ô "ŸKšK¨Ó6ˆMÜ Ÿ;š; |Ó4ˆLÜ!ŸIšI }Ð&CÈÑLÐà ×2Ñ2Ð3DÓEÐØ—‘Ð!2Ó3ˆàˆØÑØ—>‘> &¨&Ó1ˆDæØÐ/Ð0°7Ô;XÐ;YÐ3ZÑZˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEäØØØ(Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r?   )r   rw  rü  rC  rþ  rA  r   r  )r5   r6   r7   r8   r   r‡  r…  rß  r   r:   rs  rJ   rO  r   r   rH  r`   r=   r   r¡   r>   r¥   r¦   s   @r@   r?  r?  —  sÖ   ø† õò&
&ò=ò(ð°e¸E×<LÑ<LÈcÐ<QÑ6Rô ð ð 26Ø,0Ø/3Ø&*Ø)-ñO
à˜uŸ|™|Ñ,ðO
ð ! §¡Ñ.ðO
ð $ D™>ð	O
ð
 ' t™nðO
ð ˜d‘^ðO
ð ˜Ÿ™Ñ&ðO
ð 
ˆumÐ#Ñ	$ôO
ó öO
r?   r?  )r  r8  rÈ  r  rù  r?  ru  rÿ  rß   rŸ   )Nr9  N)hr9   r  rÿ   Údataclassesr   Útypingr   r   r   ÚnumpyrW   r:   Útorch.utils.checkpointr   Útorch.nnr   Úactivationsr
   Úintegrations.deepspeedr   Úintegrations.fsdpr   Úmodeling_attn_mask_utilsr   r   Úmodeling_flash_attention_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   r   r   Úmodeling_utilsr   r   Úprocessing_utilsr   rË   r   r   r   r   r   r    r!   r"   Úconfiguration_wav2vec2r$   r\  rW  Úsafetensors.torchr%   rY  Úintegrations.flex_attentionr&   Ú
get_loggerr5   rS  rò  r*   r=   rJ   rG  rs  Úndarrayru   r„   r†   r¨   r´   ÚModuler¾   rÕ   rã   rý   r  rH  r&  r(  rJ  r[  rl  rv  r©  r³  rÝ  rà  rp  rÿ  ru  r  rÈ  r8  rù  r  r"  r1  r?  Ú__all__r4   r?   r@   Ú<module>rr     s\  ðñ ã Û Ý !ß ,Ñ ,ã Û Û Ý Ý %å !Ý @Ý 7÷õ CÝ 9÷÷ ñ ÷ GÝ &÷	÷ 	ó 	õ 3ð ,Ð Ø5Ð á×ÑÝ=ñ  ×!Ñ!ÝJð 
×	Ò	˜HÓ	%€ð !"Ð ð Ùðñô
7 ;ó 7óó ð7ðB 26ØñtØc‰?ðtàðtð ðtð ˜U×-Ñ-Ñ.ð	tð
 ðtð ‡ZZõtðp Z^ñ!$Øð!$Ø*-ð!$ØBJÈ2Ï:É:ÑBVõ!$ôHÐ#=ô ô*Ð!;ô ô6Ð!;ô ô0* b§i¡iô *ôZ˜2Ÿ9™9ô ô%˜RŸY™Yô %ôP
Ð5ô 
ô1 §	¡	ô 1ð,  $ØØ(,ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð e‰_ð%ð ð%ð ˜Ÿ™Ñ%õ%ô<U/˜Ÿ	™	ô U/ôp˜"Ÿ)™)ô ô0!Ð5ô !ôH+Ð*Dô +ô\[b—i‘iô [ô|_ R§Y¡Yô _ôDI' B§I¡Iô I'ôXb—i‘iô ô>˜2Ÿ9™9ô ô$˜rŸy™yô ð2 ôx'˜oó x'ó ðx'ðv	 ôN
Ð+ó N
ó ðN
ñb ðñô
Y
Ð4ó Y
óð
Y
ðx ô*qÐ1ó *qó ð*qñZ ðñô
S
Ð,ó S
óð
S
ñl ðñôp
Ð(?ó p
óðp
ðf ôf
Ð*Aó f
ó ðf
ôRB—I‘Iô ô.—	‘	ô ñ@ ðñô
N
Ð0ó N
óð
N
òb	r?   