ó
    <±h­A ã                   óB  • S r SSKrSSKJrJr  SSKrSSKrSSKrSSKJ	r	  SSK
JrJrJr  SSKJr  SSKJrJr  SS	KJr  SS
KJr  SSKJr  SSKJrJr  SSKJr  SSKJrJ r J!r!J"r"J#r#  SSK$J%r%J&r&  SSK'J(r(J)r)  SSK*J+r+J,r,  \)RZ                  " \.5      r/Sr0S\Rb                  S\2S\24S jr3 S}S\Rb                  S\2S\\Rb                     4S jjr4  S~S\5\2\24   S\6S\2S\\Rn                     S\2S\Rp                  4S  jjr9 " S! S"\5      r: " S# S$\5      r; " S% S&\5      r< " S' S(\	Rz                  5      r> " S) S*\	Rz                  5      r? " S+ S,\	Rz                  5      r@ " S- S.\R                  Rz                  5      rA " S/ S0\	Rz                  5      rB " S1 S2\	Rz                  5      rC " S3 S4\	Rz                  5      rD " S5 S6\	Rz                  5      rE " S7 S8\	Rz                  5      rF " S9 S:\	Rz                  5      rG " S; S<\	Rz                  5      rH " S= S>\	Rz                  \%5      rI " S? S@\	Rz                  \%5      rJ " SA SB\	Rz                  \%5      rK " SC SD\	Rz                  5      rL " SE SF\	Rz                  5      rM " SG SH\5      rN " SI SJ\5      rO\( " SK SL\&5      5       rP " SM SN\P5      rQ " SO SP\P5      rR " SQ SR\P5      rS " SS ST\P5      rT " SU SV\P5      rU " SW SX\P5      rV " SY SZ\P5      rW " S[ S\\P5      rX " S] S^\	Rz                  5      rY " S_ S`\	Rz                  5      rZ\(" SaSb9 " Sc Sd\P5      5       r[\(" SeSb9 " Sf Sg\P\5      5       r\        SSh\PS\Rº                  Si\\Rº                     S\\Rn                     Sj\6Sk\6Sl\6Sm\\	Rz                     Sn\^So\^S\\Rº                  \5\Rº                  \Rº                  4   4   4Sp jjr_\(" SqSb9 " Sr Ss\P5      5       r`\(" StSb9 " Su Sv\P5      5       ra " Sw Sx\	Rz                  5      rb\(" SySb9 " Sz S{\&5      5       rc/ S|Qrdg)€zPyTorch SpeechT5 model.é    N)ÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚL1Lossé   )ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)Úis_deepspeed_zero3_enabled)Úis_fsdp_managed_module)Ú_prepare_4d_attention_maskÚ!_prepare_4d_causal_attention_mask)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚ)BaseModelOutputWithPastAndCrossAttentionsÚSeq2SeqLMOutputÚSeq2SeqModelOutputÚSeq2SeqSpectrogramOutput)ÚEmbeddingAccessMixinÚPreTrainedModel)Úauto_docstringÚloggingé   )ÚSpeechT5ConfigÚSpeechT5HifiGanConfigÚ	input_idsÚpad_token_idÚdecoder_start_token_idc                 óÖ   • U R                  U R                  5      nU SS2SS24   R                  5       USS2SS24'   X#SS2S4'   Uc  [        S5      eUR	                  US:H  U5        U$ )z)
Shift input ids one token to the right.
Néÿÿÿÿr   r   z1self.model.config.pad_token_id has to be defined.iœÿÿÿ)Ú	new_zerosÚshapeÚcloneÚ
ValueErrorÚmasked_fill_)r   r    r!   Úshifted_input_idss       Úf/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/speecht5/modeling_speecht5.pyÚshift_tokens_rightr+   6   sz   € ð "×+Ñ+¨I¯O©OÓ<ÐØ(ª¨C¨R¨C¨Ñ0×6Ñ6Ó8Ð’a˜™eÑØ4’a˜dÑàÑÜÐLÓMÐMà×"Ñ"Ð#4¸Ñ#<¸lÔKàÐó    Úinput_valuesÚreduction_factorÚattention_maskc                 óú   • US:”  a!  U SS2US-
  SU24   n Ub  USS2US-
  SU24   nU R                  U R                  5      nU SS2SS24   R                  5       USS2SS24'   UR                  US:H  S5        X24$ )zo
Shift input spectrograms one timestep to the right. Also applies the reduction factor to the sequence length.
r   Nr#   ç      YÀç        )r$   r%   r&   r(   )r-   r.   r/   Úshifted_input_valuess       r*   Úshift_spectrograms_rightr4   F   s­   € ð ˜!ÓØ#¢AÐ'7¸!Ñ';Ð'OÐ?OÐ'OÐ$OÑPˆØÑ%Ø+ªAÐ/?À!Ñ/CÐ/WÐGWÐ/WÐ,WÑXˆNà'×1Ñ1°,×2DÑ2DÓEÐØ".ªq°#°2°#¨vÑ"6×"<Ñ"<Ó">Ðš˜A™B˜Ñð ×%Ñ%Ð&:¸fÑ&DÀcÔJàÐ/Ð/r,   r%   Ú	mask_probÚmask_lengthÚ	min_masksÚreturnc           	      óè  ^^^^^• U u  nmTS:  a  [        S5      eTT:”  a  [        ST ST S35      e[        R                  R                  S5      R	                  5       mUUUUU4S jnUb-  UR                  5       R                  S5      R                  5       O[        U5       Vs/ sH  nTPM     snn[        R                  " UT4[        S	9n	/ n
U" T5      nUS
:X  a  U	$ U H­  nU" U5      n[        R                  R                  [        R                  " UTS-
  -
  5      USS9n[        U5      S
:X  a  TS-
  nOUS
   n[        R                  " U[        R                  " X½-
  [        R                   S	9U-  /5      nU
R#                  U5        M¯     [        R$                  " U
5      n
[        R&                  " U
SS2SS2S4   X[T45      n
U
R)                  X[T-  5      n
[        R                  " T5      SSSS24   n[        R&                  " UX[T45      R)                  X[T-  5      nU
U-   n
U
R+                  5       TS-
  :”  a  TS-
  XªTS-
  :„  '   [        R,                  " XšSS5        U	$ s  snf )a2  
Computes random mask spans for a given shape. Used to implement [SpecAugment: A Simple Data Augmentation Method for
ASR](https://huggingface.co/papers/1904.08779). Note that this method is not optimized to run on TPU and should be run on
CPU as part of the preprocessing during training.

Args:
    shape: The shape for which to compute masks. This should be of a tuple of size 2 where
           the first element is the batch size and the second element is the length of the axis to span.
    mask_prob:  The percentage of the whole axis (between 0 and 1) which will be masked. The number of
                independently generated mask spans of length `mask_length` is computed by
                `mask_prob*shape[1]/mask_length`. Note that due to overlaps, `mask_prob` is an upper bound and the
                actual percentage will be smaller.
    mask_length: size of the mask
    min_masks: minimum number of masked spans
    attention_mask: A (right-padded) attention mask which independently shortens the feature axis of
                    each batch dimension.
r   z&`mask_length` has to be bigger than 0.zO`mask_length` has to be smaller than `sequence_length`, but got `mask_length`: z and `sequence_length`: Ú`c                 ó    >• [        TU -  T-  T-   5      n[        UT5      nUT-  T:”  a  TT-  nU TS-
  -
  U:  a  [        U TS-
  -
  S5      nU$ )z;Given input length, compute how many spans should be maskedr   r   )ÚintÚmax)Úinput_lengthÚnum_masked_spanÚepsilonr6   r5   r7   Úsequence_lengths     €€€€€r*   Úcompute_num_masked_spanÚ6_compute_mask_indices.<locals>.compute_num_masked_span‚   so   ø€ ä˜i¨,Ñ6¸ÑDÀwÑNÓOˆÜ˜o¨yÓ9ˆð ˜[Ñ(¨?Ó:Ø-°Ñ<ˆOð ˜;¨™?Ñ+¨oÓ=Ü! ,°+À±/Ñ"BÀAÓFˆOàÐr,   Nr#   ©Údtyper   F)Úreplace)r'   ÚnpÚrandomÚrandÚitemÚdetachÚsumÚtolistÚrangeÚzerosÚboolÚchoiceÚarangeÚlenÚconcatenateÚonesÚint32ÚappendÚarrayÚbroadcast_toÚreshaper=   Úput_along_axis)r%   r5   r6   r/   r7   Ú
batch_sizerB   Ú_Úinput_lengthsÚspec_aug_maskÚspec_aug_mask_idxsÚmax_num_masked_spanr>   r?   Úspec_aug_mask_idxÚdummy_mask_idxÚoffsetsr@   rA   s    `` `            @@r*   Ú_compute_mask_indicesre   \   sš  ü€ ð0 #(Ñ€JàQƒÜÐAÓBÐBà_Ó$ÜØ]Ð^iÐ]jØ& Ð&7°qð:ó
ð 	
ô i‰in‰n˜QÓ×$Ñ$Ó&€G÷ñ ð$ Ñ%ð 	×ÑÓ×#Ñ# BÓ'×.Ñ.Ô0ä',¨ZÔ'8Ó9Ñ'8 !‹oÑ'8Ñ9ð ô —H’H˜j¨/Ð:Ä$ÑG€MØÐá1°/ÓBÐà˜aÓØÐã%ˆá1°,Ó?ˆô ŸI™I×,Ñ,ÜIŠIl k°A¡oÑ6Ó7¸ÐRWð -ð 
Ðô Ð Ó! QÓ&ð -¨qÑ0‰Nà.¨qÑ1ˆNäŸNšNØ¤§¢Ð(;Ñ(MÔUW×U]ÑU]Ñ ^ÐaoÑ oÐpó
Ðð 	×!Ñ!Ð"3Ö4ñ/ &ô2 ŸšÐ"4Ó5Ðô ŸšØš1ša ˜:Ñ&¨È+Ð(VóÐð ,×3Ñ3°JÐVaÑ@aÓbÐô iŠi˜Ó$ T¨4² ]Ñ3€GÜoŠo˜g¨
ÈÐ'UÓV×^Ñ^Ø¨+Ñ5ó€Gð ,¨gÑ5Ðð ×ÑÓ /°AÑ"5Ó5ØGVÐYZÑGZÐ°À!Ñ0CÑCÑDô ×Òm¸¸BÔ?àÐùòw :s   Â(I/c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚSpeechT5NoLayerNormConvLayeréÔ   c                 ób  >• [         TU ]  5         US:”  a  UR                  US-
     OSU l        UR                  U   U l        [
        R                  " U R                  U R                  UR                  U   UR                  U   UR                  S9U l
        [        UR                     U l        g )Nr   r   ©Úkernel_sizeÚstrideÚbias)ÚsuperÚ__init__Úconv_dimÚin_conv_dimÚout_conv_dimr   ÚConv1dÚconv_kernelÚconv_strideÚ	conv_biasÚconvr
   Úfeat_extract_activationÚ
activation©ÚselfÚconfigÚlayer_idÚ	__class__s      €r*   ro   Ú%SpeechT5NoLayerNormConvLayer.__init__Õ   s—   ø€ Ü‰ÑÔØ<DÀq»L˜6Ÿ?™?¨8°a©<Ò8ÈaˆÔØ"ŸO™O¨HÑ5ˆÔä—I’IØ×ÑØ×ÑØ×*Ñ*¨8Ñ4Ø×%Ñ% hÑ/Ø×!Ñ!ñ
ˆŒ	ô ! ×!?Ñ!?Ñ@ˆr,   c                 óJ   • U R                  U5      nU R                  U5      nU$ ©N)rw   ry   ©r{   Úhidden_statess     r*   ÚforwardÚ$SpeechT5NoLayerNormConvLayer.forwardã   s$   € ØŸ	™	 -Ó0ˆØŸ™¨Ó6ˆØÐr,   )ry   rw   rq   rr   ©r   ©Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__ro   r„   Ú__static_attributes__Ú__classcell__©r~   s   @r*   rg   rg   Ô   s   ø† ÷A÷ð r,   rg   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚSpeechT5LayerNormConvLayeréê   c                 óª  >• [         TU ]  5         US:”  a  UR                  US-
     OSU l        UR                  U   U l        [
        R                  " U R                  U R                  UR                  U   UR                  U   UR                  S9U l
        [
        R                  " U R                  SS9U l        [        UR                     U l        g )Nr   r   rj   T)Úelementwise_affine)rn   ro   rp   rq   rr   r   rs   rt   ru   rv   rw   Ú	LayerNormÚ
layer_normr
   rx   ry   rz   s      €r*   ro   Ú#SpeechT5LayerNormConvLayer.__init__ë   s¯   ø€ Ü‰ÑÔØ<DÀq»L˜6Ÿ?™?¨8°a©<Ò8ÈaˆÔØ"ŸO™O¨HÑ5ˆÔä—I’IØ×ÑØ×ÑØ×*Ñ*¨8Ñ4Ø×%Ñ% hÑ/Ø×!Ñ!ñ
ˆŒ	ô Ÿ,š, t×'8Ñ'8ÈTÑRˆŒÜ  ×!?Ñ!?Ñ@ˆr,   c                 ó´   • U R                  U5      nUR                  SS5      nU R                  U5      nUR                  SS5      nU R                  U5      nU$ )Néþÿÿÿr#   )rw   Ú	transposer•   ry   r‚   s     r*   r„   Ú"SpeechT5LayerNormConvLayer.forwardú   sV   € ØŸ	™	 -Ó0ˆà%×/Ñ/°°BÓ7ˆØŸ™¨Ó6ˆØ%×/Ñ/°°BÓ7ˆàŸ™¨Ó6ˆØÐr,   ©ry   rw   rq   r•   rr   r†   r‡   rŽ   s   @r*   r   r   ê   s   ø† ÷A÷ð r,   r   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚSpeechT5GroupNormConvLayeri  c                 óÀ  >• [         TU ]  5         US:”  a  UR                  US-
     OSU l        UR                  U   U l        [
        R                  " U R                  U R                  UR                  U   UR                  U   UR                  S9U l
        [        UR                     U l        [
        R                  " U R                  U R                  SS9U l        g )Nr   r   rj   T)Ú
num_groupsÚnum_channelsÚaffine)rn   ro   rp   rq   rr   r   rs   rt   ru   rv   rw   r
   rx   ry   Ú	GroupNormr•   rz   s      €r*   ro   Ú#SpeechT5GroupNormConvLayer.__init__  s¹   ø€ Ü‰ÑÔØ<DÀq»L˜6Ÿ?™?¨8°a©<Ò8ÈaˆÔØ"ŸO™O¨HÑ5ˆÔä—I’IØ×ÑØ×ÑØ×*Ñ*¨8Ñ4Ø×%Ñ% hÑ/Ø×!Ñ!ñ
ˆŒ	ô ! ×!?Ñ!?Ñ@ˆŒäŸ,š,°$×2CÑ2CÐRV×RcÑRcÐlpÑqˆr,   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ r   )rw   r•   ry   r‚   s     r*   r„   Ú"SpeechT5GroupNormConvLayer.forward  s2   € ØŸ	™	 -Ó0ˆØŸ™¨Ó6ˆØŸ™¨Ó6ˆØÐr,   r›   r†   r‡   rŽ   s   @r*   r   r     s   ø† ÷r÷ ð r,   r   c            	       ó  ^ • \ rS rSrSrSS\S\S\\   4U 4S jjjrSS\S\S\\   4S jjr\	SS\S\S\\   4S	 jj5       r
\R                  " 5       SS
\R                  S\4S jj5       r SS
\R                  S\S\\   4S jjrSrU =r$ )Ú%SpeechT5SinusoidalPositionalEmbeddingi  zDThis module produces sinusoidal positional embeddings of any length.Únum_positionsÚembedding_dimÚpadding_idxc                 ó„   >• [         TU ]  5         SU l        X l        X0l        U R                  XR                  -   X#5        g ©Né   )rn   ro   Úoffsetr©   rª   Úmake_weights)r{   r¨   r©   rª   r~   s       €r*   ro   Ú.SpeechT5SinusoidalPositionalEmbedding.__init__"  s8   ø€ Ü‰ÑÔØˆŒØ*ÔØ&ÔØ×Ñ˜-¯+©+Ñ5°}ÕRr,   Únum_embeddingsc                 óÜ   • U R                  XU5      n[        U S5      (       a8  UR                  U R                  R                  U R                  R
                  S9nU R                  SUSS9  g )NÚweights©rE   ÚdeviceF©Ú
persistent)Úget_embeddingÚhasattrÚtor³   rE   rµ   Úregister_buffer)r{   r±   r©   rª   Úemb_weightss        r*   r¯   Ú2SpeechT5SinusoidalPositionalEmbedding.make_weights)  s\   € Ø×(Ñ(¨ÈÓTˆÜ4˜×#Ñ#à%Ÿ.™.¨t¯|©|×/AÑ/AÈ$Ï,É,×J]ÑJ]˜.Ð^ˆKà×Ñ˜Y¨ÀÐÒFr,   c                 óà  • US-  n[         R                  " S5      US-
  -  n[        R                  " [        R                  " U[        R
                  S9R                  5       U* -  5      n[        R                  " U [        R
                  S9R                  5       R                  S5      UR                  S5      -  n[        R                  " [        R                  " U5      [        R                  " U5      /SS9R                  U S5      nUS-  S:X  a,  [        R                  " U[        R                  " U S5      /SS9nUb  SXBSS24'   UR                  [        R                  " 5       5      $ )	z©
Build sinusoidal embeddings. This matches the implementation in tensor2tensor, but differs slightly from the
description in Section 3.5 of "Attention Is All You Need".
r­   i'  r   rD   r   ©Údimr#   N)ÚmathÚlogÚtorchÚexprR   Úint64ÚfloatÚ	unsqueezeÚcatÚsinÚcosÚviewrO   rº   Úget_default_dtype)r±   r©   rª   Úhalf_dimÚembs        r*   r¸   Ú3SpeechT5SinusoidalPositionalEmbedding.get_embedding1  s  € ð ! AÑ%ˆÜhŠhu‹o ¨A¡Ñ.ˆÜiŠiœŸš X´U·[±[ÑA×GÑGÓIÈSÈDÑPÓQˆÜlŠl˜>´·±Ñ=×CÑCÓE×OÑOÐPQÓRÐUX×UbÑUbÐcdÓUeÑeˆÜiŠiœŸš 3›¬¯ª°3«Ð8¸aÑ@×EÑEÀnÐVXÓYˆØ˜1Ñ Ó!ä—)’)˜S¤%§+¢+¨n¸aÓ"@ÐAÀqÑIˆCØÑ"Ø"#ˆCšQÑØv‰v”e×-Ò-Ó/Ó0Ð0r,   r   Úpast_key_values_lengthc                 óè  • UR                  5       u  p4U R                  XR                  U5      R                  UR                  5      nU R                  S-   U-   nX`R
                  R                  S5      :”  a3  U R                  X`R                  -   U R                  U R                  5        U R
                  R                  SUR                  S5      5      R                  X4S5      R                  5       $ )Nr   r   r#   )ÚsizeÚ"create_position_ids_from_input_idsrª   rº   rµ   r³   r¯   r®   r©   Úindex_selectrË   rK   )r{   r   rÐ   ÚbszÚseq_lenÚposition_idsÚmax_poss          r*   r„   Ú-SpeechT5SinusoidalPositionalEmbedding.forwardC  sÇ   € à —~‘~Ó'‰ˆà×>Ñ>¸y×JZÑJZÐ\rÓs×vÑvØ×Ñó
ˆð
 ×"Ñ" QÑ&¨Ñ0ˆØ—\‘\×&Ñ& qÓ)Ó)Ø×Ñ˜g¯©Ñ3°T×5GÑ5GÈ×IYÑIYÔZà|‰|×(Ñ(¨¨L×,=Ñ,=¸bÓ,AÓB×GÑGÈÐVXÓY×`Ñ`ÓbÐbr,   c                 óº   • UR                  U5      R                  5       n[        R                  " USS9R	                  U5      U-   U-  nUR                  5       U-   $ )zì
Replace non-padding symbols with their position numbers. Position numbers begin at padding_idx+1. Padding
symbols are ignored. This is modified from fairseq's `utils.make_positions`.

Args:
    x: torch.Tensor x:
Returns: torch.Tensor
r   r¿   )Úner<   rÃ   ÚcumsumÚtype_asÚlong)r{   r   rª   rÐ   ÚmaskÚincremental_indicess         r*   rÓ   ÚHSpeechT5SinusoidalPositionalEmbedding.create_position_ids_from_input_idsR  sW   € ð |‰|˜KÓ(×,Ñ,Ó.ˆÜ$Ÿ|š|¨D°aÑ8×@Ñ@ÀÓFÐI_Ñ_ÐcgÑgÐØ"×'Ñ'Ó)¨KÑ7Ð7r,   )r©   r®   rª   r   r†   )rˆ   r‰   rŠ   r‹   Ú__doc__r<   r   ro   r¯   Ústaticmethodr¸   rÃ   Úno_gradÚTensorr„   rÓ   rŒ   r   rŽ   s   @r*   r§   r§     så   ø† ÙNñS cð S¸#ð SÈHÐUXÉM÷ Sð SñG¨3ð G¸sð GÐQYÐZ]ÑQ^õ Gð ñ1 cð 1¸#ð 1ÈHÐUXÉMô 1ó ð1ð" ‡]‚]ƒ_ñc §¡ð cÀsô có ðcð bcñ8ØŸ™ð8Ø47ð8ØQYÐZ]ÑQ^÷8ó 8r,   r§   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚSpeechT5PositionalConvEmbeddingid  c                 ó´  >• [         TU ]  5         [        R                  " UR                  UR                  UR
                  UR
                  S-  UR                  S9U l        [        R                  R                  n[        [        R                  R                  S5      (       a$  [        R                  R                  R                  n[        5       (       Ga%  SS KnUR                  R                  U R                  R                   SS9   U" U R                  SSS9U l        S S S 5        [        U R                  S5      (       aU  U R                  R                  R                   R"                  nU R                  R                  R                   R$                  nO,U R                  R&                  nU R                  R(                  nUR                  R+                  X5        UR                  R+                  X5        OU" U R                  SSS9U l        [-        UR
                  5      U l        [0        UR2                     U l        g ! , (       d  f       GN,= f)	Nr­   )rk   ÚpaddingÚgroupsÚweight_normr   )Úmodifier_rankÚweight)ÚnamerÀ   Úparametrizations)rn   ro   r   rs   Úhidden_sizeÚnum_conv_pos_embeddingsÚnum_conv_pos_embedding_groupsrw   Úutilsrë   r¹   rï   r   Ú	deepspeedÚzeroÚGatheredParametersrí   Ú	original0Ú	original1Úweight_gÚweight_vÚregister_external_parameterÚSpeechT5SamePadLayerré   r
   rx   ry   )r{   r|   rë   rô   rù   rú   r~   s         €r*   ro   Ú(SpeechT5PositionalConvEmbedding.__init__e  s¡  ø€ Ü‰ÑÔÜ—I’IØ×ÑØ×ÑØ×6Ñ6Ø×2Ñ2°aÑ7Ø×7Ñ7ñ
ˆŒ	ô —h‘h×*Ñ*ˆÜ”2—8‘8×,Ñ,¨m×<Ñ<ÜŸ(™(×3Ñ3×?Ñ?ˆKä%×'Ò'Ûà—‘×2Ñ2°4·9±9×3CÑ3CÐSTÐ2ÒUÙ'¨¯	©	¸ÀaÑH”	÷ Vät—y‘yÐ"4×5Ñ5ØŸ9™9×5Ñ5×<Ñ<×FÑFØŸ9™9×5Ñ5×<Ñ<×FÑF‘àŸ9™9×-Ñ-ØŸ9™9×-Ñ-ØN‰N×6Ñ6°tÔFØN‰N×6Ñ6°tÕFá# D§I¡I°HÀ!ÑDˆDŒIä+¨F×,JÑ,JÓKˆŒÜ  ×!?Ñ!?Ñ@ˆ÷ VÖUús   ÄIÉ
Ic                 ó´   • UR                  SS5      nU R                  U5      nU R                  U5      nU R                  U5      nUR                  SS5      nU$ ©Nr   r­   )r™   rw   ré   ry   r‚   s     r*   r„   Ú'SpeechT5PositionalConvEmbedding.forward†  sV   € Ø%×/Ñ/°°1Ó5ˆàŸ	™	 -Ó0ˆØŸ™ ]Ó3ˆØŸ™¨Ó6ˆà%×/Ñ/°°1Ó5ˆØÐr,   )ry   rw   ré   r‡   rŽ   s   @r*   rç   rç   d  s   ø† õA÷Bð r,   rç   c                   ó6   ^ • \ rS rSrSrSU 4S jjrS rSrU =r$ )Ú SpeechT5ScaledPositionalEncodingi‘  uS   
Scaled positional encoding, see Â§3.2 in https://huggingface.co/papers/1809.08895
c           	      ó  >• [         R                  " X25      n[         R                  " SU5      R                  S5      n[         R                  " [         R                  " SUS[         R
                  S9R                  5       [        R                  " S5      U-  * -  5      n[         R                  " UR                  5       U-  5      US S 2SS S24'   [         R                  " UR                  5       U-  5      US S 2SS S24'   UR                  S5      n[        TU ]1  5         U R                  SUSS9  [        R                  " US	9U l        X l        [        R$                  " [         R&                  " S
5      5      U l        g )Nr   r   r­   rD   g     ˆÃ@ÚpeFr¶   ©Úpç      ð?)rÃ   rO   rR   rÇ   rÄ   rÅ   rÆ   rÁ   rÂ   rÉ   rÊ   rn   ro   r»   r   ÚDropoutÚdropoutrÀ   Ú	ParameterÚtensorÚalpha)r{   r	  rÀ   Úmax_lenr  ÚpositionÚdiv_termr~   s          €r*   ro   Ú)SpeechT5ScaledPositionalEncoding.__init__–  s  ø€ Ü[Š[˜Ó&ˆÜ—<’<  7Ó+×5Ñ5°aÓ8ˆÜ—9’9œUŸ\š\¨!¨S°!¼5¿;¹;ÑG×MÑMÓOÔTX×T\ÒT\Ð]dÓTeÐhkÑTkÐRlÑlÓmˆÜ—i’i §¡Ó 0°8Ñ ;Ó<ˆŠ1ˆaˆdˆdˆ7‰Ü—i’i §¡Ó 0°8Ñ ;Ó<ˆŠ1ˆaˆdˆdˆ7‰Ø\‰\˜!‹_ˆÜ‰ÑÔØ×Ñ˜T 2°%ÐÑ8Ü—z’z GÑ,ˆŒØŒÜ—\’\¤%§,¢,¨sÓ"3Ó4ˆ
r,   c                 óŽ   • XR                   U R                  S S 2S UR                  S5      24   -  -   nU R                  U5      nU$ )Nr   )r  r  rÒ   r	  )r{   rÎ   s     r*   r„   Ú(SpeechT5ScaledPositionalEncoding.forward£  s@   € Ø—J‘J §¡ª¨M¨c¯h©h°q«k¨MÐ)9Ñ!:Ñ:Ñ:ˆØl‰l˜3ÓˆØˆ
r,   )r  rÀ   r	  )iˆ  )	rˆ   r‰   rŠ   r‹   râ   ro   r„   rŒ   r   rŽ   s   @r*   r  r  ‘  s   ø† ñ÷5÷ð r,   r  c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )Ú"SpeechT5RelativePositionalEncodingi©  c                 óŠ   >• [         TU ]  5         Xl        X l        [        R
                  R                  SU-  U5      U l        g r¬   )rn   ro   rÀ   Ú
max_lengthrÃ   r   Ú	EmbeddingÚpe_k)r{   rÀ   r  r~   s      €r*   ro   Ú+SpeechT5RelativePositionalEncoding.__init__ª  s4   ø€ Ü‰ÑÔØŒØ$ŒÜ—H‘H×&Ñ& q¨:¡~°sÓ;ˆ	r,   c                 ót  • UR                   S   n[        R                  " SU5      R                  UR                  [        R
                  S9nUS S 2S 4   US S S 24   -
  nU R                  * X3U R                  * :  '   U R                  S-
  X3U R                  :¬  '   X0R                  -   nU R                  U5      $ )Nr   r   ©rµ   rE   )r%   rÃ   rR   rº   rµ   rÞ   r  r  )r{   rƒ   rÖ   Úpos_seqs       r*   r„   Ú*SpeechT5RelativePositionalEncoding.forward°  s«   € Ø×%Ñ% aÑ(ˆÜ—,’,˜q 'Ó*×-Ñ-°]×5IÑ5IÔQV×Q[ÑQ[Ð-Ð\ˆØš!˜T˜'Ñ" W¨T²1¨WÑ%5Ñ5ˆà/3¯©Ð.>ˆ˜4Ÿ?™?Ð*Ñ*Ñ+Ø.2¯o©oÀÑ.Aˆ˜4Ÿ?™?Ñ*Ñ+ØŸO™OÑ+ˆày‰y˜Ó!Ð!r,   )rÀ   r  r  )iè  r‡   rŽ   s   @r*   r  r  ©  s   ø† ÷<÷	"ð 	"r,   r  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )rü   i½  c                 óR   >• [         TU ]  5         US-  S:X  a  SU l        g SU l        g )Nr­   r   r   )rn   ro   Únum_pad_remove)r{   rñ   r~   s     €r*   ro   ÚSpeechT5SamePadLayer.__init__¾  s)   ø€ Ü‰ÑÔØ#:¸QÑ#>À!Ó#C˜aˆÕÈˆÕr,   c                 óX   • U R                   S:”  a  US S 2S S 2S U R                   * 24   nU$ ©Nr   ©r   r‚   s     r*   r„   ÚSpeechT5SamePadLayer.forwardÂ  s6   € Ø×Ñ Ó"Ø)ª!ªQÐ0F°4×3FÑ3FÐ2FÐ0FÐ*FÑGˆMØÐr,   r$  r‡   rŽ   s   @r*   rü   rü   ½  s   ø† õK÷ð r,   rü   c                   ó8   ^ • \ rS rSrSrU 4S jrS rS rSrU =r	$ )ÚSpeechT5FeatureEncoderiÉ  z.Construct the features from raw audio waveformc           	      óÐ  >• [         TU ]  5         UR                  S:X  a?  [        USS9/[	        UR
                  S-
  5       Vs/ sH  n[        XS-   S9PM     sn-   nOUUR                  S:X  a,  [	        UR
                  5       Vs/ sH  n[        XS9PM     nnO[        SUR                   S35      e[        R                  " U5      U l        SU l        S	U l        g s  snf s  snf )
NÚgroupr   )r}   r   Úlayerz`config.feat_extract_norm` is z), but has to be one of ['group', 'layer']FT)rn   ro   Úfeat_extract_normr   rN   Únum_feat_extract_layersrg   r   r'   r   Ú
ModuleListÚconv_layersÚgradient_checkpointingÚ_requires_grad)r{   r|   Úir.  r~   s       €r*   ro   ÚSpeechT5FeatureEncoder.__init__Ì  s÷   ø€ Ü‰ÑÔà×#Ñ# wÓ.Ü5°fÀqÑIÐJÜNSÐTZ×TrÑTrÐuvÑTvÔNwóNÙNwÈÔ,¨VÀ!¹eÔDÑNwñNñ ‰Kð ×%Ñ%¨Ó0äHMÈf×NlÑNlÔHmóÙHmÀ1Ô*¨6Ô>ÑHmð ð ˆKô Ø0°×1IÑ1IÐ0JÐJsÐtóð ô Ÿ=š=¨Ó5ˆÔØ&+ˆÔ#Ø"ˆÕùòNùòs   ÁCÂC#c                 óN   • U R                  5        H
  nSUl        M     SU l        g )NF)Ú
parametersÚrequires_gradr0  )r{   Úparams     r*   Ú_freeze_parametersÚ)SpeechT5FeatureEncoder._freeze_parametersß  s#   € Ø—_‘_Ö&ˆEØ"'ˆEÖñ 'à#ˆÕr,   c                 ó    • US S 2S 4   nU R                   (       a  U R                  (       a  SUl        U R                   H  nU" U5      nM     U$ ©NT)r0  Útrainingr5  r.  )r{   r-   rƒ   Ú
conv_layers       r*   r„   ÚSpeechT5FeatureEncoder.forwardä  sK   € Ø$¢Q¨ WÑ-ˆð ×× 4§=§=Ø*.ˆMÔ'à×*Ô*ˆJÙ& }Ó5ŠMñ +ð Ðr,   )r0  r.  r/  )
rˆ   r‰   rŠ   r‹   râ   ro   r7  r„   rŒ   r   rŽ   s   @r*   r'  r'  É  s   ø† Ù8õ#ò&$÷

ð 
r,   r'  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚSpeechT5FeatureProjectioniò  c                 ó4  >• [         TU ]  5         [        R                  " UR                  S   UR
                  S9U l        [        R                  " UR                  S   UR                  5      U l	        [        R                  " UR                  5      U l        g )Nr#   ©Úeps)rn   ro   r   r”   rp   Úlayer_norm_epsr•   ÚLinearrð   Ú
projectionr  Úfeat_proj_dropoutr	  ©r{   r|   r~   s     €r*   ro   Ú"SpeechT5FeatureProjection.__init__ó  sf   ø€ Ü‰ÑÔÜŸ,š, v§¡°rÑ':À×@UÑ@UÑVˆŒÜŸ)š) F§O¡O°BÑ$7¸×9KÑ9KÓLˆŒÜ—z’z &×":Ñ":Ó;ˆr,   c                 ón   • U R                  U5      nU R                  U5      nU R                  U5      nX4$ r   )r•   rE  r	  )r{   rƒ   Únorm_hidden_statess      r*   r„   Ú!SpeechT5FeatureProjection.forwardù  s7   € à!Ÿ_™_¨]Ó;ÐØŸ™Ð(:Ó;ˆØŸ™ ]Ó3ˆØÐ0Ð0r,   )r	  r•   rE  r‡   rŽ   s   @r*   r?  r?  ò  s   ø† õ<÷1ð 1r,   r?  c                   óL  ^ • \ rS rSrU 4S jrS r  SS\R                  S\\R                     S\\R                     4S jjrS\S\R                  4S	 jrS
\\R                  \4   4S jr  SS\R                  S\\R                     S\\R                     4S jjrSrU =r$ )ÚSpeechT5SpeechEncoderPreneti  c                 óÜ  >• [         TU ]  5         Xl        [        U5      U l        [        U5      U l        UR                  S:”  d  UR                  S:”  aG  [        R                  " [        R                  " UR                  5      R                  5       5      U l        [!        U5      U l        [%        UR&                  UR(                  -   S-   UR                  UR(                  5      U l        g )Nr2   r   )rn   ro   r|   r'  Úfeature_encoderr?  Úfeature_projectionÚmask_time_probÚmask_feature_probr   r
  rÃ   rå   rð   Úuniform_Úmasked_spec_embedrç   Úpos_conv_embedr§   Úmax_speech_positionsr    Úpos_sinusoidal_embedrG  s     €r*   ro   Ú$SpeechT5SpeechEncoderPrenet.__init__  s¸   ø€ Ü‰ÑÔØŒÜ5°fÓ=ˆÔÜ";¸FÓ"CˆÔð × Ñ  3Ó&¨&×*BÑ*BÀSÓ*HÜ%'§\¢\´%·,²,¸v×?QÑ?QÓ2R×2[Ñ2[Ó2]Ó%^ˆDÔ"ä=¸fÓEˆÔÜ$IØ×'Ñ'¨&×*=Ñ*=Ñ=ÀÑAØ×ÑØ×Ñó%
ˆÕ!r,   c                 ó8   • U R                   R                  5         g r   )rO  r7  ©r{   s    r*   Úfreeze_feature_encoderÚ2SpeechT5SpeechEncoderPrenet.freeze_feature_encoder  s   € Ø×Ñ×/Ñ/Õ1r,   r-   r/   Úmask_time_indicesc                 óè  • U R                  U5      nUR                  SS5      nUb  U R                  UR                  S   U5      nU R	                  U5      u  pTU R                  XSUS9nU R                  U5      nXV-   nUb   UR                  S5      R                  5       nO;[        R                  " UR                  S S [        R                  UR                  S9nU R                  U5      nXX-   nXR4$ )Nr   r­   )r]  r/   r´   )rO  r™   Ú"_get_feature_vector_attention_maskr%   rP  Ú_mask_hidden_statesrU  rÛ   rÞ   rÃ   rO   rµ   rW  )	r{   r-   r/   r]  Úextract_featuresrƒ   Úpositional_conv_embeddingÚpadding_maskÚ positional_sinusoidal_embeddingss	            r*   r„   Ú#SpeechT5SpeechEncoderPrenet.forward  s  € ð  ×/Ñ/°Ó=ÐØ+×5Ñ5°a¸Ó;ÐàÑ%à!×DÑDØ ×&Ñ& qÑ)ØóˆNð
 +/×*AÑ*AÐBRÓ*SÑ'ˆØ×0Ñ0ØÈ~ð 1ð 
ˆð %)×$7Ñ$7¸Ó$FÐ!Ø%ÑAˆàÑ%Ø)×,Ñ,¨QÓ/×4Ñ4Ó6‰Lä Ÿ;š; }×':Ñ':¸2¸AÐ'>ÄeÇjÁjÐYf×YmÑYmÑnˆLà+/×+DÑ+DÀ\Ó+RÐ(Ø%ÑHˆàÐ,Ð,r,   Úfeature_vector_lengthc                 óè  • UR                  SS9S S 2S4   nU R                  U5      R                  [        R                  5      nUR
                  S   n[        R                  " XQ4UR                  UR                  S9nSU[        R                  " UR
                  S   UR                  S9US-
  4'   UR                  S/5      R                  S5      R                  S/5      R                  5       nU$ )Nr#   r¿   r   r´   r   ©rµ   )rÜ   Ú _get_feat_extract_output_lengthsrº   rÃ   rÞ   r%   rO   rE   rµ   rR   ÚfliprP   )r{   rf  r/   Únon_padded_lengthsÚoutput_lengthsr\   s         r*   r_  Ú>SpeechT5SpeechEncoderPrenet._get_feature_vector_attention_mask9  sè   € ð ,×2Ñ2°rÐ2Ð:º1¸b¸5ÑAÐØ×>Ñ>Ð?QÓR×UÑUÔV[×V`ÑV`ÓaˆØ#×)Ñ)¨!Ñ,ˆ
äŸšØÐ/°~×7KÑ7KÐTb×TiÑTiñ
ˆð uvˆœŸš ^×%9Ñ%9¸!Ñ%<À^×EZÑEZÑ[Ð]kÐnoÑ]oÐpÑqØ'×,Ñ,¨b¨TÓ2×9Ñ9¸"Ó=×BÑBÀBÀ4ÓH×MÑMÓOˆØÐr,   r^   c                 ó˜   • S n[        U R                  R                  U R                  R                  5       H  u  p4U" XU5      nM     U$ )z8
Computes the output length of the convolutional layers
c                 ó8   • [         R                  " X-
  USS9S-   $ )NÚfloor)Úrounding_moder   )rÃ   Údiv)r>   rk   rl   s      r*   Ú_conv_out_lengthÚVSpeechT5SpeechEncoderPrenet._get_feat_extract_output_lengths.<locals>._conv_out_lengthN  s    € ô —9’9˜\Ñ7¸ÈwÑWÐZ[Ñ[Ð[r,   )Úzipr|   rt   ru   )r{   r^   rs  rk   rl   s        r*   ri  Ú<SpeechT5SpeechEncoderPrenet._get_feat_extract_output_lengthsI  sG   € ò
	\ô
 $' t§{¡{×'>Ñ'>ÀÇÁ×@WÑ@WÖ#XÑˆKÙ,¨]ÈÓPŠMñ $Yð Ðr,   rƒ   c                 óÎ  • [        U R                  SS5      (       d  U$ UR                  5       u  pEnUb(  U R                  R	                  UR
                  5      X'   OÉU R                  R                  S:”  a¯  U R                  (       až  [        XE4U R                  R                  U R                  R                  UU R                  R                  S9n[        R                  " X!R                  [        R                  S9nU R                  R	                  UR
                  5      X'   U R                  R                  S:”  a¥  U R                  (       a”  [        XF4U R                  R                  U R                  R                   U R                  R"                  S9n[        R                  " XqR                  [        R                  S9nUSS2S4   R%                  SUS5      nSX'   U$ )	zŠ
Masks extracted features along time axis and/or along feature axis according to
[SpecAugment](https://huggingface.co/papers/1904.08779).
Úapply_spec_augmentTNr   )r5   r6   r/   r7   r  )r5   r6   r7   r#   )Úgetattrr|   rÒ   rT  rº   rE   rQ  r;  re   Úmask_time_lengthÚmask_time_min_masksrÃ   r  rµ   rP   rR  Úmask_feature_lengthÚmask_feature_min_masksÚexpand)r{   rƒ   r]  r/   r\   rA   rð   Úmask_feature_indicess           r*   r`  Ú/SpeechT5SpeechEncoderPrenet._mask_hidden_statesY  sŠ  € ô t—{‘{Ð$8¸$×?Ñ?Ø Ð ð 4A×3EÑ3EÓ3GÑ0ˆ
 [àÑ(à/3×/EÑ/E×/HÑ/HÈ×I\ÑI\Ó/]ˆMÒ,Ø[‰[×'Ñ'¨!Ó+°··Ü 5ØÐ-ØŸ+™+×4Ñ4Ø ŸK™K×8Ñ8Ø-ØŸ+™+×9Ñ9ñ!Ðô !&§¢Ð->×G[ÑG[Ôch×cmÑcmÑ nÐØ/3×/EÑ/E×/HÑ/HÈ×I\ÑI\Ó/]ˆMÑ,à;‰;×(Ñ(¨1Ó,°··ä#8ØÐ)ØŸ+™+×7Ñ7Ø ŸK™K×;Ñ;ØŸ+™+×<Ñ<ñ	$Ð ô $)§<¢<Ð0D×MaÑMaÔin×isÑisÑ#tÐ Ø#7º¸4¸Ñ#@×#GÑ#GÈÈOÐ]_Ó#`Ð Ø23ˆMÑ/àÐr,   )r|   rO  rP  rT  rU  rW  ©NN)rˆ   r‰   rŠ   r‹   ro   r[  rÃ   rå   r   Ú
LongTensorÚFloatTensorr„   r<   r_  r   ri  r`  rŒ   r   rŽ   s   @r*   rM  rM    sÒ   ø† õ
ò"2ð 6:Ø9=ñ	 -à—l‘lð -ð ! ×!1Ñ!1Ñ2ð -ð $ E×$5Ñ$5Ñ6õ	 -ðFÈð Ð]b×]mÑ]mô ð ¸eÀE×DTÑDTÐVYÐDYÑ>Zô ð& :>Ø59ñ	,à×(Ñ(ð,ð $ E×$5Ñ$5Ñ6ð,ð ! ×!1Ñ!1Ñ2÷	,ó ,r,   rM  c                   ót   ^ • \ rS rSrU 4S jrS r SS\R                  S\\R                     4S jjr	Sr
U =r$ )	ÚSpeechT5SpeechDecoderPrenetiˆ  c           	      ód  >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH@  n[        R                  " US:X  a  UR                  OUR                  UR                  5      PMB     sn5      U l
        [        R                  " UR                  UR                  5      U l        [        UR                  UR                  UR                  5      U l        [        R                  " UR"                  UR                  -   UR                  5      U l        g s  snf r#  )rn   ro   r|   r   r-  rN   Úspeech_decoder_prenet_layersrD  Únum_mel_binsÚspeech_decoder_prenet_unitsÚlayersrð   Úfinal_layerr  Úpositional_dropoutrV  Úencode_positionsÚspeaker_embedding_dimÚspeaker_embeds_layer©r{   r|   r1  r~   s      €r*   ro   Ú$SpeechT5SpeechDecoderPrenet.__init__‰  sõ   ø€ Ü‰ÑÔØŒä—m’mô ˜v×BÑBÔCóñ
 DAô	 —	’	Ø+,°«6F×'Ò'°v×7YÑ7YØ×6Ñ6öñ Dñó
ˆŒô Ÿ9š9 V×%GÑ%GÈ×I[ÑI[Ó\ˆÔÜ @Ø×%Ñ%Ø×ÑØ×'Ñ'ó!
ˆÔô
 %'§I¢I¨f×.JÑ.JÈV×M_ÑM_Ñ._Ðag×asÑasÓ$tˆÕ!ùòs   ½AD-c                 óÜ   • [         R                  " US   US9nUR                  S5      R                  UR	                  S5      SS5      n[         R
                  " US:H  US5      S-  SU-
  -  $ )Nr   r  r   )rÃ   Ú	bernoullirÇ   ÚrepeatrÒ   Úwhere)r{   Úinputs_embedsr  rß   Ú	all_maskss        r*   Ú_consistent_dropoutÚ/SpeechT5SpeechDecoderPrenet._consistent_dropoutŸ  sd   € ÜŠ˜}¨QÑ/°1Ñ5ˆØ—N‘N 1Ó%×,Ñ,¨]×-?Ñ-?ÀÓ-BÀAÀqÓIˆ	Ü{Š{˜9¨™>¨=¸!Ó<¸qÑ@ÀAÈÁEÑJÐJr,   r-   Úspeaker_embeddingsc                 ó6  • UnU R                    HM  n[        R                  R                  U" U5      5      nU R	                  X0R
                  R                  5      nMO     U R                  U5      nU R                  U5      nUb”  [        R                  R                  U5      nUR                  S5      R                  SUR                  S5      S5      n[        R                  " X2/SS9n[        R                  R                  U R                  U5      5      nU$ )Nr   r#   r¿   )rŠ  r   Ú
functionalÚrelur˜  r|   Úspeech_decoder_prenet_dropoutr‹  r  Ú	normalizerÇ   r~  rÒ   rÃ   rÈ   r  )r{   r-   rš  r–  r*  s        r*   r„   Ú#SpeechT5SpeechDecoderPrenet.forward¤  sí   € ð %ˆØ—[”[ˆEÜŸM™M×.Ñ.©u°]Ó/CÓDˆMØ ×4Ñ4°]ÇKÁK×DmÑDmÓnŠMñ !ð ×(Ñ(¨Ó7ˆØ×-Ñ-¨mÓ<ˆàÑ)Ü!#§¡×!8Ñ!8Ð9KÓ!LÐØ!3×!=Ñ!=¸aÓ!@×!GÑ!GÈÈM×L^ÑL^Ð_`ÓLaÐceÓ!fÐÜ!ŸIšI }Ð&IÈrÑRˆMÜŸM™M×.Ñ.¨t×/HÑ/HÈÓ/WÓXˆMàÐr,   )r|   r  r‹  rŠ  r  r   )rˆ   r‰   rŠ   r‹   ro   r˜  rÃ   rå   r   r„   rŒ   r   rŽ   s   @r*   r…  r…  ˆ  s=   ø† õuò,Kð 6:ñà—l‘lðð % U§\¡\Ñ2÷ó r,   r…  c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚSpeechT5BatchNormConvLayeri¼  c           	      ó  >• [         TU ]  5         US:X  a  UR                  nOUR                  nX!R                  S-
  :X  a  UR                  nOUR                  n[
        R                  " UUUR                  SUR                  S-
  S-  SS9U l        [
        R                  " U5      U l
        X!R                  S-
  :  a  [
        R                  " 5       U l        OS U l        [
        R                  " UR                  5      U l        g )Nr   r   r­   F)rk   rl   ré   rm   )rn   ro   rˆ  Úspeech_decoder_postnet_unitsÚspeech_decoder_postnet_layersr   rs   Úspeech_decoder_postnet_kernelrw   ÚBatchNorm1dÚ
batch_normÚTanhry   r  Úspeech_decoder_postnet_dropoutr	  )r{   r|   r}   rq   rr   r~   s        €r*   ro   Ú#SpeechT5BatchNormConvLayer.__init__½  s×   ø€ Ü‰ÑÔàq‹=Ø ×-Ñ-‰Kà ×=Ñ=ˆKà×;Ñ;¸aÑ?Ó?Ø!×.Ñ.‰Là!×>Ñ>ˆLä—I’IØØØ×<Ñ<ØØ×9Ñ9¸AÑ=À!ÑCØñ
ˆŒ	ô Ÿ.š.¨Ó6ˆŒà×:Ñ:¸QÑ>Ó>Ü Ÿgšg›iˆDOà"ˆDŒOä—z’z &×"GÑ"GÓHˆr,   c                 ó¨   • U R                  U5      nU R                  U5      nU R                  b  U R                  U5      nU R                  U5      nU$ r   )rw   r¨  ry   r	  r‚   s     r*   r„   Ú"SpeechT5BatchNormConvLayer.forwardÛ  sJ   € ØŸ	™	 -Ó0ˆØŸ™¨Ó6ˆØ?‰?Ñ&Ø ŸO™O¨MÓ:ˆMØŸ™ ]Ó3ˆØÐr,   )ry   r¨  rw   r	  r†   r‡   rŽ   s   @r*   r¢  r¢  ¼  s   ø† ÷I÷<ð r,   r¢  c                   ól   ^ • \ rS rSrU 4S jrS\R                  4S jrS\R                  4S jrSr	U =r
$ )ÚSpeechT5SpeechDecoderPostnetiä  c           	      ó   >• [         TU ]  5         Xl        [        R                  " UR
                  UR                  UR                  -  5      U l        [        R                  " UR
                  UR                  5      U l	        [        R                  " [        UR                  5       Vs/ sH  n[        X5      PM     sn5      U l        g s  snf r   )rn   ro   r|   r   rD  rð   rˆ  r.   Úfeat_outÚprob_outr-  rN   r¥  r¢  rŠ  r  s      €r*   ro   Ú%SpeechT5SpeechDecoderPostnet.__init__å  s’   ø€ Ü‰ÑÔØŒäŸ	š	 &×"4Ñ"4°f×6IÑ6IÈF×LcÑLcÑ6cÓdˆŒÜŸ	š	 &×"4Ñ"4°f×6MÑ6MÓNˆŒä—m’mÜ<AÀ&×BfÑBfÔ<gÓhÑ<g°qÔ'¨Ö2Ñ<gÑhó
ˆùÚhs   Â*Crƒ   c                 ó  • U R                  U5      R                  UR                  S5      SU R                  R                  5      nU R                  U5      nU R                  U5      R                  UR                  S5      S5      nX#U4$ )Nr   r#   )r±  rË   rÒ   r|   rˆ  Úpostnetr²  )r{   rƒ   Úoutputs_before_postnetÚoutputs_after_postnetÚlogitss        r*   r„   Ú$SpeechT5SpeechDecoderPostnet.forwardð  s{   € Ø!%§¡¨}Ó!=×!BÑ!BÀ=×CUÑCUÐVWÓCXÐZ\Ð^b×^iÑ^i×^vÑ^vÓ!wÐØ $§¡Ð-CÓ DÐØ—‘˜}Ó-×2Ñ2°=×3EÑ3EÀaÓ3HÈ"ÓMˆØ%¸fÐDÐDr,   c                 ó„   • UR                  SS5      nU R                   H  nU" U5      nM     XR                  SS5      -   $ rÿ   )r™   rŠ  )r{   rƒ   Úlayer_outputr*  s       r*   rµ  Ú$SpeechT5SpeechDecoderPostnet.postnetö  sB   € Ø$×.Ñ.¨q°!Ó4ˆØ—[”[ˆEÙ  Ó.ŠLñ !à×5Ñ5°a¸Ó;Ñ;Ð;r,   )r|   r±  rŠ  r²  )rˆ   r‰   rŠ   r‹   ro   rÃ   rå   r„   rµ  rŒ   r   rŽ   s   @r*   r¯  r¯  ä  s/   ø† õ	
ðE U§\¡\ô Eð< U§\¡\÷ <ò <r,   r¯  c                   óJ   ^ • \ rS rSrU 4S jrS\R                  4S jrSrU =r	$ )ÚSpeechT5TextEncoderPrenetiý  c                 ó  >• [         TU ]  5         Xl        [        R                  " UR
                  UR                  UR                  5      U l        [        UR                  UR                  UR                  5      U l        g r   )rn   ro   r|   r   r  Ú
vocab_sizerð   r    Úembed_tokensr  rŒ  Úmax_text_positionsr  rG  s     €r*   ro   Ú"SpeechT5TextEncoderPrenet.__init__þ  sc   ø€ Ü‰ÑÔØŒÜŸLšL¨×):Ñ):¸F×<NÑ<NÐPV×PcÑPcÓdˆÔÜ @Ø×%Ñ%Ø×ÑØ×%Ñ%ó!
ˆÕr,   r   c                 óJ   • U R                  U5      nU R                  U5      nU$ r   )rÁ  r  )r{   r   r–  s      r*   r„   Ú!SpeechT5TextEncoderPrenet.forward  s(   € Ø×)Ñ)¨)Ó4ˆØ×-Ñ-¨mÓ<ˆØÐr,   )r|   rÁ  r  )
rˆ   r‰   rŠ   r‹   ro   rÃ   rå   r„   rŒ   r   rŽ   s   @r*   r¾  r¾  ý  s   ø† õ
ð §¡÷ ò r,   r¾  c                   óz   ^ • \ rS rSrU 4S jr  SS\R                  S\\R                     S\\	   4S jjr
SrU =r$ )	ÚSpeechT5TextDecoderPreneti  c                 óÞ  >• [         TU ]  5         Xl        [        R                  " UR
                  5      U l        UR                  (       a   [        R                  " UR                  5      OSU l        [        R                  " UR                  UR                  UR                  5      U l        [!        UR"                  UR                  -   S-   UR                  UR                  5      U l        g )Nr  r   )rn   ro   r|   r   r  rŒ  r	  Úscale_embeddingrÁ   Úsqrtrð   Úembed_scaler  rÀ  r    rÁ  r§   rÂ  Úembed_positionsrG  s     €r*   ro   Ú"SpeechT5TextDecoderPrenet.__init__  s«   ø€ Ü‰ÑÔØŒÜ—z’z &×";Ñ";Ó<ˆŒØ<B×<R×<Rœ4Ÿ9š9 V×%7Ñ%7Ô8ÐX[ˆÔäŸLšL¨×):Ñ):¸F×<NÑ<NÐPV×PcÑPcÓdˆÔäDØ×%Ñ%¨×(;Ñ(;Ñ;¸aÑ?Ø×ÑØ×Ñó 
ˆÕr,   r   r/   Úpast_key_valuesc                 óv  • Ub&  UR                  5       nUR                  SUS   5      nO[        S5      eSnUb:  [        U[        5      (       d  US   S   R
                  S   OUR                  5       nU R                  X5      nU R                  U5      U R                  -  nXv-  nU R                  U5      nXr4$ )Nr#   z'You have to specify `decoder_input_ids`r   r˜   )rÒ   rË   r'   Ú
isinstancer   r%   Úget_seq_lengthrÌ  rÁ  rË  r	  )r{   r   r/   rÎ  Úinput_shaperÐ   Ú	positionsr–  s           r*   r„   Ú!SpeechT5TextDecoderPrenet.forward  sÈ   € ð Ñ Ø#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;‰IäÐFÓGÐGà!"ÐØÑ&ô " /´5×9Ñ9ð   Ñ" 1Ñ%×+Ñ+¨BÒ/à$×3Ñ3Ó5ð #ð ×(Ñ(¨ÓKˆ	à×)Ñ)¨)Ó4°t×7GÑ7GÑGˆØÑ"ˆØŸ™ ]Ó3ˆàÐ,Ð,r,   )r|   r	  rÌ  rË  rÁ  r  )rˆ   r‰   rŠ   r‹   ro   rÃ   rå   r   r‚  r   r„   rŒ   r   rŽ   s   @r*   rÇ  rÇ    sI   ø† õ
ð" 6:Ø+/ñ	-à—<‘<ð-ð ! ×!1Ñ!1Ñ2ð-ð " %™÷	-ó -r,   rÇ  c                   óV   ^ • \ rS rSrU 4S jrS\R                  4S jrS rS r	Sr
U =r$ )ÚSpeechT5TextDecoderPostneti:  c                 óŒ   >• [         TU ]  5         Xl        [        R                  " UR
                  UR                  SS9U l        g )NF©rm   )rn   ro   r|   r   rD  rð   rÀ  Úlm_headrG  s     €r*   ro   Ú#SpeechT5TextDecoderPostnet.__init__;  s3   ø€ Ü‰ÑÔØŒÜ—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆr,   rƒ   c                 ó$   • U R                  U5      $ r   ©rÙ  r‚   s     r*   r„   Ú"SpeechT5TextDecoderPostnet.forward@  s   € Ø|‰|˜MÓ*Ð*r,   c                 ó   • U R                   $ r   rÜ  rZ  s    r*   Úget_output_embeddingsÚ0SpeechT5TextDecoderPostnet.get_output_embeddingsC  s   € ð |‰|Ðr,   c                 ó   • Xl         g r   rÜ  ©r{   Únew_embeddingss     r*   Úset_output_embeddingsÚ0SpeechT5TextDecoderPostnet.set_output_embeddingsH  s   € Ø%r,   )r|   rÙ  )rˆ   r‰   rŠ   r‹   ro   rÃ   rå   r„   rß  rä  rŒ   r   rŽ   s   @r*   rÖ  rÖ  :  s(   ø† õTð
+ U§\¡\ô +ò÷
&ð &r,   rÖ  c                   óˆ  ^ • \ rS rSrSr    SS\S\S\\   S\\   S\\   S\\   4U 4S	 jjjr	       SS
\
R                  S\\
R                     S\\   S\\
R                     S\\
R                     S\\
R                     S\S\\
R                     S\\
R                  \\
R                     \\   4   4S jjrSrU =r$ )ÚSpeechT5AttentioniL  z‡
Multi-headed attention from 'Attention Is All You Need' paper with relative position bias (see
https://aclanthology.org/N18-2074.pdf)
Ú	embed_dimÚ	num_headsr	  Ú
is_decoderrm   Ú	layer_idxc                 óÚ  >• [         TU ]  5         Xl        X l        X0l        X-  U l        U R
                  U-  U R                  :w  a  [        SU R                   SU S35      eU R
                  S-  U l        X@l        X`l	        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).g      à¿rØ  )rn   ro   rè  ré  r	  Úhead_dimr'   Úscalingrê  rë  r   rD  Úk_projÚv_projÚq_projÚout_proj)r{   rè  ré  r	  rê  rm   rë  r~   s          €r*   ro   ÚSpeechT5Attention.__init__R  sÉ   ø€ ô 	‰ÑÔØ"ŒØ"ŒØŒØ!Ñ.ˆŒàM‰M˜IÑ%¨$¯.©.Ó8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ŒØ"Œä—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜŸ	š	 )¸TÑBˆr,   rƒ   Úkey_value_statesÚpast_key_valuer/   Úlayer_head_maskÚposition_biasÚoutput_attentionsÚcache_positionr8   c	                 ór  • USLn	UR                  5       u  p«nU R                  U5      U R                  -  nUb]  [        U[        5      (       aF  UR
                  R                  U R                  5      nU	(       a  UR                  nOUR                  nOUnU	(       a  UOUnU	(       aQ  UbN  W(       aG  WR                  U R                     R                  nUR                  U R                     R                  nOãU R                  U5      nU R                  U5      nUR                  U
SU R                   U R"                  5      R%                  SS5      nUR                  U
SU R                   U R"                  5      R%                  SS5      nUbN  U	(       d  UOSnWR'                  UUU R                  SU05      u  nnU	(       a  SUR
                  U R                  '   X R                   -  SU R"                  4nUR                  X«U R                   U R"                  5      R%                  SS5      nUR(                  " U6 nUR(                  " U6 nUR(                  " U6 nUR                  S5      n[*        R,                  " UUR%                  SS5      5      nUR                  5       X R                   -  UU4:w  a.  [/        SX R                   -  UU4 SUR                  5        35      eUbÀ  UR1                  5       R                  X R                   -  SU R"                  5      R%                  S	S5      n[*        R2                  " UUR%                  S
S5      5      nUR%                  S	S5      R                  X R                   -  UR                  S	5      UR                  S5      5      nUU-  nUbz  UR                  5       U
SUU4:w  a#  [/        SU
SUU4 SUR                  5        35      eUR                  X R                   UU5      U-   nUR                  X R                   -  UU5      n[4        R6                  R9                  USS9nUbš  UR                  5       U R                   4:w  a*  [/        SU R                   4 SUR                  5        35      eUR                  SSSS5      UR                  X R                   UU5      -  nUR                  X R                   -  UU5      nU(       a=  UR                  X R                   UU5      nUR                  X R                   -  UU5      nOSn[4        R6                  R;                  UU R:                  U R<                  S9n[*        R,                  " UU5      nUR                  5       X R                   -  X°R"                  4:w  a5  [/        SX R                   X°R"                  4 SUR                  5        35      eUR                  X R                   X°R"                  5      nUR%                  SS5      nUR)                  X«U R>                  5      nU RA                  U5      nUU4$ )z#Input shape: Batch x Time x ChannelNr#   r   r­   rù  Tz$Attention weights should be of size z	, but is r   r˜   z!Attention mask should be of size r¿   z/Head mask for a single layer should be of size )r  r;  z `attn_output` should be of size )!rÒ   rñ  rî  rÐ  r   Ú
is_updatedÚgetrë  Úcross_attention_cacheÚself_attention_cacherŠ  ÚkeysÚvaluesrï  rð  rË   ré  rí  r™   ÚupdaterZ   rÃ   Úbmmr'   Ú
contiguousÚmatmulr   rœ  Úsoftmaxr	  r;  rè  rò  )r{   rƒ   rô  rõ  r/   rö  r÷  rø  rù  Úis_cross_attentionrÕ   Útgt_lenr]   Úquery_statesrû  Úcurr_past_key_valueÚcurrent_statesÚ
key_statesÚvalue_statesÚ
proj_shapeÚsrc_lenÚattn_weightsÚ	reshape_qÚrel_pos_biasÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                              r*   r„   ÚSpeechT5Attention.forwardo  s¾  € ð .°TÐ9Ðà'×,Ñ,Ó.‰ˆað —{‘{ =Ó1°D·L±LÑ@ˆàÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ-?Ñ)À]ˆÞ .Ñ"<Æà,×3Ñ3°D·N±NÑC×HÑHˆJØ.×5Ñ5°d·n±nÑE×LÑL‰LàŸ™ ^Ó4ˆJØŸ;™; ~Ó6ˆLØ#Ÿ™¨¨b°$·.±.À$Ç-Á-ÓP×ZÑZÐ[\Ð^_Ó`ˆJØ'×,Ñ,¨S°"°d·n±nÀdÇmÁmÓT×^Ñ^Ð_`ÐbcÓdˆLàÑ)æ7I¡ÈtØ+>×+EÑ+EØ ¨d¯n©nÐ?OÐQ_Ð>`ó,Ñ(
˜Lö &Ø@DN×-Ñ-¨d¯n©nÑ=àŸN™NÑ*¨B°·±Ð>ˆ
Ø#×(Ñ(¨°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØ#×+Ò+¨ZÐ8ˆØ×'Ò'¨Ð4ˆ
Ø#×+Ò+¨ZÐ8ˆà—/‘/ !Ó$ˆÜ—y’y ¨z×/CÑ/CÀAÀqÓ/IÓJˆà×ÑÓ 3¯©Ñ#7¸À'Ð"JÓJÜØ6¸¿n¹nÑ8LÈgÐW^Ð7_Ð6`ð aØ ×%Ñ%Ó'Ð(ð*óð ð Ñ$Ø$×/Ñ/Ó1×6Ñ6°s¿^¹^Ñ7KÈRÐQU×Q^ÑQ^Ó_×iÑiÐjkÐmnÓoˆIÜ Ÿ<š<¨	°=×3JÑ3JÈ2ÈrÓ3RÓSˆLØ'×1Ñ1°!°QÓ7×<Ñ<Ø—n‘nÑ$ m×&8Ñ&8¸Ó&;¸]×=OÑ=OÐPQÓ=RóˆLð ˜LÑ(ˆLàÑ%Ø×"Ñ"Ó$¨¨a°¸'Ð(BÓBÜ Ø7¸¸aÀÈ'Ð8RÐ7SÐS\Ð]k×]pÑ]pÓ]rÐ\sÐtóð ð (×,Ñ,¨S·.±.À'È7ÓSÐVdÑdˆLØ'×,Ñ,¨S·>±>Ñ-AÀ7ÈGÓTˆLä—}‘}×,Ñ,¨\¸rÐ,ÐBˆàÑ&Ø×#Ñ#Ó%¨$¯.©.Ð):Ó:Ü ØEÀtÇ~Á~ÐFWÐEXð YØ'×,Ñ,Ó.Ð/ð1óð ð +×/Ñ/°°2°q¸!Ó<¸|×?PÑ?PÐQT×VdÑVdÐfmÐovÓ?wÑwˆLØ'×,Ñ,¨S·>±>Ñ-AÀ7ÈGÓTˆLæð
 %1×$5Ñ$5°c¿>¹>È7ÐT[Ó$\Ð!Ø0×5Ñ5°c¿N¹NÑ6JÈGÐU\Ó]‰Là$(Ð!ä—]‘]×*Ñ*¨<¸4¿<¹<ÐRV×R_ÑR_Ð*Ð`ˆ
ä—i’i 
¨LÓ9ˆà×ÑÓ #¯©Ñ"6¸ÇÁÐ!OÓOÜØ2°C¿¹È×R_ÑR_Ð3`Ð2að bØ×$Ñ$Ó&Ð'ð)óð ð
 "×&Ñ& s¯N©N¸GÇ]Á]ÓSˆØ!×+Ñ+¨A¨qÓ1ˆð "×)Ñ)¨#¸¿¹ÓGˆà—m‘m KÓ0ˆàÐ1Ð1Ð1r,   )r	  rè  rí  rê  rï  rë  ré  rò  rñ  rî  rð  )r2   FTN)NNNNNFN)rˆ   r‰   rŠ   r‹   râ   r<   r   rÆ   rP   ro   rÃ   rå   r   Útupler„   rŒ   r   rŽ   s   @r*   rç  rç  L  sI  ø† ñð $'Ø%*Ø#Ø$(ñCàðCð ðCð ˜%‘ð	Cð
 ˜T‘NðCð t‰nðCð ˜D‘>÷Cð Cð@ 48Ø*.Ø15Ø26Ø04Ø"'Ø15ñ~2à—|‘|ð~2ð # 5§<¡<Ñ0ð~2ð ! ™ð	~2ð
 ! §¡Ñ.ð~2ð " %§,¡,Ñ/ð~2ð   §¡Ñ-ð~2ð  ð~2ð ! §¡Ñ.ð~2ð 
ˆu|‰|˜X e§l¡lÑ3°X¸e±_ÐDÑ	E÷~2ó ~2r,   rç  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚSpeechT5FeedForwardið  c                 óÞ  >• [         TU ]  5         [        R                  " UR                  5      U l        [        R                  " UR                  U5      U l        [        UR                  [        5      (       a  [        UR                     U l        OUR                  U l        [        R                  " X!R                  5      U l        [        R                  " UR                  5      U l        g r   )rn   ro   r   r  Úactivation_dropoutÚintermediate_dropoutrD  rð   Úintermediate_denserÐ  Ú
hidden_actÚstrr
   Úintermediate_act_fnÚoutput_denseÚhidden_dropoutÚoutput_dropout)r{   r|   Úintermediate_sizer~   s      €r*   ro   ÚSpeechT5FeedForward.__init__ñ  s¢   ø€ Ü‰ÑÔÜ$&§J¢J¨v×/HÑ/HÓ$IˆÔ!ä"$§)¢)¨F×,>Ñ,>Ð@QÓ"RˆÔÜf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÔ$äŸIšIÐ&7×9KÑ9KÓLˆÔÜ Ÿjšj¨×)>Ñ)>Ó?ˆÕr,   c                 ó°   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU R	                  U5      nU$ r   )r  r  r  r   r"  r‚   s     r*   r„   ÚSpeechT5FeedForward.forwardþ  sX   € Ø×/Ñ/°Ó>ˆØ×0Ñ0°Ó?ˆØ×1Ñ1°-Ó@ˆà×)Ñ)¨-Ó8ˆØ×+Ñ+¨MÓ:ˆØÐr,   )r  r  r  r   r"  r‡   rŽ   s   @r*   r  r  ð  s   ø† õ@÷ð r,   r  c                   ó¼   ^ • \ rS rSrS\4U 4S jjr    SS\R                  S\\R                     S\\R                     S\\R                     S\	4
S	 jjr
S
rU =r$ )ÚSpeechT5EncoderLayeri  r|   c                 ó¶  >• [         TU ]  5         [        UR                  UR                  UR
                  SS9U l        [        R                  " UR                  5      U l
        [        R                  " UR                  UR                  S9U l        [        XR                  5      U l        [        R                  " UR                  UR                  S9U l        g )NF)rè  ré  r	  rê  rA  )rn   ro   rç  rð   Úencoder_attention_headsÚattention_dropoutÚ	attentionr   r  r!  r	  r”   rC  r•   r  Úencoder_ffn_dimÚfeed_forwardÚfinal_layer_normrG  s     €r*   ro   ÚSpeechT5EncoderLayer.__init__	  s    ø€ Ü‰ÑÔÜ*Ø×(Ñ(Ø×4Ñ4Ø×,Ñ,Øñ	
ˆŒô —z’z &×"7Ñ"7Ó8ˆŒÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ/°×8NÑ8NÓOˆÔÜ "§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÕr,   rƒ   r/   rö  r÷  rø  c                 óæ   • UnU R                  UUUUUS9u  pU R                  U5      nXa-   nU R                  U5      nXR                  U5      -   nU R	                  U5      nU4nU(       a  X‡4-  nU$ )a  
Args:
    hidden_states (`torch.FloatTensor`):
        input to the layer of shape `(batch, seq_len, hidden_size)`
    attention_mask (`torch.FloatTensor`):
        attention mask of size `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very
        large negative values.
    layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
        `(config.encoder_attention_heads,)`.
    position_bias (`torch.FloatTensor`):
        relative position embeddings of size `(seq_len, seq_len, hidden_size // encoder_attention_heads)`
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)rƒ   r/   rö  r÷  rø  )r,  r	  r•   r.  r/  )	r{   rƒ   r/   rö  r÷  rø  Úresidualr  Úoutputss	            r*   r„   ÚSpeechT5EncoderLayer.forward  s‘   € ð. !ˆØ&*§n¡nØ'Ø)Ø+Ø'Ø/ð '5ð '
Ñ#ˆð Ÿ™ ]Ó3ˆØ Ñ0ˆàŸ™¨Ó6ˆØ%×(9Ñ(9¸-Ó(HÑHˆØ×-Ñ-¨mÓ<ˆà Ð"ˆæØÑ&ˆGàˆr,   )r,  r	  r.  r/  r•   )NNNF)rˆ   r‰   rŠ   r‹   r   ro   rÃ   rå   r   rP   r„   rŒ   r   rŽ   s   @r*   r(  r(    sx   ø† ð\˜~÷ \ð  26Ø26Ø04Ø"'ñ,à—|‘|ð,ð ! §¡Ñ.ð,ð " %§,¡,Ñ/ð	,ð
   §¡Ñ-ð,ð  ÷,ó ,r,   r(  c                   ó>  ^ • \ rS rSrSS\4U 4S jjjr         SS\R                  S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	   S\\
   S\\
   S\\R                     4S jjrSrU =r$ )ÚSpeechT5DecoderLayeriE  r|   c                 ót  >• [         TU ]  5         [        UR                  UR                  UR
                  SUS9U l        [        R                  " UR                  5      U l
        [        R                  " UR                  UR                  S9U l        [        UR                  UR                  UR
                  SUS9U l        [        R                  " UR                  UR                  S9U l        [!        XR"                  5      U l        [        R                  " UR                  UR                  S9U l        g )NT)rè  ré  r	  rê  rë  rA  )r	  rê  rë  )rn   ro   rç  rð   Údecoder_attention_headsr+  Ú	self_attnr   r  r!  r	  r”   rC  Úself_attn_layer_normÚencoder_attnÚencoder_attn_layer_normr  Údecoder_ffn_dimr.  r/  )r{   r|   rë  r~   s      €r*   ro   ÚSpeechT5DecoderLayer.__init__F  só   ø€ Ü‰ÑÔÜ*Ø×(Ñ(Ø×4Ñ4Ø×,Ñ,ØØñ
ˆŒô —z’z &×"7Ñ"7Ó8ˆŒÜ$&§L¢L°×1CÑ1CÈ×I^ÑI^Ñ$_ˆÔ!ä-Ø×ÑØ×*Ñ*Ø×,Ñ,ØØñ
ˆÔô (*§|¢|°F×4FÑ4FÈF×LaÑLaÑ'bˆÔ$ä/°×8NÑ8NÓOˆÔÜ "§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÕr,   rƒ   r/   Úencoder_hidden_statesÚencoder_attention_maskrö  Úcross_attn_layer_head_maskrõ  rø  Ú	use_cacherù  c           
      ór  • UnU R                  UUUUUU
S9u  pU R                  U5      nX±-   nU R                  U5      nSnUb?  UnU R                  UUUUUUU
S9u  pU R                  U5      nX±-   nU R	                  U5      nXR                  U5      -   nU R                  U5      nU4nU(       a  XìU4-  nU$ )a‹  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, hidden_size)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    encoder_hidden_states (`torch.FloatTensor`):
        cross attention input to the layer of shape `(batch, seq_len, hidden_size)`
    encoder_attention_mask (`torch.FloatTensor`): encoder attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
        `(encoder_attention_heads,)`.
    cross_attn_layer_head_mask (`torch.FloatTensor`): mask for cross-attention heads in a given layer of
        size `(decoder_attention_heads,)`.
    past_key_value (`Tuple(torch.FloatTensor)`): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)rƒ   rõ  r/   rö  rø  rù  N)rƒ   rô  r/   rö  rõ  rø  rù  )r9  r	  r:  r;  r<  r.  r/  )r{   rƒ   r/   r?  r@  rö  rA  rõ  rø  rB  rù  r2  Úself_attn_weightsÚcross_attn_weightsr3  s                  r*   r„   ÚSpeechT5DecoderLayer.forward^  s  € ð> !ˆð ,0¯>©>Ø'Ø)Ø)Ø+Ø/Ø)ð ,:ð ,
Ñ(ˆð Ÿ™ ]Ó3ˆØ Ñ0ˆØ×1Ñ1°-Ó@ˆð "ÐØ Ñ,Ø$ˆHà04×0AÑ0AØ+Ø!6Ø5Ø :Ø-Ø"3Ø-ð 1Bð 1Ñ-ˆMð !ŸL™L¨Ó7ˆMØ$Ñ4ˆMØ ×8Ñ8¸ÓGˆMð &×(9Ñ(9¸-Ó(HÑHˆØ×-Ñ-¨mÓ<ˆà Ð"ˆæØÐ+=Ð>Ñ>ˆGàˆr,   )r	  r;  r<  r.  r/  r9  r:  r   )	NNNNNNFTN)rˆ   r‰   rŠ   r‹   r   ro   rÃ   rå   r   r   rP   r„   rŒ   r   rŽ   s   @r*   r6  r6  E  sò   ø† ñ\˜~÷ \ð \ð6 26Ø8<Ø9=Ø26Ø=AØ*.Ø,1Ø$(Ø15ñIà—|‘|ðIð ! §¡Ñ.ðIð  (¨¯©Ñ5ð	Ið
 !)¨¯©Ñ 6ðIð " %§,¡,Ñ/ðIð %-¨U¯\©\Ñ$:ðIð ! ™ðIð $ D™>ðIð ˜D‘>ðIð ! §¡Ñ.÷Ió Ir,   r6  c                   óN   • \ rS rSr% \\S'   SrSrSrS\	R                  4S jrSrg	)
ÚSpeechT5PreTrainedModeliª  r|   Úspeecht5r-   TÚmodulec           
      ó|  • U R                   R                  n[        U[        5      (       a±  [        R
                  R                  UR                  R                  SS[        R                  " SUR                  R                  S   UR                  R                  -  -  5      -  S9  [        R
                  R                  UR                  R                  S5        GO%[        U[        5      (       a'  UR                   R"                  R%                  S5        GOé[        U[&        5      (       a—  [        R                  " SUR(                  R*                  -  5      n[        R
                  R-                  UR(                  R                  U* US9  [        R
                  R-                  UR(                  R                  U* US9  GO=[        U[        R.                  5      (       aW  UR                  R"                  R                  SUS9  UR                  b$  UR                  R"                  R1                  5         GOÇ[        U[        R2                  [        R4                  [        R6                  45      (       aK  UR                  R"                  R1                  5         UR                  R"                  R%                  S5        GO>[        U[        R8                  5      (       až  [        R
                  R;                  UR                  5        UR                  bg  [        R                  " UR<                  UR                  UR                  S   -  -  5      n[        R
                  R-                  UR                  U* US9  O[        U[        R>                  5      (       ab  UR                  R"                  R                  SUS9  UR@                  b1  UR                  R"                  UR@                     R1                  5         [C        US	5      (       a*  [        R
                  R-                  URD                  5        gg)
zInitialize the weightsr   r­   r   ©ÚmeanÚstdr  )ÚaÚbr2   NrT  )#r|   Úinitializer_rangerÐ  rç   r   ÚinitÚnormal_rw   rí   rÁ   rÊ  rk   Úin_channelsÚ	constant_rm   r  r  ÚdataÚfill_r?  rE  Úin_featuresrS  rD  Úzero_r”   r¢   r§  rs   Úkaiming_normal_rê   r  rª   r¹   rT  )r{   rJ  rN  Úks       r*   Ú_init_weightsÚ%SpeechT5PreTrainedModel._init_weights±  sÛ  € àk‰k×+Ñ+ˆÜfÔ=×>Ñ>ÜG‰GO‰OØ—‘×"Ñ"ØØœŸ	š	 ! v§{¡{×'>Ñ'>¸qÑ'AÀFÇKÁK×D[ÑD[Ñ'[Ñ"\Ó]Ñ]ð ñ ô
 G‰G×Ñ˜fŸk™k×.Ñ.°Ö2Ü˜Ô @×AÑAØL‰L×Ñ×#Ñ# CÖ(Ü˜Ô 9×:Ñ:Ü—	’	˜!˜f×/Ñ/×;Ñ;Ñ;Ó<ˆAÜG‰G×Ñ˜V×.Ñ.×5Ñ5¸!¸¸qÐÑAÜG‰G×Ñ˜V×.Ñ.×3Ñ3¸°r¸QÐÓ?Ü˜¤§	¡	×*Ñ*ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Ô(ùÜ˜¤§¡¬r¯|©|¼R¿^¹^Ð L×MÑMØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÖ)Ü˜¤§	¡	×*Ñ*ÜG‰G×#Ñ# F§M¡MÔ2Ø{‰{Ñ&Ü—I’I˜fŸm™m¨v×/AÑ/AÀF×DVÑDVÐWXÑDYÑ/YÑZÓ[Ü—‘× Ñ  §¡°°°aÐ Ñ8øÜ˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Ô>ä6Ð.×/Ñ/ÜG‰G×Ñ˜V×5Ñ5Õ6ð 0r,   © N)rˆ   r‰   rŠ   r‹   r   Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingr   ÚModuler\  rŒ   r^  r,   r*   rH  rH  ª  s)   ‡ àÓØ"ÐØ$€OØ&*Ð#ð"7 B§I¡I÷ "7r,   rH  c                   óÌ   ^ • \ rS rSrSrS\4U 4S jjr     SS\R                  S\	\R                     S\	\R                     S\	\   S	\	\   S
\	\   S\\\4   4S jjrSrU =r$ )ÚSpeechT5EncoderiÖ  zm
Transformer encoder consisting of *config.encoder_layers* layers. Each layer is a [`SpeechT5EncoderLayer`].
r|   c                 ó  >• [         TU ]  U5        [        R                  " UR                  UR
                  S9U l        [        R                  " UR                  5      U l	        UR                  U l        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        [#        UR                  UR$                  -  UR&                  5      U l        SU l        U R-                  5         g s  snf )NrA  F)rn   ro   r   r”   rð   rC  r•   r  r!  r	  Úencoder_layerdropÚ	layerdropr-  rN   Úencoder_layersr(  rŠ  r  r*  Úencoder_max_relative_positionrÌ  r/  Ú	post_init)r{   r|   r]   r~   s      €r*   ro   ÚSpeechT5Encoder.__init__Û  sÉ   ø€ Ü‰Ñ˜Ô ÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ—z’z &×"7Ñ"7Ó8ˆŒØ×1Ñ1ˆŒä—m’mÌ5ÐQW×QfÑQfÔKgÓ$hÑKgÀaÔ%9¸&Ö%AÑKgÑ$hÓiˆŒäAØ×Ñ &×"@Ñ"@Ñ@À&×BfÑBfó 
ˆÔð ',ˆÔ#ð 	‰Õùò %is   ÂDrƒ   r/   Ú	head_maskrø  Úoutput_hidden_statesÚreturn_dictr8   c           	      ó  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUb  [	        X!R
                  5      nU R                  U5      nU R                  U5      nU R                  U5      n[        5       =(       d    [        U 5      nU(       a  SOSn	U(       a  SOSn
Ub`  UR                  5       S   [        U R                  5      :w  a6  [        S[        U R                  5       SUR                  5       S    S35      e[        U R                  5       H‡  u  p¼U(       a  X‘4-   n	SnU R                   (       a$  ["        R$                  " / 5      nXàR&                  :  nU(       a  U(       a  U" UUUUb  X;   OSUS9nUS   nU(       a  S	nU(       d  M~  U
WS
   4-   n
M‰     U(       a  X‘4-   n	U(       d  [)        S XU
4 5       5      $ [+        UU	U
S9$ )aA  
Args:
    hidden_states (`torch.FloatTensor` of shape `(batch_size, sequence_length, feature_size)`):
        Features extracted from the speech or text input by the encoder prenet.
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing convolution and attention on padding token indices. Mask values selected in
        `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    head_mask (`torch.Tensor` of shape `(encoder_layers, encoder_attention_heads)`, *optional*):
        Mask to nullify selected heads of the attention modules. Mask values selected in `[0, 1]`:

        - 1 indicates the head is **not masked**,
        - 0 indicates the head is **masked**.

    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
Nr^  r   z&The head_mask should be specified for ú layers, but it is for Ú.F)r/   r÷  rö  rø  r  r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr   r^  ©Ú.0Úvs     r*   Ú	<genexpr>Ú*SpeechT5Encoder.forward.<locals>.<genexpr>L  s   é € ÐmÑ$[˜qŸ™Ò$[ùs   ‚‹	©Úlast_hidden_staterƒ   Ú
attentions)r|   rø  rn  Úuse_return_dictr   rE   r•   r	  rÌ  r   r   rÒ   rS   rŠ  r'   Ú	enumerater;  rÃ   rI   rh  r  r   )r{   rƒ   r/   rm  rø  rn  ro  r÷  Úsynced_gpusÚall_hidden_statesÚall_self_attentionsÚidxÚencoder_layerÚskip_the_layerÚdropout_probabilityÚlayer_outputss                   r*   r„   ÚSpeechT5Encoder.forwardì  s  € ðH 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ñ%ä7¸×H[ÑH[Ó\ˆNàŸ™¨Ó6ˆØŸ™ ]Ó3ˆà×,Ñ,¨]Ó;ˆä0Ó2×RÔ6LÈTÓ6Rˆæ"6™B¸DÐÞ$5™b¸4Ðð Ñ Ø~‰~Ó Ñ"¤c¨$¯+©+Ó&6Ó6Ü Ø<¼SÀÇÁÓ=MÐ<Nð OØ!Ÿ™Ó(¨Ñ+Ð,¨Að/óð ô
 #,¨D¯K©KÖ"8ÑˆCÞ#Ø$5Ð8HÑ$HÐ!ð #ˆNØ}}Ü&+§j¢j°£nÐ#Ø!4·~±~Ñ!Eæ!¦[á -Ø!Ø#1Ø"/Ø7@Ñ7L Y¢^ÐRVØ&7ñ!ð !.¨aÑ 0æØ ,ç Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÒ#ñ3 #9ö6  Ø 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmäØ+Ø+Ø*ñ
ð 	
r,   )r	  rÌ  r/  r•   rh  rŠ  ©NNNNN©rˆ   r‰   rŠ   r‹   râ   r   ro   rÃ   rƒ  r   rå   rP   r   r  r   r„   rŒ   r   rŽ   s   @r*   re  re  Ö  sª   ø† ñð˜~÷ ð( 26Ø,0Ø,0Ø/3Ø&*ñf
à×(Ñ(ðf
ð ! §¡Ñ.ðf
ð ˜EŸL™LÑ)ð	f
ð
 $ D™>ðf
ð ' t™nðf
ð ˜d‘^ðf
ð 
ˆuoÐ%Ñ	&÷f
ó f
r,   re  c                   óÌ   ^ • \ rS rSrSrS\4U 4S jjr     SS\R                  S\	\R                     S\	\R                     S\	\   S	\	\   S
\	\   S\\\4   4S jjrSrU =r$ )ÚSpeechT5EncoderWithSpeechPrenetiU  z€
Wrapper around SpeechT5Encoder that applies SpeechT5SpeechEncoderPrenet to convert the audio waveform data to
hidden features.
r|   c                 ó„   >• [         TU ]  U5        [        U5      U l        [	        U5      U l        U R                  5         g r   )rn   ro   rM  Úprenetre  Úwrapped_encoderrk  rG  s     €r*   ro   Ú(SpeechT5EncoderWithSpeechPrenet.__init__[  ó5   ø€ Ü‰Ñ˜Ô Ü1°&Ó9ˆŒÜ.¨vÓ6ˆÔð 	‰Õr,   r-   r/   rm  rø  rn  ro  r8   c           	      óT   • U R                  X5      u  prU R                  UUUUUUS9nU$ ©N)rƒ   r/   rm  rø  rn  ro  ©rŒ  r  ©	r{   r-   r/   rm  rø  rn  ro  rƒ   r3  s	            r*   r„   Ú'SpeechT5EncoderWithSpeechPrenet.forwardc  sC   € ð )-¯©°LÓ(QÑ%ˆà×&Ñ&Ø'Ø)ØØ/Ø!5Ø#ð 'ð 
ˆð ˆr,   r’  r‡  rˆ  rŽ   s   @r*   rŠ  rŠ  U  s¡   ø† ñð
˜~÷ ð 26Ø,0Ø,0Ø/3Ø&*ñà×'Ñ'ðð ! §¡Ñ.ðð ˜EŸL™LÑ)ð	ð
 $ D™>ðð ' t™nðð ˜d‘^ðð 
ˆuoÐ%Ñ	&÷ó r,   rŠ  c                   óØ   ^ • \ rS rSrSrS\4U 4S jjrS rS r     SS\	R                  S\\	R                     S	\\	R                     S
\\   S\\   S\\   S\\\4   4S jjrSrU =r$ )ÚSpeechT5EncoderWithTextPrenetiz  zt
Wrapper around SpeechT5Encoder that applies SpeechT5TextEncoderPrenet to convert the input_ids to hidden features.
r|   c                 ó„   >• [         TU ]  U5        [        U5      U l        [	        U5      U l        U R                  5         g r   )rn   ro   r¾  rŒ  re  r  rk  rG  s     €r*   ro   Ú&SpeechT5EncoderWithTextPrenet.__init__  ó5   ø€ Ü‰Ñ˜Ô Ü/°Ó7ˆŒÜ.¨vÓ6ˆÔð 	‰Õr,   c                 ó6   • U R                   R                  5       $ r   ©rŒ  Úget_input_embeddingsrZ  s    r*   rœ  Ú2SpeechT5EncoderWithTextPrenet.get_input_embeddings‡  ó   € Ø{‰{×/Ñ/Ó1Ð1r,   c                 ó:   • U R                   R                  U5        g r   ©rŒ  Úset_input_embeddings©r{   Úvalues     r*   r¡  Ú2SpeechT5EncoderWithTextPrenet.set_input_embeddingsŠ  ó   € Ø‰×(Ñ(¨Õ/r,   r-   r/   rm  rø  rn  ro  r8   c           	      óP   • U R                  U5      nU R                  UUUUUUS9nU$ r‘  r’  r“  s	            r*   r„   Ú%SpeechT5EncoderWithTextPrenet.forward  s@   € ð Ÿ™ LÓ1ˆà×&Ñ&Ø'Ø)ØØ/Ø!5Ø#ð 'ð 
ˆð ˆr,   r’  r‡  )rˆ   r‰   rŠ   r‹   râ   r   ro   rœ  r¡  rÃ   rƒ  r   rå   rP   r   r  r   r„   rŒ   r   rŽ   s   @r*   r–  r–  z  s«   ø† ñð˜~÷ ò2ò0ð 26Ø,0Ø,0Ø/3Ø&*ñà×'Ñ'ðð ! §¡Ñ.ðð ˜EŸL™LÑ)ð	ð
 $ D™>ðð ' t™nðð ˜d‘^ðð 
ˆuoÐ%Ñ	&÷ó r,   r–  c                   óÌ   ^ • \ rS rSrSrS\4U 4S jjr     SS\R                  S\	\R                     S\	\R                     S\	\   S	\	\   S
\	\   S\\\4   4S jjrSrU =r$ )ÚSpeechT5EncoderWithoutPreneti¤  ú€
This wrapper class is a helper class to correctly load pretrained checkpoints when used in combination with
[`SpeechT5Model`].
r|   c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g r   )rn   ro   re  r  rk  rG  s     €r*   ro   Ú%SpeechT5EncoderWithoutPrenet.__init__ª  ó)   ø€ Ü‰Ñ˜Ô Ü.¨vÓ6ˆÔð 	‰Õr,   r-   r/   rm  rø  rn  ro  r8   c           	      ó*   • U R                  UUUUUUS9$ r‘  ©r  )r{   r-   r/   rm  rø  rn  ro  s          r*   r„   Ú$SpeechT5EncoderWithoutPrenet.forward±  s.   € ð ×#Ñ#Ø&Ø)ØØ/Ø!5Ø#ð $ð 
ð 	
r,   r¯  r‡  rˆ  rŽ   s   @r*   r©  r©  ¤  s¡   ø† ñð
˜~÷ ð 26Ø,0Ø,0Ø/3Ø&*ñ
à×'Ñ'ð
ð ! §¡Ñ.ð
ð ˜EŸL™LÑ)ð	
ð
 $ D™>ð
ð ' t™nð
ð ˜d‘^ð
ð 
ˆuoÐ%Ñ	&÷
ó 
r,   r©  c                   ó†  ^ • \ rS rSrSrS\4U 4S jjr            SS\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\\R                        S\\   S\\   S\\   S\\   S\\R                     S\\\4   4S jjrSrU =r$ )ÚSpeechT5DecoderiÄ  zl
Transformer decoder consisting of *config.decoder_layers* layers. Each layer is a [`SpeechT5DecoderLayer`]
r|   c           
      ó  >• [         TU ]  U5        UR                  U l        [        R
                  " [        UR                  5       Vs/ sH  n[        XS9PM     sn5      U l	        SU l
        U R                  5         g s  snf )N)rë  F)rn   ro   Údecoder_layerdroprh  r   r-  rN   Údecoder_layersr6  rŠ  r/  rk  r  s      €r*   ro   ÚSpeechT5Decoder.__init__É  sl   ø€ Ü‰Ñ˜Ô Ø×1Ñ1ˆŒä—m’mÔX]Ð^d×^sÑ^sÔXtÓ$uÑXtÐSTÔ%9¸&Ô%NÑXtÑ$uÓvˆŒà&+ˆÔ#ð 	‰Õùò %vs   Á	A?rƒ   r/   r?  r@  rm  Úcross_attn_head_maskrÎ  rB  rø  rn  ro  rù  r8   c                 ó   • U	b  U	OU R                   R                  n	U
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  UOU R                   R                  nUR                  5       SS nU R                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnSnU(       aB  [        U[        5      (       d-  [        R                  S5        Sn[        R                  " U5      nUb  UR                  5       OSn[        X-X5      nUb  Ub  [!        XAR"                  US   S9n[%        5       =(       d    ['        U 5      nU
(       a  S	OSnU	(       a  S	OSnU	(       a  Ub  S	OSn[)        XV/S
S/5       Hn  u  nnUc  M  UR                  5       S   [+        U R,                  5      :w  d  M7  [/        SU S[+        U R,                  5       SUR                  5       S    S35      e   [1        U R,                  5       HŸ  u  nnU
(       a  UU4-   nSnU R                  (       a%  [2        R4                  " / 5      nUU R6                  :  nU(       a	  U(       d  M[  U" UUUUUb  UU   OSUb  UU   OSUU	UUS9
nUS   nU	(       d  Mˆ  UUS   4-   nUc  M–  UUS   4-   nM¡     U
(       a  UU4-   nU(       a  UR9                  5       nU(       d  [;        S XUUU4 5       5      $ [=        UUUUUS9$ )a‡  
Args:
    hidden_states (`torch.FloatTensor` of shape `(batch_size, sequence_length, feature_size)`):
        Features extracted from the speech or text input by the decoder prenet.
    attention_mask (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
        Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention
        of the decoder.
    encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
        Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
        selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
        Mask to nullify selected heads of the attention modules. Mask values selected in `[0, 1]`:

        - 1 indicates the head is **not masked**,
        - 0 indicates the head is **masked**.

    cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
        Mask to nullify selected heads of the cross-attention modules in the decoder to avoid performing
        cross-attention on hidden heads. Mask values selected in `[0, 1]`:

        - 1 indicates the head is **not masked**,
        - 0 indicates the head is **masked**.

    past_key_values (`tuple(tuple(torch.FloatTensor))`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
        Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of
        shape `(batch_size, num_heads, sequence_length, embed_size_per_head)`) and 2 additional tensors of
        shape `(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)`.

        Contains pre-computed hidden-states (key and values in the self-attention blocks and in the
        cross-attention blocks) that can be used (see `past_key_values` input) to speed up sequential decoding.

        If `past_key_values` are used, the user can optionally input only the last `decoder_input_ids` (those
        that don't have their past key value states given to this model) of shape `(batch_size, 1)` instead of
        all `decoder_input_ids` of shape `(batch_size, sequence_length)`.
    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
        Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.
        This is useful if you want more control over how to convert `input_ids` indices into associated vectors
        than the model's internal embedding lookup matrix.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
Nr#   zZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...FzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.Tr   )r  r^  rm  r·  zThe `z` should be specified for rq  rr  )r@  rö  rA  rõ  rø  rB  rù  r   r­   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7fr   r^  rt  s     r*   rw  Ú*SpeechT5Decoder.forward.<locals>.<genexpr>{  s   é € ð áwAØ÷ ‘Úwùs   ‚Œ	)rz  rÎ  rƒ   r{  Úcross_attentions)r|   rø  rn  rB  r|  rÒ   r/  r;  ÚloggerÚwarning_oncerÐ  r   r   Úfrom_legacy_cacherÑ  r   r   rE   r   r   ru  rS   rŠ  r'   r}  rÃ   rI   rh  Úto_legacy_cacher  r   )r{   rƒ   r/   r?  r@  rm  r·  rÎ  rB  rø  rn  ro  rù  rÒ  Úreturn_legacy_cacherÐ   r~  r  r€  Úall_cross_attentionsÚ	attn_maskÚ	mask_namer  Údecoder_layerrƒ  r„  r…  s                              r*   r„   ÚSpeechT5Decoder.forwardÔ  sE  € ðT 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà#×(Ñ(Ó*¨3¨BÐ/ˆà×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	à#ÐÞœZ¨¼×?Ñ?Ü×Ñð\ôð
 #'ÐÜ1×CÒCÀOÓTˆOàETÑE` ×!?Ñ!?Ô!AÐfgÐä:Ø¨ó
ˆð
 !Ñ,Ð1GÑ1Sä%?Ø&×(;Ñ(;À[ÐQSÁ_ñ&Ð"ô 1Ó2×RÔ6LÈTÓ6Rˆö #7™B¸DÐÞ$5™b¸4ÐÞ&7Ð<QÑ<]™rÐdhÐô %(¨Ð(IÈKÐYoÐKpÖ$qÑ ˆIyØÓ$Ø—>‘>Ó# AÑ&¬3¨t¯{©{Ó+;Õ<Ü$Ø 	˜{Ð*DÄSÈÏÉÓEUÐDVð WØ%ŸN™NÓ,¨QÑ/Ð0°ð3óð ñ %rô #,¨D¯K©KÖ"8ÑˆCÞ#Ø$5¸Ð8HÑ$HÐ!ð #ˆNØ}}Ü&+§j¢j°£nÐ#Ø!4°t·~±~Ñ!EÞ¦kÙá)ØØØ%Ø'=Ø3<Ñ3H ¨3¢ÈdØI]ÑIiÐ,@ÀÒ,EÐosØ.Ø"3Ø#Ø-ñˆMð *¨!Ñ,ˆMß Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÐ#à(Ó4Ø+?À=ÐQRÑCSÐBUÑ+UÒ(ñ; #9ö>  Ø 1°]Ð4DÑ DÐæØ-×=Ñ=Ó?ˆOæÜñ à'Ð:KÐM`ÐbvÑwóó ð ô 9Ø+Ø+Ø+Ø*Ø1ñ
ð 	
r,   )r/  rh  rŠ  ©NNNNNNNNNNNN©rˆ   r‰   rŠ   r‹   râ   r   ro   r   rÃ   rƒ  r‚  rå   ÚlistrP   r   r  r   r„   rŒ   r   rŽ   s   @r*   r²  r²  Ä  sE  ø† ñð	˜~÷ 	ð 6:Ø59Ø=AØ=AØ,0Ø7;Ø=AØ$(Ø,0Ø/3Ø&*Ø15ñs
à × 1Ñ 1Ñ2ðs
ð ! ×!1Ñ!1Ñ2ðs
ð  (¨×(9Ñ(9Ñ:ð	s
ð
 !)¨×)9Ñ)9Ñ :ðs
ð ˜EŸL™LÑ)ðs
ð ' u§|¡|Ñ4ðs
ð " $ u×'8Ñ'8Ñ"9Ñ:ðs
ð ˜D‘>ðs
ð $ D™>ðs
ð ' t™nðs
ð ˜d‘^ðs
ð ! §¡Ñ.ðs
ð 
ˆuÐ?Ð?Ñ	@÷s
ó s
r,   r²  c                   ó¦  ^ • \ rS rSrSrS\4U 4S jjr             SS\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\R                     S\\\R                        S\\   S\\   S\\   S\\   S\\R                     S\\\4   4S jjrSrU =r$ )ÚSpeechT5DecoderWithSpeechPrenetiŠ  z|
Wrapper around SpeechT5Decoder that applies SpeechT5SpeechDecoderPrenet to convert log-mel filterbanks to hidden
features.
r|   c                 ó„   >• [         TU ]  U5        [        U5      U l        [	        U5      U l        U R                  5         g r   )rn   ro   r…  rŒ  r²  Úwrapped_decoderrk  rG  s     €r*   ro   Ú(SpeechT5DecoderWithSpeechPrenet.__init__  r  r,   r-   r/   r?  r@  rš  rm  r·  rÎ  rB  rø  rn  ro  rù  r8   c                 ó\   • U R                  X5      nU R                  UUUUUUUU	U
UUUS9nU$ ©N)rƒ   r/   r?  r@  rm  r·  rÎ  rB  rø  rn  ro  rù  ©rŒ  rÌ  )r{   r-   r/   r?  r@  rš  rm  r·  rÎ  rB  rø  rn  ro  rù  Údecoder_hidden_statesr3  s                   r*   r„   Ú'SpeechT5DecoderWithSpeechPrenet.forward˜  sS   € ð  !%§¡¨LÓ MÐà×&Ñ&Ø/Ø)Ø"7Ø#9ØØ!5Ø+ØØ/Ø!5Ø#Ø)ð 'ð 
ˆð ˆr,   rÐ  )NNNNNNNNNNNNNrÇ  rŽ   s   @r*   rÊ  rÊ  Š  sL  ø† ñð
˜~÷ ð 59Ø59Ø=AØ=AØ59Ø,0Ø7;Ø=AØ$(Ø,0Ø/3Ø&*Ø15ñ!à˜u×0Ñ0Ñ1ð!ð ! ×!1Ñ!1Ñ2ð!ð  (¨×(9Ñ(9Ñ:ð	!ð
 !)¨×)9Ñ)9Ñ :ð!ð % U§\¡\Ñ2ð!ð ˜EŸL™LÑ)ð!ð ' u§|¡|Ñ4ð!ð " $ u×'8Ñ'8Ñ"9Ñ:ð!ð ˜D‘>ð!ð $ D™>ð!ð ' t™nð!ð ˜d‘^ð!ð ! §¡Ñ.ð!ð 
ˆuÐ?Ð?Ñ	@÷!ó !r,   rÊ  c                   ó’  ^ • \ rS rSrSrS\4U 4S jjrS rS r            SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\\
R                        S\	\   S\	\   S\	\   S\	\   S\	\
R                     S\\\4   4S jjrSrU =r$ )ÚSpeechT5DecoderWithTextPreneti¼  zs
Wrapper around SpeechT5Decoder that applies SpeechT5TextDecoderPrenet to convert input tokens to hidden features.
r|   c                 ó„   >• [         TU ]  U5        [        U5      U l        [	        U5      U l        U R                  5         g r   )rn   ro   rÇ  rŒ  r²  rÌ  rk  rG  s     €r*   ro   Ú&SpeechT5DecoderWithTextPrenet.__init__Á  r™  r,   c                 ó6   • U R                   R                  5       $ r   r›  rZ  s    r*   rœ  Ú2SpeechT5DecoderWithTextPrenet.get_input_embeddingsÉ  rž  r,   c                 ó:   • U R                   R                  U5        g r   r   r¢  s     r*   r¡  Ú2SpeechT5DecoderWithTextPrenet.set_input_embeddingsÌ  r¥  r,   r-   r/   r?  r@  rm  r·  rÎ  rB  rø  rn  ro  rù  r8   c                 ób   • U R                  XU5      u  pÒU R                  UUUUUUUUU	U
UUS9nU$ rÏ  rÐ  )r{   r-   r/   r?  r@  rm  r·  rÎ  rB  rø  rn  ro  rù  rÑ  r3  s                  r*   r„   Ú%SpeechT5DecoderWithTextPrenet.forwardÏ  sY   € ð 15·±¸LÐZiÓ0jÑ-Ðà×&Ñ&Ø/Ø)Ø"7Ø#9ØØ!5Ø+ØØ/Ø!5Ø#Ø)ð 'ð 
ˆð ˆr,   rÐ  rÆ  )rˆ   r‰   rŠ   r‹   râ   r   ro   rœ  r¡  r   rÃ   rƒ  r‚  rå   rÈ  rP   r   r  r   r„   rŒ   r   rŽ   s   @r*   rÔ  rÔ  ¼  s@  ø† ñð˜~÷ ò2ò0ð
 59Ø59Ø=AØ=AØ,0Ø7;Ø=AØ$(Ø,0Ø/3Ø&*Ø15ñ à˜u×0Ñ0Ñ1ð ð ! ×!1Ñ!1Ñ2ð ð  (¨×(9Ñ(9Ñ:ð	 ð
 !)¨×)9Ñ)9Ñ :ð ð ˜EŸL™LÑ)ð ð ' u§|¡|Ñ4ð ð " $ u×'8Ñ'8Ñ"9Ñ:ð ð ˜D‘>ð ð $ D™>ð ð ' t™nð ð ˜d‘^ð ð ! §¡Ñ.ð ð 
ˆuÐ?Ð?Ñ	@÷ ó  r,   rÔ  c                   ó†  ^ • \ rS rSrSrS\4U 4S jjr            SS\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\\R                        S\\   S\\   S\\   S\\   S\\R                     S\\\4   4S jjrSrU =r$ )ÚSpeechT5DecoderWithoutPrenetiò  rª  r|   c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g r   )rn   ro   r²  rÌ  rk  rG  s     €r*   ro   Ú%SpeechT5DecoderWithoutPrenet.__init__ø  r­  r,   r-   r/   r?  r@  rm  r·  rÎ  rB  rø  rn  ro  rù  r8   c                 ó:   • U R                  UUUUUUUUU	U
UUS9nU$ rÏ  ©rÌ  )r{   r-   r/   r?  r@  rm  r·  rÎ  rB  rø  rn  ro  rù  r3  s                 r*   r„   Ú$SpeechT5DecoderWithoutPrenet.forwardÿ  sD   € ð ×&Ñ&Ø&Ø)Ø"7Ø#9ØØ!5Ø+ØØ/Ø!5Ø#Ø)ð 'ð 
ˆð ˆr,   râ  rÆ  rÇ  rŽ   s   @r*   rÞ  rÞ  ò  s6  ø† ñð
˜~÷ ð 59Ø59Ø=AØ=AØ,0Ø7;Ø=AØ$(Ø,0Ø/3Ø&*Ø15ñà˜u×0Ñ0Ñ1ðð ! ×!1Ñ!1Ñ2ðð  (¨×(9Ñ(9Ñ:ð	ð
 !)¨×)9Ñ)9Ñ :ðð ˜EŸL™LÑ)ðð ' u§|¡|Ñ4ðð " $ u×'8Ñ'8Ñ"9Ñ:ðð ˜D‘>ðð $ D™>ðð ' t™nðð ˜d‘^ðð ! §¡Ñ.ðð 
ˆuÐ?Ð?Ñ	@÷ó r,   rÞ  c                   ó´   ^ • \ rS rSrSrS\4U 4S jjrS\R                  S\R                  S\R                  S\R                  4S	 jrS
 r\S 5       rSrU =r$ )Ú$SpeechT5GuidedMultiheadAttentionLossi  zÜ
Guided attention loss from the paper [Efficiently Trainable Text-to-Speech System Based on Deep Convolutional
Networks with Guided Attention](https://huggingface.co/papers/1710.08969), adapted for multi-head attention.
r|   c                 óf   >• [         TU ]  5         UR                  U l        UR                  U l        g r   )rn   ro   Úguided_attention_loss_sigmaÚsigmaÚguided_attention_loss_scaleÚscalerG  s     €r*   ro   Ú-SpeechT5GuidedMultiheadAttentionLoss.__init__%  s(   ø€ Ü‰ÑÔØ×7Ñ7ˆŒ
Ø×7Ñ7ˆ
r,   r{  Úinput_masksÚoutput_masksr8   c                 óD  • U R                  X#UR                  5      nUR                  S5      UR                  S5      -  nUR                  UR                  5      R                  S5      nXA-  n[        R
                  " UR                  U5      5      nU R                  U-  $ )a  
Compute the attention loss.

Args:
    attentions (`torch.FloatTensor` of shape `(batch_size, layers * heads, output_sequence_length, input_sequence_length)`):
        Batch of multi-head attention weights
    input_masks (`torch.BoolTensor` of shape `(batch_size, input_sequence_length)`):
        Input attention mask as booleans.
    output_masks (`torch.BoolTensor` of shape `(batch_size, output_sequence_length)`):
        Target attention mask as booleans.

Returns:
    `torch.Tensor` with the loss value
r#   r˜   r   )Ú_make_guided_attention_masksrµ   rÇ   rº   rÃ   rM  Úmasked_selectrê  )r{   r{  rì  rí  Úguided_attn_masksÚmasksÚlossesÚlosss           r*   r„   Ú,SpeechT5GuidedMultiheadAttentionLoss.forward*  s   € ð" !×=Ñ=¸kÐYc×YjÑYjÓkÐØ×&Ñ& rÓ*¨[×-BÑ-BÀ2Ó-FÑFˆØ—‘˜×*Ñ*Ó+×5Ñ5°aÓ8ˆà"Ñ/ˆÜzŠz˜&×.Ñ.¨uÓ5Ó6ˆØz‰z˜DÑ Ð r,   c                 ój  • UR                  S5      nUR                  S5      n[        R                  " [        U5      UR                  S   UR                  S   4US9n[        [        XE5      5       H.  u  nu  p‰U R                  X‰U R                  U5      XgS U	2S U24'   M0     UR                  S5      $ )Nr#   r   rh  )
rL   rÃ   rO   rS   r%   r}  ru  Ú_make_guided_attention_maskrè  rÇ   )
r{   rì  rí  rµ   r^   rl  rñ  r  ÚilenÚolens
             r*   rï  ÚASpeechT5GuidedMultiheadAttentionLoss._make_guided_attention_masksC  sµ   € Ø#Ÿ™¨Ó+ˆØ%×)Ñ)¨"Ó-ˆä!ŸKšK¬¨[Ó)9¸<×;MÑ;MÈaÑ;PÐR]×RcÑRcÐdeÑRfÐ(gÐpvÑwÐä!*¬3¨}Ó+MÖ!NÑˆC‘$Ø37×3SÑ3SÐTXÐ`d×`jÑ`jÐlrÓ3sÐ 5 D 5¨%¨4¨%Ð/Ó0ñ "Oð !×*Ñ*¨1Ó-Ð-r,   c                 ó  • [         R                  " [         R                  " XS9[         R                  " XS9SS9u  pEUR                  5       U-  nUR                  5       U -  nS[         R                  " XE-
  S-  * SUS-  -  -  5      -
  $ )Nrh  Úxy)Úindexingr  r­   )rÃ   ÚmeshgridrR   rÆ   rÄ   )r>   Úoutput_lengthrè  rµ   Úgrid_yÚgrid_xs         r*   r÷  Ú@SpeechT5GuidedMultiheadAttentionLoss._make_guided_attention_maskN  sz   € äŸšÜLŠL˜Ñ5ÜLŠL˜Ñ6Øñ
‰ˆð
 —‘“ -Ñ/ˆØ—‘“ ,Ñ.ˆØ”U—Y’Y &¡/°aÑ!7Ð8¸AÀÈÁ¹NÑKÓLÑLÐLr,   )rê  rè  )rˆ   r‰   rŠ   r‹   râ   r   ro   rÃ   rƒ  Ú
BoolTensorrå   r„   rï  rã   r÷  rŒ   r   rŽ   s   @r*   rå  rå    sj   ø† ñð
8˜~÷ 8ð
!Ø×+Ñ+ð!Ø:?×:JÑ:Jð!ØZ_×ZjÑZjð!à	‰ô!ò2	.ð ñMó öMr,   rå  c                   óò   ^ • \ rS rSrSrS\4U 4S jjr SS\R                  S\R                  S\R                  S\R                  S	\R                  S
\
\R                     S\R                  4S jjrSrU =r$ )ÚSpeechT5SpectrogramLossiZ  z3
Loss computation used by SpeechT5ForTextToSpeech.
r|   c                 ó.  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U l        [        5       U l        [        [        R                  " S5      S9U l
        U R                  (       a  [        U5      U l        g g )Ng      @)Ú
pos_weight)rn   ro   Úuse_guided_attention_lossÚguided_attention_loss_num_headsr.   r   Úl1_criterionr   rÃ   r  Úbce_criterionrå  Úattn_criterionrG  s     €r*   ro   Ú SpeechT5SpectrogramLoss.__init___  ss   ø€ Ü‰ÑÔØ)/×)IÑ)IˆÔ&Ø/5×/UÑ/UˆÔ,Ø &× 7Ñ 7ˆÔä"›HˆÔÜ.¼%¿,º,ÀsÓ:KÑLˆÔà×)×)Ü"FÀvÓ"NˆDÕð *r,   r/   r¶  r·  r¸  Úlabelsr»  r8   c           	      óT  • US:g  nUR                  U5      nUR                  U5      nUR                  U5      nU R                  X55      U R                  X%5      -   nUS S 2S S 2S4   n	[        R                  " U	) S-  [        R                  " U	R                  S5      S5      R                  U	R                  5      /SS9n
U
S S 2SS 24   R                  U	5      n
UR                  U	5      nU R                  XJ5      nX‹-   nU R                  (       a’  [        R                  " U Vs/ sH  oÝS S 2S U R                  24   PM     snSS9nUS:H  nUS S 2S S 2S4   nU R                  S:”  a#  US S 2U R                  S-
  S U R                  24   nU R                  XïU5      nUU-  nU$ s  snf )Nr1   r   r  r   r¿   )rð  r
  rÃ   rÈ   rU   rÒ   rº   rµ   r  r  r	  r.   r  )r{   r/   r¶  r·  r¸  r  r»  rc  Úl1_lossrò  Ústop_labelsÚbce_lossrô  ÚxÚattnrì  rí  Ú	attn_losss                     r*   r„   ÚSpeechT5SpectrogramLoss.forwardk  s¶  € ð  Ñ'ˆð ×%Ñ% lÓ3ˆØ!7×!EÑ!EÀlÓ!SÐØ 5× CÑ CÀLÓ QÐð ×#Ñ#Ð$9ÓBÀT×EVÑEVÐWmÓEvÑvˆð šQ¢ 1˜WÑ%ˆÜ—i’i % ¨#¡¬u¯zªz¸%¿*¹*ÀQ»-ÈÓ/K×/NÑ/NÈuÏ|É|Ó/\Ð ]ÐcdÑeˆØ!¢! Q¡R %Ñ(×6Ñ6°uÓ=ˆØ×%Ñ% eÓ,ˆð ×%Ñ% fÓ:ˆð Ñ!ˆð ×)×)Ü—9’9ÑTdÓeÑTdÈq¢Ð#I T×%IÑ%IÐ#IÐ IÔJÑTdÑeÐklÑmˆDØ(¨AÑ-ˆKØ'ªª1¨a¨Ñ0ˆLØ×$Ñ$ qÓ(Ø+ªA¨t×/DÑ/DÀqÑ/HÐ/aÈD×LaÑLaÐ/aÐ,aÑbØ×+Ñ+¨D¸|ÓLˆIØIÑˆDàˆùò fs   Ä%F%)r  r  r	  r
  r.   r  r   )rˆ   r‰   rŠ   r‹   râ   r   ro   rÃ   r‚  rƒ  r   rå   r„   rŒ   r   rŽ   s   @r*   r  r  Z  s–   ø† ñð
O˜~÷ 
Oð& 9=ñ)à×(Ñ(ð)ð !&× 1Ñ 1ð)ð  %×0Ñ0ð	)ð
 ×!Ñ!ð)ð ×!Ñ!ð)ð # 5×#4Ñ#4Ñ5ð)ð 
‰÷)ó )r,   r  zv
    The bare SpeechT5 Encoder-Decoder Model outputting raw hidden-states without any specific pre- or post-nets.
    ©Úcustom_introc            $       óz  ^ • \ rS rSr  SS\S\\R                     S\\R                     4U 4S jjjrS r	S r
S rS	 rS
 r\               SS\\R                      S\\R"                     S\\R                      S\\R"                     S\\R$                     S\\R$                     S\\R                      S\\\\R$                           S\\\\R$                           S\\   S\\R$                     S\\   S\\   S\\   S\\R                      S\\\R$                     \4   4 S jj5       rSrU =r$ )ÚSpeechT5Modeli—  r|   ÚencoderÚdecoderc                 ó¤   >• [         TU ]  U5        Xl        Uc  [        U5      OUU l        Uc  [        U5      OUU l        U R                  5         g)z
encoder (`PreTrainedModel`, *optional*):
    The encoder model to use.
decoder (`PreTrainedModel`, *optional*):
    The decoder model to use.
N)rn   ro   r|   r©  r  rÞ  r  rk  )r{   r|   r  r  r~   s       €r*   ro   ÚSpeechT5Model.__init__  sK   ø€ ô 	‰Ñ˜Ô ØŒØ?F¹Ô3°FÔ;ÐT[ˆŒØ?F¹Ô3°FÔ;ÐT[ˆŒð 	‰Õr,   c                 óò   • [        U R                  [        5      (       a  U R                  R                  5       $ [        U R                  [
        5      (       a  U R                  R                  5       $ [        er   )rÐ  r  r–  rœ  r  rÔ  ÚNotImplementedErrorrZ  s    r*   rœ  Ú"SpeechT5Model.get_input_embeddings±  sR   € Üd—l‘lÔ$A×BÑBØ—<‘<×4Ñ4Ó6Ð6Üd—l‘lÔ$A×BÑBØ—<‘<×4Ñ4Ó6Ð6Ü!Ð!r,   c                 óî   • [        U R                  [        5      (       a  U R                  R                  U5        [        U R                  [
        5      (       a  U R                  R                  U5        g g r   )rÐ  r  r–  r¡  r  rÔ  r¢  s     r*   r¡  Ú"SpeechT5Model.set_input_embeddings¸  sP   € Üd—l‘lÔ$A×BÑBØL‰L×-Ñ-¨eÔ4Üd—l‘lÔ$A×BÑBØL‰L×-Ñ-¨eÕ4ð Cr,   c                 ó   • U R                   $ r   )r  rZ  s    r*   Úget_encoderÚSpeechT5Model.get_encoder¾  ó   € Ø|‰|Ðr,   c                 ó   • U R                   $ r   )r  rZ  s    r*   Úget_decoderÚSpeechT5Model.get_decoderÁ  r'  r,   c                 óŒ   • [        U R                  [        5      (       a%  U R                  R                  R	                  5         gg©z
Calling this function will disable the gradient computation for the feature encoder so that its parameter will
not be updated during training.
N)rÐ  r  rŠ  rŒ  r[  rZ  s    r*   r[  Ú$SpeechT5Model.freeze_feature_encoderÄ  s2   € ô
 d—l‘lÔ$C×DÑDØL‰L×Ñ×6Ñ6Õ8ð Er,   r-   r/   Údecoder_input_valuesÚdecoder_attention_maskrm  Údecoder_head_maskr·  Úencoder_outputsrÎ  rB  rš  rø  rn  ro  rù  r8   c                 óÌ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUc  U R                  UUUUUUS9nORU(       aK  [        U[        5      (       d6  [        US   [        U5      S:”  a  US   OS[        U5      S:”  a  US   OSS9nUbV  [        U R
                  [        5      (       a7  U R
                  R                  R                  US   R                  S   U5      nOUn[        U R                  [        5      (       a  SU0nO0 nU R                  " S
UUUS   UUUU	U
UUUUS.UD6nU(       d  UU-   $ [        UR                   UR"                  UR$                  UR&                  UR(                  UR                   UR$                  UR&                  S	9$ )a1  
input_values (`torch.Tensor` of shape `(batch_size, sequence_length)`):
    Depending on which encoder is being used, the `input_values` are either: float values of the input raw
    speech waveform, or indices of input sequence tokens in the vocabulary, or hidden states.
decoder_input_values (`torch.Tensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Depending on which decoder is being used, the `decoder_input_values` are either: float values of log-mel
    filterbank features extracted from the raw speech waveform, or indices of decoder input sequence tokens in
    the vocabulary, or hidden states.
decoder_attention_mask (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_values`. Causal mask will
    also be used by default.

    If you want to change padding behavior, you should read [`SpeechT5Decoder._prepare_decoder_attention_mask`]
    and modify to your needs. See diagram 1 in [the paper](https://huggingface.co/papers/1910.13461) for more
    information on the default strategy.
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
speaker_embeddings (`torch.FloatTensor` of shape `(batch_size, config.speaker_embedding_dim)`, *optional*):
    Tensor containing the speaker embeddings.
N)r-   r/   rm  rø  rn  ro  r   r   r­   ry  rš  )r-   r/   r?  r@  rm  r·  rÎ  rB  rø  rn  ro  rù  )rz  rÎ  rÑ  Údecoder_attentionsr»  Úencoder_last_hidden_stater?  Úencoder_attentionsr^  )r|   rø  rn  rB  r|  r  rÐ  r   rS   rŠ  rŒ  r_  r%   r  rÊ  r   rz  rÎ  rƒ   r{  r»  )r{   r-   r/   r.  r/  rm  r0  r·  r1  rÎ  rB  rš  rø  rn  ro  rù  r@  Údecoder_argsÚdecoder_outputss                      r*   r„   ÚSpeechT5Model.forwardÌ  s  € ðT 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ñ"Ø"Ÿl™lØ)Ø-Ø#Ø"3Ø%9Ø'ð +ð ‰Oö ¤¨O¼_×!MÑ!MÜ-Ø"1°!Ñ"4Ü47¸Ó4HÈ1Ó4L˜o¨aÒ0ÐRVÜ14°_Ó1EÈÓ1I˜?¨1Ò-ÈtñˆOð Ñ%¬*°T·\±\ÔCb×*cÑ*cØ%)§\¡\×%8Ñ%8×%[Ñ%[Ø Ñ"×(Ñ(¨Ñ+¨^ó&Ñ"ð &4Ð"äd—l‘lÔ$C×DÑDØ0Ð2DÐE‰LàˆLàŸ,š,ð 
Ø-Ø1Ø"1°!Ñ"4Ø#9Ø'Ø!5Ø+ØØ/Ø!5Ø#Ø)ñ
ð ñ
ˆö  Ø" _Ñ4Ð4ä!Ø-×?Ñ?Ø+×;Ñ;Ø"1×"?Ñ"?Ø.×9Ñ9Ø,×=Ñ=Ø&5×&GÑ&GØ"1×"?Ñ"?Ø.×9Ñ9ñ	
ð 		
r,   )r|   r  r  r  ©NNNNNNNNNNNNNNN)rˆ   r‰   rŠ   r‹   r   r   r   rc  ro   rœ  r¡  r%  r)  r[  r   rÃ   rå   r‚  rƒ  r  rP   r   r   r„   rŒ   r   rŽ   s   @r*   r  r  —  sú  ø† ð (,Ø'+ñ	àðð ˜"Ÿ)™)Ñ$ðð ˜"Ÿ)™)Ñ$÷	ð ò("ò5òòò9ð ð 04Ø59Ø7;Ø=AØ15Ø9=Ø7;ØEIØEIØ$(Ø:>Ø,0Ø/3Ø&*Ø15ñ!k
à˜uŸ|™|Ñ,ðk
ð ! ×!1Ñ!1Ñ2ðk
ð ' u§|¡|Ñ4ð	k
ð
 !)¨×)9Ñ)9Ñ :ðk
ð ˜E×-Ñ-Ñ.ðk
ð $ E×$5Ñ$5Ñ6ðk
ð ' u§|¡|Ñ4ðk
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðk
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðk
ð ˜D‘>ðk
ð % U×%6Ñ%6Ñ7ðk
ð $ D™>ðk
ð ' t™nðk
ð ˜d‘^ðk
ð  ! §¡Ñ.ð!k
ð" 
ˆuU×&Ñ&Ñ'Ð);Ð;Ñ	<ô#k
ó ök
r,   r  zB
    SpeechT5 Model with a speech encoder and a text decoder.
    c            $       ó"  ^ • \ rS rSrS/rS\4U 4S jjrS rS rS r	S r
S	 r\               SS
\\R                     S\\R                      S\\R                      S\\R                      S\\R                     S\\R                     S\\R"                     S\\\\R                           S\\\\R                           S\\   S\\   S\\   S\\   S\\R                      S\\R"                     S\\\4   4 S jj5       rSrU =r$ )ÚSpeechT5ForSpeechToTexti;  z#text_decoder_postnet.lm_head.weightr|   c                 óþ   >• [         TU ]  U5        UR                  c  [        SU R                   S35      e[        U5      n[        U5      n[        XU5      U l        [        U5      U l
        U R                  5         g )NúYou are trying to instantiate a    with a configuration that does not define the vocabulary size of the language model head. Please instantiate the model as follows: `SpeechT5ForSpeechToText.from_pretrained(..., vocab_size=vocab_size)`. or define `vocab_size` of your model's configuration.)rn   ro   rÀ  r'   r~   rŠ  rÔ  r  rI  rÖ  Útext_decoder_postnetrk  )r{   r|   Úspeech_encoderÚtext_decoderr~   s       €r*   ro   Ú SpeechT5ForSpeechToText.__init__C  s}   ø€ Ü‰Ñ˜Ô à×ÑÑ$ÜØ0°·±Ð0@ð A/ð /óð ô 9¸Ó@ˆÜ4°VÓ<ˆÜ% f¸lÓKˆŒä$>¸vÓ$FˆÔ!ð 	‰Õr,   c                 ó6   • U R                   R                  5       $ r   ©rI  r%  rZ  s    r*   r%  Ú#SpeechT5ForSpeechToText.get_encoderW  ó   € Ø}‰}×(Ñ(Ó*Ð*r,   c                 ó6   • U R                   R                  5       $ r   ©rI  r)  rZ  s    r*   r)  Ú#SpeechT5ForSpeechToText.get_decoderZ  rE  r,   c                 óT   • U R                  5       R                  R                  5         gr,  ©r%  rŒ  r[  rZ  s    r*   r[  Ú.SpeechT5ForSpeechToText.freeze_feature_encoder]  ó   € ð
 	×ÑÓ×!Ñ!×8Ñ8Õ:r,   c                 ó6   • U R                   R                  5       $ r   )r>  rß  rZ  s    r*   rß  Ú-SpeechT5ForSpeechToText.get_output_embeddingsd  s   € Ø×(Ñ(×>Ñ>Ó@Ð@r,   c                 ó:   • U R                   R                  U5        g r   )r>  rä  râ  s     r*   rä  Ú-SpeechT5ForSpeechToText.set_output_embeddingsg  s   € Ø×!Ñ!×7Ñ7¸ÕGr,   r-   r/   Údecoder_input_idsr/  rm  r0  r·  r1  rÎ  rB  rø  rn  ro  r  rù  r8   c                 ó†  • Ub  UOU R                   R                  nUb7  Uc4  [        XàR                   R                  U R                   R                  5      nU R                  UUUUUUUUU	U
UUSUS9nU R                  US   5      nSnUbF  [        5       nU" UR                  SU R                   R                  5      UR                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  UR                  UR                   UR"                  S9	$ )a`  
input_values (`torch.FloatTensor` of shape `(batch_size, sequence_length)`):
    Float values of input raw speech waveform. Values can be obtained by loading a *.flac* or *.wav* audio file
    into an array of type `list[float]`, a `numpy.ndarray` or a `torch.Tensor`, *e.g.* via the torchcodec library
    (`pip install torchcodec`) or the soundfile library (`pip install soundfile`).
    To prepare the array into `input_values`, the [`SpeechT5Processor`] should be used for padding
    and conversion into a tensor of type `torch.FloatTensor`. See [`SpeechT5Processor.__call__`] for details.
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`SpeechT5Tokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    SpeechT5 uses the `eos_token_id` as the starting token for `decoder_input_ids` generation. If
    `past_key_values` is used, optionally only the last `decoder_input_ids` have to be input (see
    `past_key_values`).
decoder_attention_mask (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_values`. Causal mask will
    also be used by default.

    If you want to change padding behavior, you should read [`SpeechT5Decoder._prepare_decoder_attention_mask`]
    and modify to your needs. See diagram 1 in [the paper](https://huggingface.co/papers/1910.13461) for more
    information on the default strategy.
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the language modeling loss. Indices should either be in `[0, ..., config.vocab_size]`
    or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored (masked), the loss is
    only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

    Label indices can be obtained using [`SpeechT5Tokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

Example:

```python
>>> from transformers import SpeechT5Processor, SpeechT5ForSpeechToText
>>> from datasets import load_dataset

>>> dataset = load_dataset(
...     "hf-internal-testing/librispeech_asr_demo", "clean", split="validation"
... )  # doctest: +IGNORE_RESULT
>>> dataset = dataset.sort("id")
>>> sampling_rate = dataset.features["audio"].sampling_rate

>>> processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_asr")
>>> model = SpeechT5ForSpeechToText.from_pretrained("microsoft/speecht5_asr")

>>> # audio file is decoded on the fly
>>> inputs = processor(audio=dataset[0]["audio"]["array"], sampling_rate=sampling_rate, return_tensors="pt")
>>> predicted_ids = model.generate(**inputs, max_length=100)

>>> # transcribe speech
>>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
>>> transcription[0]
'mister quilter is the apostle of the middle classes and we are glad to welcome his gospel'
```

```python
>>> inputs["labels"] = processor(text_target=dataset[0]["text"], return_tensors="pt").input_ids

>>> # compute loss
>>> loss = model(**inputs).loss
>>> round(loss.item(), 2)
19.68
```
NT)r-   r/   r.  r/  rm  r0  r·  r1  rÎ  rB  rø  rn  ro  rù  r   r#   r   )	rô  r¸  rÎ  rÑ  r3  r»  r4  r?  r5  )r|   r|  r+   r    r!   rI  r>  r   rË   rÀ  r   rÎ  rÑ  r3  r»  r4  r?  r5  )r{   r-   r/   rQ  r/  rm  r0  r·  r1  rÎ  rB  rø  rn  ro  r  rù  r3  r¸  rô  Úloss_fctÚoutputs                        r*   r„   ÚSpeechT5ForSpeechToText.forwardj  s[  € ðv &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑØ Ñ(Ü$6ØŸK™K×4Ñ4°d·k±k×6XÑ6Xó%Ð!ð —-‘-Ø%Ø)Ø!2Ø#9ØØ/Ø!5Ø+Ø+ØØ/Ø!5ØØ)ð  ð 
ˆð" ×*Ñ*¨7°1©:Ó6ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯K©K×,BÑ,BÓCÀVÇ[Á[ÐQSÃ_ÓUˆDæØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEäØØØ#×3Ñ3Ø")×"?Ñ"?Ø&×9Ñ9Ø$×5Ñ5Ø&-×&GÑ&GØ")×"?Ñ"?Ø&×9Ñ9ñ

ð 
	
r,   )rI  r>  r9  )rˆ   r‰   rŠ   r‹   Ú_tied_weights_keysr   ro   r%  r)  r[  rß  rä  r   r   rÃ   rƒ  r‚  rå   r  rP   r   r   r„   rŒ   r   rŽ   s   @r*   r;  r;  ;  sÌ  ø† ð @Ð@Ðð˜~÷ ò(+ò+ò;òAòHð ð 59Ø59Ø8<Ø=AØ15Ø9=Ø7;ØEIØEIØ$(Ø,0Ø/3Ø&*Ø-1Ø15ñ!H
à˜u×0Ñ0Ñ1ðH
ð ! ×!1Ñ!1Ñ2ðH
ð $ E×$4Ñ$4Ñ5ð	H
ð
 !)¨×)9Ñ)9Ñ :ðH
ð ˜E×-Ñ-Ñ.ðH
ð $ E×$5Ñ$5Ñ6ðH
ð ' u§|¡|Ñ4ðH
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðH
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðH
ð ˜D‘>ðH
ð $ D™>ðH
ð ' t™nðH
ð ˜d‘^ðH
ð ˜×)Ñ)Ñ*ðH
ð  ! §¡Ñ.ð!H
ð" 
ˆuoÐ%Ñ	&ô#H
ó öH
r,   r;  Úmodelrš  Ú	thresholdÚminlenratioÚmaxlenratioÚvocoderÚoutput_cross_attentionsÚreturn_output_lengthsc
                 óž  • Uc  [        S5      eUc*  SXR                  R                  :H  R                  5       -
  n
OUn
UR	                  S5      nU R
                  R                  UU
SS9nUR                  n[        U R
                  R                  [        5      (       a@  U R
                  R                  R                  R                  US   R                  S   U
5      n
[        UR	                  S5      U-  U R                  R                  -  5      n[        UR	                  S5      U-  U R                  R                  -  5      nUR                  USU R                  R                  5      n/ n/ nS nSn0 n US-  nU R
                  R                   R                  UU5      nU R
                  R                   R#                  US S 2SS 24   S UU
USUSS9nU(       a.  UR%                  [&        R(                  " UR*                  SS95        UR                  R-                  S5      nUR.                  nU R0                  R3                  U5      nUR5                  X°R                  R                  U R                  R                  5      nUR%                  U5        US S 2SS S 24   R5                  USU R                  R                  5      n[&        R(                  " UU4SS9n[&        R6                  " U R0                  R9                  U5      5      nUU:  a  GM¡  UU:  a@  [&        R:                  " USS9U:¬  n[&        R<                  " U5      S   R?                  5       nO[A        [C        U5      5      nU Vs/ sH  nUU;  d  M  UPM     nn[C        U5      S:”  ad  [&        RD                  " U5      nURG                  SS5      RI                  SS	5      nU R0                  RK                  U5      nU H  n UU    UU '   M     [C        U5      U:¼  a  OGM™  [A        [C        U5      5       Vs/ sH  nUU   PM
     nnU	(       d³  US:X  a  US   O1[&        RL                  RN                  RP                  RS                  USS
9nUb	  U" U5      n!OUn!U(       a_  [&        R(                  " US	S9nUS:”  a@  UR4                  " U[        UR	                  S5      U-  5      /UR	                  5       SS  Q76 nU!U4n!U!$ / n"[A        U5       H&  nU"R%                  UU   R	                  S5      5        M(     Uc7  [&        RL                  RN                  RP                  RS                  USS
9nUU"4n!Ox/ n#[&        RL                  RN                  RP                  RS                  USS
9nU" U5      n#U" Vs/ sH,  n[        U#R	                  S5      [U        U"5      -  5      U-  PM.     n$nU#U$4n!U(       a\  [&        R(                  " US	S9nUR4                  " U[        UR	                  S5      U-  5      /UR	                  5       SS  Q76 n/ U!QUP7n!U!$ s  snf s  snf s  snf )Na  `speaker_embeddings` must be specified. For example, you can use a speaker embeddings by following
                    the code snippet provided in this link:
                    https://huggingface.co/datasets/Matthijs/cmu-arctic-xvectors
                    r   r   T)r-   r/   ro  r#   )rƒ   r/   r?  r@  rÎ  rB  rø  ro  r¿   r­   )Úbatch_firstéýÿÿÿ)+r'   r|   r    r<   rÒ   rI  r  rz  rÐ  rŠ  rŒ  r_  r%   r.   r$   rˆ  r  rÌ  rW   rÃ   rÈ   r»  ÚsqueezerÎ  Úspeech_decoder_postnetr±  rË   Úsigmoidr²  rL   r•  rM   rN   rS   Ústackr™   Úflattenrµ  r   ró   ÚrnnÚpad_sequencer=   )%rW  r-   rš  r/   rX  rY  rZ  r[  r\  r]  r@  rÕ   Úencoder_outr4  ÚmaxlenÚminlenÚoutput_sequenceÚspectrogramr»  rÎ  r  Úresult_spectrogramrÑ  Údecoder_outÚlast_decoder_outputÚspectrumÚnew_spectrogramÚprobÚmeet_thresholdsÚmeet_indexesr1  ÚspectrogramsÚ
meet_indexr3  Úspectrogram_lengthsÚ	waveformsÚwaveform_lengthss%                                        r*   Ú_generate_speechrz  ö  s  € ð Ñ!Üðó
ð 	
ð ÑØ!" l·l±l×6OÑ6OÑ&O×%TÑ%TÓ%VÑ!VÑà!/Ðà
×
Ñ
˜AÓ
€Cà—.‘.×(Ñ(Ø!Ø-Øð )ð €Kð !,× =Ñ =Ðô %—.‘.×(Ñ(Ô*I×JÑJØ!&§¡×!7Ñ!7×!>Ñ!>×!aÑ!aØ˜‰N× Ñ  Ñ#Ð%;ó"
Ðô Ð*×/Ñ/°Ó2°[Ñ@À5Ç<Á<×C`ÑC`Ñ`Óa€FÜÐ*×/Ñ/°Ó2°[Ñ@À5Ç<Á<×C`ÑC`Ñ`Óa€Fð 0×9Ñ9¸#¸qÀ%Ç,Á,×B[ÑB[Ó\€Oà€KØÐØ€OØ
€CØÐà
Øˆq‰ˆð !&§¡× 6Ñ 6× =Ñ =¸oÐOaÓ bÐà—n‘n×,Ñ,×<Ñ<Ø/²°2±3°Ñ7ØØ";Ø#9Ø+ØØ5Øð =ð 	
ˆö #Ø×#Ñ#¤E§I¢I¨k×.JÑ.JÐPQÑ$RÔSà)×;Ñ;×CÑCÀAÓFÐØ%×5Ñ5ˆð ×/Ñ/×8Ñ8Ð9LÓMˆØ—=‘= §l¡l×&CÑ&CÀUÇ\Á\×E^ÑE^Ó_ˆØ×Ñ˜8Ô$ð #¢1 bª! 8Ñ,×1Ñ1°#°q¸%¿,¹,×:SÑ:SÓTˆÜŸ)š) _°oÐ$FÈAÑNˆä}Š}˜U×9Ñ9×BÑBÐCVÓWÓXˆà‹<Úð V‹|Ü"'§)¢)¨D°bÑ"9¸YÑ"FÜ$Ÿ{š{¨?Ó;¸AÑ>×EÑEÓG‘ä$¤S¨£YÓ/Ù'3ÓS¡| !°qÐ@RÑ7RŸA¡|ˆLÐSÜ<Ó  1Ó$Ü$Ÿ{š{¨;Ó7Ø+×5Ñ5°a¸Ó;×CÑCÀAÀqÓIØ$×;Ñ;×CÑCÀLÓQÛ".JØ5AÀ*Ñ5MÐ& zÓ2ñ #/äÐ%Ó&¨#Ó-Øòi ôj 49¼Ð=OÓ9PÔ3QÓRÑ3Q¨aÐ& qÔ)Ñ3Q€LÐRÞ Ø),°«l 1’o´u·x±x·~±~×7IÑ7I×7VÑ7VÐWcÐquÐ7VÐ7vˆØÑÙ˜kÓ*‰Gà!ˆGÞ"Ü$ŸyšyÐ)9¸qÑAÐØQ‹wØ#3×#8Ò#8ØœÐ-×2Ñ2°1Ó5¸Ñ;Ó<ð$Ø?O×?TÑ?TÓ?VÐWYÐWZÐ?[ò$Ð ð Ð 0Ð1ˆGð* €Nð% !ÐÜs–ˆAØ×&Ñ& |°A¡×';Ñ';¸AÓ'>Ö?ñ à‰?Ü Ÿ8™8Ÿ>™>×-Ñ-×:Ñ:¸<ÐUYÐ:ÐZˆLØ#Ð%8Ð9‰GàˆIÜ Ÿ8™8Ÿ>™>×-Ñ-×:Ñ:¸<ÐUYÐ:ÐZˆLÙ Ó-ˆIÙ_rÓsÑ_rÐZ[¤ I§N¡N°1Ó$5¼Ð<OÓ8PÑ$PÓ QÐTUÔ UÑ_rÐÐsØ Ð"2Ð3ˆGÞ"Ü$ŸyšyÐ)9¸qÑAÐØ/×4Ò4Ø”SÐ)×.Ñ.¨qÓ1°CÑ7Ó8ð Ø;K×;PÑ;PÓ;RÐSUÐSVÐ;Wò Ðð 3˜Ð2Ð!1Ñ2ˆGØ€NùòW Tùò Sùò4  ts   Í7	Y ÎY Ð(YÖ#2Y
zB
    SpeechT5 Model with a text encoder and a speech decoder.
    c            (       ó¦  ^ • \ rS rSrSrS\4U 4S jjr\S\4S j5       r	S r
S r\                 S#S\\R                     S	\\R                     S
\\R                      S\\R                     S\\R                      S\\R                      S\\R"                     S\\\\R                            S\\\\R                            S\\   S\\   S\\   S\\   S\\R                      S\\R                      S\\R"                     S\\R"                     S\\\4   4$S jj5       r\R,                  " 5               S$S\R                  S	\\R                     S\\R                      S\S\S\S\\R2                     S\S\S\\R                   \\R                   \R                   4   4   4S  jj5       r\R,                  " 5               S$S\R                  S\\R                      S	\\R                     S\S\S\S\\R2                     S\S\S\\R                   \\R                   \R                   4   4   4S! jj5       rS"rU =r$ )%ÚSpeechT5ForTextToSpeechi…	  r   r|   c                 óþ   >• [         TU ]  U5        UR                  c  [        SU R                   S35      e[        U5      n[        U5      n[        XU5      U l        [        U5      U l
        U R                  5         g )Nr=  a    with a configuration that does not define the vocabulary size of the language model head. Please instantiate the model as follows: `SpeechT5ForTextToSpeech.from_pretrained(..., vocab_size=vocab_size)`. or define `vocab_size` of your model's configuration.)rn   ro   rÀ  r'   r~   r–  rÊ  r  rI  r¯  rb  rk  )r{   r|   Útext_encoderÚspeech_decoderr~   s       €r*   ro   Ú SpeechT5ForTextToSpeech.__init__	  s}   ø€ Ü‰Ñ˜Ô à×ÑÑ$ÜØ0°·±Ð0@ð A/ð /óð ô 5°VÓ<ˆÜ8¸Ó@ˆÜ% f¸NÓKˆŒä&BÀ6Ó&JˆÔ#ð 	‰Õr,   r8   c                 ó   • gr:  r^  )Úclss    r*   Úcan_generateÚ$SpeechT5ForTextToSpeech.can_generate¡	  s   € ð
 r,   c                 ó6   • U R                   R                  5       $ r   rC  rZ  s    r*   r%  Ú#SpeechT5ForTextToSpeech.get_encoder¨	  rE  r,   c                 ó6   • U R                   R                  5       $ r   rG  rZ  s    r*   r)  Ú#SpeechT5ForTextToSpeech.get_decoder«	  rE  r,   r/   r.  r/  rm  r0  r·  r1  rÎ  rB  rø  rn  ro  rš  r  r  rù  c                 ór  • Ub  UOU R                   R                  nUbB  Uc"  [        XðR                   R                  U5      u  p4U R                   R                  (       a  SnU R                  UUUUUUUUU	U
UUUSUS9nU R                  US   5      u  nnnSnUb,  [        U R                   5      nU" UUUUUUR                  5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  UR                  UR                  UR                  S9	$ )aH  
input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
    Indices of input sequence tokens in the vocabulary.

    Indices can be obtained using [`SpeechT5Tokenizer`]. See [`~PreTrainedTokenizer.encode`] and
    [`~PreTrainedTokenizer.__call__`] for details.

    [What are input IDs?](../glossary#input-ids)
decoder_input_values (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.num_mel_bins)`):
    Float values of input mel spectrogram.

    SpeechT5 uses an all-zero spectrum as the starting token for `decoder_input_values` generation. If
    `past_key_values` is used, optionally only the last `decoder_input_values` have to be input (see
    `past_key_values`).
decoder_attention_mask (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_values`. Causal mask will
    also be used by default.

    If you want to change padding behavior, you should read [`SpeechT5Decoder._prepare_decoder_attention_mask`]
    and modify to your needs. See diagram 1 in [the paper](https://huggingface.co/papers/1910.13461) for more
    information on the default strategy.
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
speaker_embeddings (`torch.FloatTensor` of shape `(batch_size, config.speaker_embedding_dim)`, *optional*):
    Tensor containing the speaker embeddings.
labels (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.num_mel_bins)`, *optional*):
    Float values of target mel spectrogram. Timesteps set to `-100.0` are ignored (masked) for the loss
    computation. Spectrograms can be obtained using [`SpeechT5Processor`]. See [`SpeechT5Processor.__call__`]
    for details.
stop_labels (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
    Binary tensor indicating the position of the stop token in the sequence.

Example:

```python
>>> from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan, set_seed
>>> import torch

>>> processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
>>> model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
>>> vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

>>> inputs = processor(text="Hello, my dog is cute", return_tensors="pt")
>>> speaker_embeddings = torch.zeros((1, 512))  # or load xvectors from a file

>>> set_seed(555)  # make deterministic

>>> # generate speech
>>> speech = model.generate(inputs["input_ids"], speaker_embeddings=speaker_embeddings, vocoder=vocoder)
>>> speech.shape
torch.Size([15872])
```
NT©r-   r/   r.  r/  rm  r0  r·  r1  rÎ  rB  rš  rø  rn  ro  rù  r   r   ©	rô  rl  rÎ  rÑ  r3  r»  r4  r?  r5  )r|   r|  r4   r.   r  rI  rb  r  r»  r   rÎ  rÑ  r3  r4  r?  r5  )r{   r   r/   r.  r/  rm  r0  r·  r1  rÎ  rB  rø  rn  ro  rš  r  r  rù  r3  r¶  r·  r¸  rô  Ú	criterionrT  s                            r*   r„   ÚSpeechT5ForTextToSpeech.forward®	  s{  € ðZ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑØ#Ñ+Ü?WØŸK™K×8Ñ8Ð:Pó@Ñ<Ð$ð {‰{×4×4Ø$(Ð!à—-‘-Ø"Ø)Ø!5Ø#9ØØ/Ø!5Ø+Ø+ØØ1Ø/Ø!5ØØ)ð  ð 
ˆð$ AE×@[Ñ@[Ð\cÐdeÑ\fÓ@gÑ=ÐÐ 5°vàˆØÑÜ/°·±Ó<ˆIÙØØ&Ø%ØØØ×(Ñ(óˆDö Ø+Ð-°¸¸°Ñ;ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØ-Ø#×3Ñ3Ø")×"?Ñ"?Ø&×9Ñ9Ø$×5Ñ5Ø&-×&GÑ&GØ")×"?Ñ"?Ø&×9Ñ9ñ

ð 
	
r,   rX  rY  rZ  r[  r\  r]  c
                 óâ   • UbY  UR                  S5      nUR                  S5      U:w  a3  UR                  S5      S:X  a  UR                  US5      nO[        S5      e[        U UUUUUUUUU	5
      $ )aµ  
Converts a sequence of input tokens into a sequence of mel spectrograms, which are subsequently turned into a
speech waveform using a vocoder.

Args:
    input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
        Indices of input sequence tokens in the vocabulary.

        Indices can be obtained using [`SpeechT5Tokenizer`]. See [`~PreTrainedTokenizer.encode`] and
        [`~PreTrainedTokenizer.__call__`] for details.

        [What are input IDs?](../glossary#input-ids)
    attention_mask (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
        Attention mask from the tokenizer, required for batched inference to signal to the model where to
        ignore padded tokens from the input_ids.
    speaker_embeddings (`torch.FloatTensor` of shape `(batch_size, config.speaker_embedding_dim)`, *optional*):
        Tensor containing the speaker embeddings.
    threshold (`float`, *optional*, defaults to 0.5):
        The generated sequence ends when the predicted stop token probability exceeds this value.
    minlenratio (`float`, *optional*, defaults to 0.0):
        Used to calculate the minimum required length for the output sequence.
    maxlenratio (`float`, *optional*, defaults to 20.0):
        Used to calculate the maximum allowed length for the output sequence.
    vocoder (`nn.Module`, *optional*):
        The vocoder that converts the mel spectrogram into a speech waveform. If `None`, the output is the mel
        spectrogram.
    output_cross_attentions (`bool`, *optional*, defaults to `False`):
        Whether or not to return the attentions tensors of the decoder's cross-attention layers.
    return_output_lengths (`bool`, *optional*, defaults to `False`):
        Whether or not to return the concrete spectrogram/waveform lengths.

Returns:
    `tuple(torch.FloatTensor)` comprising various elements depending on the inputs:
    - when `return_output_lengths` is False
        - **spectrogram** (*optional*, returned when no `vocoder` is provided) `torch.FloatTensor` of shape
        `(output_sequence_length, config.num_mel_bins)` -- The predicted log-mel spectrogram.
        - **waveform** (*optional*, returned when a `vocoder` is provided) `torch.FloatTensor` of shape
        `(num_frames,)` -- The predicted speech waveform.
        - **cross_attentions** (*optional*, returned when `output_cross_attentions` is `True`)
        `torch.FloatTensor` of shape `(config.decoder_layers, config.decoder_attention_heads,
        output_sequence_length, input_sequence_length)` -- The outputs of the decoder's cross-attention layers.
    - when `return_output_lengths` is True
        - **spectrograms** (*optional*, returned when no `vocoder` is provided) `torch.FloatTensor` of shape
        `(batch_size, output_sequence_length, config.num_mel_bins)` -- The predicted log-mel spectrograms that
        are padded to the maximum length.
        - **spectrogram_lengths** (*optional*, returned when no `vocoder` is provided) `list[Int]` -- A list of
        all the concrete lengths for each spectrogram.
        - **waveforms** (*optional*, returned when a `vocoder` is provided) `torch.FloatTensor` of shape
        `(batch_size, num_frames)` -- The predicted speech waveforms that are padded to the maximum length.
        - **waveform_lengths** (*optional*, returned when a `vocoder` is provided) `list[Int]` -- A list of all
        the concrete lengths for each waveform.
        - **cross_attentions** (*optional*, returned when `output_cross_attentions` is `True`)
        `torch.FloatTensor` of shape `(batch_size, config.decoder_layers, config.decoder_attention_heads,
        output_sequence_length, input_sequence_length)` -- The outputs of the decoder's cross-attention layers.
r   r   zUThe first dimension of speaker_embeddings must be either 1 or the same as batch_size.©rÒ   r”  r'   rz  )r{   r   r/   rš  rX  rY  rZ  r[  r\  r]  Úkwargsr\   s               r*   ÚgenerateÚ SpeechT5ForTextToSpeech.generate5
  s   € ðJ Ñ)Ø"Ÿ™¨Ó*ˆJØ!×&Ñ& qÓ)¨ZÓ7Ø%×*Ñ*¨1Ó-°Ó2Ø);×)BÑ)BÀ:ÈqÓ)QÑ&ä$Øoóð ô  ØØØØØØØØØ#Ø!ó
ð 	
r,   c
                 óâ   • UbY  UR                  S5      n
UR                  S5      U
:w  a3  UR                  S5      S:X  a  UR                  U
S5      nO[        S5      e[        U UUUUUUUUU	5
      $ )aW  
Converts a sequence of input tokens into a sequence of mel spectrograms, which are subsequently turned into a
speech waveform using a vocoder.

Args:
    input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
        Indices of input sequence tokens in the vocabulary.

        Indices can be obtained using [`SpeechT5Tokenizer`]. See [`~PreTrainedTokenizer.encode`] and
        [`~PreTrainedTokenizer.__call__`] for details.

        [What are input IDs?](../glossary#input-ids)
    speaker_embeddings (`torch.FloatTensor` of shape `(batch_size, config.speaker_embedding_dim)`, *optional*):
        Tensor containing the speaker embeddings.
    attention_mask (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing convolution and attention on padding token indices. Mask values selected in
        `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    threshold (`float`, *optional*, defaults to 0.5):
        The generated sequence ends when the predicted stop token probability exceeds this value.
    minlenratio (`float`, *optional*, defaults to 0.0):
        Used to calculate the minimum required length for the output sequence.
    maxlenratio (`float`, *optional*, defaults to 20.0):
        Used to calculate the maximum allowed length for the output sequence.
    vocoder (`nn.Module`, *optional*, defaults to `None`):
        The vocoder that converts the mel spectrogram into a speech waveform. If `None`, the output is the mel
        spectrogram.
    output_cross_attentions (`bool`, *optional*, defaults to `False`):
        Whether or not to return the attentions tensors of the decoder's cross-attention layers.
    return_output_lengths (`bool`, *optional*, defaults to `False`):
        Whether or not to return the concrete spectrogram/waveform lengths.

Returns:
    `tuple(torch.FloatTensor)` comprising various elements depending on the inputs:
    - when `return_output_lengths` is False
        - **spectrogram** (*optional*, returned when no `vocoder` is provided) `torch.FloatTensor` of shape
        `(output_sequence_length, config.num_mel_bins)` -- The predicted log-mel spectrogram.
        - **waveform** (*optional*, returned when a `vocoder` is provided) `torch.FloatTensor` of shape
        `(num_frames,)` -- The predicted speech waveform.
        - **cross_attentions** (*optional*, returned when `output_cross_attentions` is `True`)
        `torch.FloatTensor` of shape `(config.decoder_layers, config.decoder_attention_heads,
        output_sequence_length, input_sequence_length)` -- The outputs of the decoder's cross-attention layers.
    - when `return_output_lengths` is True
        - **spectrograms** (*optional*, returned when no `vocoder` is provided) `torch.FloatTensor` of shape
        `(batch_size, output_sequence_length, config.num_mel_bins)` -- The predicted log-mel spectrograms that
        are padded to the maximum length.
        - **spectrogram_lengths** (*optional*, returned when no `vocoder` is provided) `list[Int]` -- A list of
        all the concrete lengths for each spectrogram.
        - **waveforms** (*optional*, returned when a `vocoder` is provided) `torch.FloatTensor` of shape
        `(batch_size, num_frames)` -- The predicted speech waveforms that are padded to the maximum length.
        - **waveform_lengths** (*optional*, returned when a `vocoder` is provided) `list[Int]` -- A list of all
        the concrete lengths for each waveform.
        - **cross_attentions** (*optional*, returned when `output_cross_attentions` is `True`)
        `torch.FloatTensor` of shape `(batch_size, config.decoder_layers, config.decoder_attention_heads,
        output_sequence_length, input_sequence_length)` -- The outputs of the decoder's cross-attention layers.
r   r   zUThe first dimension of speaker_embeddings must be either 1 or the same as batch size.r  )r{   r   rš  r/   rX  rY  rZ  r[  r\  r]  r\   s              r*   Úgenerate_speechÚ'SpeechT5ForTextToSpeech.generate_speech‘
  s   € ðR Ñ)Ø"Ÿ™¨Ó*ˆJØ!×&Ñ& qÓ)¨ZÓ7Ø%×*Ñ*¨1Ó-°Ó2Ø);×)BÑ)BÀ:ÈqÓ)QÑ&ä$Øoóð ô  ØØØØØØØØØ#Ø!ó
ð 	
r,   ©rb  rI  ©NNNNNNNNNNNNNNNNN©NNg      à?r2   g      4@NFF)rˆ   r‰   rŠ   r‹   ra  r   ro   ÚclassmethodrP   rƒ  r%  r)  r   r   rÃ   r‚  rƒ  rå   r  r   r   r„   rä   rÆ   r   rc  r‘  r”  rŒ   r   rŽ   s   @r*   r|  r|  …	  sÞ  ø† ð "€Oð˜~÷ ð( ð˜Tó ó ðò+ò+ð ð 15Ø59Ø<@Ø=AØ15Ø9=Ø7;ØEIØEIØ$(Ø,0Ø/3Ø&*Ø:>Ø.2Ø.2Ø15ñ%D
à˜E×,Ñ,Ñ-ðD
ð ! ×!1Ñ!1Ñ2ðD
ð ' u×'8Ñ'8Ñ9ð	D
ð
 !)¨×)9Ñ)9Ñ :ðD
ð ˜E×-Ñ-Ñ.ðD
ð $ E×$5Ñ$5Ñ6ðD
ð ' u§|¡|Ñ4ðD
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðD
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðD
ð ˜D‘>ðD
ð $ D™>ðD
ð ' t™nðD
ð ˜d‘^ðD
ð % U×%6Ñ%6Ñ7ðD
ð  ˜×*Ñ*Ñ+ð!D
ð" ˜eŸl™lÑ+ð#D
ð$ ! §¡Ñ.ð%D
ð& 
ˆuÐ.Ð.Ñ	/ô'D
ó ðD
ðL ‡]‚]ƒ_ð 6:Ø:>ØØ Ø!Ø'+Ø(-Ø&+ñY
à×#Ñ#ðY
ð ! ×!1Ñ!1Ñ2ðY
ð % U×%6Ñ%6Ñ7ð	Y
ð
 ðY
ð ðY
ð ðY
ð ˜"Ÿ)™)Ñ$ðY
ð "&ðY
ð  $ðY
ð 
ˆu× Ñ  %¨×(9Ñ(9¸5×;LÑ;LÐ(LÑ"MÐMÑ	NôY
ó ðY
ðv ‡]‚]ƒ_ð ;?Ø59ØØ Ø!Ø'+Ø(-Ø&+ñ]
à×#Ñ#ð]
ð % U×%6Ñ%6Ñ7ð]
ð ! ×!1Ñ!1Ñ2ð	]
ð
 ð]
ð ð]
ð ð]
ð ˜"Ÿ)™)Ñ$ð]
ð "&ð]
ð  $ð]
ð 
ˆu× Ñ  %¨×(9Ñ(9¸5×;LÑ;LÐ(LÑ"MÐMÑ	Nô]
ó ö]
r,   r|  zD
    SpeechT5 Model with a speech encoder and a speech decoder.
    c            (       ó4  ^ • \ rS rSrS\4U 4S jjrS rS rS r\	                 S"S\
\R                     S\
\R                     S	\
\R                     S
\
\R                     S\
\R                     S\
\R                     S\
\R                     S\
\\\R                           S\
\\\R                           S\
\   S\
\   S\
\   S\
\   S\
\R                     S\
\R                     S\
\R                     S\
\R                     S\\\4   4$S jj5       r\R(                  " 5               S#S\R                  S\
\R                     S\
\R                     S\S\S\S\
\R.                     S\S\S\R                  4S  jj5       rS!rU =r$ )$ÚSpeechT5ForSpeechToSpeechiò
  r|   c                 ó²   >• [         TU ]  U5        [        U5      n[        U5      n[	        XU5      U l        [        U5      U l        U R                  5         g r   )	rn   ro   rŠ  rÊ  r  rI  r¯  rb  rk  )r{   r|   r?  r  r~   s       €r*   ro   Ú"SpeechT5ForSpeechToSpeech.__init__ø
  sK   ø€ Ü‰Ñ˜Ô ä8¸Ó@ˆÜ8¸Ó@ˆÜ% f¸nÓMˆŒä&BÀ6Ó&JˆÔ#ð 	‰Õr,   c                 ó6   • U R                   R                  5       $ r   rC  rZ  s    r*   r%  Ú%SpeechT5ForSpeechToSpeech.get_encoder  rE  r,   c                 ó6   • U R                   R                  5       $ r   rG  rZ  s    r*   r)  Ú%SpeechT5ForSpeechToSpeech.get_decoder  rE  r,   c                 óT   • U R                  5       R                  R                  5         gr,  rJ  rZ  s    r*   r[  Ú0SpeechT5ForSpeechToSpeech.freeze_feature_encoder
  rL  r,   r-   r/   r.  r/  rm  r0  r·  r1  rÎ  rB  rø  rn  ro  rš  r  r  rù  r8   c                 óÚ  • Ub  UOU R                   R                  nUb%  Uc"  [        XðR                   R                  U5      u  p4U R	                  UUUUUUUUU	U
UUUSUS9nU R                  US   5      u  nnnSnU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  UR                  UR                  UR                  S9	$ )a[  
input_values (`torch.FloatTensor` of shape `(batch_size, sequence_length)`):
    Float values of input raw speech waveform. Values can be obtained by loading a *.flac* or *.wav* audio file
    into an array of type `list[float]`, a `numpy.ndarray` or a `torch.Tensor`, *e.g.* via the torchcodec library
    (`pip install torchcodec`) or the soundfile library (`pip install soundfile`).
    To prepare the array into `input_values`, the [`SpeechT5Processor`] should be used for padding and conversion into
    a tensor of type `torch.FloatTensor`. See [`SpeechT5Processor.__call__`] for details.
decoder_input_values (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.num_mel_bins)`):
    Float values of input mel spectrogram.

    SpeechT5 uses an all-zero spectrum as the starting token for `decoder_input_values` generation. If
    `past_key_values` is used, optionally only the last `decoder_input_values` have to be input (see
    `past_key_values`).
decoder_attention_mask (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_values`. Causal mask will
    also be used by default.

    If you want to change padding behavior, you should read [`SpeechT5Decoder._prepare_decoder_attention_mask`]
    and modify to your needs. See diagram 1 in [the paper](https://huggingface.co/papers/1910.13461) for more
    information on the default strategy.
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
speaker_embeddings (`torch.FloatTensor` of shape `(batch_size, config.speaker_embedding_dim)`, *optional*):
    Tensor containing the speaker embeddings.
labels (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.num_mel_bins)`, *optional*):
    Float values of target mel spectrogram. Spectrograms can be obtained using [`SpeechT5Processor`]. See
    [`SpeechT5Processor.__call__`] for details.
stop_labels (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
    Binary tensor indicating the position of the stop token in the sequence.

Example:

```python
>>> from transformers import SpeechT5Processor, SpeechT5ForSpeechToSpeech, SpeechT5HifiGan, set_seed
>>> from datasets import load_dataset
>>> import torch

>>> dataset = load_dataset(
...     "hf-internal-testing/librispeech_asr_demo", "clean", split="validation"
... )  # doctest: +IGNORE_RESULT
>>> dataset = dataset.sort("id")
>>> sampling_rate = dataset.features["audio"].sampling_rate

>>> processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_vc")
>>> model = SpeechT5ForSpeechToSpeech.from_pretrained("microsoft/speecht5_vc")
>>> vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

>>> # audio file is decoded on the fly
>>> inputs = processor(audio=dataset[0]["audio"]["array"], sampling_rate=sampling_rate, return_tensors="pt")

>>> speaker_embeddings = torch.zeros((1, 512))  # or load xvectors from a file

>>> set_seed(555)  # make deterministic

>>> # generate speech
>>> speech = model.generate_speech(inputs["input_values"], speaker_embeddings, vocoder=vocoder)
>>> speech.shape
torch.Size([77824])
```
NTrŠ  r   r   r‹  )r|   r|  r4   r.   rI  rb  r   rÎ  rÑ  r3  r»  r4  r?  r5  )r{   r-   r/   r.  r/  rm  r0  r·  r1  rÎ  rB  rø  rn  ro  rš  r  r  rù  r3  r]   rl  r¸  rô  rT  s                           r*   r„   Ú!SpeechT5ForSpeechToSpeech.forward  s(  € ðh &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑØ#Ñ+Ü?WØŸK™K×8Ñ8Ð:Pó@Ñ<Ð$ð —-‘-Ø%Ø)Ø!5Ø#9ØØ/Ø!5Ø+Ø+ØØ1Ø/Ø!5ØØ)ð  ð 
ˆð$ "&×!<Ñ!<¸WÀQ¹ZÓ!HÑˆˆ;˜àˆæØ!^ g¨a¨b kÑ1ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØ#Ø#×3Ñ3Ø")×"?Ñ"?Ø&×9Ñ9Ø$×5Ñ5Ø&-×&GÑ&GØ")×"?Ñ"?Ø&×9Ñ9ñ

ð 
	
r,   rX  rY  rZ  r[  r\  r]  c
                 ón   • Uc  [         R                  " SUR                  S9n[        U UUUUUUUUU	5
      $ )ao  
Converts a raw speech waveform into a sequence of mel spectrograms, which are subsequently turned back into a
speech waveform using a vocoder.

Args:
    input_values (`torch.FloatTensor` of shape `(batch_size, sequence_length)`):
        Float values of input raw speech waveform.

        Values can be obtained by loading a *.flac* or *.wav* audio file into an array of type `list[float]`,
        a `numpy.ndarray` or a `torch.Tensor`, *e.g.* via the torchcodec library (`pip install torchcodec`)
        or the soundfile library (`pip install soundfile`).
        To prepare the array into `input_values`, the [`SpeechT5Processor`] should be used for padding and
        conversion into a tensor of type `torch.FloatTensor`. See [`SpeechT5Processor.__call__`] for details.
    speaker_embeddings (`torch.FloatTensor` of shape `(batch_size, config.speaker_embedding_dim)`, *optional*):
        Tensor containing the speaker embeddings.
    attention_mask (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing convolution and attention on padding token indices. Mask values selected in
        `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    threshold (`float`, *optional*, defaults to 0.5):
        The generated sequence ends when the predicted stop token probability exceeds this value.
    minlenratio (`float`, *optional*, defaults to 0.0):
        Used to calculate the minimum required length for the output sequence.
    maxlenratio (`float`, *optional*, defaults to 20.0):
        Used to calculate the maximum allowed length for the output sequence.
    vocoder (`nn.Module`, *optional*, defaults to `None`):
        The vocoder that converts the mel spectrogram into a speech waveform. If `None`, the output is the mel
        spectrogram.
    output_cross_attentions (`bool`, *optional*, defaults to `False`):
        Whether or not to return the attentions tensors of the decoder's cross-attention layers.
    return_output_lengths (`bool`, *optional*, defaults to `False`):
        Whether or not to return the concrete spectrogram/waveform lengths.

Returns:
    `tuple(torch.FloatTensor)` comprising various elements depending on the inputs:
    - when `return_output_lengths` is False
        - **spectrogram** (*optional*, returned when no `vocoder` is provided) `torch.FloatTensor` of shape
        `(output_sequence_length, config.num_mel_bins)` -- The predicted log-mel spectrogram.
        - **waveform** (*optional*, returned when a `vocoder` is provided) `torch.FloatTensor` of shape
        `(num_frames,)` -- The predicted speech waveform.
        - **cross_attentions** (*optional*, returned when `output_cross_attentions` is `True`)
        `torch.FloatTensor` of shape `(config.decoder_layers, config.decoder_attention_heads,
        output_sequence_length, input_sequence_length)` -- The outputs of the decoder's cross-attention layers.
    - when `return_output_lengths` is True
        - **spectrograms** (*optional*, returned when no `vocoder` is provided) `torch.FloatTensor` of shape
        `(batch_size, output_sequence_length, config.num_mel_bins)` -- The predicted log-mel spectrograms that
        are padded to the maximum length.
        - **spectrogram_lengths** (*optional*, returned when no `vocoder` is provided) `list[Int]` -- A list of
        all the concrete lengths for each spectrogram.
        - **waveforms** (*optional*, returned when a `vocoder` is provided) `torch.FloatTensor` of shape
        `(batch_size, num_frames)` -- The predicted speech waveforms that are padded to the maximum length.
        - **waveform_lengths** (*optional*, returned when a `vocoder` is provided) `list[Int]` -- A list of all
        the concrete lengths for each waveform.
        - **cross_attentions** (*optional*, returned when `output_cross_attentions` is `True`)
        `torch.FloatTensor` of shape `(batch_size, config.decoder_layers, config.decoder_attention_heads,
        output_sequence_length, input_sequence_length)` -- The outputs of the decoder's cross-attention layers.
)r   i   rh  )rÃ   rO   rµ   rz  )
r{   r-   rš  r/   rX  rY  rZ  r[  r\  r]  s
             r*   r”  Ú)SpeechT5ForSpeechToSpeech.generate_speech“  sM   € ðT Ñ%Ü!&§¢¨X¸l×>QÑ>QÑ!RÐäØØØØØØØØØ#Ø!ó
ð 	
r,   r–  r—  r˜  )rˆ   r‰   rŠ   r‹   r   ro   r%  r)  r[  r   r   rÃ   rƒ  r‚  rå   r  rP   r   r   r„   rä   rÆ   r   rc  r”  rŒ   r   rŽ   s   @r*   r›  r›  ò
  s³  ø† ð
˜~÷ 
ò+ò+ò;ð ð 59Ø59Ø<@Ø=AØ15Ø9=Ø7;ØEIØEIØ$(Ø,0Ø/3Ø&*Ø:>Ø.2Ø.2Ø15ñ%
à˜u×0Ñ0Ñ1ð
ð ! ×!1Ñ!1Ñ2ð
ð ' u×'8Ñ'8Ñ9ð	
ð
 !)¨×)9Ñ)9Ñ :ð
ð ˜E×-Ñ-Ñ.ð
ð $ E×$5Ñ$5Ñ6ð
ð ' u§|¡|Ñ4ð
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBð
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBð
ð ˜D‘>ð
ð $ D™>ð
ð ' t™nð
ð ˜d‘^ð
ð % U×%6Ñ%6Ñ7ð
ð  ˜×*Ñ*Ñ+ð!
ð" ˜eŸl™lÑ+ð#
ð$ ! §¡Ñ.ð%
ð& 
ˆuÐ.Ð.Ñ	/ô'
ó ð
ðB ‡]‚]ƒ_ð ;?Ø59ØØ Ø!Ø'+Ø(-Ø&+ñW
à×'Ñ'ðW
ð % U×%6Ñ%6Ñ7ðW
ð ! ×!1Ñ!1Ñ2ð	W
ð
 ðW
ð ðW
ð ðW
ð ˜"Ÿ)™)Ñ$ðW
ð "&ðW
ð  $ðW
ð 
×	Ñ	ôW
ó öW
r,   r›  c                   óH   ^ • \ rS rSrSU 4S jjrS	S jrS rS rS rSr	U =r
$ )
ÚHifiGanResidualBlockiî  c                 óÚ  >• [         TU ]  5         X@l        [        R                  " [        [        U5      5       Vs/ sH0  n[        R                  " UUUSX5   U R                  X#U   5      S9PM2     sn5      U l	        [        R                  " [        [        U5      5       Vs/ sH,  n[        R                  " UUUSSU R                  US5      S9PM.     sn5      U l
        g s  snf s  snf )Nr   )rl   Údilationré   )rn   ro   Úleaky_relu_sloper   r-  rN   rS   rs   Úget_paddingÚconvs1Úconvs2)r{   Úchannelsrk   r«  r¬  r1  r]   r~   s          €r*   ro   ÚHifiGanResidualBlock.__init__ï  sè   ø€ Ü‰ÑÔØ 0Ôä—m’mô œs 8›}Ô-ó
ñ .Aô —	’	ØØØØØ%™[Ø ×,Ñ,¨[À1¹+ÓFôñ .ñ
ó
ˆŒô —m’mô œs 8›}Ô-ó
ñ .Aô —	’	ØØØØØØ ×,Ñ,¨[¸!Ó<ôñ .ñ
ó
ˆùò
ùò
s   ¼6C#Â$2C(c                 ó   • X-  U-
  S-  $ r¬   r^  )r{   rk   r«  s      r*   r­  Ú HifiGanResidualBlock.get_padding  s   € ØÑ&¨Ñ1°aÑ7Ð7r,   c                 ó>  • [         R                  R                  n[        [         R                  R                  S5      (       a$  [         R                  R                  R                  nU R
                   H  nU" U5        M     U R                   H  nU" U5        M     g ©Nrë   )r   ró   rë   r¹   rï   r®  r¯  ©r{   rë   r*  s      r*   Úapply_weight_normÚ&HifiGanResidualBlock.apply_weight_norm  si   € Ü—h‘h×*Ñ*ˆÜ”2—8‘8×,Ñ,¨m×<Ñ<ÜŸ(™(×3Ñ3×?Ñ?ˆKà—[”[ˆEÙ˜Öñ !à—[”[ˆEÙ˜Öò !r,   c                 óÌ   • U R                    H"  n[        R                  R                  U5        M$     U R                   H"  n[        R                  R                  U5        M$     g r   )r®  r   ró   Úremove_weight_normr¯  ©r{   r*  s     r*   rº  Ú'HifiGanResidualBlock.remove_weight_norm  sB   € Ø—[”[ˆEÜH‰H×'Ñ'¨Ö.ñ !à—[”[ˆEÜH‰H×'Ñ'¨Ö.ò !r,   c                 ó(  • [        U R                  U R                  5       Hm  u  p#Un[        R                  R                  XR                  5      nU" U5      n[        R                  R                  XR                  5      nU" U5      nX-   nMo     U$ r   )ru  r®  r¯  r   rœ  Ú
leaky_relur¬  )r{   rƒ   Úconv1Úconv2r2  s        r*   r„   ÚHifiGanResidualBlock.forward!  sz   € Ü §¡¨T¯[©[Ö9‰LˆEØ$ˆHÜŸM™M×4Ñ4°]×DYÑDYÓZˆMÙ! -Ó0ˆMÜŸM™M×4Ñ4°]×DYÑDYÓZˆMÙ! -Ó0ˆMØ)Ñ4ŠMñ :ð Ðr,   )r®  r¯  r¬  )r	   )r   r	   é   gš™™™™™¹?)r   )rˆ   r‰   rŠ   r‹   ro   r­  r·  rº  r„   rŒ   r   rŽ   s   @r*   r©  r©  î  s!   ø† ÷
ô>8òò/÷ð r,   r©  z
    HiFi-GAN vocoder.
    c                   óº   ^ • \ rS rSr% \\S'   SrS\4U 4S jjrS\R                  4S jr
S rS r\" S	S
9S\R                  S\R                  4S j5       rSrU =r$ )ÚSpeechT5HifiGani,  r|   rl  c                 ó°  >• [         TU ]  U5        [        UR                  5      U l        [        UR
                  5      U l        [        R                  " UR                  UR                  SSSS9U l        [        R                  " 5       U l        [        [        UR
                  UR                   5      5       Ha  u  nu  p4U R                  R#                  [        R$                  " UR                  SU-  -  UR                  SUS-   -  -  UUXC-
  S-  S95        Mc     [        R                  " 5       U l        [)        [        U R                  5      5       Hp  nUR                  SUS-   -  -  n[        UR                  UR*                  5       H4  u  pFU R&                  R#                  [-        XTXaR.                  5      5        M6     Mr     [        R                  " WSSSSS9U l        U R3                  S[4        R6                  " UR                  5      5        U R3                  S[4        R8                  " UR                  5      5        U R;                  5         g )Né   r   r	   )rk   rl   ré   r­   rM  rê  )rn   ro   rS   Úresblock_kernel_sizesÚnum_kernelsÚupsample_ratesÚnum_upsamplesr   rs   Úmodel_in_dimÚupsample_initial_channelÚconv_prer-  Ú	upsamplerr}  ru  Úupsample_kernel_sizesrW   ÚConvTranspose1dÚ	resblocksrN   Úresblock_dilation_sizesr©  r¬  Ú	conv_postr»   rÃ   rO   rU   rk  )r{   r|   r1  Úupsample_raterk   r°  r«  r~   s          €r*   ro   ÚSpeechT5HifiGan.__init__5  sÛ  ø€ Ü‰Ñ˜Ô Ü˜v×;Ñ;Ó<ˆÔÜ  ×!6Ñ!6Ó7ˆÔÜŸ	š	Ø×ÑØ×+Ñ+ØØØñ
ˆŒô Ÿš›ˆŒÜ/8¼¸V×=RÑ=RÐTZ×TpÑTpÓ9qÖ/rÑ+ˆAÑ+ØN‰N×!Ñ!Ü×"Ò"Ø×3Ñ3¸¸1¹Ñ=Ø×3Ñ3¸¸aÀ!¹e¹ÑEØ +Ø(Ø(Ñ8¸QÑ>ñöñ 0sô Ÿš›ˆŒÜ”s˜4Ÿ>™>Ó*Ö+ˆAØ×6Ñ6¸1ÀÀQÁ¹<ÑHˆHÜ),¨V×-IÑ-IÈ6×KiÑKiÖ)jÑ%Ø—‘×%Ñ%Ô&:¸8ÐRZ×\sÑ\sÓ&tÖuó *kñ ,ô
 Ÿš 8¨Q¸AÀaÐQRÑSˆŒà×Ñ˜V¤U§[¢[°×1DÑ1DÓ%EÔFØ×Ñ˜W¤e§j¢j°×1DÑ1DÓ&EÔFð 	‰Õr,   rJ  c                 ó8  • [        U[        R                  [        R                  45      (       ak  UR                  R
                  R                  SU R                  R                  S9  UR                  b%  UR                  R
                  R                  5         ggg)zInitialize the weights.r2   rL  N)rÐ  r   rs   rÐ  rí   rV  rS  r|   rQ  rm   rY  )r{   rJ  s     r*   r\  ÚSpeechT5HifiGan._init_weights[  so   € äfœrŸy™y¬"×*<Ñ*<Ð=×>Ñ>ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ð ?r,   c                 ó–  • [         R                  R                  n[        [         R                  R                  S5      (       a$  [         R                  R                  R                  nU" U R
                  5        U R                   H  nU" U5        M     U R                   H  nUR                  5         M     U" U R                  5        g rµ  )
r   ró   rë   r¹   rï   rÍ  rÎ  rÑ  r·  rÓ  r¶  s      r*   r·  Ú!SpeechT5HifiGan.apply_weight_normb  s…   € Ü—h‘h×*Ñ*ˆÜ”2—8‘8×,Ñ,¨m×<Ñ<ÜŸ(™(×3Ñ3×?Ñ?ˆKáD—M‘MÔ"Ø—^”^ˆEÙ˜Öñ $à—^”^ˆEØ×#Ñ#Ö%ñ $áD—N‘NÕ#r,   c                 óR  • [         R                  R                  U R                  5        U R                   H"  n[         R                  R                  U5        M$     U R
                   H  nUR                  5         M     [         R                  R                  U R                  5        g r   )r   ró   rº  rÍ  rÎ  rÑ  rÓ  r»  s     r*   rº  Ú"SpeechT5HifiGan.remove_weight_normn  sh   € Ü
‰×#Ñ# D§M¡MÔ2Ø—^”^ˆEÜH‰H×'Ñ'¨Ö.ñ $à—^”^ˆEØ×$Ñ$Ö&ñ $ä
‰×#Ñ# D§N¡NÕ3r,   a  
        Converts a log-mel spectrogram into a speech waveform. Passing a batch of log-mel spectrograms returns a batch
        of speech waveforms. Passing a single, un-batched log-mel spectrogram returns a single, un-batched speech
        waveform.
        r  r8   c                 óÚ  • U R                   R                  (       a  XR                  -
  U R                  -  nUR	                  5       S:H  nU(       d  UR                  S5      nUR                  SS5      nU R                  U5      n[        U R                  5       H½  n[        R                  R                  X0R                   R                  5      nU R                  U   " U5      nU R                  X@R                   -     " U5      n[        SU R                   5       H)  nXPR                  X@R                   -  U-      " U5      -  nM+     XPR                   -  nM¿     [        R                  R                  U5      nU R#                  U5      n[$        R&                  " U5      nU(       d2  UR)                  S5      R                  SS5      R+                  S5      nU$ UR)                  S5      nU$ )aÁ  
spectrogram (`torch.FloatTensor`):
    Tensor containing the log-mel spectrograms. Can be batched and of shape `(batch_size, sequence_length,
    config.model_in_dim)`, or un-batched and of shape `(sequence_length, config.model_in_dim)`.

Returns:
    `torch.FloatTensor`: Tensor containing the speech waveform. If the input spectrogram is batched, will be of
    shape `(batch_size, num_frames,)`. If un-batched, will be of shape `(num_frames,)`.
r	   r   r­   r   r#   )r|   Únormalize_beforerM  rê  rÀ   rÇ   r™   rÍ  rN   rÊ  r   rœ  r¾  r¬  rÎ  rÑ  rÈ  rÓ  rÃ   Útanhra  rË   )r{   rl  Ú
is_batchedrƒ   r1  Ú	res_stateÚjÚwaveforms           r*   r„   ÚSpeechT5HifiGan.forwardv  s  € ð" ;‰;×'×'Ø&¯©Ñ2°d·j±jÑ@ˆKà —_‘_Ó&¨!Ñ+ˆ
ÞØ%×/Ñ/°Ó2ˆKà#×-Ñ-¨a°Ó3ˆàŸ™ mÓ4ˆÜt×)Ñ)Ö*ˆAÜŸM™M×4Ñ4°]ÇKÁK×D`ÑD`ÓaˆMØ ŸN™N¨1Ò-¨mÓ<ˆMàŸ™ q×+;Ñ+;Ñ';Ò<¸]ÓKˆIÜ˜1˜d×.Ñ.Ö/ØŸ^™^¨A×0@Ñ0@Ñ,@À1Ñ,DÒEÀmÓTÑT’	ñ 0à%×(8Ñ(8Ñ8ŠMñ +ô Ÿ™×0Ñ0°Ó?ˆØŸ™ }Ó5ˆÜŸ
š
 =Ó1ˆæà$×,Ñ,¨QÓ/×9Ñ9¸!¸QÓ?×DÑDÀRÓHˆHð
 ˆð %×,Ñ,¨QÓ/ˆHàˆr,   )rÓ  rÍ  rÈ  rÊ  rÑ  rÎ  )rˆ   r‰   rŠ   r‹   r   r_  ra  ro   r   rc  r\  r·  rº  r   rÃ   rƒ  r„   rŒ   r   rŽ   s   @r*   rÄ  rÄ  ,  sp   ø‡ ð "Ó!Ø#€Oð$Ð4÷ $ðL) B§I¡Iô )ò
$ò4ñ ðñð( 5×#4Ñ#4ð (¸×9JÑ9Jó (óö(r,   rÄ  )r;  r›  r|  r  rH  rÄ  )r   Nr#  r˜  )erâ   rÁ   Útypingr   r   ÚnumpyrG   rÃ   Útorch.utils.checkpointr   Útorch.nnr   r   r   Úactivationsr
   Úcache_utilsr   r   Ú
generationr   Úintegrations.deepspeedr   Úintegrations.fsdpr   Úmodeling_attn_mask_utilsr   r   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   Úmodeling_utilsr   r   ró   r   r   Úconfiguration_speecht5r   r   Ú
get_loggerrˆ   r¼  Ú_HIDDEN_STATES_START_POSITIONrå   r<   r+   r4   r  rÆ   r‚  Úndarrayre   rg   r   r   rc  r§   rç   r  r  rü   r'  r?  rM  r…  r¢  r¯  r¾  rÇ  rÖ  rç  r  r(  r6  rH  re  rŠ  r–  r©  r²  rÊ  rÔ  rÞ  rå  r  r  r;  rƒ  rP   rz  r|  r›  r©  rÄ  Ú__all__r^  r,   r*   Ú<module>rö     sþ  ðñ ã ß "ã Û Û Ý ß @Ñ @å !ß 5Ý )Ý @Ý 7ß eÝ 9÷õ ÷ Dß ,ß Ið 
×	Ò	˜HÓ	%€ð !"Ð ð %§,¡,ð ¸cð Ð[^ô ð" eiñ0Ø—,‘,ð0Ø25ð0ØKSÐTY×T`ÑT`ÑKaõ0ð4 26ØñtØc‰?ðtàðtð ðtð ˜U×-Ñ-Ñ.ð	tð
 ðtð ‡ZZõtôpÐ#=ô ô,Ð!;ô ô8Ð!;ô ô2A8¨B¯I©Iô A8ôJ* b§i¡iô *ôZ r§y¡yô ô0"¨¯©¯©ô "ô(˜2Ÿ9™9ô ô%˜RŸY™Yô %ôR1 §	¡	ô 1ôD "§)¡)ô DôN1 "§)¡)ô 1ôh% §¡ô %ôP< 2§9¡9ô <ô2 §	¡	Ð+?ô ô")- §	¡	Ð+?ô )-ôX& §¡Ð,@ô &ô$a2˜Ÿ	™	ô a2ôH˜"Ÿ)™)ô ô0:Ð5ô :ôzbÐ5ô bðJ ô(7˜oó (7ó ð(7ôV|
Ð-ô |
ô~"Ð&=ô "ôJ'Ð$;ô 'ôT
Ð#:ô 
ô@C
Ð-ô C
ôL/Ð&=ô /ôd3Ð$;ô 3ôl*Ð#:ô *ôZ8M¨2¯9©9ô 8Môv:˜bŸi™iô :ñz ðñô
\
Ð+ó \
óð
\
ñ~ ðñô
s
Ð5°ó s
óð
s
ðr 7;Ø15ØØØØ#'Ø$)Ø"'ñLØ"ðLà×#Ñ#ðLð ! ×!2Ñ!2Ñ3ðLð ˜U×-Ñ-Ñ.ð	Lð
 ðLð ðLð ðLð b—i‘iÑ ðLð "ðLð  ðLð ˆ5×Ñ˜e E×$5Ñ$5°u×7HÑ7HÐ$HÑIÐIÑJõLñ^ ðñô
e
Ð5ó e
óð
e
ñP ðñô
t
Ð 7ó t
óð
t
ôn;˜2Ÿ9™9ô ;ñ| ðñô
toó tóð
tònr,   