ó
    <±h‰û  ã                   ót  • S SK r S SKrS SKJr  S SKJrJrJr  S SKr	S SK
r
S SKJr  S SKJr  SSKJr  SSKJr  SSKJr  SS	KJrJr  SS
KJr  SSKJr  SSKJrJrJrJrJ r   SSK!J"r"J#r#  SSK$J%r%  SSK&J'r'J(r(J)r)  SSK*J+r+  \(" 5       (       a  SSK,J-r-  \)R\                  " \/5      r0\\'" SS9 " S S\5      5       5       r1 " S S\Rd                  5      r3 " S S\Rd                  5      r4 " S S\5      r5 " S S\5      r6 " S S \5      r7 " S! S"\Rd                  5      r8 " S# S$\Rd                  5      r9   SSS%\Rd                  S&\
Rt                  S'\
Rt                  S(\
Rt                  S)\\
Rt                     S*\\;   S+\;S,\\
Rt                     4S- jjr< " S. S/\Rd                  5      r= " S0 S1\Rd                  5      r> " S2 S3\5      r? " S4 S5\Rd                  5      r@ " S6 S7\Rd                  5      rA " S8 S9\5      rB " S: S;\Rd                  5      rC " S< S=\Rd                  5      rD\' " S> S?\#5      5       rE  STS@\F\G\G4   SA\;SB\GS)\\
R                     SC\GSD\	R’                  4SE jjrJ\ rK\' " SF SG\E5      5       rL\'" SHS9 " SI SJ\E5      5       rMSKrN\'" SLS9 " SM SN\E5      5       rO\'" SOS9 " SP SQ\E5      5       rP/ SRQrQg)Ué    N)Ú	dataclass)ÚCallableÚOptionalÚUnion)ÚCrossEntropyLossé   )ÚACT2FN)Úis_deepspeed_zero3_enabled)Úis_fsdp_managed_module)Ú_prepare_4d_attention_maskÚ#_prepare_4d_attention_mask_for_sdpa)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚCausalLMOutputÚModelOutputÚSequenceClassifierOutputÚWav2Vec2BaseModelOutput)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)Úauto_docstringÚis_torch_flex_attn_availableÚloggingé   )ÚUniSpeechConfig)Úmake_flex_block_causal_maskzh
    Output type of [`UniSpeechForPreTrainingOutput`], with potential hidden states and attentions.
    )Úcustom_introc                   ó  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S	'   S
rg)ÚUniSpeechForPreTrainingOutputé:   aÁ  
loss (*optional*, returned when model is in train mode, `torch.FloatTensor` of shape `(1,)`):
    Total loss as the sum of the contrastive loss (L_m) and the diversity loss (L_d) as stated in the [official
    paper](https://arxiv.org/pdf/2006.11477.pdf) . (classification) loss.
projected_states (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.proj_codevector_dim)`):
    Hidden-states of the model projected to *config.proj_codevector_dim* that can be used to predict the masked
    projected quantized states.
projected_quantized_states (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.proj_codevector_dim)`):
    Quantized extracted feature vectors projected to *config.proj_codevector_dim* representing the positive
    target vectors for contrastive loss.
codevector_perplexity (`torch.FloatTensor` of shape `(1,)`):
    The perplexity of the codevector distribution, used to measure the diversity of the codebook.
NÚlossÚprojected_statesÚprojected_quantized_statesÚcodevector_perplexityÚhidden_statesÚ
attentions© )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r"   r   ÚtorchÚFloatTensorÚ__annotations__r#   r$   r%   r&   Útupler'   Ú__static_attributes__r(   ó    Úh/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/unispeech/modeling_unispeech.pyr    r    :   s”   ‡ ñð )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø>BÐ ¨×):Ñ):Ñ ;ÓBØ9=Ð˜8 E×$5Ñ$5Ñ6Ó=Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ö9r3   r    c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚUniSpeechSamePadLayeréW   c                 óR   >• [         TU ]  5         US-  S:X  a  SU l        g SU l        g )Né   r   r   )ÚsuperÚ__init__Únum_pad_remove)ÚselfÚnum_conv_pos_embeddingsÚ	__class__s     €r4   r;   ÚUniSpeechSamePadLayer.__init__X   s)   ø€ Ü‰ÑÔØ#:¸QÑ#>À!Ó#C˜aˆÕÈˆÕr3   c                 óX   • U R                   S:”  a  US S 2S S 2S U R                   * 24   nU$ ©Nr   ©r<   ©r=   r&   s     r4   ÚforwardÚUniSpeechSamePadLayer.forward\   s6   € Ø×Ñ Ó"Ø)ª!ªQÐ0F°4×3FÑ3FÐ2FÐ0FÐ*FÑGˆMØÐr3   rC   ©r)   r*   r+   r,   r;   rE   r2   Ú__classcell__©r?   s   @r4   r6   r6   W   s   ø† õK÷ð r3   r6   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )Ú UniSpeechPositionalConvEmbeddingéb   c                 ó´  >• [         TU ]  5         [        R                  " UR                  UR                  UR
                  UR
                  S-  UR                  S9U l        [        R                  R                  n[        [        R                  R                  S5      (       a$  [        R                  R                  R                  n[        5       (       Ga%  SS KnUR                  R                  U R                  R                   SS9   U" U R                  SSS9U l        S S S 5        [        U R                  S5      (       aU  U R                  R                  R                   R"                  nU R                  R                  R                   R$                  nO,U R                  R&                  nU R                  R(                  nUR                  R+                  X5        UR                  R+                  X5        OU" U R                  SSS9U l        [-        UR
                  5      U l        [0        UR2                     U l        g ! , (       d  f       GN,= f)	Nr9   )Úkernel_sizeÚpaddingÚgroupsÚweight_normr   )Úmodifier_rankÚweight)ÚnameÚdimÚparametrizations)r:   r;   ÚnnÚConv1dÚhidden_sizer>   Únum_conv_pos_embedding_groupsÚconvÚutilsrQ   ÚhasattrrV   r
   Ú	deepspeedÚzeroÚGatheredParametersrS   Ú	original0Ú	original1Úweight_gÚweight_vÚregister_external_parameterr6   rO   r	   Úfeat_extract_activationÚ
activation)r=   ÚconfigrQ   r^   rc   rd   r?   s         €r4   r;   Ú)UniSpeechPositionalConvEmbedding.__init__c   s¡  ø€ Ü‰ÑÔÜ—I’IØ×ÑØ×ÑØ×6Ñ6Ø×2Ñ2°aÑ7Ø×7Ñ7ñ
ˆŒ	ô —h‘h×*Ñ*ˆÜ”2—8‘8×,Ñ,¨m×<Ñ<ÜŸ(™(×3Ñ3×?Ñ?ˆKä%×'Ò'Ûà—‘×2Ñ2°4·9±9×3CÑ3CÐSTÐ2ÒUÙ'¨¯	©	¸ÀaÑH”	÷ Vät—y‘yÐ"4×5Ñ5ØŸ9™9×5Ñ5×<Ñ<×FÑFØŸ9™9×5Ñ5×<Ñ<×FÑF‘àŸ9™9×-Ñ-ØŸ9™9×-Ñ-ØN‰N×6Ñ6°tÔFØN‰N×6Ñ6°tÕFá# D§I¡I°HÀ!ÑDˆDŒIä,¨V×-KÑ-KÓLˆŒÜ  ×!?Ñ!?Ñ@ˆ÷ VÖUús   ÄIÉ
Ic                 ó´   • UR                  SS5      nU R                  U5      nU R                  U5      nU R                  U5      nUR                  SS5      nU$ )Nr   r9   )Ú	transposer[   rO   rg   rD   s     r4   rE   Ú(UniSpeechPositionalConvEmbedding.forward„   sV   € Ø%×/Ñ/°°1Ó5ˆàŸ	™	 -Ó0ˆØŸ™ ]Ó3ˆØŸ™¨Ó6ˆà%×/Ñ/°°1Ó5ˆØÐr3   )rg   r[   rO   rG   rI   s   @r4   rK   rK   b   s   ø† õA÷Bð r3   rK   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚUniSpeechNoLayerNormConvLayeré   c                 ób  >• [         TU ]  5         US:”  a  UR                  US-
     OSU l        UR                  U   U l        [
        R                  " U R                  U R                  UR                  U   UR                  U   UR                  S9U l
        [        UR                     U l        g )Nr   r   ©rN   ÚstrideÚbias)r:   r;   Úconv_dimÚin_conv_dimÚout_conv_dimrW   rX   Úconv_kernelÚconv_strideÚ	conv_biasr[   r	   rf   rg   ©r=   rh   Úlayer_idr?   s      €r4   r;   Ú&UniSpeechNoLayerNormConvLayer.__init__   s—   ø€ Ü‰ÑÔØ<DÀq»L˜6Ÿ?™?¨8°a©<Ò8ÈaˆÔØ"ŸO™O¨HÑ5ˆÔä—I’IØ×ÑØ×ÑØ×*Ñ*¨8Ñ4Ø×%Ñ% hÑ/Ø×!Ñ!ñ
ˆŒ	ô ! ×!?Ñ!?Ñ@ˆr3   c                 óJ   • U R                  U5      nU R                  U5      nU$ ©N)r[   rg   rD   s     r4   rE   Ú%UniSpeechNoLayerNormConvLayer.forwardž   s$   € ØŸ	™	 -Ó0ˆØŸ™¨Ó6ˆØÐr3   )rg   r[   ru   rv   ©r   rG   rI   s   @r4   rn   rn      s   ø† ÷A÷ð r3   rn   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚUniSpeechLayerNormConvLayeré¤   c                 óª  >• [         TU ]  5         US:”  a  UR                  US-
     OSU l        UR                  U   U l        [
        R                  " U R                  U R                  UR                  U   UR                  U   UR                  S9U l
        [
        R                  " U R                  SS9U l        [        UR                     U l        g )Nr   r   rq   T)Úelementwise_affine)r:   r;   rt   ru   rv   rW   rX   rw   rx   ry   r[   Ú	LayerNormÚ
layer_normr	   rf   rg   rz   s      €r4   r;   Ú$UniSpeechLayerNormConvLayer.__init__¥   s¯   ø€ Ü‰ÑÔØ<DÀq»L˜6Ÿ?™?¨8°a©<Ò8ÈaˆÔØ"ŸO™O¨HÑ5ˆÔä—I’IØ×ÑØ×ÑØ×*Ñ*¨8Ñ4Ø×%Ñ% hÑ/Ø×!Ñ!ñ
ˆŒ	ô Ÿ,š, t×'8Ñ'8ÈTÑRˆŒÜ  ×!?Ñ!?Ñ@ˆr3   c                 ó´   • U R                  U5      nUR                  SS5      nU R                  U5      nUR                  SS5      nU R                  U5      nU$ )Néþÿÿÿéÿÿÿÿ)r[   rk   r‡   rg   rD   s     r4   rE   Ú#UniSpeechLayerNormConvLayer.forward´   sV   € ØŸ	™	 -Ó0ˆà%×/Ñ/°°BÓ7ˆØŸ™¨Ó6ˆØ%×/Ñ/°°BÓ7ˆàŸ™¨Ó6ˆØÐr3   ©rg   r[   ru   r‡   rv   r€   rG   rI   s   @r4   r‚   r‚   ¤   s   ø† ÷A÷ð r3   r‚   c                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚUniSpeechGroupNormConvLayeré¿   c                 óÀ  >• [         TU ]  5         US:”  a  UR                  US-
     OSU l        UR                  U   U l        [
        R                  " U R                  U R                  UR                  U   UR                  U   UR                  S9U l
        [        UR                     U l        [
        R                  " U R                  U R                  SS9U l        g )Nr   r   rq   T)Ú
num_groupsÚnum_channelsÚaffine)r:   r;   rt   ru   rv   rW   rX   rw   rx   ry   r[   r	   rf   rg   Ú	GroupNormr‡   rz   s      €r4   r;   Ú$UniSpeechGroupNormConvLayer.__init__À   s¹   ø€ Ü‰ÑÔØ<DÀq»L˜6Ÿ?™?¨8°a©<Ò8ÈaˆÔØ"ŸO™O¨HÑ5ˆÔä—I’IØ×ÑØ×ÑØ×*Ñ*¨8Ñ4Ø×%Ñ% hÑ/Ø×!Ñ!ñ
ˆŒ	ô ! ×!?Ñ!?Ñ@ˆŒäŸ,š,°$×2CÑ2CÐRV×RcÑRcÐlpÑqˆr3   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ r~   )r[   r‡   rg   rD   s     r4   rE   Ú#UniSpeechGroupNormConvLayer.forwardÐ   s2   € ØŸ	™	 -Ó0ˆØŸ™¨Ó6ˆØŸ™¨Ó6ˆØÐr3   r   r€   rG   rI   s   @r4   r   r   ¿   s   ø† ÷r÷ ð r3   r   c                   ó8   ^ • \ rS rSrSrU 4S jrS rS rSrU =r	$ )ÚUniSpeechFeatureEncoderé×   z.Construct the features from raw audio waveformc           	      óÐ  >• [         TU ]  5         UR                  S:X  a?  [        USS9/[	        UR
                  S-
  5       Vs/ sH  n[        XS-   S9PM     sn-   nOUUR                  S:X  a,  [	        UR
                  5       Vs/ sH  n[        XS9PM     nnO[        SUR                   S35      e[        R                  " U5      U l        SU l        S	U l        g s  snf s  snf )
NÚgroupr   )r{   r   Úlayerz`config.feat_extract_norm` is z), but has to be one of ['group', 'layer']FT)r:   r;   Úfeat_extract_normr   ÚrangeÚnum_feat_extract_layersrn   r‚   Ú
ValueErrorrW   Ú
ModuleListÚconv_layersÚgradient_checkpointingÚ_requires_grad)r=   rh   Úir¤   r?   s       €r4   r;   Ú UniSpeechFeatureEncoder.__init__Ú   s÷   ø€ Ü‰ÑÔà×#Ñ# wÓ.Ü6°vÈÑJÐKä˜v×=Ñ=ÀÑAÔBóOáBAô .¨fÀ1¹uÔEÙBñOñ ‰Kð ×%Ñ%¨Ó0äINÈv×OmÑOmÔInóÙInÀAÔ+¨FÔ?ÑInð ð ˆKô Ø0°×1IÑ1IÐ0JÐJsÐtóð ô Ÿ=š=¨Ó5ˆÔØ&+ˆÔ#Ø"ˆÕùòOùò
s   ÁCÂC#c                 óN   • U R                  5        H
  nSUl        M     SU l        g ©NF)Ú
parametersÚrequires_gradr¦   ©r=   Úparams     r4   Ú_freeze_parametersÚ*UniSpeechFeatureEncoder._freeze_parametersî   s#   € Ø—_‘_Ö&ˆEØ"'ˆEÖñ 'à#ˆÕr3   c                 ó    • US S 2S 4   nU R                   (       a  U R                  (       a  SUl        U R                   H  nU" U5      nM     U$ )NT)r¦   Útrainingr¬   r¤   )r=   Úinput_valuesr&   Ú
conv_layers       r4   rE   ÚUniSpeechFeatureEncoder.forwardó   sK   € Ø$¢Q¨ WÑ-ˆð ×× 4§=§=Ø*.ˆMÔ'à×*Ô*ˆJÙ& }Ó5ŠMñ +ð Ðr3   )r¦   r¤   r¥   )
r)   r*   r+   r,   r-   r;   r¯   rE   r2   rH   rI   s   @r4   rš   rš   ×   s   ø† Ù8õ#ò($÷

ð 
r3   rš   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚUniSpeechFeatureProjectioné   c                 ó4  >• [         TU ]  5         [        R                  " UR                  S   UR
                  S9U l        [        R                  " UR                  S   UR                  5      U l	        [        R                  " UR                  5      U l        g )Nr‹   ©Úeps)r:   r;   rW   r†   rt   Úlayer_norm_epsr‡   ÚLinearrY   Ú
projectionÚDropoutÚfeat_proj_dropoutÚdropout©r=   rh   r?   s     €r4   r;   Ú#UniSpeechFeatureProjection.__init__  sf   ø€ Ü‰ÑÔÜŸ,š, v§¡°rÑ':À×@UÑ@UÑVˆŒÜŸ)š) F§O¡O°BÑ$7¸×9KÑ9KÓLˆŒÜ—z’z &×":Ñ":Ó;ˆr3   c                 ón   • U R                  U5      nU R                  U5      nU R                  U5      nX4$ r~   )r‡   r¾   rÁ   )r=   r&   Únorm_hidden_statess      r4   rE   Ú"UniSpeechFeatureProjection.forward  s7   € à!Ÿ_™_¨]Ó;ÐØŸ™Ð(:Ó;ˆØŸ™ ]Ó3ˆØÐ0Ð0r3   )rÁ   r‡   r¾   rG   rI   s   @r4   r·   r·      s   ø† õ<÷1ð 1r3   r·   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingrÁ   Ú	head_maskc                 óÀ  • Uc  UR                  S5      S-  n[        R                  " XR                  SS5      5      U-  n	Ub  X”-   n	[        R
                  R                  U	SS9n	Ub  X—R                  SSSS5      -  n	[        R
                  R                  X–U R                  S9n	[        R                  " X“5      n
U
R                  SS5      R                  5       n
X©4$ )Nr‹   ç      à¿r9   r   ©rU   r   )Úpr²   )Úsizer.   Úmatmulrk   rW   Ú
functionalÚsoftmaxÚviewrÁ   r²   Ú
contiguous)rÇ   rÈ   rÉ   rÊ   rË   rÌ   rÁ   rÍ   ÚkwargsÚattn_weightsÚattn_outputs              r4   Úeager_attention_forwardrÛ     sÌ   € ð Ø—*‘*˜R“. DÑ(ˆä—<’< §}¡}°Q¸Ó':Ó;¸gÑE€LØÑ!Ø#Ñ4ˆä—=‘=×(Ñ(¨¸2Ð(Ð>€LàÑØ#§n¡n°Q¸¸A¸qÓ&AÑAˆä—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r3   c                   óZ  ^ • \ rS rSrSr     SS\S\S\S\S\S\S	\\	   4U 4S
 jjjr
    SS\R                  S\\R                     S\\R                     S\\R                     S\\   S\\   S\\R                  \\R                     \\\R                        4   4S jjrSrU =r$ )ÚUniSpeechAttentioni-  z=Multi-headed attention from 'Attention Is All You Need' paperÚ	embed_dimÚ	num_headsrÁ   Ú
is_decoderrs   Ú	is_causalrh   c                 óæ  >• [         TU ]  5         Xl        X l        X0l        X-  U l        Xpl        U R
                  U-  U R                  :w  a  [        SU R                   SU S35      eU R
                  S-  U l        X@l	        X`l
        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).rÏ   )rs   )r:   r;   rÞ   rß   rÁ   Úhead_dimrh   r¢   rÌ   rà   rá   rW   r½   Úk_projÚv_projÚq_projÚout_proj)	r=   rÞ   rß   rÁ   rà   rs   rá   rh   r?   s	           €r4   r;   ÚUniSpeechAttention.__init__0  sÎ   ø€ ô 	‰ÑÔØ"ŒØ"ŒØŒØ!Ñ.ˆŒØŒàM‰M˜IÑ%¨$¯.©.Ó8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ŒØ"Œä—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜŸ	š	 )¸TÑBˆr3   r&   Úkey_value_statesrË   Úlayer_head_maskÚoutput_attentionsrØ   Úreturnc                 ó   • USLnUR                   SS u  p‰U(       a  UR                   S   OU	n
X‰SU R                  4nXŠSU R                  4nU R                  U5      R                  " U6 R	                  SS5      nU(       a  UOUnU R                  U5      R                  " U6 R	                  SS5      nU R                  U5      R                  " U6 R	                  SS5      n[        nU R                  R                  S:w  a  [        U R                  R                     nU" U UUUU4U R                  (       d  SOU R                  U R                  UUS.UD6u  nnUR                  X‰S5      R                  5       nU R!                  U5      nUUS4$ )z#Input shape: Batch x Time x ChannelNr‹   r   r9   Úeagerç        )rÁ   rÌ   rë   rÍ   )Úshaperã   ræ   rÖ   rk   rä   rå   rÛ   rh   Ú_attn_implementationr   r²   rÁ   rÌ   Úreshaper×   rç   )r=   r&   ré   rË   rê   rë   rØ   Úis_cross_attentionÚbszÚtgt_lenÚsrc_lenÚq_input_shapeÚkv_input_shapeÚquery_statesÚcurrent_statesÚ
key_statesÚvalue_statesÚattention_interfacerÚ   rÙ   s                       r4   rE   ÚUniSpeechAttention.forwardO  sŽ  € ð .°TÐ9Ðð %×*Ñ*¨3¨BÐ/‰ˆÞ/AÐ"×(Ñ(¨Ò+Àwˆà r¨4¯=©=Ð9ˆØ¨¨D¯M©MÐ:ˆð —{‘{ =Ó1×6Ò6¸ÐF×PÑPÐQRÐTUÓVˆæ-?Ñ)À]ˆØ—[‘[ Ó0×5Ò5°~ÐF×PÑPÐQRÐTUÓVˆ
Ø—{‘{ >Ó2×7Ò7¸ÐH×RÑRÐSTÐVWÓXˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð%
ð  $Ÿ}Ÿ}‘C°$·,±,Ø—L‘LØ/Ø%ñ%
ð ñ%
Ñ!ˆ\ð "×)Ñ)¨#¸Ó;×FÑFÓHˆØ—m‘m KÓ0ˆà˜L¨$Ð.Ð.r3   )rh   rÁ   rÞ   rã   rá   rà   rä   rß   rç   ræ   rÌ   rå   )rï   FTFN)NNNF)r)   r*   r+   r,   r-   ÚintÚfloatÚboolr   r   r;   r.   ÚTensorr   r   r1   rE   r2   rH   rI   s   @r4   rÝ   rÝ   -  s   ø† ÙGð Ø ØØØ,0ñCàðCð ðCð ð	Cð
 ðCð ðCð ðCð ˜Ñ)÷Cð CðD 48Ø15Ø26Ø,1ñ3/à—|‘|ð3/ð # 5§<¡<Ñ0ð3/ð ! §¡Ñ.ð	3/ð
 " %§,¡,Ñ/ð3/ð $ D™>ð3/ð Ð-Ñ.ð3/ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷3/ó 3/r3   rÝ   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚUniSpeechFeedForwardi…  c                 ó  >• [         TU ]  5         [        R                  " UR                  5      U l        [        R                  " UR                  UR                  5      U l	        [        UR                  [        5      (       a  [        UR                     U l        OUR                  U l        [        R                  " UR                  UR                  5      U l        [        R                  " UR                   5      U l        g r~   )r:   r;   rW   r¿   Úactivation_dropoutÚintermediate_dropoutr½   rY   Úintermediate_sizeÚintermediate_denseÚ
isinstanceÚ
hidden_actÚstrr	   Úintermediate_act_fnÚoutput_denseÚhidden_dropoutÚoutput_dropoutrÂ   s     €r4   r;   ÚUniSpeechFeedForward.__init__†  s®   ø€ Ü‰ÑÔÜ$&§J¢J¨v×/HÑ/HÓ$IˆÔ!ä"$§)¢)¨F×,>Ñ,>À×@XÑ@XÓ"YˆÔÜf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÔ$äŸIšI f×&>Ñ&>À×@RÑ@RÓSˆÔÜ Ÿjšj¨×)>Ñ)>Ó?ˆÕr3   c                 ó°   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU R	                  U5      nU$ r~   )r	  r  r  r  r  rD   s     r4   rE   ÚUniSpeechFeedForward.forward“  sX   € Ø×/Ñ/°Ó>ˆØ×0Ñ0°Ó?ˆØ×1Ñ1°-Ó@ˆà×)Ñ)¨-Ó8ˆØ×+Ñ+¨MÓ:ˆØÐr3   )r  r	  r  r  r  rG   rI   s   @r4   r  r  …  s   ø† õ@÷ð r3   r  c                   ó2   ^ • \ rS rSrU 4S jrSS jrSrU =r$ )ÚUniSpeechEncoderLayeri  c                 ó¤  >• [         TU ]  5         [        UR                  UR                  UR
                  SUS9U l        [        R                  " UR                  5      U l
        [        R                  " UR                  UR                  S9U l        [        U5      U l        [        R                  " UR                  UR                  S9U l        g )NF©rÞ   rß   rÁ   rà   rh   rº   )r:   r;   rÝ   rY   Únum_attention_headsÚattention_dropoutÚ	attentionrW   r¿   r  rÁ   r†   r¼   r‡   r  Úfeed_forwardÚfinal_layer_normrÂ   s     €r4   r;   ÚUniSpeechEncoderLayer.__init__ž  s   ø€ Ü‰ÑÔÜ+Ø×(Ñ(Ø×0Ñ0Ø×,Ñ,ØØñ
ˆŒô —z’z &×"7Ñ"7Ó8ˆŒÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ0°Ó8ˆÔÜ "§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÕr3   c                 óâ   • UnU R                  XUS9u  pnU R                  U5      nXA-   nU R                  U5      nXR                  U5      -   nU R	                  U5      nU4nU(       a  Xu4-  nU$ ©N©rË   rë   )r  rÁ   r‡   r  r  ©r=   r&   rË   rë   Úattn_residualrÙ   Ú_Úoutputss           r4   rE   ÚUniSpeechEncoderLayer.forward­  sˆ   € Ø%ˆØ)-¯©ØÐL]ð *8ð *
Ñ&ˆ Qð Ÿ™ ]Ó3ˆØ%Ñ5ˆàŸ™¨Ó6ˆØ%×(9Ñ(9¸-Ó(HÑHˆØ×-Ñ-¨mÓ<ˆà Ð"ˆæØÑ&ˆGàˆr3   )r  rÁ   r  r  r‡   rª   rG   rI   s   @r4   r  r    s   ø† õ\÷ò r3   r  c                   óÄ   ^ • \ rS rSrU 4S jr    SS\R                  S\\R                     S\	S\	S\	4
S	 jjr
S\\R                  S4   S
\R                  4S jrSrU =r$ )ÚUniSpeechEncoderiÁ  c                 óš  >• [         TU ]  5         Xl        [        U5      U l        [
        R                  " UR                  UR                  S9U l	        [
        R                  " UR                  5      U l        [
        R                  " [        UR                  5       Vs/ sH  n[!        U5      PM     sn5      U l        SU l        g s  snf ©Nrº   F)r:   r;   rh   rK   Úpos_conv_embedrW   r†   rY   r¼   r‡   r¿   r  rÁ   r£   r    Únum_hidden_layersr  Úlayersr¥   ©r=   rh   r#  r?   s      €r4   r;   ÚUniSpeechEncoder.__init__Â  s•   ø€ Ü‰ÑÔØŒÜ>¸vÓFˆÔÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ—z’z &×"7Ñ"7Ó8ˆŒÜ—m’mÌEÐRX×RjÑRjÔLkÓ$lÑLkÀqÔ%:¸6Ö%BÑLkÑ$lÓmˆŒØ&+ˆÕ#ùò %mó   Â CNr&   rË   rë   Úoutput_hidden_statesÚreturn_dictc                 óô  • U(       a  SOS nU(       a  SOS nUb4  UR                  S5      R                  SSUR                  S   5      nSX) '   U R                  UU5      nU R	                  U5      n	X-   nU R                  U5      nU R                  U5      n[        5       =(       d    [        U 5      n
U R                   H…  nU(       a  Xa4-   n[        R                  " / 5      nU R                  =(       a    XÀR                  R                  :  nU(       a  U
(       a  U" XUS9nUS   nU(       a  SnU(       d  M|  UWS   4-   nM‡     U(       a  Xa4-   nU(       d  [        S XU4 5       5      $ [!        UUUS	9$ )
Nr(   r‹   r   r9   r   r   ©NNc              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr~   r(   ©Ú.0Úvs     r4   Ú	<genexpr>Ú+UniSpeechEncoder.forward.<locals>.<genexpr>   ó   é € ÐmÑ$[˜qŸ™Ò$[ùó   ‚‹	©Úlast_hidden_stater&   r'   )Ú	unsqueezeÚrepeatrð   Ú_update_full_maskr*  r‡   rÁ   r
   r   r,  r.   Úrandr²   rh   Ú	layerdropr1   r   ©r=   r&   rË   rë   r0  r1  Úall_hidden_statesÚall_self_attentionsÚexpand_attention_maskÚposition_embeddingsÚsynced_gpusrž   Údropout_probabilityÚskip_the_layerÚlayer_outputss                  r4   rE   ÚUniSpeechEncoder.forwardË  s  € ö #7™B¸DÐÞ$5™b¸4ÐàÑ%à$2×$<Ñ$<¸RÓ$@×$GÑ$GÈÈ1Èm×NaÑNaÐbcÑNdÓ$eÐ!Ø45ˆMÐ0Ñ1à×/Ñ/ØØó
ˆð
 #×1Ñ1°-Ó@ÐØ%Ñ;ˆØŸ™¨Ó6ˆØŸ™ ]Ó3ˆä0Ó2×RÔ6LÈTÓ6Rˆà—[”[ˆEÞ#Ø$5Ð8HÑ$HÐ!ô #(§*¢*¨R£.Ðà!Ÿ]™]×ZÐ/BÇ[Á[×EZÑEZÑ/ZˆNÞ!¦[á %Ø!ÐTeñ!ð !.¨aÑ 0æØ ,ç Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÒ#ñ' !ö*  Ø 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+Ø+Ø*ñ
ð 	
r3   Úinputs_embedsc                 ór  • Ub³  U R                   R                  S:X  a  SU;   a  UnU$ S nU$ U R                   R                  S:X  a  [        XR                  5      nU$ U R                   R                  S:X  a+  [	        U[
        R                  5      (       a
  [        USS9nU$ [        XR                  5      nU$ ©NÚflash_attention_2r   ÚsdpaÚflex_attentionF)rá   ©	rh   rñ   r   Údtyper
  r.   r  r   r   ©r=   rË   rM  s      r4   r@  Ú"UniSpeechEncoder._update_full_mask  óÄ   € ð
 Ñ%Ø{‰{×/Ñ/Ð3FÓFØ34¸Ó3F ð Ðð MQð Ðð —‘×1Ñ1°VÓ;ô "EÀ^×UhÑUhÓ!ið Ðð —‘×1Ñ1Ð5EÓEÜ˜n¬e¯l©l×;Ñ;Ü%@ÀÐ[`Ñ%aNð
 Ðô "<¸N×L_ÑL_Ó!`àÐr3   ©rh   rÁ   r¥   r‡   r,  r*  ©NFFT)r)   r*   r+   r,   r;   r.   Útensorr   r  r  rE   r   r@  r2   rH   rI   s   @r4   r'  r'  Á  s‡   ø† õ,ð 26Ø"'Ø%*Ø ñ:
à—|‘|ð:
ð ! §¡Ñ.ð:
ð  ð	:
ð
 #ð:
ð õ:
ðxà˜eŸl™l¨DÐ0Ñ1ðð —|‘|÷ò r3   r'  c                   óJ   ^ • \ rS rSrU 4S jrS\R                  4S jrSrU =r	$ )ÚUniSpeechAttnAdapterLayeri  c                 ó¤  >• [         TU ]  5         UR                  U l        UR                  U l        [        R                  " U R
                  5      U l        [        R                  " U R
                  U R                  5      U l
        [        R                  " 5       U l        [        R                  " U R                  U R
                  5      U l        g)z‡
Implements adapter modules directly with 3D tensor weight as parameters and without using ModuleList to speed
up training throughput.
N)r:   r;   Úadapter_attn_dimÚ	input_dimrY   Ú
hidden_dimrW   r†   Únormr½   Úlinear_1ÚReLUÚact_fnÚlinear_2rÂ   s     €r4   r;   Ú"UniSpeechAttnAdapterLayer.__init__  s   ø€ ô
 	‰ÑÔØ×0Ñ0ˆŒØ ×,Ñ,ˆŒä—L’L §¡Ó1ˆŒ	ÜŸ	š	 $§/¡/°4·>±>ÓBˆŒÜ—g’g“iˆŒÜŸ	š	 $§.¡.°$·/±/ÓBˆr3   r&   c                 óŽ   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ r~   )ra  rb  rd  re  rD   s     r4   rE   Ú!UniSpeechAttnAdapterLayer.forward-  s@   € ØŸ	™	 -Ó0ˆàŸ™ mÓ4ˆØŸ™ MÓ2ˆØŸ™ mÓ4ˆàÐr3   )rd  r`  r_  rb  re  ra  )
r)   r*   r+   r,   r;   r.   r/   rE   r2   rH   rI   s   @r4   r\  r\    s    ø† õCð U×%6Ñ%6÷ ò r3   r\  c                   ót   ^ • \ rS rSrU 4S jr  SS\R                  S\\R                     S\4S jjr	Sr
U =r$ )	Ú$UniSpeechEncoderLayerStableLayerNormi7  c                 óð  >• [         TU ]  5         [        UR                  UR                  UR
                  SUS9U l        [        R                  " UR                  5      U l
        [        R                  " UR                  UR                  S9U l        [        U5      U l        [        R                  " UR                  UR                  S9U l        [#        USS 5      b  [%        U5      U l        g S U l        g )NFr  rº   r^  )r:   r;   rÝ   rY   r  r  r  rW   r¿   r  rÁ   r†   r¼   r‡   r  r  r  Úgetattrr\  Úadapter_layerrÂ   s     €r4   r;   Ú-UniSpeechEncoderLayerStableLayerNorm.__init__8  sÂ   ø€ Ü‰ÑÔÜ+Ø×(Ñ(Ø×0Ñ0Ø×,Ñ,ØØñ
ˆŒô —z’z &×"7Ñ"7Ó8ˆŒÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ0°Ó8ˆÔÜ "§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÔä6Ð-¨tÓ4Ñ@Ü!:¸6Ó!BˆDÕà!%ˆDÕr3   r&   rË   rë   c                 ó  • UnU R                  U5      nU R                  XUS9u  pnU R                  U5      nXA-   nXR                  U R	                  U5      5      -   nU R
                  b  XR                  U5      -   nU4nU(       a  Xu4-  nU$ r  )r‡   r  rÁ   r  r  rm  r!  s           r4   rE   Ú,UniSpeechEncoderLayerStableLayerNorm.forwardK  s¥   € ð &ˆØŸ™¨Ó6ˆØ)-¯©ØÐL]ð *8ð *
Ñ&ˆ Qð Ÿ™ ]Ó3ˆØ%Ñ5ˆØ%×(9Ñ(9¸$×:OÑ:OÐP]Ó:^Ó(_Ñ_ˆà×ÑÑ)Ø)×,>Ñ,>¸}Ó,MÑMˆMà Ð"ˆæØÑ&ˆGàˆr3   )rm  r  rÁ   r  r  r‡   rª   )r)   r*   r+   r,   r;   r.   r  r   r  rE   r2   rH   rI   s   @r4   rj  rj  7  sC   ø† õ&ð, 26Ø"'ñ	à—|‘|ðð ! §¡Ñ.ðð  ÷	ó r3   rj  c                   ó~   ^ • \ rS rSrU 4S jr    S	S jrS\\R                  S4   S\R                  4S jr	Sr
U =r$ )
ÚUniSpeechEncoderStableLayerNormie  c                 óš  >• [         TU ]  5         Xl        [        U5      U l        [
        R                  " UR                  UR                  S9U l	        [
        R                  " UR                  5      U l        [
        R                  " [        UR                  5       Vs/ sH  n[!        U5      PM     sn5      U l        SU l        g s  snf r)  )r:   r;   rh   rK   r*  rW   r†   rY   r¼   r‡   r¿   r  rÁ   r£   r    r+  rj  r,  r¥   r-  s      €r4   r;   Ú(UniSpeechEncoderStableLayerNorm.__init__f  s™   ø€ Ü‰ÑÔØŒÜ>¸vÓFˆÔÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒÜ—z’z &×"7Ñ"7Ó8ˆŒÜ—m’mÜCHÈ×IaÑIaÔCbÓcÑCb¸aÔ1°&Ö9ÑCbÑcó
ˆŒð ',ˆÕ#ùò dr/  Nc                 óô  • U(       a  SOS nU(       a  SOS nUb4  UR                  S5      R                  SSUR                  S   5      nSX) '   U R                  UU5      nU R	                  U5      n	X-   nU R                  U5      n[        5       =(       d    [        U 5      n
U R                   H…  nU(       a  Xa4-   n[        R                  " / 5      nU R                  =(       a    XÀR                  R                  :  nU(       a  U
(       a  U" XUS9nUS   nU(       a  SnU(       d  M|  UWS   4-   nM‡     U R                  U5      nU(       a  Xa4-   nU(       d  [        S XU4 5       5      $ [!        UUUS	9$ )
Nr(   r‹   r   r9   r   r   r3  c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr~   r(   r5  s     r4   r8  Ú:UniSpeechEncoderStableLayerNorm.forward.<locals>.<genexpr>¨  r:  r;  r<  )r>  r?  rð   r@  r*  rÁ   r
   r   r,  r.   rA  r²   rh   rB  r‡   r1   r   rC  s                  r4   rE   Ú'UniSpeechEncoderStableLayerNorm.forwardq  sƒ  € ö #7™B¸DÐÞ$5™b¸4ÐàÑ%à$2×$<Ñ$<¸RÓ$@×$GÑ$GÈÈ1Èm×NaÑNaÐbcÑNdÓ$eÐ!Ø45ˆMÐ0Ñ1à×/Ñ/ØØó
ˆð
 #×1Ñ1°-Ó@ÐØ%Ñ;ˆØŸ™ ]Ó3ˆä0Ó2×RÔ6LÈTÓ6Rˆà—[”[ˆEÞ#Ø$5Ð8HÑ$HÐ!ô #(§*¢*¨R£.Ðà!Ÿ]™]×ZÐ/BÇ[Á[×EZÑEZÑ/ZˆNÞ!¦[ñ !&Ø!ÐTeñ!ð !.¨aÑ 0æØ ,ç Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÒ#ñ) !ð, Ÿ™¨Ó6ˆæØ 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+Ø+Ø*ñ
ð 	
r3   rË   rM  c                 ór  • Ub³  U R                   R                  S:X  a  SU;   a  UnU$ S nU$ U R                   R                  S:X  a  [        XR                  5      nU$ U R                   R                  S:X  a+  [	        U[
        R                  5      (       a
  [        USS9nU$ [        XR                  5      nU$ rO  rS  rU  s      r4   r@  Ú1UniSpeechEncoderStableLayerNorm._update_full_mask¯  rW  r3   rX  rY  )r)   r*   r+   r,   r;   rE   r   r.   r  r@  r2   rH   rI   s   @r4   rr  rr  e  sJ   ø† õ	,ð ØØ"Øô<
ð|à˜eŸl™l¨DÐ0Ñ1ðð —|‘|÷ò r3   rr  c                   óB   ^ • \ rS rSrSrU 4S jr\S 5       rS rSr	U =r
$ )ÚUniSpeechGumbelVectorQuantizeriÆ  z¥
Vector quantization using gumbel softmax. See `[CATEGORICAL REPARAMETERIZATION WITH
GUMBEL-SOFTMAX](https://huggingface.co/papers/1611.01144) for more information.
c                 ó8  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U R                  -  S:w  a&  [        SUR                   SU R                   S35      e[        R                  " [        R                  " SU R                  U R
                  -  UR                  U R                  -  5      5      U l        [        R                  " UR                  S   U R                  U R
                  -  5      U l        SU l        g )Nr   z`config.codevector_dim z5 must be divisible by `config.num_codevector_groups` z for concatenationr   r‹   r9   )r:   r;   Únum_codevector_groupsr’   Únum_codevectors_per_groupÚnum_varsÚcodevector_dimr¢   rW   Ú	Parameterr.   r/   Úcodevectorsr½   rt   Úweight_projÚtemperaturerÂ   s     €r4   r;   Ú'UniSpeechGumbelVectorQuantizer.__init__Ì  sì   ø€ Ü‰ÑÔØ ×6Ñ6ˆŒØ×8Ñ8ˆŒà× Ñ  4§?¡?Ñ2°aÓ7ÜØ)¨&×*?Ñ*?Ð)@ð A5Ø59·_±_Ð4EÐEWðYóð ô Ÿ<š<Ü×Ò˜a §¡°4·=±=Ñ!@À&×BWÑBWÐ[_×[jÑ[jÑBjÓkó
ˆÔô Ÿ9š9 V§_¡_°RÑ%8¸$¿/¹/ÈDÏMÉMÑ:YÓZˆÔð ˆÕr3   c           	      óÈ   • U R                  SS9n[        R                  " [        R                  " U[        R                  " US-   5      -  SS9* 5      R                  5       nU$ )Nr   rÐ   gH¯¼šò×z>r‹   )Úmeanr.   ÚexpÚsumÚlog)ÚprobsÚmarginal_probsÚ
perplexitys      r4   Ú_compute_perplexityÚ2UniSpeechGumbelVectorQuantizer._compute_perplexityà  sR   € àŸ™¨˜Ð*ˆÜ—Y’Y¤§	¢	¨.¼5¿9º9À^ÐVZÑEZÓ;[Ñ*[ÐacÑ dÐdÓe×iÑiÓkˆ
ØÐr3   c                 óÈ  • UR                   u  p#nU R                  U5      nUR                  X#-  U R                  -  S5      nU R                  (       a˜  [
        R                  R                  UR                  5       U R                  SS9R                  U5      n[        R                  " UR                  X#-  U R                  S5      R                  5       SS9nU R                  U5      nOyUR                  SS9nUR                  " UR                   6 R!                  SUR                  SS5      S5      nUR                  X#-  U R                  S5      nU R                  U5      nUR                  X#-  S5      nUR#                  S5      U R$                  -  n	U	R                  X#-  U R                  U R&                  S5      n
U
R)                  S5      R                  X#S5      n
X§4$ )Nr‹   T)ÚtauÚhardrÐ   r   ç      ð?rŠ   )rð   r„  rÖ   r’   r²   rW   rÔ   Úgumbel_softmaxr   r…  Útype_asr.   rÕ   r  ÚargmaxÚ	new_zerosÚscatter_r>  rƒ  r€  rŠ  )r=   r&   Ú
batch_sizeÚsequence_lengthrY   Úcodevector_probsÚcodevector_soft_distrŽ  Úcodevector_idxÚcodevectors_per_grouprƒ  s              r4   rE   Ú&UniSpeechGumbelVectorQuantizer.forwardæ  sÉ  € Ø3@×3FÑ3FÑ0ˆ
 [ð ×(Ñ(¨Ó7ˆØ%×*Ñ*¨:Ñ+GÈ$Ï/É/Ñ+YÐ[]Ó^ˆà==ä!Ÿ}™}×;Ñ;Ø×#Ñ#Ó%¨4×+;Ñ+;À$ð  <ð  ç‰gmÓ$ð ô
 $)§=¢=Ø×"Ñ" :Ñ#?ÀÇÁÐRTÓU×[Ñ[Ó]Ðceñ$Ð ð ×1Ñ1Ð2FÓG‰Jð +×1Ñ1°bÐ1Ð9ˆNØ,×6Ò6¸×8KÑ8KÐL×UÑUØN×'Ñ'¨¨AÓ.°ó Ðð  0×4Ñ4°ZÑ5QÐSW×SbÑSbÐdfÓgÐà×1Ñ1Ð2BÓCˆJà+×0Ñ0°Ñ1MÈrÓRÐà 0× :Ñ :¸2Ó >À×AQÑAQÑ QÐØ+×0Ñ0°Ñ1MÈtÏÉÐ`d×`mÑ`mÐoqÓrˆØ!—o‘o bÓ)×.Ñ.¨zÈBÓOˆàÐ&Ð&r3   )rƒ  r’   r€  r…  r„  )r)   r*   r+   r,   r-   r;   Ústaticmethodr  rE   r2   rH   rI   s   @r4   r|  r|  Æ  s+   ø† ñõ
ð( ñó ð÷
#'ð #'r3   r|  c                   ó   • \ rS rSr% \\S'   SrSrSrSr	Sr
SrS rS\\R                  \4   4S jrS	\S
\R                  4S jrSrg)ÚUniSpeechPreTrainedModeli  rh   Ú	unispeechr³   Tc           
      óœ  • [        U[        5      (       a†  UR                  R                  R                  R                  SSS9  UR                  R                  R                  R                  5         [        R                  R                  UR                  5        g[        U[        5      (       a°  [        R                  R                  UR                  R                  SS[        R                  " SUR                  R                   S   UR                  R"                  -  -  5      -  S9  [        R                  R%                  UR                  R                  S5        g[        U[&        5      (       a–  [        R                  " SUR(                  R*                  -  5      n[        R                  R                  UR(                  R                  U* US9  [        R                  R                  UR(                  R                  U* US9  g[        U[        R,                  5      (       ak  UR                  R                  R                  SU R.                  R0                  S9  UR                  b%  UR                  R                  R                  5         gg[        U[        R2                  [        R4                  45      (       aJ  UR                  R                  R                  5         UR                  R                  R7                  S5        g[        U[        R8                  5      (       aŸ  [        R                  R;                  UR                  5        UR                  bh  [        R                  " UR<                  UR"                  UR                   S   -  -  5      n[        R                  R                  UR                  U* US9  ggg)	zInitialize the weightsrï   r   )rˆ  Ústdr   r9   )ÚaÚbNr”  )r
  r|  r„  rS   ÚdataÚnormal_rs   Úzero_rW   ÚinitÚuniform_rƒ  rK   r[   ÚmathÚsqrtrN   Úin_channelsÚ	constant_r·   r¾   Úin_featuresr½   rh   Úinitializer_ranger†   r•   Úfill_rX   Úkaiming_normal_rP   )r=   rÇ   Úks      r4   Ú_init_weightsÚ&UniSpeechPreTrainedModel._init_weights  sœ  € ô fÔ<×=Ñ=Ø×Ñ×%Ñ%×*Ñ*×2Ñ2¸ÀÐ2ÑCØ×Ñ×#Ñ#×(Ñ(×.Ñ.Ô0ÜG‰G×Ñ˜V×/Ñ/Õ0Ü˜Ô @×AÑAÜG‰GO‰OØ—‘×"Ñ"ØØœŸ	š	 ! v§{¡{×'>Ñ'>¸qÑ'AÀFÇKÁK×D[ÑD[Ñ'[Ñ"\Ó]Ñ]ð ñ ô
 G‰G×Ñ˜fŸk™k×.Ñ.°Õ2Ü˜Ô :×;Ñ;Ü—	’	˜!˜f×/Ñ/×;Ñ;Ñ;Ó<ˆAÜG‰G×Ñ˜V×.Ñ.×5Ñ5¸!¸¸qÐÑAÜG‰G×Ñ˜V×.Ñ.×3Ñ3¸°r¸QÐÒ?Ü˜¤§	¡	×*Ñ*ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSà{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡¬r¯|©|Ð <×=Ñ=ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤§	¡	×*Ñ*ÜG‰G×#Ñ# F§M¡MÔ2à{‰{Ñ&Ü—I’I˜fŸm™m¨v×/AÑ/AÀF×DVÑDVÐWXÑDYÑ/YÑZÓ[Ü—‘× Ñ  §¡°°°aÐ Ò8ð 'ð +r3   Úinput_lengthsc                 ó˜   • S n[        U R                  R                  U R                  R                  5       H  u  p4U" XU5      nM     U$ )z8
Computes the output length of the convolutional layers
c                 ó8   • [         R                  " X-
  USS9S-   $ )NÚfloor)Úrounding_moder   )r.   Údiv)Úinput_lengthrN   rr   s      r4   Ú_conv_out_lengthÚSUniSpeechPreTrainedModel._get_feat_extract_output_lengths.<locals>._conv_out_length<  s    € ô —9’9˜\Ñ7¸ÈwÑWÐZ[Ñ[Ð[r3   )Úziprh   rw   rx   )r=   r¹  rÀ  rN   rr   s        r4   Ú _get_feat_extract_output_lengthsÚ9UniSpeechPreTrainedModel._get_feat_extract_output_lengths7  sG   € ò
	\ô
 $' t§{¡{×'>Ñ'>ÀÇÁ×@WÑ@WÖ#XÑˆKÙ,¨]ÈÓPŠMñ $Yð Ðr3   Úfeature_vector_lengthrË   c                 óè  • UR                  SS9S S 2S4   nU R                  U5      R                  [        R                  5      nUR
                  S   n[        R                  " XQ4UR                  UR                  S9nSU[        R                  " UR
                  S   UR                  S9US-
  4'   UR                  S/5      R                  S5      R                  S/5      R                  5       nU$ )Nr‹   rÐ   r   )rT  Údevicer   )rÇ  )ÚcumsumrÃ  Útor.   Úlongrð   ÚzerosrT  rÇ  ÚarangeÚflipr  )r=   rÅ  rË   Únon_padded_lengthsÚoutput_lengthsrš  s         r4   Ú"_get_feature_vector_attention_maskÚ;UniSpeechPreTrainedModel._get_feature_vector_attention_maskF  sè   € ð ,×2Ñ2°rÐ2Ð:º1¸b¸5ÑAÐØ×>Ñ>Ð?QÓR×UÑUÔV[×V`ÑV`ÓaˆØ#×)Ñ)¨!Ñ,ˆ
äŸšØÐ/°~×7KÑ7KÐTb×TiÑTiñ
ˆð uvˆœŸš ^×%9Ñ%9¸!Ñ%<À^×EZÑEZÑ[Ð]kÐnoÑ]oÐpÑqØ'×,Ñ,¨b¨TÓ2×9Ñ9¸"Ó=×BÑBÀBÀ4ÓH×MÑMÓOˆØÐr3   r(   N)r)   r*   r+   r,   r   r0   Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnr·  r   r.   Ú
LongTensorrÿ   rÃ  rÐ  r2   r(   r3   r4   r£  r£    sg   ‡ àÓØ#ÐØ$€OØ&*Ð#ØÐØ€NØÐò9ðB¸eÀE×DTÑDTÐVYÐDYÑ>Zô ðÈð Ð]b×]mÑ]m÷ r3   r£  rð   Ú	mask_probÚmask_lengthÚ	min_masksrì   c           	      óè  ^^^^^• U u  nmTS:  a  [        S5      eTT:”  a  [        ST ST S35      e[        R                  R                  S5      R	                  5       mUUUUU4S jnUb-  UR                  5       R                  S5      R                  5       O[        U5       Vs/ sH  nTPM     snn[        R                  " UT4[        S	9n	/ n
U" T5      nUS
:X  a  U	$ U H­  nU" U5      n[        R                  R                  [        R                  " UTS-
  -
  5      USS9n[        U5      S
:X  a  TS-
  nOUS
   n[        R                  " U[        R                  " X½-
  [        R                   S	9U-  /5      nU
R#                  U5        M¯     [        R$                  " U
5      n
[        R&                  " U
SS2SS2S4   X[T45      n
U
R)                  X[T-  5      n
[        R                  " T5      SSSS24   n[        R&                  " UX[T45      R)                  X[T-  5      nU
U-   n
U
R+                  5       TS-
  :”  a  TS-
  XªTS-
  :„  '   [        R,                  " XšSS5        U	$ s  snf )a2  
Computes random mask spans for a given shape. Used to implement [SpecAugment: A Simple Data Augmentation Method for
ASR](https://huggingface.co/papers/1904.08779). Note that this method is not optimized to run on TPU and should be run on
CPU as part of the preprocessing during training.

Args:
    shape: The shape for which to compute masks. This should be of a tuple of size 2 where
           the first element is the batch size and the second element is the length of the axis to span.
    mask_prob:  The percentage of the whole axis (between 0 and 1) which will be masked. The number of
                independently generated mask spans of length `mask_length` is computed by
                `mask_prob*shape[1]/mask_length`. Note that due to overlaps, `mask_prob` is an upper bound and the
                actual percentage will be smaller.
    mask_length: size of the mask
    min_masks: minimum number of masked spans
    attention_mask: A (right-padded) attention mask which independently shortens the feature axis of
                    each batch dimension.
r   z&`mask_length` has to be bigger than 0.zO`mask_length` has to be smaller than `sequence_length`, but got `mask_length`: z and `sequence_length`: Ú`c                 ó    >• [        TU -  T-  T-   5      n[        UT5      nUT-  T:”  a  TT-  nU TS-
  -
  U:  a  [        U TS-
  -
  S5      nU$ )z;Given input length, compute how many spans should be maskedr   r   )rÿ   Úmax)r¿  Únum_masked_spanÚepsilonrÚ  rÙ  rÛ  r›  s     €€€€€r4   Úcompute_num_masked_spanÚ6_compute_mask_indices.<locals>.compute_num_masked_span|  so   ø€ ä˜i¨,Ñ6¸ÑDÀwÑNÓOˆÜ˜o¨yÓ9ˆð ˜[Ñ(¨?Ó:Ø-°Ñ<ˆOð ˜;¨™?Ñ+¨oÓ=Ü! ,°+À±/Ñ"BÀAÓFˆOàÐr3   Nr‹   ©rT  r   F)Úreplace)r¢   ÚnpÚrandomrA  ÚitemÚdetachrŠ  Útolistr    rË  r  ÚchoicerÌ  ÚlenÚconcatenateÚonesÚint32ÚappendÚarrayÚbroadcast_torò   rß  Úput_along_axis)rð   rÙ  rÚ  rË   rÛ  rš  râ  r#  r¹  Úspec_aug_maskÚspec_aug_mask_idxsÚmax_num_masked_spanr¿  rà  Úspec_aug_mask_idxÚdummy_mask_idxÚoffsetsrá  r›  s    `` `            @@r4   Ú_compute_mask_indicesrú  V  sš  ü€ ð0 #(Ñ€JàQƒÜÐAÓBÐBà_Ó$ÜØ]Ð^iÐ]jØ& Ð&7°qð:ó
ð 	
ô i‰in‰n˜QÓ×$Ñ$Ó&€G÷ñ ð$ Ñ%ð 	×ÑÓ×#Ñ# BÓ'×.Ñ.Ô0ä',¨ZÔ'8Ó9Ñ'8 !‹oÑ'8Ñ9ð ô —H’H˜j¨/Ð:Ä$ÑG€MØÐá1°/ÓBÐà˜aÓØÐã%ˆá1°,Ó?ˆô ŸI™I×,Ñ,ÜIŠIl k°A¡oÑ6Ó7¸ÐRWð -ð 
Ðô Ð Ó! QÓ&ð -¨qÑ0‰Nà.¨qÑ1ˆNäŸNšNØ¤§¢Ð(;Ñ(MÔUW×U]ÑU]Ñ ^ÐaoÑ oÐpó
Ðð 	×!Ñ!Ð"3Ö4ñ/ &ô2 ŸšÐ"4Ó5Ðô ŸšØš1ša ˜:Ñ&¨È+Ð(VóÐð ,×3Ñ3°JÐVaÑ@aÓbÐô iŠi˜Ó$ T¨4² ]Ñ3€GÜoŠo˜g¨
ÈÐ'UÓV×^Ñ^Ø¨+Ñ5ó€Gð ,¨gÑ5Ðð ×ÑÓ /°AÑ"5Ó5ØGVÐYZÑGZÐ°À!Ñ0CÑCÑDô ×Òm¸¸BÔ?àÐùòw :s   Â(I/c                   ó>  ^ • \ rS rSrS\4U 4S jjr  SS\R                  S\\R                     S\\R                     4S jjr
\     SS\\R                     S\\R                     S\\R                     S	\\   S
\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚUniSpeechModeliÐ  rh   c                 óÂ  >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        UR                  S:”  d  UR                  S:”  aG  [        R                  " [        R                  " UR                  5      R                  5       5      U l        UR                   (       a  [#        U5      U l        O['        U5      U l        U R)                  5         g )Nrï   )r:   r;   rh   rš   Úfeature_extractorr·   Úfeature_projectionÚmask_time_probÚmask_feature_probrW   r‚  r.   r  rY   r­  Úmasked_spec_embedÚdo_stable_layer_normrr  Úencoderr'  Ú	post_initrÂ   s     €r4   r;   ÚUniSpeechModel.__init__Ò  s    ø€ Ü‰Ñ˜Ô ØŒÜ!8¸Ó!@ˆÔÜ"<¸VÓ"DˆÔà× Ñ  3Ó&¨&×*BÑ*BÀSÓ*HÜ%'§\¢\´%·,²,¸v×?QÑ?QÓ2R×2[Ñ2[Ó2]Ó%^ˆDÔ"à×&×&Ü:¸6ÓBˆDLä+¨FÓ3ˆDŒLð 	‰Õr3   r&   Úmask_time_indicesrË   c                 óÎ  • [        U R                  SS5      (       d  U$ UR                  5       u  pEnUb(  U R                  R	                  UR
                  5      X'   OÉU R                  R                  S:”  a¯  U R                  (       až  [        XE4U R                  R                  U R                  R                  UU R                  R                  S9n[        R                  " X!R                  [        R                  S9nU R                  R	                  UR
                  5      X'   U R                  R                  S:”  a¥  U R                  (       a”  [        XF4U R                  R                  U R                  R                   U R                  R"                  S9n[        R                  " XqR                  [        R                  S9nUSS2S4   R%                  SUS5      nSX'   U$ )	zŠ
Masks extracted features along time axis and/or along feature axis according to
[SpecAugment](https://huggingface.co/papers/1904.08779).
Úapply_spec_augmentTNr   )rÙ  rÚ  rË   rÛ  )rÇ  rT  )rÙ  rÚ  rÛ  r‹   )rl  rh   rÒ   r  rÉ  rT  r   r²   rú  Úmask_time_lengthÚmask_time_min_masksr.   rZ  rÇ  r  r  Úmask_feature_lengthÚmask_feature_min_masksÚexpand)r=   r&   r  rË   rš  r›  rY   Úmask_feature_indicess           r4   Ú_mask_hidden_statesÚ"UniSpeechModel._mask_hidden_statesã  sŠ  € ô t—{‘{Ð$8¸$×?Ñ?Ø Ð ð 4A×3EÑ3EÓ3GÑ0ˆ
 [àÑ(à/3×/EÑ/E×/HÑ/HÈ×I\ÑI\Ó/]ˆMÒ,Ø[‰[×'Ñ'¨!Ó+°··Ü 5ØÐ-ØŸ+™+×4Ñ4Ø ŸK™K×8Ñ8Ø-ØŸ+™+×9Ñ9ñ!Ðô !&§¢Ð->×G[ÑG[Ôch×cmÑcmÑ nÐØ/3×/EÑ/E×/HÑ/HÈ×I\ÑI\Ó/]ˆMÑ,à;‰;×(Ñ(¨1Ó,°··ä#8ØÐ)ØŸ+™+×7Ñ7Ø ŸK™K×;Ñ;ØŸ+™+×<Ñ<ñ	$Ð ô $)§<¢<Ð0D×MaÑMaÔin×isÑisÑ#tÐ Ø#7º¸4¸Ñ#@×#GÑ#GÈÈOÐ]_Ó#`Ð Ø23ˆMÑ/àÐr3   r³   rë   r0  r1  rì   c                 ó  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  U5      nUR                  SS5      nUb  U R                  UR                  S   U5      nU R                  U5      u  p‡U R                  XƒUS9nU R                  UUUUUS9n	U	S   nU(       d	  X‡4U	SS -   $ [        UUU	R                  U	R                  S9$ )a  
mask_time_indices (`torch.BoolTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Indices to mask extracted features for contrastive loss. When in training mode, model learns to predict
    masked extracted features in *config.proj_codevector_dim* space.
Nr   r9   )r  rË   ©rË   rë   r0  r1  r   )r=  Úextract_featuresr&   r'   )rh   rë   r0  Úuse_return_dictrþ  rk   rÐ  rð   rÿ  r  r  ÚUniSpeechBaseModelOutputr&   r'   )
r=   r³   rË   r  rë   r0  r1  r  r&   Úencoder_outputss
             r4   rE   ÚUniSpeechModel.forward  s7  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×1Ñ1°,Ó?ÐØ+×5Ñ5°a¸Ó;ÐàÑ%à!×DÑDÐEU×E[ÑE[Ð\]ÑE^Ð`nÓoˆNà*.×*AÑ*AÐBRÓ*SÑ'ˆØ×0Ñ0ØÈ~ð 1ð 
ˆð Ÿ,™,ØØ)Ø/Ø!5Ø#ð 'ð 
ˆð (¨Ñ*ˆæØ!Ð4°ÀqÀrÐ7JÑJÐJä'Ø+Ø-Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r3   )rh   r  rþ  rÿ  r  r3  ©NNNNN)r)   r*   r+   r,   r   r;   r.   r/   r   rØ  r  r   r  r  r   r1   r  rE   r2   rH   rI   s   @r4   rü  rü  Ð  sò   ø† ð˜÷ ð( :>Ø59ñ	,à×(Ñ(ð,ð $ E×$5Ñ$5Ñ6ð,ð ! ×!1Ñ!1Ñ2õ	,ð\ ð 26Ø9=Ø,0Ø/3Ø&*ñ2
à˜uŸ|™|Ñ,ð2
ð ! §¡Ñ.ð2
ð $ E×$5Ñ$5Ñ6ð	2
ð
 $ D™>ð2
ð ' t™nð2
ð ˜d‘^ð2
ð 
ˆuÐ.Ð.Ñ	/ô2
ó ö2
r3   rü  zZ
    UniSpeech Model with a vector-quantization module and ctc loss for pre-training.
    c                   ó8  ^ • \ rS rSrS\4U 4S jjrS\4S jrS rS r	\
 SS\R                  S	\R                  S
\R                  S\4S jj5       r\    SS\\R                      S\\R                      S\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚUniSpeechForPreTrainingiG  rh   c                 ó8  >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  5      U l        [        U5      U l	        [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                   5      U l        [        R
                  " UR$                  5      U l        U R)                  5         g r~   )r:   r;   rü  r¤  rW   r¿   Úfeat_quantizer_dropoutÚdropout_featuresr|  Ú	quantizerr½   r  Úproj_codevector_dimÚ	project_qrY   Úproject_hidÚnum_ctc_classesÚctc_projÚfinal_dropoutrÁ   r  rÂ   s     €r4   r;   Ú UniSpeechForPreTraining.__init__M  s¼   ø€ Ü‰Ñ˜Ô Ü'¨Ó/ˆŒÜ "§
¢
¨6×+HÑ+HÓ IˆÔä7¸Ó?ˆŒÜŸš 6×#8Ñ#8¸&×:TÑ:TÓUˆŒÜŸ9š9 V×%?Ñ%?À×ASÑASÓTˆÔäŸ	š	 &×"4Ñ"4°f×6LÑ6LÓMˆŒÜ—z’z &×"6Ñ"6Ó7ˆŒð 	‰Õr3   r…  c                 ó$   • XR                   l        g)zR
Set the Gumbel softmax temperature to a given value. Only necessary for training
N)r  r…  )r=   r…  s     r4   Úset_gumbel_temperatureÚ.UniSpeechForPreTraining.set_gumbel_temperature\  s   € ð &1‰Õ"r3   c                 óZ   • [         R                  " S[        5        U R                  5         g©z‘
Calling this function will disable the gradient computation for the feature encoder so that its parameters will
not be updated during training.
úžThe method `freeze_feature_extractor` is deprecated and will be removed in Transformers v5. Please use the equivalent `freeze_feature_encoder` method instead.N©ÚwarningsÚwarnÚFutureWarningÚfreeze_feature_encoder©r=   s    r4   Úfreeze_feature_extractorÚ0UniSpeechForPreTraining.freeze_feature_extractorb  ó'   € ô
 	ŠðQäô	
ð
 	×#Ñ#Õ%r3   c                 óL   • U R                   R                  R                  5         g©ú
Calling this function will disable the gradient computation for the feature encoder so that its parameter will
not be updated during training.
N©r¤  rþ  r¯   r2  s    r4   r1  Ú.UniSpeechForPreTraining.freeze_feature_encodern  ó   € ð
 	‰×(Ñ(×;Ñ;Õ=r3   Útarget_featuresÚnegative_featuresÚpredicted_featuresc                 óÀ   • [         R                  " X/SS9n [         R                  " UR                  5       U R                  5       SS9nUR	                  U 5      nXC-  nU$ )zÑ
Compute logits for contrastive loss based using cosine similarity as the distance measure between
`[positive_feature, negative_features]` and `[predicted_features]`. Additionally, temperature can be applied.
r   rÐ   r‹   )r.   ÚcatÚcosine_similarityr   r–  )r<  r=  r>  r…  Úlogitss        r4   Úcompute_contrastive_logitsÚ2UniSpeechForPreTraining.compute_contrastive_logitsu  s\   € ô  Ÿ)š) _Ð$HÈaÑPˆä×(Ò(Ð);×)AÑ)AÓ)CÀ_×EZÑEZÓE\ÐbdÑeˆØ—‘ Ó0ˆð Ñ%ˆØˆr3   r³   rË   rë   r0  r1  rì   c           	      óü  • Ub  UOU R                   R                  nU R                  UUUUUS9nUS   nU R                  US   5      nU R	                  U5      u  pšU R                  U	R                  U R
                  R                  R                  5      5      n	U R                  U	5      n	[        R                  " UR                  S5      UR                  S5      5      R                  U R                   R                  5      nUR                  SS5      n[        R                   " U5      R#                  5       R                  UR$                  5      nUR                  SS5      nUR'                  S5      nUR)                  US5      U	R)                  U) S5      -   nU R+                  U5      nU R-                  U5      nSnU(       d  Ub
  XçXš4USS -   $ XyU
4USS -   $ [/        UUU	U
UR0                  UR2                  S9$ )	a[  
Example:

```python
>>> import torch
>>> from transformers import AutoFeatureExtractor, UniSpeechForPreTraining

>>> feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/unispeech-large-1500h-cv")
>>> model = UniSpeechForPreTraining.from_pretrained("microsoft/unispeech-large-1500h-cv")
>>> # TODO: Add full pretraining example
```Nr  r   r   r‹   rï   r9   )r"   r#   r$   r%   r&   r'   )rh   r  r¤  r  r  r!  rÉ  rS   rT  r"  r.   ÚemptyrÒ   r´  Úreplace_probrk   Ú	bernoullir  rÇ  r>  Úmasked_fillrÁ   r$  r    r&   r'   )r=   r³   rË   rë   r0  r1  r$  Útransformer_featuresr  Úquantized_featuresr%   Úprob_replace_matrixÚsampled_replace_matrixrB  r"   s                  r4   rE   ÚUniSpeechForPreTraining.forward‰  s  € ð* &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—.‘.ØØ)Ø/Ø!5Ø#ð !ð 
ˆð  ' q™zÐð  ×0Ñ0°¸±Ó<ÐØ48·N±NÐCSÓ4TÑ1Ðð "Ÿ^™^Ð,>×,AÑ,AÀ$Ç.Á.×BWÑBW×B]ÑB]Ó,^Ó_ÐØ!×-Ñ-Ð.@ÓAÐä#ŸkškÐ*>×*CÑ*CÀAÓ*FÐH\×HaÑHaÐbcÓHdÓe×kÑkØK‰K×$Ñ$ó
Ðð 2×;Ñ;¸A¸qÓAÐÜ!&§¢Ð1DÓ!E×!JÑ!JÓ!L×!OÑ!OÐPd×PkÑPkÓ!lÐØ!7×!AÑ!AÀ!ÀQÓ!GÐØ!7×!AÑ!AÀ"Ó!EÐØ%×1Ñ1Ð2HÈ#ÓNØ×*Ñ*Ð,BÐ+BÀCÓHñ
ˆð
 —‘˜fÓ%ˆØ—‘˜vÓ&ˆð ˆÞØÑØÐ4FÐ^ÐahÐijÐikÐalÑlÐlØ(Ð>SÐTÐW^Ð_`Ð_aÐWbÑbÐbä,ØØ1Ø'9Ø"7Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r3   )r$  rÁ   r  r"  r!  r  r¤  )r   )NNNN)r)   r*   r+   r,   r   r;   rÿ   r(  r3  r1  r¡  r.   r/   rC  r   r   r  r  r   r1   r    rE   r2   rH   rI   s   @r4   r  r  G  s  ø† ð˜÷ ð1°#ô 1ò
&ò>ð ð
 ñ	Ø×*Ñ*ðà ×,Ñ,ðð "×-Ñ-ðð ô	ó ðð& ð 26Ø,0Ø/3Ø&*ñD
à˜uŸ|™|Ñ,ðD
ð ! §¡Ñ.ðD
ð $ D™>ð	D
ð
 ' t™nðD
ð ˜d‘^ðD
ð 
ˆuÐ3Ð3Ñ	4ôD
ó öD
r3   r  r9   zq
    UniSpeech Model with a `language modeling` head on top for Connectionist Temporal Classification (CTC).
    c                   óú   ^ • \ rS rSrSS\\   4U 4S jjjrS rS rS r	S r
\     SS\\R                     S	\\R                     S
\\   S\\   S\\   S\\R                     S\\\4   4S jj5       rSrU =r$ )ÚUniSpeechForCTCiÔ  Útarget_langc                 óÄ  >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  5      U l        X l        UR                  c  [        SU R                   S35      e[        US5      (       a  UR                  (       a  UR                  OUR                  n[        R                   " X1R                  5      U l        U R%                  5         g)a  
target_lang (`str`, *optional*):
    Language id of adapter weights. Adapter weights are stored in the format adapter.<lang>.safetensors or
    adapter.<lang>.bin. Only relevant when using an instance of [`UniSpeechForCTC`] with adapters. Uses 'eng' by
    default.
NzYou are trying to instantiate zø with a configuration that does not define the vocabulary size of the language model head. Please instantiate the model as follows: `UniSpeechForCTC.from_pretrained(..., vocab_size=vocab_size)`. or define `vocab_size` of your model's configuration.Úadd_adapter)r:   r;   rü  r¤  rW   r¿   r%  rÁ   rQ  Ú
vocab_sizer¢   r?   r]   rS  Úoutput_hidden_sizerY   r½   Úlm_headr  )r=   rh   rQ  rU  r?   s       €r4   r;   ÚUniSpeechForCTC.__init__Ú  s¾   ø€ ô 	‰Ñ˜Ô ä'¨Ó/ˆŒÜ—z’z &×"6Ñ"6Ó7ˆŒà&Ôà×ÑÑ$ÜØ0°·±Ð0@ð AHð Hóð ô *1°¸×)GÑ)GÈF×L^×L^ˆF×%Ò%Ðdj×dvÑdvð 	ô —y’yÐ!3×5FÑ5FÓGˆŒð 	‰Õr3   c                 óú   • U R                   nUb'  [        U R                  SS5      c  [        SU S35      eUc.  [        U R                  SS5      b  [        R                  S5        gUb  U R                  USS9  gg)a  
This method overwrites [`~PreTrainedModel.tie_weights`] so that adapter weights can be correctly loaded when
passing `target_lang=...` to `from_pretrained(...)`.

This method is **not** supposed to be called by the user and is prone to be changed in the future.
Nr^  zCannot pass `target_lang`: z- if `config.adapter_attn_dim` is not defined.z)By default `target_lang` is set to 'eng'.T)Ú
force_load)rQ  rl  rh   r¢   ÚloggerÚinfoÚload_adapter)r=   rQ  s     r4   Útie_weightsÚUniSpeechForCTC.tie_weights÷  sƒ   € ð ×&Ñ&ˆàÑ"¤w¨t¯{©{Ð<NÐPTÓ'UÑ']ÜÐ:¸;¸-ÐGtÐuÓvÐvØÑ ¤W¨T¯[©[Ð:LÈdÓ%SÑ%_ÜK‰KÐCÕDØÑ$Ø×Ñ˜k°dÐÒ;ð %r3   c                 óZ   • [         R                  " S[        5        U R                  5         g)r8  r,  Nr-  r2  s    r4   r3  Ú(UniSpeechForCTC.freeze_feature_extractor  r5  r3   c                 óL   • U R                   R                  R                  5         gr7  r9  r2  s    r4   r1  Ú&UniSpeechForCTC.freeze_feature_encoder  r;  r3   c                 óT   • U R                   R                  5        H
  nSUl        M     g©zº
Calling this function will disable the gradient computation for the base model so that its parameters will not
be updated during training. Only the classification head will be updated.
FN©r¤  r«   r¬   r­   s     r4   Úfreeze_base_modelÚ!UniSpeechForCTC.freeze_base_model  ó#   € ð
 —^‘^×.Ñ.Ö0ˆEØ"'ˆEÖò 1r3   r³   rË   rë   r0  r1  Úlabelsrì   c                 ó   • Ub  UOU R                   R                  nUbJ  UR                  5       U R                   R                  :¼  a"  [	        SU R                   R                   35      eU R                  UUUUUS9nUS   nU R                  U5      nU R                  U5      n	Sn
UGbX  Ub  UO"[        R                  " U[        R                  S9nU R                  UR                  S5      5      R                  [        R                  5      nUS:¬  nUR                  S5      nUR                  U5      n[        R                   R#                  U	S[        R$                  S9R'                  SS5      n[        R(                  R*                  R-                  S	S
9   [        R                   R/                  UUUUU R                   R0                  U R                   R2                  U R                   R4                  S9n
SSS5        U(       d  U	4U[6        S -   nU
b  U
4U-   $ U$ [9        X©UR:                  UR<                  S9$ ! , (       d  f       NL= f)a°  
labels (`torch.LongTensor` of shape `(batch_size, target_length)`, *optional*):
    Labels for connectionist temporal classification. Note that `target_length` has to be smaller or equal to
    the sequence length of the output logits. Indices are selected in `[-100, 0, ..., config.vocab_size - 1]`.
    All labels set to `-100` are ignored (masked), the loss is only computed for labels in `[0, ...,
    config.vocab_size - 1]`.
Nz$Label values must be <= vocab_size: r  r   rä  r‹   )rU   rT  r   F)Úenabled)ÚblankÚ	reductionÚzero_infinity©r"   rB  r&   r'   )rh   r  rß  rT  r¢   r¤  rÁ   rV  r.   Ú	ones_likerÊ  rÃ  rŠ  rÉ  Úmasked_selectrW   rÔ   Úlog_softmaxÚfloat32rk   ÚbackendsÚcudnnÚflagsÚctc_lossÚpad_token_idÚctc_loss_reductionÚctc_zero_infinityÚ_HIDDEN_STATES_START_POSITIONr   r&   r'   )r=   r³   rË   rë   r0  r1  ri  r$  r&   rB  r"   r¹  Úlabels_maskÚtarget_lengthsÚflattened_targetsÚ	log_probsÚoutputs                    r4   rE   ÚUniSpeechForCTC.forward'  s  € ð" &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ &§*¡*£,°$·+±+×2HÑ2HÓ"HÜÐCÀDÇKÁK×DZÑDZÐC[Ð\Ó]Ð]à—.‘.ØØ)Ø/Ø!5Ø#ð !ð 
ˆð   ™
ˆØŸ™ ]Ó3ˆà—‘˜mÓ,ˆàˆØÒð #1Ñ"<‘Ä%Ç/Â/ÐR^Ôfk×fpÑfpÑBqð ð !×AÑAÀ.×BTÑBTÐUWÓBXÓY×\Ñ\Ô]b×]gÑ]gÓhˆMð ! A™+ˆKØ(Ÿ_™_¨RÓ0ˆNØ &× 4Ñ 4°[Ó AÐô Ÿ™×1Ñ1°&¸bÌÏÉÐ1ÐV×`Ñ`ÐabÐdeÓfˆIä—‘×%Ñ%×+Ñ+°EÐ+Ò:Ü—}‘}×-Ñ-ØØ%Ø!Ø"ØŸ+™+×2Ñ2Ø"Ÿk™k×<Ñ<Ø"&§+¡+×"?Ñ"?ð .ð ÷ ;ö ØY Ô)FÐ)GÐ!HÑHˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEäØ°G×4IÑ4IÐV]×VhÑVhñ
ð 	
÷ ;Õ:ús   ÆA H?È?
I)rÁ   rV  rQ  r¤  r~   r  )r)   r*   r+   r,   r   r  r;   r]  r3  r1  rf  r   r.   r  r  r   r1   r   rE   r2   rH   rI   s   @r4   rP  rP  Ô  sÏ   ø† ñ¨H°S©M÷ ð ò:<ò*
&ò>ò(ð ð 26Ø,0Ø/3Ø&*Ø)-ñD
à˜uŸ|™|Ñ,ðD
ð ! §¡Ñ.ðD
ð $ D™>ð	D
ð
 ' t™nðD
ð ˜d‘^ðD
ð ˜Ÿ™Ñ&ðD
ð 
ˆunÐ$Ñ	%ôD
ó öD
r3   rP  z˜
    UniSpeech Model with a sequence classification head on top (a linear layer over the pooled output) for tasks like
    SUPERB Keyword Spotting.
    c                   óâ   ^ • \ rS rSrU 4S jrS rS rS r\     SS\	\
R                     S\	\
R                     S\	\   S	\	\   S
\	\   S\	\
R                     S\\\4   4S jj5       rSrU =r$ )Ú"UniSpeechForSequenceClassificationio  c                 ó"  >• [         TU ]  U5        [        US5      (       a  UR                  (       a  [	        S5      e[        U5      U l        UR                  S-   nUR                  (       a2  [        R                  " [        R                  " U5      U-  5      U l        [        R                  " UR                  UR                   5      U l        [        R                  " UR                   UR$                  5      U l        U R)                  5         g )NrS  z`Sequence classification does not support the use of UniSpeech adapters (config.add_adapter=True)r   )r:   r;   r]   rS  r¢   rü  r¤  r+  Úuse_weighted_layer_sumrW   r‚  r.   rî  Úlayer_weightsr½   rY   Úclassifier_proj_sizeÚ	projectorÚ
num_labelsÚ
classifierr  )r=   rh   Ú
num_layersr?   s      €r4   r;   Ú+UniSpeechForSequenceClassification.__init__v  sÃ   ø€ Ü‰Ñ˜Ô ä6˜=×)Ñ)¨f×.@×.@ÜØróð ô (¨Ó/ˆŒØ×-Ñ-°Ñ1ˆ
Ø×(×(Ü!#§¢¬e¯jªj¸Ó.DÀzÑ.QÓ!RˆDÔÜŸš 6×#5Ñ#5°v×7RÑ7RÓSˆŒÜŸ)š) F×$?Ñ$?À×ARÑARÓSˆŒð 	‰Õr3   c                 óZ   • [         R                  " S[        5        U R                  5         gr+  r-  r2  s    r4   r3  Ú;UniSpeechForSequenceClassification.freeze_feature_extractor‡  r5  r3   c                 óL   • U R                   R                  R                  5         gr7  r9  r2  s    r4   r1  Ú9UniSpeechForSequenceClassification.freeze_feature_encoder“  r;  r3   c                 óT   • U R                   R                  5        H
  nSUl        M     grd  re  r­   s     r4   rf  Ú4UniSpeechForSequenceClassification.freeze_base_modelš  rh  r3   r³   rË   rë   r0  r1  ri  rì   c                 ó0  • Ub  UOU R                   R                  nU R                   R                  (       a  SOUnU R                  UUUUUS9nU R                   R                  (       ai  U[           n[
        R                  " USS9n[        R                  R                  U R                  SS9n	X‰R                  SSS5      -  R                  SS9nOUS   nU R                  U5      nUc  UR                  SS9n
O‚U R                  UR                   S   U5      nUR#                  S5      R%                  SSUR                   S   5      nS	XŒ) '   UR                  SS9UR                  SS9R                  SS5      -  n
U R'                  U
5      nSnUbF  [)        5       nU" UR                  SU R                   R*                  5      UR                  S5      5      nU(       d  U4U[        S -   nUb  U4U-   $ U$ [-        UUUR.                  UR0                  S
9$ )aµ  
input_values (`torch.FloatTensor` of shape `(batch_size, sequence_length)`):
    Float values of input raw speech waveform. Values can be obtained by loading a `.flac` or `.wav` audio file
    into an array of type `list[float]`, a `numpy.ndarray` or a `torch.Tensor`, *e.g.* via the torchcodec library
    (`pip install torchcodec`) or the soundfile library (`pip install soundfile`).
    To prepare the array into `input_values`, the [`AutoProcessor`] should be used for padding and conversion
    into a tensor of type `torch.FloatTensor`. See [`UniSpeechProcessor.__call__`] for details.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
NTr  r   rÐ   r‹   r   r9   rï   ro  )rh   r  r…  r¤  r{  r.   ÚstackrW   rÔ   rÕ   r†  rÖ   rŠ  rˆ  rˆ  rÐ  rð   r>  r?  rŠ  r   r‰  r   r&   r'   )r=   r³   rË   rë   r0  r1  ri  r$  r&   Únorm_weightsÚpooled_outputÚpadding_maskÚexpand_padding_maskrB  r"   Úloss_fctr€  s                    r4   rE   Ú*UniSpeechForSequenceClassification.forward¢  s  € ð. &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ'+§{¡{×'I×'I™tÐOcÐà—.‘.ØØ)Ø/Ø!5Ø#ð !ð 
ˆð ;‰;×-×-Ø#Ô$AÑBˆMÜ!ŸKšK¨¸1Ñ=ˆMÜŸ=™=×0Ñ0°×1CÑ1CÈÐ0ÐLˆLØ*×->Ñ->¸rÀ1ÀaÓ-HÑH×MÑMÐRSÐMÐT‰Mà# A™JˆMàŸ™ }Ó5ˆØÑ!Ø)×.Ñ.°1Ð.Ð5‰Mà×BÑBÀ=×CVÑCVÐWXÑCYÐ[iÓjˆLØ".×"8Ñ"8¸Ó"<×"CÑ"CÀAÀqÈ-×J]ÑJ]Ð^_ÑJ`Ó"aÐØ25ˆMÐ.Ñ/Ø)×-Ñ-°!Ð-Ð4°|×7GÑ7GÈAÐ7GÐ7N×7SÑ7SÐTVÐXYÓ7ZÑZˆMà—‘ Ó/ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯K©K×,BÑ,BÓCÀVÇ[Á[ÐQSÃ_ÓUˆDæØY Ô)FÐ)GÐ!HÑHˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r3   )rŠ  r†  rˆ  r¤  r  )r)   r*   r+   r,   r;   r3  r1  rf  r   r   r.   r  r  r   r1   r   rE   r2   rH   rI   s   @r4   rƒ  rƒ  o  s»   ø† õò"
&ò>ò(ð ð 26Ø,0Ø/3Ø&*Ø)-ñB
à˜uŸ|™|Ñ,ðB
ð ! §¡Ñ.ðB
ð $ D™>ð	B
ð
 ' t™nðB
ð ˜d‘^ðB
ð ˜Ÿ™Ñ&ðB
ð 
ˆuÐ.Ð.Ñ	/ôB
ó öB
r3   rƒ  )rP  r  rƒ  rü  r£  )Nrï   NrB   )Rr®  r.  Údataclassesr   Útypingr   r   r   Únumpyræ  r.   Útorch.nnrW   r   Úactivationsr	   Úintegrations.deepspeedr
   Úintegrations.fsdpr   Úmodeling_attn_mask_utilsr   r   Úmodeling_flash_attention_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   Úmodeling_utilsr   r   Úprocessing_utilsr   r\   r   r   r   Úconfiguration_unispeechr   Úintegrations.flex_attentionr   Ú
get_loggerr)   rZ  r    ÚModuler6   rK   rn   r‚   r   rš   r·   r  r   rÛ   rÝ   r  r  r'  r\  rj  rr  r|  r£  r1   rÿ   rØ  Úndarrayrú  r  rü  r  r{  rP  rƒ  Ú__all__r(   r3   r4   Ú<module>r®     sH  ðó, Û Ý !ß ,Ñ ,ã Û Ý Ý %å !Ý @Ý 7ß gÝ BÝ 9÷õ ÷ GÝ &ß JÑ JÝ 4ñ  ×!Ñ!ÝJð 
×	Ò	˜HÓ	%€ð Ùðñô
: Kó :óó ð:ô.˜BŸI™Iô ô* r§y¡yô *ôZÐ$>ô ô*Ð"<ô ô6Ð"<ô ô0&˜bŸi™iô &ôR1 §¡ô 1ð*  $ØØ(,ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð e‰_ð%ð ð%ð ˜Ÿ™Ñ%õ%ô<U/˜Ÿ™ô U/ôp˜2Ÿ9™9ô ô0!Ð6ô !ôHZr—y‘yô Zôz §	¡	ô ô2+Ð+Eô +ô\^ b§i¡iô ^ôBC' R§Y¡Yô C'ðL ôF˜ó Fó ðFðZ 26ØñtØc‰?ðtàðtð ðtð ˜U×-Ñ-Ñ.ð	tð
 ðtð ‡ZZõtðn 3Ð ð ôs
Ð-ó s
ó ðs
ñl ðñô
B
Ð6ó B
óð
B
ðJ !"Ð ñ ðñô
S
Ð.ó S
óð
S
ñl ðñôp
Ð)Aó p
óðp
òfr3   