ó
    <±h;Z  ã                   óž  • S SK r S SKJrJrJr  S SKrS SKJr  SSKJr  SSK	J
r
  SSKJr  SSKJr  SS	KJrJrJr  SS
KJrJr  SSKJr  SSKJrJrJrJr  SSKJr  SSKJ r J!r!  SSK"J#r#J$r$  \RJ                  " \&5      r'   S+S\RP                  S\RR                  S\RR                  S\RR                  S\\RR                     S\\*   S\*S\\RR                     4S jjr+ " S S\RP                  5      r, " S S\5      r-\ " S S \5      5       r.\" S!S"9 " S# S$\.5      5       r/ " S% S&\RP                  5      r0\" S'S"9 " S( S)\.\5      5       r1/ S*Qr2g),é    N)ÚCallableÚOptionalÚUnion)Únné   )ÚACT2FN)ÚCache)ÚGenerationMixin)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPastÚCausalLMOutputWithPast)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)ÚTransformersKwargsÚauto_docstringÚcan_return_tupleÚlogging)Úcheck_model_inputsé   )Ú	AutoModelÚAutoModelForCausalLMé   )ÚVoxtralConfigÚVoxtralEncoderConfigÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutÚ	head_maskc                 ó  • Uc  UR                  S5      S-  n[        R                  " XR                  SS5      5      U-  n	Ub0  UR                  S:X  a   X”S S 2S S 2S S 2S UR
                  S   24   -   n	[        R                  R                  U	SS9n	Ub  X—R                  SSSS5      -  n	[        R                  R                  X–U R                  S	9n	[        R                  " X“5      n
U
R                  SS5      R                  5       n
X©4$ )
Néÿÿÿÿç      à¿r   r   é   éþÿÿÿ)Údimr   ©ÚpÚtraining)ÚsizeÚtorchÚmatmulÚ	transposeÚndimÚshaper   Ú
functionalÚsoftmaxÚviewr#   r-   Ú
contiguous)r   r   r   r    r!   r"   r#   r$   ÚkwargsÚattn_weightsÚattn_outputs              Úd/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/voxtral/modeling_voxtral.pyÚeager_attention_forwardr<   ,   só   € ð Ø—*‘*˜R“. DÑ(ˆä—<’< §}¡}°Q¸Ó':Ó;¸gÑE€LØÑ! n×&9Ñ&9¸QÓ&>Ø#²Qºº1¸oÀÇ	Á	È"Á¸oÐ5MÑ&NÑNˆä—=‘=×(Ñ(¨¸2Ð(Ð>€LàÑØ#§n¡n°Q¸¸A¸qÓ&AÑAˆä—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$ó    c                   ó`  ^ • \ rS rSrSr      SS\S\S\S\S\S\S	\\   S
\\	   4U 4S jjjr
S\R                  S\S\4S jr   SS\R                  S\\R                     S\\R                     S\S\\R                  \\R                     \\\R                        4   4
S jjrSrU =r$ )ÚVoxtralAttentionéJ   z=Multi-headed attention from 'Attention Is All You Need' paperÚ	embed_dimÚ	num_headsr#   Ú
is_decoderÚbiasÚ	is_causalÚ	layer_idxÚconfigc	                 ó`  >• [         T	U ]  5         Xl        X l        X0l        X-  U l        X€l        U R
                  U-  U R                  :w  a  [        SU R                   SU S35      eU R
                  S-  U l        X@l	        X`l
        Uc4  U(       a-  [        R                  SU R                  R                   S35        Xpl        [         R"                  " XSS9U l        [         R"                  " XUS9U l        [         R"                  " XUS9U l        [         R"                  " XUS9U l        g )	Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).r'   zInstantiating a decoder z³ without passing `layer_idx` is not recommended and will to errors during the forward call, if caching is used. Please make sure to provide a `layer_idx` when creating this class.F©rD   )ÚsuperÚ__init__rA   rB   r#   Úhead_dimrG   Ú
ValueErrorr"   rC   rE   ÚloggerÚwarning_onceÚ	__class__Ú__name__rF   r   ÚLinearÚk_projÚv_projÚq_projÚout_proj)
ÚselfrA   rB   r#   rC   rD   rE   rF   rG   rP   s
            €r;   rK   ÚVoxtralAttention.__init__M   s  ø€ ô 	‰ÑÔØ"ŒØ"ŒØŒØ!Ñ.ˆŒØŒàM‰M˜IÑ%¨$¯.©.Ó8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ŒØ"ŒàÑ¦Ü×ÑØ*¨4¯>©>×+BÑ+BÐ*Cð D,ð ,ôð
 #Œä—i’i 	¸5ÑAˆŒÜ—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜŸ	š	 )¸TÑBˆr=   ÚtensorÚseq_lenÚbszc                 óŒ   • UR                  X2U R                  U R                  5      R                  SS5      R	                  5       $ )Nr   r   )r6   rB   rL   r1   r7   )rW   rY   rZ   r[   s       r;   Ú_shapeÚVoxtralAttention._shapeu   s5   € Ø{‰{˜3¨¯©¸¿¹ÓG×QÑQÐRSÐUVÓW×bÑbÓdÐdr=   Úhidden_statesr!   Úlayer_head_maskÚoutput_attentionsÚreturnc                 óP  • UR                  5       u  pgnU R                  U R                  U5      U R                  -  Xv5      n	U R                  U R	                  U5      SU5      n
U R                  U R                  U5      SU5      n[        nU R                  R                  S:w  a  [        U R                  R                     nU" U U	U
UU4U R                  (       d  SOU R                  SUUS.UD6u  pÞUR                  XgS5      R                  5       nU R                  U5      nXÞ4$ )z#Input shape: Batch x Time x Channelr&   Úeagerç        ç      ð?)r#   r"   ra   r$   )r.   r]   rU   r"   rS   rT   r<   rG   Ú_attn_implementationr   r-   r#   Úreshaper7   rV   )rW   r_   r!   r`   ra   r8   r[   Útgt_lenÚ_Úquery_statesÚ
key_statesÚvalue_statesÚattention_interfacer:   r9   s                  r;   ÚforwardÚVoxtralAttention.forwardx   s  € ð (×,Ñ,Ó.‰ˆað —{‘{ 4§;¡;¨}Ó#=ÀÇÁÑ#LÈgÓ[ˆØ—[‘[ §¡¨]Ó!;¸RÀÓEˆ
Ø—{‘{ 4§;¡;¨}Ó#=¸rÀ3ÓGˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð%
ð  $Ÿ}Ÿ}‘C°$·,±,ØØ/Ø%ñ%
ð ñ%
Ñ!ˆð "×)Ñ)¨#¸Ó;×FÑFÓHˆØ—m‘m KÓ0ˆàÐ(Ð(r=   )rG   r#   rA   rL   rE   rC   rS   rF   rB   rV   rU   r"   rT   )re   FTFNN)NNF)rQ   Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__ÚintÚfloatÚboolr   r   rK   r/   ÚTensorr]   Útuplero   Ú__static_attributes__Ú__classcell__©rP   s   @r;   r?   r?   J   s*  ø† ÙGð Ø ØØØ#'Ø*.ñ&Càð&Cð ð&Cð ð	&Cð
 ð&Cð ð&Cð ð&Cð ˜C‘=ð&Cð ˜Ñ'÷&Cð &CðPe˜UŸ\™\ð e°Cð e¸cô eð 26Ø26Ø"'ñ))à—|‘|ð))ð ! §¡Ñ.ð))ð " %§,¡,Ñ/ð	))ð
  ð))ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷))ó ))r=   r?   c                   ó¤   ^ • \ rS rSrS\4U 4S jjr SS\R                  S\R                  S\R                  S\S\R                  4
S	 jjr	S
r
U =r$ )ÚVoxtralEncoderLayeré¤   rG   c                 ój  >• [         TU ]  5         UR                  U l        [	        U R                  UR
                  UR                  US9U l        [        R                  " U R                  5      U l
        UR                  U l        [        UR                     U l        UR                  U l        [        R                   " U R                  UR"                  5      U l        [        R                   " UR"                  U R                  5      U l        [        R                  " U R                  5      U l        g )N)rA   rB   r#   rG   )rJ   rK   Úd_modelrA   r?   Úencoder_attention_headsÚattention_dropoutÚ	self_attnr   Ú	LayerNormÚself_attn_layer_normr#   r   Úactivation_functionÚactivation_fnÚactivation_dropoutrR   Úencoder_ffn_dimÚfc1Úfc2Úfinal_layer_norm©rW   rG   rP   s     €r;   rK   ÚVoxtralEncoderLayer.__init__¥   sÑ   ø€ Ü‰ÑÔØŸ™ˆŒä)Ø—n‘nØ×4Ñ4Ø×,Ñ,Øñ	
ˆŒô %'§L¢L°·±Ó$@ˆÔ!Ø—~‘~ˆŒÜ# F×$>Ñ$>Ñ?ˆÔØ"(×";Ñ";ˆÔÜ—9’9˜TŸ^™^¨V×-CÑ-CÓDˆŒÜ—9’9˜V×3Ñ3°T·^±^ÓDˆŒÜ "§¢¨T¯^©^Ó <ˆÕr=   r_   r!   r`   ra   rb   c                 óÜ  • UnU R                  U5      nU R                  UUUUS9u  p[        R                  R	                  XR                  U R
                  S9nXQ-   nUnU R                  U5      nU R                  U R                  U5      5      n[        R                  R	                  XR                  U R
                  S9nU R                  U5      n[        R                  R	                  XR                  U R
                  S9nXQ-   nUR                  [        R                  :X  aC  [        R                  " UR                  5      R                  S-
  n[        R                   " X* US9nX4$ )aW  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
        `(encoder_attention_heads,)`.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)r_   r!   r`   ra   r+   iè  )ÚminÚmax)r†   r„   r   r4   r#   r-   r   rˆ   r‹   r‰   rŒ   Údtyper/   Úfloat16Úfinfor’   Úclamp)rW   r_   r!   r`   ra   Úresidualr9   Úclamp_values           r;   ro   ÚVoxtralEncoderLayer.forward·   sC  € ð$ !ˆØ×1Ñ1°-Ó@ˆØ&*§n¡nØ'Ø)Ø+Ø/ð	 '5ð '
Ñ#ˆô Ÿ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆà ˆØ×-Ñ-¨mÓ<ˆØ×*Ñ*¨4¯8©8°MÓ+BÓCˆÜŸ™×-Ñ-¨m×?VÑ?VÐae×anÑanÐ-ÐoˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆà×Ñ¤%§-¡-Ó/ÜŸ+š+ m×&9Ñ&9Ó:×>Ñ>ÀÑEˆKÜ!ŸKšK¨¸<È[ÑYˆMàÐ*Ð*r=   )	r‰   rˆ   r#   rA   r‹   rŒ   r   r„   r†   )F)rQ   rq   rr   rs   r   rK   r/   rx   rw   ro   rz   r{   r|   s   @r;   r~   r~   ¤   s^   ø† ð=˜}÷ =ð. #(ñ)+à—|‘|ð)+ð Ÿ™ð)+ð Ÿ™ð	)+ð
  ð)+ð 
‰÷)+ó )+r=   r~   c                   óN   • \ rS rSr% \\S'   SrSrSrSr	Sr
SrSrSrSrSrS rSrg)	ÚVoxtralPreTrainedModeléã   rG   ÚmodelTNÚpast_key_valuesc                 óŠ  • [        U R                  S5      (       a  U R                  R                  OU R                  R                  R                  n[	        U[
        R                  [
        R                  45      (       aW  UR                  R                  R                  SUS9  UR                  b%  UR                  R                  R                  5         g g [	        U[
        R                  5      (       aJ  UR                  R                  R                  S5        UR                  R                  R                  5         g [	        U[
        R                  5      (       ad  UR                  R                  R                  SUS9  UR                   b2  UR                  R                  UR                      R                  5         g g g )NÚinitializer_rangere   )ÚmeanÚstdrf   )ÚhasattrrG   r    Úaudio_configÚ
isinstancer   rR   ÚConv1dÚweightÚdataÚnormal_rD   Úzero_r…   Úfill_Ú	EmbeddingÚpadding_idx)rW   r   r¢   s      r;   Ú_init_weightsÚ$VoxtralPreTrainedModel._init_weightsñ   s?  € ô
 t—{‘{Ð$7×8Ñ8ð K‰K×)Ò)à—‘×)Ñ)×;Ñ;ð 	ô fœrŸy™y¬"¯)©)Ð4×5Ñ5ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×$Ñ$ SÔ)ØK‰K×Ñ×"Ñ"Õ$Ü˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ð .r=   © )rQ   rq   rr   rs   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_skip_keys_device_placementÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnÚ_supports_cache_classÚ_supports_attention_backendÚ_can_compile_fullgraphr®   rz   r°   r=   r;   r›   r›   ã   sH   ‡ àÓØÐØ&*Ð#ØÐØ"3ÐØÐØ€NØÐØ ÐØ"&ÐØ!Ðõ?r=   r›   z:
    The Voxtral encoder, which is a Whisper encoder.
    )Úcustom_introc                   óä   ^ • \ rS rSr% Sr\\S'   SrS/r\	\
S.rS\4U 4S jjrS rS	\R                  4S
 jrS\R                  4S jr\ SS\\   4S jj5       rS\R.                  4S jrSrU =r$ )ÚVoxtralEncoderi  z£
Transformer encoder consisting of *config.encoder_layers* self attention layers. Each layer is a
[`VoxtralEncoderLayer`].

Args:
    config: VoxtralEncoderConfig
rG   Úinput_featuresr~   )Ú
attentionsr_   c                 óŒ  >• [         TU ]  U5        UR                  U l        UR                  U l        UR
                  nUR                  U l        UR                  U l        UR                  U l	        UR                  (       a  [        R                  " U5      OSU l        [        R                  " U R                  USSS9U l        [        R                  " X"SSSS9U l        [        R$                  " U R                  U5      U l        U R&                  R)                  S5        [        R*                  " [-        UR.                  5       Vs/ sH  n[1        U5      PM     sn5      U l        [        R4                  " UR
                  5      U l        [        R8                  " SSS9U l        SU l        U R?                  5         g s  snf )	Nrf   r   r   )Úkernel_sizeÚpaddingr   )rÂ   ÚstriderÃ   F)rÄ   ) rJ   rK   r#   Úencoder_layerdropÚ	layerdropr   Únum_mel_binsÚpad_token_idr­   Úmax_source_positionsÚscale_embeddingÚmathÚsqrtÚembed_scaler   r¦   Úconv1Úconv2r¬   Úembed_positionsÚrequires_grad_Ú
ModuleListÚrangeÚencoder_layersr~   Úlayersr…   Ú
layer_normÚ	AvgPool1dÚ
avg_poolerÚgradient_checkpointingÚ	post_init)rW   rG   rA   rj   rP   s       €r;   rK   ÚVoxtralEncoder.__init__  sH  ø€ Ü‰Ñ˜Ô Ø—~‘~ˆŒØ×1Ñ1ˆŒà—N‘Nˆ	Ø"×/Ñ/ˆÔØ!×.Ñ.ˆÔØ$*×$?Ñ$?ˆÔ!Ø39×3I×3Iœ4Ÿ9š9 YÔ/ÈsˆÔä—Y’Y˜t×0Ñ0°)ÈÐTUÑVˆŒ
Ü—Y’Y˜yÀÈ1ÐVWÑXˆŒ
ä!Ÿ|š|¨D×,EÑ,EÀyÓQˆÔØ×Ñ×+Ñ+¨EÔ2ä—m’mÌ%ÐPV×PeÑPeÔJfÓ$gÑJfÀQÔ%8¸Ö%@ÑJfÑ$gÓhˆŒÜŸ,š, v§~¡~Ó6ˆŒäŸ,š, q°Ñ3ˆŒà&+ˆÔ#à‰Õùò %hs   Å
Gc                 óN   • U R                  5        H
  nSUl        M     SU l        g )NF)Ú
parametersÚrequires_gradÚ_requires_grad)rW   Úparams     r;   Ú_freeze_parametersÚ!VoxtralEncoder._freeze_parameters8  s#   € Ø—_‘_Ö&ˆEØ"'ˆEÖñ 'à#ˆÕr=   rb   c                 ó   • U R                   $ ©N©rÎ   ©rW   s    r;   Úget_input_embeddingsÚ#VoxtralEncoder.get_input_embeddings=  s   € Øz‰zÐr=   r    c                 ó   • Xl         g rä   rå   ©rW   r    s     r;   Úset_input_embeddingsÚ#VoxtralEncoder.set_input_embeddings@  s   € Ø
r=   r8   c           	      óÊ  • U R                   R                  U R                  R                  S   -  U R                  R                  S   -  nUR
                  S   U:w  a"  [        SU SUR
                  S    SU S35      eUR                  U R                  R                  R                  U R                  R                  R                  S9n[        R                  R                  U R                  U5      5      n[        R                  R                  U R	                  U5      5      nUR                  SSS	5      nU R                  R                  nXV-   R                  UR                  5      n[        R                  R!                  XpR                   U R"                  S
9n[%        U R&                  5       H  u  p‰U	" UUSS9n
U
S   nM     U R)                  U5      n[+        US9$ )a  
Args:
    input_features (`torch.LongTensor` of shape `(batch_size, feature_size, sequence_length)`):
        Float values of mel features extracted from the raw speech waveform. Raw speech waveform can be
        obtained by loading a `.flac` or `.wav` audio file into an array of type `list[float]` or a
        `numpy.ndarray`, *e.g.* via the soundfile library (`pip install soundfile`). To prepare the array into
        `input_features`, the [`AutoFeatureExtractor`] should be used for extracting the mel features, padding
        and conversion into a tensor of type `torch.FloatTensor`. See [`~WhisperFeatureExtractor.__call__`]
    attention_mask (`torch.Tensor`)`, *optional*):
        Voxtral does not support masking of the `input_features`, this argument is preserved for compatibility,
        but it is not used. By default the silence in the input log mel spectrogram are ignored.
r   r&   z:Qwen2Audio expects the mel input features to be of length z, but found z-. Make sure to pad the input mel features to Ú.)r“   Údevicer   r   r+   N)r!   r`   )Úlast_hidden_state)rG   rÉ   rÎ   rÄ   rÏ   r3   rM   Útor§   r“   rï   r   r4   ÚgeluÚpermuterÐ   r#   r-   Ú	enumeraterÕ   rÖ   r   )rW   r¿   r!   r8   Úexpected_seq_lengthÚinputs_embedsÚ	embed_posr_   ÚidxÚencoder_layerÚlayer_outputss              r;   ro   ÚVoxtralEncoder.forwardC  sá  € ð& #Ÿk™k×>Ñ>ÀÇÁ×ARÑARÐSTÑAUÑUÐX\×XbÑXb×XiÑXiÐjkÑXlÑlÐØ×Ñ Ñ#Ð':Ó:ÜØLÐM`ÐLaÐamÐn|÷  oCñ  oCð  DFñ  oGð  nHð  Huð  vIð  uJð  JKð  Lóð ð (×*Ñ*°·±×1BÑ1B×1HÑ1HÐQU×Q[ÑQ[×QbÑQb×QiÑQiÐ*ÐjˆÜŸ™×*Ñ*¨4¯:©:°nÓ+EÓFˆÜŸ™×*Ñ*¨4¯:©:°mÓ+DÓEˆØ%×-Ñ-¨a°°AÓ6ˆà×(Ñ(×/Ñ/ˆ	Ø&Ñ2×6Ñ6°}×7JÑ7JÓKˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-Ðdˆä"+¨D¯K©KÖ"8ÑˆCÙ)ØØ-Ø $ñˆMð
 *¨!Ñ,ŠMñ #9ð Ÿ™¨Ó6ˆäØ+ñ
ð 	
r=   Úinput_lengthsc                 ó4   • US-
  S-  S-   nUS-
  S-  S-   nX4$ )zc
Computes the output length of the convolutional layers and the output length of the audio encoder
r   r   r°   )rW   rü   Úoutput_lengthss      r;   Ú _get_feat_extract_output_lengthsÚ/VoxtralEncoder._get_feat_extract_output_lengthst  s5   € ð '¨Ñ*¨qÑ0°1Ñ4ˆØ'¨!Ñ+°Ñ1°AÑ5ˆØÐ,Ð,r=   )rß   rØ   rÎ   rÏ   r#   rÐ   rÍ   rÙ   rÖ   rÆ   rÕ   rÉ   rÇ   r­   rä   )rQ   rq   rr   rs   rt   r   r±   Úmain_input_namer´   r?   r~   Ú_can_record_outputsrK   rá   r   ÚModulerç   rë   r   r   r   ro   r/   Ú
LongTensorrÿ   rz   r{   r|   s   @r;   r¾   r¾     sŸ   ø‡ ñð !Ó Ø&€OØ.Ð/Ðà&Ø,ñÐð
Ð3÷ ò4$ð
 b§i¡iô ð¨"¯)©)ô ð ð ñ-
ð Ð+Ñ,ô	-
ó ð-
ð`-¸e×>NÑ>N÷ -ò -r=   r¾   c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )ÚVoxtralMultiModalProjectori}  rG   c                 ó^  >• [         TU ]  5         [        R                  " UR                  R
                  UR                  R                  SS9U l        [        UR                     U l        [        R                  " UR                  R                  UR                  R                  SS9U l        g )NFrI   )rJ   rK   r   rR   r¤   Úintermediate_sizeÚtext_configÚhidden_sizeÚlinear_1r   Úprojector_hidden_actÚactÚlinear_2rŽ   s     €r;   rK   Ú#VoxtralMultiModalProjector.__init__~  sz   ø€ Ü‰ÑÔÜŸ	š	 &×"5Ñ"5×"GÑ"GÈ×I[ÑI[×IgÑIgÐnsÑtˆŒÜ˜&×5Ñ5Ñ6ˆŒÜŸ	š	 &×"4Ñ"4×"@Ñ"@À&×BTÑBT×B`ÑB`ÐglÑmˆr=   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ rä   )r  r  r  )rW   Úaudio_featuresr_   s      r;   ro   Ú"VoxtralMultiModalProjector.forward„  s2   € ØŸ™ nÓ5ˆØŸ™ Ó/ˆØŸ™ mÓ4ˆØÐr=   )r  r  r  )	rQ   rq   rr   rs   r   rK   ro   rz   r{   r|   s   @r;   r  r  }  s   ø† ðn˜}÷ n÷ð r=   r  zs
    The Voxtral model, which consists of Whisper encoder, a multi-modal projector and a LLama language model.
    c                   óê  ^ • \ rS rSrS/rSS0rSS/S/40rS/rU 4S jrS	 r	S
 r
S rS rS rS rS\R                   4S jr\\          SS\\R*                     S\\R                      S\\R,                     S\\R*                     S\\   S\\R                      S\\R*                     S\\   S\\R*                     S\\\R,                  4   S\\   S\4S jj5       5       rU 4S jrSr U =r!$ ) ÚVoxtralForConditionalGenerationi‹  zlm_head.weightÚlm_headÚcolwise_repr_   ÚlogitsrÐ   c                 ó.  >• [         TU ]  U5        UR                  R                  U l        [        R
                  " UR                  5      U l        [        R
                  " UR                  5      U l	        [        U5      U l        U R                  5         g rä   )rJ   rK   r	  Ú
vocab_sizer   Úfrom_configr¤   Úaudio_towerr   Úlanguage_modelr  Úmulti_modal_projectorrÚ   rŽ   s     €r;   rK   Ú(VoxtralForConditionalGeneration.__init__–  sn   ø€ Ü‰Ñ˜Ô Ø ×,Ñ,×7Ñ7ˆŒÜ$×0Ò0°×1DÑ1DÓEˆÔÜ2×>Ò>¸v×?QÑ?QÓRˆÔÜ%?ÀÓ%GˆÔ"ð 	‰Õr=   c                 ó6   • U R                   R                  5       $ rä   )r  rç   ræ   s    r;   rç   Ú4VoxtralForConditionalGeneration.get_input_embeddings   s   € Ø×"Ñ"×7Ñ7Ó9Ð9r=   c                 ó:   • U R                   R                  U5        g rä   )r  rë   rê   s     r;   rë   Ú4VoxtralForConditionalGeneration.set_input_embeddings£  s   € Ø×Ñ×0Ñ0°Õ7r=   c                 ó6   • U R                   R                  5       $ rä   )r  Úget_output_embeddingsræ   s    r;   r$  Ú5VoxtralForConditionalGeneration.get_output_embeddings¦  s   € Ø×"Ñ"×8Ñ8Ó:Ð:r=   c                 ó:   • U R                   R                  U5        g rä   )r  Úset_output_embeddings)rW   Únew_embeddingss     r;   r'  Ú5VoxtralForConditionalGeneration.set_output_embeddings©  s   € Ø×Ñ×1Ñ1°.ÕAr=   c                 ó:   • U R                   R                  U5        g rä   )r  Úset_decoder)rW   Údecoders     r;   r+  Ú+VoxtralForConditionalGeneration.set_decoder¬  s   € Ø×Ñ×'Ñ'¨Õ0r=   c                 ó6   • U R                   R                  5       $ rä   )r  Úget_decoderræ   s    r;   r/  Ú+VoxtralForConditionalGeneration.get_decoder¯  s   € Ø×"Ñ"×.Ñ.Ó0Ð0r=   r¿   c                 óÂ   • U R                  U5      nUR                  nUR                  SU R                  R                  R
                  5      nU R                  U5      nU$ )a(  
This method is used to get the audio embeddings from input features (a log mel spectrogram), meaning inferring the audio encoder and the multi-modal projector.
Args:
    input_features (`torch.FloatTensor`):
        Float values of mel features extracted from the raw speech waveform. Raw speech waveform can be
        obtained by loading a `.flac` or `.wav` audio file into an array of type `list[float]` or a
        `numpy.ndarray`, *e.g.* via the soundfile library (`pip install soundfile`). To prepare the array into
        `input_features`, the [`AutoFeatureExtractor`] should be used for extracting the mel features, padding
        and conversion into a tensor of type `torch.FloatTensor`. See [`~WhisperFeatureExtractor.__call__`]

Returns:
    `torch.FloatTensor`:
        The audio embeddings.
r&   )r  rð   rh   rG   r¤   r  r  )rW   r¿   Úaudio_outputsÚaudio_hidden_statesÚaudio_embedss        r;   Úget_audio_embedsÚ0VoxtralForConditionalGeneration.get_audio_embeds²  sZ   € ð ×(Ñ(¨Ó8ˆØ+×=Ñ=ÐØ1×9Ñ9¸"¸d¿k¹k×>VÑ>V×>hÑ>hÓiÐØ×1Ñ1Ð2EÓFˆØÐr=   Ú	input_idsr!   Úposition_idsrž   rö   ÚlabelsÚ	use_cacheÚcache_positionÚlogits_to_keepr8   rb   c                 óÎ   • Uc  U R                  5       " U5      nUb-  U R                  U5      nXR                  R                  :H  nXÆU'   U R                  " SUUUUUUU	U
S.UD6nU$ )a   
Example:

```python
>>> from transformers import VoxtralForConditionalGeneration, AutoProcessor
>>> import torch

>>> device = "cuda" if torch.cuda.is_available() else "cpu"
>>> repo_id = "mistralai/Voxtral-Mini-3B-2507"

>>> processor = AutoProcessor.from_pretrained(repo_id)
>>> model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

>>> conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio",
                "url": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/dude_where_is_my_car.wav",
            },
            {"type": "text", "text": "What can you tell me about this audio?"},
        ],
    }
]

>>> inputs = processor.apply_chat_template(conversation)
>>> inputs = inputs.to(device, dtype=torch.bfloat16)

>>> outputs = model.generate(**inputs, max_new_tokens=30)
>>> processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
["This audio is a humorous conversation between two friends, likely in English, where one of them is trying to figure out what the other's tattoo says."]
```)r!   r8  rž   rö   r9  r:  r;  r<  r°   )rç   r5  rG   Úaudio_token_idr  )rW   r7  r¿   r!   r8  rž   rö   r9  r:  r;  r<  r8   r4  Úaudio_token_maskÚoutputss                  r;   ro   Ú'VoxtralForConditionalGeneration.forwardÇ  s   € ðb Ñ Ø ×5Ñ5Ô7¸	ÓBˆMàÑ%Ø×0Ñ0°Ó@ˆLð  )¯K©K×,FÑ,FÑFÐØ.:Ð*Ñ+à+/×+>Ò+>ð 
,
Ø)Ø%Ø+Ø'ØØØ)Ø)ñ
,
ð ñ
,
ˆð ˆr=   c                 óŽ   >• UR                  SS 5      nUR                  S5      n[        TU ]  " U0 UD6nUb  US   S:X  a  X5S'   U$ )Nr¿   r;  r   )ÚpopÚgetrJ   Úprepare_inputs_for_generation)rW   Úargsr8   r¿   r;  Úmodel_inputsrP   s         €r;   rE  Ú=VoxtralForConditionalGeneration.prepare_inputs_for_generation  sZ   ø€ ð  Ÿ™Ð$4°dÓ;ˆØŸ™Ð$4Ó5ˆä‘wÒ<¸dÐMÀfÑMˆàÑ%¨.¸Ñ*;¸qÓ*@à-;Ð)Ñ*àÐr=   )r  r  r  r  )
NNNNNNNNNr   )"rQ   rq   rr   rs   Ú_tied_weights_keysÚ_tp_planÚ_pp_planÚ_keep_in_fp32_modules_strictrK   rç   rë   r$  r'  r+  r/  r/   ÚFloatTensorr5  r   r   r   r  rx   r	   rw   r   ru   r   r   r   ro   rE  rz   r{   r|   s   @r;   r  r  ‹  s  ø† ð +Ð+ÐØ˜=Ð)€HØ˜_Ð-°¨zÐ:Ð;€HØ$5Ð#6Ð õò:ò8ò;òBò1ò1ð¨u×/@Ñ/@ô ð* Øð 15Ø6:Ø15Ø37Ø+/Ø59Ø-1Ø$(Ø59Ø34ñDà˜E×,Ñ,Ñ-ðDð ! ×!2Ñ!2Ñ3ðDð ! §¡Ñ.ð	Dð
 ˜u×/Ñ/Ñ0ðDð " %™ðDð   × 1Ñ 1Ñ2ðDð ˜×)Ñ)Ñ*ðDð ˜D‘>ðDð ! ×!1Ñ!1Ñ2ðDð ˜c 5§<¡<Ð/Ñ0ðDð Ð+Ñ,ðDð 
 ôDó ó ðD÷Ló r=   r  )r›   r¾   r  )Nre   N)3rË   Útypingr   r   r   r/   r   Úactivationsr   Úcache_utilsr	   Ú
generationr
   Úmodeling_layersr   Úmodeling_outputsr   r   r   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   r   Úutils.genericr   Úautor   r   Úconfiguration_voxtralr   r   Ú
get_loggerrQ   rN   r  rx   rv   r<   r?   r~   r›   r¾   r  r  Ú__all__r°   r=   r;   Ú<module>r\     s|  ðó, ß ,Ñ ,ã Ý å !Ý  Ý )Ý 9ß `Ñ `ß FÝ &ß RÓ RÝ /ß 2ß Fð 
×	Ò	˜HÓ	%€ð  $ØØ(,ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð e‰_ð%ð ð%ð ˜Ÿ™Ñ%õ%ô<W)r—y‘yô W)ôt<+Ð4ô <+ð~ ô ?˜_ó  ?ó ð ?ñF ðñô
n-Ð+ó n-óð
n-ôb §¡ô ñ ðñô
KÐ&<¸oó Kóð
Kò\ Zr=   