ó
    <±h‹>  ã                   ó  • S SK r S SKJr  S SKJrJrJr  S SKrSSK	J
r
Jr  \" 5       (       a  S SKr\
" 5       (       a  S SKrSSKJrJr  SSKJr  SSKJrJrJrJr  SS	KJrJr   " S
 S\SS9r " S S\SS9r " S S\5      rS/rg)é    N)ÚPath)ÚAnyÚOptionalÚUnioné   )Úis_soundfile_availableÚis_torch_available)Ú
AudioInputÚmake_list_of_audio)ÚBatchFeature)ÚAudioKwargsÚProcessingKwargsÚProcessorMixinÚUnpack)ÚPreTokenizedInputÚ	TextInputc                   ó0   • \ rS rSr% \\\\4      \S'   Sr	g)ÚCsmAudioKwargsé%   Úencoded_length_kwargs© N)
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r   ÚdictÚstrr   Ú__annotations__Ú__static_attributes__r   ó    Ú^/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/csm/processing_csm.pyr   r   %   s   ‡ Ø# D¨¨c¨¡NÑ3Ö3r    r   F)Útotalc                   óT   • \ rS rSr% \\S'   SSSS./ SQ/ SQ/ S	QSS
.SS.SS0S.rSrg)ÚCsmProcessorKwargsé)   Úaudio_kwargsTÚleftF)ÚpaddingÚpadding_sideÚadd_special_tokens)é   r   é   é   r   r,   é
   r   r,   é   r   r,   é   r   é   )r,   r,   r,   r1   r,   r,   é   r,   r,   é   r,   r,   r-   r,   é   )r,   r,   r,   r,   r,   r,   r,   r,   r,   r,   r,   r,   r,   r,   r,   )Úkernel_sizesÚstridesÚ	dilationsÚuse_causal_conviÀ]  )r   Úsampling_rateÚreturn_tensorsÚpt)Útext_kwargsr&   Úcommon_kwargsr   N)r   r   r   r   r   r   Ú	_defaultsr   r   r    r!   r$   r$   )   sG   ‡ Ø Ó ð Ø"Ø"'ñ
ò !QÚHÚJØ#'ñ	&ð #ñ
ð +¨DÐ1ñƒIr    r$   c                   óî   ^ • \ rS rSrSrSS/rSrSr SU 4S jjr\	SS j5       r
S	\S
\\\\\\\4      4   S\\   4S jr   SS\\\\\\   \\   4      S	\\   S\\   S\\   S\\   4
S jjrSrU =r$ )ÚCsmProcessoré>   a›  
Constructs a Csm processor which wraps [`EncodecFeatureExtractor`] and
[`PretrainedTokenizerFast`] into a single processor that inherits both the audio feature extraction and
tokenizer functionalities. See the [`~CsmProcessor.__call__`] for more
information.
The preferred way of passing kwargs is as a dictionary per modality, see usage example below.
    ```python
    from transformers import CsmProcessor
    from datasets import load_dataset

    ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
    audio = ds[0]["audio"]["array"]

    processor = CsmProcessor.from_pretrained("sesame/csm-1b")

    processor(
        text=["<|begin_of_text|>[0]What are you working on?<|end_of_text|><|AUDIO|><|audio_eos|><|begin_of_text|>[1]I'm figuring out my budget.<|end_of_text|>"],
        audio=audio,
        text_kwargs = {"padding": False},
        audio_kwargs = {"sampling_rate": 16000},
        common_kwargs = {"return_tensors": "pt"},
    )
    # this should error out because EncodecFeatureExtractor expects a 24kHz audio :)
    ```

Args:
    feature_extractor ([`EncodecFeatureExtractor`]):
        The feature extractor is a required input.
    tokenizer ([`PreTrainedTokenizer`, `PreTrainedTokenizerFast`]):
        The tokenizer is a required input.
    chat_template (`str`, *optional*): A Jinja template which will be used to convert lists of messages
        in a chat into a tokenizable string.

Úfeature_extractorÚ	tokenizerÚEncodecFeatureExtractorÚPreTrainedTokenizerFastc                 óŽ  >• [        US5      (       d(  SU l        UR                  U R                  5      U l        O"UR                  U l        UR                  U l        [        US5      (       d(  SU l        UR                  U R                  5      U l        O"UR                  U l        UR
                  U l        [        TU ]  XUS9  g )NÚaudio_tokenz	<|AUDIO|>Úaudio_eos_tokenz<|audio_eos|>)Úchat_template)ÚhasattrrG   Úconvert_tokens_to_idsÚaudio_token_idrH   Úaudio_eos_token_idÚsuperÚ__init__)ÚselfrB   rC   rI   Ú	__class__s       €r!   rO   ÚCsmProcessor.__init__f   s­   ø€ ô y -×0Ñ0Ø*ˆDÔØ"+×"AÑ"AÀ$×BRÑBRÓ"SˆDÕà(×4Ñ4ˆDÔØ"+×":Ñ":ˆDÔäyÐ"3×4Ñ4Ø#2ˆDÔ Ø&/×&EÑ&EÀd×FZÑFZÓ&[ˆDÕ#à#,×#<Ñ#<ˆDÔ Ø&/×&BÑ&BˆDÔ#ä‰ÑÐ*À]ÐÒSr    c                 óB  • U nUb	  Ub  Ub  Uc  U$ [        XU5       H~  u  pgnUS-
  U-  S-   n	Xg-
  n
U
S-  nX«-
  nXY-
  U
-   U-  S-   n[        R                  " U5      S-
  nX×-  U-   U
-
  nXå-
  nU(       a  U
nUnOUnX¿-   nX\-   U-   nXXUS-
  -  -
  S-
  U-  S-   nM€     U$ )aD  
Compute the length of the encoded audio sequence.

Args:
    audio_length (int): The length of the audio sequence.
    kernel_sizes (list[int]): The kernel sizes for the convolutional layers.
    strides (list[int]): The strides for the convolutional layers.
    use_causal_conv (bool): Whether to use causal convolutions.
r,   r4   )ÚzipÚmathÚceil)Úaudio_lengthr5   r6   r7   r8   Ú
cur_lengthÚkernel_sizeÚstrideÚdilationÚeffective_kernel_sizeÚpadding_totalÚpadding_rightÚpadding_leftÚn_framesÚideal_lengthÚextra_paddings                   r!   Ú_get_encoded_lengthÚ CsmProcessor._get_encoded_length|   sý   € ð "ˆ
àÑ 7¡?°iÑ6GÈ?ÑKbØÐä-0°È	Ö-RÑ)ˆK Ø%0°1¡_¸Ñ$@À1Ñ$DÐ!Ø'Ñ0ˆMØ)¨QÑ.ˆMØ(Ñ8ˆLà"Ñ:¸]ÑJÈfÑTÐWXÑXˆHÜ—y’y Ó*¨QÑ.ˆHØ#Ñ,¨{Ñ:¸]ÑJˆLØ(Ñ5ˆMæØ,Ø -‘à+Ø -Ñ =à#Ñ2°]ÑBˆJØ$°;À±?Ñ'CÑCÀaÑGÈFÑRÐUVÑVŠJñ' .Sð* Ðr    ÚaudioÚsaving_pathÚkwargsc                 óz  • [        5       (       d  [        S5      e[        U5      n[        U[        [
        45      (       a  U/nO=[        U[        [        45      (       a  [        S U 5       5      (       d  [        S5      e[        U5      [        U5      :w  a  [        S5      eU R                  " [        40 UD6nUS   nUS   n[        X5       Hg  u  px[        U[        R                  5      (       a,  UR!                  5       R#                  5       R%                  5       n[&        R(                  " X‡U5        Mi     g )Nz/Please install `soundfile` to save audio files.c              3   óL   #   • U H  n[        U[        [        45      v •  M     g 7f©N)Ú
isinstancer   r   )Ú.0Úps     r!   Ú	<genexpr>Ú*CsmProcessor.save_audio.<locals>.<genexpr>³   s#   é € Ð@qÑepÐ`aÄÈAÔPSÔUYÈ{×A[ÐA[Òepùs   ‚"$zAInvalid input path. Please provide a string, or a list of stringsz5The number of audio and saving paths must be the samer&   r9   )r   ÚImportErrorr   rk   r   r   ÚlistÚtupleÚallÚ
ValueErrorÚlenÚ_merge_kwargsr$   rT   ÚtorchÚTensorÚcpuÚfloatÚnumpyÚsfÚwrite)	rP   re   rf   rg   Úoutput_kwargsr&   r9   Úaudio_valuerm   s	            r!   Ú
save_audioÚCsmProcessor.save_audio£   s	  € ô &×'Ñ'ÜÐOÓPÐPô # 5Ó)ˆô k¤C¬ ;×/Ñ/Ø&˜-‰KÜ˜[¬4´¨-×8Ñ8¼SÑ@qÑepÓ@q×=qÑ=qÜÐ`ÓaÐaäˆu‹:œ˜[Ó)Ó)ÜÐTÓUÐUà×*Ò*Üñ
àñ
ˆð % ^Ñ4ˆØ$ _Ñ5ˆä! %Ö5‰NˆKÜ˜+¤u§|¡|×4Ñ4Ø)Ÿo™oÓ/×5Ñ5Ó7×=Ñ=Ó?ÜHŠHQ ]Ö3ò 6r    ÚtextÚoutput_labelsÚdepth_decoder_labels_ratioc                 óÊ
  • U R                   " [        4SU R                  R                  0UD6nUS   nUS   nUS   n	U	R	                  SS5      n
U
S:w  a"  [        U R                  R                   S35      e[        U[        5      (       a  U/nO=[        U[        [        45      (       a  [        S	 U 5       5      (       d  [        S
5      eU Vs/ sH  o»R                  U R                  5      PM     nnSnUb  [        U5      n[!        U5      n[#        U5      S:”  a/  U[#        U5      :w  a   Uc  [        S5      e[        SU SU S35      eUGb  UR	                  S0 5      nU Vs/ sH"  oðR$                  " UR&                  S   40 UD6PM$     nnUR)                  5       n/ nU H¶  n/ nU R                  U;   a`  UR	                  S5      nU R                  U-  nUR+                  U5        UR-                  U R                  SS5      nU R                  U;   a  M`  SU;   a*  UR-                  SUR	                  S5      S5      nSU;   a  M*  UR+                  U5        M¸     UnU R                  " U40 UD6n0 nUR/                  U5        UGbñ  UR	                  SS5        / / nnSnU GH(  nUS:X  aM  UR+                  [0        R2                  " S5      5        UR+                  [4        R6                  " S/5      5        MW  UR+                  [0        R8                  " UUUU-     Vs/ sHB  n[        U[4        R:                  5      (       a  UR=                  5       R?                  5       OUPMD     snSS95        UR+                  [4        R6                  " UUUU-     Vs/ sH  nUR&                  S   PM     sn5      RA                  SS95        UU-  nGM+     U RB                  " U40 UD6nUR	                  SS5        UR/                  U5        [E        S U 5       5      nU Vs/ sH>  n[4        RF                  RH                  RK                  USUUR&                  S   -
  4SS9PM@     nn[4        RL                  " USS9US'   U(       a½  US   U RN                  :H  RQ                  5       n U R&                  S   n!US::  a.  [4        RR                  " U!5      S[U        U!SU-
  -  5       n"U U"   n#OU n#[4        RV                  " US   U RN                  :H  US   U RX                  :H  -  US   S5      n$SU$U#SS2S4   U#SS2S4   4'   U$US'   [[        UU
S 9$ s  snf s  snf s  snf s  snf s  snf )!aþ	  
Main method to prepare text(s) and audio to be fed as input to the model. This method forwards the `text`
arguments to PreTrainedTokenizerFast's [`~PreTrainedTokenizerFast.__call__`] to encode
the text. To prepare the audio, this method forwards the `audio` arguments to
EncodecFeatureExtractor's [`~EncodecFeatureExtractor.__call__`]. Please refer
to the docstring of the above two methods for more information.

Args:
    audio (`np.ndarray`, `torch.Tensor`, `list[np.ndarray]`, `list[torch.Tensor]`):
        The audio or batch of audio to be prepared. Each audio can be a NumPy array or PyTorch
        tensor.
    text (`str`, `list[str]`, `list[list[str]]`):
        The sequence or batch of sequences to be encoded. Each sequence can be a string or a list of strings
        (pretokenized string). If the sequences are provided as list of strings (pretokenized), you must set
        `is_split_into_words=True` (to lift the ambiguity with a batch of sequences).
    output_labels (bool, *optional*, default=False):
        Whether to return labels for training. Indices will be in `[config.audio_token_id, -100, -101]`.
        - `config.audio_token_id` indicates an audio frame (considering sequence length elements as frames)
        - `-100` will be ignored in the loss computation
        - `-101` indicates the audio frame will be used only for the backbone model (using the first codebook token as labels)
    depth_decoder_labels_ratio (float, *optional*, default=1.0):
        The ratio of audio frames to keep for the depth decoder labels.
    return_tensors (`str` or [`~utils.TensorType`], *optional*):
        If set, will return tensors of a particular framework. Acceptable values are:
            - `'tf'`: Return TensorFlow `tf.constant` objects.
            - `'pt'`: Return PyTorch `torch.Tensor` objects.
            - `'np'`: Return NumPy `np.ndarray` objects.
            - `'jax'`: Return JAX `jnp.ndarray` objects.
Returns:
    [`BatchFeature`]: A [`BatchFeature`] with the following fields:

    - **input_ids** -- List of token ids to be fed to a model. Returned when `text` is not `None`.
    - **input_values** -- List of audio values to be fed to a model. Returned when `audio` is not `None`.
    - **attention_mask** -- List of indices specifying which tokens should be attended to by the model (when
      `return_attention_mask=True` or if *"attention_mask"* is in `self.model_input_names` and if `text` is not
      `None`).
    - **labels** -- List of labels for the audio frames. Returned when `output_labels=True`.
Útokenizer_init_kwargsr<   r&   r=   r:   Nr;   z% only supports `return_tensors='pt'`.c              3   ó@   #   • U H  n[        U[        5      v •  M     g 7frj   )rk   r   )rl   Úts     r!   rn   Ú(CsmProcessor.__call__.<locals>.<genexpr>  s   é € Ð9[ÑVZÐQR¼*ÀQÌ×:LÐ:LÒVZùs   ‚zAInvalid input text. Please provide a string, or a list of stringsr   z@No audio were provided, but there are audio tokens in the promptz)The number of audio tokens in each text (z7) should be the same as the number of provided audios (z).r   éÿÿÿÿz<placeholder>r,   Úreturn_attention_mask)Úaxis)ÚdimÚpadding_maskc              3   ó<   #   • U H  oR                   S    v •  M     g7f)rŠ   N)Úshape)rl   Úcut_idxss     r!   rn   r‰   O  s   é € ÐRÑ=Q°Ÿ.™.¨Ö,Ò=Qùs   ‚)ÚvalueÚinput_values_cutoffsÚ	input_idsç      ð?iœÿÿÿi›ÿÿÿÚlabels)ÚdataÚtensor_type).rv   r$   rC   Úinit_kwargsÚpoprt   rQ   r   rk   r   rq   rr   rs   ÚcountrG   r   ru   Úsumrc   r   ÚcopyÚappendÚreplaceÚupdateÚnpÚzerosrw   ÚtensorÚconcatenaterx   ry   r{   ÚcumsumrB   ÚmaxÚnnÚ
functionalÚpadÚstackrL   ÚnonzeroÚrandpermÚintÚwhererM   r   )%rP   r‚   re   rƒ   r„   rg   r~   r<   r&   r=   r:   rˆ   Ún_audio_in_textÚn_audior   Úaudio_arrayÚnum_audio_tokens_listÚnum_audio_tokens_list_copyÚexpanded_textÚsampleÚreplace_strÚnum_audio_tokensÚexpanded_audio_tokenÚencodingr—   Úconcatenated_audior“   ÚoffsetÚelÚaudio_inputsÚmax_lenr‘   Úaudio_frame_idxsÚn_audio_framesÚ	rand_idxsÚskip_frames_idxsr–   s%                                        r!   Ú__call__ÚCsmProcessor.__call__Å   s›  € ð^ ×*Ò*Üñ
à"&§.¡.×"<Ñ"<ð
ð ñ
ˆð $ MÑ2ˆØ$ ^Ñ4ˆØ% oÑ6ˆà&×*Ñ*Ð+;¸TÓBˆØ˜TÓ!Ü §¡× 7Ñ 7Ð8Ð8]Ð^Ó_Ð_ädœC× Ñ Ø6‰DÜ˜T¤D¬% =×1Ñ1´cÑ9[ÑVZÓ9[×6[Ñ6[ÜÐ`ÓaÐaÙ>BÓC¹d¸Ÿ7™7 4×#3Ñ#3Ö4¹dˆÐCàˆØÑÜ& uÓ-ˆEÜ˜%“jˆGäˆÓ !Ó#¨´3°Ó3GÓ(GØ‰}Ü Ð!cÓdÐdä Ø?ÀÐ?Pð Q2Ø29°¸"ð>óð ð
 ÒØ$0×$4Ñ$4Ð5LÈbÓ$QÐ!álqó%ÙlqÐ]h×(Ò(¨×):Ñ):¸2Ñ)>ÑXÐBWÔXÑlqð "ð %ð *?×)CÑ)CÓ)EÐ&ð ˆMÛØ Ø×&Ñ&¨&Ó0Ø'A×'EÑ'EÀaÓ'HÐ$Ø+/×+;Ñ+;Ð>NÑ+NÐ(à×&Ñ&Ð';Ô<Ø#Ÿ^™^¨D×,<Ñ,<¸oÈqÓQFð ×&Ñ&¨&Õ0ð &¨Ó/Ø#Ÿ^™^¨O¸[¿_¹_ÈQÓ=OÐQRÓSFð &¨Õ/à×$Ñ$ VÖ,ñ ð !ˆDà—>’> $Ñ6¨+Ñ6ˆØˆØ‰HÔàÒØ×ÑÐ4°dÔ;à79¸2Ð 4ÐØˆFÜ*Ø˜a“<Ø&×-Ñ-¬b¯hªh°q«kÔ:Ø(×/Ñ/´·²¸b¸TÓ0BÖCà&×-Ñ-ÜŸšð +0°¸À'Ñ9IÑ*Jóá*J Bô 5?¸rÄ5Ç<Á<×4PÑ4P §¡£§¡Ô 0ÐVXÒ XÙ*Jñð "$ñôð )×/Ñ/ÜŸš¸UÀ6ÈFÐU\ÑL\Ñ=]Ó%^Ñ=]°r b§h¡h¨r¤lÑ=]Ñ%^Ó_×fÑfÐkmÐfÐnôð ˜gÑ%“Fñ# +ð&  ×1Ò1Ð2DÑUÈÑUˆLØ×Ñ˜^¨TÔ2ØK‰K˜Ô%ô ÑRÑ=QÓRÓRˆGñ !5ó$á 4Hô —‘×#Ñ#×'Ñ'¨°1°gÀÇÁÈrÑ@RÑ6RÐ2SÐ[]Ð'Ó^Ù 4ð !ð $ô ,1¯;ª;Ð7KÐQRÑ+SˆDÐ'Ñ(æØ $ [Ñ 1°T×5HÑ5HÑ H×QÑQÓSÐØ-×3Ñ3°AÑ6ˆNà)¨SÓ0Ü!ŸNšN¨>Ó:Ð;s¼SÀÐSTÐWqÑSqÑArÓ=sÐt	Ø#3°IÑ#>Ñ à#3Ð ä—[’[ØkÑ" d×&9Ñ&9Ñ9¸dÀ;Ñ>OÐSW×SjÑSjÑ>jÑkØ[Ñ!ØóˆFð
 FJˆFÐ#¢A q DÑ)Ð+;ºA¸q¸DÑ+AÐAÑBà#ˆD‰Nä °>ÑBÐBùòG Dùò$%ùòLùò &_ùò$s    Ã#UÅ)(UÌ#AUÎUÐ AU )rH   rM   rG   rL   rj   )NNNN)NFr•   )r   r   r   r   Ú__doc__Ú
attributesÚfeature_extractor_classÚtokenizer_classrO   Ústaticmethodrc   r
   r   r   r   rq   r   r$   r€   r   r   r   Úboolrz   rÃ   r   Ú__classcell__)rQ   s   @r!   r@   r@   >   s  ø† ñ!ðF & {Ð3€JØ7ÐØ/€Oð ÷	Tð, ó$ó ð$ðL 4àð 4ð ˜3  d¨5°°d°Ñ+;Ñ&<Ð<Ñ=ð 4ð Ð+Ñ,ô	 4ðJ '+Ø(-Ø69ñdCàu˜YÐ(9¸4À	¹?ÈDÐQbÑLcÐcÑdÑeðdCð ˜
Ñ#ðdCð   ‘~ð	dCð
 %-¨U¡OðdCð Ð+Ñ,÷dCó dCr    r@   ) rU   Úpathlibr   Útypingr   r   r   r{   r¡   Úutilsr   r	   rw   Ú	soundfiler|   Úaudio_utilsr
   r   Úfeature_extraction_utilsr   Úprocessing_utilsr   r   r   r   Útokenization_utils_baser   r   r   r$   r@   Ú__all__r   r    r!   Ú<module>rÕ      sz   ðó  Ý ß 'Ñ 'ã ç ?ñ ×ÑÛá×ÑÛç 9Ý 4ß UÓ Uß Cô4[¨ò 4ôÐ)°ò ô*kC>ô kCð\	 Ð
r    