ó <±hx7ãóÂ•SSKrSSKJr SSKJrJr SSKrSSKJ r J r Jr SSKJ r SSKJr \ R "\5rSrS S 0r/SQr\"SS 9"SS\55rS/rg)éN)Úcopyfile)ÚAnyÚOptionalé)Ú AddedTokenÚ BatchEncodingÚPreTrainedTokenizer)Úlogging)Úrequiresuâ–Ú vocab_filezsentencepiece.bpe.model)Úar_ARÚcs_CZÚde_DEÚen_XXÚes_XXÚet_EEÚfi_FIÚfr_XXÚgu_INÚhi_INÚit_ITÚja_XXÚkk_KZÚko_KRÚlt_LTÚlv_LVÚmy_MMÚne_NPÚnl_XXÚro_ROÚru_RUÚsi_LKÚtr_TRÚvi_VNÚzh_CN)Ú sentencepiece)Úbackendscó€^•\rSrSr%Sr\rSS/r/r\ \ \S'/r\ \ \S'S-S\ \\\44U4S jjjrS rSr\S5r\S \4Sj5r\R.S\S S4Sj5rS.S\ \ S\ \ \ S\S \ \ 4U4SjjjrS/S\ \ S\ \ \ S \ \ 4SjjrS/S\ \ S\ \ \ S \ \ 4SjjrS\S\ \S\ \4SjrSrS\S \ \4SjrSrSr S r!S/S!\S"\ \S \"\4S#jjr#S0S$\ \S\S%\ \ \S\S \$4 U4S&jjjr%S'r&S(r'S1S)jr(S*\S S4S+jr)S,r*U=r+$)2ÚMBartTokenizeré%u Construct an MBART tokenizer. Adapted from [`RobertaTokenizer`] and [`XLNetTokenizer`]. Based on [SentencePiece](https://github.com/google/sentencepiece). The tokenization method is ` ` for source language documents, and ` ` for target language documents. Examples: ```python >>> from transformers import MBartTokenizer >>> tokenizer = MBartTokenizer.from_pretrained("facebook/mbart-large-en-ro", src_lang="en_XX", tgt_lang="ro_RO") >>> example_english_phrase = " UN Chief Says There Is No Military Solution in Syria" >>> expected_translation_romanian = "Åžeful ONU declarÄƒ cÄƒ nu existÄƒ o soluÅ£ie militarÄƒ Ã®n Siria" >>> inputs = tokenizer(example_english_phrase, text_target=expected_translation_romanian, return_tensors="pt") ```Ú input_idsÚattention_maskÚ prefix_tokensÚ suffix_tokensNÚsp_model_kwargscó:>•[U[5(a[USSS9OUnUc0OUUl[R "S0URD6UlURR[U55 XlSSSSS.Ul SUl [UR5Ul[[5VVs0sH#unnUURU-UR-_M% snnUlURR!5VVs0sH unnUU_M snnUl[UR5[UR5-UR-URS 'URR%UR5 URR!5VVs0sH unnUU_M snnUl[)URR+55nU b)UR-U Vs/sH nUU;dMUPM sn5 [.TU]`"SUUUUUUUSU UUURS .UD6 U bU OSUlURUR2UlX°lUR9UR25 gs snnfs snnfs snnfs snf) NTF)ÚlstripÚ normalizedréér)ú~~úú~~úú)Ú bos_tokenÚ eos_tokenÚ unk_tokenÚ sep_tokenÚ cls_tokenÚ pad_tokenÚ mask_tokenÚtokenizer_fileÚsrc_langÚtgt_langÚadditional_special_tokensr/r©)Ú isinstanceÚstrrr/ÚspmÚSentencePieceProcessorÚsp_modelÚLoadrÚfairseq_tokens_to_idsÚfairseq_offsetÚlenÚ sp_model_sizeÚ enumerateÚFAIRSEQ_LANGUAGE_CODESÚlang_code_to_idÚitemsÚid_to_lang_codeÚupdateÚfairseq_ids_to_tokensÚlistÚkeysÚextendÚsuperÚ__init__Ú _src_langÚcur_lang_code_idrCÚset_src_lang_special_tokens)Úselfrr:r;r=r>r<r?r@rArBrCr/rDÚkwargsÚiÚcodeÚkÚvÚ_additional_special_tokensÚtÚ __class__s €Úd/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/mbart/tokenization_mbart.pyr[ÚMBartTokenizer.__init__Aszø€ô&FPÐPZÔ\_×E`ÑE`ŒJz¨$¸5ÒAÐfpð ð&5Ñ%<™rÀ/ˆÔä×2Ò2ÑJ°T×5IÑ5IÑJˆŒ Ø ‰ ×Ñœ3˜z›?Ô+Ø$Œð./¸ÀAÐPQÑ%RˆÔ"ð ˆÔä §¡Ó/ˆÔäNWÔXnÔNoô ÙNoÁ7À1ÀdˆD$×$Ñ$ qÑ(¨4×+>Ñ+>Ñ>Ò>ÑNoò ˆÔð26×1EÑ1E×1KÑ1KÔ1MÔNÑ1M©¨¨A 1¢Ñ1MÒNˆÔÜ/2°4·=±=Ó/AÄCÈ×H\ÑH\ÓD]Ñ/]Ð`d×`sÑ`sÑ/sˆ×"Ñ" 8Ñ,à×"Ñ"×)Ñ)¨$×*>Ñ*>Ô?Ø7;×7QÑ7Q×7WÑ7WÔ7YÔ%ZÑ7Y©t¨q°! a¨¢dÑ7YÒ%ZˆÔ"Ü%)¨$×*>Ñ*>×*CÑ*CÓ*EÓ%FÐ"à$Ñ0à&×-Ñ-Ù5Ó]Ñ5q¸ÐB\Ñ9\—Ñ5Ñ]ô ô ‰Òð ØØØØØØØ!ØØØØ&@Ø ×0Ñ0ñ ðò ð &.Ñ%9™¸wˆŒØ $× 4Ñ 4°T·^±^Ñ DˆÔØ Œ Ø×(Ñ(¨¯©Õ8ùóG ùó Oùó&[ùò^sÂ>)JÄ JÆ,JÇ9 JÈJcó~•URR5nSUS'URR5US'U$)NrJÚsp_model_proto)Ú__dict__ÚcopyrJÚserialized_model_proto)r_Ústates rhÚ__getstate__ÚMBartTokenizer.__getstate__s;€Ø— ‘ ×"Ñ"Ó$ˆØ ˆˆjÑØ"&§-¡-×"FÑ"FÓ"HˆÐÑØˆócóÔ•Xl[US5(d0Ul[R"S0URD6UlUR R UR5 g)Nr/rE)rlÚhasattrr/rHrIrJÚLoadFromSerializedProtork)r_Úds rhÚ__setstate__ÚMBartTokenizer.__setstate__•sR€ØŒ ôtÐ.×/Ñ/Ø#%ˆDÔ ä×2Ò2ÑJ°T×5IÑ5IÑJˆŒ Ø ‰ ×-Ñ-¨d×.AÑ.AÕBrrcóx•[UR5[UR5-UR-S-$)Nr3)rNrJrRrM©r_s rhÚ vocab_sizeÚMBartTokenizer.vocab_sizeŸs2€ä4—=‘=Ó!¤C¨×(<Ñ(<Ó$=Ñ=À×@SÑ@SÑSÐVWÑWÐWrrÚreturncó•UR$©N)r\rzs rhrBÚMBartTokenizer.src_lang£s€à~‰~ÐrrÚnew_src_langcóF•XlURUR5 gr)r\r^)r_rs rhrBr€§s€à%ŒØ×(Ñ(¨¯©Õ8rrÚtoken_ids_0Útoken_ids_1Úalready_has_special_tokenscó>•U(a[TU]XSS9$S/[UR5-nS/[UR5-nUcUS/[U5--U-$US/[U5--S/[U5--U-$)ad Retrieve sequence ids from a token list that has no special tokens added. This method is called when adding special tokens using the tokenizer `prepare_for_model` method. Args: token_ids_0 (`list[int]`): List of IDs. token_ids_1 (`list[int]`, *optional*): Optional second list of IDs for sequence pairs. already_has_special_tokens (`bool`, *optional*, defaults to `False`): Whether or not the token list is already formatted with special tokens for the model. Returns: `list[int]`: A list of integers in the range [0, 1]: 1 for a special token, 0 for a sequence token. T)rƒr„r…r3r)rZÚget_special_tokens_maskrNr-r.)r_rƒr„r…Úprefix_onesÚsuffix_onesrgs €rhr‡Ú&MBartTokenizer.get_special_tokens_mask¬s¥ø€ö&&Ü‘7Ñ2Ø'Ð]að3ðð ðcœC × 2Ñ 2Ó3Ñ3ˆØcœC × 2Ñ 2Ó3Ñ3ˆØÑØ 1 #¬¨KÓ(8Ñ"8Ñ9¸KÑGÐGØ˜q˜c¤C¨Ó$4Ñ4Ñ5¸!¸¼sÀ;Ó?OÑ9OÑPÐS^Ñ^Ð^rrcó~•UcURU-UR-$URU-U-UR-$)aò Build model inputs from a sequence or a pair of sequence for sequence classification tasks by concatenating and adding special tokens. An MBART sequence has the following format, where `X` represents the sequence: - `input_ids` (for encoder) `X [eos, src_lang_code]` - `decoder_input_ids`: (for decoder) `X [eos, tgt_lang_code]` BOS is never used. Pairs of sequences are not the expected use case, but they will be handled without a separator. Args: token_ids_0 (`list[int]`): List of IDs to which the special tokens will be added. token_ids_1 (`list[int]`, *optional*): Optional second list of IDs for sequence pairs. Returns: `list[int]`: List of [input IDs](../glossary#input-ids) with the appropriate special tokens. )r-r.)r_rƒr„s rhÚ build_inputs_with_special_tokensÚ/MBartTokenizer.build_inputs_with_special_tokensÊsG€ð,ÑØ×%Ñ%¨Ñ3°d×6HÑ6HÑHÐHà×!Ñ! KÑ/°+Ñ=À×@RÑ@RÑRÐRrrcóž•UR/nUR/nUc[XA-U-5S/-$[XA-U-U-U-U-5S/-$)a{ Create a mask from the two sequences passed to be used in a sequence-pair classification task. mBART does not make use of token type ids, therefore a list of zeros is returned. Args: token_ids_0 (`list[int]`): List of IDs. token_ids_1 (`list[int]`, *optional*): Optional second list of IDs for sequence pairs. Returns: `list[int]`: List of zeros. r)Úsep_token_idÚcls_token_idrN)r_rƒr„ÚsepÚclss rhÚ$create_token_type_ids_from_sequencesÚ3MBartTokenizer.create_token_type_ids_from_sequencesåsi€ð$× Ñ Ð!ˆØ× Ñ Ð!ˆàÑÜsÑ(¨3Ñ.Ó/°1°#Ñ5Ð5Ü3Ñ$ sÑ*¨SÑ0°;Ñ>ÀÑDÓEÈÈÑKÐKrrÚreturn_tensorsrBrCcóv•UbUc[S5eX0lU"U4SUS.UD6nURU5nXvS'U$)zIUsed by translation pipeline, to prepare inputs for the generate functionzATranslation requires a `src_lang` and a `tgt_lang` for this modelT)Úadd_special_tokensr•Úforced_bos_token_id)Ú ValueErrorrBÚconvert_tokens_to_ids)r_Ú raw_inputsr•rBrCÚextra_kwargsÚinputsÚtgt_lang_ids rhÚ_build_translation_inputsÚ(MBartTokenizer._build_translation_inputsþsU€ðÑ˜xÑ/ÜÐ`ÓaÐaØ Œ ÙjÐi°TÈ.ÑiÐ\hÑiˆØ×0Ñ0°Ó:ˆØ(3Ð$Ñ%Øˆ rrcó¬•[UR5Vs0sHoRU5U_M nnURUR5 U$s snfr)Úranger{Úconvert_ids_to_tokensrUÚadded_tokens_encoder)r_raÚvocabs rhÚ get_vocabÚMBartTokenizer.get_vocab sL€Ü;@ÀÇÁÔ;QÓRÑ;Q°a×+Ñ+¨AÓ.°Ò1Ñ;QˆÐRØ ‰T×.Ñ.Ô/ØˆùòSs˜AÚtextcó>•URRU[S9$)N)Úout_type)rJÚencoderG)r_r¨s rhÚ _tokenizeÚMBartTokenizer._tokenizes€Ø}‰}×#Ñ# D´3Ð#Ð7Ð7rrcó¶•XR;aURU$URRU5nU(aX R-$UR$)z0Converts a token (str) in an id using the vocab.)rLrJÚ PieceToIdrMÚunk_token_id)r_ÚtokenÚspm_ids rhÚ_convert_token_to_idÚ#MBartTokenizer._convert_token_to_idsQ€à×.Ñ.Ó.Ø×-Ñ-¨eÑ4Ð4Ø—‘×(Ñ(¨Ó/ˆö06ˆv×+Ñ+Ñ+ÐL¸4×;LÑ;LÐLrrcóŒ•XR;aURU$URRXR- 5$)z=Converts an index (integer) in a token (str) using the vocab.)rVrJÚ IdToPiecerM)r_Úindexs rhÚ_convert_id_to_tokenÚ#MBartTokenizer._convert_id_to_tokens=€à×.Ñ.Ó.Ø×-Ñ-¨eÑ4Ð4Ø}‰}×&Ñ& u×/BÑ/BÑ'BÓCÐCrrcól•SRU5R[S5R5nU$)zIConverts a sequence of tokens (strings for sub-words) in a single string.ÚÚ )ÚjoinÚreplaceÚSPIECE_UNDERLINEÚstrip)r_ÚtokensÚ out_strings rhÚconvert_tokens_to_stringÚ'MBartTokenizer.convert_tokens_to_string!s,€à—W‘W˜V“_×,Ñ,Ô-=¸sÓC×IÑIÓKˆ ØÐrrÚsave_directoryÚfilename_prefixcó•[RRU5(d[R SUS35 g[RRX(aUS-OS[S-5n[RRUR5[RRU5:waG[RRUR5(a[URU5 U4$[RRUR5(dC[US5nURR5nURU5 SSS5 U4$U4$!,(df U4$=f)NzVocabulary path (z) should be a directoryÚ-r»rÚwb)ÚosÚpathÚisdirÚloggerÚerrorr½ÚVOCAB_FILES_NAMESÚabspathrÚisfilerÚopenrJrnÚwrite)r_rÅrÆÚout_vocab_fileÚfiÚcontent_spiece_models rhÚsave_vocabularyÚMBartTokenizer.save_vocabulary&s,€Üw‰w}‰}˜^×,Ñ,ÜL‰LÐ,¨^Ð,<Ð>•X lX@l[TU]"X40UD6$r)rBrCrZÚprepare_seq2seq_batch)r_rÙrBrÚrCr`rgs €rhrÜÚ$MBartTokenizer.prepare_seq2seq_batch7s$ø€ð!Œ Ø Œ Ü‰wÒ,¨YÑLÀVÑLÐLrrcó8•URUR5$r)r^rBrzs rhÚ_switch_to_input_modeÚ$MBartTokenizer._switch_to_input_modeCó€Ø×/Ñ/°· ± Ó>Ð>rrcó8•URUR5$r)Úset_tgt_lang_special_tokensrCrzs rhÚ_switch_to_target_modeÚ%MBartTokenizer._switch_to_target_modeFrárrcót•URUUl/UlURUR/Ulg)z_Reset the special tokens to the source lang setting. No prefix and suffix=[eos, src_lang_code].N©rRÚ cur_lang_coder-Úeos_token_idr.)r_rBs rhr^Ú*MBartTokenizer.set_src_lang_special_tokensIs6€à!×1Ñ1°(Ñ;ˆÔØˆÔØ"×/Ñ/°×1CÑ1CÐDˆÕrrÚlangcót•URUUl/UlURUR/Ulg)zcReset the special tokens to the target language setting. No prefix and suffix=[eos, tgt_lang_code].Nrç)r_rës rhrãÚ*MBartTokenizer.set_tgt_lang_special_tokensOs6€à!×1Ñ1°$Ñ7ˆÔØˆÔØ"×/Ñ/°×1CÑ1CÐDˆÕrr)rlr\rèr]rVrMrLrTrRr-rJr/rOrBr.rCr)r5r7r7r5r8r6r9NNNNN)NFr)rNr )r}N),Ú__name__Ú __module__Ú__qualname__Ú__firstlineno__Ú__doc__rÏÚvocab_files_namesÚmodel_input_namesr-rWÚintÚ__annotations__r.rÚdictrGrr[rprwÚpropertyr{rBÚsetterÚboolr‡rŒr“rŸr¦r¬r³r¸rÃÚtupler×rrÜrßrär^rãÚ__static_attributes__Ú __classcell__)rgs@rhr)r)%sø‡ñð(*ÐØ$Ð&6Ð7Ðà!€M4˜‘9Ó!Ø!€M4˜‘9Ó!ð ØØØØØØØØØØ48Ø"&ñL9ð" $ s¨C x¡.Ñ1÷L9ðL9ò\òCðñXóðXðð˜#óóðð‡__ð9 Sð9¨Tó9óð9ð sxñ_Ø ™9ð_Ø3;¸DÀ¹IÑ3Fð_Økoð_à ˆc‰÷_ð_ð>JNñSØ ™9ðSØ3;¸DÀ¹IÑ3FðSà ˆc‰õSð8JNñLØ ™9ðLØ3;¸DÀ¹IÑ3FðLà ˆc‰õLð2 Ø*-ð Ø9AÀ#¹ð ØRZÐ[^ÑR_ô òð 8˜cð8 d¨3¡iô8òMòDòñ !¨cð!ÀHÈSÁMð!Ð]bÐcfÑ]gõ!ð( Ø)-Øñ Mà˜‘9ð Mðð Mð˜D ™IÑ&ð Mð ð Mð ÷ Mð Mò?ò?ôEðE°ðE¸÷EòErrr))rÊÚshutilrÚtypingrrr&rHÚtokenization_utilsrrr Úutilsr Úutils.import_utilsrÚ get_loggerrîrÍr¿rÏrQr)Ú__all__rErrrhÚrsðó Ýß ãçPÑPÝÝ*ð × Ò ˜HÓ %€àÐà!Ð#<Ð=Ðò{Ðñ Ð%Ñ&ômEÐ(ómEó'ðmEð` Ð rr