ó <±h&ãóÎ•SrSSKrSSKrSSKJr SSKJrJr \"5(aSSKrSSK J r SSKJr \R"\5rSS 0rS r"SS5r"S S\ 5rS/rg)z Tokenization classes for CPMAnt.éN)ÚOptional)Úis_jieba_availableÚrequires_backendsé)ÚPreTrainedTokenizer)ÚloggingÚ vocab_filez vocab.txtcóì•[R"5n[USSS9nUR5nSSS5 [ W5HupEURS5nXAU'M U$!,(df N9=f)z*Loads a vocabulary file into a dictionary.Úrúutf-8©ÚencodingNÚ )ÚcollectionsÚOrderedDictÚopenÚ readlinesÚ enumerateÚrstrip)r ÚvocabÚreaderÚtokensÚindexÚtokens Úf/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/cpmant/tokenization_cpmant.pyÚ load_vocabr$sg€ä×#Ò#Ó%€EÜ ˆj˜#¨Ò 0°FØ×!Ñ!Ó#ˆ÷ 1ä! &Ö)‰ˆØ—‘˜TÓ"ˆØˆe‹ñ*ð€L÷ 1Õ 0ús¡A%Á% A3có$•\rSrSrSSjrSrSrg)ÚWordpieceTokenizeré/có(•XlX lX0lg©N)rÚ unk_tokenÚmax_input_chars_per_word)Úselfrr"r#s rÚ__init__ÚWordpieceTokenizer.__init__0s€ØŒ Ø"ŒØ(@Õ%ócó¤•[U5n[U5UR:”a UR/$Sn/nU[U5:a‹[U5nSnX5:a1SR X#U5nXpR ;aUnOUS-nX5:aM1Uc!UR UR5 US- nOUR U5 UnU[U5:aM‹U$)NrÚé)ÚlistÚlenr#r"ÚjoinrÚappend)r$rÚcharsÚstartÚ sub_tokensÚendÚ cur_substrÚsubstrs rÚtokenizeÚWordpieceTokenizer.tokenize5sÔ€ÜU“ˆÜˆu‹:˜×5Ñ5Ó5Ø—N‘NÐ#Ð#àˆØˆ Ø”c˜%“jÓ Üe“*ˆCØˆJØ“+ØŸ™ ¨SÐ!1Ó2ØŸZ™ZÓ'Ø!'JØØq‘ð•+ðÑ!Ø×!Ñ! $§.¡.Ô1Ø˜‘ ‘à×!Ñ! *Ô-Øð”c˜%“jÕ ð Ðr')r#r"rN)úéÈ)Ú__name__Ú __module__Ú__qualname__Ú__firstlineno__r%r5Ú__static_attributes__©r'rrr/s †ôAõ r'rc ót^•\rSrSrSr\rSS/rSrSU4Sjjr \ S5r\ S5r\ S 5r \ S \4Sj5rSrS rU4SjrSrS\\S \4SjrSrSrSS\S\\S \\4SjjrSS\\S\\\S \\4SjjrSS\\S\\\S\S \\4U4SjjjrSrU=r $) ÚCpmAntTokenizeréOa^ Construct a CPMAnt tokenizer. Based on byte-level Byte-Pair-Encoding. Args: vocab_file (`str`): Path to the vocabulary file. bod_token (`str`, *optional*, defaults to `""`): The beginning of document token. eod_token (`str`, *optional*, defaults to `""`): The end of document token. bos_token (`str`, *optional*, defaults to `"~~"`): The beginning of sequence token. eos_token (`str`, *optional*, defaults to `"~~"`): The end of sequence token. pad_token (`str`, *optional*, defaults to `""`): The token used for padding. unk_token (`str`, *optional*, defaults to `""`): The unknown token. line_token (`str`, *optional*, defaults to `""`): The line token. space_token (`str`, *optional*, defaults to `""`): The space token. Ú input_idsÚattention_maskFc óL>•[US/5 X lX0l[U5UlURU URS'URUURS'URU URU [ R"[URR5SS95UlURR5VV s0sHupÍXÜ_M sn nUl [URUS9Ul[TU]4"SUUUUUUUU U S. UD6 gs sn nf) NÚjiebaÚ rcó•US$©Nr*r>©Úxs rÚÚ*CpmAntTokenizer.__init__..„ó€ÐZ[Ð\]ÒZ^r'©Úkey)rr") Ú bod_tokenÚ eod_tokenÚ bos_tokenÚ eos_tokenÚ pad_tokenr"Ú line_tokenÚspace_tokenÚpadding_sider>)rrPrQrÚencoderrrÚsortedÚitemsÚdecoderrÚwordpiece_tokenizerÚsuperr%)r$r rPrQrRrSrTr"rUrVrWÚkwargsÚkÚvÚ __class__s €rr%ÚCpmAntTokenizer.__init__ls ø€ô ˜$ Ô*Ø"ŒØ"ŒÜ! *Ó-ˆŒØ ŸL™L¨Ñ5ˆ‰SÑØ!Ÿ\™\¨*Ñ5ˆ‰TÑàL‰L˜Ð%ØL‰L˜Ð$ä"×.Ò.¬v°d·l±l×6HÑ6HÓ6JÑP^Ñ/_Ó`ˆŒØ)-¯©×);Ñ);Ô)=Ô>Ñ)=¡ ˜šÑ)=Ò>ˆŒä#5¸D¿L¹LÐT]Ñ#^ˆÔ ä ‰Òð ØØØØØØØ!Ø#Ø%ñ ðó ùó ?sÃ D có4•URUR$r!)rXrP©r$s rÚbod_token_idÚCpmAntTokenizer.bod_token_id–ó€à|‰|˜DŸN™NÑ+Ð+r'có4•URUR$r!)rXrQrds rÚeod_token_idÚCpmAntTokenizer.eod_token_idšrgr'có •URS$)Nr©rXrds rÚ newline_idÚCpmAntTokenizer.newline_idžs€à|‰|˜DÑ!Ð!r'Úreturncó,•[UR5$r!)r,rXrds rÚ vocab_sizeÚCpmAntTokenizer.vocab_size¢s€ä4—<‘<Ó Ð r'cóB•[UR40URD6$r!)ÚdictrXÚadded_tokens_encoderrds rÚ get_vocabÚCpmAntTokenizer.get_vocab¦s€ÜD—L‘LÑ> D×$=Ñ$=Ñ>Ð>r'có–•/n[R"USS9H-nURURR U55 M/ U$)zTokenize a string.F)Úcut_all)rEÚcutÚextendr\r5)r$ÚtextÚ output_tokensrJs rÚ _tokenizeÚCpmAntTokenizer._tokenize©sA€àˆ Ü—’˜4¨Ô/ˆAØ× Ñ ×!9Ñ!9×!BÑ!BÀ1Ó!EÖFñ0àÐr'cóò>•UVs/sHo3S:¼dM UPM nnUVs/sH8oDUR:wdMX@R:wdM%X@R:wdM6UPM: nn[TU]"U40UD6$s snfs snf)zDecode ids into a string.r)Úpad_token_idÚeos_token_idÚbos_token_idr]Ú_decode)r$Ú token_idsr^ÚirJras €rr„ÚCpmAntTokenizer._decode°s}ø€á )Ó4¡ ˜1°!©V—Q¡ ˆ Ð4á ó Ù !¨×):Ñ):Ñ$:‹A¸q×DUÑDUÑ?U‹AÐZ[×_pÑ_pÑZpA‘yð ð ô‰wŠ˜yÑ3¨FÑ3Ð3ùò 5ùò s †A/’A/žA4´ A4Á A4ÁA4có•XR;$r!rl©r$rs rÚcheckÚCpmAntTokenizer.check¸s€ØŸ™Ñ$Ð$r'rcó$•SRU5$)Nr))r-)r$rs rÚconvert_tokens_to_stringÚ(CpmAntTokenizer.convert_tokens_to_string»s€Øw‰wv‹Ðr'có~•URRXRRUR55$)z0Converts a token (str) in an id using the vocab.)rXÚgetr"r‰s rÚ_convert_token_to_idÚ$CpmAntTokenizer._convert_token_to_id¾s*€à|‰|×Ñ §|¡|×'7Ñ'7¸¿¹Ó'GÓHÐHr'cóL•URRXR5$)z=Converts an index (integer) in a token (str) using the vocab.)r[rr")r$rs rÚ_convert_id_to_tokenÚ$CpmAntTokenizer._convert_id_to_tokenÂs€à|‰|×Ñ §~¡~Ó6Ð6r'Úsave_directoryÚfilename_prefixcóD•[RRU5(a6[RRX(aUS-OS[S-5nOU(aUS-OSU-nSnSUR ;a)UR SUR S'UR S SUR ;a)UR SUR S'UR S [R"[UR R5S S 95Ul[USSS 9nUR R5H>upgXG:wa[RSUS35 UnURUS-5 US- nM@ SSS5 U4$!,(df U4$=f)NÚ-r)r rrFúrúcó•US$rHr>rIs rrKÚ1CpmAntTokenizer.save_vocabulary..ÔrMr'rNÚwrr zSaving vocabulary to z\: vocabulary indices are not consecutive. Please check that the vocabulary is not corrupted!r*)ÚosÚpathÚisdirr-ÚVOCAB_FILES_NAMESrXrrrYrZrÚloggerÚwarningÚwrite)r$r–r—r rÚwriterrÚtoken_indexs rÚsave_vocabularyÚCpmAntTokenizer.save_vocabularyÆsp€Ü 7‰7=‰=˜×(Ñ(ÜŸ™Ÿ™Ø½/ °3Ò!6ÈrÔUfÐgsÑUtÑ tó‰Jö4C˜/¨CÒ/ÈÈnÑ\ˆJØˆØ$—,‘,ÓØ#'§<¡<°Ñ#4ˆDL‰L˜Ñ Ø—‘˜SÐ!Ø4—<‘<ÓØ#'§<¡<°Ñ#5ˆDL‰L˜Ñ Ø—‘˜TÐ"Ü"×.Ò.¬v°d·l±l×6HÑ6HÓ6JÑP^Ñ/_Ó`ˆŒÜ *˜c¨GÒ 4¸Ø&*§l¡l×&8Ñ&8Ö&:Ñ"ØÓ'Ü—N‘NØ/° ¨|ð•U(a[TU]XSS9$Ub'S/S/[U5--S/-S/[U5--$S/S/[U5--$)aT Retrieve sequence ids from a token list that has no special tokens added. This method is called when adding special tokens using the tokenizer `prepare_for_model` method. Args: token_ids_0 (`list[int]`): List of IDs. token_ids_1 (`list[int]`, *optional*): Optional second list of IDs for sequence pairs. already_has_special_tokens (`bool`, *optional*, defaults to `False`): Whether or not the token list is already formatted with special tokens for the model. Returns: `list[int]`: A list of integers in the range [0, 1]: 1 for a special token, 0 for a sequence token. T)rªr«r¯r*r)r]Úget_special_tokens_maskr,)r$rªr«r¯ras €rr±Ú'CpmAntTokenizer.get_special_tokens_maskõswø€ö"&Ü‘7Ñ2Ø'Ð]að3ðð ðÑ"Ø3˜1˜#¤ KÓ 0Ñ0Ñ1°Q°CÑ7¸A¸3ÄÀ[ÓAQÑ;QÑRÐRØˆsqcœC Ó,Ñ,Ñ-Ð-r')rPr[rXrQr\) zzzzzr7r›ršÚleftr!)NF)!r9r:r;r<Ú__doc__r¢Úvocab_files_namesÚmodel_input_namesÚadd_prefix_spacer%ÚpropertyrerirmÚintrqrvr~r„rŠr+Ústrrr‘r”rÚtupler¨rÚboolr±r=Ú __classcell__)ras@rr@r@Osrø†ñð0*ÐØ$Ð&6Ð7ÐØÐð ØØØØØØØØ÷( ðTñ,óð,ðñ,óð,ðñ"óð"ðð!˜Có!óð!ò?òõ4ò%ð¨t°C©yð¸SôòIò7ñ¨cðÀHÈSÁMðÐ]bÐcfÑ]gõð8JNñUØ ™9ðUØ3;¸DÀ¹IÑ3FðUà ˆc‰õUð*sxñ.Ø ™9ð.Ø3;¸DÀ¹IÑ3Fð.Økoð.à ˆc‰÷.ö.r'r@)r´rrŸÚtypingrÚtransformers.utilsrrrEÚtokenization_utilsrÚutilsrÚ get_loggerr9r£r¢rrr@Ú__all__r>r'rÚrÄsqðñ'ãÛ ÝçDñ×ÑÛå5Ýð × Ò ˜HÓ %€à! ;Ð/Ðò÷ñô@~.Ð)ô~.ðBÐ r'