ó
    <±h¡  ã                   óŽ  • S r SSKrSSKrSSKrSSKJr  SSKJr  SSKJ	r	J
r
Jr  SSKJr  SSKJr  SSKJr  SSKJr  SS	KJrJrJrJr  S
SKJr  S
SKJr  S
SKJ r   S
SK!J"r"  S
SK#J$r$J%r%J&r&J'r'J(r(J)r)J*r*J+r+J,r,J-r-  S
SK.J/r/J0r0J1r1  \1Rd                  " \35      r4Sr5Sr6Sr7Sr8Sr9\$S-  r$\\\\S.r:\5\8S.r;\0" \$5       " S S\)5      5       r<g)z‘
Tokenization classes for fast tokenizers (provided by HuggingFace's tokenizers library). For slow (python) tokenizers
see tokenization_utils.py
é    N)Údefaultdict)ÚIterable)ÚAnyÚOptionalÚUnion)ÚEncoding)Ú	Tokenizer)ÚDecoder)Ú
BpeTrainerÚUnigramTrainerÚWordLevelTrainerÚWordPieceTraineré   )Úconvert_slow_tokenizer)Úconvert_gguf_tokenizer)Úload_gguf_checkpoint)ÚPreTrainedTokenizer)
ÚINIT_TOKENIZER_DOCSTRINGÚ
AddedTokenÚBatchEncodingÚPreTokenizedInputÚPreTokenizedInputPairÚPreTrainedTokenizerBaseÚSpecialTokensMixinÚ	TextInputÚTextInputPairÚTruncationStrategy)ÚPaddingStrategyÚadd_end_docstringsÚloggingztokenizer.jsonzspecial_tokens_map.jsonztokenizer_config.jsonztokenizer.modelzadded_tokens.jsonu¡  
        tokenizer_object ([`tokenizers.Tokenizer`]):
            A [`tokenizers.Tokenizer`] object from ðŸ¤— tokenizers to instantiate from. See [Using tokenizers from ðŸ¤—
            tokenizers](../fast_tokenizers) for more information.
        tokenizer_file ([`str`]):
            A path to a local JSON file representing a previously serialized [`tokenizers.Tokenizer`] object from ðŸ¤—
            tokenizers.
)ÚBPEÚUnigramÚ	WordLevelÚ	WordPiece)Útokenizer_fileÚ
vocab_filec            )       óŽ  ^ • \ rS rSr% Sr\rSr\\	S'   U 4S jr
\S\4S j5       r\S\4S j5       r\S\4S	 j5       rS\\\4   4S
 jr\S\\\4   4S j5       r\S\\\4   4S j5       r\S\\\4   4S j5       rS\\\4   4S jrS\4S jrS\4S jr\S\4S j5       r\S\4S j5       r       SHS\S\ \   S\ \   S\S\S\S\S\S\!\\\"4   \#\   4   4S jjr$S\%\\&\   4   S\%\\#\   4   4S jr'S \S\4S! jr(S"\S\ \   4S# jr)SIS$\#\%\\4      S\4S% jjr*SIS&\S\4S' jjr+ SIS(\%\\#\   4   S)\S\%\\#\   4   4S* jjr,SJS+\S&\ \   S,\S\#\   4S- jjr-S.\.S/\/S0\S1\S2\ \   S3\ \   4S4 jr0S\.Rb                  \/Rd                  SS5SSSSSSSSSSSS4S6\%\#\3   \#\4   \#\5   \#\6   4   S,\S.\.S/\/S0\ \   S1\S7\S2\ \   S3\ \   S8\ \   S\ \   S\ \   S\S\S\S\S\S9\S\74&S: jjr8SS\.Rb                  \/Rd                  SS5SSSSSSSSSSSS4S+\%\3\54   S;\ \%\3\54      S,\S.\.S/\/S0\ \   S1\S7\S2\ \   S3\ \   S8\ \   S\ \   S\ \   S\S\S\S\S\S9\S\74(S< jjr9S\#\   S\4S= jr:  SKS>\%\\#\   4   S)\S?\ \   S\4S@ jjr;  SLSA\%\\<Rz                  4   SB\!\   SC\ \   SD\ \   S\!\   4
SE jjr>   SMSF jr?SGr@U =rA$ )NÚPreTrainedTokenizerFastéQ   a5  
Base class for all fast tokenizers (wrapping HuggingFace tokenizers library).

Inherits from [`~tokenization_utils_base.PreTrainedTokenizerBase`].

Handles all the shared methods for tokenization and special tokens, as well as methods for
downloading/caching/loading pretrained tokenizers, as well as adding tokens to the vocabulary.

This class also contains the added tokens in a unified way on top of all tokenizers so we don't have to handle the
specific vocabulary augmentation methods of the various underlying dictionary structures (BPE, sentencepiece...).
NÚslow_tokenizer_classc           	      óÆ  >• UR                  SS 5      nUR                  SS 5      nUR                  SS 5      nUR                  SS 5      nUR                  SS5      nUR                  S0 5      nUR                  SS5      U l        U(       a  Uc  U R                  c  [	        S	5      eUb  [
        R                  " U5      n	GOUb  U(       d  [        R                  " U5      n	OýU(       a  [        U5      n	OêUbk  [        UR                  S
5      5      n
U
S   S   nU
S   nU
S   n[        X¼5      u  pžUR                  U5        [        U5      S:”  a  UR                  U5        O|U R                  b#  USLa  U R                  " U0 UD6n[        U5      n	OLU(       d:  UR                  S
5      U l        UR                  S/ 5      U l        [        U SS9n	S nO[	        S5      eXl        Ub  UR                  UR"                  5        SU l        U R                   R&                  nUbq  U R                   R(                  " S$0 UD6  UR+                  SUS   5        UR+                  SUS   5        UR+                  SUS   5        UR+                  SUS   5        OU R                   R-                  5         U R                   R.                  nUb…  U R                   R0                  " S$0 UD6  UR+                  SUS   5        UR+                  SUS   5        UR+                  SUS   5        UR+                  SUS   5        UR+                  SUS   5        [2        TU ]h  " S$0 UD6  U R6                  U R                   l        U R:                   Vs1 sH  n[=        [?        U5      5      iM     nn[A        URC                  5       S  S!9 VVs/ sH"  u  nn[=        [?        U5      5      U;  d  M   UPM$     nnn[E        U RF                  RI                  5       5      U Vs/ sH  n[K        U5      PM     sn-   nUU RL                   Vs/ sH  nUU;  d  M  UU;  d  M  UPM     sn-  n[        U5      S:”  a«  / nU RN                  nU H  n[Q        U[R        5      (       a!  URT                  =(       d    [K        U5      U;   O[K        U5      U;   n[Q        U[J        5      (       a  [S        UUS"9nOUUl*        URW                  U5        M     U(       a  U RY                  U5         [Z        R\                  " U R^                  R`                  Rc                  5       5      nUR                  SU R                  5      U R                  :w  aF  [e        [f        UR                  S#5      5      nU R                  US'   U" S$0 UD6U R^                  l0        g g s  snf s  snnf s  snf s  snf ! [h         a     g f = f)%NÚtokenizer_objectÚ__slow_tokenizerÚ	gguf_filer%   Ú	from_slowFÚadded_tokens_decoderÚadd_prefix_spacez‚Cannot instantiate this tokenizer from a slow version. If it's based on sentencepiece, make sure you have sentencepiece installed.r&   ÚconfigÚ
model_typeÚ	tokenizerÚtokenizer_configr   Úadditional_special_tokensT)Úfrom_tiktokena9  Couldn't instantiate the backend tokenizer from one of: 
(1) a `tokenizers` library serialization file, 
(2) a slow tokenizer instance to convert or 
(3) an equivalent slow tokenizer class to instantiate and convert. 
You need to have sentencepiece or tiktoken installed to convert a slow tokenizer to a fast one.Ú
max_lengthÚtruncation_sideÚ	directionÚstrideÚtruncation_strategyÚstrategyÚ	pad_tokenÚpad_token_type_idÚpad_type_idÚpadding_sideÚlengthÚpad_to_multiple_ofc                 ó   • U S   $ ©Nr   © )Úxs    Ú\/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/tokenization_utils_fast.pyÚ<lambda>Ú2PreTrainedTokenizerFast.__init__.<locals>.<lambda>¸   s   € ÐSTÐUVÒSWó    ©Úkey)ÚspecialÚtyperF   )5ÚpopÚgetr1   r*   Ú
ValueErrorÚcopyÚdeepcopyÚTokenizerFastÚ	from_filer   r   r   ÚupdateÚlenr&   r6   Ú
_tokenizerÚinit_kwargsÚ_decode_use_source_tokenizerÚ
truncationÚenable_truncationÚ
setdefaultÚno_truncationÚpaddingÚenable_paddingÚsuperÚ__init__Úsplit_special_tokensÚencode_special_tokensr0   ÚhashÚreprÚsortedÚitemsÚlistÚadded_tokens_encoderÚkeysÚstrÚall_special_tokens_extendedÚall_special_tokensÚ
isinstancer   rN   ÚappendÚ
add_tokensÚjsonÚloadsÚbackend_tokenizerÚpre_tokenizerÚ__getstate__ÚgetattrÚpre_tokenizers_fastÚ	Exception)ÚselfÚargsÚkwargsr,   Úslow_tokenizerr.   Úfast_tokenizer_filer/   r0   Úfast_tokenizerÚ
gguf_paramÚarchitectureÚtokenizer_dictr5   Úadditional_kwargsÚ_truncationÚ_paddingÚtokenÚadded_tokens_decoder_hashÚindexÚtokens_to_addÚencoderÚtokensÚspecial_tokensÚ
is_specialÚpre_tok_stateÚpre_tok_classÚ	__class__s                              €rH   rc   Ú PreTrainedTokenizerFast.__init__b   s~  ø€ Ø!Ÿ:™:Ð&8¸$Ó?ÐØŸ™Ð$6¸Ó=ˆØ—J‘J˜{¨DÓ1ˆ	Ø$Ÿj™jÐ)9¸4Ó@ÐØ—J‘J˜{¨EÓ2ˆ	Ø%Ÿz™zÐ*@À"ÓEÐØ &§
¡
Ð+=¸uÓ EˆÔæ˜Ñ/°D×4MÑ4MÑ4UÜð0óð ð
 Ñ'Ü!Ÿ]š]Ð+;Ó<ŠNØ Ñ,¶Yä*×4Ò4Ð5HÓI‰NÞä3°NÓC‰NØÑ"ä-¨f¯j©j¸Ó.FÓGˆJØ% hÑ/°Ñ=ˆLØ'¨Ñ4ˆNØ)Ð*<Ñ=ÐÜ0FÀ|Ó0dÑ-ˆNØM‰MÐ*Ô+ÜÐ$Ó%¨Ó)Ø—‘Ð/Ô0øØ×&Ñ&Ñ2°~ÈUÒ7Rà!×6Ò6¸ÐGÀÑGˆNÜ3°NÓC‰NÞà$Ÿj™j¨Ó6ˆDŒOØ-3¯Z©ZÐ8SÐUWÓ-XˆDÔ*Ü3°DÈÑMˆNØ!‰Näðróð ð )ŒàÑ%ØM‰M˜.×4Ñ4Ô5à,1ˆÔ)à—o‘o×0Ñ0ˆàÑ"ØO‰O×-Ò-Ñ<°Ò<Ø×Ñ˜l¨K¸Ñ,EÔFØ×ÑÐ/°¸[Ñ1IÔJØ×Ñ˜h¨°HÑ(=Ô>Ø×ÑÐ3°[ÀÑ5LÕMàO‰O×)Ñ)Ô+à—?‘?×*Ñ*ˆØÑØO‰O×*Ò*Ñ6¨XÒ6Ø×Ñ˜k¨8°KÑ+@ÔAØ×ÑÐ1°8¸MÑ3JÔKØ×Ñ˜n¨h°{Ñ.CÔDØ×Ñ˜l¨H°XÑ,>Ô?Ø×ÑÐ2°HÐ=QÑ4RÔSô 	‰ÒÑ"˜6Ò"Ø04×0IÑ0Iˆ‰Ô-àDH×D]ÒD]Ó$^ÑD]¸5¤T¬$¨u«+Ö%6ÑD]Ð!Ð$^ô !'Ð';×'AÑ'AÓ'CÉÒ Xô
á X‘uÜ”D˜“KÓ Ð(AÑA÷ Ù Xð 	ñ 
ô
 t×0Ñ0×5Ñ5Ó7Ó8ÑTaÓ;bÑTaÈ5¼CÀ¾JÑTaÑ;bÑbˆàØ#×?Ò?ó
Ù?eÀ5ÐPWÑCW‹EÐ\aÐivÑ\vEÑ?ñ
ñ 	
ˆô ˆ}Ó Ó!ØˆFØ!×4Ñ4ˆNÛ&ô " %¬×4Ñ4ð —]‘]×B¤c¨%£j°NÑ&Bøä˜U› ~Ñ5ð ô
 ˜e¤S×)Ñ)Ü& u°jÑA‘Eà$.E”MØ—‘˜eÖ$ñ 'ö Ø—‘ Ô'ð
	Ü ŸJšJ t×'=Ñ'=×'KÑ'K×'XÑ'XÓ'ZÓ[ˆMØ× Ñ Ð!3°T×5JÑ5JÓKÈt×OdÑOdÓdÜ 'Ô(;¸]×=NÑ=NÈvÓ=VÓ WØ48×4IÑ4IÐ0Ñ1Ù7DÑ7UÀ}Ñ7U×&Ñ&Õ4ð eùò? %_ùó
ùò
 <cùò
øô6 ó 	ñ ð		ús=   ÎV>ÏWÏ#WÐW	Ð:	WÑWÑWÔB'W ×
W ×W Úreturnc                 ó   • g)NTrF   ©r{   s    rH   Úis_fastÚPreTrainedTokenizerFast.is_fastÞ   s   € àrK   c                 ó  • SU R                   ;   ao  U R                   S   R                  S5      (       aL  [        U S5      (       a:  U R                  (       a)  [        R
                  R                  U R                  5      $ gg)z´
`bool`: Whether or not the slow tokenizer can be saved. For a sentencepiece based slow tokenizer, this
can only be `True` if the original `"sentencepiece.model"` was not deleted.
r&   z.modelFT)Úvocab_files_namesÚendswithÚhasattrr&   ÚosÚpathÚisfiler•   s    rH   Úcan_save_slow_tokenizerÚ/PreTrainedTokenizerFast.can_save_slow_tokenizerâ   s^   € ð ˜4×1Ñ1Ó1°d×6LÑ6LÈ\Ñ6Z×6cÑ6cÐdl×6mÑ6mÜt˜\×*Ñ*¨t¯¯ä—w‘w—~‘~ d§o¡oÓ6Ð6ØàrK   c                 ó4   • U R                   R                  SS9$ )z@
`int`: Size of the base vocabulary (without the added tokens).
F©Úwith_added_tokens©rY   Úget_vocab_sizer•   s    rH   Ú
vocab_sizeÚ"PreTrainedTokenizerFast.vocab_sizeð   s   € ð
 ‰×-Ñ-ÀÐ-ÐFÐFrK   c                 ó4   • U R                   R                  SS9$ )NTr¢   )rY   Ú	get_vocabr•   s    rH   r©   Ú!PreTrainedTokenizerFast.get_vocab÷   s   € Ø‰×(Ñ(¸4Ð(Ð@Ð@rK   c                 ó"   • U R                  5       $ ©N)r©   r•   s    rH   ÚvocabÚPreTrainedTokenizerFast.vocabú   s   € à~‰~ÓÐrK   c                 ó’   • [        U R                  R                  5       S S9 VVs0 sH  u  pUR                  U_M     snn$ s  snnf )z«
Returns the sorted mapping from string to index. The added tokens encoder is cached for performance
optimisation in `self._added_tokens_encoder` for the slow tokenizers.
c                 ó   • U S   $ rE   rF   ©Úitems    rH   rI   Ú>PreTrainedTokenizerFast.added_tokens_encoder.<locals>.<lambda>  ó   € ÐdhÐijÒdkrK   rL   ©rh   r0   ri   Úcontent©r{   ÚvÚks      rH   rk   Ú,PreTrainedTokenizerFast.added_tokens_encoderþ   s?   € ô *0°×0IÑ0I×0OÑ0OÓ0QÑWkÒ)lÔmÑ)l¡ —	‘	˜1’Ñ)lÒmÐmùÓmó   §Ac                 ó6   • U R                   R                  5       $ )z†
Returns the added tokens in the vocabulary as a dictionary of index to AddedToken.

Returns:
    `dict[str, int]`: The added tokens.
)rY   Úget_added_tokens_decoderr•   s    rH   r0   Ú,PreTrainedTokenizerFast.added_tokens_decoder  s   € ð ‰×7Ñ7Ó9Ð9rK   c                 ó’   • [        U R                  R                  5       S S9 VVs0 sH  u  pUR                  U_M     snn$ s  snnf )z
Returns the added tokens in the vocabulary as a dictionary of token to index.

Returns:
    `dict[str, int]`: The added tokens.
c                 ó   • U S   $ rE   rF   r±   s    rH   rI   Ú9PreTrainedTokenizerFast.get_added_vocab.<locals>.<lambda>  r´   rK   rL   rµ   r·   s      rH   Úget_added_vocabÚ'PreTrainedTokenizerFast.get_added_vocab  s?   € ô *0°×0IÑ0I×0OÑ0OÓ0QÑWkÒ)lÔmÑ)l¡ —	‘	˜1’Ñ)lÒmÐmùÓmr»   c                 ó   • g)z>
Returns True, to avoid expensive `assert tokenizer` gotchas.
TrF   r•   s    rH   Ú__bool__Ú PreTrainedTokenizerFast.__bool__  s   € ð rK   c                 ó4   • U R                   R                  SS9$ )z4
Size of the full vocabulary with the added tokens.
Tr¢   r¤   r•   s    rH   Ú__len__ÚPreTrainedTokenizerFast.__len__  s   € ð ‰×-Ñ-ÀÐ-ÐEÐErK   c                 ó   • U R                   $ )zS
`tokenizers.implementations.BaseTokenizer`: The Rust tokenizer used as a backend.
)rY   r•   s    rH   ru   Ú)PreTrainedTokenizerFast.backend_tokenizer%  s   € ð
 ‰ÐrK   c                 ó.   • U R                   R                  $ )zE
`tokenizers.decoders.Decoder`: The Rust decoder for this tokenizer.
)rY   Údecoderr•   s    rH   rÍ   ÚPreTrainedTokenizerFast.decoder,  s   € ð
 ‰×&Ñ&Ð&rK   FTÚencodingÚreturn_token_type_idsÚreturn_attention_maskÚreturn_overflowing_tokensÚreturn_special_tokens_maskÚreturn_offsets_mappingÚreturn_lengthÚverbosec	                 ó”  • Uc  SU R                   ;   nUc  SU R                   ;   nU(       a  UR                  b  U/UR                  -   n	OU/n	[        [        5      n
U	 Hå  nU
S   R	                  UR
                  5        U(       a  U
S   R	                  UR                  5        U(       a  U
S   R	                  UR                  5        U(       a  U
S   R	                  UR                  5        U(       a  U
S   R	                  UR                  5        U(       d  M¾  U
S   R	                  [        UR
                  5      5        Mç     X©4$ )ar  
Convert the encoding representation (from low-level HuggingFace tokenizer output) to a python Dict and a list
of encodings, take care of building a batch from overflowing tokens.

Overflowing tokens are converted to additional examples (like batches) so the output values of the dict are
lists (overflows) of lists (tokens).

Output shape: (overflows, sequence length)
Útoken_type_idsÚattention_maskÚ	input_idsÚspecial_tokens_maskÚoffset_mappingrB   )Úmodel_input_namesÚoverflowingr   rj   rq   ÚidsÚtype_idsrÙ   rÛ   ÚoffsetsrX   )r{   rÏ   rÐ   rÑ   rÒ   rÓ   rÔ   rÕ   rÖ   Ú	encodingsÚencoding_dictÚes               rH   Ú_convert_encodingÚ)PreTrainedTokenizerFast._convert_encoding3  s  € ð( !Ñ(Ø$4¸×8NÑ8NÑ$NÐ!Ø Ñ(Ø$4¸×8NÑ8NÑ$NÐ!æ$¨×)=Ñ)=Ñ)IØ!˜
 X×%9Ñ%9Ñ9‰Ià!˜
ˆIä#¤DÓ)ˆÛˆAØ˜+Ñ&×-Ñ-¨a¯e©eÔ4æ$ØÐ.Ñ/×6Ñ6°q·z±zÔBÞ$ØÐ.Ñ/×6Ñ6°q×7GÑ7GÔHÞ)ØÐ3Ñ4×;Ñ;¸A×<QÑ<QÔRÞ%ØÐ.Ñ/×6Ñ6°q·y±yÔAßˆ}Ø˜hÑ'×.Ñ.¬s°1·5±5«zÖ:ñ ð Ð'Ð'rK   rŒ   c                 ó˜   • [        U[        5      (       a  U R                  U5      $ U Vs/ sH  o R                  U5      PM     sn$ s  snf )a   
Converts a token string (or a sequence of tokens) in a single integer id (or a Iterable of ids), using the
vocabulary.

Args:
    tokens (`str` or `Iterable[str]`): One or several token(s) to convert to token id(s).

Returns:
    `int` or `list[int]`: The token id or list of token ids.
)rp   rm   Ú#_convert_token_to_id_with_added_voc)r{   rŒ   r‡   s      rH   Úconvert_tokens_to_idsÚ-PreTrainedTokenizerFast.convert_tokens_to_idsb  sC   € ô fœc×"Ñ"Ø×;Ñ;¸FÓCÐCáMSÓTÉVÀE×8Ñ8¸Ö?ÉVÑTÐTùÒTs   «Ar‡   c                 óZ   • U R                   R                  U5      nUc  U R                  $ U$ r¬   )rY   Útoken_to_idÚunk_token_id)r{   r‡   r‰   s      rH   rè   Ú;PreTrainedTokenizerFast._convert_token_to_id_with_added_vocr  s,   € Ø—‘×+Ñ+¨EÓ2ˆØ‰=Ø×$Ñ$Ð$ØˆrK   r‰   c                 óJ   • U R                   R                  [        U5      5      $ r¬   )rY   Úid_to_tokenÚint)r{   r‰   s     rH   Ú_convert_id_to_tokenÚ,PreTrainedTokenizerFast._convert_id_to_tokenx  s   € Ø‰×*Ñ*¬3¨u«:Ó6Ð6rK   Ú
new_tokensc                 ó|   • U(       a  U R                   R                  U5      $ U R                   R                  U5      $ r¬   )rY   Úadd_special_tokensrr   )r{   rô   r   s      rH   Ú_add_tokensÚ#PreTrainedTokenizerFast._add_tokens{  s/   € ÞØ—?‘?×5Ñ5°jÓAÐAà‰×)Ñ)¨*Ó5Ð5rK   Úpairc                 ó8   • U R                   R                  U5      $ )aç  
Returns the number of added tokens when encoding a sequence with special tokens.

<Tip>

This encodes a dummy input and checks the number of added tokens, and is therefore not efficient. Do not put
this inside your training loop.

</Tip>

Args:
    pair (`bool`, *optional*, defaults to `False`):
        Whether the number of added tokens should be computed in the case of a sequence pair or a single
        sequence.

Returns:
    `int`: Number of special tokens added to sequences.
)rY   Únum_special_tokens_to_add)r{   rù   s     rH   rû   Ú1PreTrainedTokenizerFast.num_special_tokens_to_add  s   € ð& ‰×8Ñ8¸Ó>Ð>rK   rß   Úskip_special_tokensc                 ó@  • [        U[        5      (       a  U R                  R                  U5      $ / nU(       a  [	        U R
                  5      O	[	        5       nU H?  n[        U5      nXT;   a  M  UR                  U R                  R                  U5      5        MA     U$ )aœ  
Converts a single index or a sequence of indices in a token or a sequence of tokens, using the vocabulary and
added tokens.

Args:
    ids (`int` or `list[int]`):
        The token id (or token ids) to convert to tokens.
    skip_special_tokens (`bool`, *optional*, defaults to `False`):
        Whether or not to remove special tokens in the decoding.

Returns:
    `str` or `list[str]`: The decoded token(s).
)rp   rñ   rY   rð   ÚsetÚall_special_idsrq   )r{   rß   rý   rŒ   Úids_to_skipr‰   s         rH   Úconvert_ids_to_tokensÚ-PreTrainedTokenizerFast.convert_ids_to_tokens–  s   € ô  cœ3×ÑØ—?‘?×.Ñ.¨sÓ3Ð3Øˆæ3F”c˜$×.Ñ.Ô/ÌCËEˆÛˆEÜ˜“JˆEØÓ#ÙØM‰M˜$Ÿ/™/×5Ñ5°eÓ<Ö=ñ	 ð
 ˆrK   Útextrö   c                 óH   • U R                   " SXUS.UD6R                  5       $ )N)r  Ú	text_pairrö   rF   )Úencode_plusrŒ   )r{   r  rù   rö   r}   s        rH   ÚtokenizeÚ PreTrainedTokenizerFast.tokenize²  s(   € Ø×ÒÐk TÐN`ÑkÐdjÑk×rÑrÓtÐtrK   Úpadding_strategyr<   r8   r;   rC   rA   c                 óÖ  • U R                   R                  nU R                   R                  nU[        R                  :X  a  Ub  U R                   R                  5         OcUUUR                  U R                  S.n	Uc  Sn
O!U	 Vs0 sH  o»UR                  US5      _M     n
nX©:w  a  U R                   R                  " S0 U	D6  U[        R                  :X  a  Ub  U R                   R                  5         ggU[        R                  :X  a  UOSnUUb  UOU R                  U R                  U R                   U R"                  US.n	X‰:w  a  U R                   R$                  " S0 U	D6  ggs  snf )aí  
Define the truncation and the padding strategies for fast tokenizers (provided by HuggingFace tokenizers
library) and restore the tokenizer settings afterwards.

The provided tokenizer has no padding / truncation strategy before the managed section. If your tokenizer set a
padding / truncation strategy before, then it will be reset to no padding / truncation when exiting the managed
section.

Args:
    padding_strategy ([`~utils.PaddingStrategy`]):
        The kind of padding that will be applied to the input
    truncation_strategy ([`~tokenization_utils_base.TruncationStrategy`]):
        The kind of truncation that will be applied to the input
    max_length (`int`):
        The maximum size of a sequence.
    stride (`int`):
        The stride to use when handling overflow.
    pad_to_multiple_of (`int`, *optional*):
        If set will pad the sequence to a multiple of the provided value. This is especially useful to enable
        the use of Tensor Cores on NVIDIA hardware with compute capability `>= 7.5` (Volta).
    padding_side (`str`, *optional*):
        The side on which the model should have padding applied. Should be selected between ['right', 'left'].
        Default value is picked from the class attribute of the same name.
N)r8   r;   r=   r:   )rB   r:   Úpad_idr>   r@   rC   rF   )rY   r\   r`   r   ÚDO_NOT_TRUNCATEr_   Úvaluer9   rQ   r]   r   Ú
DO_NOT_PADÚ
no_paddingÚ
MAX_LENGTHrA   Úpad_token_idr>   r?   ra   )r{   r
  r<   r8   r;   rC   rA   r…   r†   ÚtargetÚcurrentr¹   rB   s                rH   Úset_truncation_and_paddingÚ2PreTrainedTokenizerFast.set_truncation_and_paddingµ  sR  € ðB —o‘o×0Ñ0ˆØ—?‘?×*Ñ*ˆàÔ"4×"DÑ"DÓDØÑ&Ø—‘×-Ñ-Ô/øð )Ø Ø/×5Ñ5Ø!×1Ñ1ñ	ˆFð Ñ"Ø‘á@FÓGÁ¸1˜kŸo™o¨a°Ó6Ò6ÁÐGàÓ Ø—‘×1Ò1Ñ;°FÒ;àœ×9Ñ9Ó9ØÑ#Ø—‘×*Ñ*Õ,ð $ð $4´×7QÑ7QÓ#Q‘ZÐW[ˆFà Ø-9Ñ-E™\È4×K\ÑK\Ø×+Ñ+Ø!Ÿ^™^Ø#×5Ñ5Ø&8ñˆFð Ó!Ø—‘×.Ò.Ñ8°Ó8ð "ùò% Hs   ÂE&r   Úbatch_text_or_text_pairsÚis_split_into_wordsÚreturn_tensorsrd   c                 ó  • [        U[        [        45      (       d  [        S[	        U5       S35      eU R                  UUUUUU	S9  U R                  R                  U:w  a  UU R                  l        U R                  R                  UUUS9nU Vs/ sH  nU R                  UUUUUUUUS9PM     nn0 nUS   S    H,  nU VVVs/ sH  u  nnUU    H  nUPM     M     nnnnUUU'   M.     U VVVs/ sH  u  nnU H  nUPM     M     nnnnU(       a4  / n[        U5       H  u  nu  nnUU/[        US   5      -  -  nM      UUS'   US    H  n U R                  U UU5        M     [        UUU
S	9$ s  snf s  snnnf s  snnnf )
Nz:batch_text_or_text_pairs has to be a list or a tuple (got Ú))r
  r<   r8   r;   rC   rA   )rö   Úis_pretokenized)rÏ   rÐ   rÑ   rÒ   rÓ   rÔ   rÕ   rÖ   r   rÚ   Úoverflow_to_sample_mapping)Útensor_type)rp   Útuplerj   Ú	TypeErrorrO   r  rY   re   Úencode_batchrå   Ú	enumeraterX   Ú&_eventual_warn_about_too_long_sequencer   )!r{   r  rö   r
  r<   r8   r;   r  rC   rA   r  rÐ   rÑ   rÒ   rÓ   rÔ   rÕ   rÖ   rd   râ   rÏ   Útokens_and_encodingsÚsanitized_tokensrM   r²   Ú_rä   ÚstackÚsanitized_encodingsr  ÚiÚtoksrÚ   s!                                    rH   Ú_batch_encode_plusÚ*PreTrainedTokenizerFast._batch_encode_plus   sð  € ô. Ð2´U¼D°M×BÑBÜØLÌTÐRjÓMkÐLlÐlmÐnóð ð
 	×'Ñ'Ø-Ø 3Ø!ØØ1Ø%ð 	(ñ 	
ð ?‰?×0Ñ0Ð4HÓHØ4HˆDO‰OÔ1à—O‘O×0Ñ0Ø$Ø1Ø/ð 1ð 
ˆ	ñ. &ó 
ñ &ð ×"Ñ"Ø!Ø&;Ø&;Ø*CØ+EØ'=Ø+Øð #ó 	ñ &ð 	ð  
ð( ÐØ'¨Ñ*¨1Ô-ˆCÙ&:ÕNÑ&:™7˜4 ÀDÈÄI¸q“QÁI‘QÑ&:ˆEÒNØ$)Ð˜SÓ!ñ .ñ 1EÕSÑ0D¡W Q¨ËdÈ›qÉd™qÑ0DÐÒSö %Ø)+Ð&Ü )Ð*>Ö ?‘‘9D˜!Ø*¨q¨c´C¸¸[Ñ8IÓ4JÑ.JÑJÒ*ñ !@à=WÐÐ9Ñ:à)¨+Ô6ˆIØ×7Ñ7¸	À:ÈwÖWñ 7äÐ-Ð/BÐP^Ñ_Ð_ùòI 
ùô, OùäSs   ÂE3ÃE8
Ã3E?r  c                 óÆ  • U(       a  X4/OU/nU R                   " U40 SU_SU_SU_SU_SU_SU_SU	_SU
_S	U_S
U_SU_SU_SU_SU_SU_SU_SU_UD6nUcm  U(       df  [        UR                  5        VVs0 sH5  u  nnU[        U5      S:”  a  [	        US   [
        5      (       a  US   OU_M7     snnUR                  5      nU R                  US   UU5        U$ s  snnf )Nr  rö   r
  r<   r8   r;   rC   rA   r  rÐ   rÑ   rÒ   rÓ   rÔ   rÕ   rÖ   rd   r   rÚ   )r+  r   ri   rX   rp   rj   râ   r#  )r{   r  r  rö   r
  r<   r8   r;   r  rC   rA   r  rÐ   rÑ   rÒ   rÓ   rÔ   rÕ   rÖ   rd   r}   Úbatched_inputÚbatched_outputrM   r  s                            rH   Ú_encode_plusÚ$PreTrainedTokenizerFast._encode_plus[  sk  € ö. 09˜$Ð*Ñ+¸t¸fˆØ×0Ò0Øò
á 3ð
ñ  2ð
ñ .ð	
ñ
 !4ð
ñ "ð
ñ ð
ñ  2ð
ñ &ð
ñ *ð
ñ #8ð
ñ #8ð
ñ '@ð
ñ (Bð
ñ $:ð
ñ  (ð!
ñ" ð#
ñ$ "6Øñ'
ˆð0 Ñ!Ö*CÜ*ð '5×&:Ñ&:Ô&<ôá&<™
˜˜Uð ¤c¨%£j°1£n¼ÀEÈ!ÁHÌd×9SÑ9S˜% š(ÐY^Ò^Ù&<òð ×(Ñ(óˆNð 	×3Ñ3°NÀ;Ñ4OÐQ[Ð]dÔeàÐùós   Á7;C
c                 óœ   • U R                   R                  b%  U R                   R                  R                  U5      $ SR                  U5      $ )NÚ )ru   rÍ   ÚdecodeÚjoin)r{   rŒ   s     rH   Úconvert_tokens_to_stringÚ0PreTrainedTokenizerFast.convert_tokens_to_string˜  sJ   € ð ×%Ñ%×-Ñ-Ñ9ð ×"Ñ"×*Ñ*×1Ñ1°&Ó9ð	
ð —‘˜&Ó!ð	
rK   Ú	token_idsÚclean_up_tokenization_spacesc                 óì   • UR                  SS5      U l        [        U[        5      (       a  U/nU R                  R                  XS9nUb  UOU R                  nU(       a  U R                  U5      nU$ U$ )NÚuse_source_tokenizerF)rý   )rP   r[   rp   rñ   rY   r4  r9  Úclean_up_tokenization)r{   r8  rý   r9  r}   r  Ú
clean_texts          rH   Ú_decodeÚPreTrainedTokenizerFast._decodeŸ  s~   € ð -3¯J©JÐ7MÈuÓ,UˆÔ)äi¤×%Ñ%Ø"˜ˆIØ‰×%Ñ% iÐ%ÐYˆð ,Ñ7ñ )à×2Ñ2ð 	%ö
 (Ø×3Ñ3°DÓ9ˆJØÐàˆKrK   Úsave_directoryÚ
file_namesÚlegacy_formatÚfilename_prefixc                 ój  • [        U5      nU R                  c  USL a  [        S5      eUSL =(       d    USL =(       a!    U R                  SL=(       a    U R                  nUSL =(       d    USL nU(       aÍ  [        R
                  R                  X(       a  US-   OS[        -   5      nU R                  R                  5        VV	s0 sH  u  p‰XR                  :¼  d  M  X‰_M     n
nn	U
(       a?  [        USSS	9 n[        R                  " U
S
SSS9S-   nUR                  U5        SSS5        U R                  XS9nX--   U4-   nU(       aR  [        R
                  R                  X(       a  US-   OS[         -   5      nU R"                  R%                  U5        X.4-   nU$ s  sn	nf ! , (       d  f       N†= f)z¡
Save a tokenizer using the slow-tokenizer/legacy format: vocabulary + added tokens as well as in a unique JSON
file containing {config + vocab + added-tokens}.
NTz²Your tokenizer does not have a legacy version defined and therefore cannot register this version. You might consider leaving the legacy_format at `None` or setting it to `False`.FÚ-Ú Úwzutf-8)rÏ   é   )ÚindentÚ	sort_keysÚensure_asciiÚ
)rC  )rm   r*   rR   rŸ   rœ   r   r5  ÚADDED_TOKENS_FILErk   ri   r¦   Úopenrs   ÚdumpsÚwriteÚsave_vocabularyÚTOKENIZER_FILEru   Úsave)r{   r@  rA  rB  rC  Ú	save_slowÚ	save_fastÚadded_tokens_fileÚtokr‰   Úadded_vocabÚfÚout_strÚvocab_filesr%   s                  rH   Ú_save_pretrainedÚ(PreTrainedTokenizerFast._save_pretrained·  s©  € ô ˜^Ó,ˆà×$Ñ$Ñ,°À$Ò1FÜð`óð ð ˜dÐ"×; m°tÐ&;÷ -Ø×)Ñ)°Ð5÷-à×,Ñ,ð 	ð
 " TÐ)×C¨]¸eÐ-Cˆ	æÜ "§¡§¡Ø½/ °3Ò!6ÈrÔUfÑ fó!Ðð 9=×8QÑ8Q×8WÑ8WÔ8YÔvÑ8Y©*¨#Ð]b×fuÑfuÑ]u›:˜3š:Ñ8YˆKÑvÞÜÐ+¨S¸7ÒCÀqÜ"Ÿjšj¨¸QÈ$Ð]bÑcÐfjÑjGØ—G‘G˜GÔ$÷ Dð ×.Ñ.¨~Ð.Ð_ˆKØ#Ñ1Ð5FÐ4HÑHˆJæÜŸW™WŸ\™\Ø½/ °3Ò!6ÈrÔUcÑ cóˆNð ×"Ñ"×'Ñ'¨Ô7Ø#Ð&7Ñ7ˆJàÐùó! wçCÕCús   ÃFÃFÃ8,F$Æ$
F2c           
      óX
  • [         R                  " U R                  R                  5       5      nUR	                  S5      nUR	                  S5      n	Sn
US   S   S:X  a  0 US   S'   / US   S'   OuUS   S   S	:X  a?  US   S
   b5  US   S
   nUS   S   U   S   n
Ub	  X¥;   a  XZ   n
SUS   S
'   U
S//US   S'   O*US   S   S;   a	  0 US   S'   O[        SUS   S    S35      eUb%  SUS   ;   a  US   S   U;   a  XWS   S      US   S'   [        R                  " [         R                  " U5      5      n/ nU Hl  nUR	                  SS5      nUR	                  SS5      nUS   S   S	:w  a	  U(       d  M<  Ub  US   U;   a
  X^S      US'   UR                  [        S'0 UD65        Mn     Ub  UR                  U5        US   S   S:X  a  SU;  a  US   S   b  US   S   US'   US   S   S:X  a  SU;  a  US   S   b  US   S   US'   US   S   S	:X  a  U
b  X¦S'   US   b_  US   S   S:X  d2  US   S   S:X  aG  SUS   ;   a>  [        S US   S    5       5      (       a!  [        R                  R                  5       US'   [         US   S      nU" S'X-S.UD6nUR#                  XUS9  U	Gb>  [         R                  " UR                  5       5      nSU	;   a˜  U	S    H  nU	S   U   S   nUb!  U Vs/ sH  nUR%                  UU5      PM     nnUU	S   U   S'   U H"  nUR'                  U5      nUb  M  [        S 5      e   U Vs/ sH  nUR'                  U5      PM     snU	S   U   S!'   M‘     S" HG  nUU	;   d  M  U	U   u  nnUb  UU;   a  UU   nUR'                  U5      nUc  [        S 5      eUU/U	U'   MI     U	US'   [        R                  " [         R                  " U5      5      nU R(                  R+                  5       n[,        R.                  R+                  5       nUR1                  S#5        U H  n[3        U U5      c  M  [3        U U5      nUb  UU;   a  UU   nU R4                  R%                  US5      n[7        U[        5      (       a;  [        UUR8                  UR:                  UR<                  UR>                  S$S%9UU'   M˜  UUU'   MŸ     U R@                  nUb  UR                  U5        [C        U5      S:”  a  UUS#'   U RD                  " S'S&U0UD6$ s  snf s  snf )(u¾  
Trains a tokenizer on a new corpus with the same defaults (in terms of special tokens or tokenization pipeline)
as the current one.

Args:
    text_iterator (generator of `list[str]`):
        The training corpus. Should be a generator of batches of texts, for instance a list of lists of texts
        if you have everything in memory.
    vocab_size (`int`):
        The size of the vocabulary you want for your tokenizer.
    length (`int`, *optional*):
        The total number of sequences in the iterator. This is used to provide meaningful progress tracking
    new_special_tokens (list of `str` or `AddedToken`, *optional*):
        A list of new special tokens to add to the tokenizer you are training.
    special_tokens_map (`dict[str, str]`, *optional*):
        If you want to rename some of the special tokens this tokenizer uses, pass along a mapping old special
        token name to new special token name in this argument.
    kwargs (`dict[str, Any]`, *optional*):
        Additional keyword arguments passed along to the trainer from the ðŸ¤— Tokenizers library.

Returns:
    [`PreTrainedTokenizerFast`]: A new tokenizer of the same type as the original one, trained on
    `text_iterator`.

Úadded_tokensÚpost_processorNÚmodelrO   r!   r­   Úmergesr"   Úunk_idr   g        )r#   r$   z;This method does not support this type of tokenizer (found z-) only BPE, Unigram, WordLevel and WordPiece.Ú	unk_tokenrN   Úidr¶   Úcontinuing_subword_prefixÚend_of_word_suffixrv   Ú	ByteLevelÚSequenceÚpretokenizersc              3   ó0   #   • U H  nUS    S:H  v •  M     g7f)rO   rh  NrF   )Ú.0Úpretokenizers     rH   Ú	<genexpr>ÚBPreTrainedTokenizerFast.train_new_from_iterator.<locals>.<genexpr>P  s!   é € ð á(X˜ð ! Ñ(¨KÖ7Ú(Xùs   ‚Úinitial_alphabet)r¦   r   )rB   Útrainerr   rŒ   zQAttempted to set a token in the post processor that does not exist in the mappingrß   )ÚclsÚsepr6   T)Úsingle_wordÚlstripÚrstripÚ
normalizedrN   r,   rF   )#rs   rt   rY   Úto_strrP   rR   rU   Úfrom_strrO  rq   r   ÚextendÚanyry   rh  ÚalphabetÚMODEL_TO_TRAINER_MAPPINGÚtrain_from_iteratorrQ   rì   rZ   rS   r   ÚSPECIAL_TOKENS_ATTRIBUTESÚremoverx   Ú_special_tokens_maprp   rt  ru  rv  rw  r6   rX   r‘   )r{   Útext_iteratorr¦   rB   Únew_special_tokensÚspecial_tokens_mapr}   Útokenizer_jsonr_  r`  rd  rc  r4   r   Úadded_tokenrN   r&  Útrainer_classrq  Útrained_tokenizer_jsonrM   rŒ   r‡   Útoken_idÚspecial_tokenÚspecial_tokens_listÚspecial_token_fullr6   s                               rH   Útrain_new_from_iteratorÚ/PreTrainedTokenizerFast.train_new_from_iteratorè  sd  € ôD Ÿš D§O¡O×$:Ñ$:Ó$<Ó=ˆà%×)Ñ)¨.Ó9ˆà'×+Ñ+Ð,<Ó=ˆàˆ	à˜'Ñ" 6Ñ*¨eÓ3Ø/1ˆN˜7Ñ# GÑ,Ø02ˆN˜7Ñ# HÒ-Ø˜GÑ$ VÑ,°	Ó9Ø˜gÑ& xÑ0Ñ<Ø'¨Ñ0°Ñ:Ø*¨7Ñ3°GÑ<¸VÑDÀQÑG	Ø%Ñ1°iÓ6UØ 2Ñ =IØ45˜wÑ'¨Ñ1Ø5>ÀÐ4DÐ3E˜wÑ'¨Ñ0øØ˜GÑ$ VÑ,Ð0JÓJØ/1ˆN˜7Ñ# GÒ,äØMÈnÐ]dÑNeÐflÑNmÐMnð o>ð >óð ð Ñ*Ø˜~¨gÑ6Ó6Ø˜wÑ'¨Ñ4Ð8JÓJà3EÐU\ÑF]Ð^iÑFjÑ3kˆN˜7Ñ# KÑ0ä!×*Ò*¬4¯:ª:°nÓ+EÓFˆ	ð ˆÛ'ˆKØ!—o‘o i°Ó6ˆGØ—‘  dÓ+ˆAØ˜gÑ& vÑ.°)Ó;ÆGÙØ!Ñ-°+¸iÑ2HÐL^Ó2^Ø);È	Ñ<RÑ)S˜IÑ&Ø×!Ñ!¤*Ñ";¨{Ñ";Ö<ñ (ð Ñ)Ø×!Ñ!Ð"4Ô5ð ˜7Ñ# FÑ+¨uÓ4Ø+°6Ó9Ø˜wÑ'Ð(CÑDÑPà2@ÀÑ2IÐJeÑ2fˆFÐ.Ñ/à˜7Ñ# FÑ+¨uÓ4Ø$¨FÓ2Ø˜wÑ'Ð(<Ñ=ÑIà+9¸'Ñ+BÐCWÑ+XˆFÐ'Ñ(Ø˜'Ñ" 6Ñ*¨iÓ7¸IÑ<QØ"+;ÑØ˜/Ñ*Ñ6à˜Ñ/°Ñ7¸;ÓFØ! /Ñ2°6Ñ:¸jÓHØ# ~°oÑ'FÓFÜñ à(6°Ñ(GÈÒ(Xó÷ ñ ô
 .A×-JÑ-J×-SÑ-SÓ-UÐ)Ñ*ä0°ÀÑ1HÈÑ1PÑQˆÙÐ_¨:Ñ_ÐX^Ñ_ˆØ×%Ñ% mÈGÐ%ÑTàÒ%Ü%)§Z¢Z°	×0@Ñ0@Ó0BÓ%CÐ"à >Ó1Ø)Ð*:Ô;CØ+Ð,<Ñ=¸cÑBÀ8ÑLFØ)Ñ5ÙTZÓ![ÑTZÈ5Ð"4×"8Ñ"8¸ÀÖ"FÑTZ˜Ð![ØFLNÐ#3Ñ4°SÑ9¸(ÑCÛ!'˜Ø#,×#8Ñ#8¸Ó#?˜Ø#Ó+Ü",Ø só#ð ñ "(ñ ouÓCuÑntÐejÀI×DYÑDYÐZ_ÖD`ÑntÑCuNÐ#3Ñ4°SÑ9¸%Ó@ñ <ó "0Ø  NÕ2Ø-¨mÑ<‘HE˜1Ø)Ñ5¸%ÐCUÓ:UØ 2°5Ñ 9˜Ø(×4Ñ4°UÓ;HØÑ'Ü(Øoóð ð 6;¸HÐ4EN =Ó1ñ "0ð 8FÐ"Ð#3Ñ4Ü%×.Ò.¬t¯zªzÐ:PÓ/QÓRˆIà×!Ñ!×&Ñ&Ó(ˆä0×JÑJ×OÑOÓQÐØ×"Ñ"Ð#>Ô?Û(ˆEÜt˜UÓ#Ó/Ü '¨¨eÓ 4Ø%Ñ1°mÐGYÓ6YØ$6°}Ñ$EMà%)×%=Ñ%=×%AÑ%AÀ%ÈÓ%NÐ"ÜÐ0´*×=Ñ=ä$.Ø%Ø$6×$BÑ$BØ1×8Ñ8Ø1×8Ñ8Ø#5×#@Ñ#@Ø $ñ%F˜5“Mð %2F˜5“Mñ% )ð( %)×$BÑ$BÐ!ØÑ)Ø%×,Ñ,Ð-?Ô@ÜÐ(Ó)¨AÓ-Ø2KˆFÐ.Ñ/à~Š~ÑC¨yÐC¸FÑCÐCùòq "\ùò Dvs   Ë4T"ÍT')r[   rY   r1   r6   r&   )NNFFFFT)F)NF)FN)NN)NNN)BÚ__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__ÚVOCAB_FILES_NAMESr™   r*   r   Ú__annotations__rc   ÚpropertyÚboolr–   rŸ   rñ   r¦   Údictrm   r©   r­   rk   r   r0   rÂ   rÅ   rÈ   rU   ru   ÚDecoderFastrÍ   ÚEncodingFastr   r  r   rj   rå   r   r   ré   rè   rò   r÷   rû   r  r  r   r   r  r  r  r   r   r   r   r   r+  r0  r6  r>  rœ   ÚPathLiker\  r  Ú__static_attributes__Ú__classcell__)r‘   s   @rH   r(   r(   Q   sÆ  ø‡ ñ
ð *ÐØ04ÐÐ-Ó4õzðx ð˜ó ó ðð ð¨ó ó ðð ðG˜Có Gó ðGðA˜4  S ™>ô Að ð t˜C ˜H‘~ó  ó ð ð ðn d¨3°¨8¡nó nó ðnð ð: d¨3°
¨?Ñ&;ó :ó ð:ðn  c¨3 h¡ô nð˜$ô ðF˜ô Fð ð =ó ó ðð ð'˜ó 'ó ð'ð 15Ø04Ø*/Ø+0Ø',Ø#Øñ-(àð-(ð  (¨™~ð-(ð  (¨™~ð	-(ð
 $(ð-(ð %)ð-(ð !%ð-(ð ð-(ð ð-(ð 
ˆtC˜H‰~˜t LÑ1Ð1Ñ	2õ-(ð^U¨E°#°xÀ±}Ð2DÑ,Eð UÈ%ÐPSÐUYÐZ]ÑU^ÐP^ÑJ_ô Uð ¸ð Àô ð7¨#ð 7°(¸3±-ô 7ñ6 d¨5°°j°Ñ+AÑ&Bð 6Ð]`õ 6ñ?¨dð ?¸sõ ?ð, GLñØ˜˜d 3™i˜Ñ(ðØ?Cðà	ˆsD˜‘Iˆ~Ñ	õñ8u˜Sð u¨°©ð uÐRVð uÐmqÐruÑmvõ uðI9à)ðI9ð 0ðI9ð ð	I9ð
 ðI9ð % S™MðI9ð ˜s‘môI9ð` $(Ø,;×,FÑ,FØ2D×2TÑ2TØ$(ØØ$)Ø,0Ø&*Ø(,Ø04Ø04Ø*/Ø+0Ø',Ø#ØØ%*ñ+Y`à"'Ø‰O˜T -Ñ0°$Ð7HÑ2IÈ4ÐPeÑKfÐfñ#
ðY`ð
 !ðY`ð *ðY`ð 0ðY`ð ˜S‘MðY`ð ðY`ð "ðY`ð % S™MðY`ð ˜s‘mðY`ð ! ™ðY`ð  (¨™~ðY`ð  (¨™~ðY`ð  $(ð!Y`ð" %)ð#Y`ð$ !%ð%Y`ð& ð'Y`ð( ð)Y`ð* #ð+Y`ð, 
õ-Y`ð| DHØ#'Ø,;×,FÑ,FØ2D×2TÑ2TØ$(ØØ$)Ø,0Ø&*Ø)-Ø04Ø04Ø*/Ø+0Ø',Ø#ØØ%*ñ);àIÐ0Ð0Ñ1ð;ð ˜E )Ð->Ð">Ñ?Ñ@ð;ð !ð	;ð
 *ð;ð 0ð;ð ˜S‘Mð;ð ð;ð "ð;ð % S™Mð;ð ˜s‘mð;ð ! ™ð;ð  (¨™~ð;ð  (¨™~ð;ð $(ð;ð  %)ð!;ð" !%ð#;ð$ ð%;ð& ð';ð( #ð);ð, 
õ-;ðz
¨t°C©yð 
¸Sô 
ð %*Ø7;ñ	à˜˜d 3™i˜Ñ(ðð "ðð '/¨t¡nð	ð 
õð8 )-Ø)-ñ/à˜c 2§;¡;Ð.Ñ/ð/ð ˜#‘Jð/ð   ‘~ð	/ð
 " #™ð/ð 
ˆs‰õ/ðj ØØ÷rDò rDrK   r(   )=r“  rS   rs   rœ   Úcollectionsr   Úcollections.abcr   Útypingr   r   r   Útokenizers.pre_tokenizersÚpre_tokenizersry   Ú
tokenizersr   rš  r	   rU   Útokenizers.decodersr
   r™  Útokenizers.trainersr   r   r   r   r   Úintegrations.ggmlr   Úmodeling_gguf_pytorch_utilsr   Útokenization_utilsr   Útokenization_utils_baser   r   r   r   r   r   r   r   r   r   Úutilsr   r   r    Ú
get_loggerr  ÚloggerrR  ÚSPECIAL_TOKENS_MAP_FILEÚTOKENIZER_CONFIG_FILEÚTIKTOKEN_VOCAB_FILErM  r}  r”  r(   rF   rK   rH   Ú<module>r°     sæ   ðñó
 Û Û 	Ý #Ý $ß 'Ñ 'å 7Ý /Ý 1Ý 6ß ^Ó ^å :Ý 5Ý =Ý 3÷÷ ÷ ÷ @Ñ ?ð 
×	Ò	˜HÓ	%€ð "€Ø3Ð Ø/Ð Ø'Ð ð (Ð à ð ñ Ð ð ØØ!Ø!ñ	Ð ð (6ÐEXÑYÐ ñ Ð,Ó-ôHDÐ5ó HDó .ñHDrK   