ó
    <±h   ã                   ó&  • % S r SSKJr  SSKJrJr  SSKJr  \R                  " \	5      r
SrSrSrSrS	rS
rSr\S\S\S\S\S\S0r\\\4   \S'   \R/                  5        V Vs0 sH  u  pX_M	     snn r\\\4   \S'    " S S\5      rS/rgs  snn f )z Tokenization classes for CANINE.é    )ÚOptionalé   )Ú
AddedTokenÚPreTrainedTokenizer)Úloggingi   i à  ià  ià  ià  ià  z[CLS]z[SEP]z[BOS]z[MASK]z[PAD]z
[RESERVED]ÚSPECIAL_CODEPOINTSÚSPECIAL_CODEPOINTS_BY_NAMEc            
       óv  ^ • \ rS rSrSr\" \5      \" \5      \" \5      \" \5      \" \5      \" \	5      SS4U 4S jjr
\S\4S j5       rS rS	\S\\   4S
 jrS\S\4S jrS\S\4S jrS r SS\\   S\\\      S\\   4S jjr SS\\   S\\\      S\S\\   4U 4S jjjrSS\S\\   4S jjrSrU =r$ )ÚCanineTokenizeré:   aÉ  
Construct a CANINE tokenizer (i.e. a character splitter). It turns text into a sequence of characters, and then
converts each character into its Unicode code point.

[`CanineTokenizer`] inherits from [`PreTrainedTokenizer`].

Refer to superclass [`PreTrainedTokenizer`] for usage examples and documentation concerning parameters.

Args:
    model_max_length (`int`, *optional*, defaults to 2048):
            The maximum sentence length the model accepts.
Fi   c	                 óð  >• [        U[        5      (       a  [        USSS9OUn[        U[        5      (       a  [        USSS9OUn[        U[        5      (       a  [        USSS9OUn[        U[        5      (       a  [        USSS9OUn[        U[        5      (       a  [        USSS9OUn[        U[        5      (       a  [        USSS9OUn0 U l        [        R                  5        H  u  p«X R                  U'   M     U R                  R                  5        VV
s0 sH  u  pºX«_M	     sn
nU l        [        U l        [        U R                  5      U l
        [        TU ]0  " SUUUUUUUUS.U	D6  g s  sn
nf )NF)ÚlstripÚrstripT)Ú	bos_tokenÚ	eos_tokenÚ	sep_tokenÚ	cls_tokenÚ	pad_tokenÚ
mask_tokenÚadd_prefix_spaceÚmodel_max_length© )Ú
isinstanceÚstrr   Ú_special_codepointsr   ÚitemsÚ_special_codepoint_stringsÚUNICODE_VOCAB_SIZEÚ_unicode_vocab_sizeÚlenÚ_num_special_tokensÚsuperÚ__init__)Úselfr   r   r   r   r   r   r   r   ÚkwargsÚ	codepointÚnameÚ	__class__s               €Úf/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/canine/tokenization_canine.pyr#   ÚCanineTokenizer.__init__H   sz  ø€ ô JTÐT]Ô_b×IcÑIc”J˜y°¸uÒEÐirˆ	ÜISÐT]Ô_b×IcÑIc”J˜y°¸uÒEÐirˆ	ÜISÐT]Ô_b×IcÑIc”J˜y°¸uÒEÐirˆ	ÜISÐT]Ô_b×IcÑIc”J˜y°¸uÒEÐirˆ	ÜISÐT]Ô_b×IcÑIc”J˜y°¸uÒEÐirˆ	ô KUÐU_Ôad×JeÑJe”Z 
°4ÀÒFÐkuˆ
ð 46ˆÔ Ü1×7Ñ7Ö9‰OˆIØ-6×$Ñ$ TÓ*ñ  :ð
 48×3KÑ3K×3QÑ3QÔ3Sô;
Ù3S¡ ˆIŠOÑ3Sò;
ˆÔ'ô $6ˆÔ Ü#& t×'?Ñ'?Ó#@ˆÔ ä‰Òð 
	
ØØØØØØ!Ø-Ø-ñ
	
ð ó
	
ùó;
s   ÄE2Úreturnc                 ó   • U R                   $ ©N)r   )r$   s    r)   Ú
vocab_sizeÚCanineTokenizer.vocab_sizev   s   € à×'Ñ'Ð'ó    c                 ó¢   • [        U R                  5       Vs0 sH  n[        U5      U_M     nnUR                  U R                  5        U$ s  snf r-   )Úranger.   ÚchrÚupdateÚadded_tokens_encoder)r$   ÚiÚvocabs      r)   Ú	get_vocabÚCanineTokenizer.get_vocabz   sE   € Ü$)¨$¯/©/Ô$:Ó;Ñ$:˜q”Q“˜’Ñ$:ˆÐ;Ø‰T×.Ñ.Ô/Øˆùò <s   ˜AÚtextc                 ó   • [        U5      $ )z5Tokenize a string (i.e. perform character splitting).)Úlist)r$   r:   s     r)   Ú	_tokenizeÚCanineTokenizer._tokenize   s   € äD‹zÐr0   Útokenc                 óT   •  [        U5      $ ! [         a    [        SU S35      ef = f)zaConverts a token (i.e. a Unicode character) in an id (i.e. its integer Unicode code point value).zinvalid token: 'Ú')ÚordÚ	TypeErrorÚ
ValueError)r$   r?   s     r)   Ú_convert_token_to_idÚ$CanineTokenizer._convert_token_to_idƒ   s5   € ð	:Üu“:ÐøÜó 	:ÜÐ/°¨w°aÐ8Ó9Ð9ð	:ús   ‚
 'Úindexc                 óx   •  U[         ;   a	  [         U   $ [        U5      $ ! [         a    [        SU 35      ef = f)z€
Converts a Unicode code point (integer) in a token (str). In case it's a special code point, convert to
human-readable format.
zinvalid id: )r   r3   rC   rD   )r$   rG   s     r)   Ú_convert_id_to_tokenÚ$CanineTokenizer._convert_id_to_tokenŠ   sF   € ð
	5ØÔ*Ó*Ü)¨%Ñ0Ð0Üu“:ÐøÜó 	5Ü˜|¨E¨7Ð3Ó4Ð4ð	5ús   ‚  •
   9c                 ó$   • SR                  U5      $ )NÚ )Újoin)r$   Útokenss     r)   Úconvert_tokens_to_stringÚ(CanineTokenizer.convert_tokens_to_string–   s   € Øw‰wv‹Ðr0   Útoken_ids_0Útoken_ids_1c                 ó\   • U R                   /nU R                  /nXA-   U-   nUb  XRU-   -  nU$ )a8  
Build model inputs from a sequence or a pair of sequence for sequence classification tasks by concatenating and
adding special tokens. A CANINE sequence has the following format:

- single sequence: `[CLS] X [SEP]`
- pair of sequences: `[CLS] A [SEP] B [SEP]`

Args:
    token_ids_0 (`List[int]`):
        List of IDs to which the special tokens will be added.
    token_ids_1 (`List[int]`, *optional*):
        Optional second list of IDs for sequence pairs.

Returns:
    `List[int]`: List of [input IDs](../glossary#input-ids) with the appropriate special tokens.
)Úsep_token_idÚcls_token_id)r$   rQ   rR   ÚsepÚclsÚresults         r)   Ú build_inputs_with_special_tokensÚ0CanineTokenizer.build_inputs_with_special_tokens™   sE   € ð& × Ñ Ð!ˆØ× Ñ Ð!ˆàÑ" SÑ(ˆØÑ"Ø CÑ'Ñ'ˆFØˆr0   Úalready_has_special_tokensc                 ó’   >• U(       a  [         TU ]  XSS9$ S/S/[        U5      -  -   S/-   nUb  US/[        U5      -  S/-   -  nU$ )ad  
Retrieve sequence ids from a token list that has no special tokens added. This method is called when adding
special tokens using the tokenizer `prepare_for_model` method.

Args:
    token_ids_0 (`List[int]`):
        List of IDs.
    token_ids_1 (`List[int]`, *optional*):
        Optional second list of IDs for sequence pairs.
    already_has_special_tokens (`bool`, *optional*, defaults to `False`):
        Whether or not the token list is already formatted with special tokens for the model.

Returns:
    `List[int]`: A list of integers in the range [0, 1]: 1 for a special token, 0 for a sequence token.
T)rQ   rR   r[   é   r   )r"   Úget_special_tokens_maskr    )r$   rQ   rR   r[   rX   r(   s        €r)   r^   Ú'CanineTokenizer.get_special_tokens_mask´   sn   ø€ ö$ &Ü‘7Ñ2Ø'Ð]að 3ð ð ð ˜˜œc +Ó.Ñ.Ñ/°1°#Ñ5ˆØÑ"Ø˜sœS Ó-Ñ-°!°Ñ4Ñ4ˆFØˆr0   Úsave_directoryÚfilename_prefixc                 ó   • g)Nr   r   )r$   r`   ra   s      r)   Úsave_vocabularyÚCanineTokenizer.save_vocabularyÑ   s   € Ør0   )r!   r   r   r   r-   )NF)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r3   ÚCLSÚSEPÚPADÚMASKr#   ÚpropertyÚintr.   r8   r   r<   r=   rE   rI   rO   r   rY   Úboolr^   rc   Ú__static_attributes__Ú__classcell__)r(   s   @r)   r   r   :   s5  ø† ññ c“(Ùc“(Ùc“(Ùc“(Ùc“(Ùt“9ØØ÷,
ð\ ð(˜Có (ó ð(òð
˜cð  d¨3¡iô ð:¨#ð :°#ô :ð
5¨#ð 
5°#ô 
5òð JNñØ ™9ðØ3;¸DÀ¹IÑ3Fðà	ˆc‰õð8 sxñØ ™9ðØ3;¸DÀ¹IÑ3FðØkoðà	ˆc‰÷ð ñ:¨cð ÀHÈSÁM÷ ó r0   r   N)ri   Útypingr   Útokenization_utilsr   r   Úutilsr   Ú
get_loggerre   Úloggerr   rl   rj   rk   ÚBOSrm   ÚRESERVEDr   Údictro   r   Ú__annotations__r   r	   r   Ú__all__)r&   r'   s   00r)   Ú<module>r}      sÚ   ðò 'å ç AÝ ð 
×	Ò	˜HÓ	%€ð Ð ð €Ø€Ø€Ø€Ø€Ø€ð ˆØˆØˆØˆ(ØˆØˆlð&Ð D˜˜c˜‘Nó ð  Vh×UmÑUmÔUoÔ-pÑUoÁ/À)¨dªoÑUoÒ-pÐ ˜D  c ™NÓ pôXÐ)ô Xðv Ð
ùó} .qs   Á#B