ó
    <±h7;  ã                   óÈ   • S r SSKrSSKrSSKrSSKrSSKJr  SSKJrJ	r	J
r
Jr  SSKJr  \R                  " \5      rSSS	.rS
 r " S S5      rS rS r " S S\5      rS/rg)z$Tokenization classes for OpenAI GPT.é    N)ÚOptionalé   )ÚPreTrainedTokenizerÚ_is_controlÚ_is_punctuationÚ_is_whitespace)Úloggingz
vocab.jsonz
merges.txt)Ú
vocab_fileÚmerges_filec                 óX   • U R                  5       n U (       d  / $ U R                  5       nU$ )z@Runs basic whitespace cleaning and splitting on a piece of text.)ÚstripÚsplit)ÚtextÚtokenss     Úf/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/openai/tokenization_openai.pyÚwhitespace_tokenizer   $   s%   € à:‰:‹<€DÞØˆ	ØZ‰Z‹\€FØ€Mó    c                   óX   • \ rS rSrSr     SS jrSS jrS rSS jrS r	S	 r
S
 rSrg)ÚBasicTokenizeré.   ab  
Constructs a BasicTokenizer that will run basic tokenization (punctuation splitting, lower casing, etc.).

Args:
    do_lower_case (`bool`, *optional*, defaults to `True`):
        Whether or not to lowercase the input when tokenizing.
    never_split (`Iterable`, *optional*):
        Collection of tokens which will never be split during tokenization. Only has an effect when
        `do_basic_tokenize=True`
    tokenize_chinese_chars (`bool`, *optional*, defaults to `True`):
        Whether or not to tokenize Chinese characters.

        This should likely be deactivated for Japanese (see this
        [issue](https://github.com/huggingface/transformers/issues/328)).
    strip_accents (`bool`, *optional*):
        Whether or not to strip all accents. If this option is not specified, then it will be determined by the
        value for `lowercase` (as in the original BERT).
    do_split_on_punc (`bool`, *optional*, defaults to `True`):
        In some instances we want to skip the basic punctuation splitting so that later tokenization can capture
        the full context of the words, such as contractions.
Nc                 ó^   • Uc  / nXl         [        U5      U l        X0l        X@l        XPl        g ©N)Údo_lower_caseÚsetÚnever_splitÚtokenize_chinese_charsÚstrip_accentsÚdo_split_on_punc)Úselfr   r   r   r   r   s         r   Ú__init__ÚBasicTokenizer.__init__E   s4   € ð ÑØˆKØ*ÔÜ˜{Ó+ˆÔØ&<Ô#Ø*ÔØ 0Õr   c                 óz  • U(       a$  U R                   R                  [        U5      5      OU R                   nU R                  U5      nU R                  (       a  U R                  U5      n[        R                  " SU5      n[        U5      n/ nU HŒ  nXb;  ad  U R                  (       a1  UR                  5       nU R                  SLa  U R                  U5      nO"U R                  (       a  U R                  U5      nUR                  U R                  Xb5      5        MŽ     [        SR                  U5      5      nU$ )a:  
Basic Tokenization of a piece of text. For sub-word tokenization, see WordPieceTokenizer.

Args:
    never_split (`List[str]`, *optional*)
        Kept for backward compatibility purposes. Now implemented directly at the base class level (see
        [`PreTrainedTokenizer.tokenize`]) List of token not to split.
ÚNFCFÚ )r   Úunionr   Ú_clean_textr   Ú_tokenize_chinese_charsÚunicodedataÚ	normalizer   r   Úlowerr   Ú_run_strip_accentsÚextendÚ_run_split_on_puncÚjoin)r   r   r   Úunicode_normalized_textÚorig_tokensÚsplit_tokensÚtokenÚoutput_tokenss           r   ÚtokenizeÚBasicTokenizer.tokenizeU   s
  € ö CNd×&Ñ&×,Ñ,¬S°Ó-=Ô>ÐSW×ScÑScˆØ×Ñ Ó%ˆð ×&×&Ø×/Ñ/°Ó5ˆDä"-×"7Ò"7¸¸tÓ"DÐÜ)Ð*AÓBˆØˆÛ ˆEØÓ'Ø×%×%Ø!ŸK™K›MEØ×)Ñ)°Ò6Ø $× 7Ñ 7¸Ó >˜øØ×'×'Ø ×3Ñ3°EÓ:EØ×Ñ × 7Ñ 7¸Ó KÖLñ !ô ,¨C¯H©H°\Ó,BÓCˆØÐr   c                 óÆ   • [         R                  " SU5      n/ nU H2  n[         R                  " U5      nUS:X  a  M!  UR                  U5        M4     SR	                  U5      $ )z$Strips accents from a piece of text.ÚNFDÚMnÚ )r(   r)   ÚcategoryÚappendr.   )r   r   ÚoutputÚcharÚcats        r   r+   Ú!BasicTokenizer._run_strip_accents{   sY   € ä×$Ò$ U¨DÓ1ˆØˆÛˆDÜ×&Ò& tÓ,ˆCØd‹{ÙØM‰M˜$Öñ	 ð
 w‰wv‹Ðr   c                 ó   • U R                   (       a  Ub  X;   a  U/$ [        U5      nSnSn/ nU[        U5      :  am  X4   n[        U5      (       a  UR	                  U/5        SnO.U(       a  UR	                  / 5        SnUS   R	                  U5        US-  nU[        U5      :  a  Mm  U Vs/ sH  nSR                  U5      PM     sn$ s  snf )z&Splits punctuation on a piece of text.r   TFéÿÿÿÿé   r9   )r   ÚlistÚlenr   r;   r.   )	r   r   r   ÚcharsÚiÚstart_new_wordr<   r=   Úxs	            r   r-   Ú!BasicTokenizer._run_split_on_punc†   sÂ   € à×$×$¨Ñ)@ÀTÓEXØ6ˆMÜT“
ˆØˆØˆØˆØ”#e“*‹nØ‘8ˆDÜ˜t×$Ñ$Ø—‘˜t˜fÔ%Ø!%‘æ!Ø—M‘M "Ô%Ø!&Ør‘
×!Ñ! $Ô'Ø‰FˆAð ”#e“*nñ %+Ó+¡F˜q—‘˜–
¡FÑ+Ð+ùÒ+s   Â.Cc                 ó  • / nU Hj  n[        U5      nU R                  U5      (       a5  UR                  S5        UR                  U5        UR                  S5        MY  UR                  U5        Ml     SR                  U5      $ )z)Adds whitespace around any CJK character.r$   r9   )ÚordÚ_is_chinese_charr;   r.   ©r   r   r<   r=   Úcps        r   r'   Ú&BasicTokenizer._tokenize_chinese_charsœ   sk   € àˆÛˆDÜT“ˆBØ×$Ñ$ R×(Ñ(Ø—‘˜cÔ"Ø—‘˜dÔ#Ø—‘˜cÖ"à—‘˜dÖ#ñ ð w‰wv‹Ðr   c                 óÆ   • US:¼  a  US::  dT  US:¼  a  US::  dH  US:¼  a  US::  d<  US:¼  a  US::  d0  US	:¼  a  US
::  d$  US:¼  a  US::  d  US:¼  a  US::  d  US:¼  a  US::  a  gg)z6Checks whether CP is the codepoint of a CJK character.i N  iÿŸ  i 4  i¿M  i   iß¦ i § i?· i@· i¸ i ¸ i¯Î i ù  iÿú  i ø iú TF© )r   rN   s     r   rL   ÚBasicTokenizer._is_chinese_char©   sr   € ð 6‹\˜b F›lØf“  v£Øg“ "¨£-Øg“ "¨£-Øg“ "¨£-Øg“ "¨£-Øf“  v£Øg“ "¨£-ààr   c                 óô   • / nU H`  n[        U5      nUS:X  d  US:X  d  [        U5      (       a  M,  [        U5      (       a  UR                  S5        MO  UR                  U5        Mb     SR	                  U5      $ )zBPerforms invalid character removal and whitespace cleanup on text.r   iýÿ  r$   r9   )rK   r   r   r;   r.   rM   s        r   r&   ÚBasicTokenizer._clean_textÁ   sg   € àˆÛˆDÜT“ˆBØQ‹w˜" ›,¬+°d×*;Ñ*;ÙÜ˜d×#Ñ#Ø—‘˜cÖ"à—‘˜dÖ#ñ ð w‰wv‹Ðr   )r   r   r   r   r   )TNTNTr   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r    r4   r+   r-   r'   rL   r&   Ú__static_attributes__rQ   r   r   r   r   .   s<   † ñð0 ØØ#ØØô1ô $òL	ô,ò,òõ0r   r   c                 ód   • [        5       nU S   nU SS  H  nUR                  X#45        UnM     U$ )zw
Return set of symbol pairs in a word. word is represented as tuple of symbols (symbols being variable-length
strings)
r   rB   N)r   Úadd)ÚwordÚpairsÚ	prev_charr=   s       r   Ú	get_pairsr`   Ï   s?   € ô
 ‹E€EØQ‘€IØQR“ˆØ	‰	9Ð#Ô$ØŠ	ñ ð €Lr   c                 óf  • U R                  SS5      n U R                  SS5      n U R                  SS5      n U R                  SS5      n U R                  SS5      n [        R                  " S	S
U 5      n [        R                  " SSU 5      n [        R                  " SSU 5      n U R                  5       $ )ze
fixes some issues the spacy tokenizer had on books corpus also does some whitespace standardization
u   â€”Ú-u   â€“u   â€•u   â€¦z...ô   Â´Ú'zD(-+|~+|!+|"+|;+|\?+|\++|,+|\)+|\(+|\\+|\/+|\*+|\[+|\]+|}+|{+|\|+|_+)z \1 z\s*\n\s*z 
 z[^\S\n]+r$   )ÚreplaceÚreÚsubr   )r   s    r   Útext_standardizerh   Ü   s™   € ð <‰<˜˜sÓ#€DØ<‰<˜˜sÓ#€DØ<‰<˜˜sÓ#€DØ<‰<˜˜uÓ%€DØ<‰<˜˜cÓ"€DÜ6Š6Ð]Ð_fÐhlÓm€DÜ6Š6+˜v tÓ,€DÜ6Š6+˜s DÓ)€DØ:‰:‹<Ðr   c                   ó¦   ^ • \ rS rSrSr\rSS/rSU 4S jjr\	S 5       r
\	S 5       rS rS	 rS
 rS rS rS rSS\S\\   S\\   4S jjrSrU =r$ )ÚOpenAIGPTTokenizeréë   aì  
Construct a GPT Tokenizer. Based on Byte-Pair-Encoding with the following peculiarities:

- lowercases all inputs,
- uses `SpaCy` tokenizer and `ftfy` for pre-BPE tokenization if they are installed, fallback to BERT's
  `BasicTokenizer` if not.

This tokenizer inherits from [`PreTrainedTokenizer`] which contains most of the main methods. Users should refer to
this superclass for more information regarding those methods.

Args:
    vocab_file (`str`):
        Path to the vocabulary file.
    merges_file (`str`):
        Path to the merges file.
    unk_token (`str`, *optional*, defaults to `"<unk>"`):
        The unknown token. A token that is not in the vocabulary cannot be converted to an ID and is set to be this
        token instead.
Ú	input_idsÚattention_maskc           
      óF  >•  SS K nSSKJn  U" 5       nUR                  U l        UR
                  U l        [        USS9 n[        R                  " U5      U l        S S S 5        U R                  R                  5        V	V
s0 sH  u  pšX©_M	     sn
n	U l        [        USS9 nUR!                  5       R#                  S5      S	S
 nS S S 5        W Vs/ sH  n[%        UR#                  5       5      PM     nn['        [)        U[+        [-        U5      5      5      5      U l        0 U l        [2        TU ]h  " SSU0UD6  g ! [         a.    [        R                  S5        [        SS9U l        S U l         GN;f = f! , (       d  f       GN = fs  sn
n	f ! , (       d  f       NÏ= fs  snf )Nr   )ÚEnglishzQftfy or spacy is not installed using BERT BasicTokenizer instead of SpaCy & ftfy.T)r   úutf-8©ÚencodingÚ
rB   rA   Ú	unk_tokenrQ   )ÚftfyÚspacy.lang.enro   Ú	tokenizerÚnlpÚfix_textÚImportErrorÚloggerÚwarningr   ÚopenÚjsonÚloadÚencoderÚitemsÚdecoderÚreadr   ÚtupleÚdictÚzipÚrangerD   Ú	bpe_ranksÚcacheÚsuperr    )r   r
   r   rt   Úkwargsru   ro   Ú_nlpÚvocab_handleÚkÚvÚmerges_handleÚmergesÚmergeÚ	__class__s                 €r   r    ÚOpenAIGPTTokenizer.__init__  sD  ø€ ð
	!ÛÝ-á“9ˆDØ—~‘~ˆDŒHØ ŸM™MˆDŒMô * wÒ/°<ÜŸ9š9 \Ó2ˆDŒL÷ 0à)-¯©×);Ñ);Ô)=Ô>Ñ)=¡ ˜šÑ)=Ò>ˆŒÜ+¨Ò0°MØ"×'Ñ'Ó)×/Ñ/°Ó5°a¸Ð;ˆF÷ 1á4:Ó;±F¨5”%˜Ÿ™›Ö&±FˆÐ;Üœc &¬%´°F³Ó*<Ó=Ó>ˆŒØˆŒ
ä‰ÒÑ7 9Ð7°Ó7øô ó 	!ÜN‰NÐnÔoÜ%°DÑ9ˆDŒHØ ˆDMð	!ú÷
 0Ö/üã>ß0Õ0üâ;s5   ƒ3D: Á E5ÂFÂ!#FÃ"FÄ:4E2Å1E2Å5
FÆ
Fc                 ó   • g)NTrQ   ©r   s    r   r   Ú OpenAIGPTTokenizer.do_lower_case  s   € àr   c                 ó,   • [        U R                  5      $ r   )rD   r€   r–   s    r   Ú
vocab_sizeÚOpenAIGPTTokenizer.vocab_size  s   € ä4—<‘<Ó Ð r   c                 óB   • [        U R                  40 U R                  D6$ r   )r…   r€   Úadded_tokens_encoderr–   s    r   Ú	get_vocabÚOpenAIGPTTokenizer.get_vocab#  s   € ÜD—L‘LÑ> D×$=Ñ$=Ñ>Ð>r   c                 ó  ^ • [        US S 5      US   S-   4-   nUT R                  ;   a  T R                  U   $ [        U5      nU(       d  US-   $  [        UU 4S jS9nUT R                  ;  a  OÏUu  pV/ nSnU[        U5      :  aŽ   UR                  XX5      n	UR                  X(U	 5        U	nX(   U:X  a6  U[        U5      S-
  :  a$  X(S-      U:X  a  UR                  XV-   5        US-  nOUR                  X(   5        US-  nU[        U5      :  a  MŽ  [        U5      nUn[        U5      S:X  a  O[        U5      nMî  SR                  U5      nUS	:X  a  S
nUT R                  U'   U$ ! [         a    UR                  X(S  5         Mt  f = f)NrA   ú</w>c                 óN   >• TR                   R                  U [        S5      5      $ )NÚinf)rˆ   ÚgetÚfloat)Úpairr   s    €r   Ú<lambda>Ú(OpenAIGPTTokenizer.bpe.<locals>.<lambda>0  s   ø€ °·±×1CÑ1CÀDÌ%ÐPUË,Ô1Wr   ©Úkeyr   rB   é   r$   z
  </w>z
</w>)r„   r‰   r`   Úminrˆ   rD   Úindexr,   Ú
ValueErrorr;   r.   )
r   r2   r]   r^   ÚbigramÚfirstÚsecondÚnew_wordrF   Újs
   `         r   ÚbpeÚOpenAIGPTTokenizer.bpe&  sš  ø€ ÜU˜3˜BZÓ  E¨"¡I°Ñ$6Ð#8Ñ8ˆØD—J‘JÓØ—:‘:˜eÑ$Ð$Ü˜$“ˆæØ˜6‘>Ð!àÜ˜Ô$WÑXˆFØ˜TŸ^™^Ó+ØØ"‰MˆEØˆHØˆAØ”c˜$“i“-ðØŸ
™
 5Ó,Að
 —O‘O D¨1 IÔ.ØAà‘7˜eÓ#¨¬C°«I¸©MÓ(9¸dÀqÁ5¹kÈVÓ>SØ—O‘O E¡NÔ3Ø˜‘F‘Aà—O‘O D¡GÔ,Ø˜‘FAð ”c˜$“i•-ô  ˜X“ˆHØˆDÜ4‹y˜A‹~Øä! $›ñ9 ð: x‰x˜‹~ˆØ:ÓØˆDØ ˆ
‰
5ÑØˆøô/ "ó Ø—O‘O D¨ HÔ-Úðús   ÂE) Å)F
Æ	F
c           	      óä  • / nU R                   c^  U R                  R                  U5      nU H;  nUR                  [	        U R                  U5      R                  S5      5      5        M=     U$ U R                  [        U R                  U5      5      5      nU HS  nUR                  [	        U R                  UR                  R                  5       5      R                  S5      5      5        MU     U$ )zTokenize a string.r$   )
ry   rx   r4   r,   rC   r³   r   rh   r   r*   )r   r   r1   r2   s       r   Ú	_tokenizeÚOpenAIGPTTokenizer._tokenizeR  sÀ   € àˆØ=‰=Ñ à—8‘8×$Ñ$ TÓ*ˆDÛØ×#Ñ#¤D¨¯©°%«×)>Ñ)>¸sÓ)CÓ$DÖEñ ð Ðð —8‘8Ô,¨T¯]©]¸4Ó-@ÓAÓBˆDÛØ×#Ñ#¤D¨¯©°%·*±*×2BÑ2BÓ2DÓ)E×)KÑ)KÈCÓ)PÓ$QÖRñ àÐr   c                 ó~   • U R                   R                  XR                   R                  U R                  5      5      $ )z0Converts a token (str) in an id using the vocab.)r€   r£   rt   )r   r2   s     r   Ú_convert_token_to_idÚ'OpenAIGPTTokenizer._convert_token_to_ida  s*   € à|‰|×Ñ §|¡|×'7Ñ'7¸¿¹Ó'GÓHÐHr   c                 óL   • U R                   R                  XR                  5      $ )z0Converts an id in a token (BPE) using the vocab.)r‚   r£   rt   )r   r¬   s     r   Ú_convert_id_to_tokenÚ'OpenAIGPTTokenizer._convert_id_to_tokene  s   € à|‰|×Ñ §~¡~Ó6Ð6r   c                 ód   • SR                  U5      R                  SS5      R                  5       nU$ )z:Converts a sequence of tokens (string) in a single string.r9   r    r$   )r.   re   r   )r   r   Ú
out_strings      r   Úconvert_tokens_to_stringÚ+OpenAIGPTTokenizer.convert_tokens_to_stringi  s+   € à—W‘W˜V“_×,Ñ,¨V°SÓ9×?Ñ?ÓAˆ
ØÐr   Úsave_directoryÚfilename_prefixÚreturnc           
      ód  • [         R                  R                  U5      (       d  [        R	                  SU S35        g [         R                  R                  X(       a  US-   OS[        S   -   5      n[         R                  R                  X(       a  US-   OS[        S   -   5      n[        USSS	9 nUR                  [        R                  " U R                  S
SSS9S-   5        S S S 5        Sn[        USSS	9 nUR                  S5        [        U R                  R                  5       S S9 HM  u  p‰Xi:w  a  [        R                  SU S35        U	nUR                  SR                  U5      S-   5        US-  nMO     S S S 5        X44$ ! , (       d  f       N¬= f! , (       d  f       X44$ = f)NzVocabulary path (z) should be a directoryrb   r9   r
   r   Úwrp   rq   rª   TF)ÚindentÚ	sort_keysÚensure_asciirs   r   z#version: 0.2
c                 ó   • U S   $ )NrB   rQ   )Úkvs    r   r¦   Ú4OpenAIGPTTokenizer.save_vocabulary.<locals>.<lambda>  s   € ÐY[Ð\]ÒY^r   r¨   zSaving vocabulary to zZ: BPE merge indices are not consecutive. Please check that the tokenizer is not corrupted!r$   rB   )ÚosÚpathÚisdirr{   Úerrorr.   ÚVOCAB_FILES_NAMESr}   Úwriter~   Údumpsr€   Úsortedrˆ   r   r|   )
r   rÂ   rÃ   r
   Ú
merge_fileÚfr¬   ÚwriterÚ
bpe_tokensÚtoken_indexs
             r   Úsave_vocabularyÚ"OpenAIGPTTokenizer.save_vocabularyn  s†  € Üw‰w}‰}˜^×,Ñ,ÜL‰LÐ,¨^Ð,<Ð<SÐTÔUØÜ—W‘W—\‘\Øµo˜_¨sÒ2È2ÔQbÐcoÑQpÑpó
ˆ
ô —W‘W—\‘\Øµo˜_¨sÒ2È2ÔQbÐcpÑQqÑqó
ˆ
ô *˜c¨GÒ4¸ØG‰G”D—J’J˜tŸ|™|°AÀÐTYÑZÐ]aÑaÔb÷ 5ð ˆÜ*˜c¨GÒ4¸ØL‰LÐ*Ô+Ü+1°$·.±.×2FÑ2FÓ2HÑN^Ô+_Ñ'
ØÓ'Ü—N‘NØ/°
¨|ð <Mð Môð (EØ—‘˜SŸX™X jÓ1°DÑ8Ô9Ø˜‘
’ñ ,`÷ 5ð Ð%Ð%÷! 5Õ4ú÷ 5Ô4ð Ð%Ð%ús   Â44FÃ=BFÆ
FÆ
F/)rˆ   r‰   r‚   r€   ry   rx   )z<unk>r   )rU   rV   rW   rX   rY   rÑ   Úvocab_files_namesÚmodel_input_namesr    Úpropertyr   r™   r   r³   r¶   r¹   r¼   rÀ   Ústrr   r„   rÚ   rZ   Ú__classcell__)r“   s   @r   rj   rj   ë   s“   ø† ñð( *ÐØ$Ð&6Ð7Ð÷8ð0 ñó ðð ñ!ó ð!ò?ò*òXòIò7òñ
&¨cð &ÀHÈSÁMð &Ð]bÐcfÑ]g÷ &ó &r   rj   )rY   r~   rÍ   rf   r(   Útypingr   Útokenization_utilsr   r   r   r   Úutilsr	   Ú
get_loggerrU   r{   rÑ   r   r   r`   rh   rj   Ú__all__rQ   r   r   Ú<module>ræ      sz   ðñ +ã Û 	Û 	Û Ý ç cÓ cÝ ð 
×	Ò	˜HÓ	%€ð ØñÐ ò÷^ñ ^òB
òô^&Ð,ô ^&ðB  Ð
 r   