ó
    <±hÙ}  ã                   óâ  • S r SSKJrJr  SSKrSSKrSSKJr  SSKJ	r	J
r
Jr  SSKJrJr  SSKJr  SS	KJrJrJr  SS
KJr  SSKJrJrJr  SSKJrJr  SSKJr  \R@                  " \!5      r"S r#S r$S#S jr% " S S\RL                  5      r'S r( " S S\RL                  5      r)\ " S S\5      5       r*\ " S S\*5      5       r+\" SS9 " S S\*\5      5       r,\" SS9 " S  S!\*5      5       r-/ S"Qr.g)$zPyTorch CTRL model.é    )ÚOptionalÚUnionN)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚCacheÚDynamicCache)ÚGenerationMixin)ÚBaseModelOutputWithPastÚCausalLMOutputWithPastÚSequenceClassifierOutput)ÚPreTrainedModel)ÚConv1DÚ find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚloggingé   )Ú
CTRLConfigc                 óP   • S[         R                  " SSUS-  -  U-  5      -  nX-  $ )Nr   i'  é   )ÚtorchÚpow)ÚposÚiÚd_model_sizeÚangle_ratess       Ú^/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/ctrl/modeling_ctrl.pyÚ
angle_defnr!   (   s-   € Ø”e—i’i ¨¨Q°!©V©¸Ñ'DÓEÑE€KØÑÐó    c                 óÈ  • [        [        R                  " U [        R                  S9R	                  U5      R                  S5      [        R                  " U[        R                  S9R	                  U5      R                  S5      U5      n[        R                  " US S 2SS S24   5      n[        R                  " US S 2SS S24   5      n[        R                  " XE/SS9nU$ )N©Údtyper   r   r   éÿÿÿÿ©Údim)	r!   r   ÚarangeÚint64ÚtoÚ	unsqueezeÚsinÚcosÚcat)Úpositionr   r%   Ú
angle_radsÚsinesÚcosinesÚpos_encodings          r    Úpositional_encodingr5   -   s´   € äÜŠX¤U§[¡[Ñ1×4Ñ4°UÓ;×EÑEÀaÓHÜŠ\¬¯©Ñ5×8Ñ8¸Ó?×IÑIÈ!ÓLØó€Jô IŠIj¢ A D q D Ñ)Ó*€EÜiŠi˜
¢1 a d¨ d 7Ñ+Ó,€Gä—9’9˜eÐ-°2Ñ6€LØÐr"   c           	      ó†  • [         R                  " XR                  SSSS5      5      nUR                  S   nU[        R
                  " U5      -  nUb3  UR                  S5      UR                  S5      p©XƒX©-
  U
2S U
24   S-  -  nUb  X„-   n[         R                  " USS9nUb  Xµ-  n[         R                  " X²5      nXË4$ )	Nr   r   r	   r   r&   éþÿÿÿg     ˆÃÀr'   )r   ÚmatmulÚpermuteÚshapeÚnpÚsqrtÚsizeÚsoftmax)ÚqÚkÚvÚmaskÚattention_maskÚ	head_maskÚ	matmul_qkÚdkÚscaled_attention_logitsÚndÚnsÚattention_weightsÚoutputs                r    Úscaled_dot_product_attentionrL   <   sÐ   € ä—’˜Q§	¡	¨!¨Q°°1Ó 5Ó6€Ià	
‰‰€BØ'¬"¯'ª'°"«+Ñ5ÐàÑØ(×-Ñ-¨bÓ1Ð3J×3OÑ3OÐPRÓ3SˆBØ¨©°"¨°c°r°cÐ(9Ñ#:¸TÑ#AÑAÐàÑ!à"9Ñ"JÐäŸšÐ&=À2ÑFÐð ÑØ-Ñ9Ðä\Š\Ð+Ó/€FàÐ$Ð$r"   c                   óN   ^ • \ rS rSrSU 4S jjrS rS r      SS jrSrU =r	$ )	ÚMultiHeadAttentionéV   c                 ót  >• [         TU ]  5         X l        Xl        X0l        [        XR                  -  5      U l        [        R                  " X5      U l	        [        R                  " X5      U l
        [        R                  " X5      U l        [        R                  " X5      U l        [        5       U l        g ©N)ÚsuperÚ__init__Ú	num_headsr   Ú	layer_idxÚintÚdepthr   ÚLinearÚWqÚWkÚWvÚdenseÚsetÚpruned_heads)Úselfr   rT   rU   Ú	__class__s       €r    rS   ÚMultiHeadAttention.__init__W   s{   ø€ Ü‰ÑÔØ"ŒØ(ÔØ"Œä˜¯©Ñ6Ó7ˆŒ
ä—)’)˜LÓ7ˆŒÜ—)’)˜LÓ7ˆŒÜ—)’)˜LÓ7ˆŒä—Y’Y˜|Ó:ˆŒ
Ü›EˆÕr"   c                 ó  • U R                   U R                  -  n[        U5      S:X  a  g [        XR                  X R                  5      u  p[        U R                  U5      U l        [        U R                  U5      U l        [        U R                  U5      U l        [        U R                  USS9U l	        U R                  [        U5      -
  U l        X R                  -  U l         U R                  R                  U5      U l        g )Nr   r   r'   )r   rT   Úlenr   r^   r   rY   rZ   r[   r\   Úunion)r_   ÚheadsÚattention_head_sizeÚindexs       r    Úprune_headsÚMultiHeadAttention.prune_headsf   sÈ   € Ø"×/Ñ/°4·>±>ÑAÐÜˆu‹:˜‹?ØÜ7¸¿~¹~ÐOb×duÑduÓv‰ˆô % T§W¡W¨eÓ4ˆŒÜ$ T§W¡W¨eÓ4ˆŒÜ$ T§W¡W¨eÓ4ˆŒÜ'¨¯
©
°E¸qÑAˆŒ
ð Ÿ™¬#¨e«*Ñ4ˆŒØ/·.±.Ñ@ˆÔØ ×-Ñ-×3Ñ3°EÓ:ˆÕr"   c                 óx   • UR                  USU R                  U R                  5      nUR                  / SQ5      $ )Nr&   ©r   r   r   r	   )ÚreshaperT   rW   r9   )r_   ÚxÚ
batch_sizes      r    Úsplit_into_headsÚ#MultiHeadAttention.split_into_headsw   s-   € ØI‰Ij " d§n¡n°d·j±jÓAˆØy‰yšÓ&Ð&r"   c                 óæ  • UR                   S   nU R                  U5      nU R                  U5      nU R                  U5      nU R	                  X;5      nU R	                  X+5      nU R	                  X5      nUb!  UR                  X!U R                  SU
05      u  p![        X2XXg5      nUS   R                  / SQ5      nUS   nUR                  USU R                  5      nU R                  U5      nXÎ4$ )Nr   Úcache_positionrk   r   r&   )r:   rY   rZ   r[   ro   ÚupdaterU   rL   r9   rl   r   r\   )r_   rA   r@   r?   rB   Ú
layer_pastrC   rD   Ú	use_cacheÚoutput_attentionsrr   rn   rK   Úscaled_attentionÚattnÚoriginal_size_attentions                   r    ÚforwardÚMultiHeadAttention.forward{   sì   € ð —W‘W˜Q‘Zˆ
àG‰GA‹JˆØG‰GA‹JˆØG‰GA‹Jˆà×!Ñ! !Ó0ˆØ×!Ñ! !Ó0ˆØ×!Ñ! !Ó0ˆàÑ!Ø×$Ñ$ Q¨4¯>©>Ð<LÈnÐ;]Ó^‰DˆAä-¨a°A¸^ÓWˆØ! !™9×,Ñ,ª\Ó:ÐØa‰yˆØ"2×":Ñ":¸:ÀrÈ4×K\ÑK\Ó"]ÐØ—‘Ð3Ó4ˆØˆ|Ðr"   )	rZ   rY   r[   r   r\   rW   rU   rT   r^   rQ   ©NNNFFN)
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__rS   rh   ro   rz   Ú__static_attributes__Ú__classcell__©r`   s   @r    rN   rN   V   s0   ø† ÷"ò;ò"'ð ØØØØØ÷ò r"   rN   c                 ó¨   • [         R                  " [         R                  " X5      [         R                  " 5       [         R                  " X5      5      $ rQ   )r   Ú
SequentialrX   ÚReLU)r   Údffs     r    Úpoint_wise_feed_forward_networkrˆ      s-   € Ü=Š=œŸš <Ó5´r·w²w³yÄ"Ç)Â)ÈCÓB^Ó_Ð_r"   c                   óB   ^ • \ rS rSrSU 4S jjr      SS jrSrU =r$ )ÚEncoderLayeré¡   c                 ó4  >• [         TU ]  5         [        XUS9U l        [	        X5      U l        [        R                  " USS9U l        [        R                  " USS9U l	        [        R                  " U5      U l        [        R                  " U5      U l        g )N©rU   gíµ ÷Æ°>©Úeps)rR   rS   rN   Úmulti_head_attentionrˆ   Úffnr   Ú	LayerNormÚ
layernorm1Ú
layernorm2ÚDropoutÚdropout1Údropout2)r_   r   rT   r‡   ÚraterU   r`   s         €r    rS   ÚEncoderLayer.__init__¢   sn   ø€ Ü‰ÑÔä$6°|ÐZcÑ$dˆÔ!Ü2°<ÓEˆŒäŸ,š, |¸Ñ>ˆŒÜŸ,š, |¸Ñ>ˆŒäŸ
š
 4Ó(ˆŒÜŸ
š
 4Ó(ˆr"   c	                 ó  • U R                  U5      n	U R                  U	U	U	UUUUUUUS9
n
U
S   nU R                  U5      nX-   nU R                  U5      nU R	                  U5      nU R                  U5      nXÎ-   nU4U
SS  -   nU$ )N©rt   rC   rD   ru   rv   rr   r   r   )r“   r   r–   r”   r‘   r—   )r_   rm   rB   rt   rC   rD   ru   rv   rr   ÚnormedÚattn_outputsÚattn_outputÚout1Úout2Ú
ffn_outputÚoutputss                   r    rz   ÚEncoderLayer.forward®   s®   € ð —‘ Ó#ˆØ×0Ñ0ØØØØØ!Ø)ØØØ/Ø)ð 1ð 
ˆð # 1‘oˆØ—m‘m KÓ0ˆØ‰ˆà‰˜tÓ$ˆØ—X‘X˜d“^ˆ
Ø—]‘] :Ó.ˆ
ØÑ ˆà'˜L¨¨Ð,Ñ,ˆØˆr"   )r–   r—   r‘   r“   r”   r   )gš™™™™™¹?Nr|   )r}   r~   r   r€   rS   rz   r   r‚   rƒ   s   @r    rŠ   rŠ   ¡   s&   ø† ÷
)ð  ØØØØØ÷"ò "r"   rŠ   c                   ó*   • \ rS rSr% \\S'   SrS rSrg)ÚCTRLPreTrainedModeléÓ   ÚconfigÚtransformerc                 ó$  • [        U[        R                  [        45      (       ak  UR                  R
                  R                  SU R                  R                  S9  UR                  b%  UR                  R
                  R                  5         gg[        U[        R                  5      (       ax  UR                  R
                  R                  SU R                  R                  S9  UR                  b2  UR                  R
                  UR                     R                  5         gg[        U[        R                  5      (       aJ  UR                  R
                  R                  5         UR                  R
                  R                  S5        gg)zInitialize the weights.g        )ÚmeanÚstdNç      ð?)Ú
isinstancer   rX   r   ÚweightÚdataÚnormal_r§   Úinitializer_rangeÚbiasÚzero_Ú	EmbeddingÚpadding_idxr’   Úfill_)r_   Úmodules     r    Ú_init_weightsÚ!CTRLPreTrainedModel._init_weightsØ   s  € äfœrŸy™y¬&Ð1×2Ñ2ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)ð .r"   © N)	r}   r~   r   r€   r   Ú__annotations__Úbase_model_prefixr¸   r   rº   r"   r    r¥   r¥   Ó   s   ‡ àÓØ%Ðõ*r"   r¥   c                   ó¶  ^ • \ rS rSrU 4S jrS rS rS r\            SS\	\
R                     S\	\\\
R                           S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\	\   S\	\
R                     S\\\
R                     \4   4S jj5       rSrU =r$ )Ú	CTRLModeléé   c                 óâ  >• [         TU ]  U5        UR                  U l        UR                  U l        [        UR                  U R                  [        R                  5      U l
        [        R                  " UR                  UR                  5      U l        [        R                  " UR                   5      U l        [        R$                  " ['        UR                  5       Vs/ sH8  n[)        UR                  UR*                  UR,                  UR.                  US9PM:     sn5      U l        [        R2                  " UR                  UR4                  S9U l        U R9                  5         g s  snf )Nr   rŽ   )rR   rS   Ún_embdr   Ún_layerÚ
num_layersr5   Ún_positionsr   Úfloatr4   r   r´   Ú
vocab_sizeÚwr•   Ú
embd_pdropÚdropoutÚ
ModuleListÚrangerŠ   Ún_headr‡   Úresid_pdropÚhr’   Úlayer_norm_epsilonÚ	layernormÚ	post_init)r_   r§   r   r`   s      €r    rS   ÚCTRLModel.__init__ë   s  ø€ Ü‰Ñ˜Ô à"ŸM™MˆÔØ Ÿ.™.ˆŒä/°×0BÑ0BÀD×DUÑDUÔW\×WbÑWbÓcˆÔä—’˜f×/Ñ/°·±Ó?ˆŒä—z’z &×"3Ñ"3Ó4ˆŒÜ—’ô ˜vŸ~™~Ô.óá.Aô ˜VŸ]™]¨F¯M©M¸6¿:¹:Àv×GYÑGYÐefÔgÙ.ñó
ˆŒô Ÿš f§m¡m¸×9RÑ9RÑSˆŒð 	‰Õùòs   Ã#>E,c                 ó   • U R                   $ rQ   ©rÇ   )r_   s    r    Úget_input_embeddingsÚCTRLModel.get_input_embeddings  s   € Øv‰vˆr"   c                 ó   • Xl         g rQ   rÔ   )r_   Únew_embeddingss     r    Úset_input_embeddingsÚCTRLModel.set_input_embeddings  s   € Ør"   c                 ó†   • UR                  5        H-  u  p#U R                  U   R                  R                  U5        M/     g)zf
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer}
N)ÚitemsrÎ   r   rh   )r_   Úheads_to_pruneÚlayerre   s       r    Ú_prune_headsÚCTRLModel._prune_heads  s5   € ð +×0Ñ0Ö2‰LˆEØF‰F5‰M×.Ñ.×:Ñ:¸5ÖAò 3r"   Ú	input_idsÚpast_key_valuesrC   Útoken_type_idsÚposition_idsrD   Úinputs_embedsru   rv   Úoutput_hidden_statesÚreturn_dictrr   Úreturnc                 óŠ  • U	b  U	OU R                   R                  n	Ub  UOU R                   R                  nU
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  Ub  [        S5      eUbF  U R                  X5        UR                  5       nUR                  SUS   5      nUR                  S   nO1Ub#  UR                  5       SS nUR                  S   nO[        S5      eUb  UR                  OUR                  nSnU(       aB  [        U[        5      (       d-  [        R                  S5        Sn[        R                   " U5      nUb  UR#                  5       OSnUc<  [$        R&                  " UUS   U-   [$        R(                  US	9nUR+                  S5      nUbŒ  US::  a  [        S
5      eUR                  US5      nUR+                  S5      R+                  S5      nUR-                  U R.                  S9nSU-
  [$        R0                  " U R.                  5      R2                  -  nU R5                  X`R                   R6                  5      nUbJ  UR                  SUS   5      nU R9                  U5      nU[:        R<                  " U R>                  5      -  nOSnUc  U R9                  U5      nUS   n[$        R@                  " [$        RB                  " UU-   UU-   5      S5      R-                  U5      nU[:        R<                  " U R>                  5      -  nU RD                  R-                  U5      U l"        U RD                  USS24   nUU-   U-   nU RG                  U5      nU
(       a  SOSnU	(       a  SOSn[I        U RJ                  5       H:  u  nnU
(       a  UU4-   nU" UUUUUU   UU	US9nUS   nU	(       d  M1  UUS   4-  nM<     U RM                  U5      nU
(       a  UU4-   nU(       a  URO                  5       nU(       d  [Q        S UUUU4 5       5      $ [S        UUUUS9$ )a•  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values[0].shape[-2]`
    (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

    If `past_key_values` is used, only input IDs that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.__call__`] and
    [`PreTrainedTokenizer.encode`] for details.

    [What are input IDs?](../glossary#input-ids)

Example:

```python
>>> from transformers import AutoTokenizer, CTRLModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
>>> model = CTRLModel.from_pretrained("Salesforce/ctrl")

>>> # CTRL was trained with control codes as the first token
>>> inputs = tokenizer("Opinion My dog is cute", return_tensors="pt")
>>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 5, 1280]
```NzDYou cannot specify both input_ids and inputs_embeds at the same timer&   r   z5You have to specify either input_ids or inputs_embedsFzÞPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `DynamicCache` instead, e.g. `past_key_values=DynamicCache.from_legacy_cache(past_key_values)`.T)r%   Údevicez$batch_size has to be defined and > 0r   r   r$   r¬   rº   r›   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frQ   rº   )Ú.0rA   s     r    Ú	<genexpr>Ú$CTRLModel.forward.<locals>.<genexpr>­  s   é € ð Ù^a—‘Ò^ùs   ‚‹	)Úlast_hidden_staterâ   Úhidden_statesÚ
attentions)*r§   rv   ru   ræ   Úuse_return_dictÚ
ValueErrorÚ%warn_if_padding_and_no_attention_maskr=   Úviewr:   rê   r­   r
   ÚloggerÚwarning_oncer   Úfrom_legacy_cacheÚget_seq_lengthr   r)   Úlongr,   r+   r%   ÚfinfoÚminÚget_head_maskrÂ   rÇ   r;   r<   r   ÚtriuÚonesr4   rÉ   Ú	enumeraterÎ   rÐ   Úto_legacy_cacheÚtupler   )r_   rá   râ   rC   rã   rä   rD   rå   ru   rv   ræ   rç   rr   ÚkwargsÚinput_shapern   rê   Úreturn_legacy_cacheÚpast_lengthÚtoken_type_embedsÚseq_lenrB   Ú
pos_embedsrð   Úall_hidden_statesÚall_attentionsr   rÎ   r¢   s                                r    rz   ÚCTRLModel.forward  s:  € ðb 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐØ!*Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	à$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;ˆIØ"Ÿ™¨Ñ+‰JØÑ&Ø'×,Ñ,Ó.¨s°Ð3ˆKØ&×,Ñ,¨QÑ/‰JäÐTÓUÐUà%.Ñ%:×!Ò!À×@TÑ@Tˆà#ÐÞœZ¨¼×?Ñ?Ü×ÑðUôð
 #'ÐÜ*×<Ò<¸_ÓMˆOà:IÑ:Uo×4Ñ4Ô6Ð[\ˆØÑÜ Ÿ<š<¨°[À±_À{Ñ5RÔZ_×ZdÑZdÐmsÑtˆLØ'×1Ñ1°!Ó4ˆLð Ñ%Ø˜Q‹Ü Ð!GÓHÐHØ+×0Ñ0°¸RÓ@ˆNð ,×5Ñ5°aÓ8×BÑBÀ1ÓEˆNð ,×.Ñ.°T·Z±ZÐ.Ð@ˆNØ! NÑ2´e·k²kÀ$Ç*Á*Ó6M×6QÑ6QÑQˆNð ×&Ñ& y·+±+×2EÑ2EÓFˆ	àÑ%Ø+×0Ñ0°°[À±_ÓEˆNØ $§¡ ~Ó 6ÐØ¤§¢¨×):Ñ):Ó!;Ñ;Ñà !ÐàÑ Ø ŸF™F 9Ó-ˆMà˜b‘/ˆÜzŠzœ%Ÿ*š* W¨{Ñ%:¸GÀkÑ<QÓRÐTUÓV×YÑYÐZ`ÓaˆàœŸš ×!2Ñ!2Ó3Ñ3ˆð !×-Ñ-×0Ñ0°Ó8ˆÔØ×&Ñ& |²Q Ñ7ˆ
à%¨
Ñ2Ð5FÑFˆàŸ™ ]Ó3ˆæ"6™B¸DÐÞ0™°dˆÜ˜dŸf™fÖ%‰DˆAˆqÞ#Ø$5¸Ð8HÑ$HÐ!ÙØØØ*Ø-Ø# A™,Ø#Ø"3Ø-ñ	ˆGð $ A™JˆMß Ð Ø 7¨1¡: -Ñ/’ñ &ð" Ÿ™ }Ó5ˆÞØ 1°]Ð4DÑ DÐæØ-×=Ñ=Ó?ˆOæÜñ Ø)¨?Ð<MÈ~Ñ^óó ð ô 'Ø+Ø+Ø+Ø%ñ	
ð 	
r"   )r   rÉ   rÎ   rÐ   rÃ   r4   rÇ   ©NNNNNNNNNNNN)r}   r~   r   r€   rS   rÕ   rÙ   rß   r   r   r   Ú
LongTensorr  ÚFloatTensorÚboolÚTensorr   r   rz   r   r‚   rƒ   s   @r    r¾   r¾   é   se  ø† õò,ò òBð ð 15ØEIØ6:Ø59Ø37Ø15Ø59Ø$(Ø,0Ø/3Ø&*Ø15ñg
à˜E×,Ñ,Ñ-ðg
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðg
ð ! ×!2Ñ!2Ñ3ð	g
ð
 ! ×!1Ñ!1Ñ2ðg
ð ˜u×/Ñ/Ñ0ðg
ð ˜E×-Ñ-Ñ.ðg
ð   × 1Ñ 1Ñ2ðg
ð ˜D‘>ðg
ð $ D™>ðg
ð ' t™nðg
ð ˜d‘^ðg
ð ! §¡Ñ.ðg
ð 
ˆuU—\‘\Ñ"Ð$;Ð;Ñ	<ôg
ó ög
r"   r¾   z‡
    The CTRL Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc                    óÔ  ^ • \ rS rSrS/rU 4S jr\             SS\\R                     S\\
\
\R                           S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\R                     S\\   S\\   S\\   S\\   S\\R                     S\\
\R                     \4   4S jj5       rSS jrSrU =r$ )ÚCTRLLMHeadModeli¹  zlm_head.weightc                 óÂ   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  UR                  SS9U l        U R                  5         g )NT©r²   )
rR   rS   r¾   r¨   r   rX   rÁ   rÆ   Úlm_headrÑ   ©r_   r§   r`   s     €r    rS   ÚCTRLLMHeadModel.__init__Â  sG   ø€ Ü‰Ñ˜Ô Ü$ VÓ,ˆÔÜ—y’y §¡°×0AÑ0AÈÑMˆŒð 	‰Õr"   rá   râ   rC   rã   rä   rD   rå   Úlabelsru   rv   ræ   rç   rr   rè   c                 ó‚  • Ub  UOU R                   R                  nU R                  UUUUUUUU	U
UUUS9nUS   nU R                  U5      nSnUb*  U R                  " UU4SU R                   R
                  0UD6nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  S9$ )a  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values[0].shape[-2]`
    (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

    If `past_key_values` is used, only input IDs that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.__call__`] and
    [`PreTrainedTokenizer.encode`] for details.

    [What are input IDs?](../glossary#input-ids)
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for language modeling. Note that the labels **are shifted** inside the model, i.e. you can set
    `labels = input_ids` Indices are selected in `[-100, 0, ..., config.vocab_size]` All labels set to `-100`
    are ignored (masked), the loss is only computed for labels in `[0, ..., config.vocab_size]`

Example:

```python
>>> import torch
>>> from transformers import AutoTokenizer, CTRLLMHeadModel

>>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
>>> model = CTRLLMHeadModel.from_pretrained("Salesforce/ctrl")

>>> # CTRL was trained with control codes as the first token
>>> inputs = tokenizer("Wikipedia The llama is", return_tensors="pt")
>>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

>>> sequence_ids = model.generate(inputs["input_ids"])
>>> sequences = tokenizer.batch_decode(sequence_ids)
>>> sequences
['Wikipedia The llama is a member of the family Bovidae. It is native to the Andes of Peru,']

>>> outputs = model(**inputs, labels=inputs["input_ids"])
>>> round(outputs.loss.item(), 2)
9.21

>>> list(outputs.logits.shape)
[1, 5, 246534]
```N)râ   rC   rã   rä   rD   rå   ru   rv   ræ   rç   rr   r   rÆ   r   )ÚlossÚlogitsrâ   rð   rñ   )
r§   rò   r¨   r  Úloss_functionrÆ   r   râ   rð   rñ   )r_   rá   râ   rC   rã   rä   rD   rå   r  ru   rv   ræ   rç   rr   r  Útransformer_outputsrð   Ú	lm_logitsr  rK   s                       r    rz   ÚCTRLLMHeadModel.forwardÊ  s  € ðx &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø)Ø%ØØ'ØØ/Ø!5Ø#Ø)ð /ð 
Ðð ,¨AÑ.ˆà—L‘L Ó/ˆ	àˆØÑØ×%Ò%ØØñð  Ÿ;™;×1Ñ1ðð ñ	ˆDö Ø\Ð$7¸¸Ð$;Ñ;ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä%ØØØ/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ñ
ð 	
r"   c                 ó˜   • UbC  UR                  5       nUR                  S   U:”  a  UnOUR                  S   S-
  nUS S 2US 24   nXUS.$ )Nr   )rá   râ   ru   )rù   r:   )r_   rá   râ   ru   r  r  Úremove_prefix_lengths          r    Úprepare_inputs_for_generationÚ-CTRLLMHeadModel.prepare_inputs_for_generation0  sf   € ð Ñ&Ø)×8Ñ8Ó:ˆKð ‰˜qÑ! KÓ/Ø'2Ñ$ð (1§¡°qÑ'9¸AÑ'=Ð$à!¢!Ð%9Ñ%:Ð":Ñ;ˆIà&ÐYbÑcÐcr"   )r  r¨   )NNNNNNNNNNNNN©NN)r}   r~   r   r€   Ú_tied_weights_keysrS   r   r   r   r  r  r  r  r  r   r   rz   r$  r   r‚   rƒ   s   @r    r  r  ¹  s†  ø† ð +Ð+Ðõð ð 15ØEIØ6:Ø59Ø37Ø15Ø59Ø-1Ø$(Ø,0Ø/3Ø&*Ø15ñc
à˜E×,Ñ,Ñ-ðc
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðc
ð ! ×!2Ñ!2Ñ3ð	c
ð
 ! ×!1Ñ!1Ñ2ðc
ð ˜u×/Ñ/Ñ0ðc
ð ˜E×-Ñ-Ñ.ðc
ð   × 1Ñ 1Ñ2ðc
ð ˜×)Ñ)Ñ*ðc
ð ˜D‘>ðc
ð $ D™>ðc
ð ' t™nðc
ð ˜d‘^ðc
ð ! §¡Ñ.ðc
ð  
ˆuU—\‘\Ñ"Ð$:Ð:Ñ	;ô!c
ó ðc
÷Jdò dr"   r  aÎ  
    The CTRL Model transformer with a sequence classification head on top (linear layer).
    [`CTRLForSequenceClassification`] uses the last token in order to do the classification, as other causal models
    (e.g. GPT-2) do. Since it does classification on the last token, it requires to know the position of the last
    token. If a `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in
    each row. If no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot
    guess the padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last
    value in each row of the batch).
    c                   ó¤  ^ • \ rS rSrU 4S jr\            SS\\R                     S\\	\	\R                           S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\   S\\   S\\   S\\   S\\	\R                     \4   4S jj5       rSrU =r$ )ÚCTRLForSequenceClassificationiC  c                 óä   >• [         TU ]  U5        UR                  U l        [        U5      U l        [
        R                  " UR                  U R                  SS9U l        U R                  5         g )NFr  )
rR   rS   Ú
num_labelsr¾   r¨   r   rX   rÁ   Ú
classifierrÑ   r  s     €r    rS   Ú&CTRLForSequenceClassification.__init__O  sR   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒÜ$ VÓ,ˆÔÜŸ)š) F§M¡M°4·?±?ÈÑOˆŒð 	‰Õr"   rá   râ   rC   rã   rä   rD   rå   r  ru   rv   ræ   rç   rè   c                 óÖ  • Ub  UOU R                   R                  nU R                  UUUUUUUU	U
UUS9nUS   nU R                  U5      nUb  UR                  SS u  nnOUR                  SS u  nnU R                   R
                  c  US:w  a  [        S5      eU R                   R
                  c  SnOÁUb  XR                   R
                  :g  R                  UR                  [        R                  5      n[        R                  " UR                  S   UR                  [        R                  S9nUU-  R                  S5      nO.Sn[        R                  U R                  R                    S	35        U[        R                  " UUR                  S
9U4   nSnUGb  U R                   R"                  c‘  U R$                  S:X  a  SU R                   l        OoU R$                  S:”  aN  UR&                  [        R(                  :X  d  UR&                  [        R*                  :X  a  SU R                   l        OSU R                   l        U R                   R"                  S:X  aJ  [-        5       nU R$                  S:X  a&  U" UR/                  5       UR/                  5       5      nOŽU" UU5      nO„U R                   R"                  S:X  a=  [1        5       nU" UR3                  SU R$                  5      UR3                  S5      5      nO-U R                   R"                  S:X  a  [5        5       nU" UU5      nU(       d  U4USS -   nUb  U4U-   $ U$ [7        UUUR8                  UR:                  S9$ )a"  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values[0].shape[-2]`
    (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

    If `past_key_values` is used, only input IDs that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.__call__`] and
    [`PreTrainedTokenizer.encode`] for details.

    [What are input IDs?](../glossary#input-ids)
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

Example of single-label classification:

```python
>>> import torch
>>> from transformers import AutoTokenizer, CTRLForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
>>> model = CTRLForSequenceClassification.from_pretrained("Salesforce/ctrl")

>>> # CTRL was trained with control codes as the first token
>>> inputs = tokenizer("Opinion My dog is cute", return_tensors="pt")
>>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
'LABEL_0'
```

```python
>>> import torch

>>> torch.manual_seed(42)  # doctest: +IGNORE_RESULT
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = CTRLForSequenceClassification.from_pretrained("Salesforce/ctrl", num_labels=num_labels)

>>> labels = torch.tensor(1)
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
0.93
```

Example of multi-label classification:

```python
>>> import torch
>>> from transformers import AutoTokenizer, CTRLForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
>>> model = CTRLForSequenceClassification.from_pretrained(
...     "Salesforce/ctrl", problem_type="multi_label_classification"
... )

>>> # CTRL was trained with control codes as the first token
>>> inputs = tokenizer("Opinion My dog is cute", return_tensors="pt")
>>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
'LABEL_0'
```

```python
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = CTRLForSequenceClassification.from_pretrained("Salesforce/ctrl", num_labels=num_labels)

>>> num_labels = len(model.config.id2label)
>>> labels = torch.nn.functional.one_hot(torch.tensor([predicted_class_id]), num_classes=num_labels).to(
...     torch.float
... )
>>> loss = model(**inputs, labels=labels).loss
>>> loss.backward()  # doctest: +IGNORE_RESULT
```N)
râ   rC   rã   rä   rD   rå   ru   rv   ræ   rç   r   r   r   z=Cannot handle batch sizes > 1 if no padding token is defined.r&   )rê   r%   zŠ will not detect padding tokens in `inputs_embeds`. Results may be unexpected if using padding tokens in conjunction with `inputs_embeds.`)rê   Ú
regressionÚsingle_label_classificationÚmulti_label_classification)r  r  rð   rñ   )r§   rò   r¨   r,  r:   Úpad_token_idró   r+   rê   r   Úint32r)   Úargmaxrö   r÷   r`   r}   Úproblem_typer+  r%   rú   rV   r   Úsqueezer   rõ   r   r   rð   rñ   )r_   rá   râ   rC   rã   rä   rD   rå   r  ru   rv   ræ   rç   r  rð   r  rn   Úsequence_lengthÚlast_non_pad_tokenÚnon_pad_maskÚtoken_indicesÚpooled_logitsr  Úloss_fctrK   s                            r    rz   Ú%CTRLForSequenceClassification.forwardX  s  € ðP &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø)Ø%ØØ'ØØ/Ø!5Ø#ð /ð 
Ðð ,¨AÑ.ˆØ—‘ Ó/ˆàÑ Ø*3¯/©/¸"¸1Ð*=Ñ'ˆJ™à*7×*=Ñ*=¸b¸qÐ*AÑ'ˆJ˜à;‰;×#Ñ#Ñ+°
¸a³ÜÐ\Ó]Ð]Ø;‰;×#Ñ#Ñ+Ø!#ÑØÑ"à%¯©×)AÑ)AÑA×EÑEÀfÇmÁmÔUZ×U`ÑU`ÓaˆLÜ!ŸLšL¨¯©¸Ñ)<ÀVÇ]Á]ÔZ_×ZeÑZeÑfˆMØ"/°,Ñ">×!FÑ!FÀrÓ!JÑà!#ÐÜ×ÑØ—>‘>×*Ñ*Ð+ð ,Zð Zôð
 œuŸ|š|¨J¸v¿}¹}ÑMÐOaÐaÑbˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# M×$9Ñ$9Ó$;¸V¿^¹^Ó=MÓN‘Dá# M°6Ó:‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù × 2Ñ 2°2°t·±Ó GÈÏÉÐUWËÓY‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù ¨vÓ6ÞØ#Ð%Ð(;¸A¸BÐ(?Ñ?ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØ Ø-×;Ñ;Ø*×5Ñ5ñ	
ð 	
r"   )r,  r+  r¨   r  )r}   r~   r   r€   rS   r   r   r   r  r  r  r  r   r  r   rz   r   r‚   rƒ   s   @r    r)  r)  C  sW  ø† õð ð 15ØEIØ6:Ø59Ø37Ø15Ø59Ø-1Ø$(Ø,0Ø/3Ø&*ñp
à˜E×,Ñ,Ñ-ðp
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðp
ð ! ×!2Ñ!2Ñ3ð	p
ð
 ! ×!1Ñ!1Ñ2ðp
ð ˜u×/Ñ/Ñ0ðp
ð ˜E×-Ñ-Ñ.ðp
ð   × 1Ñ 1Ñ2ðp
ð ˜×)Ñ)Ñ*ðp
ð ˜D‘>ðp
ð $ D™>ðp
ð ' t™nðp
ð ˜d‘^ðp
ð 
ˆuU—\‘\Ñ"Ð$<Ð<Ñ	=ôp
ó öp
r"   r)  )r)  r  r¾   r¥   r&  )/Ú__doc__Útypingr   r   Únumpyr;   r   r   Útorch.nnr   r   r   Úcache_utilsr
   r   Ú
generationr   Úmodeling_outputsr   r   r   Úmodeling_utilsr   Úpytorch_utilsr   r   r   Úutilsr   r   Úconfiguration_ctrlr   Ú
get_loggerr}   rö   r!   r5   rL   ÚModulerN   rˆ   rŠ   r¥   r¾   r  r)  Ú__all__rº   r"   r    Ú<module>rL     s"  ðñ  ç "ã Û Ý ß AÑ Aç .Ý )ß iÑ iÝ -ß YÑ Y÷õ +ð 
×	Ò	˜HÓ	%€òò
ô%ô4D˜Ÿ™ô DòN`ô/2—9‘9ô /ðd ô*˜/ó *ó ð*ð* ôL
Ð#ó L
ó ðL
ñ^ ðñôAdÐ)¨?ó AdóðAdñH ðñ
ô{
Ð$7ó {
ó
ð{
ò| cr"   