ó
    <±hÛ ã                   ó.  • S r SSKrSSKJrJr  SSKrSSKrSSKJr  SSKJ	r	  SSK
JrJrJr  SSKJrJr  SS	KJrJr  SS
KJr  SSKJrJr  SSKJr  SSKJrJrJrJrJ r J!r!J"r"J#r#  SSK$J%r%  SSK&J'r'J(r(J)r)  SSK*J+r+J,r,J-r-  SSK.J/r/  \-R`                  " \15      r2 " S S\	Rf                  5      r4 " S S\	Rf                  5      r5 " S S\55      r6 " S S\	Rf                  5      r7\5\6S.r8 " S S\	Rf                  5      r9 " S S\	Rf                  5      r: " S  S!\	Rf                  5      r; " S" S#\5      r< " S$ S%\	Rf                  5      r= " S& S'\	Rf                  5      r>\+ " S( S)\%5      5       r? " S* S+\	Rf                  5      r@ " S, S-\	Rf                  5      rA\+ " S. S/\?5      5       rB\+ " S0 S1\?5      5       rC\+" S2S39 " S4 S5\?5      5       rD\+ " S6 S7\?5      5       rE\+ " S8 S9\?5      5       rF\+ " S: S;\?5      5       rG\+" S<S39 " S= S>\?\5      5       rHSAS? jrI/ S@QrJg)BzPyTorch CamemBERT model.é    N)ÚOptionalÚUnion)Úversion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FNÚgelu)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)Ú#_prepare_4d_attention_mask_for_sdpaÚ*_prepare_4d_causal_attention_mask_for_sdpa)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ,BaseModelOutputWithPoolingAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentionsÚMaskedLMOutputÚMultipleChoiceModelOutputÚQuestionAnsweringModelOutputÚSequenceClassifierOutputÚTokenClassifierOutput)ÚPreTrainedModel)Úapply_chunking_to_forwardÚ find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚget_torch_versionÚloggingé   )ÚCamembertConfigc                   ó>   ^ • \ rS rSrSrU 4S jr SS jrS rSrU =r	$ )ÚCamembertEmbeddingsé4   zN
Same as BertEmbeddings with a tiny tweak for positional embeddings indexing.
c                 óÂ  >• [         TU ]  5         [        R                  " UR                  UR
                  UR                  S9U l        [        R                  " UR                  UR
                  5      U l	        [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                  5      U l        [#        USS5      U l        U R'                  S[(        R*                  " UR                  5      R-                  S5      SS9  U R'                  S	[(        R.                  " U R0                  R3                  5       [(        R4                  S
9SS9  UR                  U l        [        R                  " UR                  UR
                  U R6                  S9U l	        g )N)Úpadding_idx©ÚepsÚposition_embedding_typeÚabsoluteÚposition_ids)r"   éÿÿÿÿF)Ú
persistentÚtoken_type_ids©Údtype)ÚsuperÚ__init__r   Ú	EmbeddingÚ
vocab_sizeÚhidden_sizeÚpad_token_idÚword_embeddingsÚmax_position_embeddingsÚposition_embeddingsÚtype_vocab_sizeÚtoken_type_embeddingsÚ	LayerNormÚlayer_norm_epsÚDropoutÚhidden_dropout_probÚdropoutÚgetattrr+   Úregister_bufferÚtorchÚarangeÚexpandÚzerosr-   ÚsizeÚlongr(   ©ÚselfÚconfigÚ	__class__s     €Úh/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/camembert/modeling_camembert.pyr4   ÚCamembertEmbeddings.__init__:   si  ø€ Ü‰ÑÔÜ!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ#%§<¢<°×0NÑ0NÐPV×PbÑPbÓ#cˆÔ Ü%'§\¢\°&×2HÑ2HÈ&×J\ÑJ\Ó%]ˆÔ"ô Ÿš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒä'.¨vÐ7PÐR\Ó']ˆÔ$Ø×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð 	ñ 	
ð 	×ÑØœeŸkšk¨$×*;Ñ*;×*@Ñ*@Ó*BÌ%Ï*É*ÑUÐbgð 	ñ 	
ð
 "×.Ñ.ˆÔÜ#%§<¢<Ø×*Ñ*¨F×,>Ñ,>ÈD×L\ÑL\ñ$
ˆÕ ó    c                 óŒ  • Uc+  Ub  [        XR                  U5      nOU R                  U5      nUb  UR                  5       nOUR                  5       S S nUS   nUcv  [	        U S5      (       a-  U R
                  S S 2S U24   nUR                  US   U5      n	U	nO8[        R                  " U[        R                  U R                  R                  S9nUc  U R                  U5      nU R                  U5      n
XJ-   nU R                  S:X  a  U R                  U5      nX¼-  nU R!                  U5      nU R#                  U5      nU$ )Nr.   r"   r0   r   ©r2   Údevicer,   )Ú"create_position_ids_from_input_idsr(   Ú&create_position_ids_from_inputs_embedsrI   Úhasattrr0   rG   rE   rH   rJ   r-   rT   r9   r=   r+   r;   r>   rB   )rL   Ú	input_idsr0   r-   Úinputs_embedsÚpast_key_values_lengthÚinput_shapeÚ
seq_lengthÚbuffered_token_type_idsÚ buffered_token_type_ids_expandedr=   Ú
embeddingsr;   s                rO   ÚforwardÚCamembertEmbeddings.forwardS   sM  € ð ÑØÑ$äAÀ)×M]ÑM]Ð_uÓv‘à#×JÑJÈ=ÓYàÑ Ø#Ÿ.™.Ó*‰Kà'×,Ñ,Ó.¨s°Ð3ˆKà  ‘^ˆ
ð
 Ñ!ÜtÐ-×.Ñ.Ø*.×*=Ñ*=ºaÀÀ*À¸nÑ*MÐ'Ø3J×3QÑ3QÐR]Ð^_ÑR`ÐblÓ3mÐ0Ø!A‘ä!&§¢¨[ÄÇ
Á
ÐSW×SdÑSd×SkÑSkÑ!làÑ Ø ×0Ñ0°Ó;ˆMØ $× :Ñ :¸>Ó JÐà"Ñ:ˆ
Ø×'Ñ'¨:Ó5Ø"&×":Ñ":¸<Ó"HÐØÑ-ˆJØ—^‘^ JÓ/ˆ
Ø—\‘\ *Ó-ˆ
ØÐrQ   c                 ó  • UR                  5       SS nUS   n[        R                  " U R                  S-   X0R                  -   S-   [        R                  UR
                  S9nUR                  S5      R                  U5      $ )z¯
We are provided embeddings directly. We cannot infer which are padded so just generate sequential position ids.

Args:
    inputs_embeds: torch.Tensor

Returns: torch.Tensor
Nr.   r"   rS   r   )rI   rE   rF   r(   rJ   rT   Ú	unsqueezerG   )rL   rY   r[   Úsequence_lengthr-   s        rO   rV   Ú:CamembertEmbeddings.create_position_ids_from_inputs_embeds{   s~   € ð $×(Ñ(Ó*¨3¨BÐ/ˆØ% a™.ˆä—|’|Ø×Ñ˜qÑ  /×4DÑ4DÑ"DÀqÑ"HÔPU×PZÑPZÐcp×cwÑcwñ
ˆð ×%Ñ% aÓ(×/Ñ/°Ó<Ð<rQ   )r>   rB   r(   r+   r;   r=   r9   )NNNNr   )
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r4   r`   rV   Ú__static_attributes__Ú__classcell__©rN   s   @rO   r%   r%   4   s$   ø† ñõ

ð4 rsô&÷P=ð =rQ   r%   c                   ó  ^ • \ rS rSrSU 4S jjr      SS\R                  S\\R                     S\\R                     S\\R                     S\\	   S\\
   S	\\R                     S
\\R                     4S jjrSrU =r$ )ÚCamembertSelfAttentionéŽ   c                 ó  >• [         TU ]  5         UR                  UR                  -  S:w  a7  [	        US5      (       d&  [        SUR                   SUR                   S35      eUR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  5      U l        U=(       d    [#        USS5      U l        U R$                  S:X  d  U R$                  S	:X  aG  UR&                  U l        [        R(                  " S
UR&                  -  S-
  U R                  5      U l        UR,                  U l        X0l        g )Nr   Úembedding_sizezThe hidden size (z6) is not a multiple of the number of attention heads (Ú)r+   r,   Úrelative_keyÚrelative_key_queryé   r"   )r3   r4   r7   Únum_attention_headsrW   Ú
ValueErrorÚintÚattention_head_sizeÚall_head_sizer   ÚLinearÚqueryÚkeyÚvaluer@   Úattention_probs_dropout_probrB   rC   r+   r:   r5   Údistance_embeddingÚ
is_decoderÚ	layer_idx©rL   rM   r+   rƒ   rN   s       €rO   r4   ÚCamembertSelfAttention.__init__   s¥  ø€ Ü‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ# F×$6Ñ$6Ð#7ð 8Ø ×4Ñ4Ð5°Qð8óð ð
 $*×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔä—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÓDˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
ä—z’z &×"EÑ"EÓFˆŒØ'>÷ (
Ä'ØÐ-¨zóC
ˆÔ$ð ×'Ñ'¨>Ó9¸T×=YÑ=YÐ]qÓ=qØ+1×+IÑ+IˆDÔ(Ü&(§l¢l°1°v×7UÑ7UÑ3UÐXYÑ3YÐ[_×[sÑ[sÓ&tˆDÔ#à ×+Ñ+ˆŒØ"rQ   Úhidden_statesÚattention_maskÚ	head_maskÚencoder_hidden_statesÚpast_key_valueÚoutput_attentionsÚcache_positionÚreturnc                 ó`	  • UR                   u  p‰n
U R                  U5      nUR                  USU R                  U R                  5      R                  SS5      nUS LnUb]  [        U[        5      (       aF  UR                  R                  U R                  5      nU(       a  UR                  nOUR                  nOUnU(       a  UOUnU(       aQ  UbN  W(       aG  WR                  U R                     R                  nUR                  U R                     R                  nOãU R!                  U5      nUR                  USU R                  U R                  5      R                  SS5      nU R#                  U5      nUR                  USU R                  U R                  5      R                  SS5      nUbN  U(       d  UOS nWR%                  UUU R                  SU05      u  nnU(       a  SUR                  U R                  '   [&        R(                  " UUR                  SS5      5      nU R*                  S:X  d  U R*                  S:X  Ga”  UR                   S   UR                   S   nnUbB  [&        R,                  " US-
  [&        R.                  UR0                  S	9R                  SS5      nO>[&        R2                  " U[&        R.                  UR0                  S	9R                  SS5      n[&        R2                  " U[&        R.                  UR0                  S	9R                  SS5      nUU-
  nU R5                  UU R6                  -   S-
  5      nUR9                  UR:                  S
9nU R*                  S:X  a  [&        R<                  " SUU5      nUU-   nOHU R*                  S:X  a8  [&        R<                  " SUU5      n[&        R<                  " SUU5      nUU-   U-   nU[>        R@                  " U R                  5      -  nUb  UU-   n[B        RD                  RG                  USS9nU RI                  U5      nUb  UU-  n[&        R(                  " UU5      nURK                  SSSS5      RM                  5       nURO                  5       S S U RP                  4-   nUR                  U5      nUU4$ )Nr.   r"   rv   rŒ   Téþÿÿÿrt   ru   rS   r1   zbhld,lrd->bhlrzbhrd,lrd->bhlr©Údimr   r
   ))Úshaper}   Úviewrw   rz   Ú	transposeÚ
isinstancer   Ú
is_updatedÚgetrƒ   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesr~   r   ÚupdaterE   Úmatmulr+   ÚtensorrJ   rT   rF   r   r:   Útor2   ÚeinsumÚmathÚsqrtr   Ú
functionalÚsoftmaxrB   ÚpermuteÚ
contiguousrI   r{   )rL   r†   r‡   rˆ   r‰   rŠ   r‹   rŒ   Ú
batch_sizer\   Ú_Úquery_layerÚis_cross_attentionr–   Úcurr_past_key_valueÚcurrent_statesÚ	key_layerÚvalue_layerÚattention_scoresÚquery_lengthÚ
key_lengthÚposition_ids_lÚposition_ids_rÚdistanceÚpositional_embeddingÚrelative_position_scoresÚrelative_position_scores_queryÚrelative_position_scores_keyÚattention_probsÚcontext_layerÚnew_context_layer_shapes                                  rO   r`   ÚCamembertSelfAttention.forwardª   sO  € ð %2×$7Ñ$7Ñ!ˆ
 Ø—j‘j Ó/ˆØ!×&Ñ& z°2°t×7OÑ7OÐQU×QiÑQiÓj×tÑtØˆqó
ˆð 3¸$Ð>ÐØÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ2DÑ.È-ˆÞ .Ñ"<Æà+×2Ñ2°4·>±>ÑB×GÑGˆIØ-×4Ñ4°T·^±^ÑD×KÑK‰KàŸ™ Ó0ˆIØ!Ÿ™ z°2°t×7OÑ7OÐQU×QiÑQiÓj×tÑtØ1óˆIð Ÿ*™* ^Ó4ˆKØ%×*Ñ*Ø˜B × 8Ñ 8¸$×:RÑ:Róç‰i˜˜1‹oð ð Ñ)æ7I¡ÈtØ)<×)CÑ)CØ˜{¨D¯N©NÐ=MÈ~Ð<^ó*Ñ&	˜;ö &Ø@DN×-Ñ-¨d¯n©nÑ=ô !Ÿ<š<¨°Y×5HÑ5HÈÈRÓ5PÓQÐà×'Ñ'¨>Ó9¸T×=YÑ=YÐ]qÔ=qØ'2×'8Ñ'8¸Ñ';¸Y¿_¹_ÈQÑ=O˜*ˆLØÑ)Ü!&§¢¨j¸1©nÄEÇJÁJÐWd×WkÑWkÑ!l×!qÑ!qØ˜ó"‘ô "'§¢¨lÄ%Ç*Á*ÐUb×UiÑUiÑ!j×!oÑ!oÐprÐtuÓ!vÜ"Ÿ\š\¨*¼E¿J¹JÈ}×OcÑOcÑd×iÑiÐjkÐmoÓpˆNØ%¨Ñ6ˆHà#'×#:Ñ#:¸8Àd×FbÑFbÑ;bÐefÑ;fÓ#gÐ Ø#7×#:Ñ#:À×ARÑARÐ#:Ð#SÐ à×+Ñ+¨~Ó=Ü+0¯<ª<Ð8HÈ+ÐWkÓ+lÐ(Ø#3Ð6NÑ#NÑ Ø×-Ñ-Ð1EÓEÜ16·²Ð>NÐP[Ð]qÓ1rÐ.Ü/4¯|ª|Ð<LÈiÐYmÓ/nÐ,Ø#3Ð6TÑ#TÐWsÑ#sÐ à+¬d¯iªi¸×8PÑ8PÓ.QÑQÐØÑ%à/°.Ñ@Ðô Ÿ-™-×/Ñ/Ð0@ÀbÐ/ÐIˆð Ÿ,™, Ó7ˆð Ñ Ø-°	Ñ9ˆOäŸš _°kÓBˆà%×-Ñ-¨a°°A°qÓ9×DÑDÓFˆØ"/×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×*Ñ*Ð+BÓCˆà˜oÐ-Ð-rQ   )r{   rz   r   rB   r‚   r~   rƒ   r:   rw   r+   r}   r   ©NN©NNNNFN©rf   rg   rh   ri   r4   rE   ÚTensorr   ÚFloatTensorr   ÚboolÚtupler`   rk   rl   rm   s   @rO   ro   ro   Ž   s½   ø† ÷#ð< 7;Ø15Ø=AØ*.Ø,1Ø15ñd.à—|‘|ðd.ð ! ×!2Ñ!2Ñ3ðd.ð ˜E×-Ñ-Ñ.ð	d.ð
  (¨×(9Ñ(9Ñ:ðd.ð ! ™ðd.ð $ D™>ðd.ð ! §¡Ñ.ðd.ð 
ˆu|‰|Ñ	÷d.ó d.rQ   ro   c                   ó  ^ • \ rS rSrSU 4S jjr      SS\R                  S\\R                     S\\R                     S\\R                     S\\	   S\\
   S	\\R                     S
\\R                     4U 4S jjjrSrU =r$ )ÚCamembertSdpaSelfAttentioni  c                 ó¸   >• [         TU ]  XUS9  UR                  U l        [        R
                  " [        5       5      [        R
                  " S5      :  U l        g )N©r+   rƒ   z2.2.0)r3   r4   r€   Údropout_probr   Úparser    Úrequire_contiguous_qkvr„   s       €rO   r4   Ú#CamembertSdpaSelfAttention.__init__  sH   ø€ Ü‰Ñ˜Ð\eÐÑfØ"×?Ñ?ˆÔÜ&-§m¢mÔ4EÓ4GÓ&HÌ7Ï=Ê=ÐY`ÓKaÑ&aˆÕ#rQ   r†   r‡   rˆ   r‰   rŠ   r‹   rŒ   r   c           	      ó¶  >• U R                   S:w  d
  U(       d  Ub*  [        R                  S5        [        TU ]  UUUUUUU5      $ UR                  5       u  p‰n
U R                  U5      R                  USU R                  U R                  5      R                  SS5      nUS LnU(       a  UOUnUb]  [        U[        5      (       aF  UR                  R                  U R                  5      nU(       a  UR                   nOUR"                  nOUnU(       a  UOUnU(       aQ  UbN  W(       aG  WR$                  U R                     R&                  nUR$                  U R                     R(                  nOßU R+                  U5      R                  USU R                  U R                  5      R                  SS5      nU R-                  U5      R                  USU R                  U R                  5      R                  SS5      nUbN  U(       d  UOS nWR/                  UUU R                  SU05      u  nnU(       a  SUR                  U R                  '   U R0                  (       aM  UR2                  R4                  S:X  a3  Ub0  UR7                  5       nUR7                  5       nUR7                  5       nU R8                  =(       a    U(       + =(       a    US L =(       a    U	S:„  n[:        R<                  R>                  RA                  UUUUU RB                  (       a  U RD                  OS	US
9nUR                  SS5      nURG                  X‰U RH                  5      nUS 4$ )Nr,   a»  CamembertSdpaSelfAttention is used but `torch.nn.functional.scaled_dot_product_attention` does not support non-absolute `position_embedding_type` or `output_attentions=True` or `head_mask`. Falling back to the manual attention implementation, but specifying the manual implementation will be required from Transformers version v5.0.0 onwards. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.r.   r"   rv   rŒ   TÚcudaç        )Ú	attn_maskÚ	dropout_pÚ	is_causal)%r+   ÚloggerÚwarning_oncer3   r`   rI   r}   r“   rw   rz   r”   r•   r   r–   r—   rƒ   r˜   r™   rš   r›   rœ   r~   r   r   rË   rT   Útyper§   r‚   rE   r   r¤   Úscaled_dot_product_attentionÚtrainingrÉ   Úreshaper{   )rL   r†   r‡   rˆ   r‰   rŠ   r‹   rŒ   ÚbszÚtgt_lenr©   rª   r«   r­   r–   r¬   r®   r¯   rÒ   Úattn_outputrN   s                       €rO   r`   Ú"CamembertSdpaSelfAttention.forward  s  ø€ ð ×'Ñ'¨:Ó5Ö9JÈiÑNcä×ÑðHôô ‘7‘?ØØØØ%ØØ!Øóð ð (×,Ñ,Ó.‰ˆað J‰J}Ó%×*Ñ*¨3°°D×4LÑ4LÈd×NfÑNfÓg×qÑqÐrsÐuvÓwð 	ð 3¸$Ð>ÐÞ2DÑ.È-ˆØÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ2DÑ.È-ˆÞ .Ñ"<Æà+×2Ñ2°4·>±>ÑB×GÑGˆIØ-×4Ñ4°T·^±^ÑD×KÑK‰Kð —‘˜Ó(ß‘c˜2˜t×7Ñ7¸×9QÑ9QÓRß‘˜1˜a“ð ð —
‘
˜>Ó*ß‘c˜2˜t×7Ñ7¸×9QÑ9QÓRß‘˜1˜a“ð ð Ñ)æ7I¡ÈtØ)<×)CÑ)CØ˜{¨D¯N©NÐ=MÈ~Ð<^ó*Ñ&	˜;ö &Ø@DN×-Ñ-¨d¯n©nÑ=ð
 ×&×&¨;×+=Ñ+=×+BÑ+BÀfÓ+LÐQ_ÑQkØ%×0Ñ0Ó2ˆKØ!×,Ñ,Ó.ˆIØ%×0Ñ0Ó2ˆKð —O‘O×iÐ,>Ô(>×iÀ>ÐUYÐCY×iÐ^eÐhiÑ^iˆ	ä—h‘h×)Ñ)×FÑFØØØØ$Ø+/¯=¯=d×'Ò'¸cØð Gð 
ˆð "×+Ñ+¨A¨qÓ1ˆØ!×)Ñ)¨#¸×8JÑ8JÓKˆà˜DÐ Ð rQ   )rÉ   rË   r¾   r¿   rÀ   rm   s   @rO   rÆ   rÆ     s¼   ø† ÷bð 26Ø15Ø=AØ*.Ø,1Ø15ñe!à—|‘|ðe!ð ! §¡Ñ.ðe!ð ˜E×-Ñ-Ñ.ð	e!ð
  (¨×(9Ñ(9Ñ:ðe!ð ! ™ðe!ð $ D™>ðe!ð ! §¡Ñ.ðe!ð 
ˆu|‰|Ñ	÷e!ö e!rQ   rÆ   c                   óz   ^ • \ rS rSrU 4S jrS\R                  S\R                  S\R                  4S jrSrU =r	$ )ÚCamembertSelfOutputi‚  c                 ó(  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  5      U l
        g ©Nr)   )r3   r4   r   r|   r7   Údenser>   r?   r@   rA   rB   rK   s     €rO   r4   ÚCamembertSelfOutput.__init__ƒ  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆrQ   r†   Úinput_tensorr   c                 óp   • U R                  U5      nU R                  U5      nU R                  X-   5      nU$ ©N©rá   rB   r>   ©rL   r†   rã   s      rO   r`   ÚCamembertSelfOutput.forward‰  ó5   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆØŸ™ }Ñ'CÓDˆØÐrQ   ©r>   rá   rB   ©
rf   rg   rh   ri   r4   rE   rÁ   r`   rk   rl   rm   s   @rO   rÞ   rÞ   ‚  ó6   ø† õ>ð U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò rQ   rÞ   )ÚeagerÚsdpac                   ó  ^ • \ rS rSrSU 4S jjrS r      SS\R                  S\\R                     S\\R                     S\\R                     S\\
   S	\\   S
\\R                     S\\R                     4S jjrSrU =r$ )ÚCamembertAttentioni—  c                 óœ   >• [         TU ]  5         [        UR                     " UUUS9U l        [        U5      U l        [        5       U l        g )NrÈ   )	r3   r4   Ú CAMEMBERT_SELF_ATTENTION_CLASSESÚ_attn_implementationrL   rÞ   ÚoutputÚsetÚpruned_headsr„   s       €rO   r4   ÚCamembertAttention.__init__˜  sF   ø€ Ü‰ÑÔÜ4°V×5PÑ5PÒQØØ$;Øñ
ˆŒ	ô
 *¨&Ó1ˆŒÜ›EˆÕrQ   c                 ó6  • [        U5      S:X  a  g [        XR                  R                  U R                  R                  U R
                  5      u  p[        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l	        [        U R                  R                  USS9U R                  l        U R                  R                  [        U5      -
  U R                  l        U R                  R                  U R                  R                  -  U R                  l        U R
                  R                  U5      U l        g )Nr   r"   r   )Úlenr   rL   rw   rz   rö   r   r}   r~   r   rô   rá   r{   Úunion)rL   ÚheadsÚindexs      rO   Úprune_headsÚCamembertAttention.prune_heads¢  s  € Üˆu‹:˜‹?ØÜ7Ø—9‘9×0Ñ0°$·)±)×2OÑ2OÐQU×QbÑQbó
‰ˆô
 -¨T¯Y©Y¯_©_¸eÓDˆ	‰	ŒÜ*¨4¯9©9¯=©=¸%Ó@ˆ	‰	ŒÜ,¨T¯Y©Y¯_©_¸eÓDˆ	‰	ŒÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð )-¯	©	×(EÑ(EÌÈEË
Ñ(Rˆ	‰	Ô%Ø"&§)¡)×"?Ñ"?À$Ç)Á)×B_ÑB_Ñ"_ˆ	‰	ÔØ ×-Ñ-×3Ñ3°EÓ:ˆÕrQ   r†   r‡   rˆ   r‰   rŠ   r‹   rŒ   r   c           
      ól   • U R                  UUUUUUUS9nU R                  US   U5      n	U	4USS  -   n
U
$ )N©r‡   rˆ   r‰   rŠ   r‹   rŒ   r   r"   )rL   rô   )rL   r†   r‡   rˆ   r‰   rŠ   r‹   rŒ   Úself_outputsÚattention_outputÚoutputss              rO   r`   ÚCamembertAttention.forward´  s\   € ð —y‘yØØ)ØØ"7Ø)Ø/Ø)ð !ð 
ˆð  Ÿ;™; |°A¡¸ÓFÐØ#Ð%¨°Q°RÐ(8Ñ8ˆØˆrQ   )rô   rö   rL   r¾   r¿   )rf   rg   rh   ri   r4   rý   rE   rÁ   r   rÂ   r   rÃ   rÄ   r`   rk   rl   rm   s   @rO   rð   rð   —  s¸   ø† ÷"ò;ð* 7;Ø15Ø=AØ*.Ø,1Ø15ñà—|‘|ðð ! ×!2Ñ!2Ñ3ðð ˜E×-Ñ-Ñ.ð	ð
  (¨×(9Ñ(9Ñ:ðð ! ™ðð $ D™>ðð ! §¡Ñ.ðð 
ˆu|‰|Ñ	÷ó rQ   rð   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚCamembertIntermediateiÍ  c                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g rå   )r3   r4   r   r|   r7   Úintermediate_sizerá   r•   Ú
hidden_actÚstrr   Úintermediate_act_fnrK   s     €rO   r4   ÚCamembertIntermediate.__init__Î  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$rQ   r†   r   c                 óJ   • U R                  U5      nU R                  U5      nU$ rå   ©rá   r  )rL   r†   s     rO   r`   ÚCamembertIntermediate.forwardÖ  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆØÐrQ   r  rë   rm   s   @rO   r  r  Í  s(   ø† õ9ð U§\¡\ð °e·l±l÷ ò rQ   r  c                   óz   ^ • \ rS rSrU 4S jrS\R                  S\R                  S\R                  4S jrSrU =r	$ )ÚCamembertOutputiÝ  c                 ó(  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                  5      U l        g rà   )r3   r4   r   r|   r  r7   rá   r>   r?   r@   rA   rB   rK   s     €rO   r4   ÚCamembertOutput.__init__Þ  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆrQ   r†   rã   r   c                 óp   • U R                  U5      nU R                  U5      nU R                  X-   5      nU$ rå   ræ   rç   s      rO   r`   ÚCamembertOutput.forwardä  ré   rQ   rê   rë   rm   s   @rO   r  r  Ý  rì   rQ   r  c                   ó.  ^ • \ rS rSrSU 4S jjr       SS\R                  S\\R                     S\\R                     S\\R                     S\\R                     S\\	   S	\\
   S
\\R                     S\\R                     4S jjrS rSrU =r$ )ÚCamembertLayeriì  c                 ór  >• [         TU ]  5         UR                  U l        SU l        [	        XS9U l        UR                  U l        UR                  U l        U R                  (       a/  U R                  (       d  [        U  S35      e[	        USUS9U l	        [        U5      U l        [        U5      U l        g )Nr"   ©rƒ   z> should be used as a decoder model if cross attention is addedr,   rÈ   )r3   r4   Úchunk_size_feed_forwardÚseq_len_dimrð   Ú	attentionr‚   Úadd_cross_attentionrx   Úcrossattentionr  Úintermediater  rô   )rL   rM   rƒ   rN   s      €rO   r4   ÚCamembertLayer.__init__í  sš   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ+¨FÑHˆŒØ ×+Ñ+ˆŒØ#)×#=Ñ#=ˆÔ Ø×#×#Ø—?—?Ü  D 6Ð)gÐ!hÓiÐiÜ"4°VÐU_ÐktÑ"uˆDÔÜ1°&Ó9ˆÔÜ% fÓ-ˆrQ   r†   r‡   rˆ   r‰   Úencoder_attention_maskrŠ   r‹   rŒ   r   c	           
      óP  • U R                  UUUUUUS9n	U	S   n
U	SS  nU R                  (       aD  UbA  [        U S5      (       d  [        SU  S35      eU R	                  U
UUUUUUS9nUS   n
X¼SS  -   n[        U R                  U R                  U R                  U
5      nU4U-   nU$ )N)r‡   rˆ   r‹   rŠ   rŒ   r   r"   r  z'If `encoder_hidden_states` are passed, z` has to be instantiated with cross-attention layers by setting `config.add_cross_attention=True`r   )	r  r‚   rW   rx   r  r   Úfeed_forward_chunkr  r  )rL   r†   r‡   rˆ   r‰   r!  rŠ   r‹   rŒ   Úself_attention_outputsr  r  Úcross_attention_outputsÚlayer_outputs                 rO   r`   ÚCamembertLayer.forwardû  s  € ð "&§¡ØØ)ØØ/Ø)Ø)ð "0ð "
Ðð 2°!Ñ4ÐØ(¨¨Ð,ˆà??Ð4Ñ@Ü˜4Ð!1×2Ñ2Ü Ø=¸d¸Vð DDð Dóð ð
 '+×&9Ñ&9Ø Ø5Ø#Ø&;Ø-Ø"3Ø-ð ':ð 'Ð#ð  7°qÑ9ÐØ¸¸Ð ;Ñ;ˆGä0Ø×#Ñ# T×%AÑ%AÀ4×CSÑCSÐUeó
ˆð  / GÑ+ˆàˆrQ   c                 óJ   • U R                  U5      nU R                  X!5      nU$ rå   )r  rô   )rL   r  Úintermediate_outputr&  s       rO   r#  Ú!CamembertLayer.feed_forward_chunk+  s)   € Ø"×/Ñ/Ð0@ÓAÐØ—{‘{Ð#6ÓIˆØÐrQ   )r  r  r  r  r  r‚   rô   r  rå   )NNNNNFN)rf   rg   rh   ri   r4   rE   rÁ   r   rÂ   r   rÃ   rÄ   r`   r#  rk   rl   rm   s   @rO   r  r  ì  sÑ   ø† ÷.ð" 7;Ø15Ø=AØ>BØ*.Ø,1Ø15ñ.à—|‘|ð.ð ! ×!2Ñ!2Ñ3ð.ð ˜E×-Ñ-Ñ.ð	.ð
  (¨×(9Ñ(9Ñ:ð.ð !)¨×):Ñ):Ñ ;ð.ð ! ™ð.ð $ D™>ð.ð ! §¡Ñ.ð.ð 
ˆu|‰|Ñ	õ.÷`ð rQ   r  c                   óv  ^ • \ rS rSrSU 4S jjr          SS\R                  S\\R                     S\\R                     S\\R                     S\\R                     S\\	\	\R                           S	\\
   S
\\
   S\\
   S\\
   S\\R                     S\\	\R                     \4   4S jjrSrU =r$ )ÚCamembertEncoderi2  c           
      óÐ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        XS9PM     sn5      U l        SU l	        g s  snf )Nr  F)
r3   r4   rM   r   Ú
ModuleListÚrangeÚnum_hidden_layersr  ÚlayerÚgradient_checkpointing)rL   rM   rƒ   ÚirN   s       €rO   r4   ÚCamembertEncoder.__init__3  sT   ø€ Ü‰ÑÔØŒÜ—]’]ÔQVÐW]×WoÑWoÔQpÓ#qÑQpÈA¤N°6Ô$GÑQpÑ#qÓrˆŒ
Ø&+ˆÕ#ùò $rs   ½A#r†   r‡   rˆ   r‰   r!  Úpast_key_valuesÚ	use_cacher‹   Úoutput_hidden_statesÚreturn_dictrŒ   r   c                 ó`  • U	(       a  SOS nU(       a  SOS nU(       a  U R                   R                  (       a  SOS nU R                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnSnU(       a]  U R                   R                  (       aB  [        U[        5      (       d-  [        R                  S5        Sn[        R                  " U5      n[        U R                  5       Hf  u  nnU	(       a  XÁ4-   nUb  UU   OS nU" UUUUUUUUS9nUS   nU(       d  M7  UUS   4-   nU R                   R                  (       d  M]  UUS	   4-   nMh     U	(       a  XÁ4-   nU(       a  UR                  5       nU
(       d  [        S
 UUUUU4 5       5      $ [        UUUUUS9$ )N© zZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...FzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.T)r!  rŠ   r‹   rŒ   r   r"   rv   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7frå   r:  )Ú.0Úvs     rO   Ú	<genexpr>Ú+CamembertEncoder.forward.<locals>.<genexpr>z  s"   é € ð 
ñAð ÷ ‘òùs   ‚Œ	)Úlast_hidden_stater5  r†   Ú
attentionsÚcross_attentions)rM   r  r2  r×   rÓ   rÔ   r‚   r•   r   r   Úfrom_legacy_cacheÚ	enumerater1  Úto_legacy_cacherÄ   r   )rL   r†   r‡   rˆ   r‰   r!  r5  r6  r‹   r7  r8  rŒ   Úall_hidden_statesÚall_self_attentionsÚall_cross_attentionsÚreturn_legacy_cacher3  Úlayer_moduleÚlayer_head_maskÚlayer_outputss                       rO   r`   ÚCamembertEncoder.forward9  s¸  € ö #7™B¸DÐÞ$5™b¸4ÐÞ%6¸4¿;¹;×;Z×;Z™rÐ`dÐà×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	à#ÐÞ˜Ÿ™×/×/¼
À?ÔTY×8ZÑ8ZÜ×Ñð\ôð
 #'ÐÜ1×CÒCÀOÓTˆOä(¨¯©Ö4‰OˆAˆ|Þ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜i¨šlÈˆOá(ØØØØ%Ø'=Ø.Ø"3Ø-ñ	ˆMð *¨!Ñ,ˆMß Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÐ#Ø—;‘;×2×2Ñ2Ø+?À=ÐQRÑCSÐBUÑ+UÒ(ñ+  5ö.  Ø 1Ð4DÑ DÐæØ-×=Ñ=Ó?ˆOæÜñ 
ð "Ø#Ø%Ø'Ø(ñó
ó 
ð 
ô 9Ø+Ø+Ø+Ø*Ø1ñ
ð 	
rQ   )rM   r2  r1  rå   )
NNNNNNFFTN)rf   rg   rh   ri   r4   rE   rÁ   r   rÂ   rÄ   rÃ   r   r   r`   rk   rl   rm   s   @rO   r,  r,  2  s(  ø† ÷,ð 7;Ø15Ø=AØ>BØEIØ$(Ø,1Ø/4Ø&*Ø15ñR
à—|‘|ðR
ð ! ×!2Ñ!2Ñ3ðR
ð ˜E×-Ñ-Ñ.ð	R
ð
  (¨×(9Ñ(9Ñ:ðR
ð !)¨×):Ñ):Ñ ;ðR
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðR
ð ˜D‘>ðR
ð $ D™>ðR
ð ' t™nðR
ð ˜d‘^ðR
ð ! §¡Ñ.ðR
ð 
ˆuU—\‘\Ñ"Ð$MÐMÑ	N÷R
ó R
rQ   r,  c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚCamembertPooleri  c                 ó¶   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " 5       U l        g rå   )r3   r4   r   r|   r7   rá   ÚTanhÚ
activationrK   s     €rO   r4   ÚCamembertPooler.__init__  s9   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ'š'›)ˆrQ   r†   r   c                 ó\   • US S 2S4   nU R                  U5      nU R                  U5      nU$ ©Nr   )rá   rR  )rL   r†   Úfirst_token_tensorÚpooled_outputs       rO   r`   ÚCamembertPooler.forward•  s6   € ð +ª1¨a¨4Ñ0ÐØŸ
™
Ð#5Ó6ˆØŸ™¨Ó6ˆØÐrQ   )rR  rá   rë   rm   s   @rO   rO  rO    s(   ø† õ$ð
 U§\¡\ð °e·l±l÷ ò rQ   rO  c                   ó2   • \ rS rSr% \\S'   SrSrSrS r	Sr
g)ÚCamembertPreTrainedModeliž  rM   ÚrobertaTc                 óŒ  • [        U[        R                  5      (       ak  UR                  R                  R                  SU R                  R                  S9  UR                  b%  UR                  R                  R                  5         gg[        U[        R                  5      (       ax  UR                  R                  R                  SU R                  R                  S9  UR                  b2  UR                  R                  UR                     R                  5         gg[        U[        R                  5      (       aJ  UR                  R                  R                  5         UR                  R                  R                  S5        g[        U[        5      (       a%  UR                  R                  R                  5         gg)zInitialize the weightsrÏ   )ÚmeanÚstdNg      ð?)r•   r   r|   ÚweightÚdataÚnormal_rM   Úinitializer_rangeÚbiasÚzero_r5   r(   r>   Úfill_ÚCamembertLMHead)rL   Úmodules     rO   Ú_init_weightsÚ&CamembertPreTrainedModel._init_weights¦  s2  € äfœbŸi™i×(Ñ(ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤×0Ñ0ØK‰K×Ñ×"Ñ"Õ$ð 1rQ   r:  N)rf   rg   rh   ri   r#   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_supports_sdparh  rk   r:  rQ   rO   rZ  rZ  ž  s   ‡ àÓØ!ÐØ&*Ð#Ø€Nõ%rQ   rZ  c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚCamembertClassificationHeadiº  z-Head for sentence-level classification tasks.c                 ób  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        UR                  b  UR                  OUR                  n[        R                  " U5      U l	        [        R                  " UR                  UR                  5      U l        g rå   )r3   r4   r   r|   r7   rá   Úclassifier_dropoutrA   r@   rB   Ú
num_labelsÚout_proj©rL   rM   rq  rN   s      €rO   r4   Ú$CamembertClassificationHead.__init__½  s   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
à)/×)BÑ)BÑ)NˆF×%Ò%ÐTZ×TnÑTnð 	ô —z’zÐ"4Ó5ˆŒÜŸ	š	 &×"4Ñ"4°f×6GÑ6GÓHˆrQ   c                 óÒ   • US S 2SS S 24   nU R                  U5      nU R                  U5      n[        R                  " U5      nU R                  U5      nU R	                  U5      nU$ rU  )rB   rá   rE   Útanhrs  ©rL   ÚfeaturesÚkwargsÚxs       rO   r`   Ú#CamembertClassificationHead.forwardÆ  sY   € Ø’Q˜š1WÑˆØL‰L˜‹OˆØJ‰Jq‹MˆÜJŠJq‹MˆØL‰L˜‹OˆØM‰M˜!ÓˆØˆrQ   )rá   rB   rs  )	rf   rg   rh   ri   rj   r4   r`   rk   rl   rm   s   @rO   ro  ro  º  s   ø† Ù7õI÷ð rQ   ro  c                   ó8   ^ • \ rS rSrSrU 4S jrS rS rSrU =r	$ )rf  iÑ  z,Camembert Head for masked language modeling.c                 óæ  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  UR                  5      U l
        [        R                  " [        R                  " UR                  5      5      U l        U R                  U R                  l        g rà   )r3   r4   r   r|   r7   rá   r>   r?   Ú
layer_normr6   ÚdecoderÚ	ParameterrE   rH   rc  rK   s     €rO   r4   ÚCamembertLMHead.__init__Ô  s—   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒä—y’y ×!3Ñ!3°V×5FÑ5FÓGˆŒÜ—L’L¤§¢¨V×->Ñ->Ó!?Ó@ˆŒ	Ø ŸI™Iˆ‰ÕrQ   c                 ó‚   • U R                  U5      n[        U5      nU R                  U5      nU R                  U5      nU$ rå   )rá   r   r  r€  rx  s       rO   r`   ÚCamembertLMHead.forwardÝ  s;   € ØJ‰JxÓ ˆÜ‹GˆØO‰O˜AÓˆð L‰L˜‹OˆàˆrQ   c                 óÎ   • U R                   R                  R                  R                  S:X  a  U R                  U R                   l        g U R                   R                  U l        g )NÚmeta)r€  rc  rT   rÕ   ©rL   s    rO   Ú_tie_weightsÚCamembertLMHead._tie_weightsç  sC   € ð <‰<×Ñ×#Ñ#×(Ñ(¨FÓ2Ø $§	¡	ˆDL‰LÕàŸ™×)Ñ)ˆDIrQ   )rc  r€  rá   r  )
rf   rg   rh   ri   rj   r4   r`   rˆ  rk   rl   rm   s   @rO   rf  rf  Ñ  s   ø† Ù6õ&ò÷*ð *rQ   rf  c            "       óü  ^ • \ rS rSrSr/ rSU 4S jjrS rS rS r	\
              SS\\R                     S\\R                     S	\\R                     S
\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\\R                        S\\   S\\   S\\   S\\   S\\R                     S\\\R                     \4   4S jj5       rSrU =r$ )ÚCamembertModelið  a  

The model can behave as an encoder (with only self-attention) as well as a decoder, in which case a layer of
cross-attention is added between the self-attention layers, following the architecture described in *Attention is
all you need*_ by Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz
Kaiser and Illia Polosukhin.

To behave as a decoder the model needs to be initialized with the `is_decoder` argument of the configuration set to
`True`. To be used in a Seq2Seq model, the model needs to initialized with both `is_decoder` argument and
`add_cross_attention` set to `True`; an `encoder_hidden_states` is then expected as an input to the forward pass.

.. _*Attention is all you need*: https://huggingface.co/papers/1706.03762

c                 ó  >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        U(       a  [        U5      OSU l        UR                  U l
        UR                  U l        U R                  5         g)z^
add_pooling_layer (bool, *optional*, defaults to `True`):
    Whether to add a pooling layer
N)r3   r4   rM   r%   r_   r,  ÚencoderrO  Úpoolerró   Úattn_implementationr+   Ú	post_init)rL   rM   Úadd_pooling_layerrN   s      €rO   r4   ÚCamembertModel.__init__  sg   ø€ ô
 	‰Ñ˜Ô ØŒä-¨fÓ5ˆŒÜ'¨Ó/ˆŒæ1B”o fÔ-ÈˆŒà#)×#>Ñ#>ˆÔ Ø'-×'EÑ'EˆÔ$ð 	‰ÕrQ   c                 ó.   • U R                   R                  $ rå   ©r_   r9   r‡  s    rO   Úget_input_embeddingsÚ#CamembertModel.get_input_embeddings  s   € Ø‰×.Ñ.Ð.rQ   c                 ó$   • XR                   l        g rå   r”  )rL   r   s     rO   Úset_input_embeddingsÚ#CamembertModel.set_input_embeddings  s   € Ø*/‰Õ'rQ   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)Úitemsr  r1  r  rý   )rL   Úheads_to_pruner1  rû   s       rO   Ú_prune_headsÚCamembertModel._prune_heads  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3rQ   rX   r‡   r0   r-   rˆ   rY   r‰   r!  r5  r6  r‹   r7  r8  rŒ   r   c                 óž  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R                   R                  (       a  U
b  U
OU R                   R
                  n
OSn
Ub  Ub  [        S5      eUb"  U R                  X5        UR                  5       nO"Ub  UR                  5       S S nO[        S5      eUu  nnUb  UR                  OUR                  nSnU	b:  [        U	[        5      (       d  U	S   S   R                  S   OU	R                  5       nUcs  [        U R                  S5      (       a4  U R                  R                   S S 2S U24   nUR#                  UU5      nUnO$[$        R&                  " U[$        R(                  US9nU R                  UUUUUS	9nUc  [$        R*                  " UUU-   4US
9nU R,                  S:H  =(       a(    U R.                  S:H  =(       a    US L =(       a    U(       + nU(       aT  UR1                  5       S:X  a@  U R                   R                  (       a  [3        UUUU5      nO'[5        UUR6                  US9nOU R9                  X/5      nU R                   R                  (       av  Ubs  UR                  5       u  nnnUU4nUc  [$        R*                  " UUS
9nU(       a*  UR1                  5       S:X  a  [5        UUR6                  US9nOU R;                  U5      nOS nU R=                  XPR                   R>                  5      nU RA                  UUUUUU	U
UUUUS9nUS   nU RB                  b  U RC                  U5      OS n U(       d
  UU 4USS  -   $ [E        UU URF                  URH                  URJ                  URL                  S9$ )NFzDYou cannot specify both input_ids and inputs_embeds at the same timer.   z5You have to specify either input_ids or inputs_embedsr   r   r0   rS   )rX   r-   r0   rY   rZ   )rT   rî   r,   rv   )rÚ   )
r‡   rˆ   r‰   r!  r5  r6  r‹   r7  r8  rŒ   r"   )r@  Úpooler_outputr5  r†   rA  rB  )'rM   r‹   r7  Úuse_return_dictr‚   r6  rx   Ú%warn_if_padding_and_no_attention_maskrI   rT   r•   r   r’   Úget_seq_lengthrW   r_   r0   rG   rE   rH   rJ   Úonesr  r+   r‘   r   r   r2   Úget_extended_attention_maskÚinvert_attention_maskÚget_head_maskr0  r  rŽ  r   r5  r†   rA  rB  )!rL   rX   r‡   r0   r-   rˆ   rY   r‰   r!  r5  r6  r‹   r7  r8  rŒ   r[   r¨   r\   rT   rZ   r]   r^   Úembedding_outputÚuse_sdpa_attention_masksÚextended_attention_maskÚencoder_batch_sizeÚencoder_sequence_lengthr©   Úencoder_hidden_shapeÚencoder_extended_attention_maskÚencoder_outputsÚsequence_outputrW  s!                                    rO   r`   ÚCamembertModel.forward%  sý  € ð& 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà;‰;×!×!Ø%.Ñ%:™	ÀÇÁ×@UÑ@U‰IàˆIàÑ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*‰KØÑ&Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUà!,Ñˆ
JØ%.Ñ%:×!Ò!À×@TÑ@Tˆà!"ÐØÑ&ô " /´5×9Ñ9ð   Ñ" 1Ñ%×+Ñ+¨BÒ/à$×3Ñ3Ó5ð #ð Ñ!Üt—‘Ð(8×9Ñ9Ø*.¯/©/×*HÑ*HÊÈKÈZÈKÈÑ*XÐ'Ø3J×3QÑ3QÐR\Ð^hÓ3iÐ0Ø!A‘ä!&§¢¨[ÄÇ
Á
ÐSYÑ!ZàŸ?™?ØØ%Ø)Ø'Ø#9ð +ð 
Ðð Ñ!Ü"ŸZšZ¨°ZÐBXÑ5XÐ(YÐbhÑiˆNð ×$Ñ$¨Ñ.÷ &Ø×,Ñ,°
Ñ:÷&à˜TÐ!÷&ð &Ô%ð	 	!ö $¨×(:Ñ(:Ó(<ÀÓ(Að {‰{×%×%Ü*TØ"ØØ$Ø*ó	+Ñ'ô +NØ"Ð$4×$:Ñ$:ÀJñ+Ñ'ð '+×&FÑ&FÀ~Ó&cÐ#ð ;‰;×!×!Ð&;Ñ&GØ=R×=WÑ=WÓ=YÑ:ÐÐ 7¸Ø$6Ð8OÐ#PÐ Ø%Ñ-Ü).¯ªÐ4HÐQWÑ)XÐ&æ'Ð,B×,FÑ,FÓ,HÈAÓ,Mô 3VØ*Ð,<×,BÑ,BÈJñ3Ñ/ð 37×2LÑ2LÐMcÓ2dÑ/à.2Ð+ð ×&Ñ& y·+±+×2OÑ2OÓPˆ	àŸ,™,ØØ2ØØ"7Ø#BØ+ØØ/Ø!5Ø#Ø)ð 'ð 
ˆð *¨!Ñ,ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆæØ# ]Ð3°oÀaÀbÐ6IÑIÐIä;Ø-Ø'Ø+×;Ñ;Ø)×7Ñ7Ø&×1Ñ1Ø,×=Ñ=ñ
ð 	
rQ   )r  rM   r_   r  rŽ  r+   )T©NNNNNNNNNNNNNN)rf   rg   rh   ri   rj   Ú_no_split_modulesr4   r•  r˜  r  r   r   rE   rÁ   ÚlistrÂ   rÃ   r   rÄ   r   r`   rk   rl   rm   s   @rO   r‹  r‹  ð  s  ø† ñð Ð÷ò&/ò0òCð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø8<Ø9=Ø=AØ$(Ø,0Ø/3Ø&*Ø15ñS
à˜EŸL™LÑ)ðS
ð ! §¡Ñ.ðS
ð ! §¡Ñ.ð	S
ð
 ˜uŸ|™|Ñ,ðS
ð ˜EŸL™LÑ)ðS
ð   §¡Ñ-ðS
ð  (¨¯©Ñ5ðS
ð !)¨¯©Ñ 6ðS
ð " $ u×'8Ñ'8Ñ"9Ñ:ðS
ð ˜D‘>ðS
ð $ D™>ðS
ð ' t™nðS
ð ˜d‘^ðS
ð ! §¡Ñ.ðS
ð  
ˆuU—\‘\Ñ"Ð$PÐPÑ	Qô!S
ó öS
rQ   r‹  c                   óÀ  ^ • \ rS rSrSS/rU 4S jrS rS r\            SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\\\
R                      \4   4S jj5       rSrU =r$ )ÚCamembertForMaskedLMi½  úlm_head.decoder.weightúlm_head.decoder.biasc                 óÎ   >• [         TU ]  U5        UR                  (       a  [        R	                  S5        [        USS9U l        [        U5      U l        U R                  5         g )NzpIf you want to use `CamembertForMaskedLM` make sure `config.is_decoder=False` for bi-directional self-attention.F©r‘  ©
r3   r4   r‚   rÓ   Úwarningr‹  r[  rf  Úlm_headr  rK   s     €rO   r4   ÚCamembertForMaskedLM.__init__Â  sR   ø€ Ü‰Ñ˜Ô à××ÜN‰Nð1ôô
 & fÀÑFˆŒÜ& vÓ.ˆŒð 	‰ÕrQ   c                 ó.   • U R                   R                  $ rå   ©r½  r€  r‡  s    rO   Úget_output_embeddingsÚ*CamembertForMaskedLM.get_output_embeddingsÑ  ó   € Ø|‰|×#Ñ#Ð#rQ   c                 ó$   • XR                   l        g rå   rÀ  ©rL   Únew_embeddingss     rO   Úset_output_embeddingsÚ*CamembertForMaskedLM.set_output_embeddingsÔ  ó   € Ø-‰ÕrQ   rX   r‡   r0   r-   rˆ   rY   r‰   r!  Úlabelsr‹   r7  r8  r   c                 óØ  • Ub  UOU R                   R                  nU R                  UUUUUUUUU
UUS9nUS   nU R                  U5      nSnU	ba  U	R	                  UR
                  5      n	[        5       nU" UR                  SU R                   R                  5      U	R                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )a”  
token_type_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,1]`:

    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.
    This parameter can only be used when the model is initialized with `type_vocab_size` parameter with value
    >= 2. All the value in this tensor should be always < type_vocab_size.

    [What are token type IDs?](../glossary#token-type-ids)
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should be in `[-100, 0, ...,
    config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are ignored (masked), the
    loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`
N)
r‡   r0   r-   rˆ   rY   r‰   r!  r‹   r7  r8  r   r.   rv   ©ÚlossÚlogitsr†   rA  )rM   r¡  r[  r½  r    rT   r   r“   r6   r   r†   rA  )rL   rX   r‡   r0   r-   rˆ   rY   r‰   r!  rÊ  r‹   r7  r8  r  r°  Úprediction_scoresÚmasked_lm_lossÚloss_fctrô   s                      rO   r`   ÚCamembertForMaskedLM.forward×  s  € ð> &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØ)Ø)Ø%ØØ'Ø"7Ø#9Ø/Ø!5Ø#ð ð 
ˆð " !™*ˆØ ŸL™L¨Ó9ÐàˆØÑà—Y‘YÐ0×7Ñ7Ó8ˆFÜ'Ó)ˆHÙ%Ð&7×&<Ñ&<¸RÀÇÁ×AWÑAWÓ&XÐZ`×ZeÑZeÐfhÓZiÓjˆNæØ'Ð)¨G°A°B¨KÑ7ˆFØ3AÑ3M^Ð%¨Ñ.ÐYÐSYÐYäØØ$Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
rQ   ©r½  r[  )NNNNNNNNNNNN)rf   rg   rh   ri   Ú_tied_weights_keysr4   rÁ  rÇ  r   r   rE   Ú
LongTensorrÂ   rÃ   r   rÄ   rÁ   r   r`   rk   rl   rm   s   @rO   r¶  r¶  ½  sk  ø† ð 3Ð4JÐKÐõò$ò.ð ð 15Ø6:Ø59Ø37Ø15Ø59Ø=AØ>BØ-1Ø,0Ø/3Ø&*ñ@
à˜E×,Ñ,Ñ-ð@
ð ! ×!2Ñ!2Ñ3ð@
ð ! ×!1Ñ!1Ñ2ð	@
ð
 ˜u×/Ñ/Ñ0ð@
ð ˜E×-Ñ-Ñ.ð@
ð   × 1Ñ 1Ñ2ð@
ð  (¨×(9Ñ(9Ñ:ð@
ð !)¨×):Ñ):Ñ ;ð@
ð ˜×)Ñ)Ñ*ð@
ð $ D™>ð@
ð ' t™nð@
ð ˜d‘^ð@
ð 
ˆuU—\‘\Ñ" NÐ2Ñ	3ô@
ó ö@
rQ   r¶  z¡
    CamemBERT Model transformer with a sequence classification/regression head on top (a linear layer on top of the
    pooled output) e.g. for GLUE tasks.
    )Úcustom_introc                   ól  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\
   S\\
   S\\
   S\\\R                     \4   4S jj5       rSrU =r$ )Ú"CamembertForSequenceClassificationi  c                 ó°   >• [         TU ]  U5        UR                  U l        Xl        [	        USS9U l        [        U5      U l        U R                  5         g ©NFrº  )	r3   r4   rr  rM   r‹  r[  ro  Ú
classifierr  rK   s     €rO   r4   Ú+CamembertForSequenceClassification.__init__#  sH   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒØŒä% fÀÑFˆŒÜ5°fÓ=ˆŒð 	‰ÕrQ   rX   r‡   r0   r-   rˆ   rY   rÊ  r‹   r7  r8  r   c                 óf  • U
b  U
OU R                   R                  n
U R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nSnUGb©  UR	                  UR
                  5      nU R                   R                  c‘  U R                  S:X  a  SU R                   l        OoU R                  S:”  aN  UR                  [        R                  :X  d  UR                  [        R                  :X  a  SU R                   l        OSU R                   l        U R                   R                  S:X  aI  [        5       nU R                  S:X  a&  U" UR                  5       UR                  5       5      nOŒU" X×5      nOƒU R                   R                  S:X  a=  [        5       nU" UR                  SU R                  5      UR                  S5      5      nO,U R                   R                  S:X  a  [!        5       nU" X×5      nU
(       d  U4US	S -   nUb  U4U-   $ U$ [#        UUUR$                  UR&                  S
9$ )a  
token_type_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,1]`:

    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.
    This parameter can only be used when the model is initialized with `type_vocab_size` parameter with value
    >= 2. All the value in this tensor should be always < type_vocab_size.

    [What are token type IDs?](../glossary#token-type-ids)
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
N©r‡   r0   r-   rˆ   rY   r‹   r7  r8  r   r"   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationr.   rv   rÌ  )rM   r¡  r[  rÛ  r    rT   Úproblem_typerr  r2   rE   rJ   ry   r	   Úsqueezer   r“   r   r   r†   rA  ©rL   rX   r‡   r0   r-   rˆ   rY   rÊ  r‹   r7  r8  r  r°  rÎ  rÍ  rÑ  rô   s                    rO   r`   Ú*CamembertForSequenceClassification.forward.  sè  € ð: &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 

ˆð " !™*ˆØ—‘ Ó1ˆàˆØÒà—Y‘Y˜vŸ}™}Ó-ˆFØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/æØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
rQ   )rÛ  rM   rr  r[  ©
NNNNNNNNNN)rf   rg   rh   ri   r4   r   r   rE   rÕ  rÂ   rÃ   r   rÄ   rÁ   r   r`   rk   rl   rm   s   @rO   rØ  rØ    s"  ø† õ	ð ð 15Ø6:Ø59Ø37Ø15Ø59Ø-1Ø,0Ø/3Ø&*ñN
à˜E×,Ñ,Ñ-ðN
ð ! ×!2Ñ!2Ñ3ðN
ð ! ×!1Ñ!1Ñ2ð	N
ð
 ˜u×/Ñ/Ñ0ðN
ð ˜E×-Ñ-Ñ.ðN
ð   × 1Ñ 1Ñ2ðN
ð ˜×)Ñ)Ñ*ðN
ð $ D™>ðN
ð ' t™nðN
ð ˜d‘^ðN
ð 
ˆuU—\‘\Ñ"Ð$<Ð<Ñ	=ôN
ó öN
rQ   rØ  c                   ól  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\
   S\\
   S\\
   S\\\R                     \4   4S jj5       rSrU =r$ )ÚCamembertForMultipleChoicei€  c                 óú   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  5      U l        [        R                  " UR                  S5      U l
        U R                  5         g )Nr"   )r3   r4   r‹  r[  r   r@   rA   rB   r|   r7   rÛ  r  rK   s     €rO   r4   Ú#CamembertForMultipleChoice.__init__ƒ  sV   ø€ Ü‰Ñ˜Ô ä% fÓ-ˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒÜŸ)š) F×$6Ñ$6¸Ó:ˆŒð 	‰ÕrQ   rX   r0   r‡   rÊ  r-   rˆ   rY   r‹   r7  r8  r   c                 ó’  • U
b  U
OU R                   R                  n
Ub  UR                  S   OUR                  S   nUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb1  UR                  SUR	                  S5      UR	                  S5      5      OSnU R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nU R                  U5      nUR                  SU5      nSnUb.  UR                  UR                  5      n[        5       nU" UU5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )aO  
input_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`):
    Indices of input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are input IDs?](../glossary#input-ids)
token_type_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,1]`:

    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.
    This parameter can only be used when the model is initialized with `type_vocab_size` parameter with value
    >= 2. All the value in this tensor should be always < type_vocab_size.

    [What are token type IDs?](../glossary#token-type-ids)
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the multiple choice classification loss. Indices should be in `[0, ...,
    num_choices-1]` where `num_choices` is the size of the second dimension of the input tensors. (See
    `input_ids` above)
position_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*):
    Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
    config.max_position_embeddings - 1]`.

    [What are position IDs?](../glossary#position-ids)
inputs_embeds (`torch.FloatTensor` of shape `(batch_size, num_choices, sequence_length, hidden_size)`, *optional*):
    Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This
    is useful if you want more control over how to convert `input_ids` indices into associated vectors than the
    model's internal embedding lookup matrix.
Nr"   r.   r   )r-   r0   r‡   rˆ   rY   r‹   r7  r8  rv   rÌ  )rM   r¡  r’   r“   rI   r[  rB   rÛ  r    rT   r   r   r†   rA  )rL   rX   r0   r‡   rÊ  r-   rˆ   rY   r‹   r7  r8  Únum_choicesÚflat_input_idsÚflat_position_idsÚflat_token_type_idsÚflat_attention_maskÚflat_inputs_embedsr  rW  rÎ  Úreshaped_logitsrÍ  rÑ  rô   s                           rO   r`   Ú"CamembertForMultipleChoice.forward  sõ  € ðZ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ,5Ñ,Ai—o‘o aÒ(À}×GZÑGZÐ[\ÑG]ˆàCLÑCX˜Ÿ™¨¨I¯N©N¸2Ó,>Ô?Ð^bˆØLXÑLd˜L×-Ñ-¨b°,×2CÑ2CÀBÓ2GÔHÐjnÐØR`ÑRl˜n×1Ñ1°"°n×6IÑ6IÈ"Ó6MÔNÐrvÐØR`ÑRl˜n×1Ñ1°"°n×6IÑ6IÈ"Ó6MÔNÐrvÐð Ñ(ð ×Ñ˜r =×#5Ñ#5°bÓ#9¸=×;MÑ;MÈbÓ;QÔRàð 	ð —,‘,ØØ*Ø.Ø.ØØ,Ø/Ø!5Ø#ð ð 

ˆð   ™
ˆàŸ™ ]Ó3ˆØ—‘ Ó/ˆØ Ÿ+™+ b¨+Ó6ˆàˆØÑà—Y‘Y˜×5Ñ5Ó6ˆFÜ'Ó)ˆHÙ˜O¨VÓ4ˆDæØ%Ð'¨'°!°"¨+Ñ5ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä(ØØ"Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
rQ   )rÛ  rB   r[  ræ  )rf   rg   rh   ri   r4   r   r   rE   rÕ  rÂ   rÃ   r   rÄ   rÁ   r   r`   rk   rl   rm   s   @rO   rè  rè  €  s"  ø† õð ð 15Ø59Ø6:Ø-1Ø37Ø15Ø59Ø,0Ø/3Ø&*ñZ
à˜E×,Ñ,Ñ-ðZ
ð ! ×!1Ñ!1Ñ2ðZ
ð ! ×!2Ñ!2Ñ3ð	Z
ð
 ˜×)Ñ)Ñ*ðZ
ð ˜u×/Ñ/Ñ0ðZ
ð ˜E×-Ñ-Ñ.ðZ
ð   × 1Ñ 1Ñ2ðZ
ð $ D™>ðZ
ð ' t™nðZ
ð ˜d‘^ðZ
ð 
ˆuU—\‘\Ñ"Ð$=Ð=Ñ	>ôZ
ó öZ
rQ   rè  c                   ól  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\
   S\\
   S\\
   S\\\R                     \4   4S jj5       rSrU =r$ )ÚCamembertForTokenClassificationië  c                 ód  >• [         TU ]  U5        UR                  U l        [        USS9U l        UR
                  b  UR
                  OUR                  n[        R                  " U5      U l	        [        R                  " UR                  UR                  5      U l        U R                  5         g rÚ  )r3   r4   rr  r‹  r[  rq  rA   r   r@   rB   r|   r7   rÛ  r  rt  s      €rO   r4   Ú(CamembertForTokenClassification.__init__î  sŠ   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä% fÀÑFˆŒà)/×)BÑ)BÑ)NˆF×%Ò%ÐTZ×TnÑTnð 	ô —z’zÐ"4Ó5ˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰ÕrQ   rX   r‡   r0   r-   rˆ   rY   rÊ  r‹   r7  r8  r   c                 óâ  • U
b  U
OU R                   R                  n
U R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nU R	                  U5      nSnUbW  UR                  UR                  5      n[        5       nU" UR                  SU R                  5      UR                  S5      5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )aÝ  
token_type_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,1]`:

    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.
    This parameter can only be used when the model is initialized with `type_vocab_size` parameter with value
    >= 2. All the value in this tensor should be always < type_vocab_size.

    [What are token type IDs?](../glossary#token-type-ids)
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the token classification loss. Indices should be in `[0, ..., config.num_labels - 1]`.
NrÞ  r   r.   rv   rÌ  )rM   r¡  r[  rB   rÛ  r    rT   r   r“   rr  r   r†   rA  rä  s                    rO   r`   Ú'CamembertForTokenClassification.forwardü  s  € ð6 &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 

ˆð " !™*ˆàŸ,™, Ó7ˆØ—‘ Ó1ˆàˆØÑà—Y‘Y˜vŸ}™}Ó-ˆFÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯O©OÓ<¸f¿k¹kÈ"»oÓNˆDæØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
rQ   )rÛ  rB   rr  r[  ræ  )rf   rg   rh   ri   r4   r   r   rE   rÕ  rÂ   rÃ   r   rÄ   rÁ   r   r`   rk   rl   rm   s   @rO   rõ  rõ  ë  s  ø† õð ð 15Ø6:Ø59Ø37Ø15Ø59Ø-1Ø,0Ø/3Ø&*ñ=
à˜E×,Ñ,Ñ-ð=
ð ! ×!2Ñ!2Ñ3ð=
ð ! ×!1Ñ!1Ñ2ð	=
ð
 ˜u×/Ñ/Ñ0ð=
ð ˜E×-Ñ-Ñ.ð=
ð   × 1Ñ 1Ñ2ð=
ð ˜×)Ñ)Ñ*ð=
ð $ D™>ð=
ð ' t™nð=
ð ˜d‘^ð=
ð 
ˆuU—\‘\Ñ"Ð$9Ð9Ñ	:ô=
ó ö=
rQ   rõ  c                   óŒ  ^ • \ rS rSrU 4S jr\           SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\
   S\\
   S\\
   S\\\R                     \4   4S jj5       rSrU =r$ )ÚCamembertForQuestionAnsweringi=  c                 óä   >• [         TU ]  U5        UR                  U l        [        USS9U l        [
        R                  " UR                  UR                  5      U l        U R                  5         g rÚ  )
r3   r4   rr  r‹  r[  r   r|   r7   Ú
qa_outputsr  rK   s     €rO   r4   Ú&CamembertForQuestionAnswering.__init__@  sU   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä% fÀÑFˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰ÕrQ   rX   r‡   r0   r-   rˆ   rY   Ústart_positionsÚend_positionsr‹   r7  r8  r   c                 ó$  • Ub  UOU R                   R                  nU R                  UUUUUUU	U
US9	nUS   nU R                  U5      nUR	                  SSS9u  nnUR                  S5      R                  5       nUR                  S5      R                  5       nSnUb¶  Ub³  [        UR                  5       5      S:”  a  UR                  S5      n[        UR                  5       5      S:”  a  UR                  S5      nUR                  S5      nUR                  SU5      nUR                  SU5      n[        US9nU" X÷5      nU" UU5      nUU-   S-  nU(       d  UU4USS -   nUb  U4U-   $ U$ [        UUUUR                  UR                  S	9$ )
a  
token_type_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,1]`:

    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.
    This parameter can only be used when the model is initialized with `type_vocab_size` parameter with value
    >= 2. All the value in this tensor should be always < type_vocab_size.

    [What are token type IDs?](../glossary#token-type-ids)
NrÞ  r   r"   r.   r   )Úignore_indexrv   )rÍ  Ústart_logitsÚ
end_logitsr†   rA  )rM   r¡  r[  rý  Úsplitrã  r§   rù   rI   Úclampr   r   r†   rA  )rL   rX   r‡   r0   r-   rˆ   rY   rÿ  r   r‹   r7  r8  r  r°  rÎ  r  r  Ú
total_lossÚignored_indexrÑ  Ú
start_lossÚend_lossrô   s                          rO   r`   Ú%CamembertForQuestionAnswering.forwardJ  sÀ  € ð4 &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 

ˆð " !™*ˆà—‘ Ó1ˆØ#)§<¡<°°r <Ð#:Ñ ˆjØ#×+Ñ+¨BÓ/×:Ñ:Ó<ˆØ×'Ñ'¨Ó+×6Ñ6Ó8ˆ
àˆ
ØÑ&¨=Ñ+Dä?×'Ñ'Ó)Ó*¨QÓ.Ø"1×"9Ñ"9¸"Ó"=Ü=×%Ñ%Ó'Ó(¨1Ó,Ø -× 5Ñ 5°bÓ 9à(×-Ñ-¨aÓ0ˆMØ-×3Ñ3°A°}ÓEˆOØ)×/Ñ/°°=ÓAˆMä'°]ÑCˆHÙ! ,Ó@ˆJÙ 
¨MÓ:ˆHØ$ xÑ/°1Ñ4ˆJæØ" JÐ/°'¸!¸"°+Ñ=ˆFØ/9Ñ/EZM FÑ*ÐQÈ6ÐQä+ØØ%Ø!Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
rQ   )rr  rý  r[  )NNNNNNNNNNN)rf   rg   rh   ri   r4   r   r   rE   rÕ  rÂ   rÃ   r   rÄ   rÁ   r   r`   rk   rl   rm   s   @rO   rû  rû  =  s;  ø† õð ð 15Ø6:Ø59Ø37Ø15Ø59Ø6:Ø48Ø,0Ø/3Ø&*ñI
à˜E×,Ñ,Ñ-ðI
ð ! ×!2Ñ!2Ñ3ðI
ð ! ×!1Ñ!1Ñ2ð	I
ð
 ˜u×/Ñ/Ñ0ðI
ð ˜E×-Ñ-Ñ.ðI
ð   × 1Ñ 1Ñ2ðI
ð " %×"2Ñ"2Ñ3ðI
ð   × 0Ñ 0Ñ1ðI
ð $ D™>ðI
ð ' t™nðI
ð ˜d‘^ðI
ð 
ˆuU—\‘\Ñ"Ð$@Ð@Ñ	AôI
ó öI
rQ   rû  zU
    CamemBERT Model with a `language modeling` head on top for CLM fine-tuning.
    c            "       óø  ^ • \ rS rSrSS/rU 4S jrS rS r\              SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\\\
R                           S\	\   S\	\   S\	\   S\	\   S\\\
R                      \4   4S jj5       rSrU =r$ )ÚCamembertForCausalLMi—  r·  r¸  c                 óÎ   >• [         TU ]  U5        UR                  (       d  [        R	                  S5        [        USS9U l        [        U5      U l        U R                  5         g )NzQIf you want to use `CamembertLMHeadModel` as a standalone, add `is_decoder=True.`Frº  r»  rK   s     €rO   r4   ÚCamembertForCausalLM.__init__   sL   ø€ Ü‰Ñ˜Ô à× × ÜN‰NÐnÔoä% fÀÑFˆŒÜ& vÓ.ˆŒð 	‰ÕrQ   c                 ó.   • U R                   R                  $ rå   rÀ  r‡  s    rO   rÁ  Ú*CamembertForCausalLM.get_output_embeddings¬  rÃ  rQ   c                 ó$   • XR                   l        g rå   rÀ  rÅ  s     rO   rÇ  Ú*CamembertForCausalLM.set_output_embeddings¯  rÉ  rQ   rX   r‡   r0   r-   rˆ   rY   r‰   r!  rÊ  r5  r6  r‹   r7  r8  r   c                 óÚ  • Ub  UOU R                   R                  nU	b  SnU R                  UUUUUUUUU
UUUUS9nUS   nU R                  U5      nSnU	bE  U	R	                  UR
                  5      n	U R                  " UU	4SU R                   R                  0UD6nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  S9$ )a¹  
token_type_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,1]`:

    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.
    This parameter can only be used when the model is initialized with `type_vocab_size` parameter with value
    >= 2. All the value in this tensor should be always < type_vocab_size.

    [What are token type IDs?](../glossary#token-type-ids)
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the left-to-right language modeling loss (next word prediction). Indices should be in
    `[-100, 0, ..., config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are
    ignored (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`

Example:

```python
>>> from transformers import AutoTokenizer, CamembertForCausalLM, AutoConfig
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("almanach/camembert-base")
>>> config = AutoConfig.from_pretrained("almanach/camembert-base")
>>> config.is_decoder = True
>>> model = CamembertForCausalLM.from_pretrained("almanach/camembert-base", config=config)

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> prediction_logits = outputs.logits
```NF)r‡   r0   r-   rˆ   rY   r‰   r!  r5  r6  r‹   r7  r8  r   r6   rv   )rÍ  rÎ  r5  r†   rA  rB  )rM   r¡  r[  r½  r    rT   Úloss_functionr6   r   r5  r†   rA  rB  )rL   rX   r‡   r0   r-   rˆ   rY   r‰   r!  rÊ  r5  r6  r‹   r7  r8  rz  r  r°  rÏ  Úlm_lossrô   s                        rO   r`   ÚCamembertForCausalLM.forward²  s4  € ðd &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØÑØˆIà—,‘,ØØ)Ø)Ø%ØØ'Ø"7Ø#9Ø+ØØ/Ø!5Ø#ð ð 
ˆð  " !™*ˆØ ŸL™L¨Ó9ÐàˆØÑà—Y‘YÐ0×7Ñ7Ó8ˆFØ×(Ò(Ø!Øñð  Ÿ;™;×1Ñ1ðð ñ	ˆGö Ø'Ð)¨G°A°B¨KÑ7ˆFØ,3Ñ,?WJ Ñ'ÐKÀVÐKä0ØØ$Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ñ
ð 	
rQ   rÓ  r²  )rf   rg   rh   ri   rÔ  r4   rÁ  rÇ  r   r   rE   rÕ  rÂ   rÄ   rÃ   r   rÁ   r   r`   rk   rl   rm   s   @rO   r  r  —  s¡  ø† ð 3Ð4JÐKÐõ
ò$ò.ð ð 15Ø6:Ø59Ø37Ø15Ø59Ø=AØ>BØ-1ØEIØ$(Ø,0Ø/3Ø&*ñ^
à˜E×,Ñ,Ñ-ð^
ð ! ×!2Ñ!2Ñ3ð^
ð ! ×!1Ñ!1Ñ2ð	^
ð
 ˜u×/Ñ/Ñ0ð^
ð ˜E×-Ñ-Ñ.ð^
ð   × 1Ñ 1Ñ2ð^
ð  (¨×(9Ñ(9Ñ:ð^
ð !)¨×):Ñ):Ñ ;ð^
ð ˜×)Ñ)Ñ*ð^
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBð^
ð ˜D‘>ð^
ð $ D™>ð^
ð ' t™nð^
ð ˜d‘^ð^
ð" 
ˆuU—\‘\Ñ"Ð$EÐEÑ	Fô#^
ó ö^
rQ   r  c                 óº   • U R                  U5      R                  5       n[        R                  " USS9R	                  U5      U-   U-  nUR                  5       U-   $ )zí
Replace non-padding symbols with their position numbers. Position numbers begin at padding_idx+1. Padding symbols
are ignored. This is modified from fairseq's `utils.make_positions`.

Args:
    x: torch.Tensor x:

Returns: torch.Tensor
r"   r   )Únery   rE   ÚcumsumÚtype_asrJ   )rX   r(   rZ   ÚmaskÚincremental_indicess        rO   rU   rU     sW   € ð <‰<˜Ó$×(Ñ(Ó*€DÜ Ÿ<š<¨°!Ñ4×<Ñ<¸TÓBÐE[Ñ[Ð_cÑcÐØ×#Ñ#Ó%¨Ñ3Ð3rQ   )r  r¶  rè  rû  rØ  rõ  r‹  rZ  )r   )Krj   r¢   Útypingr   r   rE   Útorch.utils.checkpointÚ	packagingr   r   Útorch.nnr   r   r	   Úactivationsr   r   Úcache_utilsr   r   Ú
generationr   Úmodeling_attn_mask_utilsr   r   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   r   r   r   Úmodeling_utilsr   Úpytorch_utilsr   r   r   Úutilsr   r    r!   Úconfiguration_camembertr#   Ú
get_loggerrf   rÓ   ÚModuler%   ro   rÆ   rÞ   rò   rð   r  r  r  r,  rO  rZ  ro  rf  r‹  r¶  rØ  rè  rõ  rû  r  rU   Ú__all__r:  rQ   rO   Ú<module>r/     s]  ðñ  ã ß "ã Û Ý Ý ß AÑ Aç 'ß 5Ý )ß wÝ 9÷	÷ 	ó 	õ .ß lÑ lß ?Ñ ?Ý 4ð 
×	Ò	˜HÓ	%€ôV=˜"Ÿ)™)ô V=ôt@.˜RŸY™Yô @.ôHl!Ð!7ô l!ô`˜"Ÿ)™)ô ð $Ø&ñ$Ð  ô2˜Ÿ™ô 2ôl˜BŸI™Iô ô b—i‘iô ôBÐ/ô BôLY
r—y‘yô Y
ôzb—i‘iô ð ô%˜ó %ó ð%ô6 "§)¡)ô ô.*b—i‘iô *ð> ôI
Ð-ó I
ó ðI
ðX ôY
Ð3ó Y
ó ðY
ñx ðñô[
Ð)Aó [
óð[
ð| ôf
Ð!9ó f
ó ðf
ðR ôM
Ð&>ó M
ó ðM
ð` ôU
Ð$<ó U
ó ðU
ñp ðñôt
Ð3°_ó t
óðt
ôp4ò 	rQ   