ó
    <±hø
 ã                   ó   • S r SSKrSSKJrJr  SSKrSSKrSSKJr  SSKJ	r	J
r
Jr  SSKJrJr  SSKJrJr  SS	KJr  SS
KJr  SSKJrJrJrJrJrJrJrJr  SSKJ r   SSK!J"r"J#r#J$r$  SSK%J&r&J'r'  SSK(J)r)  \'RT                  " \+5      r, " S S\RZ                  5      r. " S S\RZ                  5      r/ " S S\RZ                  5      r0 " S S\RZ                  5      r1 " S S\RZ                  5      r2 " S S\RZ                  5      r3 " S S\RZ                  5      r4 " S S \5      r5 " S! S"\RZ                  5      r6 " S# S$\RZ                  5      r7\& " S% S&\ 5      5       r8\&" S'S(9 " S) S*\85      5       r9\&" S+S(9 " S, S-\8\5      5       r:\& " S. S/\85      5       r; " S0 S1\RZ                  5      r<\&" S2S(9 " S3 S4\85      5       r=\& " S5 S6\85      5       r>\& " S7 S8\85      5       r? " S9 S:\RZ                  5      r@\& " S; S<\85      5       rAS?S= jrB/ S>QrCg)@zPyTorch X-MOD model.é    N)ÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FNÚgelu)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ,BaseModelOutputWithPoolingAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentionsÚMaskedLMOutputÚMultipleChoiceModelOutputÚQuestionAnsweringModelOutputÚSequenceClassifierOutputÚTokenClassifierOutput)ÚPreTrainedModel)Úapply_chunking_to_forwardÚ find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚloggingé   )Ú
XmodConfigc                   ó>   ^ • \ rS rSrSrU 4S jr SS jrS rSrU =r	$ )ÚXmodEmbeddingsé1   zN
Same as BertEmbeddings with a tiny tweak for positional embeddings indexing.
c                 óÂ  >• [         TU ]  5         [        R                  " UR                  UR
                  UR                  S9U l        [        R                  " UR                  UR
                  5      U l	        [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                  5      U l        [#        USS5      U l        U R'                  S[(        R*                  " UR                  5      R-                  S5      SS9  U R'                  S	[(        R.                  " U R0                  R3                  5       [(        R4                  S
9SS9  UR                  U l        [        R                  " UR                  UR
                  U R6                  S9U l	        g )N)Úpadding_idx©ÚepsÚposition_embedding_typeÚabsoluteÚposition_ids)r   éÿÿÿÿF)Ú
persistentÚtoken_type_ids©Údtype)ÚsuperÚ__init__r   Ú	EmbeddingÚ
vocab_sizeÚhidden_sizeÚpad_token_idÚword_embeddingsÚmax_position_embeddingsÚposition_embeddingsÚtype_vocab_sizeÚtoken_type_embeddingsÚ	LayerNormÚlayer_norm_epsÚDropoutÚhidden_dropout_probÚdropoutÚgetattrr'   Úregister_bufferÚtorchÚarangeÚexpandÚzerosr)   ÚsizeÚlongr$   ©ÚselfÚconfigÚ	__class__s     €Ú^/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/xmod/modeling_xmod.pyr0   ÚXmodEmbeddings.__init__7   si  ø€ Ü‰ÑÔÜ!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ#%§<¢<°×0NÑ0NÐPV×PbÑPbÓ#cˆÔ Ü%'§\¢\°&×2HÑ2HÈ&×J\ÑJ\Ó%]ˆÔ"ô Ÿš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒä'.¨vÐ7PÐR\Ó']ˆÔ$Ø×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð 	ñ 	
ð 	×ÑØœeŸkšk¨$×*;Ñ*;×*@Ñ*@Ó*BÌ%Ï*É*ÑUÐbgð 	ñ 	
ð
 "×.Ñ.ˆÔÜ#%§<¢<Ø×*Ñ*¨F×,>Ñ,>ÈD×L\ÑL\ñ$
ˆÕ ó    c                 óŒ  • Uc+  Ub  [        XR                  U5      nOU R                  U5      nUb  UR                  5       nOUR                  5       S S nUS   nUcv  [	        U S5      (       a-  U R
                  S S 2S U24   nUR                  US   U5      n	U	nO8[        R                  " U[        R                  U R                  R                  S9nUc  U R                  U5      nU R                  U5      n
XJ-   nU R                  S:X  a  U R                  U5      nX¼-  nU R!                  U5      nU R#                  U5      nU$ )Nr*   r   r,   r   ©r.   Údevicer(   )Ú"create_position_ids_from_input_idsr$   Ú&create_position_ids_from_inputs_embedsrE   Úhasattrr,   rC   rA   rD   rF   r)   rP   r5   r9   r'   r7   r:   r>   )rH   Ú	input_idsr,   r)   Úinputs_embedsÚpast_key_values_lengthÚinput_shapeÚ
seq_lengthÚbuffered_token_type_idsÚ buffered_token_type_ids_expandedr9   Ú
embeddingsr7   s                rK   ÚforwardÚXmodEmbeddings.forwardP   sM  € ð ÑØÑ$äAÀ)×M]ÑM]Ð_uÓv‘à#×JÑJÈ=ÓYàÑ Ø#Ÿ.™.Ó*‰Kà'×,Ñ,Ó.¨s°Ð3ˆKà  ‘^ˆ
ð
 Ñ!ÜtÐ-×.Ñ.Ø*.×*=Ñ*=ºaÀÀ*À¸nÑ*MÐ'Ø3J×3QÑ3QÐR]Ð^_ÑR`ÐblÓ3mÐ0Ø!A‘ä!&§¢¨[ÄÇ
Á
ÐSW×SdÑSd×SkÑSkÑ!làÑ Ø ×0Ñ0°Ó;ˆMØ $× :Ñ :¸>Ó JÐà"Ñ:ˆ
Ø×'Ñ'¨:Ó5Ø"&×":Ñ":¸<Ó"HÐØÑ-ˆJØ—^‘^ JÓ/ˆ
Ø—\‘\ *Ó-ˆ
ØÐrM   c                 ó  • UR                  5       SS nUS   n[        R                  " U R                  S-   X0R                  -   S-   [        R                  UR
                  S9nUR                  S5      R                  U5      $ )z¯
We are provided embeddings directly. We cannot infer which are padded so just generate sequential position ids.

Args:
    inputs_embeds: torch.Tensor

Returns: torch.Tensor
Nr*   r   rO   r   )rE   rA   rB   r$   rF   rP   Ú	unsqueezerC   )rH   rU   rW   Úsequence_lengthr)   s        rK   rR   Ú5XmodEmbeddings.create_position_ids_from_inputs_embedsx   s~   € ð $×(Ñ(Ó*¨3¨BÐ/ˆØ% a™.ˆä—|’|Ø×Ñ˜qÑ  /×4DÑ4DÑ"DÀqÑ"HÔPU×PZÑPZÐcp×cwÑcwñ
ˆð ×%Ñ% aÓ(×/Ñ/°Ó<Ð<rM   )r:   r>   r$   r'   r7   r9   r5   )NNNNr   )
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r0   r\   rR   Ú__static_attributes__Ú__classcell__©rJ   s   @rK   r!   r!   1   s$   ø† ñõ

ð4 rsô&÷P=ð =rM   r!   c                   ó  ^ • \ rS rSrSU 4S jjr      SS\R                  S\\R                     S\\R                     S\\R                     S\\	   S\\
   S	\\R                     S
\\R                     4S jjrSrU =r$ )ÚXmodSelfAttentioné‹   c                 ó  >• [         TU ]  5         UR                  UR                  -  S:w  a7  [	        US5      (       d&  [        SUR                   SUR                   S35      eUR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  5      U l        U=(       d    [#        USS5      U l        U R$                  S:X  d  U R$                  S	:X  aG  UR&                  U l        [        R(                  " S
UR&                  -  S-
  U R                  5      U l        UR,                  U l        X0l        g )Nr   Úembedding_sizezThe hidden size (z6) is not a multiple of the number of attention heads (Ú)r'   r(   Úrelative_keyÚrelative_key_queryé   r   )r/   r0   r3   Únum_attention_headsrS   Ú
ValueErrorÚintÚattention_head_sizeÚall_head_sizer   ÚLinearÚqueryÚkeyÚvaluer<   Úattention_probs_dropout_probr>   r?   r'   r6   r1   Údistance_embeddingÚ
is_decoderÚ	layer_idx©rH   rI   r'   r   rJ   s       €rK   r0   ÚXmodSelfAttention.__init__Œ   s¥  ø€ Ü‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ# F×$6Ñ$6Ð#7ð 8Ø ×4Ñ4Ð5°Qð8óð ð
 $*×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔä—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÓDˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
ä—z’z &×"EÑ"EÓFˆŒØ'>÷ (
Ä'ØÐ-¨zóC
ˆÔ$ð ×'Ñ'¨>Ó9¸T×=YÑ=YÐ]qÓ=qØ+1×+IÑ+IˆDÔ(Ü&(§l¢l°1°v×7UÑ7UÑ3UÐXYÑ3YÐ[_×[sÑ[sÓ&tˆDÔ#à ×+Ñ+ˆŒØ"rM   Úhidden_statesÚattention_maskÚ	head_maskÚencoder_hidden_statesÚpast_key_valueÚoutput_attentionsÚcache_positionÚreturnc                 ó`	  • UR                   u  p‰n
U R                  U5      nUR                  USU R                  U R                  5      R                  SS5      nUS LnUb]  [        U[        5      (       aF  UR                  R                  U R                  5      nU(       a  UR                  nOUR                  nOUnU(       a  UOUnU(       aQ  UbN  W(       aG  WR                  U R                     R                  nUR                  U R                     R                  nOãU R!                  U5      nUR                  USU R                  U R                  5      R                  SS5      nU R#                  U5      nUR                  USU R                  U R                  5      R                  SS5      nUbN  U(       d  UOS nWR%                  UUU R                  SU05      u  nnU(       a  SUR                  U R                  '   [&        R(                  " UUR                  SS5      5      nU R*                  S:X  d  U R*                  S:X  Ga”  UR                   S   UR                   S   nnUbB  [&        R,                  " US-
  [&        R.                  UR0                  S	9R                  SS5      nO>[&        R2                  " U[&        R.                  UR0                  S	9R                  SS5      n[&        R2                  " U[&        R.                  UR0                  S	9R                  SS5      nUU-
  nU R5                  UU R6                  -   S-
  5      nUR9                  UR:                  S
9nU R*                  S:X  a  [&        R<                  " SUU5      nUU-   nOHU R*                  S:X  a8  [&        R<                  " SUU5      n[&        R<                  " SUU5      nUU-   U-   nU[>        R@                  " U R                  5      -  nUb  UU-   n[B        RD                  RG                  USS9nU RI                  U5      nUb  UU-  n[&        R(                  " UU5      nURK                  SSSS5      RM                  5       nURO                  5       S S U RP                  4-   nUR                  U5      nUU4$ )Nr*   r   rr   rˆ   Téþÿÿÿrp   rq   rO   r-   zbhld,lrd->bhlrzbhrd,lrd->bhlr©Údimr   r	   ))Úshapery   Úviewrs   rv   Ú	transposeÚ
isinstancer   Ú
is_updatedÚgetr   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesrz   r{   ÚupdaterA   Úmatmulr'   ÚtensorrF   rP   rB   r}   r6   Útor.   ÚeinsumÚmathÚsqrtr   Ú
functionalÚsoftmaxr>   ÚpermuteÚ
contiguousrE   rw   )rH   r‚   rƒ   r„   r…   r†   r‡   rˆ   Ú
batch_sizerX   Ú_Úquery_layerÚis_cross_attentionr’   Úcurr_past_key_valueÚcurrent_statesÚ	key_layerÚvalue_layerÚattention_scoresÚquery_lengthÚ
key_lengthÚposition_ids_lÚposition_ids_rÚdistanceÚpositional_embeddingÚrelative_position_scoresÚrelative_position_scores_queryÚrelative_position_scores_keyÚattention_probsÚcontext_layerÚnew_context_layer_shapes                                  rK   r\   ÚXmodSelfAttention.forward§   sO  € ð %2×$7Ñ$7Ñ!ˆ
 Ø—j‘j Ó/ˆØ!×&Ñ& z°2°t×7OÑ7OÐQU×QiÑQiÓj×tÑtØˆqó
ˆð 3¸$Ð>ÐØÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ2DÑ.È-ˆÞ .Ñ"<Æà+×2Ñ2°4·>±>ÑB×GÑGˆIØ-×4Ñ4°T·^±^ÑD×KÑK‰KàŸ™ Ó0ˆIØ!Ÿ™ z°2°t×7OÑ7OÐQU×QiÑQiÓj×tÑtØ1óˆIð Ÿ*™* ^Ó4ˆKØ%×*Ñ*Ø˜B × 8Ñ 8¸$×:RÑ:Róç‰i˜˜1‹oð ð Ñ)æ7I¡ÈtØ)<×)CÑ)CØ˜{¨D¯N©NÐ=MÈ~Ð<^ó*Ñ&	˜;ö &Ø@DN×-Ñ-¨d¯n©nÑ=ô !Ÿ<š<¨°Y×5HÑ5HÈÈRÓ5PÓQÐà×'Ñ'¨>Ó9¸T×=YÑ=YÐ]qÔ=qØ'2×'8Ñ'8¸Ñ';¸Y¿_¹_ÈQÑ=O˜*ˆLØÑ)Ü!&§¢¨j¸1©nÄEÇJÁJÐWd×WkÑWkÑ!l×!qÑ!qØ˜ó"‘ô "'§¢¨lÄ%Ç*Á*ÐUb×UiÑUiÑ!j×!oÑ!oÐprÐtuÓ!vÜ"Ÿ\š\¨*¼E¿J¹JÈ}×OcÑOcÑd×iÑiÐjkÐmoÓpˆNØ%¨Ñ6ˆHà#'×#:Ñ#:¸8Àd×FbÑFbÑ;bÐefÑ;fÓ#gÐ Ø#7×#:Ñ#:À×ARÑARÐ#:Ð#SÐ à×+Ñ+¨~Ó=Ü+0¯<ª<Ð8HÈ+ÐWkÓ+lÐ(Ø#3Ð6NÑ#NÑ Ø×-Ñ-Ð1EÓEÜ16·²Ð>NÐP[Ð]qÓ1rÐ.Ü/4¯|ª|Ð<LÈiÐYmÓ/nÐ,Ø#3Ð6TÑ#TÐWsÑ#sÐ à+¬d¯iªi¸×8PÑ8PÓ.QÑQÐØÑ%à/°.Ñ@Ðô Ÿ-™-×/Ñ/Ð0@ÀbÐ/ÐIˆð Ÿ,™, Ó7ˆð Ñ Ø-°	Ñ9ˆOäŸš _°kÓBˆà%×-Ñ-¨a°°A°qÓ9×DÑDÓFˆØ"/×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×*Ñ*Ð+BÓCˆà˜oÐ-Ð-rM   )rw   rv   r}   r>   r~   rz   r   r6   rs   r'   ry   r{   ©NN©NNNNFN)rb   rc   rd   re   r0   rA   ÚTensorr   ÚFloatTensorr   ÚboolÚtupler\   rg   rh   ri   s   @rK   rk   rk   ‹   s½   ø† ÷#ð< 7;Ø15Ø=AØ*.Ø,1Ø15ñd.à—|‘|ðd.ð ! ×!2Ñ!2Ñ3ðd.ð ˜E×-Ñ-Ñ.ð	d.ð
  (¨×(9Ñ(9Ñ:ðd.ð ! ™ðd.ð $ D™>ðd.ð ! §¡Ñ.ðd.ð 
ˆu|‰|Ñ	÷d.ó d.rM   rk   c                   óz   ^ • \ rS rSrU 4S jrS\R                  S\R                  S\R                  4S jrSrU =r	$ )ÚXmodSelfOutputi  c                 ó(  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  5      U l
        g ©Nr%   )r/   r0   r   rx   r3   Údenser:   r;   r<   r=   r>   rG   s     €rK   r0   ÚXmodSelfOutput.__init__  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆrM   r‚   Úinput_tensorr‰   c                 óR   • U R                  U5      nU R                  U5      nX-   nU$ ©N)rÄ   r>   )rH   r‚   rÆ   s      rK   r\   ÚXmodSelfOutput.forward  s,   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆØ%Ñ4ˆØÐrM   )r:   rÄ   r>   ©
rb   rc   rd   re   r0   rA   r¼   r\   rg   rh   ri   s   @rK   rÁ   rÁ     s6   ø† õ>ð U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò rM   rÁ   c                   ó  ^ • \ rS rSrSU 4S jjrS r      SS\R                  S\\R                     S\\R                     S\\R                     S\\
   S	\\   S
\\R                     S\\R                     4S jjrSrU =r$ )ÚXmodAttentioni  c                 ó    >• [         TU ]  5         [        XUS9U l        [	        U5      U l        [        5       U l        UR                  U l        g )N©r'   r   )	r/   r0   rk   rH   rÁ   ÚoutputÚsetÚpruned_headsÚpre_normr€   s       €rK   r0   ÚXmodAttention.__init__  s>   ø€ Ü‰ÑÔÜ% fÐirÑsˆŒ	Ü$ VÓ,ˆŒÜ›EˆÔØŸ™ˆrM   c                 ó6  • [        U5      S:X  a  g [        XR                  R                  U R                  R                  U R
                  5      u  p[        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l	        [        U R                  R                  USS9U R                  l        U R                  R                  [        U5      -
  U R                  l        U R                  R                  U R                  R                  -  U R                  l        U R
                  R                  U5      U l        g )Nr   r   rŒ   )Úlenr   rH   rs   rv   rÑ   r   ry   rz   r{   rÏ   rÄ   rw   Úunion)rH   ÚheadsÚindexs      rK   Úprune_headsÚXmodAttention.prune_heads&  s  € Üˆu‹:˜‹?ØÜ7Ø—9‘9×0Ñ0°$·)±)×2OÑ2OÐQU×QbÑQbó
‰ˆô
 -¨T¯Y©Y¯_©_¸eÓDˆ	‰	ŒÜ*¨4¯9©9¯=©=¸%Ó@ˆ	‰	ŒÜ,¨T¯Y©Y¯_©_¸eÓDˆ	‰	ŒÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð )-¯	©	×(EÑ(EÌÈEË
Ñ(Rˆ	‰	Ô%Ø"&§)¡)×"?Ñ"?À$Ç)Á)×B_ÑB_Ñ"_ˆ	‰	ÔØ ×-Ñ-×3Ñ3°EÓ:ˆÕrM   r‚   rƒ   r„   r…   r†   r‡   rˆ   r‰   c           	      ó$  • UnU R                   (       a  U R                  R                  U5      nU R                  UUUUUUU5      n	U R                  U	S   U5      n
U R                   (       d  U R                  R                  U
5      n
U
4U	SS  -   nU$ )Nr   r   )rÒ   rÏ   r:   rH   )rH   r‚   rƒ   r„   r…   r†   r‡   rˆ   ÚresidualÚself_outputsÚattention_outputÚoutputss               rK   r\   ÚXmodAttention.forward8  s”   € ð !ˆØ==Ø ŸK™K×1Ñ1°-Ó@ˆMØ—y‘yØØØØ!ØØØó
ˆð  Ÿ;™; |°A¡¸ÓAÐØ}}Ø#Ÿ{™{×4Ñ4Ð5EÓFÐØ#Ð%¨°Q°RÐ(8Ñ8ˆØˆrM   )rÏ   rÒ   rÑ   rH   rº   r»   )rb   rc   rd   re   r0   rÙ   rA   r¼   r   r½   r   r¾   r¿   r\   rg   rh   ri   s   @rK   rÌ   rÌ     s¸   ø† ÷(ò;ð* 7;Ø15Ø=AØ*.Ø,1Ø15ñà—|‘|ðð ! ×!2Ñ!2Ñ3ðð ˜E×-Ñ-Ñ.ð	ð
  (¨×(9Ñ(9Ñ:ðð ! ™ðð $ D™>ðð ! §¡Ñ.ðð 
ˆu|‰|Ñ	÷ó rM   rÌ   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚXmodIntermediateiV  c                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g rÈ   )r/   r0   r   rx   r3   Úintermediate_sizerÄ   r‘   Ú
hidden_actÚstrr
   Úintermediate_act_fnrG   s     €rK   r0   ÚXmodIntermediate.__init__W  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$rM   r‚   r‰   c                 óJ   • U R                  U5      nU R                  U5      nU$ rÈ   ©rÄ   rç   ©rH   r‚   s     rK   r\   ÚXmodIntermediate.forward_  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆØÐrM   rê   rÊ   ri   s   @rK   râ   râ   V  s(   ø† õ9ð U§\¡\ð °e·l±l÷ ò rM   râ   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚXmodAdapterie  c                 ó°  >• [         TU ]  5         UR                  UR                  -  U l        [
        R                  " UR                  U R                  5      U l        [
        R                  " U R                  UR                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g rÈ   )r/   r0   r3   Úadapter_reduction_factorÚbottleneck_sizer   rx   Údense1Údense2r‘   rå   ræ   r
   Úadapter_act_fnrG   s     €rK   r0   ÚXmodAdapter.__init__f  s—   ø€ Ü‰ÑÔØ%×1Ñ1°V×5TÑ5TÑTˆÔÜ—i’i × 2Ñ 2°D×4HÑ4HÓIˆŒÜ—i’i × 4Ñ 4°f×6HÑ6HÓIˆŒÜf×'Ñ'¬×-Ñ-Ü"(¨×):Ñ):Ñ";ˆDÕà"(×"3Ñ"3ˆDÕrM   r‚   r‰   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ rÈ   )rò   rô   ró   rë   s     rK   r\   ÚXmodAdapter.forwardp  s4   € ØŸ™ MÓ2ˆØ×+Ñ+¨MÓ:ˆØŸ™ MÓ2ˆØÐrM   )rô   rñ   rò   ró   rÊ   ri   s   @rK   rî   rî   e  s(   ø† õ4ð U§\¡\ð °e·l±l÷ ò rM   rî   c                   óÌ   ^ • \ rS rSrU 4S jrS\R                  S\R                  S\R                  S\R                  4S jrS\R                  S\R                  4S jrS	r	U =r
$ )
Ú
XmodOutputiw  c                 ó˜  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        UR                  U l	        [        R                  " UR                  5      U l        UR                  (       a/  [        R                  " UR
                  UR                  S9U l        OS U l        UR                  U l        [        R                  " 0 5      U l        UR"                   H$  n[%        U5      U R                   ['        U5      '   M&     g rÃ   )r/   r0   r   rx   rä   r3   rÄ   r:   r;   Úln_before_adapterr<   r=   r>   Úadapter_layer_normÚadapter_reuse_layer_normÚ
ModuleDictÚadapter_modulesÚ	languagesrî   ræ   )rH   rI   ÚlanguagerJ   s      €rK   r0   ÚXmodOutput.__init__x  sæ   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒØ!'×!9Ñ!9ˆÔÜ—z’z &×"<Ñ"<Ó=ˆŒØ×$×$Ü&(§l¢l°6×3EÑ3EÈ6×K`ÑK`Ñ&aˆDÕ#à&*ˆDÔ#Ø(.×(GÑ(GˆÔ%Ü!Ÿ}š}¨RÓ0ˆÔØ×(Ô(ˆHÜ2=¸fÓ2EˆD× Ñ ¤ X£Ó/ò )rM   r‚   rÆ   Úlang_idsr‰   c                 ót   • U R                  U5      nU R                  U5      nX-   nU R                  X15      nU$ rÈ   )rÄ   r>   Úlang_adapter)rH   r‚   rÆ   r  s       rK   r\   ÚXmodOutput.forward‡  s<   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆØ%Ñ4ˆØ×)Ñ)¨(ÓBˆØÐrM   c                 ó¬  • [         R                  " USS9u  pU R                  (       d  UnU R                  b  U R                  U5      nO"U R                  (       a  U R                  U5      nU R                  (       a  Un[         R                  " X#R                  5       S5      n/ n[        [        X5      5       Hi  u  nu  p‰[        U R                  R                  5       5      [        UR                  5       5         n
UR                  U R                  U
   " U	5      5        Mk     [         R                   " US5      nU R#                  U5      nUW-  nU$ )NT)Úreturn_countsr   )rA   Úunique_consecutiverû   rü   rý   r:   ÚsplitÚtolistÚ	enumerateÚzipÚlistrÿ   r—   ru   ÚitemÚappendÚcatr>   )rH   r  r‚   Úlang_lengthsrÜ   Úsplit_hidden_statesÚlang_wise_outputsÚiÚlang_idÚsplit_hidden_stateÚlangs              rK   r  ÚXmodOutput.lang_adapterŽ  s  € ä!&×!9Ò!9¸(ÐRVÑ!WÑˆà×%×%Ø$ˆHà×"Ñ"Ñ.Ø ×3Ñ3°MÓB‰MØ×*×*Ø ŸN™N¨=Ó9ˆMà×!×!Ø$ˆHä#Ÿkšk¨-×9LÑ9LÓ9NÐPQÓRÐØÐÜ09¼#¸hÓ:\Ö0]Ñ,ˆAÑ,Ü˜×,Ñ,×1Ñ1Ó3Ó4´S¸¿¹»Ó5HÑIˆDØ×$Ñ$ T×%9Ñ%9¸$Ò%?Ð@RÓ%SÖTñ 1^ô Ÿ	š	Ð"3°QÓ7ˆàŸ™ ]Ó3ˆØ˜Ñ!ˆØÐrM   )r:   rü   rÿ   rý   rÄ   r>   rû   )rb   rc   rd   re   r0   rA   r¼   r\   r  rg   rh   ri   s   @rK   rù   rù   w  s`   ø† õFð U§\¡\ð ÀÇÁð ÐY^×YeÑYeð Ðjo×jvÑjvô ð U§\¡\ð À%Ç,Á,÷ ò rM   rù   c                   óF  ^ • \ rS rSrSU 4S jjr       SS\R                  S\R                  S\\R                     S\\R                     S\\R                     S\\R                     S	\\	   S
\\
   S\\R                     S\\R                     4S jjrS rSrU =r$ )Ú	XmodLayeri©  c                 ó”  >• [         TU ]  5         UR                  U l        SU l        [	        XS9U l        UR                  U l        UR                  U l        U R                  (       a/  U R                  (       d  [        U  S35      e[	        USUS9U l	        [        U5      U l        [        U5      U l        UR                  U l        g )Nr   ©r   z> should be used as a decoder model if cross attention is addedr(   rÎ   )r/   r0   Úchunk_size_feed_forwardÚseq_len_dimrÌ   Ú	attentionr~   Úadd_cross_attentionrt   Úcrossattentionrâ   Úintermediaterù   rÏ   rÒ   )rH   rI   r   rJ   s      €rK   r0   ÚXmodLayer.__init__ª  s¥   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ& vÑCˆŒØ ×+Ñ+ˆŒØ#)×#=Ñ#=ˆÔ Ø×#×#Ø—?—?Ü  D 6Ð)gÐ!hÓiÐiÜ"/°ÐPZÐfoÑ"pˆDÔÜ,¨VÓ4ˆÔÜ  Ó(ˆŒØŸ™ˆrM   r‚   r  rƒ   r„   r…   Úencoder_attention_maskr†   r‡   rˆ   r‰   c
           
      ó$  • U R                  UUUUUU	S9n
U
S   nU
SS  nU R                  (       aD  UbA  [        U S5      (       d  [        SU  S35      eU R	                  UUUUUUU	S9nUS   nXÍSS  -   nUnU R
                  (       a  U R                  R                  U5      n[        U R                  U R                  U R                  U5      nU R                  XþU5      nU R
                  (       d  U R                  R                  U5      nU4U-   $ )N)rƒ   r„   r‡   r†   rˆ   r   r   r"  z'If `encoder_hidden_states` are passed, z` has to be instantiated with cross-attention layers by setting `config.add_cross_attention=True`)rƒ   r„   r…   r†   r‡   rˆ   )r   r~   rS   rt   r"  rÒ   rÏ   r:   r   Úfeed_forward_chunkr  r  )rH   r‚   r  rƒ   r„   r…   r%  r†   r‡   rˆ   Úself_attention_outputsrÞ   rß   Úcross_attention_outputsrÜ   Úintermediate_outputÚlayer_outputs                    rK   r\   ÚXmodLayer.forward¹  sN  € ð "&§¡ØØ)ØØ/Ø)Ø)ð "0ð "
Ðð 2°!Ñ4ÐØ(¨¨Ð,ˆà??Ð4Ñ@Ü˜4Ð!1×2Ñ2Ü Ø=¸d¸Vð DDð Dóð ð
 '+×&9Ñ&9Ø Ø5Ø#Ø&;Ø-Ø"3Ø-ð ':ð 'Ð#ð  7°qÑ9ÐØ¸¸Ð ;Ñ;ˆGà#ˆØ==Ø#Ÿ{™{×4Ñ4Ð5EÓFÐÜ7Ø×#Ñ#Ø×(Ñ(Ø×ÑØó	
Ðð —{‘{Ð#6À(ÓKˆØ}}ØŸ;™;×0Ñ0°Ó>ˆLØˆ Ñ(Ð(rM   c                 ó$   • U R                  U5      $ rÈ   )r#  )rH   rÞ   s     rK   r'  ÚXmodLayer.feed_forward_chunkñ  s   € Ø× Ñ Ð!1Ó2Ð2rM   )	r!  r   r  r"  r#  r~   rÏ   rÒ   r  rÈ   )NNNNNFN)rb   rc   rd   re   r0   rA   r¼   r   r½   r   r¾   r¿   r\   r'  rg   rh   ri   s   @rK   r  r  ©  sß   ø† ÷(ð& 7;Ø15Ø=AØ>BØ*.Ø,1Ø15ñ6)à—|‘|ð6)ð —,‘,ð6)ð ! ×!2Ñ!2Ñ3ð	6)ð
 ˜E×-Ñ-Ñ.ð6)ð  (¨×(9Ñ(9Ñ:ð6)ð !)¨×):Ñ):Ñ ;ð6)ð ! ™ð6)ð $ D™>ð6)ð ! §¡Ñ.ð6)ð 
ˆu|‰|Ñ	õ6)÷p3ð 3rM   r  c                   óŠ  ^ • \ rS rSrU 4S jr          SS\R                  S\R                  S\\R                     S\\R                     S\\R                     S\\R                     S	\\	\	\R                           S
\\
   S\\
   S\\
   S\\
   S\\R                     S\\	\R                     \4   4S jjrSrU =r$ )ÚXmodEncoderiõ  c           
      óp  >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        XS9PM     sn5      U l        UR                  U l
        U R                  (       a.  [        R                  " UR                  UR                  S9U l        SU l        g s  snf )Nr  r%   F)r/   r0   rI   r   Ú
ModuleListÚrangeÚnum_hidden_layersr  ÚlayerrÒ   Úis_pre_normr:   r3   r;   Úgradient_checkpointing)rH   rI   r  rJ   s      €rK   r0   ÚXmodEncoder.__init__ö  s†   ø€ Ü‰ÑÔØŒÜ—]’]ÌEÐRX×RjÑRjÔLkÓ#lÑLkÀq¤I¨fÔ$BÑLkÑ#lÓmˆŒ
Ø!Ÿ?™?ˆÔØ××ÜŸ\š\¨&×*<Ñ*<À&×BWÑBWÑXˆDŒNØ&+ˆÕ#ùò	 $ms   ½B3r‚   r  rƒ   r„   r…   r%  Úpast_key_valuesÚ	use_cacher‡   Úoutput_hidden_statesÚreturn_dictrˆ   r‰   c                 ót  • U R                   (       a/  U R                  (       a  U(       a  [        R                  S5        SnSnU(       aB  [	        U[
        5      (       d-  [        R                  S5        Sn[        R                  " U5      nU
(       a  SOS nU	(       a  SOS nU	(       a  U R                  R                  (       a  SOS n[        U R                  5       Hi  u  nnU
(       a  Xá4-   nUb  UU   OS nU" UUUUUUUU	U5	      nUS   nU	(       d  M:  UUS   4-   nU R                  R                  (       d  M`  UUS   4-   nMk     U R                  (       a  U R                  U5      nU
(       a  Xá4-   nU(       a  UR                  5       nU(       d  [        S	 UUUUU4 5       5      $ [!        UUUUUS
9$ )NzZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...FzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.T© r   r   rr   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7frÈ   r>  )Ú.0Úvs     rK   Ú	<genexpr>Ú&XmodEncoder.forward.<locals>.<genexpr>E  s"   é € ð 
ñAð ÷ ‘òùs   ‚Œ	)Úlast_hidden_stater9  r‚   Ú
attentionsÚcross_attentions)r7  ÚtrainingÚloggerÚwarning_oncer‘   r   r   Úfrom_legacy_cacherI   r!  r  r5  r6  r:   Úto_legacy_cacher¿   r   )rH   r‚   r  rƒ   r„   r…   r%  r9  r:  r‡   r;  r<  rˆ   Úreturn_legacy_cacheÚall_hidden_statesÚall_self_attentionsÚall_cross_attentionsr  Úlayer_moduleÚlayer_head_maskÚlayer_outputss                        rK   r\   ÚXmodEncoder.forwardÿ  sÅ  € ð ×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	à#ÐÞœZ¨¼×?Ñ?Ü×Ñð\ôð
 #'ÐÜ1×CÒCÀOÓTˆOæ"6™B¸DÐÞ$5™b¸4ÐÞ%6¸4¿;¹;×;Z×;Z™rÐ`dÐä(¨¯©Ö4‰OˆAˆ|Þ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜i¨šlÈˆOá(ØØØØØ%Ø&ØØ!Øó
ˆMð *¨!Ñ,ˆMß Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÐ#Ø—;‘;×2×2Ñ2Ø+?À=ÐQRÑCSÐBUÑ+UÒ(ñ-  5ð0 ××Ø ŸN™N¨=Ó9ˆMæØ 1Ð4DÑ DÐæØ-×=Ñ=Ó?ˆOæÜñ 
ð "Ø#Ø%Ø'Ø(ñó
ó 
ð 
ô 9Ø+Ø+Ø+Ø*Ø1ñ
ð 	
rM   )r:   rI   r7  r6  r5  )
NNNNNNFFTN)rb   rc   rd   re   r0   rA   r¼   r   r½   r¿   r¾   r   r   r\   rg   rh   ri   s   @rK   r0  r0  õ  s7  ø† õ,ð 7;Ø15Ø=AØ>BØEIØ$(Ø,1Ø/4Ø&*Ø15ñW
à—|‘|ðW
ð —,‘,ðW
ð ! ×!2Ñ!2Ñ3ð	W
ð
 ˜E×-Ñ-Ñ.ðW
ð  (¨×(9Ñ(9Ñ:ðW
ð !)¨×):Ñ):Ñ ;ðW
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðW
ð ˜D‘>ðW
ð $ D™>ðW
ð ' t™nðW
ð ˜d‘^ðW
ð ! §¡Ñ.ðW
ð 
ˆuU—\‘\Ñ"Ð$MÐMÑ	N÷W
ó W
rM   r0  c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )Ú
XmodPooleriZ  c                 ó¶   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " 5       U l        g rÈ   )r/   r0   r   rx   r3   rÄ   ÚTanhÚ
activationrG   s     €rK   r0   ÚXmodPooler.__init__[  s9   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ'š'›)ˆrM   r‚   r‰   c                 ó\   • US S 2S4   nU R                  U5      nU R                  U5      nU$ ©Nr   )rÄ   rX  )rH   r‚   Úfirst_token_tensorÚpooled_outputs       rK   r\   ÚXmodPooler.forward`  s6   € ð +ª1¨a¨4Ñ0ÐØŸ
™
Ð#5Ó6ˆØŸ™¨Ó6ˆØÐrM   )rX  rÄ   rÊ   ri   s   @rK   rU  rU  Z  s(   ø† õ$ð
 U§\¡\ð °e·l±l÷ ò rM   rU  c                   óB   • \ rS rSr% \\S'   SrSrS rS\	4S jr
S rS	rg
)ÚXmodPreTrainedModelii  rI   ÚrobertaTc                 óŒ  • [        U[        R                  5      (       ak  UR                  R                  R                  SU R                  R                  S9  UR                  b%  UR                  R                  R                  5         gg[        U[        R                  5      (       ax  UR                  R                  R                  SU R                  R                  S9  UR                  b2  UR                  R                  UR                     R                  5         gg[        U[        R                  5      (       aJ  UR                  R                  R                  5         UR                  R                  R                  S5        g[        U[        5      (       a%  UR                  R                  R                  5         gg)zInitialize the weightsg        )ÚmeanÚstdNg      ð?)r‘   r   rx   ÚweightÚdataÚnormal_rI   Úinitializer_rangeÚbiasÚzero_r1   r$   r:   Úfill_Ú
XmodLMHead)rH   Úmodules     rK   Ú_init_weightsÚ!XmodPreTrainedModel._init_weightsp  s2  € äfœbŸi™i×(Ñ(ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤
×+Ñ+ØK‰K×Ñ×"Ñ"Õ$ð ,rM   r  c           	      ó¶   • XR                   R                  ;  a0  [        U  SU S[        U R                   R                  5       35      eXR                   l        g)z¼
Set the default language code for the model. This is used when the language is not specified in the input.

Args:
    language (`str`): The language code, such as `"en_XX"` or `"de_DE"`.
z does not have an adapter for z. Supported languages: N)rI   r   rt   r  Údefault_language)rH   r  s     rK   Úset_default_languageÚ(XmodPreTrainedModel.set_default_language‚  sW   € ð Ÿ;™;×0Ñ0Ó0ÜØ&Ð6°x°jÐ@WÔX\Ð]a×]hÑ]h×]rÑ]rÓXsÐWtÐuóð ð (0‰Õ$rM   c                 ó   • [         R                  S5        U R                  R                  R	                  5        H
  nSUl        M     [         R                  S5        U R                  R                  R                   H~  nUR                  R                  b2  UR                  R                  R	                  5        H
  nSUl        M     UR                  R                  R	                  5        H
  nSUl        M     M€     g)z‰
Freeze the embeddings and language adapters of the model. Usually, this is applied before the model is
fine-tuned on a downstream task.
zFreezing embeddingsFzFreezing adaptersN)rH  Úinfora  r[   Ú
parametersÚrequires_gradÚencoderr5  rÏ   rü   rÿ   )rH   Ú	parameterr5  s      rK   Ú'freeze_embeddings_and_language_adaptersÚ;XmodPreTrainedModel.freeze_embeddings_and_language_adapters  s¹   € ô
 	‰Ð)Ô*ØŸ™×0Ñ0×;Ñ;Ö=ˆIØ&+ˆIÖ#ñ >ä‰Ð'Ô(Ø—\‘\×)Ñ)×/Ô/ˆEØ|‰|×.Ñ.Ñ:Ø!&§¡×!@Ñ!@×!KÑ!KÖ!MIØ.3IÖ+ñ "Nà"Ÿ\™\×9Ñ9×DÑDÖF	Ø*/	Ö'ó Gò	 0rM   r>  N)rb   rc   rd   re   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingrn  ræ   rr  rz  rg   r>  rM   rK   r`  r`  i  s*   ‡ àÓØ!ÐØ&*Ð#ò%ð$0¨Sô 0õ0rM   r`  a0  
    The model can behave as an encoder (with only self-attention) as well as a decoder, in which case a layer of
    cross-attention is added between the self-attention layers, following the architecture described in *Attention is
    all you need*_ by Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz
    Kaiser and Illia Polosukhin.

    To behave as an decoder the model needs to be initialized with the `is_decoder` argument of the configuration set
    to `True`. To be used in a Seq2Seq model, the model needs to initialized with both `is_decoder` argument and
    `add_cross_attention` set to `True`; an `encoder_hidden_states` is then expected as an input to the forward pass.

    .. _*Attention is all you need*: https://huggingface.co/papers/1706.03762
    )Úcustom_introc            $       ó  ^ • \ rS rSrSU 4S jjrS rS rS r\               SS\	\
R                     S\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\\
R                        S\	\   S\	\   S\	\   S\	\   S\	\
R                     S\\\
R                     \4   4 S jj5       rSrU =r$ )Ú	XmodModeli   c                 óÂ   >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        U(       a  [        U5      OSU l        U R                  5         g)z^
add_pooling_layer (bool, *optional*, defaults to `True`):
    Whether to add a pooling layer
N)
r/   r0   rI   r!   r[   r0  rx  rU  ÚpoolerÚ	post_init)rH   rI   Úadd_pooling_layerrJ   s      €rK   r0   ÚXmodModel.__init__°  sK   ø€ ô
 	‰Ñ˜Ô ØŒä(¨Ó0ˆŒÜ" 6Ó*ˆŒæ,=”j Ô(À4ˆŒð 	‰ÕrM   c                 ó.   • U R                   R                  $ rÈ   ©r[   r5   ©rH   s    rK   Úget_input_embeddingsÚXmodModel.get_input_embeddingsÁ  s   € Ø‰×.Ñ.Ð.rM   c                 ó$   • XR                   l        g rÈ   rˆ  )rH   r{   s     rK   Úset_input_embeddingsÚXmodModel.set_input_embeddingsÅ  s   € Ø*/‰Õ'rM   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)Úitemsrx  r5  r   rÙ   )rH   Úheads_to_pruner5  r×   s       rK   Ú_prune_headsÚXmodModel._prune_headsÉ  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3rM   rT   r  rƒ   r,   r)   r„   rU   r…   r%  r9  r:  r‡   r;  r<  rˆ   r‰   c                 óZ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R                   R                  (       a  Ub  UOU R                   R
                  nOSnUb  Ub  [        S5      eUb"  U R                  X5        UR                  5       nO"Ub  UR                  5       SS nO[        S5      eUu  nnUb  UR                  OUR                  nSnU
b:  [        U
[        5      (       d  U
S   S   R                  S   OU
R                  5       nUc£  U R                   R                  c  [        S5      e[        U R                   R"                  S   R$                  R&                  R)                  5       5      nUR+                  U R                   R                  5      nU[,        R.                  " UUS	9-  nUc  [,        R.                  " UUU-   4US	9nUcs  [1        U R2                  S
5      (       a4  U R2                  R4                  SS2SU24   nUR7                  UU5      nUnO$[,        R8                  " U[,        R:                  US9nU R=                  UU5      nU R                   R                  (       aE  UbB  UR                  5       u  nnnUU4nU	c  [,        R.                  " UUS	9n	U R?                  U	5      nOSnU RA                  X`R                   RB                  5      nU R3                  UUUUUS9nU R!                  UUUUUUU
UUUUUS9n U S   n!U RD                  b  U RE                  U!5      OSn"U(       d
  U!U"4U SS -   $ [G        U!U"U RH                  U RJ                  U RL                  U RN                  S9$ )úý
lang_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Indices of the language adapters that should be activated for each sample, respectively. Default: the index
    that corresponds to `self.config.default_language`.
NFzDYou cannot specify both input_ids and inputs_embeds at the same timer*   z5You have to specify either input_ids or inputs_embedsr   r‹   zPInput language unknown. Please call `XmodPreTrainedModel.set_default_language()`)rP   r,   rO   )rT   r)   r,   rU   rV   )r  rƒ   r„   r…   r%  r9  r:  r‡   r;  r<  rˆ   r   )rD  Úpooler_outputr9  r‚   rE  rF  )(rI   r‡   r;  Úuse_return_dictr~   r:  rt   Ú%warn_if_padding_and_no_attention_maskrE   rP   r‘   r   rŽ   Úget_seq_lengthrq  r  rx  r5  rÏ   rÿ   r—   rØ   rA   ÚonesrS   r[   r,   rC   rD   rF   Úget_extended_attention_maskÚinvert_attention_maskÚget_head_maskr4  rƒ  r   r9  r‚   rE  rF  )#rH   rT   r  rƒ   r,   r)   r„   rU   r…   r%  r9  r:  r‡   r;  r<  rˆ   rW   r¤   rX   rP   rV   Úadapter_languagesÚdefault_lang_idrY   rZ   Úextended_attention_maskÚencoder_batch_sizeÚencoder_sequence_lengthr¥   Úencoder_hidden_shapeÚencoder_extended_attention_maskÚembedding_outputÚencoder_outputsÚsequence_outputr]  s#                                      rK   r\   ÚXmodModel.forwardÑ  s¹  € ð0 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà;‰;×!×!Ø%.Ñ%:™	ÀÇÁ×@UÑ@U‰IàˆIàÑ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*‰KØÑ&Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUà!,Ñˆ
JØ%.Ñ%:×!Ò!À×@TÑ@Tˆà!"ÐØÑ&ô " /´5×9Ñ9ð   Ñ" 1Ñ%×+Ñ+¨BÒ/à$×3Ñ3Ó5ð #ð ÑØ{‰{×+Ñ+Ñ3Ü Ð!sÓtÐtÜ $ T§\¡\×%7Ñ%7¸Ñ%:×%AÑ%A×%QÑ%Q×%VÑ%VÓ%XÓ YÐØ/×5Ñ5°d·k±k×6RÑ6RÓSˆOØ&¬¯ª°JÀvÑ)NÑNˆHàÑ!Ü"ŸZšZ¨*°jÐCYÑ6YÐ)ZÐdjÑkˆNàÑ!Üt—‘Ð(8×9Ñ9Ø*.¯/©/×*HÑ*HÊÈKÈZÈKÈÑ*XÐ'Ø3J×3QÑ3QÐR\Ð^hÓ3iÐ0Ø!A‘ä!&§¢¨[ÄÇ
Á
ÐSYÑ!Zð 15×0PÑ0PÐQ_ÐalÓ0mÐð ;‰;×!×!Ð&;Ñ&GØ=R×=WÑ=WÓ=YÑ:ÐÐ 7¸Ø$6Ð8OÐ#PÐ Ø%Ñ-Ü).¯ªÐ4HÐQWÑ)XÐ&Ø.2×.HÑ.HÐI_Ó.`Ñ+à.2Ð+ð ×&Ñ& y·+±+×2OÑ2OÓPˆ	àŸ?™?ØØ%Ø)Ø'Ø#9ð +ð 
Ðð Ÿ,™,ØØØ2ØØ"7Ø#BØ+ØØ/Ø!5Ø#Ø)ð 'ð 
ˆð *¨!Ñ,ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆæØ# ]Ð3°oÀaÀbÐ6IÑIÐIä;Ø-Ø'Ø+×;Ñ;Ø)×7Ñ7Ø&×1Ñ1Ø,×=Ñ=ñ
ð 	
rM   )rI   r[   rx  rƒ  )T)NNNNNNNNNNNNNNN)rb   rc   rd   re   r0   rŠ  r  r’  r   r   rA   r¼   Ú
LongTensorr  r½   r¾   r   r¿   r   r\   rg   rh   ri   s   @rK   r  r     s›  ø† ÷ ò"/ò0òCð ð -1Ø/3Ø15Ø15Ø/3Ø,0Ø04Ø8<Ø9=Ø=AØ$(Ø,0Ø/3Ø&*Ø15ñ!A
à˜EŸL™LÑ)ðA
ð ˜5×+Ñ+Ñ,ðA
ð ! §¡Ñ.ð	A
ð
 ! §¡Ñ.ðA
ð ˜uŸ|™|Ñ,ðA
ð ˜EŸL™LÑ)ðA
ð   §¡Ñ-ðA
ð  (¨¯©Ñ5ðA
ð !)¨¯©Ñ 6ðA
ð " $ u×'8Ñ'8Ñ"9Ñ:ðA
ð ˜D‘>ðA
ð $ D™>ðA
ð ' t™nðA
ð ˜d‘^ðA
ð  ! §¡Ñ.ð!A
ð" 
ˆuU—\‘\Ñ"Ð$PÐPÑ	Qô#A
ó öA
rM   r  zQ
    X-MOD Model with a `language modeling` head on top for CLM fine-tuning.
    c            &       ó8  ^ • \ rS rSrSS/rU 4S jrS rS r\                SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\\\
R                           S\	\   S\	\   S\	\   S\	\   S\	\
R                     S\\\
R                     \4   4"S jj5       rSrU =r$ )ÚXmodForCausalLMiV  úlm_head.decoder.weightúlm_head.decoder.biasc                 óÎ   >• [         TU ]  U5        UR                  (       d  [        R	                  S5        [        USS9U l        [        U5      U l        U R                  5         g )NzLIf you want to use `XmodLMHeadModel` as a standalone, add `is_decoder=True.`F©r…  ©
r/   r0   r~   rH  Úwarningr  ra  rl  Úlm_headr„  rG   s     €rK   r0   ÚXmodForCausalLM.__init___  sL   ø€ Ü‰Ñ˜Ô à× × ÜN‰NÐiÔjä  ¸5ÑAˆŒÜ! &Ó)ˆŒð 	‰ÕrM   c                 ó.   • U R                   R                  $ rÈ   ©r²  Údecoderr‰  s    rK   Úget_output_embeddingsÚ%XmodForCausalLM.get_output_embeddingsl  ó   € Ø|‰|×#Ñ#Ð#rM   c                 ó$   • XR                   l        g rÈ   rµ  ©rH   Únew_embeddingss     rK   Úset_output_embeddingsÚ%XmodForCausalLM.set_output_embeddingsp  ó   € Ø-‰ÕrM   rT   r  rƒ   r,   r)   r„   rU   r…   r%  Úlabelsr9  r:  r‡   r;  r<  rˆ   r‰   c                 ó¨  • Ub  UOU R                   R                  nU
b  SnU R                  UUUUUUUUU	UUUUUUS9nUS   nU R                  U5      nSnU
b*  U R                  " UU
4SU R                   R
                  0UD6nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  S9$ )a³  
lang_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Indices of the language adapters that should be activated for each sample, respectively. Default: the index
    that corresponds to `self.config.default_language`.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the left-to-right language modeling loss (next word prediction). Indices should be in
    `[-100, 0, ..., config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are
    ignored (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`

Example:

```python
>>> from transformers import AutoTokenizer, XmodForCausalLM, AutoConfig
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("FacebookAI/xlm-roberta-base")
>>> config = AutoConfig.from_pretrained("facebook/xmod-base")
>>> config.is_decoder = True
>>> model = XmodForCausalLM.from_pretrained("facebook/xmod-base", config=config)
>>> model.set_default_language("en_XX")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> prediction_logits = outputs.logits
```NF)r  rƒ   r,   r)   r„   rU   r…   r%  r9  r:  r‡   r;  r<  rˆ   r   r2   rr   )ÚlossÚlogitsr9  r‚   rE  rF  )rI   r—  ra  r²  Úloss_functionr2   r   r9  r‚   rE  rF  )rH   rT   r  rƒ   r,   r)   r„   rU   r…   r%  rÀ  r9  r:  r‡   r;  r<  rˆ   Úkwargsrß   r§  Úprediction_scoresÚlm_lossrÏ   s                          rK   r\   ÚXmodForCausalLM.forwards  s%  € ð^ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØÑØˆIà—,‘,ØØØ)Ø)Ø%ØØ'Ø"7Ø#9Ø+ØØ/Ø!5Ø#Ø)ð ð 
ˆð$ " !™*ˆØ ŸL™L¨Ó9ÐàˆØÑØ×(Ò(Ø!Øñð  Ÿ;™;×1Ñ1ðð ñ	ˆGö Ø'Ð)¨G°A°B¨KÑ7ˆFØ,3Ñ,?WJ Ñ'ÐKÀVÐKä0ØØ$Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ñ
ð 	
rM   ©r²  ra  )NNNNNNNNNNNNNNNN)rb   rc   rd   re   Ú_tied_weights_keysr0   r·  r½  r   r   rA   r©  r½   r¿   r¾   r¼   r   r   r\   rg   rh   ri   s   @rK   r«  r«  V  sÑ  ø† ð 3Ð4JÐKÐõ
ò$ò.ð ð 15Ø/3Ø6:Ø59Ø37Ø15Ø59Ø=AØ>BØ-1ØEIØ$(Ø,0Ø/3Ø&*Ø15ñ#[
à˜E×,Ñ,Ñ-ð[
ð ˜5×+Ñ+Ñ,ð[
ð ! ×!2Ñ!2Ñ3ð	[
ð
 ! ×!1Ñ!1Ñ2ð[
ð ˜u×/Ñ/Ñ0ð[
ð ˜E×-Ñ-Ñ.ð[
ð   × 1Ñ 1Ñ2ð[
ð  (¨×(9Ñ(9Ñ:ð[
ð !)¨×):Ñ):Ñ ;ð[
ð ˜×)Ñ)Ñ*ð[
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBð[
ð ˜D‘>ð[
ð $ D™>ð[
ð ' t™nð[
ð  ˜d‘^ð![
ð" ! §¡Ñ.ð#[
ð& 
ˆuU—\‘\Ñ"Ð$EÐEÑ	Fô'[
ó ö[
rM   r«  c                    óà  ^ • \ rS rSrSS/rU 4S jrS rS r\             SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\\\
R                      \4   4S jj5       rSrU =r$ )ÚXmodForMaskedLMiÒ  r¬  r­  c                 óÎ   >• [         TU ]  U5        UR                  (       a  [        R	                  S5        [        USS9U l        [        U5      U l        U R                  5         g )NzkIf you want to use `XmodForMaskedLM` make sure `config.is_decoder=False` for bi-directional self-attention.Fr¯  r°  rG   s     €rK   r0   ÚXmodForMaskedLM.__init__×  sR   ø€ Ü‰Ñ˜Ô à××ÜN‰Nð1ôô
 ! ¸5ÑAˆŒÜ! &Ó)ˆŒð 	‰ÕrM   c                 ó.   • U R                   R                  $ rÈ   rµ  r‰  s    rK   r·  Ú%XmodForMaskedLM.get_output_embeddingsç  r¹  rM   c                 ó$   • XR                   l        g rÈ   rµ  r»  s     rK   r½  Ú%XmodForMaskedLM.set_output_embeddingsë  r¿  rM   rT   r  rƒ   r,   r)   r„   rU   r…   r%  rÀ  r‡   r;  r<  r‰   c                 ó¤  • Ub  UOU R                   R                  nU R                  UUUUUUUUU	UUUS9nUS   nU R                  U5      nSnU
bF  [	        5       nU" UR                  SU R                   R                  5      U
R                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )av  
lang_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Indices of the language adapters that should be activated for each sample, respectively. Default: the index
    that corresponds to `self.config.default_language`.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should be in `[-100, 0, ...,
    config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are ignored (masked), the
    loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`
N)r  rƒ   r,   r)   r„   rU   r…   r%  r‡   r;  r<  r   r*   rr   ©rÂ  rÃ  r‚   rE  )
rI   r—  ra  r²  r   r   r2   r   r‚   rE  )rH   rT   r  rƒ   r,   r)   r„   rU   r…   r%  rÀ  r‡   r;  r<  rß   r§  rÆ  Úmasked_lm_lossÚloss_fctrÏ   s                       rK   r\   ÚXmodForMaskedLM.forwardî  s  € ð4 &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØØ)Ø)Ø%ØØ'Ø"7Ø#9Ø/Ø!5Ø#ð ð 
ˆð " !™*ˆØ ŸL™L¨Ó9ÐàˆØÑÜ'Ó)ˆHÙ%Ð&7×&<Ñ&<¸RÀÇÁ×AWÑAWÓ&XÐZ`×ZeÑZeÐfhÓZiÓjˆNæØ'Ð)¨G°A°B¨KÑ7ˆFØ3AÑ3M^Ð%¨Ñ.ÐYÐSYÐYäØØ$Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
rM   rÉ  )NNNNNNNNNNNNN)rb   rc   rd   re   rÊ  r0   r·  r½  r   r   rA   r©  r½   r¾   r   r¿   r¼   r   r\   rg   rh   ri   s   @rK   rÌ  rÌ  Ò  sr  ø† à2Ð4JÐKÐõò $ò.ð ð 15Ø/3Ø6:Ø59Ø37Ø15Ø59Ø=AØ>BØ-1Ø,0Ø/3Ø&*ñ:
à˜E×,Ñ,Ñ-ð:
ð ˜5×+Ñ+Ñ,ð:
ð ! ×!2Ñ!2Ñ3ð	:
ð
 ! ×!1Ñ!1Ñ2ð:
ð ˜u×/Ñ/Ñ0ð:
ð ˜E×-Ñ-Ñ.ð:
ð   × 1Ñ 1Ñ2ð:
ð  (¨×(9Ñ(9Ñ:ð:
ð !)¨×):Ñ):Ñ ;ð:
ð ˜×)Ñ)Ñ*ð:
ð $ D™>ð:
ð ' t™nð:
ð ˜d‘^ð:
ð 
ˆuU—\‘\Ñ" NÐ2Ñ	3ô:
ó ö:
rM   rÌ  c                   ó8   ^ • \ rS rSrSrU 4S jrS rS rSrU =r	$ )rl  i-  z*Roberta Head for masked language modeling.c                 óæ  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  UR                  5      U l
        [        R                  " [        R                  " UR                  5      5      U l        U R                  U R                  l        g rÃ   )r/   r0   r   rx   r3   rÄ   r:   r;   Ú
layer_normr2   r¶  Ú	ParameterrA   rD   ri  rG   s     €rK   r0   ÚXmodLMHead.__init__0  s—   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ,š, v×'9Ñ'9¸v×?TÑ?TÑUˆŒä—y’y ×!3Ñ!3°V×5FÑ5FÓGˆŒÜ—L’L¤§¢¨V×->Ñ->Ó!?Ó@ˆŒ	Ø ŸI™Iˆ‰ÕrM   c                 ó‚   • U R                  U5      n[        U5      nU R                  U5      nU R                  U5      nU$ rÈ   )rÄ   r   rÚ  r¶  ©rH   ÚfeaturesrÅ  Úxs       rK   r\   ÚXmodLMHead.forward9  s;   € ØJ‰JxÓ ˆÜ‹GˆØO‰O˜AÓˆð L‰L˜‹OˆàˆrM   c                 óÎ   • U R                   R                  R                  R                  S:X  a  U R                  U R                   l        g U R                   R                  U l        g )NÚmeta)r¶  ri  rP   Útyper‰  s    rK   Ú_tie_weightsÚXmodLMHead._tie_weightsC  sC   € ð <‰<×Ñ×#Ñ#×(Ñ(¨FÓ2Ø $§	¡	ˆDL‰LÕàŸ™×)Ñ)ˆDIrM   )ri  r¶  rÄ   rÚ  )
rb   rc   rd   re   rf   r0   r\   rå  rg   rh   ri   s   @rK   rl  rl  -  s   ø† Ù4õ&ò÷*ð *rM   rl  z
    X-MOD Model transformer with a sequence classification/regression head on top (a linear layer on top of the pooled
    output) e.g. for GLUE tasks.
    c                   óŒ  ^ • \ rS rSrU 4S jr\           SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\
   S\\
   S\\
   S\\\R                     \4   4S jj5       rSrU =r$ )ÚXmodForSequenceClassificationiL  c                 ó°   >• [         TU ]  U5        UR                  U l        Xl        [	        USS9U l        [        U5      U l        U R                  5         g ©NFr¯  )	r/   r0   Ú
num_labelsrI   r  ra  ÚXmodClassificationHeadÚ
classifierr„  rG   s     €rK   r0   Ú&XmodForSequenceClassification.__init__T  sH   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒØŒä  ¸5ÑAˆŒÜ0°Ó8ˆŒð 	‰ÕrM   rT   r  rƒ   r,   r)   r„   rU   rÀ  r‡   r;  r<  r‰   c                 ó2  • Ub  UOU R                   R                  nU R                  UUUUUUUU	U
US9
nUS   nU R                  U5      nSnUGbŽ  U R                   R                  c‘  U R
                  S:X  a  SU R                   l        OoU R
                  S:”  aN  UR                  [        R                  :X  d  UR                  [        R                  :X  a  SU R                   l        OSU R                   l        U R                   R                  S:X  aI  [        5       nU R
                  S:X  a&  U" UR                  5       UR                  5       5      nOŒU" Xè5      nOƒU R                   R                  S:X  a=  [        5       nU" UR                  SU R
                  5      UR                  S5      5      nO,U R                   R                  S:X  a  [        5       nU" Xè5      nU(       d  U4US	S -   nUb  U4U-   $ U$ [        UUUR                   UR"                  S
9$ )aa  
lang_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Indices of the language adapters that should be activated for each sample, respectively. Default: the index
    that corresponds to `self.config.default_language`.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
N©	r  rƒ   r,   r)   r„   rU   r‡   r;  r<  r   r   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationr*   rr   rÔ  )rI   r—  ra  rí  Úproblem_typerë  r.   rA   rF   ru   r   Úsqueezer   r   r   r   r‚   rE  ©rH   rT   r  rƒ   r,   r)   r„   rU   rÀ  r‡   r;  r<  rß   r§  rÃ  rÂ  rÖ  rÏ   s                     rK   r\   Ú%XmodForSequenceClassification.forward_  sÙ  € ð0 &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 
ˆð " !™*ˆØ—‘ Ó1ˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/æØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
rM   )rí  rI   rë  ra  ©NNNNNNNNNNN)rb   rc   rd   re   r0   r   r   rA   r©  r½   r¾   r   r¿   r¼   r   r\   rg   rh   ri   s   @rK   rè  rè  L  s;  ø† õ	ð ð 15Ø/3Ø6:Ø59Ø37Ø15Ø59Ø-1Ø,0Ø/3Ø&*ñH
à˜E×,Ñ,Ñ-ðH
ð ˜5×+Ñ+Ñ,ðH
ð ! ×!2Ñ!2Ñ3ð	H
ð
 ! ×!1Ñ!1Ñ2ðH
ð ˜u×/Ñ/Ñ0ðH
ð ˜E×-Ñ-Ñ.ðH
ð   × 1Ñ 1Ñ2ðH
ð ˜×)Ñ)Ñ*ðH
ð $ D™>ðH
ð ' t™nðH
ð ˜d‘^ðH
ð 
ˆuU—\‘\Ñ"Ð$<Ð<Ñ	=ôH
ó öH
rM   rè  c                   óŒ  ^ • \ rS rSrU 4S jr\           SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\
   S\\
   S\\
   S\\\R                     \4   4S jj5       rSrU =r$ )ÚXmodForMultipleChoicei«  c                 óú   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  5      U l        [        R                  " UR                  S5      U l
        U R                  5         g )Nr   )r/   r0   r  ra  r   r<   r=   r>   rx   r3   rí  r„  rG   s     €rK   r0   ÚXmodForMultipleChoice.__init__®  sV   ø€ Ü‰Ñ˜Ô ä  Ó(ˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒÜŸ)š) F×$6Ñ$6¸Ó:ˆŒð 	‰ÕrM   rT   r  r,   rƒ   rÀ  r)   r„   rU   r‡   r;  r<  r‰   c                 óÌ  • Ub  UOU R                   R                  nUb  UR                  S   OUR                  S   nUb!  UR                  SUR	                  S5      5      OSnUb2  UR                  UR	                  S5      UR	                  S5      -  5      OSnUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb1  UR                  SUR	                  S5      UR	                  S5      5      OSnU R                  UUUUUUUU	U
US9
nUS   nU R                  U5      nU R                  U5      nUR                  SU5      nSnUb  [        5       nU" UU5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )	a¤  
input_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`):
    Indices of input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are input IDs?](../glossary#input-ids)
lang_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*):
    Indices of the language adapters that should be activated for each sample, respectively. Default: the index
    that corresponds to `self.config.default_language`.
token_type_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,
    1]`:

    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.

    [What are token type IDs?](../glossary#token-type-ids)
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the multiple choice classification loss. Indices should be in `[0, ...,
    num_choices-1]` where `num_choices` is the size of the second dimension of the input tensors. (See
    `input_ids` above)
position_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*):
    Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
    config.max_position_embeddings - 1]`.

    [What are position IDs?](../glossary#position-ids)
inputs_embeds (`torch.FloatTensor` of shape `(batch_size, num_choices, sequence_length, hidden_size)`, *optional*):
    Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This
    is useful if you want more control over how to convert `input_ids` indices into associated vectors than the
    model's internal embedding lookup matrix.
Nr   r*   r   r‹   )	r  r)   r,   rƒ   r„   rU   r‡   r;  r<  rr   rÔ  )rI   r—  rŽ   r   rE   Úrepeatra  r>   rí  r   r   r‚   rE  )rH   rT   r  r,   rƒ   rÀ  r)   r„   rU   r‡   r;  r<  Únum_choicesÚflat_input_idsÚflat_lang_idsÚflat_position_idsÚflat_token_type_idsÚflat_attention_maskÚflat_inputs_embedsrß   r]  rÃ  Úreshaped_logitsrÂ  rÖ  rÏ   s                             rK   r\   ÚXmodForMultipleChoice.forward¸  s  € ð` &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ,5Ñ,Ai—o‘o aÒ(À}×GZÑGZÐ[\ÑG]ˆàCLÑCX˜Ÿ™¨¨I¯N©N¸2Ó,>Ô?Ð^bˆØRZÑRf˜Ÿ™¨	¯©°qÓ(9¸I¿N¹NÈ1Ó<MÑ(MÔNÐlpˆØLXÑLd˜L×-Ñ-¨b°,×2CÑ2CÀBÓ2GÔHÐjnÐØR`ÑRl˜n×1Ñ1°"°n×6IÑ6IÈ"Ó6MÔNÐrvÐØR`ÑRl˜n×1Ñ1°"°n×6IÑ6IÈ"Ó6MÔNÐrvÐð Ñ(ð ×Ñ˜r =×#5Ñ#5°bÓ#9¸=×;MÑ;MÈbÓ;QÔRàð 	ð —,‘,ØØ"Ø*Ø.Ø.ØØ,Ø/Ø!5Ø#ð ð 
ˆð   ™
ˆàŸ™ ]Ó3ˆØ—‘ Ó/ˆØ Ÿ+™+ b¨+Ó6ˆàˆØÑÜ'Ó)ˆHÙ˜O¨VÓ4ˆDæØ%Ð'¨'°!°"¨+Ñ5ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä(ØØ"Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
rM   )rí  r>   ra  rø  )rb   rc   rd   re   r0   r   r   rA   r©  r½   r¾   r   r¿   r¼   r   r\   rg   rh   ri   s   @rK   rú  rú  «  s;  ø† õð ð 15Ø/3Ø59Ø6:Ø-1Ø37Ø15Ø59Ø,0Ø/3Ø&*ñ]
à˜E×,Ñ,Ñ-ð]
ð ˜5×+Ñ+Ñ,ð]
ð ! ×!1Ñ!1Ñ2ð	]
ð
 ! ×!2Ñ!2Ñ3ð]
ð ˜×)Ñ)Ñ*ð]
ð ˜u×/Ñ/Ñ0ð]
ð ˜E×-Ñ-Ñ.ð]
ð   × 1Ñ 1Ñ2ð]
ð $ D™>ð]
ð ' t™nð]
ð ˜d‘^ð]
ð 
ˆuU—\‘\Ñ"Ð$=Ð=Ñ	>ô]
ó ö]
rM   rú  c                   óŒ  ^ • \ rS rSrU 4S jr\           SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\
   S\\
   S\\
   S\\\R                     \4   4S jj5       rSrU =r$ )ÚXmodForTokenClassificationi  c                 ód  >• [         TU ]  U5        UR                  U l        [        USS9U l        UR
                  b  UR
                  OUR                  n[        R                  " U5      U l	        [        R                  " UR                  UR                  5      U l        U R                  5         g rê  )r/   r0   rë  r  ra  Úclassifier_dropoutr=   r   r<   r>   rx   r3   rí  r„  ©rH   rI   r  rJ   s      €rK   r0   Ú#XmodForTokenClassification.__init__  sŠ   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä  ¸5ÑAˆŒà)/×)BÑ)BÑ)NˆF×%Ò%ÐTZ×TnÑTnð 	ô —z’zÐ"4Ó5ˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰ÕrM   rT   r  rƒ   r,   r)   r„   rU   rÀ  r‡   r;  r<  r‰   c                 ó®  • Ub  UOU R                   R                  nU R                  UUUUUUUU	U
US9
nUS   nU R                  U5      nU R	                  U5      nSnUb<  [        5       nU" UR                  SU R                  5      UR                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )a¿  
lang_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Indices of the language adapters that should be activated for each sample, respectively. Default: the index
    that corresponds to `self.config.default_language`.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the token classification loss. Indices should be in `[0, ..., config.num_labels - 1]`.
Nrð  r   r*   rr   rÔ  )rI   r—  ra  r>   rí  r   r   rë  r   r‚   rE  rö  s                     rK   r\   Ú"XmodForTokenClassification.forward*  sù   € ð, &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 
ˆð " !™*ˆàŸ,™, Ó7ˆØ—‘ Ó1ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯O©OÓ<¸f¿k¹kÈ"»oÓNˆDæØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
rM   )rí  r>   rë  ra  rø  )rb   rc   rd   re   r0   r   r   rA   r©  r½   r¾   r   r¿   r¼   r   r\   rg   rh   ri   s   @rK   r	  r	    s-  ø† õð ð 15Ø/3Ø6:Ø59Ø37Ø15Ø59Ø-1Ø,0Ø/3Ø&*ñ7
à˜E×,Ñ,Ñ-ð7
ð ˜5×+Ñ+Ñ,ð7
ð ! ×!2Ñ!2Ñ3ð	7
ð
 ! ×!1Ñ!1Ñ2ð7
ð ˜u×/Ñ/Ñ0ð7
ð ˜E×-Ñ-Ñ.ð7
ð   × 1Ñ 1Ñ2ð7
ð ˜×)Ñ)Ñ*ð7
ð $ D™>ð7
ð ' t™nð7
ð ˜d‘^ð7
ð 
ˆuU—\‘\Ñ"Ð$9Ð9Ñ	:ô7
ó ö7
rM   r	  c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )rì  if  z-Head for sentence-level classification tasks.c                 ób  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        UR                  b  UR                  OUR                  n[        R                  " U5      U l	        [        R                  " UR                  UR                  5      U l        g rÈ   )r/   r0   r   rx   r3   rÄ   r  r=   r<   r>   rë  Úout_projr  s      €rK   r0   ÚXmodClassificationHead.__init__i  s   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
à)/×)BÑ)BÑ)NˆF×%Ò%ÐTZ×TnÑTnð 	ô —z’zÐ"4Ó5ˆŒÜŸ	š	 &×"4Ñ"4°f×6GÑ6GÓHˆrM   c                 óÒ   • US S 2SS S 24   nU R                  U5      nU R                  U5      n[        R                  " U5      nU R                  U5      nU R	                  U5      nU$ r[  )r>   rÄ   rA   Útanhr  rÞ  s       rK   r\   ÚXmodClassificationHead.forwardr  sY   € Ø’Q˜š1WÑˆØL‰L˜‹OˆØJ‰Jq‹MˆÜJŠJq‹MˆØL‰L˜‹OˆØM‰M˜!ÓˆØˆrM   )rÄ   r>   r  )	rb   rc   rd   re   rf   r0   r\   rg   rh   ri   s   @rK   rì  rì  f  s   ø† Ù7õI÷ð rM   rì  c                   ó¬  ^ • \ rS rSrU 4S jr\            SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\R                     S\\
   S\\
   S\\
   S\\\R                     \4   4S jj5       rSrU =r$ )ÚXmodForQuestionAnsweringi|  c                 óä   >• [         TU ]  U5        UR                  U l        [        USS9U l        [
        R                  " UR                  UR                  5      U l        U R                  5         g rê  )
r/   r0   rë  r  ra  r   rx   r3   Ú
qa_outputsr„  rG   s     €rK   r0   Ú!XmodForQuestionAnswering.__init__  sU   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä  ¸5ÑAˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰ÕrM   rT   r  rƒ   r,   r)   r„   rU   Ústart_positionsÚend_positionsr‡   r;  r<  r‰   c                 ó(  • Ub  UOU R                   R                  nU R                  UUUUUUUU
UUS9
nUS   nU R                  U5      nUR	                  SSS9u  nnUR                  S5      R                  5       nUR                  S5      R                  5       nSnUb·  U	b´  [        UR                  5       5      S:”  a  UR                  S5      n[        U	R                  5       5      S:”  a  U	R                  S5      n	UR                  S5      nUR                  SU5      nU	R                  SU5      n	[        US9nU" UU5      nU" UU	5      nUU-   S-  nU(       d  UU4USS -   nUb  U4U-   $ U$ [        UUUUR                  UR                  S	9$ )
r•  Nrð  r   r   r*   rŒ   )Úignore_indexrr   )rÂ  Ústart_logitsÚ
end_logitsr‚   rE  )rI   r—  ra  r  r
  rõ  r£   rÕ   rE   Úclampr   r   r‚   rE  )rH   rT   r  rƒ   r,   r)   r„   rU   r  r  r‡   r;  r<  rß   r§  rÃ  r   r!  Ú
total_lossÚignored_indexrÖ  Ú
start_lossÚend_lossrÏ   s                           rK   r\   Ú XmodForQuestionAnswering.forward‰  sÅ  € ð* &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 
ˆð " !™*ˆà—‘ Ó1ˆØ#)§<¡<°°r <Ð#:Ñ ˆjØ#×+Ñ+¨BÓ/×:Ñ:Ó<ˆØ×'Ñ'¨Ó+×6Ñ6Ó8ˆ
àˆ
ØÑ&¨=Ñ+Dä?×'Ñ'Ó)Ó*¨QÓ.Ø"1×"9Ñ"9¸"Ó"=Ü=×%Ñ%Ó'Ó(¨1Ó,Ø -× 5Ñ 5°bÓ 9à(×-Ñ-¨aÓ0ˆMØ-×3Ñ3°A°}ÓEˆOØ)×/Ñ/°°=ÓAˆMä'°]ÑCˆHÙ! ,°Ó@ˆJÙ 
¨MÓ:ˆHØ$ xÑ/°1Ñ4ˆJæØ" JÐ/°'¸!¸"°+Ñ=ˆFØ/9Ñ/EZM FÑ*ÐQÈ6ÐQä+ØØ%Ø!Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
rM   )rë  r  ra  )NNNNNNNNNNNN)rb   rc   rd   re   r0   r   r   rA   r©  r½   r¾   r   r¿   r¼   r   r\   rg   rh   ri   s   @rK   r  r  |  sT  ø† õð ð 15Ø/3Ø6:Ø59Ø37Ø15Ø59Ø6:Ø48Ø,0Ø/3Ø&*ñE
à˜E×,Ñ,Ñ-ðE
ð ˜5×+Ñ+Ñ,ðE
ð ! ×!2Ñ!2Ñ3ð	E
ð
 ! ×!1Ñ!1Ñ2ðE
ð ˜u×/Ñ/Ñ0ðE
ð ˜E×-Ñ-Ñ.ðE
ð   × 1Ñ 1Ñ2ðE
ð " %×"2Ñ"2Ñ3ðE
ð   × 0Ñ 0Ñ1ðE
ð $ D™>ðE
ð ' t™nðE
ð ˜d‘^ðE
ð 
ˆuU—\‘\Ñ"Ð$@Ð@Ñ	AôE
ó öE
rM   r  c                 óº   • U R                  U5      R                  5       n[        R                  " USS9R	                  U5      U-   U-  nUR                  5       U-   $ )zí
Replace non-padding symbols with their position numbers. Position numbers begin at padding_idx+1. Padding symbols
are ignored. This is modified from fairseq's `utils.make_positions`.

Args:
    x: torch.Tensor x:

Returns: torch.Tensor
r   rŒ   )Úneru   rA   ÚcumsumÚtype_asrF   )rT   r$   rV   ÚmaskÚincremental_indicess        rK   rQ   rQ   Ó  sW   € ð <‰<˜Ó$×(Ñ(Ó*€DÜ Ÿ<š<¨°!Ñ4×<Ñ<¸TÓBÐE[Ñ[Ð_cÑcÐØ×#Ñ#Ó%¨Ñ3Ð3rM   )r«  rÌ  rú  r  rè  r	  r  r`  )r   )Drf   rž   Útypingr   r   rA   Útorch.utils.checkpointr   Útorch.nnr   r   r   Úactivationsr
   r   Úcache_utilsr   r   Ú
generationr   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   r   r   r   Úmodeling_utilsr   Úpytorch_utilsr   r   r   Úutilsr   r   Úconfiguration_xmodr   Ú
get_loggerrb   rH  ÚModuler!   rk   rÁ   rÌ   râ   rî   rù   r  r0  rU  r`  r  r«  rÌ  rl  rè  rú  r	  rì  r  rQ   Ú__all__r>  rM   rK   Ú<module>r=     sP  ðñ ã ß "ã Û Ý ß AÑ Aç 'ß 5Ý )Ý 9÷	÷ 	ó 	õ .ß lÑ lß ,Ý *ð 
×	Ò	˜HÓ	%€ôV=R—Y‘Yô V=ôt@.˜Ÿ	™	ô @.ôFR—Y‘Yô ô5B—I‘Iô 5ôrr—y‘yô ô"—)‘)ô ô$/—‘ô /ôdI3Ð*ô I3ôXa
"—)‘)ô a
ôJ—‘ô ð ô30˜/ó 30ó ð30ñl ðñôe
Ð#ó e
óðe
ñP ðñô
t
Ð)¨?ó t
óð
t
ðn ôV
Ð)ó V
ó ðV
ôt*—‘ô *ñ> ðñôV
Ð$7ó V
óðV
ðr ôj
Ð/ó j
ó ðj
ðZ ôH
Ð!4ó H
ó ðH
ôX˜RŸY™Yô ð, ôR
Ð2ó R
ó ðR
ôl4ò 	rM   