ó
    <±h¡b ã                   ó¾  • S r SSKrSSKrSSKJrJr  SSKrSSKJr  SSKJ	r	J
r
Jr  SSKJr  SSKJrJrJr  SS	KJr  SS
KJr  SSKJr  SSKJrJrJrJrJrJrJr  SSK J!r!  SSK"J#r#J$r$J%r%J&r&J'r'J(r(J)r)  SSK*J+r+  \&" 5       (       a  SSK,J-r-  SSK.J/r/  \)R`                  " \15      r2 " S S\Rf                  5      r4 " S S\Rf                  5      r5 " S S\Rf                  5      r6 " S S\Rf                  5      r7 " S S\Rf                  5      r8 " S S\Rf                  5      r9 " S S \Rf                  5      r: " S! S"\5      r; " S# S$\Rf                  5      r<\% " S% S&\!5      5       r= " S' S(\=5      r>\% " S) S*\=5      5       r?\%" S+S,9 " S- S.\=\5      5       r@\% " S/ S0\=5      5       rA\%" S1S,9 " S2 S3\=5      5       rB\% " S4 S5\=5      5       rC\% " S6 S7\=5      5       rD/ S8QrEg)9zPyTorch UMT5 model.é    N)ÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚCacheÚDynamicCacheÚEncoderDecoderCache)ÚGenerationMixin)ÚAttentionMaskConverter)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚ)BaseModelOutputWithPastAndCrossAttentionsÚSeq2SeqLMOutputÚSeq2SeqModelOutputÚ#Seq2SeqQuestionAnsweringModelOutputÚSeq2SeqSequenceClassifierOutputÚTokenClassifierOutput)ÚPreTrainedModel)ÚDUMMY_INPUTSÚ
DUMMY_MASKÚauto_docstringÚis_torch_flex_attn_availableÚis_torch_fx_proxyÚis_torchdynamo_compilingÚloggingé   )Ú
UMT5Config)Ú	BlockMask)Úmake_flex_block_causal_maskc                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚUMT5LayerNormé=   c                 óŒ   >• [         TU ]  5         [        R                  " [        R
                  " U5      5      U l        X l        g)zU
Construct a layernorm module in the UMT5 style. No bias and no subtraction of mean.
N)ÚsuperÚ__init__r   Ú	ParameterÚtorchÚonesÚweightÚvariance_epsilon)ÚselfÚhidden_sizeÚepsÚ	__class__s      €Ú^/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/umt5/modeling_umt5.pyr)   ÚUMT5LayerNorm.__init__>   s/   ø€ ô 	‰ÑÔÜ—l’l¤5§:¢:¨kÓ#:Ó;ˆŒØ #Õó    c                 óœ  • UR                  [        R                  5      R                  S5      R	                  SSS9nU[        R
                  " X R                  -   5      -  nU R                  R                  [        R                  [        R                  4;   a%  UR                  U R                  R                  5      nU R                  U-  $ )Né   éÿÿÿÿT)Úkeepdim)Útor+   Úfloat32ÚpowÚmeanÚrsqrtr.   r-   ÚdtypeÚfloat16Úbfloat16)r/   Úhidden_statesÚvariances      r3   ÚforwardÚUMT5LayerNorm.forwardF   s™   € ð !×#Ñ#¤E§M¡MÓ2×6Ñ6°qÓ9×>Ñ>¸rÈ4Ð>ÐPˆØ%¬¯ª°H×?TÑ?TÑ4TÓ(UÑUˆð ;‰;×Ñ¤§¡´·±Ð ?Ó?Ø)×,Ñ,¨T¯[©[×->Ñ->Ó?ˆMà{‰{˜]Ñ*Ð*r5   )r.   r-   )gíµ ÷Æ°>)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r)   rD   Ú__static_attributes__Ú__classcell__©r2   s   @r3   r%   r%   =   s   ø† ÷$÷+ð +r5   r%   c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )ÚUMT5DenseActDenseéW   Úconfigc                 óX  >• [         TU ]  5         [        R                  " UR                  UR
                  SS9U l        [        R                  " UR
                  UR                  SS9U l        [        R                  " UR                  5      U l
        [        UR                     U l        g ©NF©Úbias)r(   r)   r   ÚLinearÚd_modelÚd_ffÚwiÚwoÚDropoutÚdropout_rateÚdropoutr
   Údense_act_fnÚact©r/   rP   r2   s     €r3   r)   ÚUMT5DenseActDense.__init__X   sn   ø€ Ü‰ÑÔÜ—)’)˜FŸN™N¨F¯K©K¸eÑDˆŒÜ—)’)˜FŸK™K¨¯©¸eÑDˆŒÜ—z’z &×"5Ñ"5Ó6ˆŒÜ˜&×-Ñ-Ñ.ˆr5   c                 ó  • U R                  U5      nU R                  U5      nU R                  U5      n[        U R                  R
                  [        R                  5      (       a  UR                  U R                  R
                  R                  :w  aa  U R                  R
                  R                  [        R                  :w  a/  UR                  U R                  R
                  R                  5      nU R	                  U5      nU$ ©N)rX   r^   r\   Ú
isinstancerY   r-   r+   ÚTensorr?   Úint8r:   ©r/   rB   s     r3   rD   ÚUMT5DenseActDense.forward_   s­   € ØŸ™ Ó.ˆØŸ™ Ó/ˆØŸ™ ]Ó3ˆät—w‘w—~‘~¤u§|¡|×4Ñ4Ø×#Ñ# t§w¡w§~¡~×';Ñ';Ó;Ø—‘—‘×$Ñ$¬¯
©
Ó2à)×,Ñ,¨T¯W©W¯^©^×-AÑ-AÓBˆMØŸ™ Ó.ˆØÐr5   )r^   r\   rX   rY   ©	rF   rG   rH   rI   r!   r)   rD   rJ   rK   rL   s   @r3   rN   rN   W   s   ø† ð/˜z÷ /÷ð r5   rN   c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )ÚUMT5DenseGatedActDenseén   rP   c                 ó¶  >• [         TU ]  5         [        R                  " UR                  UR
                  SS9U l        [        R                  " UR                  UR
                  SS9U l        [        R                  " UR
                  UR                  SS9U l        [        R                  " UR                  5      U l        [        UR                     U l        g rR   )r(   r)   r   rU   rV   rW   Úwi_0Úwi_1rY   rZ   r[   r\   r
   r]   r^   r_   s     €r3   r)   ÚUMT5DenseGatedActDense.__init__o   sŠ   ø€ Ü‰ÑÔÜ—I’I˜fŸn™n¨f¯k©kÀÑFˆŒ	Ü—I’I˜fŸn™n¨f¯k©kÀÑFˆŒ	Ü—)’)˜FŸK™K¨¯©¸eÑDˆŒÜ—z’z &×"5Ñ"5Ó6ˆŒÜ˜&×-Ñ-Ñ.ˆr5   c                 ó8  • U R                  U R                  U5      5      nU R                  U5      nX#-  nU R                  U5      n[	        U R
                  R                  [        R                  5      (       a  UR                  U R
                  R                  R                  :w  aa  U R
                  R                  R                  [        R                  :w  a/  UR                  U R
                  R                  R                  5      nU R                  U5      nU$ rb   )r^   rm   rn   r\   rc   rY   r-   r+   rd   r?   re   r:   )r/   rB   Úhidden_geluÚhidden_linears       r3   rD   ÚUMT5DenseGatedActDense.forwardw   sÀ   € Ø—h‘h˜tŸy™y¨Ó7Ó8ˆØŸ	™	 -Ó0ˆØ#Ñ3ˆØŸ™ ]Ó3ˆô t—w‘w—~‘~¤u§|¡|×4Ñ4Ø×#Ñ# t§w¡w§~¡~×';Ñ';Ó;Ø—‘—‘×$Ñ$¬¯
©
Ó2à)×,Ñ,¨T¯W©W¯^©^×-AÑ-AÓBˆMàŸ™ Ó.ˆØÐr5   )r^   r\   rm   rn   rY   rh   rL   s   @r3   rj   rj   n   s   ø† ð/˜z÷ /÷ð r5   rj   c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )ÚUMT5LayerFFéŒ   rP   c                 ó  >• [         TU ]  5         UR                  (       a  [        U5      U l        O[        U5      U l        [        UR                  UR                  S9U l	        [        R                  " UR                  5      U l        g )N©r1   )r(   r)   Úis_gated_actrj   ÚDenseReluDenserN   r%   rV   Úlayer_norm_epsilonÚ
layer_normr   rZ   r[   r\   r_   s     €r3   r)   ÚUMT5LayerFF.__init__   s_   ø€ Ü‰ÑÔØ××Ü"8¸Ó"@ˆDÕä"3°FÓ";ˆDÔä'¨¯©¸F×<UÑ<UÑVˆŒÜ—z’z &×"5Ñ"5Ó6ˆr5   c                 óp   • U R                  U5      nU R                  U5      nXR                  U5      -   nU$ rb   )r|   rz   r\   )r/   rB   Úforwarded_statess      r3   rD   ÚUMT5LayerFF.forward—   s;   € ØŸ?™?¨=Ó9ÐØ×.Ñ.Ð/?Ó@ÐØ%¯©Ð5EÓ(FÑFˆØÐr5   )rz   r\   r|   rh   rL   s   @r3   ru   ru   Œ   s   ø† ð7˜z÷ 7÷ð r5   ru   c                   óT  ^ • \ rS rSrSrSS\\   4U 4S jjjrS\R                  S\R                  4S jr
S rSS	 jr     SS
\R                  S\\R                     S\\\R                        S\\R                     S\\R                     S\\R                     4S jjrSrU =r$ )ÚUMT5Attentionéž   z/
T5's attention using relative_attention_bias.
Ú	layer_idxc                 óþ  >• [         TU ]  5         UR                  U l        X l        UR                  U l        UR
                  U l        UR                  U l        UR                  U l        UR                  U l
        UR                  U l        U R                  U R                  -  U l        X0l        Uc>  U R                  (       a-  [        R!                  SU R"                  R$                   S35        [&        R(                  " U R                  U R                  SS9U l        [&        R(                  " U R                  U R                  SS9U l        [&        R(                  " U R                  U R                  SS9U l        [&        R(                  " U R                  U R                  SS9U l        U R                  (       a0  [&        R2                  " U R                  U R                  5      U l        [7        5       U l        g )NzInstantiating a decoder z³ without passing `layer_idx` is not recommended and will to errors during the forward call, if caching is used. Please make sure to provide a `layer_idx` when creating this class.FrS   )r(   r)   Ú
is_decoderÚhas_relative_attention_biasÚrelative_attention_num_bucketsÚrelative_attention_max_distancerV   Úd_kvÚkey_value_proj_dimÚ	num_headsÚn_headsr[   r\   Ú	inner_dimr„   ÚloggerÚwarning_oncer2   rF   r   rU   ÚqÚkÚvÚoÚ	EmbeddingÚrelative_attention_biasÚsetÚpruned_heads)r/   rP   r‡   r„   r2   s       €r3   r)   ÚUMT5Attention.__init__£   se  ø€ Ü‰ÑÔØ ×+Ñ+ˆŒØ+FÔ(Ø.4×.SÑ.SˆÔ+Ø/5×/UÑ/UˆÔ,Ø—~‘~ˆŒØ"(§+¡+ˆÔØ×'Ñ'ˆŒØ×*Ñ*ˆŒØŸ™¨×(?Ñ(?Ñ?ˆŒØ"ŒØÑ §§Ü×ÑØ*¨4¯>©>×+BÑ+BÐ*Cð D,ð ,ôô —’˜4Ÿ<™<¨¯©¸eÑDˆŒÜ—’˜4Ÿ<™<¨¯©¸eÑDˆŒÜ—’˜4Ÿ<™<¨¯©¸eÑDˆŒÜ—’˜4Ÿ>™>¨4¯<©<¸eÑDˆŒà×+×+Ü+-¯<ª<¸×8[Ñ8[Ð]a×]iÑ]iÓ+jˆDÔ(Ü›EˆÕr5   Ú
projectionÚreturnc                 ó¤   • UR                  5       S S U R                  U R                  4-   nUR                  U5      R	                  SSSS5      nU$ )Nr8   r   r7   r    r	   )Úsizer   r‹   ÚviewÚpermute)r/   rš   Únew_projection_shapeÚnew_projections       r3   Ú_shapeÚUMT5Attention._shapeÀ   sQ   € Ø)Ÿ™Ó0°°"Ð5¸¿¹Àt×G^ÑG^Ð8_Ñ_Ðà#Ÿ™Ð)=Ó>×FÑFÀqÈ!ÈQÐPQÓRˆØÐr5   c                 ó¬  • SnU R                   nU R                  nU R                  (       dC  US-  nX!S:„  R                  [        R
                  5      U-  -  n[        R                  " U5      nO,[        R                  " U[        R                  " U5      5      * nUS-  nX:  n[        R                  " UR                  5       U-  5      [        R                  " XE-  5      -  nXsU-
  -  nXWR                  [        R
                  5      -   n[        R                  " U[        R                  " XƒS-
  5      5      nU[        R                  " XaU5      -  nU$ )aR  
Adapted from Mesh Tensorflow:
https://github.com/tensorflow/mesh/blob/0cb87fe07da627bf0b7e60475d59f95ed6b5be3d/mesh_tensorflow/transformer/transformer_layers.py#L593

Translate relative position to a bucket number for relative attention. The relative position is defined as
memory_position - query_position, i.e. the distance in tokens from the attending position to the attended-to
position. If bidirectional=False, then positive relative positions are invalid. We use smaller buckets for
small absolute relative_position and larger buckets for larger absolute relative_positions. All relative
positions >=max_distance map to the same bucket. All relative positions <=-max_distance map to the same bucket.
This should allow for more graceful generalization to longer sequences than the model has been trained on

Args:
    relative_position: an int32 Tensor
    bidirectional: a boolean - whether the attention is bidirectional
    num_buckets: an integer
    max_distance: an integer

Returns:
    a Tensor with the same shape as relative_position, containing int32 values in the range [0, num_buckets)
r   r7   r    )rˆ   r‰   r†   r:   r+   ÚlongÚabsÚminÚ
zeros_likeÚlogÚfloatÚmathÚ	full_likeÚwhere)	r/   Úrelative_positionÚrelative_bucketsÚnum_bucketsÚmax_distanceÚ	max_exactÚis_smallÚ	log_ratioÚrelative_position_if_larges	            r3   Ú_relative_position_bucketÚ'UMT5Attention._relative_position_bucketÆ   s/  € ð* ÐØ×9Ñ9ˆØ×;Ñ;ˆØØ˜AÑˆKØ°QÑ!6× :Ñ :¼5¿:¹:Ó FÈÑ TÑTÐÜ %§	¢	Ð*;Ó <Ñä!&§¢Ð+<¼e×>NÒ>NÐO`Ó>aÓ!bÐ bÐð   1Ñ$ˆ	Ø$Ñ0ˆô —I’IÐ/×5Ñ5Ó7¸)ÑCÓDÄtÇxÂxÐP\ÑPhÓGiÑiˆ	Ø¨yÑ!8Ñ9ˆ	Ø%.·±¼e¿j¹jÓ1IÑ%IÐ"Ü%*§Y¢YØ&¬¯ªÐ8RÐbcÑTcÓ(dó&
Ð"ð 	œEŸKšK¨ÐE_Ó`Ñ`ÐØÐr5   c                 ó¢  • Uc   U R                   R                  R                  nUc,  [        R                  " U[        R
                  US9SS2S4   nO	USS2S4   n[        R                  " U[        R
                  US9SSS24   nXe-
  nU R                  U5      nU R                  U5      n	U	R                  / SQ5      R                  S5      n	U	$ )z%Compute binned relative position biasN)r?   Údevice)r7   r   r    r   )	r–   r-   r¹   r+   Úaranger¥   r¶   rŸ   Ú	unsqueeze)
r/   Úquery_lengthÚ
key_lengthr¹   Úcache_positionÚcontext_positionÚmemory_positionr®   Úrelative_position_bucketÚvaluess
             r3   Úcompute_biasÚUMT5Attention.compute_biasõ   sÃ   € à‰>Ø×1Ñ1×8Ñ8×?Ñ?ˆFØÑ!Ü$Ÿ|š|¨LÄÇ
Á
ÐSYÑZÒ[\Ð^bÐ[bÑcÑà-ªa°¨gÑ6ÐÜŸ,š, z¼¿¹ÈFÑSÐTXÒZ[ÐT[Ñ\ˆØ+Ñ>ÐØ#'×#AÑ#AÐBSÓ#TÐ Ø×-Ñ-Ð.FÓGˆØ—‘¢	Ó*×4Ñ4°QÓ7ˆØˆr5   rB   Úencoder_hidden_statesÚpast_key_valueÚattention_maskÚlayer_head_maskr¾   c                 óX  • UR                   S S u  pxUS Ln	U R                  U5      n
U
R                  USU R                  U R                  5      R                  SS5      n
Ub[  [        U[        5      (       aF  UR                  R                  U R                  5      nU	(       a  UR                  nOUR                  nOUnU	(       a  UOUnU	(       aQ  UbN  W(       aG  UR                  U R                     R                  nUR                  U R                     R                  nOáU R!                  U5      nU R#                  U5      nUR                  USU R                  U R                  5      R                  SS5      nUR                  USU R                  U R                  5      R                  SS5      nUbL  U	(       d  UOS nUR%                  XïU R                  SU05      u  pïU	(       a  SUR                  U R                  '   [&        R(                  " X®R                  SS5      5      nUb  XƒR+                  5       -   OUnUR                   S   nU R,                  (       d9  [&        R.                  " SU R                  UU4UR0                  UR2                  S9nO.U R5                  UUUR0                  US	9nUS S 2S S 2U* S 2S S 24   nUb#  US S 2S S 2S S 2S UR                   S   24   nUU-   nU R6                  (       aS  [&        R8                  " UR                   S   5      nS
U[;        U R6                  5      '   US S 2UR=                  5       4   nOUnUU-  n[>        R@                  RC                  URE                  5       SS9RG                  U5      n[>        R@                  RI                  UU RH                  U RJ                  S9nUb  UU-  n[&        R(                  " UU5      nUR                  SS5      RM                  5       nUR                  XxS5      nU RO                  U5      nUU4$ )Nr7   r8   r    r¾   Tr	   éþÿÿÿ)r¹   r?   )r¹   r¾   r   ©Údim)ÚpÚtraining)(Úshaper‘   rž   r   r‹   Ú	transposerc   r   Ú
is_updatedÚgetr„   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysrÂ   r’   r“   Úupdater+   ÚmatmulÚget_seq_lengthr‡   Úzerosr¹   r?   rÃ   r˜   r,   ÚlistÚboolr   Ú
functionalÚsoftmaxrª   Útype_asr\   rÎ   Ú
contiguousr”   )r/   rB   rÅ   rÆ   rÇ   rÈ   r¾   Ú
batch_sizeÚ
seq_lengthÚis_cross_attentionÚquery_statesrÑ   Úcurr_past_key_valueÚcurrent_statesÚ
key_statesÚvalue_statesÚscoresÚreal_seq_lengthr½   Úposition_biasÚcausal_maskÚmaskÚposition_bias_maskedÚattn_weightsÚattn_outputs                            r3   rD   ÚUMT5Attention.forward  sÉ  € ð "/×!4Ñ!4°R°aÐ!8Ñˆ
ð 3¸$Ð>Ðà—v‘v˜mÓ,ˆØ#×(Ñ(¨°R¸¿¹Àt×G^ÑG^Ó_×iÑiÐjkÐmnÓoˆð Ñ%¬*°^ÔEX×*YÑ*YØ'×2Ñ2×6Ñ6°t·~±~ÓFˆJÞ!à&4×&JÑ&JÑ#à&4×&IÑ&IÑ#à"0Ðæ2DÑ.È-ˆÞ .Ñ"<Æà,×3Ñ3°D·N±NÑC×HÑHˆJØ.×5Ñ5°d·n±nÑE×LÑL‰LàŸ™ Ó/ˆJØŸ6™6 .Ó1ˆLØ#Ÿ™¨°R¸¿¹Àt×G^ÑG^Ó_×iÑiÐjkÐmnÓoˆJØ'×,Ñ,¨Z¸¸T¿\¹\È4×KbÑKbÓc×mÑmÐnoÐqrÓsˆLàÑ)æ7I¡ÈtØ+>×+EÑ+EØ¨d¯n©nÐ?OÐQ_Ð>`ó,Ñ(
ö &Ø@DN×-Ñ-¨d¯n©nÑ=ô —’˜l×,@Ñ,@ÀÀAÓ,FÓGˆð KYÑJd˜*×'DÑ'DÓ'FÒFÐjtˆØ×%Ñ% bÑ)ˆ
Ø×/×/Ü!ŸKšKØD—L‘L *¨jÐ9À&Ç-Á-ÐW]×WcÑWcñ‰Mð !×-Ñ-Ø °F·M±MÐR`ð .ð ˆMð *ª!ªQ°°±ºaÐ*?Ñ@ˆMàÑ%Ø(ªªAªqÐ2H°J×4DÑ4DÀRÑ4HÐ2HÐ)HÑIˆKØ)¨KÑ7ˆMà××Ü—:’:˜m×1Ñ1°!Ñ4Ó5ˆDØ,-ˆD”d×'Ñ'Ó(Ñ)Ø#0²°D·I±I³K°Ñ#@Ñ à#0Ð àÐ&Ñ&ˆô —}‘}×,Ñ,¨V¯\©\«^ÀÐ,ÐD×LÑLÈVÓTˆÜ—}‘}×,Ñ,¨\¸T¿\¹\ÐTX×TaÑTaÐ,Ðbˆð Ñ&Ø'¨/Ñ9ˆLä—l’l <°Ó>ˆà!×+Ñ+¨A¨qÓ1×<Ñ<Ó>ˆØ!×&Ñ& z¸rÓBˆà—f‘f˜[Ó)ˆØ˜LÐ(Ð(r5   )rV   r\   r‡   rŽ   r†   r’   r‹   r„   r   r”   r˜   r‘   r–   r‰   rˆ   r“   )FN)NN©NNNNN)rF   rG   rH   rI   Ú__doc__r   Úintr)   r+   rd   r¢   r¶   rÃ   ÚtuplerD   rJ   rK   rL   s   @r3   r‚   r‚   ž   s×   ø† ññ"ÈXÐVYÉ]÷ "ð "ð: §¡ð °%·,±,ô ò- ô^ð$ 9=Ø8<Ø15Ø26Ø15ñ\)à—|‘|ð\)ð  (¨¯©Ñ5ð\)ð !  u§|¡|Ñ!4Ñ5ð	\)ð
 ! §¡Ñ.ð\)ð " %§,¡,Ñ/ð\)ð ! §¡Ñ.÷\)ó \)r5   r‚   c                   óL   ^ • \ rS rSrSS\\   4U 4S jjjr    SS jrSrU =r	$ )ÚUMT5LayerSelfAttentionic  r„   c                 óÒ   >• [         TU ]  5         [        USUS9U l        [	        UR
                  UR                  S9U l        [        R                  " UR                  5      U l        g )NT©r‡   r„   rx   )r(   r)   r‚   ÚSelfAttentionr%   rV   r{   r|   r   rZ   r[   r\   ©r/   rP   r„   r2   s      €r3   r)   ÚUMT5LayerSelfAttention.__init__d  sN   ø€ Ü‰ÑÔÜ*¨6ÈtÐ_hÑiˆÔÜ'¨¯©¸F×<UÑ<UÑVˆŒÜ—z’z &×"5Ñ"5Ó6ˆr5   c                 óŒ   • U R                  U5      nU R                  UUUUUS9nXR                  US   5      -   nU4USS  -   nU$ )N©rÇ   rÈ   rÆ   r¾   r   r    )r|   rú   r\   )	r/   rB   rÇ   rÈ   rÆ   r¾   Únormed_hidden_statesÚattention_outputÚoutputss	            r3   rD   ÚUMT5LayerSelfAttention.forwardj  sk   € ð  $Ÿ™¨}Ó=ÐØ×-Ñ-Ø Ø)Ø+Ø)Ø)ð .ð 
Ðð &¯©Ð5EÀaÑ5HÓ(IÑIˆØ Ð"Ð%5°a°bÐ%9Ñ9ˆØˆr5   )rú   r\   r|   rb   )NNNN©
rF   rG   rH   rI   r   rô   r)   rD   rJ   rK   rL   s   @r3   r÷   r÷   c  s0   ø† ñ7¨(°3©-÷ 7ð 7ð ØØØ÷ò r5   r÷   c                   óN   ^ • \ rS rSrSS\\   4U 4S jjjr     SS jrSrU =r	$ )ÚUMT5LayerCrossAttentioni  r„   c                 óÒ   >• [         TU ]  5         [        USUS9U l        [	        UR
                  UR                  S9U l        [        R                  " UR                  5      U l        g )NFrù   rx   )r(   r)   r‚   ÚEncDecAttentionr%   rV   r{   r|   r   rZ   r[   r\   rû   s      €r3   r)   Ú UMT5LayerCrossAttention.__init__€  sO   ø€ Ü‰ÑÔÜ,¨VÐQVÐbkÑlˆÔÜ'¨¯©¸F×<UÑ<UÑVˆŒÜ—z’z &×"5Ñ"5Ó6ˆr5   c           	      óŽ   • U R                  U5      nU R                  UUUUUUS9nXR                  US   5      -   n	U	4USS  -   n
U
$ )N©rÅ   rÇ   rÈ   rÆ   r¾   r   r    )r|   r  r\   )r/   rB   rÅ   rÇ   rÈ   rÆ   r¾   rÿ   r   Úlayer_outputr  s              r3   rD   ÚUMT5LayerCrossAttention.forward†  sm   € ð  $Ÿ™¨}Ó=ÐØ×/Ñ/Ø Ø"7Ø)Ø+Ø)Ø)ð 0ð 
Ðð %§|¡|Ð4DÀQÑ4GÓ'HÑHˆØ/Ð$4°Q°RÐ$8Ñ8ˆØˆr5   )r  r\   r|   rb   rò   r  rL   s   @r3   r  r    s3   ø† ñ7¨(°3©-÷ 7ð 7ð #ØØØØ÷ò r5   r  c                   óV   ^ • \ rS rSrSS\\   4U 4S jjjr         SS jrSrU =r	$ )Ú	UMT5Blocki  r„   c                 ój  >• [         TU ]  5         UR                  U l        [        R                  " 5       U l        U R
                  R                  [        XS95        U R                  (       a"  U R
                  R                  [        XS95        U R
                  R                  [        U5      5        g )N©r„   )
r(   r)   r†   r   Ú
ModuleListÚlayerÚappendr÷   r  ru   rû   s      €r3   r)   ÚUMT5Block.__init__ž  sv   ø€ Ü‰ÑÔØ ×+Ñ+ˆŒÜ—]’]“_ˆŒ
Ø
‰
×ÑÔ0°ÑMÔNØ??ØJ‰J×ÑÔ5°fÑRÔSà
‰
×Ñœ+ fÓ-Õ.r5   c           	      ó˜  • U R                   S   " UUUUU
S9u  pUR                  [        R                  :X  a}  [        R                  " UR                  5      R
                  n[        R                  " [        R                  " U5      R                  5       US-
  U5      n[        R                  " X* US9nS nU R                  =(       a    US LnU(       aµ  U R                   S   " UUUUUU
S9u  pUR                  [        R                  :X  a}  [        R                  " UR                  5      R
                  n[        R                  " [        R                  " U5      R                  5       US-
  U5      n[        R                  " X* US9nU R                   S   " U5      nUR                  [        R                  :X  a}  [        R                  " UR                  5      R
                  n[        R                  " [        R                  " U5      R                  5       US-
  U5      n[        R                  " X* US9nU4nU	(       a  UX¾4-  nU$ )Nr   rþ   iè  )r§   Úmaxr    r
  r8   )r  r?   r+   r@   Úfinfor  r­   ÚisinfÚanyÚclampr†   )r/   rB   rÇ   rÅ   Úencoder_attention_maskrÈ   Úcross_attn_layer_head_maskrÆ   Ú	use_cacheÚoutput_attentionsr¾   Úself_attn_weightsÚ	max_dtypeÚclamp_valueÚcross_attn_weightsÚdo_cross_attentionr  s                    r3   rD   ÚUMT5Block.forward¨  sã  € ð ,0¯:©:°aª=ØØ)Ø+Ø)Ø)ñ,
Ñ(ˆð ×Ñ¤%§-¡-Ó/ÜŸš M×$7Ñ$7Ó8×<Ñ<ˆIÜŸ+š+¤e§k¢k°-Ó&@×&DÑ&DÓ&FÈ	ÐTXÑHXÐZcÓdˆKÜ!ŸKšK¨¸<È[ÑYˆMð "ÐØ!Ÿ_™_×RÐ1FÈdÐ1RÐÞØ04·
±
¸1²ØØ&;Ø5Ø :Ø-Ø-ñ1Ñ-ˆMð ×"Ñ"¤e§m¡mÓ3Ü!ŸKšK¨×(;Ñ(;Ó<×@Ñ@	Ü#Ÿkšk¬%¯+ª+°mÓ*D×*HÑ*HÓ*JÈIÐX\ÑL\Ð^gÓhÜ %§¢¨M¸|ÐQ\Ñ ]ð Ÿ
™
 2š }Ó5ˆð ×Ñ¤%§-¡-Ó/ÜŸš M×$7Ñ$7Ó8×<Ñ<ˆIÜŸ+š+¤e§k¢k°-Ó&@×&DÑ&DÓ&FÈ	ÐTXÑHXÐZcÓdˆKÜ!ŸKšK¨¸<È[ÑYˆMà Ð"ˆæØÐ)Ð>Ñ>ˆGàˆr5   )r†   r  rb   )	NNNNNNFFNr  rL   s   @r3   r  r    s?   ø† ñ/¨(°3©-÷ /ð /ð Ø"Ø#ØØ#'ØØØØ÷;ò ;r5   r  c                   ón   ^ • \ rS rSrSrS\4U 4S jjrS\R                  S\R                  4S jr	Sr
U =r$ )	ÚUMT5ClassificationHeadiç  z-Head for sentence-level classification tasks.rP   c                 ó(  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  S9U l        [        R                  " UR                  UR                  5      U l
        g )N)rÍ   )r(   r)   r   rU   rV   ÚdenserZ   Úclassifier_dropoutr\   Ú
num_labelsÚout_projr_   s     €r3   r)   ÚUMT5ClassificationHead.__init__ê  sZ   ø€ Ü‰ÑÔÜ—Y’Y˜vŸ~™~¨v¯~©~Ó>ˆŒ
Ü—z’z F×$=Ñ$=Ñ>ˆŒÜŸ	š	 &§.¡.°&×2CÑ2CÓDˆr5   rB   r›   c                 óº   • U R                  U5      nU R                  U5      n[        R                  " U5      nU R                  U5      nU R	                  U5      nU$ rb   )r\   r(  r+   Útanhr+  rf   s     r3   rD   ÚUMT5ClassificationHead.forwardð  sN   € ØŸ™ ]Ó3ˆØŸ
™
 =Ó1ˆÜŸ
š
 =Ó1ˆØŸ™ ]Ó3ˆØŸ™ mÓ4ˆØÐr5   )r(  r\   r+  )rF   rG   rH   rI   ró   r!   r)   r+   rd   rD   rJ   rK   rL   s   @r3   r&  r&  ç  s4   ø† Ù7ðE˜z÷ Eð U§\¡\ð °e·l±l÷ ò r5   r&  c                   óT   • \ rS rSr% \\S'   SrSrSrS/r	S/r
\S 5       rS rS	 rS
rg)ÚUMT5PreTrainedModeliù  rP   ÚtransformerTr  rY   c                 óz   • [         R                  " [        5      n[         R                  " [        5      nUUUS.nU$ )N)Údecoder_input_idsÚ	input_idsÚdecoder_attention_mask)r+   Útensorr   r   )r/   r5  Ú
input_maskÚdummy_inputss       r3   r9  Ú UMT5PreTrainedModel.dummy_inputs  s6   € ä—L’L¤Ó.ˆ	Ü—\’\¤*Ó-ˆ
à!*Ø"Ø&0ñ
ˆð
 Ðr5   c                 óÊ  • U R                   R                  n[        U[        5      (       a)  UR                  R
                  R                  US-  5        g	[        U[        [        [        [        45      (       Ga  UR                  R                  R
                  R                  SUS-  S9  [        US5      (       aL  U R                   R                  (       d1  UR                  R                  R
                  R                  SUS-  S9  [        US5      (       av  UR                   R                  R
                  R                  SX R                   R"                  S-  -  S9  UR                   R$                  R
                  R'                  5         g	g	[        U[(        5      (       ar  [        US5      (       a`  UR*                  R                  R
                  R                  SUS-  S9  UR*                  R$                  R
                  R'                  5         g	g	[        U[,        5      (       GaQ  UR.                  R                  R
                  R                  SX R                   R"                  S-  -  S9  [        UR.                  S5      (       aE  UR.                  R$                  b.  UR.                  R$                  R
                  R'                  5         UR0                  R                  R
                  R                  SX R                   R"                  S-  -  S9  [        UR0                  S5      (       aG  UR0                  R$                  b/  UR0                  R$                  R
                  R'                  5         g	g	g	[        U[2        5      (       GaQ  UR4                  R                  R
                  R                  SX R                   R"                  S-  -  S9  [        UR4                  S5      (       aE  UR4                  R$                  b.  UR4                  R$                  R
                  R'                  5         UR6                  R                  R
                  R                  SX R                   R8                  S-  -  S9  [        UR6                  S5      (       aG  UR6                  R$                  b/  UR6                  R$                  R
                  R'                  5         g	g	g	[        U[:        5      (       Gaø  UR<                  R                  R
                  R                  SX R                   R"                  S-  -  S9  [        UR<                  S5      (       aE  UR<                  R$                  b.  UR<                  R$                  R
                  R'                  5         UR>                  R                  R
                  R                  SX R                   R"                  S-  -  S9  [        UR>                  S5      (       aE  UR>                  R$                  b.  UR>                  R$                  R
                  R'                  5         UR6                  R                  R
                  R                  SX R                   R8                  S-  -  S9  [        UR6                  S5      (       aG  UR6                  R$                  b/  UR6                  R$                  R
                  R'                  5         g	g	g	[        U[@        5      (       GaZ  U R                   R"                  nU R                   RB                  nU R                   RD                  nURF                  R                  R
                  R                  SX#U-  S-  -  S9  URH                  R                  R
                  R                  SX#S-  -  S9  URJ                  R                  R
                  R                  SX#S-  -  S9  URL                  R                  R
                  R                  SX%U-  S-  -  S9  URN                  (       a4  URP                  R                  R
                  R                  SX#S-  -  S9  g	g	g	)
zInitialize the weightsç      ð?ç        )r=   ÚstdÚlm_headÚ
qa_outputsç      à¿Ú
classifierrT   N))rP   Úinitializer_factorrc   r%   r-   ÚdataÚfill_Ú	UMT5ModelÚUMT5ForConditionalGenerationÚUMT5EncoderModelÚUMT5ForQuestionAnsweringÚsharedÚnormal_ÚhasattrÚtie_word_embeddingsr?  r@  rV   rT   Úzero_ÚUMT5ForTokenClassificationrB  r&  r(  r+  rN   rX   rY   rW   rj   rm   rn   r‚   rŠ   rŒ   r‘   r’   r“   r”   r‡   r–   )r/   ÚmoduleÚfactorrV   r‹   r   s         r3   Ú_init_weightsÚ!UMT5PreTrainedModel._init_weights  s  € à—‘×/Ñ/ˆÜfœm×,Ñ,ØM‰M×Ñ×$Ñ$ V¨c¡\Õ2ÜØäÜ,Ü Ü(ð	÷
ò 
ð M‰M× Ñ ×%Ñ%×-Ñ-°3¸FÀS¹LÐ-ÑIÜv˜y×)Ñ)°$·+±+×2Q×2QØ—‘×%Ñ%×*Ñ*×2Ñ2¸ÀÈ#ÁÐ2ÑNÜv˜|×,Ñ,Ø×!Ñ!×(Ñ(×-Ñ-×5Ñ5¸3ÀFÏ{É{×ObÑObÐgkÑNkÑDlÐ5ÑmØ×!Ñ!×&Ñ&×+Ñ+×1Ñ1Õ3ð -ô ˜Ô :×;Ñ;Üv˜|×,Ñ,Ø×!Ñ!×(Ñ(×-Ñ-×5Ñ5¸3ÀFÈSÁLÐ5ÑQØ×!Ñ!×&Ñ&×+Ñ+×1Ñ1Õ3ð -ô ˜Ô 6×7Ò7ØL‰L×Ñ×$Ñ$×,Ñ,°#¸6ÇkÁk×FYÑFYÐ^bÑEbÑ;cÐ,ÑdÜv—|‘| V×,Ñ,°·±×1BÑ1BÑ1NØ—‘×!Ñ!×&Ñ&×,Ñ,Ô.ØO‰O×"Ñ"×'Ñ'×/Ñ/°S¸fÏÉ×I\ÑI\ÐaeÑHeÑ>fÐ/ÑgÜv—‘¨×/Ñ/°F·O±O×4HÑ4HÑ4TØ—‘×$Ñ$×)Ñ)×/Ñ/Õ1ð 5UÐ/ä˜Ô 1×2Ò2ð I‰I×Ñ×!Ñ!×)Ñ)¨s¸Ç;Á;×CVÑCVÐ[_ÑB_Ñ8`Ð)ÑaÜv—y‘y &×)Ñ)¨f¯i©i¯n©nÑ.HØ—	‘	—‘×#Ñ#×)Ñ)Ô+ØI‰I×Ñ×!Ñ!×)Ñ)¨s¸Ç;Á;×CSÑCSÐX\ÑB\Ñ8]Ð)Ñ^Üv—y‘y &×)Ñ)¨f¯i©i¯n©nÑ.HØ—	‘	—‘×#Ñ#×)Ñ)Õ+ð /IÐ)ä˜Ô 6×7Ò7ØK‰K×Ñ×#Ñ#×+Ñ+°¸&Ç[Á[×EXÑEXÐ]aÑDaÑ:bÐ+ÑcÜv—{‘{ F×+Ñ+°·±×0@Ñ0@Ñ0LØ—‘× Ñ ×%Ñ%×+Ñ+Ô-ØK‰K×Ñ×#Ñ#×+Ñ+°¸&Ç[Á[×EXÑEXÐ]aÑDaÑ:bÐ+ÑcÜv—{‘{ F×+Ñ+°·±×0@Ñ0@Ñ0LØ—‘× Ñ ×%Ñ%×+Ñ+Ô-ØI‰I×Ñ×!Ñ!×)Ñ)¨s¸Ç;Á;×CSÑCSÐX\ÑB\Ñ8]Ð)Ñ^Üv—y‘y &×)Ñ)¨f¯i©i¯n©nÑ.HØ—	‘	—‘×#Ñ#×)Ñ)Õ+ð /IÐ)ä˜¤×.Ò.ð —k‘k×)Ñ)ˆGØ!%§¡×!1Ñ!1ÐØ—k‘k×+Ñ+ˆGØH‰HO‰O× Ñ ×(Ñ(¨c°vÐL^ÑB^ÐcgÑAgÑ7hÐ(ÑiØH‰HO‰O× Ñ ×(Ñ(¨c°vÈ$ÁÑ7OÐ(ÑPØH‰HO‰O× Ñ ×(Ñ(¨c°vÈ$ÁÑ7OÐ(ÑPØH‰HO‰O× Ñ ×(Ñ(¨c°vÐL^ÑB^ÐcgÑAgÑ7hÐ(ÑiØ×1×1Ø×.Ñ.×5Ñ5×:Ñ:×BÑBÈÐQWÐhlÑ[lÑQmÐBÒnð 2ð /r5   c                 óä  • U R                   R                  nU R                   R                  nUc  [        S5      e[	        U5      (       aE  [
        R                  " UR                  S S S-   U5      n[
        R                  " XASS S24   /SS9nO=UR                  UR                  5      nUSS S24   R                  5       USSS 24'   X$S'   Uc  [        S5      eUR                  US	:H  U5        U$ )
NzŽself.model.config.decoder_start_token_id has to be defined. In UMT5 it is usually set to the pad_token_id. See UMT5 docs for more information.r8   )r    .rË   r    ).r   z1self.model.config.pad_token_id has to be defined.éœÿÿÿ)rP   Údecoder_start_token_idÚpad_token_idÚ
ValueErrorr   r+   ÚfullrÏ   ÚcatÚ	new_zerosÚcloneÚmasked_fill_)r/   r5  rV  rW  Úshifted_input_idss        r3   Ú_shift_rightÚ UMT5PreTrainedModel._shift_rightP  sý   € Ø!%§¡×!CÑ!CÐØ—{‘{×/Ñ/ˆà!Ñ)Üð6óð ô ˜Y×'Ñ'ä %§
¢
¨9¯?©?¸3¸BÐ+?À$Ñ+FÐH^Ó _ÐÜ %§	¢	Ð+<ÈÈSÈbÈSÈÑ>QÐ*RÐXZÑ [Ñà )× 3Ñ 3°I·O±OÓ DÐØ)2°3¸¸¸°8Ñ)<×)BÑ)BÓ)DÐ˜c 1¡2˜gÑ&Ø(>˜fÑ%àÑÜÐPÓQÐQà×&Ñ&Ð'8¸DÑ'@À,ÔOà Ð r5   © N)rF   rG   rH   rI   r!   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_can_compile_fullgraphÚ_no_split_modulesÚ_keep_in_fp32_modulesÚpropertyr9  rR  r_  rJ   ra  r5   r3   r1  r1  ù  sI   ‡ àÓØ%ÐØ&*Ð#à!ÐØ$˜ÐØ!˜FÐàñó ðò@oõD!r5   r1  c                   ó(  ^ • \ rS rSrSU 4S jjrS r             SS jr SS\\R                  S4   S\R                  S\R                  S	\
S
\4
S jjr\S\R                  S\S\S\R                  S\R                  S\4S j5       rSrU =r$ )Ú	UMT5Stackil  c           
      ó¤  >• [         TU ]  U5        X l        UR                  U l        [        R
                  " [        UR                  5       Vs/ sH  n[        XS9PM     sn5      U l	        [        UR                  UR                  S9U l        [        R                  " UR                  5      U l        SU l        U R%                  5         g s  snf )Nr  rx   F)r(   r)   Úembed_tokensr†   r   r  ÚrangeÚ
num_layersr  Úblockr%   rV   r{   Úfinal_layer_normrZ   r[   r\   Úgradient_checkpointingÚ	post_init)r/   rP   rl  Úir2   s       €r3   r)   ÚUMT5Stack.__init__m  sž   ø€ Ü‰Ñ˜Ô Ø(ÔØ ×+Ñ+ˆŒÜ—]’]ÌEÐRX×RcÑRcÔLdÓ#eÑLdÀq¤I¨fÔ$BÑLdÑ#eÓfˆŒ
Ü -¨f¯n©nÀ&×B[ÑB[Ñ \ˆÔÜ—z’z &×"5Ñ"5Ó6ˆŒð ',ˆÔ#Ø‰Õùò $fs   ÁCc                 ó   • Xl         g rb   )rl  ©r/   Únew_embeddingss     r3   Úset_input_embeddingsÚUMT5Stack.set_input_embeddingsy  s   € Ø*Õr5   c                 ó¾	  • U	b  U	OU R                   R                  n	U
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  UOU R                   R                  nUb*  Ub'  U R
                  (       a  SOSn[        SU SU S35      eUb&  UR                  5       nUR                  SUS   5      nO>Ub  UR                  5       S S nO'U R
                  (       a  SOSn[        SU SU S	35      eU R                  (       a/  U R                  (       a  U	(       a  [        R                  S
5        Sn	Uc)  U R                  c  [        S5      eU R                  U5      nUu  nnU	SL a   U R
                  (       d  [        SU  S35      eU R
                  (       aM  U	(       aE  UcB  U R                   R                  (       a  [        [!        5       [!        5       5      nO[!        5       nOU R
                  (       d  S nUb  UR#                  5       OSnUc#  [$        R&                  " UUU-   UR(                  S9nUc4  [+        5       (       d%  UU-   n[$        R,                  " UUUR(                  S9nU R
                  (       a7  U R/                  UUU[1        U[        5      (       a  UR2                  OUU
5      nO\UbW  US S 2S S S S 24   nUR5                  UR6                  S9nSU-
  [$        R8                  " UR6                  5      R:                  -  nOS nU R
                  (       aO  UbL  UR                  5       u  nnnUU4nUc  [$        R,                  " UUR(                  S9nU R=                  U5      nOS nU R?                  X`R                   R@                  5      nU R?                  XpR                   R@                  5      nU(       a  SOS nU
(       a  SOS nU
(       a  U R
                  (       a  SOS nU RC                  U5      n[E        U RF                  5       H_  u  nnUU   n UU   n!U(       a  UU4-   nU" UUUUU U!UU	U
US9
n"U"S   nU
(       d  M:  UU"S   4-  nU R
                  (       d  MV  UU"S   4-  nMa     U RI                  U5      nU RC                  U5      nU(       a  UU4-   nU(       d  [K        S UUUUU4 5       5      $ [M        UUUUUS9$ )NÚdecoder_Ú zYou cannot specify both zinput_ids and zinputs_embeds at the same timer8   zYou have to specify either zinput_ids or Úinputs_embedszZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...Fz<You have to initialize the model with valid token embeddingsTz)`use_cache` can only be set to `True` if z is used as a decoderr   ©r¹   )r?   r<  ra  )r  rÈ   r  rÆ   r  r  r¾   r    r7   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7frb   ra  )Ú.0r“   s     r3   Ú	<genexpr>Ú$UMT5Stack.forward.<locals>.<genexpr>  s"   é € ð 
ñAð ÷ ‘òùs   ‚Œ	)Úlast_hidden_stateÚpast_key_valuesrB   Ú
attentionsÚcross_attentions)'rP   r  r  Úoutput_hidden_statesÚuse_return_dictr†   rX  r   rž   rq  rÎ   r   r   rl  Úis_encoder_decoderr   r   rÙ   r+   rº   r¹   r   r,   Ú_update_causal_maskrc   rÔ   r:   r?   r  r§   Úinvert_attention_maskÚget_head_maskrn  r\   Ú	enumeratero  rp  rõ   r   )#r/   r5  rÇ   rÅ   r  r}  Ú	head_maskÚcross_attn_head_maskr„  r  r  r‡  Úreturn_dictr¾   Úerr_msg_prefixÚinput_shaperá   râ   Úpast_key_values_lengthÚmask_seq_lengthrì   Úencoder_batch_sizeÚencoder_sequence_lengthÚ_Úencoder_hidden_shapeÚencoder_extended_attention_maskÚall_hidden_statesÚall_attentionsÚall_cross_attentionsrB   rs  Úlayer_modulerÈ   r  Úlayer_outputss#                                      r3   rD   ÚUMT5Stack.forward|  sÞ  € ð  "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ  ]Ñ%>Ø+/¯?¯?™ZÀˆNÜØ*¨>Ð*:¸.ÈÐHXÐXvÐwóð ð Ñ"Ø#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;‰IØÑ&Ø'×,Ñ,Ó.¨s°Ð3‰Kà+/¯?¯?™ZÀˆNÜÐ:¸>Ð:JÈ-ÐXfÐWgÐgtÐuÓvÐvà×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	àÑ Ø× Ñ Ñ(Ü Ð!_Ó`Ð`Ø ×-Ñ-¨iÓ8ˆMà!,Ñˆ
Jà˜ÒØ—?—?Ü Ð#LÈTÈFÐRgÐ!hÓiÐið ??Þ˜_Ñ4Ø—;‘;×1×1Ü&9¼,».Ì,Ë.Ó&Y‘Oä&2£nOøØ——ð #ˆOàETÑE` ×!?Ñ!?Ô!AÐfgÐØÑ!Ü"Ÿ\š\Ø&Ð(>ÀÑ(KÐTa×ThÑThñˆNð Ñ!Ô*B×*DÑ*Dà4°zÑAˆOÜ"ŸZšZ¨
°OÈM×L`ÑL`ÑaˆNà??Ø×2Ñ2ØØØä˜oÔ/B×CÑCð  ×4Ò4à$Ø!ó‰Kð Ñ'Ø(ª¨D°$ºÐ)9Ñ:ˆKØ%Ÿ.™.¨}×/BÑ/B˜.ÐCˆKØ Ñ,´·²¸M×<OÑ<OÓ0P×0TÑ0TÑT‰KàˆKð ??Ð4Ñ@Ø=R×=WÑ=WÓ=YÑ:ÐÐ 7¸Ø$6Ð8OÐ#PÐ Ø%Ñ-Ü).¯ªÐ4HÐQ^×QeÑQeÑ)fÐ&Ø.2×.HÑ.HÐI_Ó.`Ñ+à.2Ð+ð ×&Ñ& y·+±+×2HÑ2HÓIˆ	Ø#×1Ñ1Ð2FÏÉ×H^ÑH^Ó_ÐÞ"6™B¸DÐÞ0™°dˆÞ%6¸4¿?¿?™rÐPTÐàŸ™ ]Ó3ˆä(¨¯©Ö4‰OˆAˆ|Ø'¨™lˆOØ)=¸aÑ)@Ð&æ#Ø$5¸Ð8HÑ$HÐ!á(ØØØ%Ø'FØ /Ø+EØ.Ø#Ø"3Ø-ñˆMð *¨!Ñ,ˆMç Ð Ø =°Ñ#3Ð"5Ñ5Ø—?—?‘?Ø(¨]¸1Ñ-=Ð,?Ñ?Ò(ñ3  5ð6 ×-Ñ-¨mÓ<ˆØŸ™ ]Ó3ˆö  Ø 1°]Ð4DÑ DÐæÜñ 
ð "Ø#Ø%Ø"Ø(ñó
ó 
ð 
ô 9Ø+Ø+Ø+Ø%Ø1ñ
ð 	
r5   rÇ   r"   Úinput_tensorr¾   r„  r  c           	      óæ  • U R                   R                  S:X  a  Ub  US:H  R                  5       (       a  U$ g U R                   R                  S:X  a,  [        U[        R
                  5      (       a  [        U5      nU$ Ub  UR                  5       OSnUb  UR                  OSnU R                   R                  S:X  a5  U(       d.  U(       d'  [        R                  " UUUU R                  S9(       a  g UR                  nUR                  S   n	U(       a  UR                  5       n
O5[        U[        R
                  5      (       a  UR                  S	   OXi-   S-   n
U R                  UU	U
UUUR                  S   S
9nU R                   R                  S:X  aZ  UbW  UR                   R"                  S;   a=  U(       d6  [        R$                  " U5      R&                  n[        R(                  " X¼5      nU$ )NÚflash_attention_2r=  Úflex_attentionr   FÚsdpa)r}  r“  Úis_trainingr    r8   )Úsequence_lengthÚtarget_lengthr?   r¾   rá   )ÚcudaÚxpuÚnpu)rP   Ú_attn_implementationr  rc   r+   rd   r#   rÙ   Úis_compileabler   Ú_ignore_causal_mask_sdparÎ   r?   rÏ   Úget_max_cache_shapeÚ5_prepare_4d_causal_attention_mask_with_cache_positionr¹   Útyper  r§   Ú_unmask_unattended)r/   rÇ   r   r¾   r„  r  Úpast_seen_tokensÚusing_compilable_cacher?   r¦  r§  rì   Ú	min_dtypes                r3   rŠ  ÚUMT5Stack._update_causal_mask&  sË  € ð ;‰;×+Ñ+Ð/BÓBØÑ)¨~ÀÑ/D×.IÑ.I×.KÑ.KØ%Ð%ØØ;‰;×+Ñ+Ð/?Ó?Ü˜.¬%¯,©,×7Ñ7Ü!<¸^Ó!LØ!Ð!ð
 @OÑ?Z˜?×9Ñ9Ô;Ð`aÐØCRÑC^ ×!?Ò!?ÐdiÐð ;‰;×+Ñ+¨vÓ5Ö>TÖ]nÜ%×>Ò>ØØ*Ø'7Ø ŸM™M÷	ð à×"Ñ"ˆØ&×,Ñ,¨QÑ/ˆÞ!Ø+×?Ñ?ÓA‰Mô ˜n¬e¯l©l×;Ñ;ð ×$Ñ$ RÒ(à%Ñ7¸!Ñ;ð ð ×PÑPØØ+Ø'ØØ)Ø#×)Ñ)¨!Ñ,ð Qð 
ˆð K‰K×,Ñ,°Ó6ØÑ*Ø×%Ñ%×*Ñ*Ð.DÓDÞ%ô
 Ÿš EÓ*×.Ñ.ˆIÜ0×CÒCÀKÓ[ˆKàÐr5   r¦  r§  r?   rá   c                 ó¶  • U b  U R                  5       S:X  a  U nU$ [        R                  " U5      R                  n[        R                  " X4XƒUR
                  S9nUS:w  a  [        R                  " USS9nU[        R                  " X$R
                  S9UR                  SS5      :„  -  nUSSSS2SS24   R                  USSS5      nU b‹  UR                  5       nU R                  S   n	USS2SS2SS2SU	24   U SS2SSSS24   R                  UR
                  5      -   n
U
S:H  n
USS2SS2SS2SU	24   R                  X¨5      USS2SS2SS2SU	24'   U$ )	a½  
Creates a causal 4D mask of shape `(batch_size, 1, query_length, key_value_length)` from a 2D mask of shape
`(batch_size, key_value_length)`, or if the input `attention_mask` is already 4D, do nothing.

Args:
    attention_mask (`torch.Tensor`):
        A 2D attention mask of shape `(batch_size, key_value_length)` or a 4D attention mask of shape
        `(batch_size, 1, query_length, key_value_length)`.
    sequence_length (`int`):
        The sequence length being processed.
    target_length (`int`):
        The target length: when generating with static cache, the mask should be as long as the static cache,
        to account for the 0 padding, the part of the cache that is not filled yet.
    dtype (`torch.dtype`):
        The dtype to use for the 4D attention mask.
    cache_position (`torch.Tensor`):
        Indices depicting the position of the input sequence tokens in the sequence.
    batch_size (`torch.Tensor`):
        Batch size.
Né   )Ú
fill_valuer?   r¹   r    )Údiagonalr~  r8   r   )rÌ   r+   r  r§   rY  r¹   Útriurº   ÚreshapeÚexpandr\  rÏ   r:   Úmasked_fill)rÇ   r¦  r§  r?   r¾   rá   Úkwargsrì   r´  Úmask_lengthÚpadding_masks              r3   r¯  Ú?UMT5Stack._prepare_4d_causal_attention_mask_with_cache_positionj  s}  € ð> Ñ%¨.×*<Ñ*<Ó*>À!Ó*Cà(ˆKð* Ðô' Ÿš EÓ*×.Ñ.ˆIÜŸ*š*Ø Ð0¸YÐ\j×\qÑ\qñˆKð  !Ó#Ü#Ÿjšj¨¸qÑAØœ5Ÿ<š<¨×>SÑ>SÑTÐWe×WmÑWmÐnpÐrsÓWtÑtÑtˆKØ% d¨D²!²QÐ&6Ñ7×>Ñ>¸zÈ1ÈbÐRTÓUˆKØÑ)Ø)×/Ñ/Ó1Ø,×2Ñ2°2Ñ6Ø*ª1ªa²°L°[°LÐ+@ÑAÀNÒSTÐVZÐ\`ÒbcÐScÑDd×DgÑDgØ×&Ñ&óEñ  ð  ,¨qÑ0Ø5@ÂÂAÂqÈ,È;È,ÐAVÑ5W×5cÑ5cØ ó6šAšq¢! \ k \Ð1Ñ2ð Ðr5   )ro  r\   rl  rp  rq  r†   rb   )NNNNNNNNNNNNN)F)rF   rG   rH   rI   r)   rx  rD   r   r+   rd   r   rÜ   rŠ  Ústaticmethodrô   r?   r¯  rJ   rK   rL   s   @r3   rj  rj  l  sì   ø† ÷
ò+ð
 ØØ"Ø#ØØØ!ØØØØ!ØØôg
ð` #(ñBà˜eŸl™l¨KÐ7Ñ8ðBð —l‘lðBð Ÿ™ð	Bð
 ðBð  õBðH ð4ØŸ™ð4àð4ð ð4ð {‰{ð	4ð
 Ÿ™ð4ð ó4ó ö4r5   rj  c            &       óP  ^ • \ rS rSr% SrSr\\S'   SS/rU 4S jr	S r
S	 rS
 rS rS rS r\                S!S\\R&                     S\\R(                     S\\R&                     S\\R*                     S\\R(                     S\\R(                     S\\R,                     S\\\\R(                           S\\   S\\R,                     S\\R,                     S\\   S\\   S\\   S\\   S\\R&                     S\\\R(                     \4   4"S jj5       rS rU =r$ )"rF  i£  a?  
Examples:

```python
>>> from transformers import UMT5Model, AutoTokenizer

>>> model = UMT5Model.from_pretrained("google/umt5-small")
>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> noisy_text = "UN Offizier sagt, dass weiter <extra_id_0> werden muss in Syrien."
>>> label = "<extra_id_0> verhandelt"
>>> inputs = tokenizer(inputs, return_tensors="pt")
>>> labels = tokenizer(label=label, return_tensors="pt")

>>> outputs = model(input_ids=inputs["input_ids"], decoder_input_ids=labels["input_ids"])
>>> hidden_states = outputs.last_hidden_state
```Úumt5rP   úencoder.embed_tokens.weightúdecoder.embed_tokens.weightc                 óÌ  >• [         TU ]  U5        [        R                  " UR                  UR
                  5      U l        [        R                  " U5      nSUl	        SUl
        SUl        [        X R                  5      U l        [        R                  " U5      nSUl	        SUl        UR                  Ul        [        X0R                  5      U l        U R#                  5         g ©NFT)r(   r)   r   r•   Ú
vocab_sizerV   rJ  ÚcopyÚdeepcopyr†   r  Útie_encoder_decoderrj  ÚencoderÚnum_decoder_layersrn  Údecoderrr  ©r/   rP   Úencoder_configÚdecoder_configr2   s       €r3   r)   ÚUMT5Model.__init__º  sª   ø€ Ü‰Ñ˜Ô Ü—l’l 6×#4Ñ#4°f·n±nÓEˆŒäŸš vÓ.ˆØ$)ˆÔ!Ø#(ˆÔ Ø-2ˆÔ*Ü  ·±Ó=ˆŒäŸš vÓ.ˆØ$(ˆÔ!Ø-2ˆÔ*Ø$*×$=Ñ$=ˆÔ!Ü  ·±Ó=ˆŒð 	‰Õr5   c                 ó   • U R                   $ rb   ©rJ  ©r/   s    r3   Úget_input_embeddingsÚUMT5Model.get_input_embeddingsÎ  ó   € Ø{‰{Ðr5   c                 ó|   • Xl         U R                  R                  U5        U R                  R                  U5        g rb   ©rJ  rÍ  rx  rÏ  rv  s     r3   rx  ÚUMT5Model.set_input_embeddingsÒ  ó+   € Ø$ŒØ‰×)Ñ)¨.Ô9Ø‰×)Ñ)¨.Õ9r5   c                 óü   • U R                   R                  (       aa  U R                  U R                  R                  U R
                  5        U R                  U R                  R                  U R
                  5        g g rb   ©rP   rM  Ú_tie_or_clone_weightsrÍ  rl  rJ  rÏ  rÖ  s    r3   Ú_tie_weightsÚUMT5Model._tie_weightsØ  óP   € Ø;‰;×*×*Ø×&Ñ& t§|¡|×'@Ñ'@À$Ç+Á+ÔNØ×&Ñ& t§|¡|×'@Ñ'@À$Ç+Á+ÕNð +r5   c                 ó   • U R                   $ rb   ©rÍ  rÖ  s    r3   Úget_encoderÚUMT5Model.get_encoderÞ  ó   € Ø|‰|Ðr5   c                 ó   • U R                   $ rb   ©rÏ  rÖ  s    r3   Úget_decoderÚUMT5Model.get_decoderâ  rè  r5   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)ú…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)ÚitemsrÍ  r  Ú	attentionÚprune_heads©r/   Úheads_to_pruner  Úheadss       r3   Ú_prune_headsÚUMT5Model._prune_headsæ  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r5   r5  rÇ   r4  r6  rŽ  Údecoder_head_maskr  Úencoder_outputsr„  r}  Údecoder_inputs_embedsr  r  r‡  r  r¾   r›   c                 ó\  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUc  U R                  UUU
UUUUS9nORU(       aK  [	        U[
        5      (       d6  [        US   [        U5      S:”  a  US   OS[        U5      S:”  a  US   OSS9nUS   nU R                  UUUU	UUUUUUUUUS9nU(       d  UU-   $ [        UR                  UR                  UR                  UR                  UR                  UR                  UR                  UR                  S9$ )	aÃ  
input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
    Indices of input sequence tokens in the vocabulary. UMT5 is a model with relative position embeddings so
    you should be able to pad the inputs on both the right and the left.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for detail.

    [What are input IDs?](../glossary#input-ids)

    To know more on how to prepare `input_ids` for pretraining take a look a [UMT5 Training](./umt5#training).
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    UMT5 uses the `pad_token_id` as the starting token for `decoder_input_ids` generation. If `past_key_values`
    is used, optionally only the last `decoder_input_ids` have to be input (see `past_key_values`).

    To know more on how to prepare `decoder_input_ids` for pretraining take a look at [UMT5
    Training](./umt5#training).
decoder_attention_mask (`torch.BoolTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.
decoder_head_mask (`torch.FloatTensor` of shape `(num_heads,)` or `(num_layers, num_heads)`, *optional*):
    Mask to nullify selected heads of the self-attention modules in the decoder. Mask values selected in `[0,
    1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
cross_attn_head_mask (`torch.Tensor` of shape `(num_heads,)` or `(num_layers, num_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules in the decoder. Mask values selected in
    `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.

Example:

```python
>>> from transformers import AutoTokenizer, UMT5Model

>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> model = UMT5Model.from_pretrained("google/umt5-small")

>>> input_ids = tokenizer(
...     "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids  # Batch size 1
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

>>> # preprocess: Prepend decoder_input_ids with start token which is pad token for UMT5Model.
>>> # This is not needed for torch's UMT5ForConditionalGeneration as it does this internally using labels arg.
>>> decoder_input_ids = model._shift_right(decoder_input_ids)

>>> # forward pass
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
>>> last_hidden_states = outputs.last_hidden_state
```N©r5  rÇ   r}  rŽ  r  r‡  r  r   r    r7   ©rƒ  rB   r…  ©r5  rÇ   r}  r„  rÅ   r  rŽ  r  r  r  r‡  r  r¾   )rƒ  r„  Údecoder_hidden_statesÚdecoder_attentionsr†  Úencoder_last_hidden_staterÅ   Úencoder_attentions)rP   r  rˆ  rÍ  rc   r   ÚlenrÏ  r   rƒ  r„  rB   r…  r†  )r/   r5  rÇ   r4  r6  rŽ  r÷  r  rø  r„  r}  rù  r  r  r‡  r  r¾   rB   Údecoder_outputss                      r3   rD   ÚUMT5Model.forwardî  s^  € ðb "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ñ"Ø"Ÿl™lØ#Ø-Ø+Ø#Ø"3Ø%9Ø'ð +ð ‰Oö ¤¨O¼_×!MÑ!MÜ-Ø"1°!Ñ"4Ü47¸Ó4HÈ1Ó4L˜o¨aÒ0ÐRVÜ14°_Ó1EÈÓ1I˜?¨1Ò-ÈtñˆOð (¨Ñ*ˆð Ÿ,™,Ø'Ø1Ø/Ø+Ø"/Ø#1Ø'Ø!5ØØ/Ø!5Ø#Ø)ð 'ð 
ˆö  Ø" _Ñ4Ð4ä!Ø-×?Ñ?Ø+×;Ñ;Ø"1×"?Ñ"?Ø.×9Ñ9Ø,×=Ñ=Ø&5×&GÑ&GØ"1×"?Ñ"?Ø.×9Ñ9ñ	
ð 		
r5   )rÏ  rÍ  rJ  ©NNNNNNNNNNNNNNNN)rF   rG   rH   rI   ró   Ú
model_typer!   rb  Ú_tied_weights_keysr)   r×  rx  rá  ræ  rë  rõ  r   r   r+   Ú
LongTensorÚFloatTensorÚ
BoolTensorrd   rõ   r   rÜ   r   r   rD   rJ   rK   rL   s   @r3   rF  rF  £  sî  ø‡ ñð" €JØÓØ7Ð9VÐWÐõò(ò:òOòòòCð ð 15Ø6:Ø8<Ø=AØ15Ø9=Ø7;ØEIØ+/Ø04Ø8<Ø$(Ø,0Ø/3Ø&*Ø59ñ#D
à˜E×,Ñ,Ñ-ðD
ð ! ×!2Ñ!2Ñ3ðD
ð $ E×$4Ñ$4Ñ5ð	D
ð
 !)¨×)9Ñ)9Ñ :ðD
ð ˜E×-Ñ-Ñ.ðD
ð $ E×$5Ñ$5Ñ6ðD
ð ' u§|¡|Ñ4ðD
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðD
ð " %™ðD
ð   §¡Ñ-ðD
ð  (¨¯©Ñ5ðD
ð ˜D‘>ðD
ð $ D™>ðD
ð ' t™nðD
ð  ˜d‘^ð!D
ð" ! ×!1Ñ!1Ñ2ð#D
ð$ 
ˆuU×&Ñ&Ñ'Ð);Ð;Ñ	<ô%D
ó öD
r5   rF  z<
    UMT5 Model with a `language modeling` head on top.
    )Úcustom_introc            (       ó€  ^ • \ rS rSrSrSr/ SQrU 4S jrS rS r	S r
S	 rS
 r\                 S S\\R                      S\\R"                     S\\R                      S\\R$                     S\\R"                     S\\R"                     S\\R&                     S\\\\R&                           S\\   S\\R"                     S\\R"                     S\\R                      S\\   S\\   S\\   S\\   S\\R                      S\\\R"                     \4   4$S jj5       rS\R&                  4S jrSrU =r$ )!rG  iv  aó  
Examples:

```python
>>> from transformers import UMT5ForConditionalGeneration, AutoTokenizer

>>> model = UMT5ForConditionalGeneration.from_pretrained("google/umt5-small")
>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> article = "UN Offizier sagt, dass weiter verhandelt werden muss in Syrien."
>>> summary = "Weiter Verhandlung in Syrien."
>>> inputs = tokenizer(article, text_target=summary, return_tensors="pt")

>>> outputs = model(**inputs)
>>> loss = outputs.loss
```rÄ  )rÅ  rÆ  zlm_head.weightc                 óL  >• [         TU ]  U5        UR                  U l        [        R
                  " UR                  UR                  5      U l        [        R                  " U5      nSUl
        SUl        SUl        [        X R                  5      U l        [        R                  " U5      nSUl
        SUl        UR                  Ul        [        X0R                  5      U l        [        R$                  " UR                  UR                  SS9U l        U R)                  5         g )NFTrS   )r(   r)   rV   Ú	model_dimr   r•   rÉ  rJ  rÊ  rË  r†   r  rÌ  rj  rÍ  rÎ  rn  rÏ  rU   r?  rr  rÐ  s       €r3   r)   Ú%UMT5ForConditionalGeneration.__init__  sÓ   ø€ Ü‰Ñ˜Ô ØŸ™ˆŒä—l’l 6×#4Ñ#4°f·n±nÓEˆŒäŸš vÓ.ˆØ$)ˆÔ!Ø#(ˆÔ Ø-2ˆÔ*Ü  ·±Ó=ˆŒäŸš vÓ.ˆØ$(ˆÔ!Ø-2ˆÔ*Ø$*×$=Ñ$=ˆÔ!Ü  ·±Ó=ˆŒä—y’y §¡°×1BÑ1BÈÑOˆŒð 	‰Õr5   c                 ó   • U R                   $ rb   rÕ  rÖ  s    r3   r×  Ú1UMT5ForConditionalGeneration.get_input_embeddings§  rÙ  r5   c                 ó|   • Xl         U R                  R                  U5        U R                  R                  U5        g rb   rÛ  rv  s     r3   rx  Ú1UMT5ForConditionalGeneration.set_input_embeddings«  rÝ  r5   c                 óü   • U R                   R                  (       aa  U R                  U R                  R                  U R
                  5        U R                  U R                  R                  U R
                  5        g g rb   rß  rÖ  s    r3   rá  Ú)UMT5ForConditionalGeneration._tie_weights±  rã  r5   c                 ó   • U R                   $ rb   rå  rÖ  s    r3   ræ  Ú(UMT5ForConditionalGeneration.get_encoder·  rè  r5   c                 ó   • U R                   $ rb   rê  rÖ  s    r3   rë  Ú(UMT5ForConditionalGeneration.get_decoder»  rè  r5   r5  rÇ   r4  r6  rŽ  r÷  r  rø  r„  r}  rù  Úlabelsr  r  r‡  r  r¾   r›   c                 óè  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUc  U R                  UUU
UUUUS9nORU(       aK  [	        U[
        5      (       d6  [        US   [        U5      S:”  a  US   OS[        U5      S:”  a  US   OSS9nUS   nUb  Uc  Uc  U R                  U5      nU R                  UUUU	UUUUUUUUUS9nUS   nU R                   R                  (       a  UU R                  S-  -  nU R                  U5      nSnUb[  [        S	S
9nUR                  UR                  5      nU" UR                  SUR!                  S5      5      UR                  S5      5      nU(       d  U4USS -   U-   nUb  U4U-   $ U$ [#        UUUR$                  UR&                  UR(                  UR*                  UR,                  UR&                  UR(                  S9	$ )aÃ  
input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
    Indices of input sequence tokens in the vocabulary. UMT5 is a model with relative position embeddings so
    you should be able to pad the inputs on both the right and the left.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for detail.

    [What are input IDs?](../glossary#input-ids)

    To know more on how to prepare `input_ids` for pretraining take a look a [UMT5 Training](./umt5#training).
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    UMT5 uses the `pad_token_id` as the starting token for `decoder_input_ids` generation. If `past_key_values`
    is used, optionally only the last `decoder_input_ids` have to be input (see `past_key_values`).

    To know more on how to prepare `decoder_input_ids` for pretraining take a look at [UMT5
    Training](./umt5#training).
decoder_attention_mask (`torch.BoolTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.
decoder_head_mask (`torch.FloatTensor` of shape `(num_heads,)` or `(num_layers, num_heads)`, *optional*):
    Mask to nullify selected heads of the self-attention modules in the decoder. Mask values selected in `[0,
    1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
cross_attn_head_mask (`torch.Tensor` of shape `(num_heads,)` or `(num_layers, num_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules in the decoder. Mask values selected in
    `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[-100, 0, ...,
    config.vocab_size - 1]`. All labels set to `-100` are ignored (masked), the loss is only computed for
    labels in `[0, ..., config.vocab_size]`

Examples:

```python
>>> from transformers import AutoTokenizer, UMT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> model = UMT5ForConditionalGeneration.from_pretrained("google/umt5-small")

>>> # training
>>> input_ids = tokenizer("The <extra_id_0> walks in <extra_id_1> park", return_tensors="pt").input_ids
>>> labels = tokenizer("<extra_id_0> cute dog <extra_id_1> the <extra_id_2>", return_tensors="pt").input_ids
>>> outputs = model(input_ids=input_ids, labels=labels)
>>> loss = outputs.loss
>>> logits = outputs.logits

>>> # inference
>>> input_ids = tokenizer("Studies have shown that <extra_id_0> good for you", return_tensors="pt").input_ids
>>> outputs = model.generate(input_ids)
>>> tokenizer.decode(outputs[0], skip_special_tokens=True)
```Nrû  r   r    r7   rü  rý  rA  rU  ©Úignore_indexr8   ©	ÚlossÚlogitsr„  rþ  rÿ  r†  r   rÅ   r  )rP   r  rˆ  rÍ  rc   r   r  r_  rÏ  rM  r  r?  r   r:   r¹   rž   r   r   r„  rB   r…  r†  rƒ  )r/   r5  rÇ   r4  r6  rŽ  r÷  r  rø  r„  r}  rù  r  r  r  r‡  r  r¾   rB   r  Úsequence_outputÚ	lm_logitsr  Úloss_fctÚoutputs                            r3   rD   Ú$UMT5ForConditionalGeneration.forward¾  s.  € ðj "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ñ"à"Ÿl™lØ#Ø-Ø+Ø#Ø"3Ø%9Ø'ð +ð ‰Oö ¤¨O¼_×!MÑ!MÜ-Ø"1°!Ñ"4Ü47¸Ó4HÈ1Ó4L˜o¨aÒ0ÐRVÜ14°_Ó1EÈÓ1I˜?¨1Ò-ÈtñˆOð (¨Ñ*ˆàÑÐ"3Ñ";Ð@UÑ@]à $× 1Ñ 1°&Ó 9Ðð Ÿ,™,Ø'Ø1Ø/Ø+Ø"/Ø#1Ø'Ø!5ØØ/Ø!5Ø#Ø)ð 'ð 
ˆð  *¨!Ñ,ˆà;‰;×*×*ð .°·±ÀÑ1EÑFˆOà—L‘L Ó1ˆ	àˆØÑÜ'°TÑ:ˆHà—Y‘Y˜y×/Ñ/Ó0ˆFÙ˜IŸN™N¨2¨y¯~©~¸bÓ/AÓBÀFÇKÁKÐPRÃOÓTˆDæØ\ O°A°BÐ$7Ñ7¸/ÑIˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEäØØØ+×;Ñ;Ø"1×"?Ñ"?Ø.×9Ñ9Ø,×=Ñ=Ø&5×&GÑ&GØ"1×"?Ñ"?Ø.×9Ñ9ñ

ð 
	
r5   c                 ó$   • U R                  U5      $ rb   )r_  )r/   r  s     r3   Ú%prepare_decoder_input_ids_from_labelsÚBUMT5ForConditionalGeneration.prepare_decoder_input_ids_from_labelsa  s   € Ø× Ñ  Ó(Ð(r5   )rÏ  rÍ  r?  r  rJ  )NNNNNNNNNNNNNNNNN)rF   rG   rH   rI   ró   r  r  r)   r×  rx  rá  ræ  rë  r   r   r+   r  r	  r
  rd   rõ   r   rÜ   r   r   rD   r'  rJ   rK   rL   s   @r3   rG  rG  v  s  ø† ñð  €JÚiÐõò0ò:òOòòð ð 15Ø6:Ø8<Ø=AØ15Ø9=Ø7;Ø@DØ+/Ø59Ø=AØ-1Ø$(Ø,0Ø/3Ø&*Ø59ñ%_
à˜E×,Ñ,Ñ-ð_
ð ! ×!2Ñ!2Ñ3ð_
ð $ E×$4Ñ$4Ñ5ð	_
ð
 !)¨×)9Ñ)9Ñ :ð_
ð ˜E×-Ñ-Ñ.ð_
ð $ E×$5Ñ$5Ñ6ð_
ð ' u§|¡|Ñ4ð_
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ð_
ð " %™ð_
ð   × 1Ñ 1Ñ2ð_
ð  (¨×(9Ñ(9Ñ:ð_
ð ˜×)Ñ)Ñ*ð_
ð ˜D‘>ð_
ð $ D™>ð_
ð  ' t™nð!_
ð" ˜d‘^ð#_
ð$ ! ×!1Ñ!1Ñ2ð%_
ð& 
ˆuU×&Ñ&Ñ'¨Ð8Ñ	9ô'_
ó ð_
ðD)¸E¿L¹L÷ )ò )r5   rG  c                   ó8  ^ • \ rS rSrSrSrS/rU 4S jrS rS r	S r
S	 rS
 r\       SS\\R                      S\\R"                     S\\R"                     S\\R"                     S\\   S\\   S\\   S\\\R"                     \4   4S jj5       rSrU =r$ )rH  ie  aº  
Examples:

```python
>>> from transformers import UMT5EncoderModel, AutoTokenizer

>>> model = UMT5EncoderModel.from_pretrained("google/umt5-small")
>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> article = "UN Offizier sagt, dass weiter verhandelt werden muss in Syrien."
>>> input_ids = tokenizer(article, return_tensors="pt").input_ids
>>> outputs = model(input_ids)
>>> hidden_state = outputs.last_hidden_state
```rÄ  rÅ  c                 ó   >• [         TU ]  U5        [        R                  " UR                  UR
                  5      U l        [        R                  " U5      nSUl	        SUl
        [        X R                  5      U l        U R                  5         g ©NF)r(   r)   r   r•   rÉ  rV   rJ  rÊ  rË  r  r‰  rj  rÍ  rr  )r/   rP   rÑ  r2   s      €r3   r)   ÚUMT5EncoderModel.__init__y  sf   ø€ Ü‰Ñ˜Ô Ü—l’l 6×#4Ñ#4°f·n±nÓEˆŒäŸš vÓ.ˆØ#(ˆÔ Ø,1ˆÔ)Ü  ·±Ó=ˆŒð 	‰Õr5   c                 ó   • U R                   $ rb   rÕ  rÖ  s    r3   r×  Ú%UMT5EncoderModel.get_input_embeddings†  rÙ  r5   c                 óF   • Xl         U R                  R                  U5        g rb   )rJ  rÍ  rx  rv  s     r3   rx  Ú%UMT5EncoderModel.set_input_embeddingsŠ  s   € Ø$ŒØ‰×)Ñ)¨.Õ9r5   c                 óœ   • U R                   R                  (       a1  U R                  U R                  R                  U R
                  5        g g rb   )rP   rM  rà  rÍ  rl  rJ  rÖ  s    r3   rá  ÚUMT5EncoderModel._tie_weights  s2   € Ø;‰;×*×*Ø×&Ñ& t§|¡|×'@Ñ'@À$Ç+Á+ÕNð +r5   c                 ó   • U R                   $ rb   rå  rÖ  s    r3   ræ  ÚUMT5EncoderModel.get_encoder”  rè  r5   c                 ó´   • UR                  5        HD  u  p#U R                  R                  U   R                  S   R                  R                  U5        MF     g)rî  r   N)rï  rÍ  ro  r  rú   rñ  rò  s       r3   rõ  ÚUMT5EncoderModel._prune_heads˜  sG   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×+Ñ+¨AÑ.×<Ñ<×HÑHÈÖOò 3r5   r5  rÇ   rŽ  r}  r  r‡  r  r›   c           
      óf   • Ub  UOU R                   R                  nU R                  UUUUUUUS9nU$ )aÉ  
input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
    Indices of input sequence tokens in the vocabulary. UMT5 is a model with relative position embeddings so you
    should be able to pad the inputs on both the right and the left.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for detail.

    To know more on how to prepare `input_ids` for pretraining take a look a [UMT5 Training](./umt5#training).

Example:

```python
>>> from transformers import AutoTokenizer, UMT5EncoderModel

>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> model = UMT5EncoderModel.from_pretrained("google/umt5-small")
>>> input_ids = tokenizer(
...     "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids  # Batch size 1
>>> outputs = model(input_ids=input_ids)
>>> last_hidden_states = outputs.last_hidden_state
```rû  )rP   rˆ  rÍ  )	r/   r5  rÇ   rŽ  r}  r  r‡  r  rø  s	            r3   rD   ÚUMT5EncoderModel.forward   sK   € ðF &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàŸ,™,ØØ)Ø'ØØ/Ø!5Ø#ð 'ð 
ˆð Ðr5   )rÍ  rJ  )NNNNNNN)rF   rG   rH   rI   ró   r  r  r)   r×  rx  rá  ræ  rõ  r   r   r+   r  r	  rÜ   r   rõ   r   rD   rJ   rK   rL   s   @r3   rH  rH  e  sþ   ø† ñð €Jà7Ð8Ðõ
òò:ò
Oò
òPð ð 15Ø6:Ø15Ø59Ø,0Ø/3Ø&*ñ-à˜E×,Ñ,Ñ-ð-ð ! ×!2Ñ!2Ñ3ð-ð ˜E×-Ñ-Ñ.ð	-ð
   × 1Ñ 1Ñ2ð-ð $ D™>ð-ð ' t™nð-ð ˜d‘^ð-ð 
ˆuU×&Ñ&Ñ'¨Ð8Ñ	9ô-ó ö-r5   rH  z…
    UMT5 model with a sequence classification/head on top (a linear layer on top of the pooled output) e.g. for GLUE
    tasks.
    c            $       óú  ^ • \ rS rSrS/rSS/rS\4U 4S jjr\               SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\\
R                        S\	\
R                     S\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\	\   S\\\4   4 S jj5       rSrU =r$ )ÚUMT5ForSequenceClassificationiÒ  úFdecoder.block.0.layer.1.EncDecAttention.relative_attention_bias.weightrÅ  rÆ  rP   c                 ó’   >• [         TU ]  U5        [        U5      U l        [	        U5      U l        U R                  5         SU l        g r+  )r(   r)   rF  r2  r&  Úclassification_headrr  Úmodel_parallelr_   s     €r3   r)   Ú&UMT5ForSequenceClassification.__init__Ý  s>   ø€ Ü‰Ñ˜Ô Ü$ VÓ,ˆÔÜ#9¸&Ó#AˆÔ ð 	‰Ôà#ˆÕr5   r5  rÇ   r4  r6  rŽ  r÷  r  rø  r}  rù  r  r  r  r‡  r  r›   c                 ó4  • Ub  UOU R                   R                  nUb  SnUc%  U	b"  [        SU R                  R                   35      eUc"  U
c  Uc  [        S5      eU R                  U5      nU R                  UUUUUUUUU	U
UUUUS9nUS   nUR                  U R                   R                  5      R                  UR                  5      n[        [        R                  " UR                  S5      5      5      S:”  a  [        S5      eUR                   u  nnnUUSS24   R#                  US	U5      SS2S	SS24   nU R%                  U5      nSnUGbÓ  UR                  UR                  5      nU R                   R&                  c¥  U R                   R(                  S:X  a  S
U R                   l        OyU R                   R(                  S:”  aN  UR*                  [        R,                  :X  d  UR*                  [        R.                  :X  a  SU R                   l        OSU R                   l        U R                   R&                  S
:X  aT  [1        5       nU R                   R(                  S:X  a&  U" UR3                  5       UR3                  5       5      nO˜U" UU5      nOŽU R                   R&                  S:X  aG  [5        5       nU" UR#                  S	U R                   R(                  5      UR#                  S	5      5      nO-U R                   R&                  S:X  a  [7        5       nU" UU5      nU(       d  U4USS -   nUb  U4U-   $ U$ [9        UUUR:                  UR<                  UR>                  UR@                  URB                  URD                  URF                  S9	$ )ak	  
input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
    Indices of input sequence tokens in the vocabulary. UMT5 is a model with relative position embeddings so
    you should be able to pad the inputs on both the right and the left.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for detail.

    [What are input IDs?](../glossary#input-ids)

    To know more on how to prepare `input_ids` for pretraining take a look a [UMT5 Training](./umt5#training).
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    UMT5 uses the `pad_token_id` as the starting token for `decoder_input_ids` generation. If `past_key_values`
    is used, optionally only the last `decoder_input_ids` have to be input (see `past_key_values`).

    To know more on how to prepare `decoder_input_ids` for pretraining take a look at [UMT5
    Training](./umt5#training).
decoder_attention_mask (`torch.BoolTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.
decoder_head_mask (`torch.FloatTensor` of shape `(num_heads,)` or `(num_layers, num_heads)`, *optional*):
    Mask to nullify selected heads of the self-attention modules in the decoder. Mask values selected in `[0,
    1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
cross_attn_head_mask (`torch.Tensor` of shape `(num_heads,)` or `(num_layers, num_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules in the decoder. Mask values selected in
    `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
NFz8Passing input embeddings is currently not supported for ú°If no `decoder_input_ids` or `decoder_inputs_embeds` are passed, `input_ids` cannot be `None`. Please pass either `input_ids` or `decoder_input_ids` or `decoder_inputs_embeds`.)rÇ   r4  r6  rŽ  r÷  r  rø  r}  rù  r  r  r‡  r  r   r    z7All examples must have the same number of <eos> tokens.r8   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationr  )$rP   rˆ  ÚNotImplementedErrorr2   rF   rX  r_  r2  ÚeqÚeos_token_idr:   r¹   r  r+   Úunique_consecutiveÚsumrÏ   rž   r=  Úproblem_typer*  r?   r¥   rô   r   Úsqueezer   r   r   r„  rþ  rÿ  r†  r   rÅ   r  )r/   r5  rÇ   r4  r6  rŽ  r÷  r  rø  r}  rù  r  r  r  r‡  r  r  r!  Úeos_maskrá   r—  r0   Úsentence_representationr   r  r#  r$  s                              r3   rD   Ú%UMT5ForSequenceClassification.forwardç  sR  € ð| &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØÑØˆIàÑ Ñ!:Ü%ØJÈ4Ï>É>×KbÑKbÐJcÐdóð ð Ñ$Ð)>Ñ)FØÑ Ü ðUóð ð
 !%× 1Ñ 1°)Ó <Ðà×"Ñ"ØØ)Ø/Ø#9ØØ/Ø!5Ø+Ø'Ø"7ØØ/Ø!5Ø#ð #ð 
ˆð  " !™*ˆà—<‘< §¡× 8Ñ 8Ó9×<Ñ<¸_×=SÑ=SÓTˆäŒu×'Ò'¨¯©°Q«Ó8Ó9¸AÓ=ÜÐVÓWÐWØ%4×%:Ñ%:Ñ"ˆ
A{Ø"1°(ºA°+Ñ">×"CÑ"CÀJÐPRÐT_Ó"`ÒabÐdfÒhiÐaiÑ"jÐØ×)Ñ)Ð*AÓBˆàˆØÒØ—Y‘Y˜vŸ}™}Ó-ˆFØ{‰{×'Ñ'Ñ/Ø—;‘;×)Ñ)¨QÓ.Ø/;D—K‘KÕ,Ø—[‘[×+Ñ+¨aÓ/°V·\±\ÄUÇZÁZÓ5OÐSY×S_ÑS_Ôch×clÑclÓSlØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—;‘;×)Ñ)¨QÓ.Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# F¨FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±×0FÑ0FÓ GÈÏÉÐUWËÓY‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù ¨Ó/ÞØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä.ØØØ#×3Ñ3Ø")×"?Ñ"?Ø&×9Ñ9Ø$×5Ñ5Ø&-×&GÑ&GØ")×"?Ñ"?Ø&×9Ñ9ñ

ð 
	
r5   )r=  r>  r2  )NNNNNNNNNNNNNNN)rF   rG   rH   rI   Ú"_keys_to_ignore_on_load_unexpectedr  r!   r)   r   r   r+   r  rd   rÛ   r	  rÜ   r   rõ   r   rD   rJ   rK   rL   s   @r3   r:  r:  Ò  s«  ø† ð +sÐ)sÐ&Ø7Ð9VÐWÐð$˜z÷ $ð ð 15Ø15Ø8<Ø=AØ,0Ø48Ø7;Ø=AØ59Ø=AØ-1Ø$(Ø,0Ø/3Ø&*ñ!P
à˜E×,Ñ,Ñ-ðP
ð ! §¡Ñ.ðP
ð $ E×$4Ñ$4Ñ5ð	P
ð
 !)¨×)9Ñ)9Ñ :ðP
ð ˜EŸL™LÑ)ðP
ð $ E§L¡LÑ1ðP
ð ' u§|¡|Ñ4ðP
ð " $ u×'8Ñ'8Ñ"9Ñ:ðP
ð   × 1Ñ 1Ñ2ðP
ð  (¨×(9Ñ(9Ñ:ðP
ð ˜×)Ñ)Ñ*ðP
ð ˜D‘>ðP
ð $ D™>ðP
ð ' t™nðP
ð  ˜d‘^ð!P
ð" 
ˆuÐ5Ð5Ñ	6ô#P
ó öP
r5   r:  c                   ó@  ^ • \ rS rSrS/rS/rS\4U 4S jjr\        SS\	\
R                     S\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\   S\	\   S\	\   S\\\
R                     \4   4S jj5       rSrU =r$ )rO  i{  r;  z'transformer.encoder.embed_tokens.weightrP   c                 ó0  >• [         TU ]  U5        UR                  U l        [        U5      U l        [
        R                  " UR                  5      U l        [
        R                  " UR                  UR                  5      U l        U R                  5         g rb   )r(   r)   r*  rH  r2  r   rZ   r)  r\   rU   r0   rB  rr  r_   s     €r3   r)   Ú#UMT5ForTokenClassification.__init__  sj   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä+¨FÓ3ˆÔÜ—z’z &×";Ñ";Ó<ˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰Õr5   r5  rÇ   rŽ  r}  r  r  r‡  r  r›   c	           
      ó¢  • Ub  UOU R                   R                  nU R                  UUUUUUUS9n	U	S   n
U R                  U
5      n
U R	                  U
5      nSnUb<  [        5       nU" UR                  SU R                  5      UR                  S5      5      nU(       d  X¹SS 4nUb  U4U-   $ U$ [        UUU	R                  U	R                  S9$ )aò  
input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
    Indices of input sequence tokens in the vocabulary. UMT5 is a model with relative position embeddings so you
    should be able to pad the inputs on both the right and the left.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for detail.

    [What are input IDs?](../glossary#input-ids)

    To know more on how to prepare `input_ids` for pretraining take a look a [UMT5 Training](./umt5#training).
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the token classification loss. Indices should be in `[0, ..., config.num_labels - 1]`.
N)rÇ   rŽ  r}  r  r‡  r  r   r8   r7   )r  r   rB   r…  )rP   rˆ  r2  r\   rB  r   rž   r*  r   rB   r…  )r/   r5  rÇ   rŽ  r}  r  r  r‡  r  r  rB   r   r  r#  r$  s                  r3   rD   Ú"UMT5ForTokenClassification.forwardŒ  sî   € ð6 &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×"Ñ"ØØ)ØØ'Ø/Ø!5Ø#ð #ð 
ˆð   ™
ˆØŸ™ ]Ó3ˆØ—‘ Ó/ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯O©OÓ<¸f¿k¹kÈ"»oÓNˆDæØ a¨˜mÐ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r5   )rB  r\   r*  r2  )NNNNNNNN)rF   rG   rH   rI   rO  r  r!   r)   r   r   r+   rd   rÜ   r   rõ   r   rD   rJ   rK   rL   s   @r3   rO  rO  {  sô   ø† à*rÐ)sÐ&ØCÐDÐð	˜z÷ 	ð ð -1Ø15Ø,0Ø04Ø)-Ø,0Ø/3Ø&*ñ7
à˜EŸL™LÑ)ð7
ð ! §¡Ñ.ð7
ð ˜EŸL™LÑ)ð	7
ð
   §¡Ñ-ð7
ð ˜Ÿ™Ñ&ð7
ð $ D™>ð7
ð ' t™nð7
ð ˜d‘^ð7
ð 
ˆuU—\‘\Ñ"Ð$9Ð9Ñ	:ô7
ó ö7
r5   rO  c            &       óJ  ^ • \ rS rSrSS/rU 4S jrS rS rS rS r	S	 r
\                SS
\\R                     S\\R                     S\\R                     S\\R                      S\\R                     S\\R                     S\\R"                     S\\\\R"                           S\\R                     S\\R                     S\\R                     S\\R                     S\\   S\\   S\\   S\\   S\\\R                     \4   4"S jj5       rSrU =r$ )rI  iÈ  rÅ  rÆ  c                 óp  >• [         TU ]  U5        UR                  U l        [        R
                  " UR                  UR                  5      U l        [        R                  " U5      nSUl
        SUl        SUl        [        X R                  5      U l        [        R                  " U5      nSUl
        SUl        UR                  Ul        [        X0R                  5      U l        UR$                  U l        [        R&                  " UR                  UR$                  5      U l        U R+                  5         g rÈ  )r(   r)   rV   r  r   r•   rÉ  rJ  rÊ  rË  r†   r  rÌ  rj  rÍ  rÎ  rn  rÏ  r*  rU   r@  rr  rÐ  s       €r3   r)   Ú!UMT5ForQuestionAnswering.__init__Ì  sÞ   ø€ Ü‰Ñ˜Ô ØŸ™ˆŒä—l’l 6×#4Ñ#4°f·n±nÓEˆŒäŸš vÓ.ˆØ$)ˆÔ!Ø#(ˆÔ Ø-2ˆÔ*Ü  ·±Ó=ˆŒäŸš vÓ.ˆØ$(ˆÔ!Ø-2ˆÔ*Ø$*×$=Ñ$=ˆÔ!Ü  ·±Ó=ˆŒà ×+Ñ+ˆŒÜŸ)š) F§N¡N°F×4EÑ4EÓFˆŒð 	‰Õr5   c                 ó   • U R                   $ rb   rÕ  rÖ  s    r3   r×  Ú-UMT5ForQuestionAnswering.get_input_embeddingså  rÙ  r5   c                 ó|   • Xl         U R                  R                  U5        U R                  R                  U5        g rb   rÛ  rv  s     r3   rx  Ú-UMT5ForQuestionAnswering.set_input_embeddingsé  rÝ  r5   c                 óü   • U R                   R                  (       aa  U R                  U R                  R                  U R
                  5        U R                  U R                  R                  U R
                  5        g g rb   rß  rÖ  s    r3   rá  Ú%UMT5ForQuestionAnswering._tie_weightsï  rã  r5   c                 ó   • U R                   $ rb   rå  rÖ  s    r3   ræ  Ú$UMT5ForQuestionAnswering.get_encoderõ  rè  r5   c                 ó   • U R                   $ rb   rê  rÖ  s    r3   rë  Ú$UMT5ForQuestionAnswering.get_decoderù  rè  r5   r5  rÇ   r4  r6  rŽ  r÷  r  rø  Ústart_positionsÚend_positionsr}  rù  r  r  r‡  r  r›   c                 óà  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU	b  U
b  SnUc"  Uc  Uc  [        S5      eU R	                  U5      nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  U R                  UUUUUUUS9nORU(       aK  [        U[        5      (       d6  [        US   [        U5      S:”  a  US   OS[        U5      S:”  a  US   OSS9nUS   nU R                  UUUSUUUUUUUUS	9nUS   nU R                  U5      nUR                  SS
S9u  nnUR                  S
5      R                  5       nUR                  S
5      R                  5       nSnU	bé  U
bæ  [        U	R                  5       5      S:”  a*  U	R                  S
5      R                  UR                   5      n	[        U
R                  5       5      S:”  a*  U
R                  S
5      R                  UR                   5      n
UR                  S5      nU	R#                  SU5      n	U
R#                  SU5      n
[%        US9nU" UU	5      nU" UU
5      nUU-   S-  nU(       d  UU4USS -   U-   nUb  U4U-   $ U$ ['        UUUUR(                  UR*                  UR,                  UR.                  UR0                  UR*                  UR,                  S9
$ )aY  
input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
    Indices of input sequence tokens in the vocabulary. UMT5 is a model with relative position embeddings so
    you should be able to pad the inputs on both the right and the left.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for detail.

    [What are input IDs?](../glossary#input-ids)

    To know more on how to prepare `input_ids` for pretraining take a look a [UMT5 Training](./umt5#training).
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    UMT5 uses the `pad_token_id` as the starting token for `decoder_input_ids` generation. If `past_key_values`
    is used, optionally only the last `decoder_input_ids` have to be input (see `past_key_values`).

    To know more on how to prepare `decoder_input_ids` for pretraining take a look at [UMT5
    Training](./umt5#training).
decoder_attention_mask (`torch.BoolTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.
decoder_head_mask (`torch.FloatTensor` of shape `(num_heads,)` or `(num_layers, num_heads)`, *optional*):
    Mask to nullify selected heads of the self-attention modules in the decoder. Mask values selected in `[0,
    1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
cross_attn_head_mask (`torch.Tensor` of shape `(num_heads,)` or `(num_layers, num_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules in the decoder. Mask values selected in
    `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
NFrA  rû  r   r    r7   rü  )r5  rÇ   r}  r„  rÅ   r  rŽ  r  r  r  r‡  r  r8   rË   r  )
r  Ústart_logitsÚ
end_logitsr„  rþ  rÿ  r†  r   rÅ   r  )rP   rˆ  r  rX  r_  rÍ  rc   r   r  rÏ  r@  ÚsplitrK  rà   r   r:   r¹   r  r   r   r„  rB   r…  r†  rƒ  )r/   r5  rÇ   r4  r6  rŽ  r÷  r  rø  rb  rc  r}  rù  r  r  r‡  r  rB   r  r!  r   re  rf  Ú
total_lossÚignored_indexr#  Ú
start_lossÚend_lossr$  s                                r3   rD   Ú UMT5ForQuestionAnswering.forwardü  s<  € ðx &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ!*Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	ØÑ&¨=Ñ+DØˆIð
 Ñ$Ð)>Ñ)FØÑ Ü ðUóð ð
 !%× 1Ñ 1°)Ó <Ðà!*Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ñ"Ø"Ÿl™lØ#Ø-Ø+Ø#Ø"3Ø%9Ø'ð +ð ‰Oö ¤¨O¼_×!MÑ!MÜ-Ø"1°!Ñ"4Ü47¸Ó4HÈ1Ó4L˜o¨aÒ0ÐRVÜ14°_Ó1EÈÓ1I˜?¨1Ò-ÈtñˆOð (¨Ñ*ˆð Ÿ,™,Ø'Ø1Ø/Ø Ø"/Ø#1Ø'Ø!5ØØ/Ø!5Ø#ð 'ð 
ˆð *¨!Ñ,ˆà—‘ Ó1ˆØ#)§<¡<°°r <Ð#:Ñ ˆjØ#×+Ñ+¨BÓ/×:Ñ:Ó<ˆØ×'Ñ'¨Ó+×6Ñ6Ó8ˆ
àˆ
ØÑ&¨=Ñ+Dä?×'Ñ'Ó)Ó*¨QÓ.Ø"1×"9Ñ"9¸"Ó"=×"@Ñ"@À×ATÑATÓ"UÜ=×%Ñ%Ó'Ó(¨1Ó,Ø -× 5Ñ 5°bÓ 9× <Ñ <¸Z×=NÑ=NÓ Oà(×-Ñ-¨aÓ0ˆMØ-×3Ñ3°A°}ÓEˆOØ)×/Ñ/°°=ÓAˆMä'°]ÑCˆHÙ! ,°Ó@ˆJÙ 
¨MÓ:ˆHØ$ xÑ/°1Ñ4ˆJæØ" JÐ/°/À!À"Ð2EÑEÈÑWˆFØ/9Ñ/EZM FÑ*ÐQÈ6ÐQä2ØØ%Ø!Ø+×;Ñ;Ø"1×"?Ñ"?Ø.×9Ñ9Ø,×=Ñ=Ø&5×&GÑ&GØ"1×"?Ñ"?Ø.×9Ñ9ñ
ð 	
r5   )rÏ  rÍ  r  r*  r@  rJ  r  )rF   rG   rH   rI   r  r)   r×  rx  rá  ræ  rë  r   r   r+   r  r	  r
  rd   rõ   rÜ   r   r   rD   rJ   rK   rL   s   @r3   rI  rI  È  sß  ø† à7Ð9VÐWÐõò2ò:òOòòð ð 15Ø6:Ø8<Ø=AØ15Ø9=Ø7;Ø@DØ6:Ø48Ø59Ø=AØ$(Ø,0Ø/3Ø&*ñ#Z
à˜E×,Ñ,Ñ-ðZ
ð ! ×!2Ñ!2Ñ3ðZ
ð $ E×$4Ñ$4Ñ5ð	Z
ð
 !)¨×)9Ñ)9Ñ :ðZ
ð ˜E×-Ñ-Ñ.ðZ
ð $ E×$5Ñ$5Ñ6ðZ
ð ' u§|¡|Ñ4ðZ
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðZ
ð " %×"2Ñ"2Ñ3ðZ
ð   × 0Ñ 0Ñ1ðZ
ð   × 1Ñ 1Ñ2ðZ
ð  (¨×(9Ñ(9Ñ:ðZ
ð ˜D‘>ðZ
ð $ D™>ðZ
ð  ' t™nð!Z
ð" ˜d‘^ð#Z
ð$ 
ˆuU×&Ñ&Ñ'Ð)LÐLÑ	Mô%Z
ó öZ
r5   rI  )rH  rG  rI  r:  rO  rF  r1  )Fró   rÊ  r«   Útypingr   r   r+   r   Útorch.nnr   r   r   Úactivationsr
   Úcache_utilsr   r   r   Ú
generationr   Úmodeling_attn_mask_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   r   r   Úmodeling_utilsr   Úutilsr   r   r   r   r   r   r   Úconfiguration_umt5r!   Ú!torch.nn.attention.flex_attentionr"   Úintegrations.flex_attentionr#   Ú
get_loggerrF   r   ÚModuler%   rN   rj   ru   r‚   r÷   r  r  r&  r1  rj  rF  rG  rH  r:  rO  rI  Ú__all__ra  r5   r3   Ú<module>r}     s  ðñ ã Û ß "ã Ý ß AÑ Aå !ß CÑ CÝ )Ý >Ý 9÷÷ ñ õ .÷÷ ñ õ +ñ  ×!Ñ!Ý;åJà	×	Ò	˜HÓ	%€ô+B—I‘Iô +ô4˜Ÿ	™	ô ô.˜RŸY™Yô ô<"—)‘)ô ô$B)B—I‘Iô B)ôJ˜RŸY™Yô ô8˜bŸi™iô ô<FÐ*ô FôT˜RŸY™Yô ð$ ôo!˜/ó o!ó ðo!ôdtÐ#ô tðn	 ôO
Ð#ó O
ó ðO
ñd ðñô
g)Ð#6¸ó g)óð
g)ðT ôiÐ*ó ió ðiñX ðñô`
Ð$7ó `
óð`
ðF ôI
Ð!4ó I
ó ðI
ðX ôN
Ð2ó N
ó ðN
òbr5   