ó
    <±h¦@ ã                   ó  • S r SSKrSSKJrJr  SSKrSSKrSSKJr  SSKJ	r	J
r
Jr  SSKJr  SSKJrJr  SS	KJr  SS
KJrJr  SSKJr  SSKJrJrJrJrJrJrJr  SSK J!r!  SSK"J#r#J$r$  SSK%J&r&  \$RN                  " \(5      r)S\RT                  S\+S\+4S jr, " S S\RZ                  5      r. " S S\R^                  5      r0 " S S\5      r1 " S S\5      r2 " S S\R^                  5      r3 " S S \R^                  5      r4\# " S! S"\!5      5       r5 " S# S$\55      r6 " S% S&\55      r7\# " S' S(\55      5       r8\#" S)S*9 " S+ S,\5\5      5       r9\#" S-S*9 " S. S/\55      5       r:\# " S0 S1\55      5       r; " S2 S3\55      r< " S4 S5\5\5      r=/ S6Qr>g)7zPyTorch MVP model.é    N)ÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)Ú_prepare_4d_attention_maskÚ!_prepare_4d_causal_attention_mask)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚ)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentionsÚSeq2SeqLMOutputÚSeq2SeqModelOutputÚ#Seq2SeqQuestionAnsweringModelOutputÚSeq2SeqSequenceClassifierOutput)ÚPreTrainedModel)Úauto_docstringÚloggingé   )Ú	MvpConfigÚ	input_idsÚpad_token_idÚdecoder_start_token_idc                 óÖ   • U R                  U R                  5      nU SS2SS24   R                  5       USS2SS24'   X#SS2S4'   Uc  [        S5      eUR	                  US:H  U5        U$ )z)
Shift input ids one token to the right.
Néÿÿÿÿr   r   z1self.model.config.pad_token_id has to be defined.iœÿÿÿ)Ú	new_zerosÚshapeÚcloneÚ
ValueErrorÚmasked_fill_)r   r   r   Úshifted_input_idss       Ú\/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/mvp/modeling_mvp.pyÚshift_tokens_rightr)   3   sz   € ð "×+Ñ+¨I¯O©OÓ<ÐØ(ª¨C¨R¨C¨Ñ0×6Ñ6Ó8Ð’a˜™eÑØ4’a˜dÑàÑÜÐLÓMÐMà×"Ñ"Ð#4¸Ñ#<¸lÔKàÐó    c                   ó€   ^ • \ rS rSrSrS\S\4U 4S jjrSS\R                  S\S\R                  4U 4S	 jjjr	S
r
U =r$ )ÚMvpLearnedPositionalEmbeddingéD   zF
This module learns positional embeddings up to a fixed maximum size.
Únum_embeddingsÚembedding_dimc                 óL   >• SU l         [        TU ]	  XR                   -   U5        g ©Né   )ÚoffsetÚsuperÚ__init__)Úselfr.   r/   Ú	__class__s      €r(   r5   Ú&MvpLearnedPositionalEmbedding.__init__I   s"   ø€ ð ˆŒÜ‰Ñ˜¯+©+Ñ5°}ÕEr*   r   Úpast_key_values_lengthÚposition_idsc                 ó  >• Uc]  UR                   SS u  pE[        R                  " X"U-   [        R                  U R                  R
                  S9R                  US5      nOUR                  S5      n[        TU ]%  X0R                  -   5      $ )z3`input_ids' shape is expected to be [bsz x seqlen].Nr2   )ÚdtypeÚdevicer!   r   )r#   ÚtorchÚarangeÚlongÚweightr=   ÚexpandÚ	unsqueezer4   Úforwardr3   )r6   r   r9   r:   ÚbszÚseq_lenr7   s         €r(   rD   Ú%MvpLearnedPositionalEmbedding.forwardO   s   ø€ ð ÑØ$Ÿ?™?¨2¨AÐ.‰LˆCÜ Ÿ<š<Ø&ÀÑ(HÔPU×PZÑPZÐcg×cnÑcn×cuÑcuñç‰fS˜"‹oñ ð (×1Ñ1°!Ó4ˆLä‰w‰˜|¯k©kÑ9Ó:Ð:r*   )r3   )r   N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Úintr5   r>   ÚTensorrD   Ú__static_attributes__Ú__classcell__©r7   s   @r(   r,   r,   D   sH   ø† ñðF sð F¸3÷ Fñ; §¡ð ;Àsð ;Ð^c×^jÑ^j÷ ;ö ;r*   r,   c                   ó¢  ^ • \ rS rSrSr    SS\S\S\\   S\\   S\\   S\\   4U 4S	 jjjr	       SS
\
R                  S\\
R                     S\\   S\\
R                     S\\
R                     S\\
R                     S\S\\
R                     S\\
R                  \\
R                     \\\
R                        4   4S jjrSrU =r$ )ÚMvpAttentioné]   z=Multi-headed attention from 'Attention Is All You Need' paperÚ	embed_dimÚ	num_headsÚdropoutÚ
is_decoderÚbiasÚ	layer_idxc                 óÚ  >• [         TU ]  5         Xl        X l        X0l        X-  U l        U R
                  U-  U R                  :w  a  [        SU R                   SU S35      eU R
                  S-  U l        X@l        X`l	        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).g      à¿©rY   )r4   r5   rU   rV   rW   Úhead_dimr%   ÚscalingrX   rZ   r   ÚLinearÚk_projÚv_projÚq_projÚout_proj)r6   rU   rV   rW   rX   rY   rZ   r7   s          €r(   r5   ÚMvpAttention.__init__`   sÉ   ø€ ô 	‰ÑÔØ"ŒØ"ŒØŒØ!Ñ.ˆŒàM‰M˜IÑ%¨$¯.©.Ó8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ŒØ"Œä—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜŸ	š	 )¸TÑBˆr*   Úhidden_statesÚkey_value_statesÚpast_key_valueÚattention_maskÚlayer_head_maskÚattn_promptÚoutput_attentionsÚcache_positionÚreturnc	                 ó\  • USLn	UR                  5       u  p«nU R                  U5      U R                  -  nUb]  [        U[        5      (       aF  UR
                  R                  U R                  5      nU	(       a  UR                  nOUR                  nOUnU	(       a  UOUnU	(       aQ  UbN  W(       aG  WR                  U R                     R                  nUR                  U R                     R                  nOãU R                  U5      nU R                  U5      nUR                  U
SU R                   U R"                  5      R%                  SS5      nUR                  U
SU R                   U R"                  5      R%                  SS5      nUbN  U	(       d  UOSnWR'                  UUU R                  SU05      u  nnU	(       a  SUR
                  U R                  '   Ubµ  [(        R*                  " US   R-                  U
SSS5      U/SS9n[(        R*                  " US   R-                  U
SSS5      U/SS9nUbZ  [(        R.                  " U
SX¶S   R                  S5      5      R1                  UR2                  5      n[(        R*                  " UU/SS9nX R                   -  SU R"                  4nUR                  X«U R                   U R"                  5      R%                  SS5      nUR4                  " U6 nUR4                  " U6 nUR4                  " U6 nUR                  S5      n[(        R6                  " UUR%                  SS5      5      nUR                  5       X R                   -  UU4:w  a.  [9        S	X R                   -  UU4 S
UR                  5        35      eUbz  UR                  5       U
SUU4:w  a#  [9        SU
SUU4 S
UR                  5        35      eUR                  X R                   UU5      U-   nUR                  X R                   -  UU5      n[:        R<                  R?                  USS9nUbš  UR                  5       U R                   4:w  a*  [9        SU R                   4 S
UR                  5        35      eUR                  SSSS5      UR                  X R                   UU5      -  nUR                  X R                   -  UU5      nU(       a=  UR                  X R                   UU5      nUR                  X R                   -  UU5      nOSn[:        R<                  RA                  UU R@                  U RB                  S9n[(        R6                  " UU5      nUR                  5       X R                   -  X°R"                  4:w  a5  [9        SX R                   X°R"                  4 S
UR                  5        35      eUR                  X R                   X°R"                  5      nUR%                  SS5      nUR5                  X«U RD                  5      nU RG                  U5      nUU4$ )z#Input shape: Batch x Time x ChannelNr!   r   r2   rl   Tr   ©Údimz$Attention weights should be of size z	, but is z!Attention mask should be of size z/Head mask for a single layer should be of size ©ÚpÚtrainingz `attn_output` should be of size )$Úsizerb   r^   Ú
isinstancer   Ú
is_updatedÚgetrZ   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesr`   ra   ÚviewrV   r]   Ú	transposeÚupdater>   ÚcatrB   ÚzerosÚtor=   ÚreshapeÚbmmr%   r   Ú
functionalÚsoftmaxrW   rs   rU   rc   )r6   re   rf   rg   rh   ri   rj   rk   rl   Úis_cross_attentionrE   Útgt_lenÚ_Úquery_statesrv   Úcurr_past_key_valueÚcurrent_statesÚ
key_statesÚvalue_statesÚprompt_maskÚ
proj_shapeÚsrc_lenÚattn_weightsÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                             r(   rD   ÚMvpAttention.forward}   s½  € ð .°TÐ9Ðà'×,Ñ,Ó.‰ˆað —{‘{ =Ó1°D·L±LÑ@ˆàÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ-?Ñ)À]ˆÞ .Ñ"<Æà,×3Ñ3°D·N±NÑC×HÑHˆJØ.×5Ñ5°d·n±nÑE×LÑL‰LàŸ™ ^Ó4ˆJØŸ;™; ~Ó6ˆLØ#Ÿ™¨¨b°$·.±.À$Ç-Á-ÓP×ZÑZÐ[\Ð^_Ó`ˆJØ'×,Ñ,¨S°"°d·n±nÀdÇmÁmÓT×^Ñ^Ð_`ÐbcÓdˆLàÑ)æ7I¡ÈtØ+>×+EÑ+EØ ¨d¯n©nÐ?OÐQ_Ð>`ó,Ñ(
˜Lö &Ø@DN×-Ñ-¨d¯n©nÑ=àÑ"ÜŸš K°¡N×$9Ñ$9¸#¸rÀ2ÀrÓ$JÈJÐ#WÐ]^Ñ_ˆJÜ Ÿ9š9 k°!¡n×&;Ñ&;¸CÀÀRÈÓ&LÈlÐ%[ÐabÑcˆLØÑ)Ü#Ÿkšk¨#¨q°'Àq¹>×;NÑ;NÈqÓ;QÓR×UÑUÐVd×VkÑVkÓlÜ!&§¢¨K¸Ð+HÈrÑ!SàŸN™NÑ*¨B°·±Ð>ˆ
Ø#×(Ñ(¨°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØ#×+Ò+¨ZÐ8ˆØ×'Ò'¨Ð4ˆ
Ø#×+Ò+¨ZÐ8ˆà—/‘/ !Ó$ˆÜ—y’y ¨z×/CÑ/CÀAÀqÓ/IÓJˆà×ÑÓ 3¯©Ñ#7¸À'Ð"JÓJÜØ6¸¿n¹nÑ8LÈgÐW^Ð7_Ð6`ð aØ ×%Ñ%Ó'Ð(ð*óð ð
 Ñ%Ø×"Ñ"Ó$¨¨a°¸'Ð(BÓBÜ Ø7¸¸aÀÈ'Ð8RÐ7SÐS\Ð]k×]pÑ]pÓ]rÐ\sÐtóð ð (×,Ñ,¨S·.±.À'È7ÓSÐVdÑdˆLØ'×,Ñ,¨S·>±>Ñ-AÀ7ÈGÓTˆLä—}‘}×,Ñ,¨\¸rÐ,ÐBˆàÑ&Ø×#Ñ#Ó%¨$¯.©.Ð):Ó:Ü ØEÀtÇ~Á~ÐFWÐEXð YØ'×,Ñ,Ó.Ð/ð1óð ð +×/Ñ/°°2°q¸!Ó<¸|×?PÑ?PÐQT×VdÑVdÐfmÐovÓ?wÑwˆLØ'×,Ñ,¨S·>±>Ñ-AÀ7ÈGÓTˆLæð
 %1×$5Ñ$5°c¿>¹>È7ÐT[Ó$\Ð!Ø0×5Ñ5°c¿N¹NÑ6JÈGÐU\Ó]‰Là$(Ð!ä—]‘]×*Ñ*¨<¸4¿<¹<ÐRV×R_ÑR_Ð*Ð`ˆ
ä—i’i 
¨LÓ9ˆà×ÑÓ #¯©Ñ"6¸ÇÁÐ!OÓOÜØ2°C¿¹È×R_ÑR_Ð3`Ð2að bØ×$Ñ$Ó&Ð'ð)óð ð
 "×&Ñ& s¯N©N¸GÇ]Á]ÓSˆØ!×+Ñ+¨A¨qÓ1ˆð "×)Ñ)¨#¸¿¹ÓGˆà—m‘m KÓ0ˆàÐ1Ð1Ð1r*   )rW   rU   r]   rX   r`   rZ   rV   rc   rb   r^   ra   )ç        FTN)NNNNNFN)rH   rI   rJ   rK   rL   rM   r   ÚfloatÚboolr5   r>   rN   r   ÚtuplerD   rO   rP   rQ   s   @r(   rS   rS   ]   sQ  ø† ÙGð $'Ø%*Ø#Ø$(ñCàðCð ðCð ˜%‘ð	Cð
 ˜T‘NðCð t‰nðCð ˜D‘>÷Cð Cð@ 48Ø*.Ø15Ø26Ø.2Ø"'Ø15ñ|2à—|‘|ð|2ð # 5§<¡<Ñ0ð|2ð ! ™ð	|2ð
 ! §¡Ñ.ð|2ð " %§,¡,Ñ/ð|2ð ˜eŸl™lÑ+ð|2ð  ð|2ð ! §¡Ñ.ð|2ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷|2ó |2r*   rS   c                   óæ   ^ • \ rS rSrS\4U 4S jjr SS\R                  S\R                  S\R                  S\R                  S\\	   S	\
\R                  \\R                     4   4S
 jjrSrU =r$ )ÚMvpEncoderLayeréü   Úconfigc                 óh  >• [         TU ]  5         UR                  U l        [	        U R                  UR
                  UR                  S9U l        [        R                  " U R                  5      U l
        UR                  U l        [        UR                     U l        UR                  U l        [        R                   " U R                  UR"                  5      U l        [        R                   " UR"                  U R                  5      U l        [        R                  " U R                  5      U l        g )N)rU   rV   rW   )r4   r5   Úd_modelrU   rS   Úencoder_attention_headsÚattention_dropoutÚ	self_attnr   Ú	LayerNormÚself_attn_layer_normrW   r
   Úactivation_functionÚactivation_fnÚactivation_dropoutr_   Úencoder_ffn_dimÚfc1Úfc2Úfinal_layer_norm©r6   rž   r7   s     €r(   r5   ÚMvpEncoderLayer.__init__ý   sÎ   ø€ Ü‰ÑÔØŸ™ˆŒÜ%Ø—n‘nØ×4Ñ4Ø×,Ñ,ñ
ˆŒô
 %'§L¢L°·±Ó$@ˆÔ!Ø—~‘~ˆŒÜ# F×$>Ñ$>Ñ?ˆÔØ"(×";Ñ";ˆÔÜ—9’9˜TŸ^™^¨V×-CÑ-CÓDˆŒÜ—9’9˜V×3Ñ3°T·^±^ÓDˆŒÜ "§¢¨T¯^©^Ó <ˆÕr*   re   rh   ri   Úself_attn_promptrk   rm   c                 ó‚  • UnU R                  UUUUUS9u  p[        R                  R                  XR                  U R                  S9nXa-   nU R                  U5      nUnU R                  U R                  U5      5      n[        R                  R                  XR                  U R                  S9nU R                  U5      n[        R                  R                  XR                  U R                  S9nXa-   nU R                  U5      nUR                  [        R                  :X  a•  [        R                  " U5      R                  5       (       d)  [        R                   " U5      R                  5       (       aC  [        R"                  " UR                  5      R$                  S-
  n[        R&                  " X* US9nX4$ )aà  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
        `(encoder_attention_heads,)`.
    self_attn_prompt (`torch.FloatTensor`): prompt of self attention of shape
        `(2, encoder_attention_heads, pro_len, head_dim)`.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)re   rh   ri   rj   rk   rq   iè  )ÚminÚmax)r£   r   r…   rW   rs   r¥   r§   rª   r¨   r«   r¬   r<   r>   Úfloat16ÚisinfÚanyÚisnanÚfinfor²   Úclamp)	r6   re   rh   ri   r¯   rk   Úresidualr’   Úclamp_values	            r(   rD   ÚMvpEncoderLayer.forward  su  € ð* !ˆØ&*§n¡nØ'Ø)Ø+Ø(Ø/ð '5ð '
Ñ#ˆô Ÿ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆØ×1Ñ1°-Ó@ˆà ˆØ×*Ñ*¨4¯8©8°MÓ+BÓCˆÜŸ™×-Ñ-¨m×?VÑ?VÐae×anÑanÐ-ÐoˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆØ×-Ñ-¨mÓ<ˆà×Ñ¤%§-¡-Ó/ÜKŠK˜Ó&×*Ñ*×,Ñ,´·²¸MÓ0J×0NÑ0N×0PÑ0PäŸ+š+ m×&9Ñ&9Ó:×>Ñ>ÀÑEˆKÜ!ŸKšK¨¸<È[ÑYˆMàÐ*Ð*r*   )	r¨   r§   rW   rU   rª   r«   r¬   r£   r¥   )F)rH   rI   rJ   rK   r   r5   r>   ÚFloatTensorr   r™   rš   rD   rO   rP   rQ   s   @r(   rœ   rœ   ü   s   ø† ð=˜y÷ =ð, -2ñ/+à×(Ñ(ð/+ð ×)Ñ)ð/+ð ×*Ñ*ð	/+ð
  ×+Ñ+ð/+ð $ D™>ð/+ð 
ˆu× Ñ  (¨5×+<Ñ+<Ñ"=Ð=Ñ	>÷/+ó /+r*   rœ   c                    óØ  ^ • \ rS rSrSS\4U 4S jjjr           SS\R                  S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\R                     S\\	   S\\
   S\\
   S\\R                     S\\R                  \\\R                  \R                  4      4   4S jjrSrU =r$ )ÚMvpDecoderLayeri?  rž   c                 ó  >• [         TU ]  5         UR                  U l        [	        U R                  UR
                  UR                  SUS9U l        UR                  U l        [        UR                     U l        UR                  U l        [        R                  " U R                  5      U l        [	        U R                  UR
                  UR                  SUS9U l        [        R                  " U R                  5      U l        [        R$                  " U R                  UR&                  5      U l        [        R$                  " UR&                  U R                  5      U l        [        R                  " U R                  5      U l        g )NT)rU   rV   rW   rX   rZ   )rW   rX   rZ   )r4   r5   r    rU   rS   Údecoder_attention_headsr¢   r£   rW   r
   r¦   r§   r¨   r   r¤   r¥   Úencoder_attnÚencoder_attn_layer_normr_   Údecoder_ffn_dimrª   r«   r¬   )r6   rž   rZ   r7   s      €r(   r5   ÚMvpDecoderLayer.__init__@  s  ø€ Ü‰ÑÔØŸ™ˆŒä%Ø—n‘nØ×4Ñ4Ø×,Ñ,ØØñ
ˆŒð —~‘~ˆŒÜ# F×$>Ñ$>Ñ?ˆÔØ"(×";Ñ";ˆÔä$&§L¢L°·±Ó$@ˆÔ!Ü(ØN‰NØ×*Ñ*Ø×,Ñ,ØØñ
ˆÔô (*§|¢|°D·N±NÓ'CˆÔ$Ü—9’9˜TŸ^™^¨V×-CÑ-CÓDˆŒÜ—9’9˜V×3Ñ3°T·^±^ÓDˆŒÜ "§¢¨T¯^©^Ó <ˆÕr*   re   rh   Úencoder_hidden_statesÚencoder_attention_maskri   Úcross_attn_layer_head_maskr¯   Úcross_attn_promptrg   rk   Ú	use_cacherl   rm   c           
      ó  • UnU R                  UU	UUUU
US9u  p[        R                  R                  XR                  U R                  S9nXÑ-   nU R                  U5      nSnUb`  UnU R                  UUUUUU	U
S9u  p[        R                  R                  XR                  U R                  S9nXÑ-   nU R                  U5      nUnU R                  U R                  U5      5      n[        R                  R                  XR                  U R                  S9nU R                  U5      n[        R                  R                  XR                  U R                  S9nXÑ-   nU R                  U5      nU4nU
(       a  UXï4-  nU$ )a›  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    encoder_hidden_states (`torch.FloatTensor`):
        cross attention input to the layer of shape `(batch, seq_len, embed_dim)`
    encoder_attention_mask (`torch.FloatTensor`): encoder attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
        `(encoder_attention_heads,)`.
    cross_attn_layer_head_mask (`torch.FloatTensor`): mask for cross-attention heads in a given layer of
        size `(decoder_attention_heads,)`.
    self_attn_prompt (`torch.FloatTensor`): prompt of self attention of shape
        `(2, decoder_attention_heads, pro_len, head_dim)`.
    cross_attn_prompt (`torch.FloatTensor`): prompt of cross attention of shape
        `(2, decoder_attention_heads, pro_len, head_dim)`.
    past_key_value (`Tuple(torch.FloatTensor)`): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)re   rg   rh   ri   rj   rk   rl   rq   N)re   rf   rh   ri   rj   rg   rk   )r£   r   r…   rW   rs   r¥   rÁ   rÂ   r§   rª   r¨   r«   r¬   )r6   re   rh   rÅ   rÆ   ri   rÇ   r¯   rÈ   rg   rk   rÉ   rl   r¹   Úself_attn_weightsÚcross_attn_weightsÚoutputss                    r(   rD   ÚMvpDecoderLayer.forward\  s¢  € ðJ !ˆð ,0¯>©>Ø'Ø)Ø)Ø+Ø(Ø/Ø)ð ,:ð ,
Ñ(ˆô Ÿ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆØ×1Ñ1°-Ó@ˆð "ÐØ Ñ,Ø$ˆHà04×0AÑ0AØ+Ø!6Ø5Ø :Ø-Ø-Ø"3ð 1Bð 1Ñ-ˆMô ŸM™M×1Ñ1°-Ç<Á<ÐZ^×ZgÑZgÐ1ÐhˆMØ$Ñ4ˆMØ ×8Ñ8¸ÓGˆMð !ˆØ×*Ñ*¨4¯8©8°MÓ+BÓCˆÜŸ™×-Ñ-¨m×?VÑ?VÐae×anÑanÐ-ÐoˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆØ×-Ñ-¨mÓ<ˆà Ð"ˆæØÐ)Ð>Ñ>ˆGàˆr*   )r¨   r§   rW   rU   rÁ   rÂ   rª   r«   r¬   r£   r¥   ©N)NNNNNNNNFTN)rH   rI   rJ   rK   r   r5   r>   rN   r   r   r™   rš   r¼   rD   rO   rP   rQ   s   @r(   r¾   r¾   ?  sS  ø† ñ=˜y÷ =ð =ð> 26Ø8<Ø9=Ø26Ø=AØ37Ø48Ø*.Ø,1Ø$(Ø15ñUà—|‘|ðUð ! §¡Ñ.ðUð  (¨¯©Ñ5ð	Uð
 !)¨¯©Ñ 6ðUð " %§,¡,Ñ/ðUð %-¨U¯\©\Ñ$:ðUð # 5§<¡<Ñ0ðUð $ E§L¡LÑ1ðUð ! ™ðUð $ D™>ðUð ˜D‘>ðUð ! §¡Ñ.ðUð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷Uó Ur*   r¾   c                   óz   ^ • \ rS rSrSrS\S\S\S\4U 4S jjrS\R                  S	\R                  4S
 jr
SrU =r$ )ÚMvpClassificationHeadiµ  z-Head for sentence-level classification tasks.Ú	input_dimÚ	inner_dimÚnum_classesÚpooler_dropoutc                 óÀ   >• [         TU ]  5         [        R                  " X5      U l        [        R
                  " US9U l        [        R                  " X#5      U l        g )N©rr   )r4   r5   r   r_   ÚdenseÚDropoutrW   rc   )r6   rÒ   rÓ   rÔ   rÕ   r7   s        €r(   r5   ÚMvpClassificationHead.__init__¸  s@   ø€ ô 	‰ÑÔÜ—Y’Y˜yÓ4ˆŒ
Ü—z’z NÑ3ˆŒÜŸ	š	 )Ó9ˆr*   re   rm   c                 óº   • U R                  U5      nU R                  U5      n[        R                  " U5      nU R                  U5      nU R	                  U5      nU$ rÏ   )rW   rØ   r>   Útanhrc   )r6   re   s     r(   rD   ÚMvpClassificationHead.forwardÄ  sN   € ØŸ™ ]Ó3ˆØŸ
™
 =Ó1ˆÜŸ
š
 =Ó1ˆØŸ™ ]Ó3ˆØŸ™ mÓ4ˆØÐr*   )rØ   rW   rc   )rH   rI   rJ   rK   rL   rM   r˜   r5   r>   rN   rD   rO   rP   rQ   s   @r(   rÑ   rÑ   µ  sQ   ø† Ù7ð
:àð
:ð ð
:ð ð	
:ð
 ÷
:ð U§\¡\ð °e·l±l÷ ò r*   rÑ   c                   ól   ^ • \ rS rSrSrU 4S jrS\R                  S\\R                     4S jr	Sr
U =r$ )Ú	MvpPromptiÍ  z)Layer-wise prompt for encoder or decoder.c           	      ó:  >• [         TU ]  5         UR                  U l        X l        X0l        UR
                  U-  U l        [        R                  " UR                  S9U l	        [        R                  " UR                  UR
                  5      U l        [        R                  " [        R                  " UR
                  UR                  5      [        R                  " 5       [        R                  " UR                  US-  UR
                  -  5      5      U l        g )Nr×   r2   )r4   r5   Úprompt_lengthÚ
num_layersrV   r    r]   r   rÙ   rW   Ú	EmbeddingÚprompt_embeddingÚ
Sequentialr_   Úprompt_mid_dimÚGELUÚprompt_trans)r6   rž   râ   rV   r7   s       €r(   r5   ÚMvpPrompt.__init__Ð  sº   ø€ Ü‰ÑÔØ#×1Ñ1ˆÔØ$ŒØ"ŒØŸ™¨)Ñ3ˆŒÜ—z’z F§N¡NÑ3ˆŒÜ "§¢¨V×-AÑ-AÀ6Ç>Á>Ó RˆÔÜŸMšMÜIŠIf—n‘n f×&;Ñ&;Ó<ÜGŠG‹IÜIŠIf×+Ñ+¨Z¸!©^¸f¿n¹nÑ-LÓMó
ˆÕr*   Ú
prompt_idsrm   c                 ó*  • U R                  U R                  U5      5      nUR                  U R                  U R                  S-  U R
                  U R                  5      nU R                  U5      nUR                  / SQ5      R                  S5      nU$ )Nr2   )r   r2   r   r	   )
rè   rä   r}   rá   râ   rV   r]   rW   ÚpermuteÚsplit)r6   rê   Úprompts      r(   rD   ÚMvpPrompt.forwardÞ  sw   € Ø×"Ñ" 4×#8Ñ#8¸Ó#DÓEˆØ—‘˜T×/Ñ/°·±À1Ñ1DÀdÇnÁnÐVZ×VcÑVcÓdˆØ—‘˜fÓ%ˆØ—‘¢Ó-×3Ñ3°AÓ6ˆØˆr*   )rW   r]   rV   râ   rä   rá   rè   )rH   rI   rJ   rK   rL   r5   r>   rN   rš   rD   rO   rP   rQ   s   @r(   rß   rß   Í  s0   ø† Ù3õ
ð %§,¡,ð °5¸¿¹Ñ3F÷ ò r*   rß   c                   ó>   • \ rS rSr% \\S'   SrSrS r\	S 5       r
Srg)	ÚMvpPreTrainedModeliæ  rž   ÚmodelTc                 ó"  • U R                   R                  n[        U[        R                  5      (       aW  UR
                  R                  R                  SUS9  UR                  b%  UR                  R                  R                  5         g g [        U[        R                  5      (       ad  UR
                  R                  R                  SUS9  UR                  b2  UR
                  R                  UR                     R                  5         g g g )Nr—   )ÚmeanÚstd)rž   Úinit_stdru   r   r_   rA   ÚdataÚnormal_rY   Úzero_rã   Úpadding_idx)r6   Úmodulerõ   s      r(   Ú_init_weightsÚ MvpPreTrainedModel._init_weightsì  sÉ   € Øk‰k×"Ñ"ˆÜfœbŸi™i×(Ñ(ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ð .r*   c                 óª   • U R                   R                  n[        R                  " / SQSSSSU//U R                  S9nUR                  U5      US.nU$ )N)r   é   é
   é   r2   r   é   é   r2   ©r=   )rh   r   )rž   r   r>   Útensorr=   Úne)r6   Ú	pad_tokenr   Údummy_inputss       r(   r  ÚMvpPreTrainedModel.dummy_inputs÷  sW   € à—K‘K×,Ñ,ˆ	Ü—L’LÒ"2°Q¸¸2¸qÀ)Ð4LÐ!MÐVZ×VaÑVaÑbˆ	à'Ÿl™l¨9Ó5Ø"ñ
ˆð Ðr*   © N)rH   rI   rJ   rK   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingrü   Úpropertyr  rO   r
  r*   r(   rñ   rñ   æ  s-   ‡ àÓØÐØ&*Ð#ò	?ð ñó ór*   rñ   c                   ó"  ^ • \ rS rSrSr SS\S\\R                     S\\	   4U 4S jjjr
       SS\\R                     S\\R                     S	\\R                     S
\\R                     S\\	   S\\	   S\\	   S\\\4   4S jjrSrU =r$ )Ú
MvpEncoderi  zó
Transformer encoder consisting of *config.encoder_layers* self attention layers. Each layer is a
[`MvpEncoderLayer`].

Args:
    config: MvpConfig
    embed_tokens (nn.Embedding): output embedding
    use_prompt (bool): whether to use prompt
rž   Úembed_tokensÚ
use_promptc                 óN  >• [         TU ]  U5        UR                  U l        UR                  U l        UR
                  nUR                  U l        UR                  U l	        UR                  (       a  [        R                  " U5      OSU l        Ub  X l        O0[        R                   " UR"                  X@R                  5      U l        [%        UR                  U5      U l        [        R(                  " [+        UR,                  5       Vs/ sH  n[/        U5      PM     sn5      U l        [        R2                  " U5      U l        X0l        U(       a7  UR8                  U l        [;        UUR,                  UR<                  5      U l        SU l         U RC                  5         g s  snf )Nç      ð?F)"r4   r5   rW   Úencoder_layerdropÚ	layerdropr    r   rú   Úmax_position_embeddingsÚmax_source_positionsÚscale_embeddingÚmathÚsqrtÚembed_scaler  r   rã   Ú
vocab_sizer,   Úembed_positionsÚ
ModuleListÚrangeÚencoder_layersrœ   rz   r¤   Úlayernorm_embeddingr  rá   rß   r¡   r¯   Úgradient_checkpointingÚ	post_init)r6   rž   r  r  rU   r‰   r7   s         €r(   r5   ÚMvpEncoder.__init__  sD  ø€ ô 	‰Ñ˜Ô à—~‘~ˆŒØ×1Ñ1ˆŒà—N‘Nˆ	Ø!×.Ñ.ˆÔØ$*×$BÑ$BˆÔ!Ø39×3I×3Iœ4Ÿ9š9 YÔ/ÈsˆÔàÑ#Ø ,Õä "§¢¨V×->Ñ->À	×K[ÑK[Ó \ˆDÔä<Ø×*Ñ*Øó 
ˆÔô —m’mÄeÈF×LaÑLaÔFbÓ$cÑFbÀ¤_°VÖ%<ÑFbÑ$cÓdˆŒÜ#%§<¢<°	Ó#:ˆÔ à$ŒÞØ!'×!5Ñ!5ˆDÔÜ$-ØØ×%Ñ%Ø×.Ñ.ó%ˆDÔ!ð ',ˆÔ#à‰Õùò %ds   ÄF"r   rh   Ú	head_maskÚinputs_embedsrk   Úoutput_hidden_statesÚreturn_dictrm   c           	      óú  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUb  Ub  [	        S5      eUb$  UnUR
                  n	UR                  SU	S   5      nO.Ub   UR                  5       SS n	USS2SS2S4   nO[	        S5      eUc  U R                  U5      U R                  -  nU R                  U5      n
XJ-   nU R                  U5      n[        R                  R                  X°R                  U R                  S9nU R                   (       aJ  ["        R$                  " U R&                  5      R)                  U R*                  5      nU R-                  U5      nUb  [/        X$R0                  5      nU(       a  SOSnU(       a  SOSnUb`  UR                  5       S   [3        U R4                  5      :w  a6  [	        S[3        U R4                  5       S	UR                  5       S    S
35      e[7        U R4                  5       H–  u  nnU(       a  Xë4-   nSnU R                  (       a(  ["        R8                  " / 5      nUU R:                  :  a  SnU(       a  SnO-U" UUUb  UU   OSU R                   (       a  WU   OSUS9nUS   nU(       d  M  UUS   4-   nM˜     U(       a  Xë4-   nU(       d  [=        S X¾U4 5       5      $ [?        X¾US9$ )a–  
Args:
    input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
        Indices of input sequence tokens in the vocabulary. Padding will be ignored by default should you
        provide it.

        Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
        [`PreTrainedTokenizer.__call__`] for details.

        [What are input IDs?](../glossary#input-ids)
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    head_mask (`torch.Tensor` of shape `(encoder_layers, encoder_attention_heads)`, *optional*):
        Mask to nullify selected heads of the attention modules. Mask values selected in `[0, 1]`:

        - 1 indicates the head is **not masked**,
        - 0 indicates the head is **masked**.

    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
        Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.
        This is useful if you want more control over how to convert `input_ids` indices into associated vectors
        than the model's internal embedding lookup matrix.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
NzDYou cannot specify both input_ids and inputs_embeds at the same timer!   z5You have to specify either input_ids or inputs_embedsrq   r
  r   z&The head_mask should be specified for ú layers, but it is for Ú.FT)NN)ri   r¯   rk   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frÏ   r
  ©Ú.0Úvs     r(   Ú	<genexpr>Ú%MvpEncoder.forward.<locals>.<genexpr>°  s   é € ÐeÑ$S˜qŸ™Ò$Sùs   ‚‹	©Úlast_hidden_statere   Ú
attentions) rž   rk   r(  Úuse_return_dictr%   r#   r}   rt   r  r  r  r"  r   r…   rW   rs   r  r>   r?   rá   r‚   r=   r¯   r   r<   Úlenrz   Ú	enumerateÚrandr  rš   r   )r6   r   rh   r&  r'  rk   r(  r)  ÚinputÚinput_shapeÚ	embed_posre   rê   r¯   Úencoder_statesÚall_attentionsÚidxÚencoder_layerÚto_dropÚdropout_probabilityÚlayer_outputss                        r(   rD   ÚMvpEncoder.forward3  sð  € ð\ 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ñ  ]Ñ%>ÜÐcÓdÐdØÑ"ØˆEØŸ+™+ˆKØ!Ÿ™ r¨;°r©?Ó;‰IØÑ&Ø'×,Ñ,Ó.¨s°Ð3ˆKØ!¢!¢Q¨ (Ñ+‰EäÐTÓUÐUàÑ Ø ×-Ñ-¨iÓ8¸4×;KÑ;KÑKˆMà×(Ñ(¨Ó/ˆ	à%Ñ1ˆØ×0Ñ0°Ó?ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-Ðdˆð ??ÜŸš d×&8Ñ&8Ó9×<Ñ<¸T¿[¹[ÓIˆJØ#×4Ñ4°ZÓ@Ðð Ñ%ä7¸×H[ÑH[Ó\ˆNæ3™¸ˆÞ0™°dˆð Ñ Ø~‰~Ó Ñ"¤s¨4¯;©;Ó'7Ó8Ü Ø<¼SÀÇÁÓ=MÐ<Nð OØ!Ÿ™Ó(¨Ñ+Ð,¨Að/óð ô
 #,¨D¯K©KÖ"8ÑˆCÞ#Ø!/Ð2BÑ!BàˆGØ}}Ü&+§j¢j°£nÐ#Ø&¨¯©Ó7Ø"GæØ ,‘á -Ø!Ø"Ø7@Ñ7L Y¨s¢^ÐRVØ?C¿¿Ð&6°sÒ&;ÐTXØ&7ñ!ð !.¨aÑ 0ç Ð Ø!/°=ÀÑ3CÐ2EÑ!E’ñ1 #9ö4  Ø+Ð.>Ñ>ˆNæÜÑe ]ÀNÑ$SÓeÓeÐeÜØ+ÐVdñ
ð 	
r*   )rW   r  r  r  r#  r  r"  rz   r  rú   rá   r¯   r  ©NF)NNNNNNN)rH   rI   rJ   rK   rL   r   r   r   rã   r™   r5   r>   Ú
LongTensorrN   r¼   r   rš   r   rD   rO   rP   rQ   s   @r(   r  r    sø   ø† ñð lqñ$Øð$Ø/7¸¿¹Ñ/Eð$ØZbÐcgÑZh÷$ð $ðP 15Ø15Ø,0Ø59Ø,0Ø/3Ø&*ñ@
à˜E×,Ñ,Ñ-ð@
ð ! §¡Ñ.ð@
ð ˜EŸL™LÑ)ð	@
ð
   × 1Ñ 1Ñ2ð@
ð $ D™>ð@
ð ' t™nð@
ð ˜d‘^ð@
ð 
ˆuoÐ%Ñ	&÷@
ó @
r*   r  c                   óÔ  ^ • \ rS rSrSr SS\S\\R                     S\\	   4U 4S jjjr
             SS\\R                     S\\R                     S	\\R                     S
\\R                     S\\R                     S\\R                     S\\\R                        S\\R                     S\\	   S\\	   S\\	   S\\	   S\\R                     S\\\4   4S jjrSrU =r$ )Ú
MvpDecoderi¶  zã
Transformer decoder consisting of *config.decoder_layers* layers. Each layer is a [`MvpDecoderLayer`]

Args:
    config: MvpConfig
    embed_tokens (nn.Embedding): output embedding
    use_prompt (bool): whether to use prompt
rž   r  r  c           
      óÐ  >• [         TU ]  U5        UR                  U l        UR                  U l        UR
                  U l        UR                  U l        UR                  (       a   [        R                  " UR                  5      OSU l        Ub  X l        O;[        R                   " UR"                  UR                  U R                  5      U l        [%        UR                  UR                  5      U l        [        R(                  " [+        UR,                  5       Vs/ sH  n[/        XS9PM     sn5      U l        [        R2                  " UR                  5      U l        X0l        U(       a]  UR8                  U l        [;        UUR,                  UR<                  5      U l        [;        UUR,                  UR<                  5      U l         SU l!        U RE                  5         g s  snf )Nr  )rZ   F)#r4   r5   rW   Údecoder_layerdropr  r   rú   r  Úmax_target_positionsr  r  r  r    r  r  r   rã   r  r,   r  r  r   Údecoder_layersr¾   rz   r¤   r"  r  rá   rß   rÀ   r¯   rÈ   r#  r$  )r6   rž   r  r  Úir7   s        €r(   r5   ÚMvpDecoder.__init__À  su  ø€ ô 	‰Ñ˜Ô Ø—~‘~ˆŒØ×1Ñ1ˆŒØ!×.Ñ.ˆÔØ$*×$BÑ$BˆÔ!Ø8>×8N×8Nœ4Ÿ9š9 V§^¡^Ô4ÐTWˆÔàÑ#Ø ,Õä "§¢¨V×->Ñ->ÀÇÁÐPT×P`ÑP`Ó aˆDÔä<Ø×*Ñ*ØN‰Nó 
ˆÔô —m’mÔSXÐY_×YnÑYnÔSoÓ$pÑSoÈa¤_°VÔ%IÑSoÑ$pÓqˆŒÜ#%§<¢<°·±Ó#?ˆÔ à$ŒÞØ!'×!5Ñ!5ˆDÔÜ$-ØØ×%Ñ%Ø×.Ñ.ó%ˆDÔ!ô
 &/ØØ×%Ñ%Ø×.Ñ.ó&ˆDÔ"ð ',ˆÔ#à‰Õùò' %qs   ÄG#r   rh   rÅ   rÆ   r&  Úcross_attn_head_maskÚpast_key_valuesr'  rÉ   rk   r(  r)  rl   rm   c                 ó   • U
b  U
OU R                   R                  n
Ub  UOU R                   R                  nU	b  U	OU R                   R                  n	Ub  UOU R                   R                  nUb  Ub  [        S5      eUb$  UnUR                  nUR                  SUS   5      nO.Ub   UR                  5       SS nUSS2SS2S4   nO[        S5      eUc  U R                  U5      U R                  -  nU R                  (       a/  U R                  (       a  U	(       a  [        R                  S5        Sn	SnU	(       aB  [        U[         5      (       d-  [        R                  S5        Sn["        R$                  " U5      nUb  UR'                  5       OS	n[)        X/UU5      nUb  Ub  [+        XHR,                  US   S
9nU R/                  UU5      nUU-   nU R1                  U5      n[2        R4                  R7                  UU R6                  U R                  S9nU R8                  (       a[  [:        R<                  " U R>                  5      RA                  U RB                  5      nU RE                  U5      nU RG                  U5      nU(       a  SOSnU
(       a  SOSnU
(       a  Ub  SOSn[I        XV/SS/5       Hn  u  nnUc  M  UR                  5       S	   [K        U RL                  5      :w  d  M7  [        SU S[K        U RL                  5       SUR                  5       S	    S35      e   [O        U RL                  5       H¾  u  nnU(       a  UU4-  nU R                  (       a(  [:        RP                  " / 5      nUU RR                  :  a  ML  U" UUUUUb  UU   OSUb  UU   OSU R8                  (       a  WU   OSU R8                  (       a  WU   OSUU
U	US9nUS	   nU
(       d  M§  UUS   4-  nUc  Mµ  UUS   4-  nMÀ     U(       a  UU4-  nU(       a  URU                  5       nU(       d  [W        S UUUUU4 5       5      $ [Y        UUUUUS9$ )ak  
Args:
    input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
        Indices of input sequence tokens in the vocabulary. Padding will be ignored by default should you
        provide it.

        Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
        [`PreTrainedTokenizer.__call__`] for details.

        [What are input IDs?](../glossary#input-ids)
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
        Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention
        of the decoder.
    encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
        Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
        selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
        Mask to nullify selected heads of the attention modules. Mask values selected in `[0, 1]`:

        - 1 indicates the head is **not masked**,
        - 0 indicates the head is **masked**.

    cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
        Mask to nullify selected heads of the cross-attention modules in the decoder to avoid performing
        cross-attention on hidden heads. Mask values selected in `[0, 1]`:

        - 1 indicates the head is **not masked**,
        - 0 indicates the head is **masked**.

    past_key_values (`tuple(tuple(torch.FloatTensor))`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
        Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of
        shape `(batch_size, num_heads, sequence_length, embed_size_per_head)`) and 2 additional tensors of
        shape `(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)`.

        Contains pre-computed hidden-states (key and values in the self-attention blocks and in the
        cross-attention blocks) that can be used (see `past_key_values` input) to speed up sequential decoding.

        If `past_key_values` are used, the user can optionally input only the last `decoder_input_ids` (those
        that don't have their past key value states given to this model) of shape `(batch_size, 1)` instead of
        all `decoder_input_ids` of shape `(batch_size, sequence_length)`.
    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
        Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.
        This is useful if you want more control over how to convert `input_ids` indices into associated vectors
        than the model's internal embedding lookup matrix.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
NzTYou cannot specify both decoder_input_ids and decoder_inputs_embeds at the same timer!   zEYou have to specify either decoder_input_ids or decoder_inputs_embedszZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...FzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.Tr   )rˆ   rq   r
  r&  rO  zThe `z` should be specified for r+  r,  )	rÆ   ri   rÇ   r¯   rÈ   rg   rk   rÉ   rl   r   r2   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7frÏ   r
  r.  s     r(   r1  Ú%MvpDecoder.forward.<locals>.<genexpr>¯  s   é € ð árAØ÷ ‘Úrùs   ‚Œ	)r4  rP  re   r5  Úcross_attentions)-rž   rk   r(  rÉ   r6  r%   r#   r}   rt   r  r  r#  rs   ÚloggerÚwarning_onceru   r   r   Úfrom_legacy_cacheÚget_seq_lengthr   r   r<   r  r"  r   r…   rW   r  r>   r?   rá   r‚   r=   r¯   rÈ   Úzipr7  rz   r8  r9  r  Úto_legacy_cacherš   r   ) r6   r   rh   rÅ   rÆ   r&  rO  rP  r'  rÉ   rk   r(  r)  rl   r:  r;  Úreturn_legacy_cacher9   Ú	positionsre   rê   r¯   rÈ   Úall_hidden_statesÚall_self_attnsÚall_cross_attentionsÚ	attn_maskÚ	mask_namer?  Údecoder_layerrB  rC  s                                    r(   rD   ÚMvpDecoder.forwardè  sn  € ðb 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ñ  ]Ñ%>ÜÐsÓtÐtØÑ"ØˆEØ#Ÿ/™/ˆKØ!Ÿ™ r¨;°r©?Ó;‰IØÑ&Ø'×,Ñ,Ó.¨s°Ð3ˆKØ!¢!¢Q¨ (Ñ+‰EäÐdÓeÐeàÑ Ø ×-Ñ-¨iÓ8¸4×;KÑ;KÑKˆMà×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	à#ÐÞœZ¨¼×?Ñ?Ü×Ñð\ôð
 #'ÐÜ1×CÒCÀOÓTˆOàETÑE` ×!?Ñ!?Ô!AÐfgÐÜ:Ø¨Ð8Nó
ˆð
 !Ñ,Ð1GÑ1Sä%?Ø&×(;Ñ(;À[ÐQSÁ_ñ&Ð"ð
 ×(Ñ(¨Ð0FÓGˆ	à%¨	Ñ1ˆØ×0Ñ0°Ó?ˆäŸ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-Ðdˆð ??ÜŸš d×&8Ñ&8Ó9×<Ñ<¸T¿[¹[ÓIˆJØ#×4Ñ4°ZÓ@ÐØ $× 6Ñ 6°zÓ BÐö #7™B¸DÐÞ0™°dˆÞ&7Ð<QÑ<]™rÐdhÐô %(¨Ð(IÈKÐYoÐKpÖ$qÑ ˆIyØÓ$Ø—>‘>Ó# AÑ&¬3¨t¯{©{Ó+;Õ<Ü$Ø 	˜{Ð*DÄSÈÏÉÓEUÐDVð WØ%ŸN™NÓ,¨QÑ/Ð0°ð3óð ñ %rô #,¨D¯K©KÖ"8ÑˆCæ#Ø! mÐ%5Ñ5Ð!Ø}}Ü&+§j¢j°£nÐ#Ø&¨¯©Ó7Ùá)ØØØ%Ø'=Ø3<Ñ3H ¨3¢ÈdØI]ÑIiÐ,@ÀÒ,EÐosØ;?¿?¿?Ð"2°3Ò"7ÐPTØ=A¿_¿_Ð#4°SÒ#9ÐRVØ.Ø"3Ø#Ø-ñˆMð *¨!Ñ,ˆMß Ð Ø =°Ñ#3Ð"5Ñ5à(Ó4Ø(¨]¸1Ñ-=Ð,?Ñ?Ò(ñ9 #9ö>  Ø -Ð!1Ñ1ÐæØ-×=Ñ=Ó?ˆOæÜñ à'¨Ð:KÈ^Ð]qÑróó ð ô
 9Ø+Ø+Ø+Ø%Ø1ñ
ð 	
r*   )rÈ   rW   r  r  r  r#  r  r"  rz   rK  rú   rá   r¯   r  rE  )NNNNNNNNNNNNN)rH   rI   rJ   rK   rL   r   r   r   rã   r™   r5   r>   rF  rN   r¼   Úlistr   rš   r   rD   rO   rP   rQ   s   @r(   rH  rH  ¶  s‰  ø† ñð lqñ&Øð&Ø/7¸¿¹Ñ/Eð&ØZbÐcgÑZh÷&ð &ðT 15Ø15Ø=AØ=AØ,0Ø7;Ø=AØ59Ø$(Ø,0Ø/3Ø&*Ø15ñR
à˜E×,Ñ,Ñ-ðR
ð ! §¡Ñ.ðR
ð  (¨×(9Ñ(9Ñ:ð	R
ð
 !)¨×)9Ñ)9Ñ :ðR
ð ˜EŸL™LÑ)ðR
ð ' u§|¡|Ñ4ðR
ð " $ u×'8Ñ'8Ñ"9Ñ:ðR
ð   × 1Ñ 1Ñ2ðR
ð ˜D‘>ðR
ð $ D™>ðR
ð ' t™nðR
ð ˜d‘^ðR
ð ! §¡Ñ.ðR
ð 
ˆuÐ?Ð?Ñ	@÷R
ó R
r*   rH  c            &       ó>  ^ • \ rS rSrS/rSS/rS\4U 4S jjrS rS r	S	 r
S
 rS r\                SS\\R                      S\\R"                     S\\R                      S\\R                      S\\R"                     S\\R"                     S\\R"                     S\\\R&                        S\\\R&                        S\\R&                     S\\R&                     S\\   S\\   S\\   S\\   S\\R"                     S\\\4   4"S jj5       rSrU =r$ ) ÚMvpModeli½  Úfinal_logits_biasúencoder.embed_tokens.weightúdecoder.embed_tokens.weightrž   c                 ót  >• [         TU ]  U5        UR                  UR                  p2UR                  U l        [
        R                  " X1R                  U5      U l        [        XR                  UR                  5      U l
        [        XR                  UR                  5      U l        U R                  5         g rÏ   )r4   r5   r   r  r  r   rã   r    Úsharedr  ÚencoderrH  Údecoderr$  )r6   rž   rú   r  r7   s       €r(   r5   ÚMvpModel.__init__Â  s‚   ø€ Ü‰Ñ˜Ô à"(×"5Ñ"5°v×7HÑ7HZØ ×+Ñ+ˆŒÜ—l’l :¯~©~¸{ÓKˆŒä! &¯+©+°v×7HÑ7HÓIˆŒÜ! &¯+©+°v×7HÑ7HÓIˆŒð 	‰Õr*   c                 ó   • U R                   $ rÏ   )rk  ©r6   s    r(   Úget_input_embeddingsÚMvpModel.get_input_embeddingsÏ  s   € Ø{‰{Ðr*   c                 ó|   • Xl         U R                   U R                  l        U R                   U R                  l        g rÏ   )rk  rl  r  rm  ©r6   Úvalues     r(   Úset_input_embeddingsÚMvpModel.set_input_embeddingsÒ  s'   € ØŒØ$(§K¡Kˆ‰Ô!Ø$(§K¡Kˆ‰Õ!r*   c                 ó   • U R                   $ rÏ   )rl  rp  s    r(   Úget_encoderÚMvpModel.get_encoder×  ó   € Ø|‰|Ðr*   c                 ó   • U R                   $ rÏ   ©rm  rp  s    r(   Úget_decoderÚMvpModel.get_decoderÚ  r{  r*   c                 ó4  • U R                   (       d   S5       eU R                  S5        U R                  R                  R                  S5        U R                  R                  R                  S5        U R                  R
                  R                  S5        g )NzHIf you want to use lightweight tuning, make sure that `use_prompt=True`.FT)r  Úrequires_grad_rl  r¯   rm  rÈ   rp  s    r(   Úset_lightweight_tuningÚMvpModel.set_lightweight_tuningÝ  sj   € ØÐjÐ jÓjˆà×Ñ˜EÔ"Ø‰×%Ñ%×4Ñ4°TÔ:Ø‰×%Ñ%×4Ñ4°TÔ:Ø‰×&Ñ&×5Ñ5°dÕ;r*   r   rh   Údecoder_input_idsÚdecoder_attention_maskr&  Údecoder_head_maskrO  Úencoder_outputsrP  r'  Údecoder_inputs_embedsrÉ   rk   r(  r)  rl   rm   c                 óT  • UcE  UcB  Uc  [        S5      e[        XR                  R                  U R                  R                  5      nUb  UOU R                  R
                  nUb  UOU R                  R                  nUb  UOU R                  R                  nUb  UOU R                  R                  nUc  U R                  UUUU
UUUS9nORU(       aK  [        U[        5      (       d6  [        US   [        U5      S:”  a  US   OS[        U5      S:”  a  US   OSS9nU R                  UUUS   UUUU	UUUUUUS9nU(       d  UU-   $ [        UR                  UR                   UR"                  UR$                  UR&                  UR                  UR"                  UR$                  S	9$ )
az  
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    Mvp uses the `eos_token_id` as the starting token for `decoder_input_ids` generation. If `past_key_values`
    is used, optionally only the last `decoder_input_ids` have to be input (see `past_key_values`).

    For translation and summarization training, `decoder_input_ids` should be provided. If no
    `decoder_input_ids` is provided, the model will create this tensor by shifting the `input_ids` to the right
    for denoising pre-training following the paper.
decoder_attention_mask (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.

    If you want to change padding behavior, you should read [`modeling_mvp._prepare_decoder_attention_mask`]
    and modify to your needs. See diagram 1 in [the paper](https://huggingface.co/papers/1910.13461) for more
    information on the default strategy.
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules in the decoder. Mask values selected in `[0,
    1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
Nz°If no `decoder_input_ids` or `decoder_inputs_embeds` are passed, `input_ids` cannot be `None`. Please pass either `input_ids` or `decoder_input_ids` or `decoder_inputs_embeds`.)r   rh   r&  r'  rk   r(  r)  r   r   r2   r3  )r   rh   rÅ   rÆ   r&  rO  rP  r'  rÉ   rk   r(  r)  rl   )r4  rP  Údecoder_hidden_statesÚdecoder_attentionsrT  Úencoder_last_hidden_staterÅ   Úencoder_attentions)r%   r)   rž   r   r   rk   r(  rÉ   r6  rl  ru   r   r7  rm  r   r4  rP  re   r5  rT  )r6   r   rh   r„  r…  r&  r†  rO  r‡  rP  r'  rˆ  rÉ   rk   r(  r)  rl   Údecoder_outputss                     r(   rD   ÚMvpModel.forwardå  sÚ  € ðf Ñ$Ð)>Ñ)FØÑ Ü ðUóð ô !3ØŸ;™;×3Ñ3°T·[±[×5WÑ5Wó!Ðð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ"Ø"Ÿl™lØ#Ø-Ø#Ø+Ø"3Ø%9Ø'ð +ð ‰Oö ¤¨O¼_×!MÑ!MÜ-Ø"1°!Ñ"4Ü47¸Ó4HÈ1Ó4L˜o¨aÒ0ÐRVÜ14°_Ó1EÈÓ1I˜?¨1Ò-ÈtñˆOð Ÿ,™,Ø'Ø1Ø"1°!Ñ"4Ø#1Ø'Ø!5Ø+Ø/ØØ/Ø!5Ø#Ø)ð 'ð 
ˆö  Ø" _Ñ4Ð4ä!Ø-×?Ñ?Ø+×;Ñ;Ø"1×"?Ñ"?Ø.×9Ñ9Ø,×=Ñ=Ø&5×&GÑ&GØ"1×"?Ñ"?Ø.×9Ñ9ñ	
ð 		
r*   )rm  rl  rk  r  ©NNNNNNNNNNNNNNNN)rH   rI   rJ   rK   Ú"_keys_to_ignore_on_load_unexpectedÚ_tied_weights_keysr   r5   rq  rv  ry  r~  r‚  r   r   r>   rF  rN   rd  r¼   r™   r   rš   r   rD   rO   rP   rQ   s   @r(   rf  rf  ½  sÝ  ø† à*=Ð)>Ð&Ø7Ð9VÐWÐð˜y÷ òò0ò
òò<ð ð 15Ø15Ø8<Ø=AØ,0Ø48Ø7;Ø=AØ=AØ59Ø=AØ$(Ø,0Ø/3Ø&*Ø15ñ#t
à˜E×,Ñ,Ñ-ðt
ð ! §¡Ñ.ðt
ð $ E×$4Ñ$4Ñ5ð	t
ð
 !)¨×)9Ñ)9Ñ :ðt
ð ˜EŸL™LÑ)ðt
ð $ E§L¡LÑ1ðt
ð ' u§|¡|Ñ4ðt
ð " $ u×'8Ñ'8Ñ"9Ñ:ðt
ð " $ u×'8Ñ'8Ñ"9Ñ:ðt
ð   × 1Ñ 1Ñ2ðt
ð  (¨×(9Ñ(9Ñ:ðt
ð ˜D‘>ðt
ð $ D™>ðt
ð ' t™nðt
ð  ˜d‘^ð!t
ð" ! §¡Ñ.ð#t
ð$ 
ˆuÐ(Ð(Ñ	)ô%t
ó öt
r*   rf  ze
    The MVP Model with a language modeling head. Can be used for various text generation tasks.
    )Úcustom_introc            (       óÀ  ^ • \ rS rSr/ SQrS\4U 4S jjrS rS r S#S\	S	\
\	   S
\S\R                  4U 4S jjjrS\	SS4S jrS r\                 S$S\
\R&                     S\
\R(                     S\
\R&                     S\
\R&                     S\
\R(                     S\
\R(                     S\
\R(                     S\
\\R,                        S\
\\R,                        S\
\R,                     S\
\R,                     S\
\R&                     S\
\   S\
\   S\
\   S\
\   S\
\R(                     S\\\4   4$S  jj5       rS\R(                  4S! jrS"rU =r$ )%ÚMvpForConditionalGenerationi]  )rh  ri  úlm_head.weightrž   c                 óv  >• [         TU ]  U5        [        U5      U l        U R	                  S[
        R                  " SU R                  R                  R                  45      5        [        R                  " UR                  U R                  R                  R                  SS9U l        U R                  5         g )Nrg  r   Fr\   )r4   r5   rf  rò   Úregister_bufferr>   r   rk  r.   r   r_   r    Úlm_headr$  r­   s     €r(   r5   Ú$MvpForConditionalGeneration.__init__e  s€   ø€ Ü‰Ñ˜Ô Ü˜fÓ%ˆŒ
Ø×ÑÐ0´%·+²+¸qÀ$Ç*Á*×BSÑBS×BbÑBbÐ>cÓ2dÔeÜ—y’y §¡°·±×1BÑ1B×1QÑ1QÐX]Ñ^ˆŒð 	‰Õr*   c                 ó6   • U R                   R                  5       $ rÏ   )rò   ry  rp  s    r(   ry  Ú'MvpForConditionalGeneration.get_encodern  ó   € Øz‰z×%Ñ%Ó'Ð'r*   c                 ó6   • U R                   R                  5       $ rÏ   )rò   r~  rp  s    r(   r~  Ú'MvpForConditionalGeneration.get_decoderq  r  r*   NÚnew_num_tokensÚpad_to_multiple_ofÚmean_resizingrm   c                 óJ   >• [         TU ]  XU5      nU R                  U5        U$ rÏ   )r4   Úresize_token_embeddingsÚ_resize_final_logits_bias)r6   r   r¡  r¢  Únew_embeddingsr7   s        €r(   r¤  Ú3MvpForConditionalGeneration.resize_token_embeddingst  s+   ø€ ô ™Ñ8¸Ð]jÓkˆØ×&Ñ& ~Ô6ØÐr*   c                 ó,  • U R                   R                  S   nX::  a  U R                   S S 2S U24   nON[        R                  " SX-
  4U R                   R                  S9n[        R
                  " U R                   U/SS9nU R                  SU5        g )Nr!   r   r  ro   rg  )rg  r#   r>   r   r=   r€   r˜  )r6   r   Úold_num_tokensÚnew_biasÚ
extra_biass        r(   r¥  Ú5MvpForConditionalGeneration._resize_final_logits_bias{  sˆ   € Ø×/Ñ/×5Ñ5°bÑ9ˆØÓ+Ø×-Ñ-ªa°°.°Ð.@ÑA‰HäŸš a¨Ñ)HÐ%IÐRV×RhÑRh×RoÑRoÑpˆJÜ—y’y $×"8Ñ"8¸*Ð!EÈ1ÑMˆHØ×ÑÐ0°(Õ;r*   c                 ón   • U R                   R                  5         U R                  R                  S5        g rE  ©rò   r‚  r™  r  rp  s    r(   r‚  Ú2MvpForConditionalGeneration.set_lightweight_tuning„  ó$   € Ø
‰
×)Ñ)Ô+Ø‰×#Ñ# EÕ*r*   r   rh   r„  r…  r&  r†  rO  r‡  rP  r'  rˆ  ÚlabelsrÉ   rk   r(  r)  rl   c                 óæ  • Ub  UOU R                   R                  nUbX  U(       a  [        R                  S5        SnUc7  Uc4  [	        XÀR                   R
                  U R                   R                  5      nU R                  UUUUUUUUU	U
UUUUUUS9nU R                  US   5      U R                  -   nSnUbF  [        5       nU" UR                  SU R                   R                  5      UR                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                   UR"                  UR$                  UR&                  UR(                  S9	$ )	aE  
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    Mvp uses the `eos_token_id` as the starting token for `decoder_input_ids` generation. If `past_key_values`
    is used, optionally only the last `decoder_input_ids` have to be input (see `past_key_values`).

    For translation and summarization training, `decoder_input_ids` should be provided. If no
    `decoder_input_ids` is provided, the model will create this tensor by shifting the `input_ids` to the right
    for denoising pre-training following the paper.
decoder_attention_mask (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.

    If you want to change padding behavior, you should read [`modeling_mvp._prepare_decoder_attention_mask`]
    and modify to your needs. See diagram 1 in [the paper](https://huggingface.co/papers/1910.13461) for more
    information on the default strategy.
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules in the decoder. Mask values selected in `[0,
    1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example of summarization:

Fine-tuning a model
```python
>>> import torch
>>> from transformers import AutoTokenizer, MvpForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("RUCAIBox/mvp")
>>> model = MvpForConditionalGeneration.from_pretrained("RUCAIBox/mvp")

>>> inputs = tokenizer(
...     "Summarize: You may want to stick it to your boss and leave your job, but don't do it if these are your reasons.",
...     return_tensors="pt",
... )
>>> labels = tokenizer("Bad Reasons To Quit Your Job", return_tensors="pt")["input_ids"]

>>> loss = model(**inputs, labels=labels).loss
>>> loss.backward()
```

Inference after the model fine-tuned
```python
>>> with torch.no_grad():
...     generated_ids = model.generate(**inputs)

>>> generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
```
NzJThe `use_cache` argument is changed to `False` since `labels` is provided.F)rh   r„  r‡  r…  r&  r†  rO  rP  r'  rˆ  rÉ   rk   r(  r)  rl   r   r!   r   ©	ÚlossÚlogitsrP  rŠ  r‹  rT  rŒ  rÅ   r  )rž   r6  rU  Úwarningr)   r   r   rò   r™  rg  r   r}   r  r   rP  rŠ  r‹  rT  rŒ  rÅ   r  )r6   r   rh   r„  r…  r&  r†  rO  r‡  rP  r'  rˆ  r±  rÉ   rk   r(  r)  rl   rÍ   Ú	lm_logitsÚmasked_lm_lossÚloss_fctÚoutputs                          r(   rD   Ú#MvpForConditionalGeneration.forwardˆ  s‹  € ðd &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÞÜ—‘ÐkÔlØˆIØ Ñ(Ð-BÑ-JÜ$6ØŸK™K×4Ñ4°d·k±k×6XÑ6Xó%Ð!ð —*‘*ØØ)Ø/Ø+Ø#9ØØ/Ø!5Ø+Ø'Ø"7ØØ/Ø!5Ø#Ø)ð! ð 
ˆð$ —L‘L ¨¡Ó,¨t×/EÑ/EÑEˆ	àˆØÑÜ'Ó)ˆHÙ% i§n¡n°R¸¿¹×9OÑ9OÓ&PÐRX×R]ÑR]Ð^`ÓRaÓbˆNæØ\ G¨A¨B KÑ/ˆFØ3AÑ3M^Ð%¨Ñ.ÐYÐSYÐYäØØØ#×3Ñ3Ø")×"?Ñ"?Ø&×9Ñ9Ø$×5Ñ5Ø&-×&GÑ&GØ")×"?Ñ"?Ø&×9Ñ9ñ

ð 
	
r*   c                 ój   • [        XR                  R                  U R                  R                  5      $ rÏ   )r)   rž   r   r   )r6   r±  s     r(   Ú%prepare_decoder_input_ids_from_labelsÚAMvpForConditionalGeneration.prepare_decoder_input_ids_from_labels  s#   € Ü! &¯+©+×*BÑ*BÀDÇKÁK×DfÑDfÓgÐgr*   ©r™  rò   )NT)NNNNNNNNNNNNNNNNN)rH   rI   rJ   rK   r’  r   r5   ry  r~  rM   r   r™   r   rã   r¤  r¥  r‚  r   r>   rF  rN   rd  r¼   r   rš   r   rD   r½  rO   rP   rQ   s   @r(   r•  r•  ]  sD  ø† ò jÐð˜y÷ ò(ò(ð dhñØ!ðØ7?À±}ðØ\`ðà	‰÷ð ð<¸ð <Àô <ò+ð ð 15Ø15Ø8<Ø=AØ,0Ø48Ø7;Ø=AØ=AØ59Ø=AØ-1Ø$(Ø,0Ø/3Ø&*Ø15ñ%C
à˜E×,Ñ,Ñ-ðC
ð ! §¡Ñ.ðC
ð $ E×$4Ñ$4Ñ5ð	C
ð
 !)¨×)9Ñ)9Ñ :ðC
ð ˜EŸL™LÑ)ðC
ð $ E§L¡LÑ1ðC
ð ' u§|¡|Ñ4ðC
ð " $ u×'8Ñ'8Ñ"9Ñ:ðC
ð " $ u×'8Ñ'8Ñ"9Ñ:ðC
ð   × 1Ñ 1Ñ2ðC
ð  (¨×(9Ñ(9Ñ:ðC
ð ˜×)Ñ)Ñ*ðC
ð ˜D‘>ðC
ð $ D™>ðC
ð  ' t™nð!C
ð" ˜d‘^ð#C
ð$ ! §¡Ñ.ð%C
ð& 
ˆuoÐ%Ñ	&ô'C
ó ðC
ðJh¸E¿L¹L÷ hò hr*   r•  z„
    Mvp model with a sequence classification/head on top (a linear layer on top of the pooled output) e.g. for GLUE
    tasks.
    c            $       óú  ^ • \ rS rSrSS/rS\4U 4S jjrS r\               SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\\
R                        S\	\
R                     S\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\	\   S\\\4   4 S jj5       rSrU =r$ )ÚMvpForSequenceClassificationi  rh  ri  rž   c                 óÞ   >• [         TU ]  " U40 UD6  [        U5      U l        [	        UR
                  UR
                  UR                  UR                  5      U l        U R                  5         g rÏ   )
r4   r5   rf  rò   rÑ   r    Ú
num_labelsÚclassifier_dropoutÚclassification_headr$  )r6   rž   Úkwargsr7   s      €r(   r5   Ú%MvpForSequenceClassification.__init__  sZ   ø€ Ü‰Ò˜Ñ* 6Ò*Ü˜fÓ%ˆŒ
Ü#8ØN‰NØN‰NØ×ÑØ×%Ñ%ó	$
ˆÔ ð 	‰Õr*   c                 ón   • U R                   R                  5         U R                  R                  S5        g rE  )rò   r‚  rÅ  r  rp  s    r(   r‚  Ú3MvpForSequenceClassification.set_lightweight_tuning(  s&   € Ø
‰
×)Ñ)Ô+Ø× Ñ ×/Ñ/°Õ6r*   r   rh   r„  r…  r&  r†  rO  r‡  r'  rˆ  r±  rÉ   rk   r(  r)  rm   c                 óÐ  • Ub  UOU R                   R                  nUb  SnUc%  U	b"  [        SU R                  R                   35      eU R                  UUUUUUUUU	U
UUUUS9nUS   nUR                  U R                   R                  5      R                  UR                  5      n[        [        R                  " UR                  S5      5      5      S:”  a  [        S5      eUUSS24   R                  UR!                  S5      SUR!                  S5      5      SS2SSS24   nU R#                  U5      nSnUGb¸  U R                   R$                  c¥  U R                   R&                  S:X  a  S	U R                   l        OyU R                   R&                  S:”  aN  UR(                  [        R*                  :X  d  UR(                  [        R,                  :X  a  S
U R                   l        OSU R                   l        U R                   R$                  S	:X  aT  [/        5       nU R                   R&                  S:X  a&  U" UR1                  5       UR1                  5       5      nO˜U" UU5      nOŽU R                   R$                  S
:X  aG  [3        5       nU" UR                  SU R                   R&                  5      UR                  S5      5      nO-U R                   R$                  S:X  a  [5        5       nU" UU5      nU(       d  U4USS -   nUb  U4U-   $ U$ [7        UUUR8                  UR:                  UR<                  UR>                  UR@                  URB                  URD                  S9	$ )aŸ
  
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    Mvp uses the `eos_token_id` as the starting token for `decoder_input_ids` generation. If `past_key_values`
    is used, optionally only the last `decoder_input_ids` have to be input (see `past_key_values`).

    For translation and summarization training, `decoder_input_ids` should be provided. If no
    `decoder_input_ids` is provided, the model will create this tensor by shifting the `input_ids` to the right
    for denoising pre-training following the paper.
decoder_attention_mask (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.

    If you want to change padding behavior, you should read [`modeling_mvp._prepare_decoder_attention_mask`]
    and modify to your needs. See diagram 1 in [the paper](https://huggingface.co/papers/1910.13461) for more
    information on the default strategy.
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules in the decoder. Mask values selected in `[0,
    1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

Example of single-label classification:

Fine-tuning a model on `num_labels` classes
```python
>>> import torch
>>> from transformers import AutoTokenizer, MvpForSequenceClassification

>>> num_labels = 2  # for example, this is a binary classification task
>>> tokenizer = AutoTokenizer.from_pretrained("RUCAIBox/mvp")
>>> model = MvpForSequenceClassification.from_pretrained("RUCAIBox/mvp", num_labels=num_labels)

>>> inputs = tokenizer("Classify: Hello, my dog is cute", return_tensors="pt")
>>> labels = torch.tensor(1)  # the real label for inputs

>>> loss = model(**inputs, labels=labels).loss
>>> loss.backward()
```

Inference after the model fine-tuned
```python
>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax()
```
NFz8Passing input embeddings is currently not supported for ©rh   r„  r…  r&  r†  rO  r‡  r'  rˆ  rÉ   rk   r(  r)  r   r   z7All examples must have the same number of <eos> tokens.r!   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationr³  )#rž   r6  ÚNotImplementedErrorr7   rH   rò   ÚeqÚeos_token_idr‚   r=   r7  r>   Úunique_consecutiveÚsumr%   r}   rt   rÅ  Úproblem_typerÃ  r<   r@   rM   r   Úsqueezer   r   r   rP  rŠ  r‹  rT  rŒ  rÅ   r  )r6   r   rh   r„  r…  r&  r†  rO  r‡  r'  rˆ  r±  rÉ   rk   r(  r)  rÍ   re   Úeos_maskÚsentence_representationrµ  r´  r¹  rº  s                           r(   rD   Ú$MvpForSequenceClassification.forward,  s  € ðZ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØÑØˆIàÑ Ñ!:Ü%ØJÈ4Ï>É>×KbÑKbÐJcÐdóð ð —*‘*ØØ)Ø/Ø#9ØØ/Ø!5Ø+Ø'Ø"7ØØ/Ø!5Ø#ð ð 
ˆð    ™
ˆà—<‘< §¡× 8Ñ 8Ó9×<Ñ<¸]×=QÑ=QÓRˆäŒu×'Ò'¨¯©°Q«Ó8Ó9¸AÓ=ÜÐVÓWÐWØ"/°º!°Ñ"<×"AÑ"AÀ-×BTÑBTÐUVÓBWÐY[Ð]j×]oÑ]oÐprÓ]sÓ"tÚˆr’1ˆHñ#
Ðð ×)Ñ)Ð*AÓBˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—;‘;×)Ñ)¨QÓ.Ø/;D—K‘KÕ,Ø—[‘[×+Ñ+¨aÓ/°V·\±\ÄUÇZÁZÓ5OÐSY×S_ÑS_Ôch×clÑclÓSlØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—;‘;×)Ñ)¨QÓ.Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# F¨FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±×0FÑ0FÓ GÈÏÉÐUWËÓY‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù ¨Ó/ÞØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä.ØØØ#×3Ñ3Ø")×"?Ñ"?Ø&×9Ñ9Ø$×5Ñ5Ø&-×&GÑ&GØ")×"?Ñ"?Ø&×9Ñ9ñ

ð 
	
r*   )rÅ  rò   )NNNNNNNNNNNNNNN)rH   rI   rJ   rK   r’  r   r5   r‚  r   r   r>   rF  rN   rd  r¼   r™   r   rš   r   rD   rO   rP   rQ   s   @r(   rÁ  rÁ    s¦  ø† ð 8Ð9VÐWÐð˜y÷ ò7ð ð 15Ø15Ø8<Ø=AØ,0Ø48Ø7;Ø=AØ59Ø=AØ-1Ø$(Ø,0Ø/3Ø&*ñ!T
à˜E×,Ñ,Ñ-ðT
ð ! §¡Ñ.ðT
ð $ E×$4Ñ$4Ñ5ð	T
ð
 !)¨×)9Ñ)9Ñ :ðT
ð ˜EŸL™LÑ)ðT
ð $ E§L¡LÑ1ðT
ð ' u§|¡|Ñ4ðT
ð " $ u×'8Ñ'8Ñ"9Ñ:ðT
ð   × 1Ñ 1Ñ2ðT
ð  (¨×(9Ñ(9Ñ:ðT
ð ˜×)Ñ)Ñ*ðT
ð ˜D‘>ðT
ð $ D™>ðT
ð ' t™nðT
ð  ˜d‘^ð!T
ð" 
ˆuÐ5Ð5Ñ	6ô#T
ó öT
r*   rÁ  c            &       ó  ^ • \ rS rSrSS/rU 4S jrS r\                SS\\	R                     S\\	R                     S\\	R                     S	\\	R                     S
\\	R                     S\\	R                     S\\	R                     S\\\	R                        S\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\   S\\   S\\   S\\   S\\\4   4"S jj5       rSrU =r$ )ÚMvpForQuestionAnsweringiÄ  rh  ri  c                 óô   >• [         TU ]  U5        SUl        UR                  U l        [        U5      U l        [
        R                  " UR                  UR                  5      U l        U R                  5         g r1   )
r4   r5   rÃ  rf  rò   r   r_   Úhidden_sizeÚ
qa_outputsr$  r­   s     €r(   r5   Ú MvpForQuestionAnswering.__init__È  s[   ø€ Ü‰Ñ˜Ô àˆÔØ ×+Ñ+ˆŒä˜fÓ%ˆŒ
ÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰Õr*   c                 ón   • U R                   R                  5         U R                  R                  S5        g rE  )rò   r‚  rÝ  r  rp  s    r(   r‚  Ú.MvpForQuestionAnswering.set_lightweight_tuningÔ  s$   € Ø
‰
×)Ñ)Ô+Ø‰×&Ñ& uÕ-r*   r   rh   r„  r…  r&  r†  rO  r‡  Ústart_positionsÚend_positionsr'  rˆ  rÉ   rk   r(  r)  rm   c                 ó®  • Ub  UOU R                   R                  nU	b  U
b  SnU R                  UUUUUUUUUUUUUUS9nUS   nU R                  U5      nUR	                  SSS9u  nnUR                  S5      R                  5       nUR                  S5      R                  5       nSnU	b·  U
b´  [        U	R                  5       5      S:”  a  U	R                  S5      n	[        U
R                  5       5      S:”  a  U
R                  S5      n
UR                  S5      nU	R                  SU5      n	U
R                  SU5      n
[        US9nU" UU	5      nU" UU
5      nUU-   S	-  nU(       d  UU4USS -   nUb  U4U-   $ U$ [        UUUUR                  UR                  UR                  UR                  UR                   UR"                  UR$                  S
9
$ )aà
  
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    Mvp uses the `eos_token_id` as the starting token for `decoder_input_ids` generation. If `past_key_values`
    is used, optionally only the last `decoder_input_ids` have to be input (see `past_key_values`).

    For translation and summarization training, `decoder_input_ids` should be provided. If no
    `decoder_input_ids` is provided, the model will create this tensor by shifting the `input_ids` to the right
    for denoising pre-training following the paper.
decoder_attention_mask (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.

    If you want to change padding behavior, you should read [`modeling_mvp._prepare_decoder_attention_mask`]
    and modify to your needs. See diagram 1 in [the paper](https://huggingface.co/papers/1910.13461) for more
    information on the default strategy.
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules in the decoder. Mask values selected in `[0,
    1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.

Example:

Fine-tuning a model for extrative question answering, and our model also supports generative question answering
using `BartForConditionalGeneration`
```python
>>> import torch
>>> from transformers import AutoTokenizer, MvpForQuestionAnswering

>>> tokenizer = AutoTokenizer.from_pretrained("RUCAIBox/mvp")
>>> model = MvpForQuestionAnswering.from_pretrained("RUCAIBox/mvp")

>>> inputs = tokenizer(
...     "Answer the following question: Who was Jim Henson? [SEP] Jim Henson was a nice puppet",
...     return_tensors="pt",
... )
>>> target_start_index = torch.tensor([18])
>>> target_end_index = torch.tensor([19])

>>> loss = model(**inputs, start_positions=target_start_index, end_positions=target_end_index).loss
>>> loss.backward()
```

Inference after the model fine-tuned
```python
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> predict_answer = tokenizer.decode(predict_answer_tokens)
```
NFrË  r   r   r!   ro   )Úignore_indexr2   )
r´  Ústart_logitsÚ
end_logitsrP  rŠ  r‹  rT  rŒ  rÅ   r  )rž   r6  rò   rÝ  rí   rÕ  Ú
contiguousr7  rt   r¸   r   r   rP  rŠ  r‹  rT  rŒ  rÅ   r  )r6   r   rh   r„  r…  r&  r†  rO  r‡  rá  râ  r'  rˆ  rÉ   rk   r(  r)  rÍ   Úsequence_outputrµ  rå  ræ  Ú
total_lossÚignored_indexr¹  Ú
start_lossÚend_lossrº  s                               r(   rD   ÚMvpForQuestionAnswering.forwardØ  s  € ðf &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØÑ&¨=Ñ+DØˆIà—*‘*ØØ)Ø/Ø#9ØØ/Ø!5Ø+Ø'Ø"7ØØ/Ø!5Ø#ð ð 
ˆð" " !™*ˆà—‘ Ó1ˆØ#)§<¡<°°r <Ð#:Ñ ˆjØ#×+Ñ+¨BÓ/×:Ñ:Ó<ˆØ×'Ñ'¨Ó+×6Ñ6Ó8ˆ
àˆ
ØÑ&¨=Ñ+Dä?×'Ñ'Ó)Ó*¨QÓ.Ø"1×"9Ñ"9¸"Ó"=Ü=×%Ñ%Ó'Ó(¨1Ó,Ø -× 5Ñ 5°bÓ 9à(×-Ñ-¨aÓ0ˆMØ-×3Ñ3°A°}ÓEˆOØ)×/Ñ/°°=ÓAˆMä'°]ÑCˆHÙ! ,°Ó@ˆJÙ 
¨MÓ:ˆHØ$ xÑ/°1Ñ4ˆJæàØðð ˜˜ñˆFð 0:Ñ/EZM FÑ*ÐQÈ6ÐQä2ØØ%Ø!Ø#×3Ñ3Ø")×"?Ñ"?Ø&×9Ñ9Ø$×5Ñ5Ø&-×&GÑ&GØ")×"?Ñ"?Ø&×9Ñ9ñ
ð 	
r*   )rò   rÃ  rÝ  r  )rH   rI   rJ   rK   r’  r5   r‚  r   r   r>   rN   rF  rd  r¼   r™   r   rš   r   rD   rO   rP   rQ   s   @r(   rÚ  rÚ  Ä  s´  ø† à7Ð9VÐWÐõ
ò.ð ð -1Ø15Ø8<Ø=AØ,0Ø48Ø7;Ø=AØ6:Ø48Ø59Ø=AØ$(Ø,0Ø/3Ø&*ñ#Q
à˜EŸL™LÑ)ðQ
ð ! §¡Ñ.ðQ
ð $ E×$4Ñ$4Ñ5ð	Q
ð
 !)¨×)9Ñ)9Ñ :ðQ
ð ˜EŸL™LÑ)ðQ
ð $ E§L¡LÑ1ðQ
ð ' u§|¡|Ñ4ðQ
ð " $ u×'8Ñ'8Ñ"9Ñ:ðQ
ð " %×"2Ñ"2Ñ3ðQ
ð   × 0Ñ 0Ñ1ðQ
ð   × 1Ñ 1Ñ2ðQ
ð  (¨×(9Ñ(9Ñ:ðQ
ð ˜D‘>ðQ
ð $ D™>ðQ
ð  ' t™nð!Q
ð" ˜d‘^ð#Q
ð$ 
ˆuÐ9Ð9Ñ	:ô%Q
ó öQ
r*   rÚ  c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚMvpDecoderWrapperin  z±
This wrapper class is a helper class to correctly load pretrained checkpoints when the causal language model is
used in combination with the [`EncoderDecoderModel`] framework.
c                 óD   >• [         TU ]  U5        [        U5      U l        g rÏ   )r4   r5   rH  rm  r­   s     €r(   r5   ÚMvpDecoderWrapper.__init__t  s   ø€ Ü‰Ñ˜Ô Ü! &Ó)ˆr*   c                 ó&   • U R                   " U0 UD6$ rÏ   r}  )r6   ÚargsrÆ  s      r(   rD   ÚMvpDecoderWrapper.forwardx  s   € Ø|Š|˜TÐ, VÑ,Ð,r*   r}  )	rH   rI   rJ   rK   rL   r5   rD   rO   rP   rQ   s   @r(   rï  rï  n  s   ø† ñõ
*÷-ð -r*   rï  c            "       óè  ^ • \ rS rSrS/rU 4S jrS rS rS rS r	S r
\              SS	\\R                     S
\\R                     S\\R                      S\\R                      S\\R                     S\\R                     S\\\R                         S\\R                      S\\R                     S\\   S\\   S\\   S\\   S\\R                     S\\\4   4S jj5       rSrU =r$ )ÚMvpForCausalLMi|  r–  c                 óÞ   >• SUl         SUl        [        TU ]  U5        [	        U5      U l        [        R                  " UR                  UR                  SS9U l
        U R                  5         g )NTFr\   )rX   Úis_encoder_decoderr4   r5   rï  rò   r   r_   rÜ  r  r™  r$  r­   s     €r(   r5   ÚMvpForCausalLM.__init__  sX   ø€ Ø ˆÔØ$)ˆÔ!Ü‰Ñ˜Ô Ü& vÓ.ˆŒ
ä—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒð 	‰Õr*   c                 óB   • U R                   R                  R                  $ rÏ   ©rò   rm  r  rp  s    r(   rq  Ú#MvpForCausalLM.get_input_embeddingsŠ  s   € Øz‰z×!Ñ!×.Ñ.Ð.r*   c                 ó8   • XR                   R                  l        g rÏ   rû  rt  s     r(   rv  Ú#MvpForCausalLM.set_input_embeddings  s   € Ø*/
‰
×ÑÕ'r*   c                 ó$   • XR                   l        g rÏ   ©rò   rm  )r6   rm  s     r(   Úset_decoderÚMvpForCausalLM.set_decoder  s   € Ø$
‰
Õr*   c                 ó.   • U R                   R                  $ rÏ   r   rp  s    r(   r~  ÚMvpForCausalLM.get_decoder“  s   € Øz‰z×!Ñ!Ð!r*   c                 ón   • U R                   R                  5         U R                  R                  S5        g rE  r®  rp  s    r(   r‚  Ú%MvpForCausalLM.set_lightweight_tuning–  r°  r*   r   rh   rÅ   rÆ   r&  rO  rP  r'  r±  rÉ   rk   r(  r)  rl   rm   c                 óL  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R                  R                  UUUUUUUUU
UUUS9nU R                  US   5      nSnU	bF  [        5       nU" UR                  SU R                   R                  5      U	R                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  S9$ )a9  
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>>> from transformers import AutoTokenizer, MvpForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("RUCAIBox/mvp")
>>> model = MvpForCausalLM.from_pretrained("RUCAIBox/mvp", add_cross_attention=False)

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> logits = outputs.logits
>>> list(logits.shape)
[1, 8, 50267]
```N)r   rh   rÅ   rÆ   r&  rO  rP  r'  rÉ   rk   r(  r)  r   r!   r   )r´  rµ  rP  re   r5  rT  )rž   rk   r(  r6  rò   rm  r™  r   r}   r  r   rP  re   r5  rT  )r6   r   rh   rÅ   rÆ   r&  rO  rP  r'  r±  rÉ   rk   r(  r)  rl   rÍ   rµ  r´  r¹  rº  s                       r(   rD   ÚMvpForCausalLM.forwardš  sF  € ðZ 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*‘*×$Ñ$ØØ)Ø"7Ø#9ØØ!5Ø+Ø'ØØ/Ø!5Ø#ð %ð 
ˆð —‘˜g a™jÓ)ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯K©K×,BÑ,BÓCÀVÇ[Á[ÐQSÃ_ÓUˆDæØY ¨¨ Ñ,ˆFØ'+Ñ'7D7˜VÑ#ÐC¸VÐCä0ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ñ
ð 	
r*   r¿  )NNNNNNNNNNNNNN)rH   rI   rJ   rK   r’  r5   rq  rv  r  r~  r‚  r   r   r>   rF  rN   r¼   rd  r™   r   rš   r   rD   rO   rP   rQ   s   @r(   rö  rö  |  s•  ø† Ø*Ð+Ðõ	ò/ò0ò%ò"ò+ð ð 15Ø15Ø=AØ>BØ,0Ø7;Ø=AØ59Ø-1Ø$(Ø,0Ø/3Ø&*Ø15ñT
à˜E×,Ñ,Ñ-ðT
ð ! §¡Ñ.ðT
ð  (¨×(9Ñ(9Ñ:ð	T
ð
 !)¨×):Ñ):Ñ ;ðT
ð ˜EŸL™LÑ)ðT
ð ' u§|¡|Ñ4ðT
ð " $ u×'8Ñ'8Ñ"9Ñ:ðT
ð   × 1Ñ 1Ñ2ðT
ð ˜×)Ñ)Ñ*ðT
ð ˜D‘>ðT
ð $ D™>ðT
ð ' t™nðT
ð ˜d‘^ðT
ð ! §¡Ñ.ðT
ð  
ˆuÐ7Ð7Ñ	8ô!T
ó öT
r*   rö  )rö  r•  rÚ  rÁ  rf  rñ   )?rL   r  Útypingr   r   r>   Útorch.utils.checkpointr   Útorch.nnr   r   r   Úactivationsr
   Úcache_utilsr   r   Ú
generationr   Úmodeling_attn_mask_utilsr   r   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   r   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_mvpr   Ú
get_loggerrH   rU  rN   rM   r)   rã   r,   ÚModulerS   rœ   r¾   rÑ   rß   rñ   r  rH  rf  r•  rÁ  rÚ  rï  rö  Ú__all__r
  r*   r(   Ú<module>r     sÚ  ðñ ã ß "ã Û Ý ß AÑ Aå !ß 5Ý )÷õ :÷÷ ñ õ .ß ,Ý (ð 
×	Ò	˜HÓ	%€ð %§,¡,ð ¸cð Ð[^ô ô"; B§L¡Lô ;ô2\22—9‘9ô \2ô~@+Ð0ô @+ôFrÐ0ô rôl˜BŸI™Iô ô0—	‘	ô ð2 ô˜ó ó ðô6q
Ð#ô q
ôhD
Ð#ô D
ðN ô\
Ð!ó \
ó ð\
ñ~ ðñô
mhÐ"4°oó mhóð
mhñ` ðñôi
Ð#5ó i
óði
ðX ôe
Ð0ó e
ó ðe
ôR-Ð*ô -ôs
Ð'¨ô s
òlr*   