ó
    <±hÍy ã                   ó¶  • S r SSKrSSKrSSKrSSKJr  SSKJrJr  SSK	r	SSK
r	SSK	JrJr  SSKJr  SSKJr  SS	KJrJr  SS
KJr  SSKJr  SSKJr  SSKJr  SSKJrJrJr  SSK J!r!  \RD                  " \#5      r$S@S jr%S r&S@S jr'S r(\\" SS9 " S S\5      5       5       r)\\" SS9 " S S\5      5       5       r*\\" SS9 " S S\5      5       5       r+\\" SS9 " S S \5      5       5       r,\ " S! S"\5      5       r- " S# S$\R\                  5      r/ " S% S&\R`                  5      r1 " S' S(\R`                  5      r2 " S) S*\R`                  5      r3 " S+ S,\5      r4 " S- S.\5      r5\" S/S9 " S0 S1\-5      5       r6\" S2S9 " S3 S4\-5      5       r7\ " S5 S6\-5      5       r8\" S7S9 " S8 S9\-\5      5       r9\" S:S9 " S; S<\-\5      5       r: " S= S>\-5      r;/ S?Qr<g)AzRPyTorch ProphetNet model, ported from ProphetNet repo(fairsequery_states version).é    N)Ú	dataclass)ÚOptionalÚUnion)ÚTensorÚnn)Ú	LayerNormé   )ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)ÚGradientCheckpointingLayer)ÚBaseModelOutput)ÚPreTrainedModel)ÚModelOutputÚauto_docstringÚloggingé   )ÚProphetNetConfigc                 óÀ   • U(       a,  [         R                  R                  U R                  5       US9$ [         R                  R                  X[        R
                  S9$ )N©Údim©r   Údtype)r   Ú
functionalÚsoftmaxÚfloatÚtorchÚfloat32)Úhidden_stater   Ú
onnx_traces      Új/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/prophetnet/modeling_prophetnet.pyr   r   )   sF   € ÞÜ}‰}×$Ñ$ \×%7Ñ%7Ó%9¸sÐ$ÐCÐCä}‰}×$Ñ$ \Ä%Ç-Á-Ð$ÐPÐPó    c                 óh  • [         R                  " XU 4X#S9[         R                  " U5      R                  -  nUR	                  5       R                  5       n[        U5       H,  nXV   R                  SSS9  XF   R                  U* S-   5        M.     SUSS2SS2S4'   [         R                  " XE/SS9$ )	z8
This function computes the bias for the predict stream
)Údevicer   r   F)Úwrapr   Né   r   )
r   ÚonesÚfinfoÚminÚdetachÚcloneÚrangeÚfill_diagonal_Útriu_Úcat)Úsequence_lengthÚngramr%   r   Ú
left_blockÚright_blockÚ
stream_idxs          r"   Úngram_attention_biasr6   0   s®   € ô
 	
Š
E¨OÐ<ÀVÑYÔ\a×\gÒ\gÐhmÓ\n×\rÑ\rÑrð ð ×#Ñ#Ó%×+Ñ+Ó-€Kä˜E–lˆ
ØÑ×.Ñ.¨q°uÐ.Ñ=ØÑ×$Ñ$ j [°1¡_Ö5ñ #ð €JŠq’!QˆwÑÜ9Š9jÐ.°AÑ6Ð6r#   c                 ó¾  • U* nSnU(       a[  U S-  n U[         R                  " U[         R                  " U5      5      R                  5       U -  -   n[         R                  " U5      nO+[         R
                  " U[         R                  " U5      5      nU S-  n[         R                  " XF5      nU[         R                  " UR                  5       U-  5      [        R                  " X-  5      -  X-
  -  -   n[         R                  " U[         R                  " U5      U S-
  -  5      R                  5       nU[         R                  " XtR                  5       U5      -   nU$ )zg
This function computes individual parts of the relative position buckets. For more detail, see paper.
r   r'   r   )r   ÚltÚ
zeros_likeÚintÚabsÚmaxÚlogr   Úmathr*   Ú	ones_likeÚwhere)	Únum_bucketsÚmax_distanceÚrelative_positionsÚis_bidirectionalÚinv_relative_positionsÚrel_positions_bucketÚ	max_exactÚis_smallÚval_if_larges	            r"   Úcompute_relative_bucketsrJ   A   s>  € ð 1Ð0ÐØÐæØ! QÑ&ˆà ÜhŠhÐ-¬u×/?Ò/?Ð@VÓ/WÓX×\Ñ\Ó^ÐalÑlñmð 	ô "'§¢Ð+AÓ!BÑä!&§¢Ð+AÄ5×CSÒCSÐTjÓCkÓ!lÐà˜qÑ €IÜxŠxÐ.Ó:€HØœuŸyšyÐ)?×)EÑ)EÓ)GÈ)Ñ)SÓTÔW[×W_ÒW_ØÑ óXñ  à	Ñ	 ñ "ñ "€Lô —9’9˜\¬5¯?ª?¸<Ó+HÈKÐZ[ÉOÑ+\Ó]×aÑaÓc€LØ/´%·+²+¸h×HbÑHbÓHdÐfrÓ2sÑsÐØÐr#   c                 óx  • UR                  S5      R                  SUR                  S5      S5      nX2R                  S5      -
  n[        R                  " US-
  U4SS9R                  S5      nUR                  SUR                  S5      S5      nXBR                  S5      -
  n[        XUSS9n[        XUSS9nXV4$ )ze
This function computes both main and predict relative position buckets. For more detail, see paper.
r   éÿÿÿÿr   F)rD   )Ú	unsqueezeÚrepeatÚsizer   r0   rJ   )rA   rB   Úposition_idsÚmain_stream_relative_positionsÚ$predicting_stream_relative_positionsÚmain_relative_position_bucketsÚ!predict_relative_position_bucketss          r"   Ú#compute_all_stream_relative_bucketsrU   \   sá   € ð
 &2×%;Ñ%;¸AÓ%>×%EÑ%EÀaÈ×IZÑIZÐ[]ÓI^Ð`aÓ%bÐ"Ø%C×F\ÑF\Ð]_ÓF`Ñ%`Ð"ô ,1¯9ª9°lÀQÑ6FÈÐ5UÐ[]Ñ+^×+hÑ+hÐijÓ+kÐ(Ø+O×+VÑ+VÐWXÐZf×ZkÑZkÐlnÓZoÐqrÓ+sÐ(Ø+O×RhÑRhÐikÓRlÑ+lÐ(ô &>ØÐ#AÐTYñ&Ð"ô )AØÐ#GÐZ_ñ)Ð%ð *ÐLÐLr#   zF
    Base class for sequence-to-sequence language models outputs.
    )Úcustom_introc                   ó:  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S	'   Sr\\\R                        \	S
'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   \S 5       rSrg)ÚProphetNetSeq2SeqLMOutputés   a¢  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
    Language modeling loss.
logits (`torch.FloatTensor` of shape `(batch_size, decoder_sequence_length, config.vocab_size)`):
    Prediction scores of the main stream language modeling head (scores for each vocabulary token before
    SoftMax).
logits_ngram (`torch.FloatTensor` of shape `(batch_size, ngram * decoder_sequence_length, config.vocab_size)`):
    Prediction scores of the predict stream language modeling head (scores for each vocabulary token before
    SoftMax).
past_key_values (`list[torch.FloatTensor]`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    List of `torch.FloatTensor` of length `config.n_layers`, with each tensor of shape `(2, batch_size,
    num_attn_heads, decoder_sequence_length, embed_size_per_head)`).

    Contains pre-computed hidden-states (key and values in the attention blocks) of the decoder that can be
    used (see `past_key_values` input) to speed up sequential decoding.
decoder_ngram_hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
    shape `(batch_size, ngram * decoder_sequence_length, hidden_size)`.

    Hidden-states of the predict stream of the decoder at the output of each layer plus the initial embedding
    outputs.
decoder_ngram_attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
    Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_attn_heads,
    decoder_sequence_length, decoder_sequence_length)`.

    Attentions weights of the predict stream of the decoder, after the attention softmax, used to compute the
    weighted average in the self-attention heads.
encoder_last_hidden_state (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
    Sequence of hidden-states at the output of the last layer of the encoder of the model.
NÚlossÚlogitsÚlogits_ngramÚpast_key_valuesÚdecoder_hidden_statesÚdecoder_ngram_hidden_statesÚdecoder_attentionsÚdecoder_ngram_attentionsÚcross_attentionsÚencoder_last_hidden_stateÚencoder_hidden_statesÚencoder_attentionsc                 óP   • [         R                  " S[        5        U R                  $ ©Nzi`decoder_cross_attentions` is deprecated and will be removed soon. Please use `cross_attentions` instead.©ÚwarningsÚwarnÚFutureWarningrb   ©Úselfs    r"   Údecoder_cross_attentionsÚ2ProphetNetSeq2SeqLMOutput.decoder_cross_attentions¦   ó$   € äŠðäô	
ð
 ×$Ñ$Ð$r#   © )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__rZ   r   r   ÚFloatTensorÚ__annotations__r[   r\   r]   Útupler^   r_   r`   ra   rb   rc   rd   re   Úpropertyrn   Ú__static_attributes__rq   r#   r"   rX   rX   s   sG  ‡ ñð> )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø*.€FˆHU×&Ñ&Ñ'Ó.Ø04€L(˜5×,Ñ,Ñ-Ó4Ø:>€OX˜e E×$5Ñ$5Ñ6Ñ7Ó>Ø@DÐ˜8 E¨%×*;Ñ*;Ñ$<Ñ=ÓDØFJÐ ¨%°×0AÑ0AÑ*BÑ!CÓJØ=AÐ˜  u×'8Ñ'8Ñ!9Ñ:ÓAØCGÐ˜h u¨U×->Ñ->Ñ'?Ñ@ÓGØ;?Ðh˜u U×%6Ñ%6Ñ7Ñ8Ó?Ø=AÐ˜x¨×(9Ñ(9Ñ:ÓAØ@DÐ˜8 E¨%×*;Ñ*;Ñ$<Ñ=ÓDØ=AÐ˜  u×'8Ñ'8Ñ!9Ñ:ÓAàñ%ó ó%r#   rX   z‹
    Base class for model encoder's outputs that also contains : pre-computed hidden states that can speed up sequential
    decoding.
    c                   ó  • \ rS rSr% Sr\R                  \S'   Sr\	\R                     \S'   Sr
\	\\R                        \S'   Sr\	\\R                        \S'   Sr\	\\R                        \S'   Sr\	\\R                        \S	'   Sr\	\\R                        \S
'   Sr\	\\R                        \S'   Sr\	\R                     \S'   Sr\	\\R                        \S'   Sr\	\\R                        \S'   \S 5       rSrg)ÚProphetNetSeq2SeqModelOutputé°   a”  
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, decoder_sequence_length, hidden_size)`):
    Sequence of main stream hidden-states at the output of the last layer of the decoder of the model.

    If `past_key_values` is used only the last hidden-state of the sequences of shape `(batch_size, 1,
    hidden_size)` is output.
last_hidden_state_ngram (`torch.FloatTensor` of shape `(batch_size,ngram * decoder_sequence_length, config.vocab_size)`, *optional*):
    Sequence of predict stream hidden-states at the output of the last layer of the decoder of the model.
past_key_values (`list[torch.FloatTensor]`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    List of `torch.FloatTensor` of length `config.n_layers`, with each tensor of shape `(2, batch_size,
    num_attn_heads, decoder_sequence_length, embed_size_per_head)`).

    Contains pre-computed hidden-states (key and values in the attention blocks) of the decoder that can be
    used (see `past_key_values` input) to speed up sequential decoding.
decoder_ngram_hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
    shape `(batch_size, ngram * decoder_sequence_length, hidden_size)`.

    Hidden-states of the predict stream of the decoder at the output of each layer plus the initial embedding
    outputs.
decoder_ngram_attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
    Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_attn_heads,
    decoder_sequence_length, decoder_sequence_length)`.

    Attentions weights of the predict stream of the decoder, after the attention softmax, used to compute the
    weighted average in the
encoder_last_hidden_state (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
    Sequence of hidden-states at the output of the last layer of the encoder of the model.
Úlast_hidden_stateNÚlast_hidden_state_ngramr]   r^   r_   r`   ra   rb   rc   rd   re   c                 óP   • [         R                  " S[        5        U R                  $ rg   rh   rl   s    r"   rn   Ú5ProphetNetSeq2SeqModelOutput.decoder_cross_attentionsâ   rp   r#   rq   )rr   rs   rt   ru   rv   r   rw   rx   r€   r   r]   ry   r^   r_   r`   ra   rb   rc   rd   re   rz   rn   r{   rq   r#   r"   r}   r}   °   s*  ‡ ñð< ×(Ñ(Ó(Ø;?Ð˜X e×&7Ñ&7Ñ8Ó?Ø:>€OX˜e E×$5Ñ$5Ñ6Ñ7Ó>Ø@DÐ˜8 E¨%×*;Ñ*;Ñ$<Ñ=ÓDØFJÐ ¨%°×0AÑ0AÑ*BÑ!CÓJØ=AÐ˜  u×'8Ñ'8Ñ!9Ñ:ÓAØCGÐ˜h u¨U×->Ñ->Ñ'?Ñ@ÓGØ;?Ðh˜u U×%6Ñ%6Ñ7Ñ8Ó?Ø=AÐ˜x¨×(9Ñ(9Ñ:ÓAØ@DÐ˜8 E¨%×*;Ñ*;Ñ$<Ñ=ÓDØ=AÐ˜  u×'8Ñ'8Ñ!9Ñ:ÓAàñ%ó ó%r#   r}   zs
    Base class for model's outputs that may also contain a past key/values (to speed up sequential decoding).
    c                   ót  • \ rS rSr% Sr\R                  \S'   Sr\	\R                     \S'   Sr
\	\\R                        \S'   Sr\	\\R                        \S'   Sr\	\\R                        \S'   Sr\	\\R                        \S	'   Sr\	\\R                        \S
'   Sr\	\\R                        \S'   Srg)ÚProphetNetDecoderModelOutputéì   a£  
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, decoder_sequence_length, hidden_size)`):
    Sequence of main stream hidden-states at the output of the last layer of the decoder of the model.

    If `past_key_values` is used only the last hidden-state of the sequences of shape `(batch_size, 1,
    hidden_size)` is output.
last_hidden_state_ngram (`torch.FloatTensor` of shape `(batch_size, ngram * decoder_sequence_length, config.vocab_size)`):
    Sequence of predict stream hidden-states at the output of the last layer of the decoder of the model.
past_key_values (`list[torch.FloatTensor]`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    List of `torch.FloatTensor` of length `config.n_layers`, with each tensor of shape `(2, batch_size,
    num_attn_heads, decoder_sequence_length, embed_size_per_head)`).

    Contains pre-computed hidden-states (key and values in the attention blocks) of the decoder that can be
    used (see `past_key_values` input) to speed up sequential decoding.
hidden_states_ngram (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
    shape `(batch_size, ngram * decoder_sequence_length, hidden_size)`.

    Hidden-states of the predict stream of the decoder at the output of each layer plus the initial embedding
    outputs.
ngram_attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
    Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_attn_heads,
    decoder_sequence_length, decoder_sequence_length)`.

    Attentions weights of the predict stream of the decoder, after the attention softmax, used to compute the
    weighted average in the
r   Nr€   r]   Úhidden_statesÚhidden_states_ngramÚ
attentionsÚngram_attentionsrb   rq   )rr   rs   rt   ru   rv   r   rw   rx   r€   r   r]   ry   r†   r‡   rˆ   r‰   rb   r{   rq   r#   r"   r„   r„   ì   sÊ   ‡ ñð8 ×(Ñ(Ó(Ø;?Ð˜X e×&7Ñ&7Ñ8Ó?Ø:>€OX˜e E×$5Ñ$5Ñ6Ñ7Ó>Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø>BÐ˜ %¨×(9Ñ(9Ñ":Ñ;ÓBØ59€J˜˜u×0Ñ0Ñ1Ñ2Ó9Ø;?Ðh˜u U×%6Ñ%6Ñ7Ñ8Ó?Ø;?Ðh˜u U×%6Ñ%6Ñ7Ñ8Ö?r#   r„   c                   ó¦  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S	'   Sr\\\R                        \	S
'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Srg)ÚProphetNetDecoderLMOutputi  av	  
ngram_hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
    shape `(batch_size, ngram * decoder_sequence_length, hidden_size)`.

    Hidden-states of the predict stream of the decoder at the output of each layer plus the initial embedding
    outputs.
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
    Language modeling loss.
logits (`torch.FloatTensor` of shape `(batch_size, decoder_sequence_length, config.vocab_size)`):
    Prediction scores of the main stream language modeling head (scores for each vocabulary token before
    SoftMax).
logits_ngram (`torch.FloatTensor` of shape `(batch_size, ngram * decoder_sequence_length, config.vocab_size)`):
    Prediction scores of the predict stream language modeling head (scores for each vocabulary token before
    SoftMax).
past_key_values (`list[torch.FloatTensor]`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    List of `torch.FloatTensor` of length `config.n_layers`, with each tensor of shape `(2, batch_size,
    num_attn_heads, decoder_sequence_length, embed_size_per_head)`).

    Contains pre-computed hidden-states (key and values in the attention blocks) of the decoder that can be
    used (see `past_key_values` input) to speed up sequential decoding.
hidden_states_ngram (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
    shape `(batch_size, ngram * decoder_sequence_length, hidden_size)`.

    Hidden-states of the predict stream of the decoder at the output of each layer plus the initial embedding
    outputs.
ngram_attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
    Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_attn_heads,
    decoder_sequence_length, decoder_sequence_length)`.

    Attentions weights of the predict stream of the decoder, after the attention softmax, used to compute the
    weighted average in the
NrZ   r[   r\   r]   r†   r‡   rˆ   r‰   rb   rq   )rr   rs   rt   ru   rv   rZ   r   r   rw   rx   r[   r\   r]   ry   r†   r‡   rˆ   r‰   rb   r{   rq   r#   r"   r‹   r‹     sè   ‡ ñ!ðF )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø*.€FˆHU×&Ñ&Ñ'Ó.Ø04€L(˜5×,Ñ,Ñ-Ó4Ø:>€OX˜e E×$5Ñ$5Ñ6Ñ7Ó>Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø>BÐ˜ %¨×(9Ñ(9Ñ":Ñ;ÓBØ59€J˜˜u×0Ñ0Ñ1Ñ2Ó9Ø;?Ðh˜u U×%6Ñ%6Ñ7Ñ8Ó?Ø;?Ðh˜u U×%6Ñ%6Ñ7Ñ8Ö?r#   r‹   c                   ó4   • \ rS rSr% \\S'   SrSrS rS r	Sr
g)	ÚProphetNetPreTrainedModeliN  ÚconfigÚ
prophetnetTc                 óF  • [        U[        R                  5      (       ak  UR                  R                  R                  SU R                  R                  S9  UR                  b%  UR                  R                  R                  5         g g [        U[        R                  5      (       ax  UR                  R                  R                  SU R                  R                  S9  UR                  b2  UR                  R                  UR                     R                  5         g g g )Nç        )ÚmeanÚstd)Ú
isinstancer   ÚLinearÚweightÚdataÚnormal_rŽ   Úinit_stdÚbiasÚzero_Ú	EmbeddingÚpadding_idx)rm   Úmodules     r"   Ú_init_weightsÚ'ProphetNetPreTrainedModel._init_weightsT  sÎ   € ÜfœbŸi™i×(Ñ(ØM‰M×Ñ×&Ñ&¨C°T·[±[×5IÑ5IÐ&ÑJØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5IÑ5IÐ&ÑJØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ð .r#   c                 ó  • U R                   R                  nU R                   R                  nUc   S5       eUR                  UR                  5      nUSS S24   R                  5       USSS 24'   X$S'   Uc   S5       eUR                  US:H  U5        [        R                  " US:¬  5      R                  5       (       d   S	5       eU$ )
Nz™self.model.config.decoder_start_token_id has to be defined. In ProphetNet it is usually set to the pad_token_id. See ProphetNet docs for more information.rL   r   ).r   z1self.model.config.pad_token_id has to be defined.éœÿÿÿr   z8Verify that `shifted_input_ids` has only positive values)
rŽ   Údecoder_start_token_idÚpad_token_idÚ	new_zerosÚshaper,   Úmasked_fill_r   ÚallÚitem)rm   Ú	input_idsr£   r¤   Úshifted_input_idss        r"   Ú_shift_rightÚ&ProphetNetPreTrainedModel._shift_right^  sØ   € Ø!%§¡×!CÑ!CÐØ—{‘{×/Ñ/ˆà%Ñ1ð 	
ðFó	
Ð1ð &×/Ñ/°	·±Ó@ÐØ%.¨s°C°R°C¨xÑ%8×%>Ñ%>Ó%@Ð˜#˜q™r˜'Ñ"Ø$:˜&Ñ!àÑ'Ð\Ð)\Ó\Ð'à×&Ñ&Ð'8¸DÑ'@À,ÔOäyŠyÐ*¨aÑ/Ó0×5Ñ5×7Ñ7ÐsÐ9sÓsÐ7à Ð r#   rq   N)rr   rs   rt   ru   r   rx   Úbase_model_prefixÚsupports_gradient_checkpointingrŸ   r¬   r{   rq   r#   r"   r   r   N  s   ‡ àÓØ$ÐØ&*Ð#ò?õ!r#   r   c                   óT   ^ • \ rS rSrSrS\SS4U 4S jjrS
U 4S jjrU 4S jrS	r	U =r
$ )ÚProphetNetPositionalEmbeddingsiu  zý
This module learns positional embeddings up to a fixed maximum size. Padding ids are ignored by either offsetting
based on padding_idx or by setting padding_idx to None and ensuring that the appropriate position ids are passed to
the forward function.
rŽ   ÚreturnNc                 ó†   >• UR                   U l        [        TU ]  UR                   UR                  UR
                  5        g ©N)Úmax_position_embeddingsÚ
max_lengthÚsuperÚ__init__Úhidden_sizer¤   ©rm   rŽ   Ú	__class__s     €r"   r¸   Ú'ProphetNetPositionalEmbeddings.__init__|  s3   ø€ Ø ×8Ñ8ˆŒÜ‰Ñ˜×7Ñ7¸×9KÑ9KÈV×M`ÑM`Õar#   c                 óD  >• Ub  U R                   b   S5       eUcõ  Ubj  UR                  5       S:w  aV  UR                  5       nUS   U-   n[        R                  " S[        R                  US9[        U R                   U-   5      -  nOˆUc$  [        R                  " U[        R                  US9n[        R                  " USS9R                  U5      U-  R	                  5       U R                   -   nUR                  SU R                  S-
  5      n[        TU ]-  U5      U4$ )NzCIf position_ids is pre-computed then padding_idx should not be set.r   r   )r   r   ©r   r%   r   )r   Úget_seq_lengthr   r(   Úlongr:   ÚcumsumÚtype_asÚclampr¶   r·   Úforward)	rm   Úinputs_shaper%   Úattention_maskr]   rP   Úprev_num_input_idsÚnum_input_idsr»   s	           €r"   rÄ   Ú&ProphetNetPositionalEmbeddings.forward€  s  ø€ ØÑ$¨$×*:Ñ*:Ñ*Bð 	
ØQó	
ÐCð ÑØÑ*¨×/MÑ/MÓ/OÐSTÓ/Tð &5×%CÑ%CÓ%EÐ"Ø ,¨Q¡Ð2DÑ DÜ$Ÿzšz¨&¼¿
¹
È6ÑRÜ˜×(Ñ(¨=Ñ8Ó9ñ ‘ð "Ñ)Ü%*§Z¢Z°ÄEÇJÁJÐW]Ñ%^Nô —L’L °QÑ7×?Ñ?ÀÓOÐR`Ñ`ß‘$“&˜4×+Ñ+ñ ,ð
  ,×1Ñ1°!°T·_±_ÀqÑ5HÓIä‰w‰˜|Ó,¨lÐ:Ð:r#   c                 ó"   >• [         TU ]  U5      $ r´   )r·   rÄ   )rm   rP   r»   s     €r"   Ú_forwardÚ'ProphetNetPositionalEmbeddings._forwardœ  s   ø€ Ü‰w‰˜|Ó,Ð,r#   )r¶   )NNN)rr   rs   rt   ru   rv   r   r¸   rÄ   rË   r{   Ú__classcell__©r»   s   @r"   r±   r±   u  s.   ø† ñðbÐ/ð b°D÷ b÷;÷8-ó -r#   r±   c                   óÄ   ^ • \ rS rSrSrSS\S\S\\   4U 4S jjjr      SS\\	   S\\	   S	\\	   S
\\
   S\\   S\\R                     S\\	\\	   4   4S jjrSrU =r$ )ÚProphetNetAttentioni   z=Multi-headed attention from 'Attention Is All You Need' paperrŽ   Únum_attn_headsÚ	layer_idxc                 ó´  >• [         TU ]  5         UR                  nUR                  U l        UR                  U l        X l        XB-  U l        X0l        U R                  U-  U:X  d   S5       e[        R                  " XD5      U l
        [        R                  " XD5      U l        [        R                  " XD5      U l        [        R                  " XD5      U l        g )Nzw`config.hidden_size` must be divisible by `config.num_encoder_attention_heads` and `config.num_decoder_attention_heads`)r·   r¸   r¹   Úattention_dropoutÚdropoutrÑ   Úhead_dimrÒ   r   r•   Úkey_projÚ
value_projÚ
query_projÚout_proj)rm   rŽ   rÑ   rÒ   r¹   r»   s        €r"   r¸   ÚProphetNetAttention.__init__£  s¬   ø€ Ü‰ÑÔØ×(Ñ(ˆà!'×!9Ñ!9ˆÔØ—~‘~ˆŒØ,ÔØ#Ñ5ˆŒØ"Œà}‰}˜~Ñ-°Ó<ð 	
ð4ó	
Ð<ô
 Ÿ	š	 +Ó;ˆŒÜŸ)š) KÓ=ˆŒÜŸ)š) KÓ=ˆŒäŸ	š	 +Ó;ˆr#   Úkey_value_statesrÆ   Úlayer_head_maskÚpast_key_valueÚoutput_attentionsÚcache_positionr²   c                 óÞ	  • UR                  5       u  p‰n
US Ln[        UR                  5       5      UU	U
/:X  d   SX‰U
4 SUR                  5        35       eU R                  U5      U R                  S-  -  nUb]  [	        U[
        5      (       aF  UR                  R                  U R                  5      nU(       a  UR                  nOUR                  nOUnU(       a  UOUnU(       aQ  UbN  W(       aG  WR                  U R                     R                  nUR                  U R                     R                  nOãU R                  U5      nU R                  U5      nUR!                  USU R"                  U R                  5      R%                  SS5      nUR!                  USU R"                  U R                  5      R%                  SS5      nUbN  U(       d  UOS nWR'                  UUU R                  SU05      u  nnU(       a  SUR                  U R                  '   UR!                  X‰U R"                  U R                  5      R%                  SS5      nUR                  S5      n[(        R*                  " S	UUR%                  SS
5      5      nX€R"                  U	U4nUR                  5       U:w  a  [-        SU SUR                  5        35      eUb  UR/                  5       S:X  a  S nX€R"                  SU4nUb3  UR                  5       U:w  a  [-        SU SUR                  5        35      eUb  UU-   nU(       a  UnOS n[0        R2                  R5                  USS9nUbŽ  UR                  5       U R"                  4:X  d&   SU R"                  4 SUR                  5        35       eUR!                  SSSS5      UR!                  X€R"                  U	U5      -  nUR!                  SSSS5      U-  n[0        R2                  R7                  UU R8                  U R:                  S9n[(        R*                  " S	UU5      nX€R"                  XR                  4nUR                  5       U:w  a  [-        SU SUR                  5        35      eUR%                  SS5      R=                  X‰U
5      nU R?                  U5      n[0        R2                  R7                  UU R6                  U R:                  S9nUU4$ )Nz Size of hidden states should be ú	, but is ç      à?rL   r   r'   rà   Tzbsij,bsjk->bsikr	   z#Attention weights should have size r   z Attention mask should have size r   ú/Head mask for a single layer should be of size ©ÚpÚtrainingz `attn_output` should have shape ú, but is of shape ) rO   ÚlistrÙ   rÖ   r”   r   Ú
is_updatedÚgetrÒ   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesr×   rØ   ÚviewrÑ   Ú	transposeÚupdater   ÚeinsumÚ
ValueErrorr   r   r   r   rÕ   rÔ   rç   ÚreshaperÚ   )rm   r†   rÜ   rÆ   rÝ   rÞ   rß   rà   Ú
batch_sizeÚtgt_lenr¹   Úis_cross_attentionÚquery_statesrê   Úcurr_past_key_valueÚcurrent_statesÚ
key_statesÚvalue_statesÚsrc_lenÚattn_weightsÚexpected_shapeÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                           r"   rÄ   ÚProphetNetAttention.forward¸  sâ  € ð ,9×+=Ñ+=Ó+?Ñ(ˆ
˜[ð .°TÐ9ÐÜM×&Ñ&Ó(Ó)ØØØð.
ó 
ð 	pð .¨jÀ;Ð.NÐ-OÈyÐYf×YkÑYkÓYmÐXnÐoó		pð 
ð —‘ }Ó5¸¿¹ÈÑ9KÑLˆàÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ-?Ñ)À]ˆÞ .Ñ"<Æà,×3Ñ3°D·N±NÑC×HÑHˆJØ.×5Ñ5°d·n±nÑE×LÑL‰LàŸ™ ~Ó6ˆJØŸ?™?¨>Ó:ˆLØ#Ÿ™¨°R¸×9LÑ9LÈdÏmÉmÓ\×fÑfÐghÐjkÓlˆJØ'×,Ñ,¨Z¸¸T×=PÑ=PÐRV×R_ÑR_Ó`×jÑjÐklÐnoÓpˆLàÑ)æ7I¡ÈtØ+>×+EÑ+EØ ¨d¯n©nÐ?OÐQ_Ð>`ó,Ñ(
˜Lö &Ø@DN×-Ñ-¨d¯n©nÑ=à#×(Ñ(¨¸d×>QÑ>QÐSW×S`ÑS`Óa×kÑkÐlmÐopÓqˆØ—/‘/ !Ó$ˆä—|’|Ð$5°|ÀZ×EYÑEYÐZ[Ð]^ÓE_Ó`ˆØ$×&9Ñ&9¸7ÀGÐLˆØ×ÑÓ .Ó0ÜÐBÀ>ÐBRÐR[Ð\h×\mÑ\mÓ\oÐ[pÐqÓrÐrð Ñ%¨.×*<Ñ*<Ó*>À!Ó*CØ!ˆNà$×&9Ñ&9¸1¸gÐFˆØÑ%¨.×*=Ñ*=Ó*?À>Ó*QÜÐ?ÀÐ?OÈyÐYg×YlÑYlÓYnÐXoÐpÓqÐqØÑ%Ø'¨.Ñ8ˆLÞØ$0Ñ!à$(Ð!ä—}‘}×,Ñ,¨\¸rÐ,ÐBˆàÑ&Ø"×'Ñ'Ó)¨d×.AÑ.AÐ-CÓCð ØAÀ4×CVÑCVÐBXÐAYð ZØ#×(Ñ(Ó*Ð+ð-óÐCð +×/Ñ/°°2°q¸!Ó<¸|×?PÑ?PØ×/Ñ/°¸'ó@ñ ˆLð
 %4×$8Ñ$8¸¸BÀÀ1Ó$EÐH]Ñ$]Ð!ä—]‘]×*Ñ*ØØ×$Ñ$Ø—]‘]ð +ð 
ˆ
ô
 —l’lÐ#4°jÀ,ÓOˆØ$×&9Ñ&9¸7ÇMÁMÐRˆØ×ÑÓ Ó/ÜÐ?ÀÐ?OÐOaÐbm×brÑbrÓbtÐauÐvÓwÐwà!×+Ñ+¨A¨qÓ1×9Ñ9¸*È{Ó[ˆØ—m‘m KÓ0ˆä—m‘m×+Ñ+¨K¸4¿<¹<ÐRV×R_ÑR_Ð+Ð`ˆØÐ1Ð1Ð1r#   )	rÔ   rÕ   rÖ   r×   rÒ   rÑ   rÚ   rÙ   rØ   r´   )NNNNFN)rr   rs   rt   ru   rv   r   r:   r   r¸   r   r   Úboolr   ry   rÄ   r{   rÍ   rÎ   s   @r"   rÐ   rÐ      sÉ   ø† ÙGñ<Ð/ð <Àð <ÐQYÐZ]ÑQ^÷ <ð <ð0 .2Ø+/Ø,0Ø*.Ø,1Ø15ñj2ð # 6Ñ*ðj2ð ! Ñ(ð	j2ð
 " &Ñ)ðj2ð ! ™ðj2ð $ D™>ðj2ð ! §¡Ñ.ðj2ð 
ˆvx Ñ'Ð'Ñ	(÷j2ó j2r#   rÐ   c                   ó>   ^ • \ rS rSrSrS\S\4U 4S jjrS rSr	U =r
$ )ÚProphetNetFeedForwardi%  ze
This is the residual two feed-forward layer block based on the original Transformer implementation.
rŽ   Úffn_dimc                 ó,  >• [         TU ]  5         [        UR                     U l        [
        R                  " UR                  U5      U l        [
        R                  " X!R                  5      U l	        UR                  U l
        UR                  U l        g r´   )r·   r¸   r
   Úactivation_functionÚactivation_fnr   r•   r¹   ÚintermediateÚoutputÚactivation_dropoutrÕ   )rm   rŽ   r	  r»   s      €r"   r¸   ÚProphetNetFeedForward.__init__*  si   ø€ Ü‰ÑÔÜ# F×$>Ñ$>Ñ?ˆÔÜŸIšI f×&8Ñ&8¸'ÓBˆÔÜ—i’i ×);Ñ);Ó<ˆŒØ"(×";Ñ";ˆÔØ—~‘~ˆr#   c                 ó4  • U R                  U5      nU R                  U5      n[        R                  R	                  XR
                  U R                  S9nU R                  U5      n[        R                  R	                  XR                  U R                  S9nU$ )Nrå   )r  r  r   r   rÕ   r  rç   r  )rm   r†   s     r"   rÄ   ÚProphetNetFeedForward.forward2  s€   € Ø×)Ñ)¨-Ó8ˆØ×*Ñ*¨=Ó9ˆäŸ™×-Ñ-¨m×?VÑ?VÐae×anÑanÐ-ÐoˆØŸ™ MÓ2ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØÐr#   )r  r  rÕ   r  r  )rr   rs   rt   ru   rv   r   r:   r¸   rÄ   r{   rÍ   rÎ   s   @r"   r  r  %  s&   ø† ñð&Ð/ð &¸#÷ &÷ð r#   r  c                   óz   ^ • \ rS rSrSS\4U 4S jjjrS rS r        SS\\	\
      4S jjrS rS	 rS
rU =r$ )ÚProphetNetNgramSelfAttentioni<  rŽ   c                 ó¼  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U l        UR
                  U l        UR                  U l        UR                  U l        UR                  U R                  -  U l	        UR                  U l
        X l        U R                  U R                  -  UR                  :X  d   S5       e[        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  5      U l        [        R                  " UR                  U R                  U R                  -  5      U l        SU l        g )Nz6config.hidden_size must be divisible by num_attn_headsF)r·   r¸   r¹   rA   Úrelative_max_distanceÚnum_decoder_attention_headsrÑ   rÕ   rÔ   rÖ   r2   rÒ   r   r•   r×   rØ   rÙ   rÚ   Úrelative_pos_embeddingsr!   ©rm   rŽ   rÒ   r»   s      €r"   r¸   Ú%ProphetNetNgramSelfAttention.__init__=  sf  ø€ Ü‰ÑÔØ!×-Ñ-ˆÔà!×-Ñ-ˆÔØ%+×%AÑ%AˆÔ"Ø$×@Ñ@ˆÔØ—~‘~ˆŒØ!'×!9Ñ!9ˆÔØ×*Ñ*¨d×.AÑ.AÑAˆŒØ—\‘\ˆŒ
Ø"Œà}‰}˜t×2Ñ2Ñ2°f×6HÑ6HÓHð 	
ØDó	
ÐHô Ÿ	š	 &×"4Ñ"4°f×6HÑ6HÓIˆŒÜŸ)š) F×$6Ñ$6¸×8JÑ8JÓKˆŒÜŸ)š) F×$6Ñ$6¸×8JÑ8JÓKˆŒô Ÿ	š	 &×"4Ñ"4°f×6HÑ6HÓIˆŒô (*§y¢y°×1CÑ1CÀT×EUÑEUÐX\×XkÑXkÑEkÓ'lˆÔ$ð  ˆr#   c                 óŒ   • UR                  X2U R                  U R                  5      R                  SS5      R	                  5       $ ©Nr   r'   )rñ   rÑ   rÖ   rò   Ú
contiguous)rm   ÚtensorÚseq_lenr÷   s       r"   Ú_shapeÚ#ProphetNetNgramSelfAttention._shape[  s7   € Ø{‰{˜:°×0CÑ0CÀTÇ]Á]ÓS×]Ñ]Ð^_ÐabÓc×nÑnÓpÐpr#   c                 ó   • SU l         g )NT)r!   rl   s    r"   Úprepare_for_onnx_export_Ú5ProphetNetNgramSelfAttention.prepare_for_onnx_export_^  s	   € Øˆr#   rÞ   c
           	      óÊ  • UR                  5       u  p«n[        UR                  5       5      X«U/:X  d   SX«U4 SUR                   35       eU R                  U5      nU R	                  U5      nU R                  U5      nXÐR                  S-  -  nU R                  XÛU
5      nU R                  USU
5      nU R                  USU
5      nX R                  SU R                  4nUR                  " U6 nUR                  " U6 nUR                  " U6 nUR                  SU R                  -   SS9nUR                  SU R                  -   SS9nUR                  SU R                  -   SS9nUR                  SU R                  -   SS9nUS   USS  nnUS   USS  nnUS   USS  nnUS   USS  nnUbG  [        U[        5      (       a  UR                  nOUnUR                  UUU R                   S	U	05      u  nnUSU R                  -   -  n["        R$                  " S
UUR'                  SS5      5      nU R)                  UUX†5      n UU -   nUb  UU-   n[+        USU R,                  S9R/                  U5      n!Ubw  UR                  5       U R                  4:X  d&   SU R                  4 SUR                  5        35       eUR1                  SSSS5      U!R1                  X R                  SU5      -  n![2        R4                  R7                  U!U R8                  U R:                  S9n!["        R$                  " S
U!U5      n"U"R'                  SS5      R                  U
SUU5      n"U R=                  U"5      n"["        R>                  " US5      R1                  X R                  U R                  UU R                  5      n#["        R>                  " U V$s/ sH  n$["        R@                  " UU$/S5      PM     sn$S5      n%["        R>                  " USS9n&["        R@                  " U V's/ sH+  n'["        R@                  " UU'/S5      RC                  S5      PM-     sn'S5      n(["        R$                  " SU#U%45      n)U RE                  U&U)X‡5      n*U)U*-   n)Ub5  URG                  SSSSS5      nURI                  U)RJ                  5      nU)U-   n)[+        U)SU R,                  S9R/                  U)5      n+Ub]  UR                  5       U R                  4:X  d&   SU R                  4 SUR                  5        35       eUR1                  SSSSS5      U+-  n+[2        R4                  R7                  U+U R8                  U R:                  S9n+["        R$                  " SU+U(R'                  SS5      45      n,U,R'                  SS5      n,U,R                  X R                  UU5      n,U R=                  U,5      n,["        R@                  " U"U,/S5      R1                  U
SU5      n-U!R1                  X R                  US5      n![2        R4                  R7                  U-U R6                  U R:                  S9n-U-U!U+4$ s  sn$f s  sn'f )Nz#`hidden_states` should be of shape rè   rã   rL   r   r   r'   r   rà   zbntc,bncs->bntsr	   )r   r!   rä   râ   rå   zbnhtc,bnhsc->bnhtsé   zbnhts,bnhsc->bnhtc)&rO   ré   r¦   rÙ   r×   rØ   rÖ   r   rÑ   rö   Úchunkr2   r”   r   rí   ró   rÒ   r   rô   rò   Ú get_main_relative_pos_embeddingsr   r!   rÂ   rñ   r   r   rÕ   rÔ   rç   rÚ   Ústackr0   rM   Ú#get_predict_relative_pos_embeddingsÚpermuteÚtor   ).rm   r†   rÞ   rÆ   rÝ   Úextended_predict_attention_maskrS   rT   rP   rà   r÷   Úngram_sequence_lengthr¹   rú   rý   rþ   Ú
proj_shapeÚhidden_states_listÚquery_states_listÚkey_states_listÚvalue_states_listÚmain_hidden_statesÚhidden_states_predict_listÚmain_query_statesÚpredict_query_states_listÚmain_key_statesÚpredict_key_states_listÚmain_value_statesÚpredict_value_states_listrû   r1   Úmain_attn_weightsÚmain_relative_pos_embeddingsÚmain_attn_probsÚmain_attn_outputÚpredict_query_statesÚkeyÚpredict_key_statesÚpredict_hidden_statesÚv_pÚpredict_value_statesÚpredict_attn_weightsÚpredict_relative_pos_embeddingsÚpredict_attn_probsÚpredict_attn_outputr  s.                                                 r"   rÄ   Ú$ProphetNetNgramSelfAttention.forwarda  s
  € ð :G×9KÑ9KÓ9MÑ6ˆ
¨;ÜM×&Ñ&Ó(Ó)¨jÐQ\Ð-]Ó]ð 	
Ø1°*ÐU`Ð2`Ð1að bØ×#Ñ#Ð$ð&ó	
Ð]ð —‘ }Ó5ˆØ—]‘] =Ó1ˆ
Ø—‘ }Ó5ˆð $§}¡}°cÑ'9Ñ:ˆð —{‘{ <È
ÓSˆØ—[‘[ ¨R°Ó<ˆ
Ø—{‘{ <°°ZÓ@ˆØ ×"5Ñ"5°r¸4¿=¹=ÐIˆ
à#×+Ò+¨ZÐ8ˆØ×'Ò'¨Ð4ˆ
Ø#×+Ò+¨ZÐ8ˆð +×0Ñ0°°T·Z±Z±ÀQÐ0ÐGÐØ(×.Ñ.¨q°4·:±:©~À1Ð.ÐEÐØ$×*Ñ*¨1¨t¯z©z©>¸qÐ*ÐAˆØ(×.Ñ.¨q°4·:±:©~À1Ð.ÐEÐà9KÈAÑ9NÐPbÐcdÐceÐPfÐ6ÐØ7HÈÑ7KÐM^Ð_`Ð_aÐMbÐ4ÐØ3BÀ1Ñ3EÀÐWXÐWYÐGZÐ0ˆØ7HÈÑ7KÐM^Ð_`Ð_aÐMbÐ4Ðð Ñ%Ü˜.Ô*=×>Ñ>Ø&4×&IÑ&IÑ#à&4Ð#Ø1D×1KÑ1KØÐ!2°D·N±NÐEUÐWeÐDfó2Ñ.ˆOÐ.ð
 0°A¸¿
¹
±NÑCˆô "ŸLšLÐ):Ð<MÈ×OhÑOhÐijÐlmÓOnÓoÐð (,×'LÑ'LØÐ 1°<ó(
Ð$ð .Ð0LÑLÐàÑ%Ø 1°NÑ BÐä!ØØØ—‘ñ
÷ ‰'Ð#Ó
$ð	 	ð Ñ&Ø"×'Ñ'Ó)¨d×.AÑ.AÐ-CÓCð ØAÀ4×CVÑCVÐBXÐAYð ZØ#×(Ñ(Ó*Ð+ð-óÐCð .×2Ñ2°1°b¸!¸QÓ?À/×BVÑBVØ×/Ñ/°°_óCñ ˆOô Ÿ-™-×/Ñ/°À4×CYÑCYÐdh×dqÑdqÐ/Ðrˆô
 !Ÿ<š<Ð(9¸?ÐL]Ó^Ðà+×5Ñ5°a¸Ó;×CÑCÀJÐPQÐSbÐdoÓpÐØŸ=™=Ð)9Ó:Ðô  %Ÿ{š{Ð+DÀaÓH×MÑMØŸ
™
 D×$7Ñ$7¸È$Ï-É-ó 
Ðô
 #Ÿ[š[ÑZqÓ)rÑZqÐSV¬%¯)ª)°_ÀcÐ4JÈAÖ*NÑZqÑ)rÐtuÓvÐô !&§¢Ð,FÈAÑ NÐô  %ŸyšyÙLeÓfÑLeÀSŒUYŠYÐ)¨3Ð/°Ó3×=Ñ=¸aÖ@ÑLeÑfÐhió 
Ðô  %Ÿ|š|Ð,@ÐCWÐYkÐBlÓmÐð +/×*RÑ*RØ!Ð#7¸ó+
Ð'ð
  4Ð6UÑUÐà*Ñ6à.M×.UÑ.UÐVWÐYZÐ\]Ð_`ÐbcÓ.dÐ+Ø.M×.PÑ.PÐQe×QkÑQkÓ.lÐ+Ø#7Ð:YÑ#YÐ ä$Ø ØØ—‘ñ
÷ ‰'Ð&Ó
'ð	 	ð Ñ&Ø"×'Ñ'Ó)¨d×.AÑ.AÐ-CÓCð ØAÀ4×CVÑCVÐBXÐAYð ZØ#×(Ñ(Ó*Ð+ð-óÐCð "1×!5Ñ!5°a¸¸BÀÀ1Ó!EÐHZÑ!ZÐäŸ]™]×2Ñ2Ø $×"8Ñ"8À4Ç=Á=ð 3ð 
Ðô $ŸlšlØ Ð#5Ð7K×7UÑ7UÐVWÐYZÓ7[Ð"\ó
Ðð 2×;Ñ;¸A¸qÓAÐØ1×9Ñ9¸*ÇjÁjÐRaÐcnÓoÐØ"Ÿm™mÐ,?Ó@Ðô —i’iÐ!1Ð3FÐ GÈÓK×PÑPÐQ[Ð]_ÐalÓmˆà)×.Ñ.¨z×;NÑ;NÐP_ÐacÓdˆä—m‘m×+Ñ+¨K¸4¿<¹<ÐRV×R_ÑR_Ð+Ð`ˆà˜OÐ-?Ð?Ð?ùòI *sùò gs   Ï"YÐ1Y c                 óü  • UR                   u  pVpxUR                  XVXx5      nUcÄ  UR                   S S u  pY[        R                  " SUR                   S   S-   5      R	                  S5      R	                  S5      R                  XYS5      R                  UR                  5      n
X£R	                  S5      R                  XYS5      -
  n
[        U R                  U R                  U
S5      nU R                  U5      nUR                  UR                   S S U R                  U R                  4-   5      nUR                  SSSS5      nUR                  UR                   S S S-   5      nUR                  SU R                  S5      nUR                  SUR                   S   5      nUR                  5       nUR                  SUR!                  S5      5      n[        R"                  " USUS9nUR                  XVUS5      nU$ )	Nr'   r   rL   r   Fr	   )rL   ©r   Úindex)r¦   rñ   r   ÚarangerM   rN   r,  r%   rJ   rA   r  r  rÑ   r+  rö   rÀ   rO   Úgather)rm   r†   r   rP   rS   r÷   rÑ   rø   rÿ   r1   rC   Úrel_pos_embeddingsr=  s                r"   r(  Ú=ProphetNetNgramSelfAttention.get_main_relative_pos_embeddings  s  € ð 8D×7IÑ7IÑ4ˆ
 GØ#×(Ñ(¨ÀWÓVˆØ)Ñ1Ø*7×*=Ñ*=¸b¸qÐ*AÑ'ˆJä—’˜Q × 2Ñ 2°2Ñ 6¸Ñ :Ó;ß‘˜1“ß‘˜1“ß‘˜
°QÓ7ß‘L×'Ñ'Ó(ð ð "4×6LÑ6LÈQÓ6O×6VÑ6VÐWaÐtuÓ6vÑ!vÐÜ-EØ× Ñ  $×"<Ñ"<Ð>PÐRWó.Ð*ð
 "×9Ñ9¸-ÓHÐØ/×4Ñ4Ø×$Ñ$ R aÐ(¨D×,<Ñ,<¸d×>QÑ>QÐ+RÑRó
Ðð 0×7Ñ7¸¸1¸aÀÓCÐà/×7Ñ7¸×8JÑ8JÈ2ÈAÐ8NÐQVÑ8VÓWÐà)G×)NÑ)NÈqÐRV×ReÑReÐghÓ)iÐ&à)G×)LÑ)LØÐ.×4Ñ4°RÑ8ó*
Ð&ð *H×)LÑ)LÓ)NÐ&à/×7Ñ7¸Ð<N×<SÑ<SÐTVÓ<WÓXÐä',§|¢|Ð4FÈAÐUsÑ'tÐ$Ø'C×'HÑ'HÈÐelÐnpÓ'qÐ$Ø+Ð+r#   c                 ó   • UR                   SS u  pVUcÈ  UR                   S   nUS   S   US-
  :X  d   S5       e[        R                  " SU5      R                  S5      R                  S5      R	                  XVS5      R                  UR                  5      nXƒR                  S5      R	                  XVS5      -
  n[        U R                  U R                  US5      nUR                  SS5      nU R                  U5      n	U	R                  UR                   S S U R                  U R                  4-   5      n	U	R                  SSSSS5      n	U	R                  SU R                  5      n	UR                  S5      nUR	                  U R                   SU R                  S5      nUR                  SUR#                  S5      5      R%                  5       n[        R&                  " U	SUS	9n
U
R                  XPR                   U R                  US5      n
U
$ )
Nr   r'   rL   r   zb`position_ids` are incorrect. They should be of the format 1 2 3 4 5 ... (key_sequence_length - 1)Fr&  r	   rL  )r¦   r   rN  rM   rN   r,  r%   rJ   rA   r  rò   r  rñ   rÑ   r+  rö   r2   rO   rÀ   rO  )rm   r†   r   rP   rT   r÷   r1   Úkey_sequence_lengthrC   rP  rG  s              r"   r*  Ú@ProphetNetNgramSelfAttention.get_predict_relative_pos_embeddingsB  s   € ð '4×&9Ñ&9¸!¸AÐ&>Ñ#ˆ
à,Ñ4Ø".×"4Ñ"4°RÑ"8ÐØ ‘? 1Ñ%Ð)<¸qÑ)@Ó@ð ØtóÐ@ô —’˜QÐ 3Ó4ß‘˜1“ß‘˜1“ß‘˜
°QÓ7ß‘L×'Ñ'Ó(ð ð "4×6LÑ6LÈQÓ6O×6VÑ6VÐWaÐtuÓ6vÑ!vÐÜ0HØ× Ñ  $×"<Ñ"<Ð>PÐRWó1Ð-ð
 &×/Ñ/°°1Ó5ˆØ!×9Ñ9¸-ÓHÐð 0×4Ñ4Ø×Ñ  Ð$¨×(8Ñ(8¸$×:MÑ:MÐ'NÑNó
Ðð 0×7Ñ7¸¸1¸aÀÀAÓFÐà/×7Ñ7¸¸D×<LÑ<LÓMÐà,M×,WÑ,WÐXYÓ,ZÐ)Ø,M×,TÑ,TØJ‰J˜˜4×.Ñ.°ó-
Ð)ð -N×,RÑ,RØÐ1×6Ñ6°rÓ:ó-
ç
‰$‹&ð 	*ô +0¯,ª,Ø AÐ-Nñ+
Ð'ð
 +J×*NÑ*NØŸ
™
 D×$7Ñ$7¸È"ó+
Ð'ð /Ð.r#   )rÔ   rÕ   rÖ   r¹   r×   rÒ   r2   rÑ   rA   r!   rÚ   rÙ   r  r  rØ   r´   )NNNNNNNN)rr   rs   rt   ru   r   r¸   r   r#  r   ry   r   rÄ   r(  r*  r{   rÍ   rÎ   s   @r"   r  r  <  sg   ø† ñ Ð/÷  ð  ò<qòð 37ØØØ(,Ø'+Ø*.ØØñr@ð !  v¡Ñ/õr@òh+,÷Z9/ð 9/r#   r  c                   óH   ^ • \ rS rSrSrS\4U 4S jjr SS\4S jjrSr	U =r
$ )	ÚProphetNetEncoderLayeri~  z
Encoder block for Prophetnet
rŽ   c                 óò   >• [         TU ]  5         [        XR                  5      U l        [        UR                  5      U l        [        XR                  5      U l
        [        UR                  5      U l        g r´   )r·   r¸   rÐ   Únum_encoder_attention_headsÚ	self_attnr   r¹   Úself_attn_layer_normr  Úencoder_ffn_dimÚfeed_forwardÚfeed_forward_layer_normrº   s     €r"   r¸   ÚProphetNetEncoderLayer.__init__ƒ  s[   ø€ Ü‰ÑÔä,¨V×5WÑ5WÓXˆŒÜ$-¨f×.@Ñ.@Ó$AˆÔ!ô 2°&×:PÑ:PÓQˆÔÜ'0°×1CÑ1CÓ'DˆÕ$r#   rß   c                 óº   • U R                  UUUUS9u  pVU R                  XQ-   5      nU R                  U5      nU R                  Xq-   5      nU4nU(       a  X†4-  nU$ )N)r†   rÆ   rÝ   rß   )rY  rZ  r\  r]  )	rm   r†   rÆ   rÝ   rß   Úattention_outputr   Úfeed_forward_outputÚoutputss	            r"   rÄ   ÚProphetNetEncoderLayer.forward  s~   € ð *.¯©Ø'Ø)Ø+Ø/ð	 *8ð *
Ñ&Ðð ×1Ñ1Ð2BÑ2RÓSˆð #×/Ñ/°Ó>ÐØ×4Ñ4Ð5HÑ5XÓYˆà Ð"ˆæØÑ&ˆGàˆr#   )r\  r]  rY  rZ  ©F)rr   rs   rt   ru   rv   r   r¸   r  rÄ   r{   rÍ   rÎ   s   @r"   rV  rV  ~  s0   ø† ñðEÐ/÷ Eð #(ñð
  ÷ó r#   rV  c                   ó’   ^ • \ rS rSrSrS
S\4U 4S jjjr             SS\\   S\\   S\\	R                     4S jjrS	rU =r$ )ÚProphetNetDecoderLayeri©  z
Decoder block for Prophetnet
rŽ   c                 ób  >• [         TU ]  5         [        XS9U l        [	        UR
                  5      U l        UR                  (       a3  [        XR                  US9U l
        [	        UR
                  5      U l        [        XR                  5      U l        [	        UR
                  5      U l        g )N©rÒ   )r·   r¸   r  rY  r   r¹   rZ  Úadd_cross_attentionrÐ   r  Ú
cross_attnÚcross_attn_layer_normr  Údecoder_ffn_dimr\  r]  r  s      €r"   r¸   ÚProphetNetDecoderLayer.__init__®  sˆ   ø€ Ü‰ÑÔä5°fÑRˆŒÜ$-¨f×.@Ñ.@Ó$AˆÔ!ð ×%×%Ü1°&×:\Ñ:\ÐhqÑrˆDŒOÜ)2°6×3EÑ3EÓ)FˆDÔ&ô 2°&×:PÑ:PÓQˆÔÜ'0°×1CÑ1CÓ'DˆÕ$r#   Ú	use_cacherß   rà   c                 ó.  • U R                  UUUUUUU	U
S9u  nnnU R                  X-   5      nS nUb+  U R                  UUUUUUS9u  nnU R                  UU-   5      nU R	                  U5      nU R                  UU-   5      nU4nU(       a  UUUU4-  nU$ )N)r†   rÞ   rÆ   rÝ   r-  rS   rT   rP   )r†   rÜ   rÆ   rÝ   rÞ   rß   )rY  rZ  rj  rk  r\  r]  )rm   r†   rÆ   rd   Úencoder_attn_maskrÝ   Úcross_attn_layer_head_maskr-  rS   rT   rP   rÞ   rn  rß   rà   Úngram_attention_outputÚself_attn_weightsÚself_attn_weights_ngramÚcross_attn_weightsr`  ra  rb  s                         r"   rÄ   ÚProphetNetDecoderLayer.forward½  sñ   € ð$ NRÏ^É^Ø'Ø)Ø)Ø+Ø,KØ+IØ.OØ%ð N\ð 	N
ÑJÐÐ 1Ð3Jð ×1Ñ1°-Ñ2XÓYˆà!ÐØ Ñ,à37·?±?Ø+Ø!6Ø0Ø :Ø-Ø"3ð 4Cð 4Ñ0ÐÐ0ð !×6Ñ6Ð7GÈ-Ñ7WÓXˆMð #×/Ñ/°Ó>ÐØ×4Ñ4Ð5HÈ=Ñ5XÓYˆà Ð"ˆæØÐ)Ð+BÐDVÐWÑWˆGàˆr#   )rj  rk  r\  r]  rY  rZ  r´   )NNNNNNNNNNTFN)rr   rs   rt   ru   rv   r   r¸   r   r  r   r   rÄ   r{   rÍ   rÎ   s   @r"   rf  rf  ©  s   ø† ññEÐ/÷ Eð Eð$ Ø"ØØØ#'Ø(,Ø'+Ø*.ØØØ$(Ø,1Ø15ñ4ð ˜D‘>ð4ð $ D™>ð4ð ! §¡Ñ.÷4ó 4r#   rf  z=
    The standalone encoder part of the ProphetNetModel.
    c                   ó"  ^ • \ rS rSrSS\S\R                  4U 4S jjjrS rS r	\
       SS\\R                     S\\R                     S	\\R                     S
\\R                     S\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚProphetNetEncoderiô  rŽ   Úword_embeddingsc                 óº  >• [         TU ]  U5        Ub  UO3[        R                  " UR                  UR
                  UR                  S9U l        [        U5      U l	        [        UR
                  5      U l        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l        U R%                  5         gs  snf )á  
word_embeddings (`torch.nn.Embeddings` of shape `(config.vocab_size, config.hidden_size)`, *optional*):
    The word embedding parameters. This can be used to initialize [`ProphetNetEncoder`] with pre-defined word
    embeddings instead of randomly initialized word embeddings.
N©r   F)r·   r¸   r   rœ   Ú
vocab_sizer¹   r¤   ry  r±   Úposition_embeddingsr   Úembeddings_layer_normÚ
ModuleListr-   Únum_encoder_layersrV  rî   Úgradient_checkpointingÚ	post_init)rm   rŽ   ry  Ú_r»   s       €r"   r¸   ÚProphetNetEncoder.__init__ú  s¸   ø€ ô 	‰Ñ˜Ô ð Ñ*ñ ä—’˜f×/Ñ/°×1CÑ1CÐQW×QdÑQdÑeð 	Ôô
 $BÀ&Ó#IˆÔ Ü%.¨v×/AÑ/AÓ%BˆÔ"ä—m’mÌUÐSY×SlÑSlÔMmÓ$nÑMmÈÔ%;¸FÖ%CÑMmÑ$nÓoˆŒà&+ˆÔ#à‰Õùò	 %os   Â Cc                 ó   • U R                   $ r´   ©ry  rl   s    r"   Úget_input_embeddingsÚ&ProphetNetEncoder.get_input_embeddings  ó   € Ø×#Ñ#Ð#r#   c                 ó   • Xl         g r´   r‡  ©rm   Úvalues     r"   Úset_input_embeddingsÚ&ProphetNetEncoder.set_input_embeddings  ó   € Ø$Õr#   rª   rÆ   Ú	head_maskÚinputs_embedsrß   Úoutput_hidden_statesÚreturn_dictr²   c                 ó   • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  Uc  [	        S5      eUb  Ub  [	        S5      eUb  Uc  U R                  U5      nUb}  SUSS2SSSS24   R                  SU R                   R                  SS5      -
  [        R                  " U R                  5      R                  -  nUR                  UR                  5      nOSnU R                  UR                  SS UR                  5      u  pšXI-   nU R!                  U5      n["        R$                  R'                  X°R                   R&                  U R(                  S9nU(       a  SOSnU(       a  SOSnUb\  UR+                  5       S	   [-        U R.                  5      :X  d2   S
[-        U R.                  5       SUR+                  5       S	    S35       e[1        U R.                  5       H8  u  pïU(       a  XË4-   nU" UUUb  X>   OSUS9nUS	   nU(       d  M/  UUS   4-   nM:     U(       a  XË4-   nU(       d  [3        S X¼U4 5       5      $ [5        X¼US9$ )a¹  
Example:

```python
>>> from transformers import AutoTokenizer, ProphetNetEncoder
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = ProphetNetEncoder.from_pretrained("patrickvonplaten/prophetnet-large-uncased-standalone")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
```Nz3Either input_ids or inputs_embeds has to be passed.z2Make sure to only pass input_ids or inputs_embeds.ç      ð?r   r'   rå   rq   r   z&The head_mask should be specified for ú layers, but it is for Ú.)rÆ   rÝ   rß   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr´   rq   ©Ú.0Úvs     r"   Ú	<genexpr>Ú,ProphetNetEncoder.forward.<locals>.<genexpr>h  s   é € ÐlÑ$Z˜qŸ™Ò$Zùó   ‚‹	)r   r†   rˆ   )rŽ   rß   r“  Úuse_return_dictrõ   ry  rN   rX  r   r)   r   r*   r,  r~  r¦   r%   r  r   r   rÕ   rç   rO   Úlenrî   Ú	enumeratery   r   )rm   rª   rÆ   r‘  r’  rß   r“  r”  Úextended_attention_maskr~  rP   r†   rd   Úall_attentionsÚidxÚencoder_layerÚlayer_outputss                    r"   rÄ   ÚProphetNetEncoder.forward  sœ  € ð4 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ Ñ!6ÜÐRÓSÐSØÑ" }Ñ'@ÜÐQÓRÐRØÑ" }Ñ'<Ø ×0Ñ0°Ó;ˆMð Ñ%àn¢Q¨¨d²AÐ%5Ñ6×=Ñ=¸aÀÇÁ×AhÑAhÐjkÐmnÓoÑoÜ—’˜DŸJ™JÓ'×+Ñ+ñ',Ð#ð '>×&@Ñ&@À×ATÑATÓ&UÑ#à&*Ð#à,0×,DÑ,DÀ]×EXÑEXÐY[ÐZ[ÐE\Ð^k×^rÑ^rÓ,sÑ)Ðà%Ñ;ˆØ×2Ñ2°=ÓAˆÜŸ™×-Ñ-¨m¿{¹{×?RÑ?RÐ]a×]jÑ]jÐ-Ðkˆæ&:¡ÀÐÞ0™°dˆð Ñ Ø—>‘>Ó# AÑ&¬3¨t¯{©{Ó+;Ó<ð Ø8¼¸T¿[¹[Ó9IÐ8JÐJaÐbk×bpÑbpÓbrÐstÑbuÐavÐvwÐxóÐ<ô #,¨D¯K©KÖ"8ÑˆCÞ#Ø(=Ð@PÑ(PÐ%á)ØØ6Ø3<Ñ3H ¢ÈdØ"3ñ	ˆMð *¨!Ñ,ˆMç Ð Ø!/°=ÀÑ3CÐ2EÑ!E’ñ #9ö   Ø$9Ð<LÑ$LÐ!æÜÑl ]È>Ñ$ZÓlÓlÐlÜØ+Ð]kñ
ð 	
r#   )r  r‚  rî   r~  ry  r´   )NNNNNNN)rr   rs   rt   ru   r   r   rœ   r¸   rˆ  rŽ  r   r   r   r   r  r   ry   r   rÄ   r{   rÍ   rÎ   s   @r"   rx  rx  ô  sç   ø† ñÐ/ð À"Ç,Á,÷ ð ò,$ò%ð ð -1Ø15Ø,0Ø04Ø,0Ø/3Ø&*ñT
à˜EŸL™LÑ)ðT
ð ! §¡Ñ.ðT
ð ˜EŸL™LÑ)ð	T
ð
   §¡Ñ-ðT
ð $ D™>ðT
ð ' t™nðT
ð ˜d‘^ðT
ð 
ˆuoÐ%Ñ	&ôT
ó öT
r#   rx  z=
    The standalone decoder part of the ProphetNetModel.
    c                    óò  ^ • \ rS rSrSS\S\\R                     4U 4S jjjrS r	S r
\             SS\\R                     S\\R                     S	\\R                     S
\\R                     S\\R                     S\\R                     S\\\\R                           S\\R                     S\\   S\\   S\\   S\\   S\\R                     S\\\4   4S jj5       rS rS rS rSrU =r$ )ÚProphetNetDecoderin  rŽ   ry  c           
      óÂ  >• [         TU ]  U5        UR                  U l        UR                  U l        UR                  U l        UR
                  U l        UR                  U l        Ub  UO3[        R                  " UR                  UR                  UR                  S9U l        [        U5      U l        [        R                  " U R                  UR                  S5      U l        [        R"                  " [%        UR&                  5       Vs/ sH  n[)        XS9PM     sn5      U l        [-        UR                  5      U l        SU l        U R3                  5         gs  snf )r{  Nr|  rh  F)r·   r¸   r2   rA   r  rÕ   rµ   Úmax_target_positionsr   rœ   r}  r¹   r¤   ry  r±   r~  Úngram_embeddingsr€  r-   Únum_decoder_layersrf  rî   r   r  r‚  rƒ  )rm   rŽ   ry  Úir»   s       €r"   r¸   ÚProphetNetDecoder.__init__t  s  ø€ ô 	‰Ñ˜Ô à—\‘\ˆŒ
Ø!×-Ñ-ˆÔØ%+×%AÑ%AˆÔ"Ø—~‘~ˆŒØ$*×$BÑ$BˆÔ!ð Ñ*ñ ä—’˜f×/Ñ/°×1CÑ1CÐQW×QdÑQdÑeð 	Ôô
 $BÀ&Ó#IˆÔ ä "§¢¨T¯Z©Z¸×9KÑ9KÈTÓ RˆÔÜ—m’mÜBGÈ×HaÑHaÔBbÓcÑBb¸QÔ# FÔ8ÑBbÑcó
ˆŒô &/¨v×/AÑ/AÓ%BˆÔ"à&+ˆÔ#à‰Õùò ds   ÄEc                 ó   • U R                   $ r´   r‡  rl   s    r"   rˆ  Ú&ProphetNetDecoder.get_input_embeddings“  rŠ  r#   c                 ó   • Xl         g r´   r‡  rŒ  s     r"   rŽ  Ú&ProphetNetDecoder.set_input_embeddings–  r  r#   rª   rÆ   rd   Úencoder_attention_maskr‘  Úcross_attn_head_maskr]   r’  rn  rß   r“  r”  rà   r²   c                 óÔ  • U	b  U	OU R                   R                  n	U
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  UOU R                   R                  nUc  Uc  [        S5      eUb  Ub  [        S5      eUb  Uc  U R                  U5      nUR                  SS u  pïU R                  (       a/  U R                  (       a  U	(       a  [        R                  S5        Sn	SnU	(       aB  [        U[        5      (       d-  [        R                  S5        Sn[        R                  " U5      nUb  UR!                  5       OS	nU R#                  Xï4UR$                  US
9u  nnUS	:w  a  Su  nnOU R'                  U5      u  nnU R"                  R)                  US-   5      nUU-   nU R*                  R,                  nUS	:w  a_  UR/                  S5      S:X  d   S5       e[1        U R2                  5       Vs/ sH  nUUS-
     U-   R5                  USS5      PM!     nnSnSnOQ[1        U R2                  5       Vs/ sH  nUUS-
     U-   PM     nnU R7                  UU5      nU R9                  UU5      nUb}  SUSS2SSSS24   R5                  SU R                   R:                  SS5      -
  [<        R>                  " U R@                  5      RB                  -  nURE                  UR@                  5      nOSn[<        RF                  " U/U-   S5      nU RH                  (       a  U RI                  U5      n[J        RL                  RO                  UU RN                  U R                  S9nU(       a  SOSnU(       a  U R                   R2                  S	:”  a  SOSnU
(       a  SOSn U
(       a  SOSn!U
(       a  U R                   RP                  (       a  SOSn"[S        XV/SS/5       Hj  u  n#n$U#c  M  U#R/                  5       S	   [U        U RV                  5      :X  a  M7   SU$ S[U        U RV                  5       SUR/                  5       S	    S35       e   [Y        U RV                  5       H®  u  n%n&U(       a8  UUSS2SU24   4-  nU R                   R2                  S	:”  a  UUSS2US24   4-  nU&" UUUUUb  UU%   OSUb  UU%   OSUUUUUU	U
US9n'U'S	   nU
(       d  Mv  U U'S   4-  n U!U'S   4-  n!U R                   RP                  (       d  M¥  U"U'S   4-  n"M°     U(       a8  UUSS2SU24   4-  nU R                   R2                  S	:”  a  UUSS2US24   4-  nU(       a  UR[                  5       nUSS2SU24   n(U R                   R2                  S	:”  a  USS2US24   OSn)U(       d  []        S U(U)UUUU U!U"4 5       5      $ [_        U(U)UUUU U!U"S9$ s  snf s  snf )aé  
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.

Example:

```python
>>> from transformers import AutoTokenizer, ProphetNetDecoder
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = ProphetNetDecoder.from_pretrained("microsoft/prophetnet-large-uncased", add_cross_attention=False)
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
```NzGEither `decoder_input_ids` or `decoder_inputs_embeds` has to be passed.zFMake sure to only pass `decoder_input_ids` or `decoder_inputs_embeds`.r'   zZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...FzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.Tr   )r%   r]   )NNr   zOAt the moment `use_cache` is only supported for `decoder_input_ids` of length 1r–  rå   rq   r‘  r¶  zThe `z` should be specified for r—  r˜  )rp  rÝ   rq  r-  rS   rT   rP   rÞ   rn  rß   rà   r	   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7fr´   rq   rš  s     r"   r  Ú,ProphetNetDecoder.forward.<locals>.<genexpr>T  s"   é € ð ñ	Að ÷ ‘ò	ùs   ‚Œ	)r   r€   r]   r†   r‡   rˆ   r‰   rb   )0rŽ   rn  rß   r“  r   rõ   ry  r¦   r‚  rç   ÚloggerÚwarning_oncer”   r   r   Úfrom_legacy_cacher¿   r~  r%   Ú!compute_buffered_relative_bucketsrË   r­  r–   rO   r-   r2   rN   Úprepare_attention_maskÚprepare_predict_attention_maskr  r   r)   r   r*   r,  r0   r  r   r   rÕ   ri  Úzipr¡  rî   r¢  Úto_legacy_cachery   r„   )*rm   rª   rÆ   rd   rµ  r‘  r¶  r]   r’  rn  rß   r“  r”  rà   r÷   r1   Úreturn_legacy_cacheÚpast_key_values_lengthÚmain_stream_pos_embedrP   rS   rT   Úpredicting_stream_pos_embedr†   r­  r2   Úngram_hidden_statesr£  r-  Úextended_encoder_attention_maskÚall_main_stream_hidden_statesÚall_ngram_stream_hidden_statesÚall_main_stream_attnsÚall_ngram_stream_attnsÚall_cross_attnsÚ	attn_maskÚ	mask_namer¥  Údecoder_layerr§  r   r€   s*                                             r"   rÄ   ÚProphetNetDecoder.forward™  sž  € ðJ "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ Ñ!6ÜÐfÓgÐgØÑ" }Ñ'@ÜÐeÓfÐfØÑ" }Ñ'<Ø ×0Ñ0°Ó;ˆMà&3×&9Ñ&9¸"¸1Ð&=Ñ#ˆ
à×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	à#ÐÞœZ¨¼×?Ñ?Ü×Ñð\ôð
 #'ÐÜ1×CÒCÀOÓTˆOàETÑE` ×!?Ñ!?Ô!AÐfgÐà.2×.FÑ.FØÐ)Ø ×'Ñ'Ø+ð /Gð /
Ñ+Ð˜|ð " QÓ&ØPZÑMÐ*Ñ,Mð
 ×6Ñ6°|ÓDñØ.Ø1à&*×&>Ñ&>×&GÑ&GÈÐWXÑHXÓ&YÐ#ð &Ð(=Ñ=ˆà×0Ñ0×7Ñ7Ðð " QÓ&Ø ×%Ñ% aÓ(¨AÓ-ð ØaóÐ-ô # 4§:¡:Ô.ó#á.Eð " %¨!¡)Ñ,Ð/JÑJ×RÑRÐS]Ð_`ÐbcÖdÙ.ð  ð #ð '+Ð#Ø.2Ñ+ô Z_Ð_c×_iÑ_iÔYjó#ÙYjÐPUÐ! %¨!¡)Ñ,Ð/JÔJÑYjð  ð #ð '+×&AÑ&AÀ-ÐQ_Ó&`Ð#Ø.2×.QÑ.QÐR_ÐaoÓ.pÐ+ð "Ñ-àÐ,ªQ°°dºAÐ-=Ñ>×EÑEÀaÈÏÉ×IpÑIpÐrsÐuvÓwÑwÜ—’˜DŸJ™JÓ'×+Ñ+ñ/,Ð+ð /N×.PÑ.PÐQ^×QdÑQdÓ.eÑ+à.2Ð+äŸ	š	 = /Ð4GÑ"GÈÓKˆà×%×%Ø ×6Ñ6°}ÓEˆMäŸ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-Ðdˆö /C©ÈÐ%Þ/CÈÏÉ×HYÑHYÐ\]ÓH]©ÐcgÐ&æ&7¡¸TÐÞ'8¡¸dÐÞ 1°d·k±k×6U×6U™"Ð[_ˆô %(¨Ð(IÈKÐYoÐKpÖ$qÑ ˆIyØÓ$Ø —~‘~Ó'¨Ñ*¬s°4·;±;Ó/?Õ@ð Ø˜I˜;Ð&@ÄÀTÇ[Á[ÓAQÐ@Rð SØ!Ÿ™Ó(¨Ñ+Ð,¨Að/óÐ@ñ %rô #,¨D¯K©KÖ"8ÑˆCÞ#à-°-ÂÐCSÀOÐCSÐ@SÑ2TÐ1VÑVÐ-Ø—;‘;×$Ñ$ qÓ(Ø2°}ÂQÈÑHXÐEXÑ7YÐ6[Ñ[Ð2á)ØØ'Ø%Ø"AØ3<Ñ3H ¨3¢ÈdØI]ÑIiÐ,@ÀÒ,EÐosØ0OØ/MØ2SØ)Ø.Ø#Ø"3Ø-ñˆMð" *¨!Ñ,ˆMß Ð Ø%¨-¸Ñ*:Ð)<Ñ<Ð%Ø&¨=¸Ñ+;Ð*=Ñ=Ð&à—;‘;×2×2Ñ2Ø#¨°aÑ(8Ð':Ñ:’Oñ= #9ö@  Ø)¨mºAÐ?OÀÐ?OÐ<OÑ.PÐ-RÑRÐ)Ø{‰{× Ñ  1Ó$Ø.°=ÂÀOÑDTÐATÑ3UÐ2WÑWÐ.æØ-×=Ñ=Ó?ˆOð *ª!Ð-=¨oÐ-=Ð*=Ñ>ÐØHLÏÉ×HYÑHYÐ\]ÓH] -²°?Ñ3CÐ0CÒ"DÐcgÐæÜñ ð &Ø+Ø#Ø1Ø2Ø)Ø*Ø#ñ	óó ð ô ,Ø/Ø$;Ø+Ø7Ø >Ø,Ø3Ø,ñ	
ð 		
ùòO#ùò#s   È%W ÉW%c           	      óî  • UR                   u  p#[        R                  " SU R                  5      R	                  UR
                  5      R                  SS5      n[        U R                  U R                  U5      u  pEUS S 2S U2S U24   R                  USS5      n[        R                  " US S 2S U2S U24   US S 2S U2U R                  U R                  U-   24   /S5      R                  USS5      nXE4$ r  )r¦   r   rN  r¬  r,  r%   rN   rU   rA   r  r0   )rm   rP   r÷   r1   Úmain_relative_bucketsÚpredict_relative_bucketss         r"   r½  Ú3ProphetNetDecoder.compute_buffered_relative_bucketsm  s  € Ø&2×&8Ñ&8Ñ#ˆ
ä—|’| A t×'@Ñ'@ÓA×DÑDÀ\×EXÑEXÓY×`Ñ`ÐabÐdeÓfˆÜ:]Ø×Ñ˜d×8Ñ8¸,ó;
Ñ7Ðð
 !6²aÐ9I¸/Ð9IÐK[ÈOÐK[Ð6[Ñ \× cÑ cÐdnÐpqÐstÓ uÐÜ#(§9¢9à(ªÐ,<¨_Ð,<Ð>N¸Ð>NÐ)NÑOØ(ÚÐ'˜Ð'¨×)BÑ)BÀT×E^ÑE^ÐapÑEpÐ)pÐpñðð ó$
÷ ‰&˜Q Ó
"ð 	!ð %Ð>Ð>r#   c                 óH  • UR                   S S u  p4[        R                  " XD4[        R                  " UR                  5      R
                  UR                  UR                  S9n[        R                  " US5      nUS U2S U24   S S S S 2S S 24   R                  X0R                  R                  4UR                   -   5      nUb@  SUS S 2S S S S 24   -
  [        R                  " U R                  5      R
                  -  nXg-   nOUnUR                  UR                  5      $ )Nr'   r¾   r   r–  )r¦   r   Úfullr)   r   r*   r%   ÚtriuÚexpandrŽ   r  r,  )rm   r†   rÆ   r÷   Ú
seq_lengthÚcausal_maskÚextended_causal_maskr£  s           r"   r¾  Ú(ProphetNetDecoder.prepare_attention_maskƒ  s  € Ø!.×!4Ñ!4°R°aÐ!8Ñˆ
ô —j’jØÐ$ÜKŠK˜×+Ñ+Ó,×0Ñ0Ø×%Ñ%Ø ×'Ñ'ñ	
ˆô —j’j ¨aÓ0ˆà*¨;¨J¨;¸¸¸Ð+CÑDÀTÈ4ÒQRÒTUÐEUÑV×]Ñ]ØŸ™×@Ñ@ÐAÀK×DUÑDUÑUó 
Ðð
 Ñ%Ø'*¨^ºA¸tÀTÊ1Ð<LÑ-MÑ'MÔQV×Q\ÒQ\Ð]a×]gÑ]gÓQh×QlÑQlÑ&lÐ#Ø&:Ñ&TÑ#à&:Ð#Ø&×)Ñ)¨-×*=Ñ*=Ó>Ð>r#   c           	      ó  • UR                   S S u  p4[        U R                  U R                  UR                  UR
                  5      n[        R                  " US S 2S U2S U24   US S 2S U2U R                  U R                  U-   24   /SS9nUS S S S 2S S 2S S 24   R                  X0R                  R                  4UR                   -   5      nUbž  SUS S 2S S S S S 24   -
  [        R                  " U R
                  5      R                  -  nUR                  X0R                  R                  U R                  XD45      n[        R                  " U[        R                  " U5      /SS9nXg-   nOUnUR                  UR
                  5      $ )Nr'   rL   r   r–  )r¦   r6   r¬  r2   r%   r   r   r0   rØ  rŽ   r  r)   r*   r9   r,  )	rm   r†   rÆ   r÷   rÙ  Úpredict_causal_maskÚextended_predict_causal_maskr£  r-  s	            r"   r¿  Ú0ProphetNetDecoder.prepare_predict_attention_mask›  sž  € Ø!.×!4Ñ!4°R°aÐ!8Ñˆ
ô 3Ø×%Ñ% t§z¡z°=×3GÑ3GÈ×I\ÑI\ó
Ðô $Ÿišià#¢A {¨
 {°K°Z°KÐ$?Ñ@Ø#Ú{˜
{ D×$=Ñ$=À×@YÑ@YÐ\fÑ@fÐ$fÐfñðð ñ
Ðð (;¸4ÀÂqÊ!ÊQÐ;NÑ'O×'VÑ'VØŸ™×@Ñ@ÐAÐDW×D]ÑD]Ñ]ó(
Ð$ð
 Ñ%Ø'*¨^ºA¸tÀTÈ4ÒQRÐ<RÑ-SÑ'SÔW\×WbÒWbÐcg×cmÑcmÓWn×WrÑWrÑ&rÐ#Ø&=×&DÑ&DØŸ[™[×DÑDÀdÇjÁjÐR\Ðió'Ð#ô ',§i¢iØ(¬%×*:Ò*:Ð;RÓ*SÐTÐZ\ñ'Ð#ð /KÑ.dÑ+à.JÐ+Ø.×1Ñ1°-×2EÑ2EÓFÐFr#   )rÕ   r  r‚  rî   r¬  r2   r­  rA   r~  r  ry  r´   ©NNNNNNNNNNNNN)rr   rs   rt   ru   r   r   r   rœ   r¸   rˆ  rŽ  r   r   r   ry   r  r   r„   rÄ   r½  r¾  r¿  r{   rÍ   rÎ   s   @r"   rª  rª  n  s“  ø† ñÐ/ð À(È2Ï<É<ÑBX÷ ð ò>$ò%ð ð -1Ø15Ø8<Ø9=Ø,0Ø7;Ø@DØ04Ø$(Ø,0Ø/3Ø&*Ø15ñQ
à˜EŸL™LÑ)ðQ
ð ! §¡Ñ.ðQ
ð  (¨¯©Ñ5ð	Q
ð
 !)¨¯©Ñ 6ðQ
ð ˜EŸL™LÑ)ðQ
ð ' u§|¡|Ñ4ðQ
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðQ
ð   §¡Ñ-ðQ
ð ˜D‘>ðQ
ð $ D™>ðQ
ð ' t™nðQ
ð ˜d‘^ðQ
ð ! §¡Ñ.ðQ
ð 
ˆuÐ2Ð2Ñ	3ôQ
ó ðQ
òf?ò,?÷0!Gð !Gr#   rª  c            &       ó$  ^ • \ rS rSrSS/rS\4U 4S jjrS rS rS r	S	 r
S
 r\                SS\\R                     S\\R                     S\\R                     S\\R                      S\\R                     S\\R                     S\\R                     S\\   S\\\\R                           S\\R                     S\\R                     S\\   S\\   S\\   S\\   S\\R                     S\\\4   4"S jj5       rSrU =r$ )ÚProphetNetModeli¿  úencoder.word_embeddings.weightúdecoder.word_embeddings.weightrŽ   c                 ó®  >• [         TU ]  U5        [        R                  " UR                  UR
                  UR                  S9U l        [        R                  " U5      nSUl
        SUl        [        X R                  5      U l        [        R                  " U5      nSUl        SUl        [        X0R                  5      U l        U R#                  5         g )Nr|  FT)r·   r¸   r   rœ   r}  r¹   r¤   ry  ÚcopyÚdeepcopyrn  Útie_encoder_decoderrx  ÚencoderÚ
is_decoderrª  Údecoderrƒ  )rm   rŽ   Úencoder_configÚdecoder_configr»   s       €r"   r¸   ÚProphetNetModel.__init__Ã  s¤   ø€ Ü‰Ñ˜Ô Ü!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔäŸš vÓ.ˆØ#(ˆÔ Ø-2ˆÔ*Ü(¨×9MÑ9MÓNˆŒäŸš vÓ.ˆØ$(ˆÔ!Ø-2ˆÔ*Ü(¨×9MÑ9MÓNˆŒð 	‰Õr#   c                 ó   • U R                   $ r´   r‡  rl   s    r"   rˆ  Ú$ProphetNetModel.get_input_embeddingsÔ  rŠ  r#   c                 ó|   • Xl         U R                   U R                  l         U R                   U R                  l         g r´   )ry  rê  rì  rŒ  s     r"   rŽ  Ú$ProphetNetModel.set_input_embeddings×  s,   € Ø$ÔØ'+×';Ñ';ˆ‰Ô$Ø'+×';Ñ';ˆ‰Õ$r#   c                 óü   • U R                   R                  (       aa  U R                  U R                  R                  U R                  5        U R                  U R
                  R                  U R                  5        g g r´   )rŽ   Útie_word_embeddingsÚ_tie_or_clone_weightsrê  ry  rì  rl   s    r"   Ú_tie_weightsÚProphetNetModel._tie_weightsÜ  sT   € Ø;‰;×*×*Ø×&Ñ& t§|¡|×'CÑ'CÀT×EYÑEYÔZØ×&Ñ& t§|¡|×'CÑ'CÀT×EYÑEYÕZð +r#   c                 ó   • U R                   $ r´   )rê  rl   s    r"   Úget_encoderÚProphetNetModel.get_encoderá  ó   € Ø|‰|Ðr#   c                 ó   • U R                   $ r´   ©rì  rl   s    r"   Úget_decoderÚProphetNetModel.get_decoderä  rü  r#   rª   rÆ   Údecoder_input_idsÚdecoder_attention_maskr‘  Údecoder_head_maskr¶  Úencoder_outputsr]   r’  Údecoder_inputs_embedsrn  rß   r“  r”  rà   r²   c                 ó`  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  U R                  UUUU
UUUS9nU R                  UUUS   UUUU	UUUUUUS9nU(       d  UU-   $ [        UR                  UR                  UR                  UR                  UR                  UR                  UR                  UR                  UR                  UR                  UR                  S9$ )aW  
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    ProphetNet uses the `eos_token_id` as the starting token for `decoder_input_ids` generation. If
    `past_key_values` is used, optionally only the last `decoder_input_ids` have to be input (see
    `past_key_values`).
decoder_attention_mask (`torch.BoolTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.

Example:

```python
>>> from transformers import AutoTokenizer, ProphetNetModel

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = ProphetNetModel.from_pretrained("microsoft/prophetnet-large-uncased")

>>> input_ids = tokenizer(
...     "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids  # Batch size 1
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)

>>> last_hidden_states = outputs.last_hidden_state  # main stream hidden states
>>> last_hidden_states_ngram = outputs.last_hidden_state_ngram  # predict hidden states
```)rª   rÆ   r‘  r’  rß   r“  r”  r   )rª   rÆ   rd   rµ  r‘  r¶  r]   r’  rß   r“  rn  r”  rà   )r   r€   r]   r^   r_   r`   ra   rb   rc   rd   re   )rŽ   rn  rß   r“  r   rê  rì  r}   r   r€   r]   r†   r‡   rˆ   r‰   rb   )rm   rª   rÆ   r  r  r‘  r  r¶  r  r]   r’  r  rn  rß   r“  r”  rà   Údecoder_outputss                     r"   rÄ   ÚProphetNetModel.forwardç  sW  € ðt "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ"Ø"Ÿl™lØ#Ø-Ø#Ø+Ø"3Ø%9Ø'ð +ð ˆOð Ÿ,™,Ø'Ø1Ø"1°!Ñ"4Ø#1Ø'Ø!5Ø+Ø/Ø/Ø!5ØØ#Ø)ð 'ð 
ˆö  Ø" _Ñ4Ð4Ü+Ø-×?Ñ?Ø$3×$KÑ$KØ+×;Ñ;Ø"1×"?Ñ"?Ø(7×(KÑ(KØ.×9Ñ9Ø%4×%EÑ%EØ,×=Ñ=Ø&5×&GÑ&GØ"1×"?Ñ"?Ø.×9Ñ9ñ
ð 	
r#   )rì  rê  ry  )NNNNNNNNNNNNNNNN)rr   rs   rt   ru   Ú_tied_weights_keysr   r¸   rˆ  rŽ  r÷  rú  rÿ  r   r   r   r   Ú
BoolTensorry   r  r   r}   rÄ   r{   rÍ   rÎ   s   @r"   rã  rã  ¿  sÅ  ø† à:Ð<\Ð]ÐðÐ/÷ ò"$ò<ò
[ò
òð ð -1Ø15Ø48Ø=AØ,0Ø48Ø7;Ø+/Ø@DØ04Ø8<Ø$(Ø,0Ø/3Ø&*Ø15ñ#j
à˜EŸL™LÑ)ðj
ð ! §¡Ñ.ðj
ð $ E§L¡LÑ1ð	j
ð
 !)¨×)9Ñ)9Ñ :ðj
ð ˜EŸL™LÑ)ðj
ð $ E§L¡LÑ1ðj
ð ' u§|¡|Ñ4ðj
ð " %™ðj
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðj
ð   §¡Ñ-ðj
ð  (¨¯©Ñ5ðj
ð ˜D‘>ðj
ð $ D™>ðj
ð ' t™nðj
ð  ˜d‘^ð!j
ð" ! §¡Ñ.ð#j
ð$ 
ˆuÐ2Ð2Ñ	3ô%j
ó öj
r#   rã  zh
    The ProphetNet Model with a language modeling head. Can be used for sequence generation tasks.
    c            (       ó~  ^ • \ rS rSr/ SQrS\4U 4S jjrS rS r\	                 SS\
\R                     S\
\R                     S	\
\R                     S
\
\R                     S\
\R                     S\
\R                     S\
\R                     S\
\R                     S\
\\\R                           S\
\R                     S\
\R                     S\
\R                     S\
\   S\
\   S\
\   S\
\   S\
\R                     S\\\4   4$S jj5       rS S jrS\R                  4S jrS rS rSrU =r$ )!Ú"ProphetNetForConditionalGenerationiU  )rä  rå  úlm_head.weightrŽ   c                 ó  >• [         TU ]  U5        [        U5      U l        UR                  U l        UR                  U l        [        R                  " UR                  UR                  SS9U l        U R                  5         g )NF©rš   )r·   r¸   rã  r   r¤   r   Údisable_ngram_lossr   r•   r¹   r}  Úlm_headrƒ  rº   s     €r"   r¸   Ú+ProphetNetForConditionalGeneration.__init__]  sd   ø€ Ü‰Ñ˜Ô Ü)¨&Ó1ˆŒØ!×.Ñ.ˆÔØ"(×";Ñ";ˆÔä—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒð 	‰Õr#   c                 óœ   • U R                   R                  (       a1  U R                  U R                  R                  U R
                  5        g g r´   )rŽ   rõ  rö  r   ry  r  rl   s    r"   r÷  Ú/ProphetNetForConditionalGeneration._tie_weightsh  s2   € Ø;‰;×*×*Ø×&Ñ& t§¡×'FÑ'FÈÏÉÕUð +r#   c                 ó.   • U R                   R                  $ r´   )r   ry  rl   s    r"   rˆ  Ú7ProphetNetForConditionalGeneration.get_input_embeddingsl  s   € Ø‰×.Ñ.Ð.r#   rª   rÆ   r  r  r‘  r  r¶  r  r]   r’  r  Úlabelsrn  rß   r“  r”  rà   r²   c                 óz  • Ub  UOU R                   R                  nUb  Uc  Uc  U R                  U5      nU R                  UUUUUUUUU	U
UUUUUUS9nUb  UR                  OUR                  SS u  nnUS   R                  UU R                   R                  US5      nU R                  U5      nUSS2S4   nU R                   R                  S:”  a  USS2SS24   OSnUR                  5       (       d  UR                  5       nSnUb  U R                  UU5      nU(       d+  [        S UU4 5       5      nUb  U4U-   USS -   $ UUSS -   $ [        UUUUR                  UR                  UR                  UR                   UR"                  UR$                  UR&                  UR(                  UR*                  S9$ )	aË  
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    ProphetNet uses the `eos_token_id` as the starting token for `decoder_input_ids` generation. If
    `past_key_values` is used, optionally only the last `decoder_input_ids` have to be input (see
    `past_key_values`).
decoder_attention_mask (`torch.BoolTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[-100, 0, ...,
    config.vocab_size - 1]`. All labels set to `-100` are ignored (masked), the loss is only computed for
    labels in `[0, ..., config.vocab_size]`

Example:

```python
>>> from transformers import AutoTokenizer, ProphetNetForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = ProphetNetForConditionalGeneration.from_pretrained("microsoft/prophetnet-large-uncased")

>>> input_ids = tokenizer(
...     "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids  # Batch size 1
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)

>>> logits_next_token = outputs.logits  # logits to predict next token as usual
>>> logits_ngram_next_tokens = outputs.logits_ngram  # logits to predict 2nd, 3rd, ... next tokens
```N)rª   rÆ   r  r  r‘  r  r¶  r  r]   r’  r  rn  rß   r“  r”  rà   r'   r   rL   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr´   rq   rš  s     r"   r  Ú=ProphetNetForConditionalGeneration.forward.<locals>.<genexpr>Ù  ó   é € ÐRÑ*@ QŸq™qÒ*@ùrŸ  )rZ   r[   r\   r]   r^   r_   r`   ra   rb   rc   rd   re   )rŽ   r   r¬   r   r¦   rñ   r2   r  Úis_contiguousr  Ú_compute_lossry   rX   r]   r^   r_   r`   ra   rb   rc   rd   re   )rm   rª   rÆ   r  r  r‘  r  r¶  r  r]   r’  r  r  rn  rß   r“  r”  rà   rb  r÷   r1   Úpredicting_streamsÚpredict_logitsr[   r\   rZ   Ú
all_logitss                              r"   rÄ   Ú*ProphetNetForConditionalGeneration.forwardo  sÿ  € ð~ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÐ"3Ñ";Ð@UÑ@]à $× 1Ñ 1°&Ó 9Ðà—/‘/ØØ)Ø/Ø#9ØØ/Ø!5Ø+Ø+Ø'Ø"7ØØ/Ø!5Ø#Ø)ð! "ð 
ˆð& (9Ñ'DÐ×#Ò#ÐJ_×JeÑJeÐfhÐghÐJiñ 	$ˆ
Oð % Q™ZŸ_™_¨Z¸¿¹×9JÑ9JÈOÐ]_Ó`ÐØŸ™Ð&8Ó9ˆà¢ 1 Ñ%ˆØ04·±×0AÑ0AÀAÓ0E~¢a¨© eÒ,È4ˆð ×#Ñ#×%Ñ%Ø×&Ñ&Ó(ˆFàˆØÑØ×%Ñ% n°fÓ=ˆDæÜÑR¨6°<Ñ*@ÓRÓRˆJØ9=Ñ9ID7˜ZÑ'¨'°!°"¨+Ñ5ÐgÈzÐ\cÐdeÐdfÐ\gÑOgÐgä,ØØØ)Ø '× 7Ñ 7Ø&-×&CÑ&CØ,3×,OÑ,OØ#*×#=Ñ#=Ø)0×)IÑ)IØ!(×!9Ñ!9Ø*1×*KÑ*KØ&-×&CÑ&CØ#*×#=Ñ#=ñð r#   c                 óÄ  • UR                  U R                  R                  UR                  S5      UR                  S5      5      R	                  U5      n[        U R                  R                  5       H'  nUS:”  a  U R                  (       a    OX$US S 2S S 24'   M)     UR                  SS5      R                  5       n[        R                  R                  UR                  SUR                  S5      5      S[        R                  S9n[        R                  R                  XdR                  S5      SS9nU R                  R                   S:”  aŽ  UR#                  SSS	9* nUR%                  U5      R                  S5      n	X‰   nUR'                  5       nU R                  R                   UR                  S5      -  n
S
U R                  R                   -
  U-  X¨-  -   nU$ ©Nr   r   rL   r   r’   )Ú	reductionr‘   T)r   Úkeepdimr–  ©r¥   rŽ   r2   rO   Úfill_r-   r  rò   r  r   r   Úlog_softmaxrñ   r   r   Únll_lossÚepsÚsumÚner’   ©rm   r[   r  Úignore_indexÚexpend_targetsr¯  ÚlprobsrZ   Úsmooth_lossÚnon_masked_tokensÚeps_is              r"   r  Ú0ProphetNetForConditionalGeneration._compute_lossë  óˆ  € Ø×)Ñ)¨$¯+©+×*;Ñ*;¸V¿[¹[È»^ÈVÏ[É[ÐYZË^Ó\×bÑbÐcoÓpˆät—{‘{×(Ñ(Ö)ˆAØ1‹u˜×0×0ÙØ&,˜1ša¢˜7Ó#ñ *ð
 ×!Ñ! ! QÓ'×2Ñ2Ó4ˆÜ—‘×*Ñ*ØK‰K˜˜FŸK™K¨›OÓ,ØÜ—-‘-ð +ð 
ˆô }‰}×%Ñ% f×.AÑ.AÀ"Ó.EÐQWÐ%ÐXˆà;‰;?‰?˜SÓ Ø!Ÿ:™:¨"°d˜:Ð;Ð;ˆKØ .× 1Ñ 1°,Ó ?× DÑ DÀRÓ HÐØ%Ñ8ˆKØ%×*Ñ*Ó,ˆKà—K‘K—O‘O f§k¡k°"£oÑ5ˆEØ˜$Ÿ+™+Ÿ/™/Ñ)¨TÑ1°EÑ4GÑGˆDàˆr#   c                 ó$   • U R                  U5      $ r´   )r¬   )rm   r  s     r"   Ú%prepare_decoder_input_ids_from_labelsÚHProphetNetForConditionalGeneration.prepare_decoder_input_ids_from_labels  s   € Ø× Ñ  Ó(Ð(r#   c                 ó.   • U R                   R                  $ r´   )r   rê  rl   s    r"   rú  Ú.ProphetNetForConditionalGeneration.get_encoder
  ó   € Ø‰×&Ñ&Ð&r#   c                 ó.   • U R                   R                  $ r´   ©r   rì  rl   s    r"   rÿ  Ú.ProphetNetForConditionalGeneration.get_decoder  r;  r#   ©r  r  r   r   )NNNNNNNNNNNNNNNNN©r¢   )rr   rs   rt   ru   r	  r   r¸   r÷  rˆ  r   r   r   r   r
  ry   r  r   rX   rÄ   r  r7  rú  rÿ  r{   rÍ   rÎ   s   @r"   r  r  U  sô  ø† ò pÐð	Ð/÷ 	òVò/ð ð -1Ø15Ø48Ø=AØ,0Ø48Ø7;Ø26Ø@DØ04Ø8<Ø)-Ø$(Ø,0Ø/3Ø&*Ø15ñ%yà˜EŸL™LÑ)ðyð ! §¡Ñ.ðyð $ E§L¡LÑ1ð	yð
 !)¨×)9Ñ)9Ñ :ðyð ˜EŸL™LÑ)ðyð $ E§L¡LÑ1ðyð ' u§|¡|Ñ4ðyð " %§,¡,Ñ/ðyð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðyð   §¡Ñ-ðyð  (¨¯©Ñ5ðyð ˜Ÿ™Ñ&ðyð ˜D‘>ðyð $ D™>ðyð  ' t™nð!yð" ˜d‘^ð#yð$ ! §¡Ñ.ð%yð& 
ˆuÐ/Ð/Ñ	0ô'yó ðyôvð8)¸E¿L¹Lô )ò'÷'ð 'r#   r  zt
    The standalone decoder part of the ProphetNetModel with a lm head on top. The model can be used for causal
    c                    óô  ^ • \ rS rSr/ SQrS\4U 4S jjrS rS rS r	S r
S	 r\             SS
\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\\\R                           S\\R                     S\\R                     S\\   S\\   S\\   S\\   S\\\4   4S jj5       rSS jr    SS jrSrU =r$ )ÚProphetNetForCausalLMi  )z!prophetnet.word_embeddings.weightz)prophetnet.decoder.word_embeddings.weightr  rŽ   c                 óN  >• [         R                  " U5      nSUl        SUl        [        TU ]  U5        [        U5      U l        UR                  U l	        UR                  U l
        [        R                  " UR                  UR                  SS9U l        U R!                  5         g )NTFr  )rç  rè  rë  Úis_encoder_decoderr·   r¸   ÚProphetNetDecoderWrapperr   r¤   r   r  r   r•   r¹   r}  r  rƒ  rº   s     €r"   r¸   ÚProphetNetForCausalLM.__init__  s‚   ø€ ä—’˜vÓ&ˆØ ˆÔØ$)ˆÔ!Ü‰Ñ˜Ô Ü2°6Ó:ˆŒà!×.Ñ.ˆÔØ"(×";Ñ";ˆÔä—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒð 	‰Õr#   c                 óB   • U R                   R                  R                  $ r´   ©r   rì  ry  rl   s    r"   rˆ  Ú*ProphetNetForCausalLM.get_input_embeddings-  s   € Ø‰×&Ñ&×6Ñ6Ð6r#   c                 ó8   • XR                   R                  l        g r´   rH  rŒ  s     r"   rŽ  Ú*ProphetNetForCausalLM.set_input_embeddings0  s   € Ø27‰×ÑÕ/r#   c                 ó°   • U R                   R                  (       a;  U R                  U R                  R                  R
                  U R                  5        g g r´   )rŽ   rõ  rö  r   rì  ry  r  rl   s    r"   r÷  Ú"ProphetNetForCausalLM._tie_weights3  s;   € Ø;‰;×*×*Ø×&Ñ& t§¡×'>Ñ'>×'NÑ'NÐPT×P\ÑP\Õ]ð +r#   c                 ó$   • XR                   l        g r´   r=  )rm   rì  s     r"   Úset_decoderÚ!ProphetNetForCausalLM.set_decoder7  s   € Ø")‰Õr#   c                 ó.   • U R                   R                  $ r´   r=  rl   s    r"   rÿ  Ú!ProphetNetForCausalLM.get_decoder:  r;  r#   rª   rÆ   rd   rµ  r‘  r¶  r]   r’  r  rn  rß   r“  r”  r²   c                 óÄ  • Ub  UOU R                   R                  nU R                  R                  UUUUUUUUU
UUUS9nUb  UR                  OUR                  SS u  nnUS   R                  XðR                   R                  US5      nU R                  U5      nUSS2S4   nU R                   R                  S:”  a  USS2SS24   OSnSnU	b  U R                  UU	5      nU(       d+  [        S UU4 5       5      nUb  U4U-   USS -   $ UUSS -   $ [        UUUUR                  UR                  UR                  UR                  UR                  UR                   S9	$ )	aÀ  
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the left-to-right language modeling loss (next word prediction). Indices should be in
    `[-100, 0, ..., config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are
    ignored (masked), the loss is only computed for the tokens with labels n `[0, ..., config.vocab_size]`

Example:

```python
>>> from transformers import AutoTokenizer, ProphetNetForCausalLM
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = ProphetNetForCausalLM.from_pretrained("microsoft/prophetnet-large-uncased")
>>> assert model.config.is_decoder, f"{model.__class__} has to be configured as a decoder."
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> logits = outputs.logits

>>> # Model can also be used with EncoderDecoder framework
>>> from transformers import BertTokenizer, EncoderDecoderModel, AutoTokenizer
>>> import torch

>>> tokenizer_enc = BertTokenizer.from_pretrained("google-bert/bert-large-uncased")
>>> tokenizer_dec = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = EncoderDecoderModel.from_encoder_decoder_pretrained(
...     "google-bert/bert-large-uncased", "microsoft/prophetnet-large-uncased"
... )

>>> ARTICLE = (
...     "the us state department said wednesday it had received no "
...     "formal word from bolivia that it was expelling the us ambassador there "
...     "but said the charges made against him are `` baseless ."
... )
>>> input_ids = tokenizer_enc(ARTICLE, return_tensors="pt").input_ids
>>> labels = tokenizer_dec(
...     "us rejects charges against its ambassador in bolivia", return_tensors="pt"
... ).input_ids
>>> outputs = model(input_ids=input_ids, decoder_input_ids=labels[:, :-1], labels=labels[:, 1:])

>>> loss = outputs.loss
```N)rª   rÆ   rd   rµ  r‘  r¶  r]   r’  rn  rß   r“  r”  r'   r   rL   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr´   rq   rš  s     r"   r  Ú0ProphetNetForCausalLM.forward.<locals>.<genexpr>  r  rŸ  )	rZ   r[   r\   r]   r†   r‡   rˆ   r‰   rb   )rŽ   r   r   rì  r¦   rñ   r2   r  r  ry   r‹   r]   r†   r‡   rˆ   r‰   rb   )rm   rª   rÆ   rd   rµ  r‘  r¶  r]   r’  r  rn  rß   r“  r”  rb  r÷   r1   r  r  r[   r\   rZ   r   s                          r"   rÄ   ÚProphetNetForCausalLM.forward=  s–  € ðB &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð —/‘/×)Ñ)ØØ)Ø"7Ø#9ØØ!5Ø+Ø'ØØ/Ø!5Ø#ð *ð 
ˆð :CÑ9N i§o¢oÐTa×TgÑTgÐhjÐijÐTkÑ#ˆ
Oà$ Q™ZŸ_™_¨Z¿¹×9JÑ9JÈOÐ]_Ó`ÐØŸ™Ð&8Ó9ˆà¢ 1 Ñ%ˆØ04·±×0AÑ0AÀAÓ0E~¢a¨© eÒ,È4ˆàˆØÑØ×%Ñ% n°fÓ=ˆDæÜÑR¨6°<Ñ*@ÓRÓRˆJØ9=Ñ9ID7˜ZÑ'¨'°!°"¨+Ñ5ÐgÈzÐ\cÐdeÐdfÐ\gÑOgÐgä,ØØØ)Ø '× 7Ñ 7Ø%×3Ñ3Ø$+×$?Ñ$?Ø"×-Ñ-Ø!(×!9Ñ!9Ø!(×!9Ñ!9ñ
ð 
r#   c                 óÄ  • UR                  U R                  R                  UR                  S5      UR                  S5      5      R	                  U5      n[        U R                  R                  5       H'  nUS:”  a  U R                  (       a    OX$US S 2S S 24'   M)     UR                  SS5      R                  5       n[        R                  R                  UR                  SUR                  S5      5      S[        R                  S9n[        R                  R                  XdR                  S5      SS9nU R                  R                   S:”  aŽ  UR#                  SSS	9* nUR%                  U5      R                  S5      n	X‰   nUR'                  5       nU R                  R                   UR                  S5      -  n
S
U R                  R                   -
  U-  X¨-  -   nU$ r#  r&  r-  s              r"   r  Ú#ProphetNetForCausalLM._compute_loss¬  r5  r#   c                 ór   • Uc  UR                  UR                  5      nU(       a  US S 2SS 24   nUUUUUS.$ )NrL   )rª   rÆ   r‘  r]   rn  )Únew_onesr¦   )rm   rª   r]   rÆ   r‘  rn  Úkwargss          r"   Úprepare_inputs_for_generationÚ3ProphetNetForCausalLM.prepare_inputs_for_generationÈ  sL   € ð Ñ!Ø&×/Ñ/°	·±Ó@ˆNæØ!¢! R¡S &Ñ)ˆIð #Ø,Ø"Ø.Ø"ñ
ð 	
r#   r?  rá  r@  )NNNN)rr   rs   rt   ru   r	  r   r¸   rˆ  rŽ  r÷  rO  rÿ  r   r   r   r   ry   r  r   r‹   rÄ   r  r\  r{   rÍ   rÎ   s   @r"   rB  rB    s  ø† òÐðÐ/÷ ò 7ò8ò^ò*ò'ð ð -1Ø15Ø8<Ø9=Ø,0Ø7;Ø@DØ04Ø)-Ø$(Ø,0Ø/3Ø&*ñlà˜EŸL™LÑ)ðlð ! §¡Ñ.ðlð  (¨¯©Ñ5ð	lð
 !)¨¯©Ñ 6ðlð ˜EŸL™LÑ)ðlð ' u§|¡|Ñ4ðlð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðlð   §¡Ñ-ðlð ˜Ÿ™Ñ&ðlð ˜D‘>ðlð $ D™>ðlð ' t™nðlð ˜d‘^ðlð 
ˆuÐ/Ð/Ñ	0ôló ðlô\ð> ØØØ÷
ò 
r#   rB  c                   ó@   ^ • \ rS rSrSrS\4U 4S jjrS rS rSr	U =r
$ )rE  iã  zx
This is a wrapper class, so that [`ProphetNetForCausalLM`] can correctly be loaded from pretrained prophetnet
classes.
rŽ   c                 óæ   >• [         TU ]  U5        [        R                  " UR                  UR
                  UR                  S9U l        [        XR                  S9U l	        U R                  5         g )Nr|  r‡  )r·   r¸   r   rœ   r}  r¹   r¤   ry  rª  rì  rƒ  rº   s     €r"   r¸   Ú!ProphetNetDecoderWrapper.__init__é  sV   ø€ Ü‰Ñ˜Ô ä!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ(¨×AUÑAUÑVˆŒð 	‰Õr#   c                 ól   • U R                  U R                  U R                  R                  5       5        g r´   )rö  ry  rì  rˆ  rl   s    r"   r÷  Ú%ProphetNetDecoderWrapper._tie_weightsò  s%   € Ø×"Ñ" 4×#7Ñ#7¸¿¹×9ZÑ9ZÓ9\Õ]r#   c                 ó&   • U R                   " U0 UD6$ r´   rþ  )rm   Úargsr[  s      r"   rÄ   Ú ProphetNetDecoderWrapper.forwardõ  s   € Ø|Š|˜TÐ, VÑ,Ð,r#   )rì  ry  )rr   rs   rt   ru   rv   r   r¸   r÷  rÄ   r{   rÍ   rÎ   s   @r"   rE  rE  ã  s%   ø† ñð
Ð/÷ ò^÷-ð -r#   rE  )rª  rx  rB  r  rã  r   rd  )=rv   rç  r>   ri   Údataclassesr   Útypingr   r   r   Útorch.utils.checkpointr   r   Útorch.nnr   Úactivationsr
   Úcache_utilsr   r   Ú
generationr   Úmodeling_layersr   Úmodeling_outputsr   Úmodeling_utilsr   Úutilsr   r   r   Úconfiguration_prophetnetr   Ú
get_loggerrr   rº  r   r6   rJ   rU   rX   r}   r„   r‹   r   rœ   r±   ÚModulerÐ   r  r  rV  rf  rx  rª  rã  r  rB  rE  Ú__all__rq   r#   r"   Ú<module>ru     s‹  ðñ Yã Û Û Ý !ß "ã Û ß Ý å !ß 5Ý )Ý 9Ý /Ý -ß 9Ñ 9Ý 6ð 
×	Ò	˜HÓ	%€ôQò7ô" ò6Mð. Ùðñô
4% ó 4%óó ð4%ðn Ùðñô2% ;ó 2%óó ð2%ðj Ùðñô
$@ ;ó $@óó ð$@ðN Ùðñô
,@ ó ,@óó ð,@ð^ ô#! ó #!ó ð#!ôL(- R§\¡\ô (-ôVB2˜"Ÿ)™)ô B2ôJ˜BŸI™Iô ô./ 2§9¡9ô /ôD
(Ð7ô (ôVHÐ7ô HñV ðñô
r
Ð1ó r
óð
r
ñj ðñô
IGÐ1ó IGóð
IGðX
 ôR
Ð/ó R
ó ðR
ñj ðñô
t'Ð)BÀOó t'óð
t'ñn ðñô
J
Ð5°ó J
óð
J
ôZ-Ð8ô -ò,r#   