ó
    <±hŠ  ã                   óJ  • S r SSKrSSKJrJr  SSKrSSKrSSKJr  SSKJ	r	J
r
JrJr  SSKJr  SSKJrJr  SS	KJr  SS
KJr  SSKJr  SSKJrJrJrJrJr  SSKJr  SSK J!r!J"r"  SSK#J$r$  \"RJ                  " \&5      r'S(S jr( " S S\RR                  5      r* " S S\RR                  5      r+ " S S\5      r,\! " S S\5      5       r-\! " S S\-5      5       r.\!" SS9 " S S\-\5      5       r/\!" S S9 " S! S"\-5      5       r0\! " S# S$\-5      5       r1\! " S% S&\-5      5       r2/ S'Qr3g))zPyTorch MPT model.é    N)ÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚ	LayerNormÚMSELoss)Ú
functionalé   )ÚCacheÚDynamicCache)ÚGenerationMixin)Ú!_prepare_4d_causal_attention_mask)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentionsÚQuestionAnsweringModelOutputÚ SequenceClassifierOutputWithPastÚTokenClassifierOutput)ÚPreTrainedModel)Úauto_docstringÚloggingé   )Ú	MptConfigc                 óH  • [         R                  " SU-
  S[         R                  US9R                  SSSU5      nS[        R
                  " [        R                  " U 5      5      -  n[         R                  " SUS-   [         R                  US9R                  5       nXbU-  -  nS[         R                  " SU5      -  nUR                  SUSS5      nXP:w  a7  [         R                  " USS2SSS2S4   USS2SSS2S4   /SS9SS2SU 2S4   nXG-  nUR                  S5      $ )	a–  
Link to paper: https://huggingface.co/papers/2108.12409 - Alibi tensor is not causal as the original paper mentions, it
relies on a translation invariance of softmax for quick implementation. This implementation has been copied from
the alibi implementation of MPT source code that led to slightly different results than the Bloom alibi:
https://huggingface.co/mosaicml/mpt-7b/blob/main/attention.py#L292
r   )ÚdtypeÚdeviceé   ç      ð?N.©Údimr   )ÚtorchÚarangeÚint32ÚviewÚmathÚceilÚlog2Úint64ÚfloatÚpowÚconcatÚsqueeze)Ú	num_headsÚsequence_lengthÚalibi_bias_maxr   ÚalibiÚnum_heads_power_of_2ÚbaseÚslopess           Ú\/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/mpt/modeling_mpt.pyÚbuild_mpt_alibi_tensorr6   -   s  € ô LŠL˜˜_Ñ,¨a´u·{±{È6ÑR×WÑWÐXYÐ[\Ð^_ÐapÓq€EØ¤§	¢	¬$¯)ª)°IÓ*>Ó ?Ñ?Ðä<Š<˜Ð/°!Ñ3¼5¿;¹;ÈvÑV×\Ñ\Ó^€DØÐ$8Ñ8Ñ9€Dà”5—9’9˜Q Ó%Ñ%€FØ[‰[˜Ð0°!°QÓ7€FàÓ(Ü—’˜v¢a¨¨¨A¨¨s lÑ3°VºA¹sÀ¸sÀC¸KÑ5HÐIÈqÑQÒRSÐU_ÐV_ÐU_ÐadÐRdÑeˆà‰N€EØ=‰=˜ÓÐó    c                   óÌ   ^ • \ rS rSrSrSS\S\\   4U 4S jjjr   SS\	R                  S\	R                  S\\   S	\\	R                     S
\\	R                     4
S jjrSrU =r$ )ÚMptAttentionéD   zrMulti-head self attention.
Using torch or triton attention implementation enables user to also use additive bias.
ÚconfigÚ	layer_idxc                 ó¸  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U l        U R                  U R                  -  U l        UR                  R                  U l        U R                  c5  S[        R                  " U R                  U R                  -  5      -  U l        UR                  R                  U l        UR                  R                  U l        [        R                  " U R                  SU R                  -  SS9U l        [        R                  " U R                  U R                  SS9U l        X l        g )Nr   r   F©Úbias)ÚsuperÚ__init__Úhidden_sizeÚn_headsÚmax_seq_lenÚmax_seq_lengthÚhead_dimÚattn_configÚsoftmax_scaler&   ÚsqrtÚ
attn_pdropÚattn_dropout_pÚclip_qkvr   ÚLinearÚWqkvÚout_projr<   )Úselfr;   r<   Ú	__class__s      €r5   rA   ÚMptAttention.__init__I   s  ø€ Ü‰ÑÔØ!×-Ñ-ˆÔØ—~‘~ˆŒØ$×0Ñ0ˆÔØ×(Ñ(¨D¯L©LÑ8ˆŒØ#×/Ñ/×=Ñ=ˆÔØ×ÑÑ%Ø!"¤T§Y¢Y¨t×/?Ñ/?À$Ç,Á,Ñ/NÓ%OÑ!OˆDÔà$×0Ñ0×;Ñ;ˆÔØ×*Ñ*×3Ñ3ˆŒÜ—I’I˜d×.Ñ.°°D×4DÑ4DÑ0DÈ5ÑQˆŒ	ÜŸ	š	 $×"2Ñ"2°D×4DÑ4DÈ5ÑQˆŒØ"r7   Úhidden_statesÚposition_biasÚpast_key_valueÚattention_maskÚcache_positionc                 ó\  • UR                   S S u  pgU R                  U5      nU R                  (       a%  UR                  U R                  * U R                  S9nUR	                  SSS9u  pšnU	R                  XgU R                  U R                  5      R                  SS5      n	U
R                  XgU R                  U R                  5      R                  SS5      n
UR                  XgU R                  U R                  5      R                  SS5      nUb#  SU0nUR                  X«U R                  U5      u  p«[        R                  " XšR                  SS5      5      U R                  -  nUc  UOXsR                  5       -   nUb—  [        UR                   5      S:w  a!  [!        S	[        UR                   5       35      eU
R                   S   n[#        S
UR%                  S5      U-
  5      n[#        S
UR%                  S5      U-
  5      nUS S 2US 2US 24   nXÒ-   nUb:  UR'                  U[        R(                  " U	R*                  5      R,                  5      n[.        R0                  R3                  UR5                  5       SS9R7                  UR*                  5      n[.        R0                  R9                  UU R:                  U R<                  S9n[        R                  " UU5      nUR?                  S
SSS5      RA                  5       RC                  XgS5      nU RE                  U5      nUU4$ )Nr   )ÚminÚmaxr   r    r   rW   éÿÿÿÿéþÿÿÿz6Expecting position_bias shape to be 3 dimensions, got r   ©ÚpÚtraining)#ÚshaperN   rL   ÚclampÚchunkÚreshaperC   rF   Ú	transposeÚupdater<   r"   ÚmatmulrH   Úget_seq_lengthÚlenÚ
ValueErrorrZ   ÚsizeÚmasked_fillÚfinfor   rY   r   r
   Úsoftmaxr*   ÚtoÚdropoutrK   r_   ÚpermuteÚ
contiguousr%   rO   )rP   rS   rT   rU   rV   rW   Ú
batch_sizeÚ
seq_lengthÚ	mixed_qkvÚquery_statesÚ
key_statesÚvalue_statesÚcache_kwargsÚattention_scoresÚquery_lengthÚ
key_lengthÚposition_bias_query_indexÚposition_bias_key_indexÚattn_weightsÚcontext_statesÚattn_outputs                        r5   ÚforwardÚMptAttention.forwardY   sá  € ð "/×!4Ñ!4°R°aÐ!8Ñˆ
à—I‘I˜mÓ,ˆ	Ø==Ø!Ÿ™¨T¯]©]¨NÀÇÁ˜ÐNˆIà1:·±ÀÈ°Ð1JÑ.ˆ ,Ø#×+Ñ+¨JÀDÇLÁLÐRV×R_ÑR_Ó`×jÑjÐklÐnoÓpˆØ×'Ñ'¨
ÀÇÁÈdÏmÉmÓ\×fÑfÐghÐjkÓlˆ
Ø#×+Ñ+¨JÀDÇLÁLÐRV×R_ÑR_Ó`×jÑjÐklÐnoÓpˆàÑ%Ø,¨nÐ=ˆLØ'5×'<Ñ'<¸ZÐW[×WeÑWeÐgsÓ'tÑ$ˆJä Ÿ<š<¨×6JÑ6JÈ2ÈrÓ6RÓSÐVZ×VhÑVhÑhÐØ%3Ñ%;‘zÀ×NkÑNkÓNmÑAmˆàÑ$Ü=×&Ñ&Ó'¨1Ó,Ü Ð#YÔZ]Ð^k×^qÑ^qÓZrÐYsÐ!tÓuÐuØ#×)Ñ)¨"Ñ-ˆJä(+¨A¨}×/AÑ/AÀ!Ó/DÀ|Ñ/SÓ(TÐ%Ü&)¨!¨]×-?Ñ-?ÀÓ-BÀZÑ-OÓ&PÐ#à)ª!Ð-FÑ-GÐI`ÑIaÐ*aÑbˆMà/Ñ?ÐàÑ%Ø/×;Ñ;¸NÌEÏKÊKÐXd×XjÑXjÓLk×LoÑLoÓpÐô —}‘}×,Ñ,Ð-=×-CÑ-CÓ-EÈ2Ð,ÐN×QÑQÐR^×RdÑRdÓeˆÜ—}‘}×,Ñ,¨\¸T×=PÑ=PÐ[_×[hÑ[hÐ,ÐiˆäŸš l°LÓAˆØ'×/Ñ/°°1°a¸Ó;×FÑFÓH×MÑMÈjÐfhÓiˆØ—m‘m NÓ3ˆà˜LÐ(Ð(r7   )
rN   rK   rL   rF   rB   r<   rE   rC   rO   rH   ©N)NNN)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   r   ÚintrA   r"   ÚTensorr   r   Ú__static_attributes__Ú__classcell__©rQ   s   @r5   r9   r9   D   s‡   ø† ññ#˜yð #°X¸c±]÷ #ð #ð( +/Ø15Ø15ñ1)à—|‘|ð1)ð —|‘|ð1)ð ! ™ð	1)ð
 ! §¡Ñ.ð1)ð ! §¡Ñ.÷1)ó 1)r7   r9   c                   ó‚   ^ • \ rS rSrS\4U 4S jjrS\R                  S\R                  S\R                  4S jrSr	U =r
$ )	ÚMptMLPé   r;   c                 ó  >• [         TU ]  5         UR                  n[        R                  " USU-  SS9U l        [        R                  " SS9U l        [        R                  " SU-  USS9U l        UR                  R                  U l        g )Né   Fr>   Únone)Úapproximate)r@   rA   rB   r   rM   Úup_projÚGELUÚactÚ	down_projrG   rJ   Úhidden_dropout)rP   r;   rB   rQ   s      €r5   rA   ÚMptMLP.__init__Ž   sm   ø€ Ü‰ÑÔØ×(Ñ(ˆä—y’y ¨a°+©oÀEÑJˆŒÜ—7’7 vÑ.ˆŒÜŸš 1 {¡?°KÀeÑLˆŒØ$×0Ñ0×;Ñ;ˆÕr7   rS   ÚresidualÚreturnc                 óÂ   • U R                  U R                  U5      5      nU R                  U5      n[        R                  " X0R
                  U R                  S9nXB-   nU$ )Nr]   )r—   r•   r˜   ÚFro   r™   r_   )rP   rS   r›   Úintermediate_outputÚoutputs        r5   r   ÚMptMLP.forward—   sS   € ØŸ™ §¡¨mÓ!<Ó=ˆà"Ÿn™n¨]Ó;Ðä—’Ð.×2EÑ2EÐPT×P]ÑP]Ñ^ˆØÑ"ˆàˆr7   )r—   r˜   r™   r•   )r„   r…   r†   r‡   r   rA   r"   rŠ   r   r‹   rŒ   r   s   @r5   r   r      s:   ø† ð<˜y÷ <ð U§\¡\ð ¸U¿\¹\ð ÈeÏlÉl÷ ò r7   r   c                   óÌ   ^ • \ rS rSrSS\S\\   4U 4S jjjr    SS\R                  S\R                  S\R                  S\\
   S	\S
\S\\R                     4S jjrSrU =r$ )ÚMptBlocké¢   r;   r<   c                 óÀ  >• [         TU ]  5         UR                  n[        X1R                  S9U l        S U R
                  l        UR                  U l        [        X5      U l
        [        X1R                  S9U l        S U R                  l        [        U5      U l        UR                  R                  U l        ["        R$                  " U R                   5      U l        g )N©Úeps)r@   rA   rB   r   Úlayer_norm_epsilonÚnorm_1r?   rC   r.   r9   ÚattnÚnorm_2r   ÚffnrG   rJ   Údropout_rater   ÚDropoutÚresid_attn_dropout)rP   r;   r<   rB   rQ   s       €r5   rA   ÚMptBlock.__init__£   s¢   ø€ Ü‰ÑÔØ×(Ñ(ˆä ×1JÑ1JÑKˆŒàˆ‰ÔàŸ™ˆŒÜ  Ó3ˆŒ	ä ×1JÑ1JÑKˆŒàˆ‰Ôä˜&“>ˆŒà"×.Ñ.×9Ñ9ˆÔÜ"$§*¢*¨T×->Ñ->Ó"?ˆÕr7   rS   rT   rV   Ú
layer_pastÚ	use_cacheÚoutput_attentionsrW   c                 óÈ   • U R                  U5      nUn	U R                  UUUUUS9u  p«U R                  U
5      U	-   nU R                  U5      nUn	U R	                  X‰5      nXË4$ )N)rT   rV   rU   rW   )r©   rª   r¯   r«   r¬   )rP   rS   rT   rV   r±   r²   r³   rW   Úlayernorm_outputr›   Úattn_outputsr~   r    s                r5   r   ÚMptBlock.forward·   s†   € ð  Ÿ;™; }Ó5Ðà ˆð &*§Y¡YØØ'Ø)Ø%Ø)ð &/ð &
Ñ"ˆð ×/Ñ/°Ó=ÀÑHˆàŸ;™; }Ó5Ðð !ˆð —‘Ð*Ó5ˆØÐ#Ð#r7   )rª   r­   r¬   r©   r«   r.   r¯   rƒ   )NFFN)r„   r…   r†   r‡   r   r   r‰   rA   r"   rŠ   r   Úboolr   r‹   rŒ   r   s   @r5   r£   r£   ¢   s˜   ø† ñ@˜yð @°X¸c±]÷ @ð @ð2 '+ØØ"'Ø15ñ"$à—|‘|ð"$ð —|‘|ð"$ð Ÿ™ð	"$ð
 ˜U‘Oð"$ð ð"$ð  ð"$ð ! §¡Ñ.÷"$ó "$r7   r£   c                   óö   ^ • \ rS rSr% \\S'   SrSrS/rS/r	U 4S jr
S\R                  4S	 jr\S
\\\R"                  \R"                  4      S\\\R"                  \R"                  4      4S j5       rSrU =r$ )ÚMptPreTrainedModeléÜ   r;   ÚtransformerTr£   z
lm_head.*.c                 ó&   >• [         TU ]  " U0 UD6  g rƒ   )r@   rA   )rP   ÚinputsÚkwargsrQ   s      €r5   rA   ÚMptPreTrainedModel.__init__ä   s   ø€ Ü‰Ò˜&Ð+ FÓ+r7   Úmodulec                 ó  • [        U[        R                  5      (       ak  UR                  R                  R                  SU R                  R                  S9  UR                  b%  UR                  R                  R                  5         gg[        U[        R                  5      (       ax  UR                  R                  R                  SU R                  R                  S9  UR                  b2  UR                  R                  UR                     R                  5         gg[        U[        5      (       aW  UR                  b$  UR                  R                  R                  5         UR                  R                  R                  S5        gg)zInitialize the weights.g        )ÚmeanÚstdNr   )Ú
isinstancer   rM   ÚweightÚdataÚnormal_r;   Úinitializer_ranger?   Úzero_Ú	EmbeddingÚpadding_idxr   Úfill_)rP   rÁ   s     r5   Ú_init_weightsÚ MptPreTrainedModel._init_weightsç   s  € äfœbŸi™i×(Ñ(ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤	×*Ñ*Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Ô(ØM‰M×Ñ×$Ñ$ SÕ)ð +r7   rU   rœ   c                 ój   ^^^• U S   S   R                   u  pmmX-  m[        UUU4S jU  5       5      $ )zg
Converts the cache to the format expected by Mpt, i.e. to tuple(tuple([batch_size * num_heads, ...]))
r   c              3   óz   >#   • U H1  nUS    R                  TTT5      US   R                  TTT5      4v •  M3     g7f)r   r   N)rc   )Ú.0r±   Úbatch_size_times_num_headsrF   rs   s     €€€r5   Ú	<genexpr>Ú;MptPreTrainedModel._convert_to_mpt_cache.<locals>.<genexpr>  sL   øé € ð 
ñ
 -
ð ˜1‘×%Ñ%Ð&@À(ÈJÓWØ˜1‘×%Ñ%Ð&@À*ÈhÓWõò -ùs   ƒ8;)r`   Útuple)rU   rr   r.   rÓ   rF   rs   s      @@@r5   Ú_convert_to_mpt_cacheÚ(MptPreTrainedModel._convert_to_mpt_cacheø   sI   ú€ ð 7EÀQÑ6GÈÑ6J×6PÑ6PÑ3ˆ
˜x¨Ø%/Ñ%;Ð"ô ö 
ñ
 -ó
ó 
ð 	
r7   © )r„   r…   r†   r‡   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_keys_to_ignore_on_load_missingrA   r   ÚModulerÎ   ÚstaticmethodrÖ   r"   rŠ   r×   r‹   rŒ   r   s   @r5   rº   rº   Ü   sŒ   ø‡ àÓØ%ÐØ&*Ð#Ø#˜ÐØ'4 oÐ#õ,ð* B§I¡Iô *ð" ð
Ø˜e E§L¡L°%·,±,Ð$>Ñ?Ñ@ð
à	ˆuU—\‘\ 5§<¡<Ð/Ñ0Ñ	1ó
ó ö
r7   rº   c                   ó¨  ^ • \ rS rSrS\4U 4S jjrS rSS jrS\R                  4S jr
\         SS\\R                     S	\\\\\R                  \R                  4   S
4   \4      S\\R                     S\\R                     S\\   S\\   S\\   S\\   S\\R                     S\\\R                  S
4   \4   4S jj5       rSrU =r$ )ÚMptModeli  r;   c           
      óò  >• [         TU ]  U5        UR                  U l        UR                  U l        [
        R                  " UR                  U R                  5      U l        [
        R                  " [        UR                  5       Vs/ sH  n[        XS9PM     sn5      U l        [        U R                  UR                  S9U l        S U R                   l        SU l        U R'                  5         g s  snf )N)r<   r¦   F)r@   rA   rB   rC   r.   r   rË   Ú
vocab_sizeÚwteÚ
ModuleListÚrangeÚn_layersr£   Úblocksr   r¨   Únorm_fr?   Úgradient_checkpointingÚ	post_init)rP   r;   ÚirQ   s      €r5   rA   ÚMptModel.__init__  s¿   ø€ Ü‰Ñ˜Ô à!×-Ñ-ˆÔØŸ™ˆŒô —<’< × 1Ñ 1°4×3CÑ3CÓDˆŒô —m’mÌEÐRX×RaÑRaÔLbÓ$cÑLbÀq¤X¨fÔ%BÑLbÑ$cÓdˆŒô   × 0Ñ 0°f×6OÑ6OÑPˆŒàˆ‰Ôà&+ˆÔ#ð 	‰Õùò %ds   Â
C4c                 ó   • U R                   $ rƒ   ©rå   )rP   s    r5   Úget_input_embeddingsÚMptModel.get_input_embeddings$  s   € Øx‰xˆr7   c                 ó   • [        XX45      $ rƒ   )r6   )rP   r.   r/   r0   r   s        r5   r6   ÚMptModel.build_mpt_alibi_tensor'  s   € Ü% iÀ.ÓYÐYr7   Únew_embeddingsc                 ó   • Xl         g rƒ   rð   ©rP   rõ   s     r5   Úset_input_embeddingsÚMptModel.set_input_embeddings*  s   € Ø!r7   Ú	input_idsÚpast_key_values.rV   Úinputs_embedsr²   r³   Úoutput_hidden_statesÚreturn_dictrW   rœ   c
                 ón  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUb  Ub  [        S5      eUb  UR                  u  p¼OUb  UR                  u  p¼nO[        S5      eU R                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnUc  U R                  U5      nSnU(       aB  [        U[        5      (       d-  Sn[        R                  S5        [        R                  " U5      nUnU(       a  SOSnU(       a  SOSnUb  UR!                  5       OS	nUU-   nUc"  ["        R$                  " UU4UR&                  S
9nOUR)                  UR&                  5      nU R+                  U R,                  U R                   R.                  UR&                  S
9n[1        X;U4UU5      nUR3                  5       nU R4                   H3  nU(       a  UU4-   nU" UUUUUUU	S9nUS	   nU(       d  M*  UUS   4-   nM5     U R7                  U5      nU(       a  UR9                  5       nU(       a  UU4-   nU(       d  [;        S XòUU4 5       5      $ [=        UUUUS9$ )áj  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values.get_seq_length()`
    (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

    If `past_key_values` is used, only `input_ids` that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are input IDs?](../glossary#input-ids)
NzDYou cannot specify both input_ids and inputs_embeds at the same timez5You have to specify either input_ids or inputs_embedszZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...FTzÞPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `DynamicCache` instead, e.g. `past_key_values=DynamicCache.from_legacy_cache(past_key_values)`.rÙ   r   ©r   )r±   rV   r²   r³   rT   rW   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frƒ   rÙ   )rÒ   Úvs     r5   rÔ   Ú#MptModel.forward.<locals>.<genexpr>œ  s   é € ð Ùca—‘Òcùs   ‚‹	)Úlast_hidden_staterû   rS   Ú
attentions)r;   r³   rý   r²   Úuse_return_dictri   r`   rë   r_   ÚloggerÚwarning_oncerå   rÅ   r   r   Úfrom_legacy_cacherg   r"   Úonesr   rn   r6   r.   rD   r   r¸   ré   rê   Úto_legacy_cacherÖ   r   )rP   rú   rû   rV   rü   r²   r³   rý   rþ   rW   r¿   rr   rs   Ú_Úreturn_legacy_cacherS   Úall_self_attentionsÚall_hidden_statesÚpast_key_values_lengthÚseq_length_with_pastr1   Úcausal_maskÚblockÚoutputss                           r5   r   ÚMptModel.forward-  sÓ  € ð6 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø%.§_¡_Ñ"ˆJ˜
ØÑ&Ø(5×(;Ñ(;Ñ%ˆJ¡AäÐTÓUÐUà×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	àÑ Ø ŸH™H YÓ/ˆMà#ÐÞœZ¨¼×?Ñ?Ø"&ÐÜ×ÑðUôô
 +×<Ò<¸_ÓMˆOà%ˆæ$5™b¸4ÐÞ"6™B¸DÐð FUÑE` ×!?Ñ!?Ô!AÐfgÐØ)Ð,BÑBÐØÑ!Ü"ŸZšZ¨Ð5IÐ(JÐS`×SgÑSgÑh‰Nà+×.Ñ.¨}×/CÑ/CÓDˆNà×+Ñ+¨D¯N©N¸D¿K¹K×<SÑ<SÐ\i×\pÑ\pÐ+Ðqˆä7Ø¨Ð4°mÐE[ó
ˆð "×&Ñ&Ó(ˆà—[”[ˆEÞ#Ø$5¸Ð8HÑ$HÐ!áØØ*Ø*Ø#Ø"3Ø#Ø-ñˆGð $ A™JˆMß Ð Ø&9¸WÀQ¹Z¸MÑ&IÒ#ñ! !ð& Ÿ™ MÓ2ˆæØ-×=Ñ=Ó?ˆOæØ 1°]Ð4DÑ DÐæÜñ Ø)Ð<MÐObÑcóó ð ô 9Ø+Ø+Ø+Ø*ñ	
ð 	
r7   )ré   rë   rB   rê   r.   rå   ©é   N©	NNNNNNNNN)r„   r…   r†   r‡   r   rA   rñ   r6   r"   rŠ   rø   r   r   Ú
LongTensorr   rÖ   r   r¸   r   r   r‹   rŒ   r   s   @r5   râ   râ     sG  ø† ð˜y÷ ò,ôZð"°5·<±<ô "ð ð 15ØaeØ15Ø48Ø$(Ø,0Ø/3Ø&*Ø15ñw
à˜E×,Ñ,Ñ-ðw
ð " %¨¨e°E·L±LÀ%Ç,Á,Ð4NÑ.OÐQTÐ.TÑ(UÐW\Ð(\Ñ"]Ñ^ðw
ð ! §¡Ñ.ð	w
ð
   × 0Ñ 0Ñ1ðw
ð ˜D‘>ðw
ð $ D™>ðw
ð ' t™nðw
ð ˜d‘^ðw
ð ! §¡Ñ.ðw
ð 
ˆuU—\‘\ 3Ð&Ñ'Ð)RÐRÑ	Sôw
ó öw
r7   râ   z†
    The MPT Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc                   ó°  ^ • \ rS rSrS/rS\4U 4S jjrS\R                  4S jr	\
          SS\\R                     S\\\\R                  \R                  4   S	4      S
\\R                     S\\R                     S\\R                     S\\   S\\   S\\   S\\   S\\R                     S\\\R                     \4   4S jj5       rSrU =r$ )ÚMptForCausalLMi¨  zlm_head.weightr;   c                 óÂ   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  UR                  SS9U l        U R                  5         g ©NFr>   )
r@   rA   râ   r¼   r   rM   rB   rä   Úlm_headrì   ©rP   r;   rQ   s     €r5   rA   ÚMptForCausalLM.__init__±  sI   ø€ Ü‰Ñ˜Ô Ü# FÓ+ˆÔÜ—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒð 	‰Õr7   rõ   c                 ó   • Xl         g rƒ   )r   r÷   s     r5   Úset_output_embeddingsÚ$MptForCausalLM.set_output_embeddings¹  s   € Ø%r7   rú   rû   .rV   rü   Úlabelsr²   r³   rý   rþ   rW   rœ   c                 ó²  • U	b  U	OU R                   R                  n	U R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nSnUbE  UR	                  UR
                  5      nU R                  " UU4SU R                   R                  0UD6nU	(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  S9$ )aô  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values.get_seq_length()`
    (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

    If `past_key_values` is used, only `input_ids` that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are input IDs?](../glossary#input-ids)
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for language modeling. Note that the labels **are shifted** inside the model, i.e. you can set
    `labels = input_ids` Indices are selected in `[-100, 0, ..., config.vocab_size]` All labels set to `-100`
    are ignored (masked), the loss is only computed for labels in `[0, ..., config.vocab_size]`
N)rû   rV   rü   r²   r³   rý   rþ   rW   r   rä   r   ©ÚlossÚlogitsrû   rS   r  )r;   r  r¼   r   rn   r   Úloss_functionrä   r   rû   rS   r  )rP   rú   rû   rV   rü   r&  r²   r³   rý   rþ   rW   r¿   Útransformer_outputsrS   Ú	lm_logitsr)  r    s                    r5   r   ÚMptForCausalLM.forward¼  s  € ð@ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø'ØØ/Ø!5Ø#Ø)ð /ð 

Ðð ,¨AÑ.ˆà—L‘L Ó/ˆ	àˆØÑà—Y‘Y˜y×/Ñ/Ó0ˆFà×%Ò%ØØñð  Ÿ;™;×1Ñ1ðð ñ	ˆDö Ø\Ð$7¸¸Ð$;Ñ;ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä0ØØØ/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ñ
ð 	
r7   )r   r¼   )
NNNNNNNNNN)r„   r…   r†   r‡   Ú_tied_weights_keysr   rA   r"   rŠ   r$  r   r   r  rÖ   r¸   r   r   r   r‹   rŒ   r   s   @r5   r  r  ¨  sK  ø† ð +Ð+Ðð˜y÷ ð&°E·L±Lô &ð ð 15ØSWØ15Ø04Ø)-Ø$(Ø,0Ø/3Ø&*Ø15ñF
à˜E×,Ñ,Ñ-ðF
ð " %¨¨e¯l©l¸E¿L¹LÐ.HÑ(IÈ3Ð(NÑ"OÑPðF
ð ! §¡Ñ.ð	F
ð
   §¡Ñ-ðF
ð ˜Ÿ™Ñ&ðF
ð ˜D‘>ðF
ð $ D™>ðF
ð ' t™nðF
ð ˜d‘^ðF
ð ! §¡Ñ.ðF
ð 
ˆuU—\‘\Ñ"Ð$EÐEÑ	FôF
ó öF
r7   r  aÒ  
    The MPT Model transformer with a sequence classification head on top (linear layer).

    [`MptForSequenceClassification`] uses the last token in order to do the classification, as other causal models
    (e.g. GPT-1) do.

    Since it does classification on the last token, it requires to know the position of the last token. If a
    `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in each row. If
    no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot guess the
    padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last value in
    each row of the batch).
    c                   óh  ^ • \ rS rSrS\4U 4S jjr\         SS\\R                     S\\
\
\R                  \R                  4   S4      S\\R                     S\\R                     S	\\R                     S
\\   S\\   S\\   S\\   S\\
\R                     \4   4S jj5       rSrU =r$ )ÚMptForSequenceClassificationi  r;   c                 óä   >• [         TU ]  U5        UR                  U l        [        U5      U l        [
        R                  " UR                  UR                  SS9U l        U R                  5         g r  )
r@   rA   Ú
num_labelsrâ   r¼   r   rM   rB   Úscorerì   r!  s     €r5   rA   Ú%MptForSequenceClassification.__init__  sV   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒÜ# FÓ+ˆÔÜ—Y’Y˜v×1Ñ1°6×3DÑ3DÈ5ÑQˆŒ
ð 	‰Õr7   rú   rû   .rV   rü   r&  r²   r³   rý   rþ   rœ   c
                 ó†  • U	b  U	OU R                   R                  n	U R                  UUUUUUUU	S9n
U
S   nU R                  U5      nUb  UR                  S   nOUR                  S   nU R                   R
                  c  US:w  a  [        S5      eU R                   R
                  c  SnOÁUb  XR                   R
                  :g  R                  UR                  [        R                  5      n[        R                  " UR                  S   UR                  [        R                  S9nUU-  R                  S5      nO.Sn[        R                  U R                  R                    S35        U[        R                  " XÜR                  S	9U4   nSnUGbg  U R                   R"                  c‘  U R$                  S:X  a  S
U R                   l        OoU R$                  S:”  aN  UR&                  [        R(                  :X  d  UR&                  [        R*                  :X  a  SU R                   l        OSU R                   l        U R                   R"                  S
:X  aJ  [-        5       nU R$                  S:X  a&  U" UR/                  5       UR/                  5       5      nOeU" UU5      nO[U R                   R"                  S:X  a  [1        5       nU" UU5      nO-U R                   R"                  S:X  a  [3        5       nU" UU5      nU	(       d  U4U
SS -   nUb  U4U-   $ U$ [5        UUU
R6                  U
R8                  U
R:                  S9$ )áÎ  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values.get_seq_length()`
    (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

    If `past_key_values` is used, only `input_ids` that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are input IDs?](../glossary#input-ids)
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
N©rû   rV   rü   r²   r³   rý   rþ   r   r   z=Cannot handle batch sizes > 1 if no padding token is defined.r[   )r   r   zŠ will not detect padding tokens in `inputs_embeds`. Results may be unexpected if using padding tokens in conjunction with `inputs_embeds.`r  Ú
regressionÚsingle_label_classificationÚmulti_label_classificationr(  )r;   r  r¼   r4  r`   Úpad_token_idri   rn   r   r"   r$   r#   Úargmaxr  r	  rQ   r„   Úproblem_typer3  r   Úlongr‰   r	   r-   r   r   r   rû   rS   r  )rP   rú   rû   rV   rü   r&  r²   r³   rý   rþ   r,  rS   r*  rr   Úlast_non_pad_tokenÚnon_pad_maskÚtoken_indicesÚpooled_logitsr)  Úloss_fctr    s                        r5   r   Ú$MptForSequenceClassification.forward  sé  € ð< &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø'ØØ/Ø!5Ø#ð /ð 	
Ðð ,¨AÑ.ˆØ—‘˜MÓ*ˆàÑ Ø"Ÿ™¨Ñ+‰Jà&×,Ñ,¨QÑ/ˆJà;‰;×#Ñ#Ñ+°
¸a³ÜÐ\Ó]Ð]Ø;‰;×#Ñ#Ñ+Ø!#ÑØÑ"à%¯©×)AÑ)AÑA×EÑEÀfÇmÁmÔUZ×U`ÑU`ÓaˆLÜ!ŸLšL¨¯©¸Ñ)<ÀVÇ]Á]ÔZ_×ZeÑZeÑfˆMØ"/°,Ñ">×!FÑ!FÀrÓ!JÑà!#ÐÜ×ÑØ—>‘>×*Ñ*Ð+ð ,Zð Zôð
 œuŸ|š|¨J¿}¹}ÑMÐOaÐaÑbˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# M×$9Ñ$9Ó$;¸V¿^¹^Ó=MÓN‘Dá# M°6Ó:‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù ¨vÓ6‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù ¨vÓ6ÞØ#Ð%Ð(;¸A¸BÐ(?Ñ?ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä/ØØ Ø/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ñ
ð 	
r7   )r3  r4  r¼   r  )r„   r…   r†   r‡   r   rA   r   r   r"   r  rÖ   rŠ   r¸   r   r   r   r‹   rŒ   r   s   @r5   r1  r1    s  ø† ð˜y÷ ð ð 15ØSWØ15Ø04Ø)-Ø$(Ø,0Ø/3Ø&*ñd
à˜E×,Ñ,Ñ-ðd
ð " %¨¨e¯l©l¸E¿L¹LÐ.HÑ(IÈ3Ð(NÑ"OÑPðd
ð ! §¡Ñ.ð	d
ð
   §¡Ñ-ðd
ð ˜Ÿ™Ñ&ðd
ð ˜D‘>ðd
ð $ D™>ðd
ð ' t™nðd
ð ˜d‘^ðd
ð 
ˆuU—\‘\Ñ"Ð$DÐDÑ	Eôd
ó öd
r7   r1  c                   óh  ^ • \ rS rSrS\4U 4S jjr\         SS\\R                     S\\
\
\R                  \R                  4   S4      S\\R                     S\\R                     S	\\R                     S
\\   S\\   S\\   S\\   S\\
\R                     \4   4S jj5       rSrU =r$ )ÚMptForTokenClassificationi†  r;   c                 óÌ  >• [         TU ]  U5        UR                  U l        [        U5      U l        [        US5      (       a  UR                  b  UR                  nO-[        US5      (       a  UR                  b  UR                  nOSn[        R                  " U5      U l
        [        R                  " UR                  UR                  5      U l        U R                  5         g )NÚclassifier_dropoutr™   gš™™™™™¹?)r@   rA   r3  râ   r¼   ÚhasattrrI  r™   r   r®   ro   rM   rB   Ú
classifierrì   )rP   r;   rI  rQ   s      €r5   rA   Ú"MptForTokenClassification.__init__ˆ  sµ   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä# FÓ+ˆÔÜ6Ð/×0Ñ0°V×5NÑ5NÑ5ZØ!'×!:Ñ!:ÑÜVÐ-×.Ñ.°6×3HÑ3HÑ3TØ!'×!6Ñ!6Ñà!$ÐÜ—z’zÐ"4Ó5ˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰Õr7   rú   rû   .rV   rü   r&  r²   r³   rý   rþ   rœ   c
                 ó
  • U	b  U	OU R                   R                  n	U R                  UUUUUUUU	S9nUS   nU R                  U5      nU R	                  U5      nSnUbl  UR                  UR                  5      nUR                  u  nn[        5       nU" UR                  UU-  U R                  5      UR                  UU-  5      5      nU	(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )r7  Nr8  r   r   )r)  r*  rS   r  )r;   r  r¼   ro   rK  rn   r   r`   r   r%   r3  r   rS   r  )rP   rú   rû   rV   rü   r&  r²   r³   rý   rþ   Údeprecated_argumentsr,  rS   r*  r)  rr   rs   rD  r    s                      r5   r   Ú!MptForTokenClassification.forward™  s+  € ð> &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø'ØØ/Ø!5Ø#ð /ð 	
Ðð ,¨AÑ.ˆØŸ™ ]Ó3ˆØ—‘ Ó/ˆàˆØÑà—Y‘Y˜vŸ}™}Ó-ˆFØ%+§\¡\Ñ"ˆJ˜
Ü'Ó)ˆHÙØ—‘˜J¨Ñ3°T·_±_ÓEÀvÇ{Á{ÐS]Ð`jÑSjÓGkóˆDö ØYÐ!4°Q°RÐ!8Ñ8ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ-×;Ñ;Ø*×5Ñ5ñ	
ð 	
r7   )rK  ro   r3  r¼   r  )r„   r…   r†   r‡   r   rA   r   r   r"   r  rÖ   rŠ   r¸   r   r   r   r‹   rŒ   r   s   @r5   rG  rG  †  s  ø† ð˜y÷ ð" ð 15ØSWØ15Ø04Ø)-Ø$(Ø,0Ø/3Ø&*ñB
à˜E×,Ñ,Ñ-ðB
ð " %¨¨e¯l©l¸E¿L¹LÐ.HÑ(IÈ3Ð(NÑ"OÑPðB
ð ! §¡Ñ.ð	B
ð
   §¡Ñ-ðB
ð ˜Ÿ™Ñ&ðB
ð ˜D‘>ðB
ð $ D™>ðB
ð ' t™nðB
ð ˜d‘^ðB
ð 
ˆuU—\‘\Ñ"Ð$9Ð9Ñ	:ôB
ó öB
r7   rG  c                   ó  ^ • \ rS rSrU 4S jr\        SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\
   S	\\
   S
\\
   S\\\4   4S jj5       rSrU =r$ )ÚMptForQuestionAnsweringiß  c                 ó°   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  S5      U l        U R                  5         g )Nr   )	r@   rA   râ   r¼   r   rM   rB   Ú
qa_outputsrì   r!  s     €r5   rA   Ú MptForQuestionAnswering.__init__á  sA   ø€ Ü‰Ñ˜Ô Ü# FÓ+ˆÔÜŸ)š) F×$6Ñ$6¸Ó:ˆŒð 	‰Õr7   rú   rV   rü   Ústart_positionsÚend_positionsr³   rý   rþ   rœ   c	           	      ó  • Ub  UOU R                   R                  nU R                  UUUUUUS9n	U	S   n
U R                  U
5      nUR	                  SSS9u  pÍUR                  S5      R                  5       nUR                  S5      R                  5       nSnUbµ  Ub²  [        UR                  5       5      S:”  a  UR                  S5      n[        UR                  5       5      S:”  a  UR                  S5      nUR                  S5      nUR                  SU5      nUR                  SU5      n[        US9nU" XÄ5      nU" XÕ5      nUU-   S-  nU(       d  XÍ4U	SS -   nUb  U4U-   $ U$ [        UUUU	R                  U	R                  S	9$ )
r   N)rV   rü   r³   rý   rþ   r   r   r[   r    )Úignore_indexr   )r)  Ústart_logitsÚ
end_logitsrS   r  )r;   r  r¼   rS  Úsplitr-   rq   rh   rj   ra   r   r   rS   r  )rP   rú   rV   rü   rU  rV  r³   rý   rþ   r  Úsequence_outputr*  rY  rZ  Ú
total_lossÚignored_indexrD  Ú
start_lossÚend_lossr    s                       r5   r   ÚMptForQuestionAnswering.forwardé  s³  € ð2 &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×"Ñ"ØØ)Ø'Ø/Ø!5Ø#ð #ð 
ˆð " !™*ˆà—‘ Ó1ˆØ#)§<¡<°°r <Ð#:Ñ ˆØ#×+Ñ+¨BÓ/×:Ñ:Ó<ˆØ×'Ñ'¨Ó+×6Ñ6Ó8ˆ
àˆ
ØÑ&¨=Ñ+Dä?×'Ñ'Ó)Ó*¨QÓ.Ø"1×"9Ñ"9¸"Ó"=Ü=×%Ñ%Ó'Ó(¨1Ó,Ø -× 5Ñ 5°bÓ 9à(×-Ñ-¨aÓ0ˆMØ-×3Ñ3°A°}ÓEˆOØ)×/Ñ/°°=ÓAˆMä'°]ÑCˆHÙ! ,Ó@ˆJÙ 
Ó:ˆHØ$ xÑ/°1Ñ4ˆJæØ"Ð/°'¸!¸"°+Ñ=ˆFØ/9Ñ/EZM FÑ*ÐQÈ6ÐQä+ØØ%Ø!Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r7   )rS  r¼   )NNNNNNNN)r„   r…   r†   r‡   rA   r   r   r"   r  ÚFloatTensorr¸   r   rÖ   r   r   r‹   rŒ   r   s   @r5   rQ  rQ  ß  sç   ø† õð ð 15Ø6:Ø59Ø6:Ø48Ø,0Ø/3Ø&*ñE
à˜E×,Ñ,Ñ-ðE
ð ! ×!2Ñ!2Ñ3ðE
ð   × 1Ñ 1Ñ2ð	E
ð
 " %×"2Ñ"2Ñ3ðE
ð   × 0Ñ 0Ñ1ðE
ð $ D™>ðE
ð ' t™nðE
ð ˜d‘^ðE
ð 
ˆuÐ2Ð2Ñ	3ôE
ó öE
r7   rQ  )r  râ   rº   r1  rG  rQ  r  )4rˆ   r&   Útypingr   r   r"   Útorch.utils.checkpointr   Útorch.nnr   r   r   r	   r
   rž   Úcache_utilsr   r   Ú
generationr   Úmodeling_attn_mask_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_mptr   Ú
get_loggerr„   r  r6   rß   r9   r   r£   rº   râ   r  r1  rG  rQ  Ú__all__rÙ   r7   r5   Ú<module>rp     sd  ðñ ã ß "ã Û Ý ß LÓ LÝ $ç .Ý )Ý IÝ 9÷õ õ .ß ,Ý (ð 
×	Ò	˜HÓ	%€ôô.F)2—9‘9ô F)ôRˆRY‰Yô ô*7$Ð)ô 7$ðt ô,
˜ó ,
ó ð,
ð^ ôX
Ð!ó X
ó ðX
ñv ðñôU
Ð'¨ó U
óðU
ñp ðñôo
Ð#5ó o
óðo
ðd ôU
Ð 2ó U
ó ðU
ðp ôO
Ð0ó O
ó ðO
òdr7   