ó
    <±h—~  ã                   óâ  • S r SSKrSSKJrJr  SSKrSSKrSSKJr  SSKJ	r	  SSK
JrJr  SSKJr  SS	KJrJr  SS
KJr  SSKJrJr  SSKJr  SSKJrJr  SSKJr  \R<                  " \5      r  " S S\RB                  5      r" " S S\RF                  5      r$ " S S\RF                  5      r% " S S\5      r&\ " S S\5      5       r'\ " S S\'5      5       r(\" SS9 " S S\'\5      5       r)/ S Qr*g)!zPyTorch XGLM model.é    N)ÚOptionalÚUnion)Únné   )ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)Ú_prepare_4d_attention_maskÚ!_prepare_4d_causal_attention_mask)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentions)ÚPreTrainedModel)Úauto_docstringÚloggingé   )Ú
XGLMConfigc            
       ór   ^ • \ rS rSrSrSS\S\S\S\\   4U 4S jjjrS\	R                  4U 4S	 jjrS
rU =r$ )ÚXGLMScaledWordEmbeddingé'   zT
This module overrides nn.Embeddings' forward by multiplying with embeddings scale.
Únum_embeddingsÚembedding_dimÚpadding_idxÚembed_scalec                 ó2   >• [         TU ]  XU5        X@l        g ©N)ÚsuperÚ__init__r   )Úselfr   r   r   r   Ú	__class__s        €Ú^/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/xglm/modeling_xglm.pyr   Ú XGLMScaledWordEmbedding.__init__,   s   ø€ Ü‰Ñ˜¸ÔDØ&Õó    Ú	input_idsc                 ó<   >• [         TU ]  U5      U R                  -  $ r   )r   Úforwardr   )r    r%   r!   s     €r"   r'   ÚXGLMScaledWordEmbedding.forward0   s   ø€ Ü‰w‰˜yÓ)¨D×,<Ñ,<Ñ<Ð<r$   ©r   )ç      ð?)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Úintr   Úfloatr   ÚtorchÚTensorr'   Ú__static_attributes__Ú__classcell__©r!   s   @r"   r   r   '   sJ   ø† ññ' sð '¸3ð 'ÈSð 'Ð_gÐhmÑ_n÷ 'ð 'ð= §¡÷ =õ =r$   r   c            	       óè   ^ • \ rS rSrSrSS\S\S\\   4U 4S jjjrSS\S\S\\   4S jjr\	SS\S\S\\   4S	 jj5       r
\R                  " 5       SS
\\R                     S\4S jj5       rSrU =r$ )Ú!XGLMSinusoidalPositionalEmbeddingé4   zDThis module produces sinusoidal positional embeddings of any length.Únum_positionsr   r   c                 ó„   >• [         TU ]  5         SU l        X l        X0l        U R                  XR                  -   X#5        g )Né   )r   r   Úoffsetr   r   Úmake_weights)r    r:   r   r   r!   s       €r"   r   Ú*XGLMSinusoidalPositionalEmbedding.__init__7   s8   ø€ Ü‰ÑÔØˆŒØ*ÔØ&ÔØ×Ñ˜-¯+©+Ñ5°}ÕRr$   r   c                 óÜ   • U R                  XU5      n[        U S5      (       a8  UR                  U R                  R                  U R                  R
                  S9nU R                  SUSS9  g )NÚweights©ÚdtypeÚdeviceF)Ú
persistent)Úget_embeddingÚhasattrÚtorA   rC   rD   Úregister_buffer)r    r   r   r   Úemb_weightss        r"   r>   Ú.XGLMSinusoidalPositionalEmbedding.make_weights>   s\   € Ø×(Ñ(¨ÈÓTˆÜ4˜×#Ñ#à%Ÿ.™.¨t¯|©|×/AÑ/AÈ$Ï,É,×J]ÑJ]˜.Ð^ˆKà×Ñ˜Y¨ÀÐÒFr$   c                 óà  • US-  n[         R                  " S5      US-
  -  n[        R                  " [        R                  " U[        R
                  S9R                  5       U* -  5      n[        R                  " U [        R
                  S9R                  5       R                  S5      UR                  S5      -  n[        R                  " [        R                  " U5      [        R                  " U5      /SS9R                  U S5      nUS-  S:X  a,  [        R                  " U[        R                  " U S5      /SS9nUb  SXBSS24'   UR                  [        R                  " 5       5      $ )	zª
Build sinusoidal embeddings.

This matches the implementation in tensor2tensor, but differs slightly from the description in Section 3.5 of
"Attention Is All You Need".
r<   i'  r   )rC   r   ©ÚdiméÿÿÿÿN)ÚmathÚlogr2   ÚexpÚarangeÚint64r1   Ú	unsqueezeÚcatÚsinÚcosÚviewÚzerosrH   Úget_default_dtype)r   r   r   Úhalf_dimÚembs        r"   rF   Ú/XGLMSinusoidalPositionalEmbedding.get_embeddingF   s  € ð ! AÑ%ˆÜhŠhu‹o ¨A¡Ñ.ˆÜiŠiœŸš X´U·[±[ÑA×GÑGÓIÈSÈDÑPÓQˆÜlŠl˜>´·±Ñ=×CÑCÓE×OÑOÐPQÓRÐUX×UbÑUbÐcdÓUeÑeˆÜiŠiœŸš 3›¬¯ª°3«Ð8¸aÑ@×EÑEÀnÐVXÓYˆØ˜1Ñ Ó!ä—)’)˜S¤%§+¢+¨n¸aÓ"@ÐAÀqÑIˆCØÑ"Ø"#ˆCšQÑàv‰v”e×-Ò-Ó/Ó0Ð0r$   Úposition_idsÚpast_key_values_lengthc                 óš  • UR                  5       u  p4XR                  -  nSU-   U-   nXPR                  R                  S5      :”  a&  U R                  XPR                  U R
                  5        U R                  R                  SUR                  S5      5      R                  X4U R                  R                  S   5      R                  5       $ )Nr<   r   rO   )
Úsizer=   rA   r>   r   r   Úindex_selectrY   ÚshapeÚdetach)r    r_   r`   ÚbszÚseq_lenÚmax_poss         r"   r'   Ú)XGLMSinusoidalPositionalEmbedding.forward[   s«   € à#×(Ñ(Ó*‰ˆØŸ™Ñ#ˆð g‘+Ð 6Ñ6ˆØ—\‘\×&Ñ& qÓ)Ó)Ø×Ñ˜g×'9Ñ'9¸4×;KÑ;KÔLà|‰|×(Ñ(¨¨L×,=Ñ,=¸bÓ,AÓB×GÑGÈÐVZ×VbÑVb×VhÑVhÐikÑVlÓm×tÑtÓvÐvr$   )r   r=   r   r   )Nr   )r+   r,   r-   r.   r/   r0   r   r   r>   ÚstaticmethodrF   r2   Úno_gradr3   r'   r4   r5   r6   s   @r"   r8   r8   4   s¸   ø† ÙNñS cð S¸#ð SÈHÐUXÉM÷ Sð SñG¨3ð G¸sð GÐQYÐZ]ÑQ^õ Gð ñ1 cð 1¸#ð 1ÈHÐUXÉMô 1ó ð1ð( ‡]‚]ƒ_ñ	w H¨U¯\©\Ñ$:ð 	wÐ[^ô 	wó ö	wr$   r8   c                   ó‚  ^ • \ rS rSrSr    SS\S\S\\   S\\   S\\   S\\   4U 4S	 jjjr	      SS
\
R                  S\\
R                     S\\   S\\
R                     S\\
R                     S\S\\
R                     S\\
R                  \\
R                     \\\
R                        4   4S jjrSrU =r$ )ÚXGLMAttentionéh   z=Multi-headed attention from 'Attention Is All You Need' paperÚ	embed_dimÚ	num_headsÚdropoutÚ
is_decoderÚbiasÚ	layer_idxc                 óÚ  >• [         TU ]  5         Xl        X l        X0l        X-  U l        U R
                  U-  U R                  :w  a  [        SU R                   SU S35      eU R
                  S-  U l        X@l        X`l	        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).g      à¿©rs   )r   r   ro   rp   rq   Úhead_dimÚ
ValueErrorÚscalingrr   rt   r   ÚLinearÚk_projÚv_projÚq_projÚout_proj)r    ro   rp   rq   rr   rs   rt   r!   s          €r"   r   ÚXGLMAttention.__init__k   sÉ   ø€ ô 	‰ÑÔØ"ŒØ"ŒØŒØ!Ñ.ˆŒàM‰M˜IÑ%¨$¯.©.Ó8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ŒØ"Œä—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜŸ	š	 )¸TÑBˆr$   Úhidden_statesÚkey_value_statesÚpast_key_valueÚattention_maskÚlayer_head_maskÚoutput_attentionsÚcache_positionÚreturnc                 óf  • USLnUR                  5       u  pšnU(       a  UR                  S   OU
nU R                  U5      U R                  -  nUb]  [	        U[
        5      (       aF  UR                  R                  U R                  5      nU(       a  UR                  nOUR                  nOUnU(       a  UOUnU(       aQ  UbN  W(       aG  WR                  U R                     R                  nUR                  U R                     R                  nOÍU R                  U5      nU R                  U5      nUR!                  XœSU R"                  5      R%                  SS5      nUR!                  XœSU R"                  5      R%                  SS5      nUbN  U(       d  UOSnWR'                  UUU R                  SU05      u  nnU(       a  SUR                  U R                  '   XR(                  -  SU R"                  4nUR!                  XšU R(                  U R"                  5      R%                  SS5      nUR*                  " U6 nUR*                  " U6 nUR*                  " U6 nUR                  S5      n[,        R.                  " UUR%                  SS5      5      nUR                  5       XR(                  -  X¬4:w  a-  [1        SXR(                  -  X¬4 SUR                  5        35      eUbÒ  UR                  5       U	SX¬4:w  a"  [1        S	U	SX¬4 SUR                  5        35      eUR!                  XR(                  X¬5      U-   n[,        R2                  " U[,        R4                  " [,        R6                  " UR8                  5      R:                  UR<                  S
95      nUR!                  XR(                  -  X¬5      nUR8                  [,        R>                  :X  aK  [@        RB                  RE                  US[,        RF                  S9RI                  [,        R>                  5      nO[@        RB                  RE                  USS9nUb˜  UR                  5       U R(                  4:w  a*  [1        SU R(                  4 SUR                  5        35      eUR!                  SSSS5      UR!                  XR(                  X¬5      -  nUR!                  XR(                  -  X¬5      nU(       a;  UR!                  XR(                  X¬5      nUR!                  XR(                  -  X¬5      nOSn[@        RB                  RK                  UU RJ                  U RL                  S9n[,        R.                  " UU5      nUR                  5       XR(                  -  X R"                  4:w  a5  [1        SXR(                  X R"                  4 SUR                  5        35      eUR!                  XR(                  X R"                  5      nUR%                  SS5      nUR+                  XšU RN                  5      nU RQ                  U5      nUU4$ )z#Input shape: Batch x Time x ChannelNr   rO   r<   r†   Tz$Attention weights should be of size z	, but is z!Attention mask should be of size )rD   )rN   rC   rM   z/Head mask for a single layer should be of size ©ÚpÚtrainingz `attn_output` should be of size ))rb   rd   r}   ry   Ú
isinstancer	   Ú
is_updatedÚgetrt   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesr{   r|   rY   rw   Ú	transposeÚupdaterp   Úreshaper2   Úbmmrx   ÚmaxÚtensorÚfinforC   ÚminrD   Úfloat16r   Ú
functionalÚsoftmaxÚfloat32rH   rq   r‹   ro   r~   )r    r€   r   r‚   rƒ   r„   r…   r†   Úis_cross_attentionrf   Útgt_lenÚ_Úsrc_lenÚquery_statesr   Úcurr_past_key_valueÚcurrent_statesÚ
key_statesÚvalue_statesÚ
proj_shapeÚattn_weightsÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                           r"   r'   ÚXGLMAttention.forwardˆ   s…  € ð .°TÐ9Ðà'×,Ñ,Ó.‰ˆaÞ/AÐ"×(Ñ(¨Ò+Àwˆð —{‘{ =Ó1°D·L±LÑ@ˆàÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ-?Ñ)À]ˆÞ .Ñ"<Æà,×3Ñ3°D·N±NÑC×HÑHˆJØ.×5Ñ5°d·n±nÑE×LÑL‰LàŸ™ ^Ó4ˆJØŸ;™; ~Ó6ˆLØ#Ÿ™¨°r¸4¿=¹=ÓI×SÑSÐTUÐWXÓYˆJØ'×,Ñ,¨S¸2¸t¿}¹}ÓM×WÑWÐXYÐ[\Ó]ˆLàÑ)æ7I¡ÈtØ+>×+EÑ+EØ ¨d¯n©nÐ?OÐQ_Ð>`ó,Ñ(
˜Lö &Ø@DN×-Ñ-¨d¯n©nÑ=àŸN™NÑ*¨B°·±Ð>ˆ
Ø#×(Ñ(¨°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØ#×+Ò+¨ZÐ8ˆØ×'Ò'¨Ð4ˆ
Ø#×+Ò+¨ZÐ8ˆà—/‘/ !Ó$ˆÜ—y’y ¨z×/CÑ/CÀAÀqÓ/IÓJˆà×ÑÓ 3¯©Ñ#7¸Ð"JÓJÜØ6¸¿n¹nÑ8LÈgÐ7_Ð6`ð aØ ×%Ñ%Ó'Ð(ð*óð ð
 Ñ%Ø×"Ñ"Ó$¨¨a°Ð(BÓBÜ Ø7¸¸aÀÐ8RÐ7SÐS\Ð]k×]pÑ]pÓ]rÐ\sÐtóð ð (×,Ñ,¨S·.±.À'ÓSÐVdÑdˆLÜ Ÿ9š9ØœeŸlšl¬5¯;ª;°|×7IÑ7IÓ+J×+NÑ+NÐWc×WjÑWjÑkóˆLð (×,Ñ,¨S·>±>Ñ-AÀ7ÓTˆLð ×Ñ¤§¡Ó.ÜŸ=™=×0Ñ0°À2ÌUÏ]É]Ð0Ð[×^Ñ^Ô_d×_lÑ_lÓm‰LäŸ=™=×0Ñ0°À2Ð0ÐFˆLàÑ&Ø×#Ñ#Ó%¨$¯.©.Ð):Ó:Ü ØEÀtÇ~Á~ÐFWÐEXð YØ'×,Ñ,Ó.Ð/ð1óð ð +×/Ñ/°°2°q¸!Ó<¸|×?PÑ?PÐQT×VdÑVdÐfmÓ?wÑwˆLØ'×,Ñ,¨S·>±>Ñ-AÀ7ÓTˆLæð
 %1×$5Ñ$5°c¿>¹>È7Ó$\Ð!Ø0×5Ñ5°c¿N¹NÑ6JÈGÓ]‰Là$(Ð!ä—]‘]×*Ñ*¨<¸4¿<¹<ÐRV×R_ÑR_Ð*Ð`ˆ
ä—i’i 
¨LÓ9ˆà×ÑÓ #¯©Ñ"6¸ÇÁÐ!OÓOÜØ2°C¿¹È×R_ÑR_Ð3`Ð2að bØ×$Ñ$Ó&Ð'ð)óð ð
 "×&Ñ& s¯N©N¸GÇ]Á]ÓSˆØ!×+Ñ+¨A¨qÓ1ˆð "×)Ñ)¨#¸¿¹ÓGˆà—m‘m KÓ0ˆàÐ1Ð1Ð1r$   )rq   ro   rw   rr   r{   rt   rp   r~   r}   ry   r|   )ç        FTN)NNNNFN)r+   r,   r-   r.   r/   r0   r   r1   Úboolr   r2   r3   r   Útupler'   r4   r5   r6   s   @r"   rm   rm   h   s:  ø† ÙGð $'Ø%*Ø#Ø$(ñCàðCð ðCð ˜%‘ð	Cð
 ˜T‘NðCð t‰nðCð ˜D‘>÷Cð Cð@ 48Ø*.Ø15Ø26Ø"'Ø15ñ|2à—|‘|ð|2ð # 5§<¡<Ñ0ð|2ð ! ™ð	|2ð
 ! §¡Ñ.ð|2ð " %§,¡,Ñ/ð|2ð  ð|2ð ! §¡Ñ.ð|2ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷|2ó |2r$   rm   c                   óV  ^ • \ rS rSrSS\4U 4S jjjr         SS\R                  S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	   S\\
   S\\
   S\\R                     S\R                  4S jjrSrU =r$ )ÚXGLMDecoderLayeri  Úconfigc                 ó8  >• [         TU ]  5         UR                  U l        [	        U R                  UR
                  UR                  SUS9U l        UR                  U l        [        UR                     U l        UR                  U l        UR                  (       aU  [	        U R                  UR
                  UR                  SUS9U l        [        R                   " U R                  5      U l        [        R                   " U R                  5      U l        [        R&                  " U R                  UR(                  5      U l        [        R&                  " UR(                  U R                  5      U l        [        R                   " U R                  5      U l        g )NT)ro   rp   rq   rr   rt   )r   r   Úd_modelro   rm   Úattention_headsÚattention_dropoutÚ	self_attnrq   r   Úactivation_functionÚactivation_fnÚactivation_dropoutÚadd_cross_attentionÚencoder_attnr   Ú	LayerNormÚencoder_attn_layer_normÚself_attn_layer_normrz   Úffn_dimÚfc1Úfc2Úfinal_layer_norm)r    r´   rt   r!   s      €r"   r   ÚXGLMDecoderLayer.__init__  s  ø€ Ü‰ÑÔØŸ™ˆŒä&Ø—n‘nØ×,Ñ,Ø×,Ñ,ØØñ
ˆŒð —~‘~ˆŒÜ# F×$>Ñ$>Ñ?ˆÔØ"(×";Ñ";ˆÔà×%×%Ü -ØŸ.™.Ø ×0Ñ0Ø×0Ñ0ØØ#ñ!ˆDÔô ,.¯<ª<¸¿¹Ó+GˆDÔ(ä$&§L¢L°·±Ó$@ˆÔ!Ü—9’9˜TŸ^™^¨V¯^©^Ó<ˆŒÜ—9’9˜VŸ^™^¨T¯^©^Ó<ˆŒÜ "§¢¨T¯^©^Ó <ˆÕr$   r€   rƒ   Úencoder_hidden_statesÚencoder_attention_maskr„   Úcross_attn_layer_head_maskr‚   r…   Ú	use_cacher†   r‡   c           
      ó  • UnU R                  U5      nU R                  UUUUUU
S9u  p[        R                  R	                  XR                  U R
                  S9nX±-   nSnUb`  UnU R                  U5      nU R                  UUUUUUU
S9u  p[        R                  R	                  XR                  U R
                  S9nX±-   nUnU R                  U5      nU R                  U R                  U5      5      n[        R                  R	                  XR                  U R
                  S9nU R                  U5      n[        R                  R	                  XR                  U R
                  S9nX±-   nU4nU(       a  XìU4-  nU$ )a‡  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    encoder_hidden_states (`torch.FloatTensor`):
        cross attention input to the layer of shape `(batch, seq_len, embed_dim)`
    encoder_attention_mask (`torch.FloatTensor`): encoder attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
        `(encoder_attention_heads,)`.
    cross_attn_layer_head_mask (`torch.FloatTensor`): mask for cross-attention heads in a given layer of
        size `(decoder_attention_heads,)`.
    past_key_value (`Tuple(torch.FloatTensor)`): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)r€   r‚   rƒ   r„   r…   r†   r‰   N)r€   r   rƒ   r„   r‚   r…   r†   )rÁ   r¹   r   r   rq   r‹   rÀ   r¾   rÅ   r»   rÃ   r¼   rÄ   )r    r€   rƒ   rÇ   rÈ   r„   rÉ   r‚   r…   rÊ   r†   ÚresidualÚself_attn_weightsÚcross_attn_weightsÚoutputss                  r"   r'   ÚXGLMDecoderLayer.forward'  sž  € ð> !ˆØ×1Ñ1°-Ó@ˆð ,0¯>©>Ø'Ø)Ø)Ø+Ø/Ø)ð ,:ð ,
Ñ(ˆô Ÿ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆð "ÐØ Ñ,Ø$ˆHØ ×8Ñ8¸ÓGˆMà04×0AÑ0AØ+Ø!6Ø5Ø :Ø-Ø"3Ø-ð 1Bð 1Ñ-ˆMô ŸM™M×1Ñ1°-Ç<Á<ÐZ^×ZgÑZgÐ1ÐhˆMØ$Ñ4ˆMð !ˆØ×-Ñ-¨mÓ<ˆØ×*Ñ*¨4¯8©8°MÓ+BÓCˆÜŸ™×-Ñ-¨m×?VÑ?VÐae×anÑanÐ-ÐoˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆà Ð"ˆæØÐ+=Ð>Ñ>ˆGàˆr$   )r¼   r»   rq   ro   r¾   rÀ   rÃ   rÄ   rÅ   r¹   rÁ   r   )	NNNNNNFTN)r+   r,   r-   r.   r   r   r2   r3   r   r   r°   r'   r4   r5   r6   s   @r"   r³   r³     sÿ   ø† ñ=˜z÷ =ð =ðD 26Ø8<Ø9=Ø26Ø=AØ*.Ø,1Ø$(Ø15ñNà—|‘|ðNð ! §¡Ñ.ðNð  (¨¯©Ñ5ð	Nð
 !)¨¯©Ñ 6ðNð " %§,¡,Ñ/ðNð %-¨U¯\©\Ñ$:ðNð ! ™ðNð $ D™>ðNð ˜D‘>ðNð ! §¡Ñ.ðNð 
‰÷Nó Nr$   r³   c                   ó4   • \ rS rSr% \\S'   SrSrS/rS r	Sr
g)	ÚXGLMPreTrainedModelix  r´   ÚmodelTr³   c                 ó"  • U R                   R                  n[        U[        R                  5      (       aW  UR
                  R                  R                  SUS9  UR                  b%  UR                  R                  R                  5         g g [        U[        R                  5      (       ad  UR
                  R                  R                  SUS9  UR                  b2  UR
                  R                  UR                     R                  5         g g g )Nr¯   )ÚmeanÚstd)r´   Úinit_stdrŒ   r   rz   ÚweightÚdataÚnormal_rs   Úzero_Ú	Embeddingr   )r    ÚmodulerÖ   s      r"   Ú_init_weightsÚ!XGLMPreTrainedModel._init_weights  sÉ   € Øk‰k×"Ñ"ˆÜfœbŸi™i×(Ñ(ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ð .r$   © N)r+   r,   r-   r.   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesrÞ   r4   rà   r$   r"   rÒ   rÒ   x  s"   ‡ àÓØÐØ&*Ð#Ø+Ð,Ðõ	?r$   rÒ   c            "       ó  ^ • \ rS rSrSS\S\\R                     4U 4S jjjr\	              SS\\
R                     S\\
R                     S\\
R                     S\\
R                     S	\\
R                     S
\\
R                     S\\
R                     S\\\
R                        S\\
R                     S\\   S\\   S\\   S\\   S\\
R                     S\\\
R                     \4   4S jj5       rSrU =r$ )Ú	XGLMModeli‹  r´   Úembed_tokensc           
      óð  >• [         TU ]  U5        UR                  U l        UR                  U l        UR                  U l        UR                  U l        UR                  (       a   [        R                  " UR                  5      OSnUb  X l        O/[        UR                  UR                  U R
                  US9U l        [        UR                  UR                  UR                  5      U l        ["        R$                  " ['        UR(                  5       Vs/ sH  n[+        XS9PM     sn5      U l        ["        R.                  " UR                  5      U l        SU l        U R5                  5         gs  snf )zB
embed_tokens (`nn.Embedding`, *optional*):
    output embeddings
r*   Nr)   )rt   F)r   r   rq   Ú	layerdropÚpad_token_idr   Úmax_position_embeddingsÚmax_target_positionsÚscale_embeddingrP   Úsqrtr¶   rç   r   Ú
vocab_sizer8   Úembed_positionsr   Ú
ModuleListÚrangeÚ
num_layersr³   r‘   r¿   Ú
layer_normÚgradient_checkpointingÚ	post_init)r    r´   rç   r   Úir!   s        €r"   r   ÚXGLMModel.__init__  s   ø€ ô
 	‰Ñ˜Ô Ø—~‘~ˆŒØ×)Ñ)ˆŒØ!×.Ñ.ˆÔØ$*×$BÑ$BˆÔ!Ø39×3I×3I”d—i’i §¡Ô/ÈsˆàÑ#Ø ,Õä 7Ø×!Ñ! 6§>¡>°4×3CÑ3CÐQ\ñ!ˆDÔô  AØ×*Ñ*ØN‰NØ×Ñó 
ˆÔô
 —m’mÔTYÐZ`×ZkÑZkÔTlÓ$mÑTlÈqÔ%5°fÔ%JÑTlÑ$mÓnˆŒÜŸ,š, v§~¡~Ó6ˆŒà&+ˆÔ#à‰Õùò %ns   ÄE3r%   rƒ   r_   rÇ   rÈ   Ú	head_maskÚcross_attn_head_maskÚpast_key_valuesÚinputs_embedsrÊ   r…   Úoutput_hidden_statesÚreturn_dictr†   r‡   c                 óN  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  U	b  [        S5      eUb7  U R                  X5        UR                  5       nUR                  SUS   5      nO"U	b  U	R                  5       SS nO[        S5      eU	c  U R                  U5      n	U R                  (       a/  U R                  (       a  U
(       a  [        R                  S5        Sn
SnU
(       aB  [        U[        5      (       d-  Sn[        R                  S5        [         R"                  " U5      nUb  UR%                  5       OS	n['        X/U	U5      nUcU  [(        R*                  " UUS   U-   [(        R,                  Ub  UR.                  OU	R.                  S
9nUR1                  S	5      nUb  Ub  [3        XYR4                  US   S9nXR7                  UU5      R9                  U	R.                  5      -   n[:        R<                  R?                  U[A        U R>                  5      U R                  S9nU(       a  SOSnU(       a  SOSnU(       a  Ub  SOSn[C        Xg/SS/5       Hn  u  nnUc  M  UR                  5       S	   [E        U RF                  5      :w  d  M7  [        SU S[E        U RF                  5       SUR                  5       S	    S35      e   [I        U RF                  5       H  u  nnU(       a  UU4-  nU R                  (       a(  [(        RJ                  " / 5      nUU RL                  :  a  ML  U" UUUUUb  UU   OSUb  UU   OSUUU
US9
nUS	   nU(       d  My  UUS   4-  nUc  M‡  UUS   4-  nM’     U RO                  U5      nU(       a  UU4-  nU(       a  URQ                  5       nU(       d  [S        S UUUUU4 5       5      $ [U        UUUUUS9$ )a  
encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
    Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of
    the decoder.
encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
    Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
    selected in `[0, 1]`:

    - 1 for tokens that are **not masked**,
    - 0 for tokens that are **masked**.

    [What are attention masks?](../glossary#attention-mask)
cross_attn_head_mask (`torch.Tensor` of shape `(num_layers, attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
NzDYou cannot specify both input_ids and inputs_embeds at the same timerO   z5You have to specify either input_ids or inputs_embedsz_`use_cache = True` is incompatible with gradient checkpointing`. Setting `use_cache = False`...FTzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.r   rB   )r¡   r‰   rà   rù   rú   zThe `z` should be specified for z layers, but it is for Ú.)rÈ   r„   rÉ   r‚   r…   rÊ   r†   r   r<   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7fr   rà   )Ú.0Úvs     r"   Ú	<genexpr>Ú$XGLMModel.forward.<locals>.<genexpr>F  s   é € ð árAØ÷ ‘Úrùs   ‚Œ	)Úlast_hidden_staterû   r€   Ú
attentionsÚcross_attentions)+r´   r…   rý   rÊ   Úuse_return_dictrx   Ú%warn_if_padding_and_no_attention_maskrb   rY   rç   rõ   r‹   ÚloggerÚwarning_oncerŒ   r   r	   Úfrom_legacy_cacheÚget_seq_lengthr   r2   rS   ÚlongrD   rU   r   rC   rð   rH   r   r   rq   r1   ÚzipÚlenr‘   Ú	enumerateÚrandré   rô   Úto_legacy_cacher±   r   )r    r%   rƒ   r_   rÇ   rÈ   rù   rú   rû   rü   rÊ   r…   rý   rþ   r†   Úinput_shapeÚreturn_legacy_cacher`   r€   Úall_hidden_statesÚall_self_attnsÚall_cross_attentionsÚ	attn_maskÚ	mask_nameÚidxÚdecoder_layerÚdropout_probabilityÚlayer_outputss                               r"   r'   ÚXGLMModel.forward¬  sZ  € ðH 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ñ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;‰IØÑ&Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUàÑ Ø ×-Ñ-¨iÓ8ˆMà×&×&¨4¯=¯=ÞÜ×#Ñ#Øuôð "	ð $ÐÞœZ¨¼×?Ñ?Ø"&ÐÜ×Ñð\ôô
 2×CÒCÀOÓTˆOàETÑE` ×!?Ñ!?Ô!AÐfgÐÜ:Ø¨Ð8Nó
ˆð ÑÜ Ÿ<š<Ø&Ø˜B‘Ð"8Ñ8Ü—j‘jØ+4Ñ+@y×'Ò'Àm×FZÑFZñ	ˆLð (×1Ñ1°!Ó4ˆLð !Ñ,Ð1GÑ1Sä%?Ø&×(;Ñ(;À[ÐQSÁ_ñ&Ð"ð &×(<Ñ(<¸\ÐKaÓ(b×(eÑ(eØ× Ñ ó)
ñ 
ˆô Ÿ™×-Ñ-¨m¼uÀTÇ\Á\Ó?RÐ]a×]jÑ]jÐ-Ðkˆö #7™B¸DÐÞ0™°dˆÞ&7Ð<QÑ<]™rÐdhÐô %(¨Ð(IÈKÐYoÐKpÖ$qÑ ˆIyØÓ$Ø—>‘>Ó# AÑ&¬#¨d¯k©kÓ*:Õ:Ü$Ø 	˜{Ð*DÄSÈÏÉÓEUÐDVð WØ%ŸN™NÓ,¨QÑ/Ð0°ð3óð ñ %rô #,¨D¯K©KÖ"8ÑˆCæ#Ø! mÐ%5Ñ5Ð!Ø}}Ü&+§j¢j°£nÐ#Ø&¨¯©Ó7Ùá)ØØØ%Ø'=Ø3<Ñ3H ¨3¢ÈdØI]ÑIiÐ,@ÀÒ,EÐosØ.Ø"3Ø#Ø-ñˆMð *¨!Ñ,ˆMç Ð Ø =°Ñ#3Ð"5Ñ5à(Ó4Ø(¨]¸1Ñ-=Ð,?Ñ?Ò(ñ7 #9ð: Ÿ™¨Ó6ˆö  Ø -Ð!1Ñ1ÐæØ-×=Ñ=Ó?ˆOæÜñ à'¨Ð:KÈ^Ð]qÑróó ð ô
 9Ø+Ø+Ø+Ø%Ø1ñ
ð 	
r$   )	rq   rð   rç   rõ   rô   ré   r‘   rì   r   r   )NNNNNNNNNNNNNN)r+   r,   r-   r.   r   r   r   rÜ   r   r   r2   r3   ÚlistÚFloatTensorr°   r   r±   r   r'   r4   r5   r6   s   @r"   ræ   ræ   ‹  sŽ  ø† ñ˜zð ¸À"Ç,Á,Ñ9O÷ ð ð> ð -1Ø15Ø/3Ø8<Ø9=Ø,0Ø7;Ø=AØ04Ø$(Ø,0Ø/3Ø&*Ø15ñd
à˜EŸL™LÑ)ðd
ð ! §¡Ñ.ðd
ð ˜uŸ|™|Ñ,ð	d
ð
  (¨¯©Ñ5ðd
ð !)¨¯©Ñ 6ðd
ð ˜EŸL™LÑ)ðd
ð ' u§|¡|Ñ4ðd
ð " $ u×'8Ñ'8Ñ"9Ñ:ðd
ð   §¡Ñ-ðd
ð ˜D‘>ðd
ð $ D™>ðd
ð ' t™nðd
ð ˜d‘^ðd
ð ! §¡Ñ.ðd
ð  
ˆuU—\‘\Ñ"Ð$MÐMÑ	Nô!d
ó öd
r$   ræ   z‡
    The XGLM Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc            $       ó  ^ • \ rS rSrSrS/rU 4S jr\               SS\\	R                     S\\	R                     S\\	R                     S\\	R                     S	\\	R                     S
\\	R                     S\\	R                     S\\\	R                        S\\	R                     S\\	R                     S\\   S\\   S\\   S\\   S\\	R                     S\\\	R                     \4   4 S jj5       rSrU =r$ )ÚXGLMForCausalLMiT  rÓ   zlm_head.weightc                 óÂ   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  UR                  SS9U l        U R                  5         g )NFrv   )
r   r   ræ   rÓ   r   rz   Úhidden_sizerï   Úlm_headrö   )r    r´   r!   s     €r"   r   ÚXGLMForCausalLM.__init__^  sH   ø€ Ü‰Ñ˜Ô Ü˜vÓ&ˆŒ
Ü—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒð 	‰Õr$   r%   rƒ   r_   rÇ   rÈ   rù   rú   rû   rü   ÚlabelsrÊ   r…   rý   rþ   r†   r‡   c                 ó.  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  UUUUUUUUU	UUUUUS9nU R                  US   5      nSnU
b?  U R                  " UU
4U R                   R                  U R                   R                  S.UD6nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  S9$ )a  
encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
    Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of
    the decoder.
encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
    Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
    selected in `[0, 1]`:

    - 1 for tokens that are **not masked**,
    - 0 for tokens that are **masked**.

    [What are attention masks?](../glossary#attention-mask)
cross_attn_head_mask (`torch.Tensor` of shape `(num_layers, attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
N)r%   rƒ   r_   rÇ   rÈ   rù   rú   rû   rü   rÊ   r…   rý   rþ   r†   r   )rï   rê   r   )ÚlossÚlogitsrû   r€   r  r  )r´   r…   rý   r	  rÓ   r(  Úloss_functionrï   rê   r   rû   r€   r  r  )r    r%   rƒ   r_   rÇ   rÈ   rù   rú   rû   rü   r*  rÊ   r…   rý   rþ   r†   ÚkwargsrÏ   r-  r,  Úoutputs                        r"   r'   ÚXGLMForCausalLM.forwardf  sW  € ðV 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*‘*ØØ)Ø%Ø"7Ø#9ØØ!5Ø+Ø'ØØ/Ø!5Ø#Ø)ð ð 
ˆð" —‘˜g a™jÓ)ˆàˆØÑØ×%Ò%ØØðð  Ÿ;™;×1Ñ1Ø!Ÿ[™[×5Ñ5ñ	ð
 ñˆDö ØY ¨¨ Ñ,ˆFØ'+Ñ'7D7˜VÑ#ÐC¸VÐCä0ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ñ
ð 	
r$   )r(  rÓ   )NNNNNNNNNNNNNNN)r+   r,   r-   r.   râ   Ú_tied_weights_keysr   r   r   r2   r3   r!  r"  r°   r   r±   r   r'   r4   r5   r6   s   @r"   r%  r%  T  sš  ø† ð  ÐØ*Ð+Ðõð ð -1Ø15Ø/3Ø8<Ø9=Ø,0Ø7;Ø=AØ04Ø)-Ø$(Ø,0Ø/3Ø&*Ø15ñ!Y
à˜EŸL™LÑ)ðY
ð ! §¡Ñ.ðY
ð ˜uŸ|™|Ñ,ð	Y
ð
  (¨¯©Ñ5ðY
ð !)¨¯©Ñ 6ðY
ð ˜EŸL™LÑ)ðY
ð ' u§|¡|Ñ4ðY
ð " $ u×'8Ñ'8Ñ"9Ñ:ðY
ð   §¡Ñ-ðY
ð ˜Ÿ™Ñ&ðY
ð ˜D‘>ðY
ð $ D™>ðY
ð ' t™nðY
ð ˜d‘^ðY
ð  ! §¡Ñ.ð!Y
ð$ 
ˆuU—\‘\Ñ"Ð$EÐEÑ	Fô%Y
ó öY
r$   r%  )r%  ræ   rÒ   )+r/   rP   Útypingr   r   r2   Útorch.utils.checkpointr   Úactivationsr   Úcache_utilsr   r	   Ú
generationr
   Úmodeling_attn_mask_utilsr   r   Úmodeling_layersr   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_xglmr   Ú
get_loggerr+   r  rÜ   r   ÚModuler8   rm   r³   rÒ   ræ   r%  Ú__all__rà   r$   r"   Ú<module>rA     sû   ðñ ã ß "ã Û Ý å !ß 5Ý )ß eÝ 9ß lÝ -ß ,Ý *ð 
×	Ò	˜HÓ	%€ô
=˜bŸl™lô 
=ô1w¨¯	©	ô 1wôh\2B—I‘Iô \2ô~nÐ1ô nðb ô?˜/ó ?ó ð?ð$ ôE
Ð#ó E
ó ðE
ñP ðñôf
Ð)¨?ó f
óðf
òR Br$   