ó
    <±h„  ã                   ó  • S r SSKrSSKJrJr  SSKrSSKJs  Jr	  SSK
rSSKJr  SSKJr  SSKJr  SSKJrJr  SS	KJr  SS
KJrJr  SSKJr  SSKJrJr  SSKJr  \R<                  " \5      r  " S S\RB                  5      r" " S S\RB                  5      r# " S S\RB                  5      r$ " S S\RB                  5      r% " S S\RB                  5      r& " S S\RB                  5      r' " S S\RB                  5      r( " S S\RB                  5      r) " S S \RB                  5      r* " S! S"\RB                  5      r+ " S# S$\RB                  5      r,\ " S% S&\5      5       r-\ " S' S(\-5      5       r.\" S)S*9 " S+ S,\-\5      5       r// S-Qr0g).zPyTorch CPMAnté    N)ÚOptionalÚUnion)Únn)ÚCrossEntropyLossé   )ÚACT2FN)ÚCacheÚDynamicCache)ÚGenerationMixin)ÚBaseModelOutputWithPastÚCausalLMOutputWithPast)ÚPreTrainedModel)Úauto_docstringÚloggingé   )ÚCpmAntConfigc                   óV   ^ • \ rS rSrSrS\4U 4S jjrS\R                  4S jr	Sr
U =r$ )ÚCpmAntLayerNormé&   zv
We use Root Mean Square (RMS) Layer Normalization, please see https://huggingface.co/papers/1910.07467 for details."
Úconfigc                 óØ   >• [         TU ]  5         UR                  U l        UR                  U l        [
        R                  " [        R                  " UR                  5      5      U l	        g ©N)
ÚsuperÚ__init__ÚepsÚhidden_sizeÚdim_normr   Ú	ParameterÚtorchÚemptyÚweight©Úselfr   Ú	__class__s     €Úb/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/cpmant/modeling_cpmant.pyr   ÚCpmAntLayerNorm.__init__+   sE   ø€ Ü‰ÑÔà—:‘:ˆŒØ×*Ñ*ˆŒÜ—l’l¤5§;¢;¨v×/AÑ/AÓ#BÓCˆó    Úhidden_statesc                 ól  • UR                  S5      U R                  :w  a  [        S5      eUR                  nUR	                  [
        R                  5      R                  S5      R                  SSS9nU[
        R                  " X0R                  -   5      -  R	                  U5      U R                  -  nU$ )úN
Args:
    hidden_states (`torch.Tensor` of shape `(batch, seq_len, dim_in)`)
éÿÿÿÿz'hidden_states.size(-1) != self.dim_normé   T)ÚdimÚkeepdim)Úsizer   ÚAssertionErrorÚdtypeÚtor   Úfloat32ÚpowÚmeanÚrsqrtr   r!   )r#   r(   Ú	old_dtypeÚvariances       r%   ÚforwardÚCpmAntLayerNorm.forward2   s˜   € ð
 ×Ñ˜bÓ! T§]¡]Ó2Ü Ð!JÓKÐKØ!×'Ñ'ˆ	Ø ×#Ñ#¤E§M¡MÓ2×6Ñ6°qÓ9×>Ñ>À2ÈtÐ>ÐTˆØ&¬¯ª°XÇÁÑ5HÓ)IÑI×MÑMÈiÓXÐ[_×[fÑ[fÑfˆØÐr'   )r   r   r!   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   r   r   ÚTensorr9   Ú__static_attributes__Ú__classcell__©r$   s   @r%   r   r   &   s+   ø† ñðD˜|÷ Dð
 U§\¡\÷ 
ò 
r'   r   c                   óæ   ^ • \ rS rSrSS\4U 4S jjjr    SS\R                  S\R                  S\R                  S\R                  S\	\
   S	\	\   S
\	\
   S\	\R                     4S jjrSrU =r$ )ÚCpmAntAttentioné?   r   c                 ó:  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U l        X l        [        R                  " U R                  U R
                  U R                  -  SS9U l
        [        R                  " U R                  U R
                  U R                  -  SS9U l        [        R                  " U R                  U R
                  U R                  -  SS9U l        [        R                  " U R
                  U R                  -  U R                  SS9U l        [        R                  R                  SS9U l        UR"                  b-  [        R                  R%                  UR"                  S9U l        g S U l        g )NF©Úbiasr+   ©r-   )Úp)r   r   r   Ú	dim_modelÚnum_attention_headsÚ	num_headsÚdim_headÚ	layer_idxr   ÚLinearÚ	project_qÚ	project_kÚ	project_vÚattention_outr   ÚSoftmaxÚsoftmaxÚ	dropout_pÚDropoutÚdropout©r#   r   rP   r$   s      €r%   r   ÚCpmAntAttention.__init__@   s  ø€ Ü‰ÑÔØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™ˆŒØ"ŒäŸš 4§>¡>°4·>±>ÀDÇMÁMÑ3QÐX]Ñ^ˆŒÜŸš 4§>¡>°4·>±>ÀDÇMÁMÑ3QÐX]Ñ^ˆŒÜŸš 4§>¡>°4·>±>ÀDÇMÁMÑ3QÐX]Ñ^ˆŒäŸYšY t§~¡~¸¿¹Ñ'EÀtÇ~Á~Ð\aÑbˆÔä—x‘x×'Ñ'¨BÐ'Ð/ˆŒà×ÑÑ'Ü Ÿ8™8×+Ñ+¨f×.>Ñ.>Ð+Ð?ˆDLàˆDLr'   Úhidden_qÚ	hidden_kvÚattention_maskÚposition_biasÚoutput_attentionsÚpast_key_valuesÚ	use_cacheÚcache_positionc	           
      ó€  • UR                  S5      n	UR                  S5      n
UR                  S5      nU R                  U5      nU R                  U5      nU R                  U5      nUR	                  XšU R
                  U R                  5      R                  SSSS5      nUR	                  X›U R
                  U R                  5      R                  SSSS5      nUR	                  X›U R
                  U R                  5      R                  SSSS5      nUb2  UR                  XÞU R                  SU05      u  pÞUR                  S5      n[        R                  " XÍR                  SS5      5      [        R                  " U R                  5      -  nXô-   n[        R                  " UUR	                  U	SX«5      [        R                   " S	5      :H  [        R"                  " [%        S
5      UR&                  UR(                  S95      nU R+                  U5      n[        R                  " UUR	                  U	SX«5      [        R                   " S	5      :H  [        R"                  " SUR&                  UR(                  S95      nU(       a  UnOSnU R,                  b  U R-                  U5      n[        R                  " Xþ5      nUR	                  XR
                  X R                  5      R                  SSSS5      nUR/                  5       R	                  XšU R
                  U R                  -  5      nU R1                  U5      nUU4$ )aø  
Args:
    hidden_q (`torch.Tensor`):
        Input of transformer block(self-attention block). It can be the raw embedding of a batch of sequences.
    hidden_kv (`torch.Tensor` of shape `(batch, len_k, dim_model)`)):
        Tensor *key_value* and *query* of shape `(batch, len_k, dim_model)`
    attention_mask (`torch.Tensor` of shape `(batch, len_seq, len_seq)`):
        Avoid invalid areas to participate in the calculation of self-attention.
    position_bias (`torch.Tensor` of shape `(batch, len_seq, len_seq)`):
        Provide positional information to self-attention block.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers.
    past_key_values (`tuple[torch.Tensor, torch.Tensor]`, *optional*):
        Cached past key and value projection states.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
r   r   r,   r   Nrd   éþÿÿÿr+   Fz-inf)Údevicer1   )r/   rR   rS   rT   ÚviewrN   rO   ÚpermuteÚupdaterP   r   ÚmatmulÚ	transposeÚmathÚsqrtÚmasked_fillÚtensorÚscalar_tensorÚfloatrg   r1   rW   rZ   Ú
contiguousrU   )r#   r]   r^   r_   r`   ra   rb   rc   rd   Ú
batch_sizeÚlen_qÚlen_kÚqueryÚkeyÚvalueÚscoreÚattn_weightss                    r%   r9   ÚCpmAntAttention.forwardT   s£  € ð: —]‘] 1Ó%ˆ
Ø—‘˜aÓ ˆØ—‘˜qÓ!ˆà—‘˜xÓ(ˆØn‰n˜YÓ'ˆØ—‘˜yÓ)ˆà—
‘
˜:¨d¯n©n¸d¿m¹mÓL×TÑTÐUVÐXYÐ[\Ð^_Ó`ˆØh‰hz¨$¯.©.¸$¿-¹-ÓH×PÑPÐQRÐTUÐWXÐZ[Ó\ˆØ—
‘
˜:¨d¯n©n¸d¿m¹mÓL×TÑTÐUVÐXYÐ[\Ð^_Ó`ˆàÑ&Ø(×/Ñ/°¸D¿N¹NÐM]Ð_mÐLnÓo‰JˆCØ—H‘H˜R“LˆEô —’˜U§M¡M°"°bÓ$9Ó:¼T¿YºYÀtÇ}Á}Ó=UÑUˆØÑ%ˆä×!Ò!ØØ×Ñ 
¨A¨uÓ<ÄÇÂÈUÓ@SÑSÜ×Ò¤ f£°e·l±lÈ%Ï+É+ÑVó
ˆð
 —‘˜UÓ#ˆä×!Ò!ØØ×Ñ 
¨A¨uÓ<ÄÇÂÈUÓ@SÑSÜ×Ò ¨%¯,©,¸e¿k¹kÑJó
ˆö
 Ø ‰LàˆLà<‰<Ñ#Ø—L‘L Ó'ˆEô —’˜UÓ*ˆà—
‘
˜:§~¡~°u¿m¹mÓL×TÑTÐUVÐXYÐ[\Ð^_Ó`ˆØ× Ñ Ó"×'Ñ'¨
¸4¿>¹>ÈDÏMÉMÑ;YÓZˆà×"Ñ" 5Ó)ˆàlÐ"Ð"r'   )
rU   rO   rL   rZ   rP   rN   rS   rR   rT   rW   r   )FNNN)r;   r<   r=   r>   r   r   r   r@   Ú
BoolTensorr   Úboolr	   r9   rA   rB   rC   s   @r%   rE   rE   ?   s«   ø† ñ ˜|÷  ð  ð4 -2Ø+/Ø$(Ø15ñM#à—,‘,ðM#ð —<‘<ðM#ð ×(Ñ(ð	M#ð
 —|‘|ðM#ð $ D™>ðM#ð " %™ðM#ð ˜D‘>ðM#ð ! §¡Ñ.÷M#ó M#r'   rE   c                   óÖ   ^ • \ rS rSrSS\4U 4S jjjr     SS\R                  S\R                  S\\R                     S\\	   S\\
   S	\\	   S
\\R                     4S jjrSrU =r$ )ÚCpmAntSelfAttentionBlocké¤   r   c                 óì   >• [         TU ]  5         [        U5      U l        [	        XS9U l        UR                  (       a/  [        R                  R                  UR                  5      U l
        g S U l
        g ©N)rP   )r   r   r   Úlayernorm_before_attentionrE   Úself_attentionrX   r   r   rY   rZ   r[   s      €r%   r   Ú!CpmAntSelfAttentionBlock.__init__¥   sT   ø€ Ü‰ÑÔÜ*9¸&Ó*AˆÔ'Ü-¨fÑJˆÔØ××Ü Ÿ8™8×+Ñ+¨F×,<Ñ,<Ó=ˆDLàˆDLr'   r(   r_   r`   ra   rb   rc   rd   c           
      ó¢   • U R                  U5      nU R                  UUUUUUUU5      u  p‰U R                  b  U R                  U5      nX-   nX4$ )a‰  
Args:
    hidden_states (`torch.Tensor` of shape `(batch, len_seq, dim_model)`):
        Input of transformer block(self-attention block). It can be the raw embedding of a batch of sequences.
    attention_mask (`torch.Tensor` of shape `(batch, len_seq, len_seq)`):
        Avoid invalid areas to participate in the calculation of self-attention.
    position_bias (`torch.Tensor` of shape `(batch, len_seq, len_seq)`):
        Provide positional information to self-attention block.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers.
    past_key_values (`Tuple(torch.FloatTensor)`, *optional*):
        Cached past key and value projection states.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
)r„   r…   rZ   )
r#   r(   r_   r`   ra   rb   rc   rd   Úoutputsr{   s
             r%   r9   Ú CpmAntSelfAttentionBlock.forward®   sj   € ð4 ×1Ñ1°-Ó@ˆØ $× 3Ñ 3ØØØØØØØØó	!
Ñˆð <‰<Ñ#Ø—l‘l 7Ó+ˆGØ%Ñ/ˆàÐ*Ð*r'   )rZ   r„   r…   r   ©NFNNN©r;   r<   r=   r>   r   r   r   r@   r   r~   r	   r9   rA   rB   rC   s   @r%   r€   r€   ¤   s™   ø† ñ ˜|÷  ð  ð 15Ø,1Ø+/Ø$(Ø15ñ*+à—|‘|ð*+ð Ÿ™ð*+ð   §¡Ñ-ð	*+ð
 $ D™>ð*+ð " %™ð*+ð ˜D‘>ð*+ð ! §¡Ñ.÷*+ó *+r'   r€   c                   óR   ^ • \ rS rSrS\4U 4S jjrS\R                  4S jrSr	U =r
$ )ÚCpmAntDenseGatedACTéÛ   r   c                 ó$  >• [         TU ]  5         [        R                  " UR                  UR
                  SS9U l        [        R                  " UR                  UR
                  SS9U l        [        R                  R                  5       U l
        g ©NFrH   )r   r   r   rQ   r   Údim_ffÚw_0Úw_1r   ÚGELUÚactr"   s     €r%   r   ÚCpmAntDenseGatedACT.__init__Ü   s[   ø€ Ü‰ÑÔÜ—9’9˜V×/Ñ/°·±ÀUÑKˆŒÜ—9’9˜V×/Ñ/°·±ÀUÑKˆŒÜ—8‘8—=‘=“?ˆr'   r(   c                 óp   • U R                  U R                  U5      5      nU R                  U5      nX!-  nU$ )z¤Transform an input tensor from one feature space to another via a nonlinear operation

Args:
    hidden_states (`torch.Tensor` of shape `(batch, seq_len, dim_in)`)
©r•   r’   r“   )r#   r(   Ú
gate_scores      r%   r9   ÚCpmAntDenseGatedACT.forwardâ   s7   € ð —X‘X˜dŸh™h }Ó5Ó6ˆ
ØŸ™ Ó/ˆà"Ñ2ˆØÐr'   r˜   ©r;   r<   r=   r>   r   r   r   r@   r9   rA   rB   rC   s   @r%   r   r   Û   s$   ø† ð#˜|÷ #ð
 U§\¡\÷ 
ò 
r'   r   c                   óR   ^ • \ rS rSrS\4U 4S jjrS\R                  4S jrSr	U =r
$ )ÚCpmAntFeedForwardéï   r   c                 ó&  >• [         TU ]  5         [        U5      U l        UR                  b/  [
        R                  R                  UR                  5      U l        OS U l        [        R                  " UR                  UR                  SS9U l        g r   )r   r   r   Úw_inrX   r   r   rY   rZ   rQ   r‘   r   Úw_outr"   s     €r%   r   ÚCpmAntFeedForward.__init__ð   sg   ø€ Ü‰ÑÔÜ'¨Ó/ˆŒ	Ø×ÑÑ'Ü Ÿ8™8×+Ñ+¨F×,<Ñ,<Ó=ˆDLàˆDŒLä—Y’Y˜vŸ}™}¨f×.@Ñ.@ÀuÑMˆ
r'   r(   c                 ó†   • U R                  U5      nU R                  b  U R                  U5      nU R                  U5      nU$ )r*   )r    rZ   r¡   ©r#   r(   s     r%   r9   ÚCpmAntFeedForward.forwardú   s>   € ð
 Ÿ	™	 -Ó0ˆà<‰<Ñ#Ø ŸL™L¨Ó7ˆMàŸ
™
 =Ó1ˆàÐr'   )rZ   r    r¡   r›   rC   s   @r%   r   r   ï   s&   ø† ðN˜|÷ Nð U§\¡\÷ ò r'   r   c                   óR   ^ • \ rS rSrS\4U 4S jjrS\R                  4S jrSr	U =r
$ )ÚCpmAntFFNBlocki	  r   c                 óð   >• [         TU ]  5         [        U5      U l        [	        U5      U l        UR                  (       a/  [        R                  R                  UR                  5      U l
        g S U l
        g r   )r   r   r   Úlayernorm_before_ffnr   ÚffnrX   r   r   rY   rZ   r"   s     €r%   r   ÚCpmAntFFNBlock.__init__
  sS   ø€ Ü‰ÑÔÜ$3°FÓ$;ˆÔ!Ü$ VÓ,ˆŒØ××Ü Ÿ8™8×+Ñ+¨F×,<Ñ,<Ó=ˆDLàˆDLr'   r(   c                 óŽ   • U R                  U5      nU R                  U5      nU R                  b  U R                  U5      nX-   nU$ )zƒ
Args:
    hidden_states (`torch.Tensor` of shape `(batch, len_seq, dim_model)`):
        Hidden states before feed forward layer.
)r©   rª   rZ   )r#   r(   Ú
ln_outputsrˆ   s       r%   r9   ÚCpmAntFFNBlock.forward  sH   € ð ×.Ñ.¨}Ó=ˆ
Ø—(‘(˜:Ó&ˆØ<‰<Ñ#Ø—l‘l 7Ó+ˆGØ%Ñ/ˆØÐr'   )rZ   rª   r©   r›   rC   s   @r%   r§   r§   	  s%   ø† ð ˜|÷  ðà—|‘|÷ò r'   r§   c                   óÖ   ^ • \ rS rSrSS\4U 4S jjjr     SS\R                  S\R                  S\\R                     S\\	   S\\
   S	\\	   S
\\R                     4S jjrSrU =r$ )ÚCpmAntTransformerBlocki$  r   c                 ó^   >• [         TU ]  5         [        XS9U l        [	        U5      U l        g rƒ   )r   r   r€   Úself_attr§   rª   r[   s      €r%   r   ÚCpmAntTransformerBlock.__init__%  s&   ø€ Ü‰ÑÔÜ0°ÑMˆŒÜ! &Ó)ˆr'   r(   r_   r`   ra   rb   rc   rd   c           
      óX   • U R                  UUUUUUUS9u  pU R                  U5      nX4$ )a,  
Args:
    hidden_states (`torch.Tensor`):
        Input to the layer of shape `(batch, seq_len, dim_model)`
    attention_mask (`torch.Tensor`):
        Avoid invalid areas to participate in the calculation of shape `(batch, seq_len, seq_len)`
    position_bias (`torch.Tensor`):
        Provides position information to attention mechanism of shape `(num_heads, seq_len, seq_len)`
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers.
    past_key_values (`tuple[torch.Tensor, torch.Tensor])`, *optional*):
        Cached past key and value projection states
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
)r_   r`   ra   rb   rc   rd   )r²   rª   )	r#   r(   r_   r`   ra   rb   rc   rd   r{   s	            r%   r9   ÚCpmAntTransformerBlock.forward*  sH   € ð4 '+§m¡mØØ)Ø'Ø/Ø+ØØ)ð '4ð '
Ñ#ˆð Ÿ™ Ó/ˆØÐ*Ð*r'   )rª   r²   r   rŠ   r‹   rC   s   @r%   r°   r°   $  s™   ø† ñ*˜|÷ *ð *ð 15Ø,1Ø+/Ø$(Ø15ñ%+à—|‘|ð%+ð Ÿ™ð%+ð   §¡Ñ-ð	%+ð
 $ D™>ð%+ð " %™ð%+ð ˜D‘>ð%+ð ! §¡Ñ.÷%+ó %+r'   r°   c                   óÖ   ^ • \ rS rSrS\4U 4S jjr     SS\R                  S\R                  S\R                  S\\	   S\\	   S	\\
   S
\\	   S\\R                     4S jjrSrU =r$ )ÚCpmAntEncoderiR  r   c           
      óø   >• [         TU ]  5         UR                  U l        [        R
                  " [        U R                  5       Vs/ sH  n[        XS9PM     sn5      U l        [        U5      U l
        g s  snf rƒ   )r   r   Únum_hidden_layersÚ
num_layersr   Ú
ModuleListÚranger°   Úlayersr   Úoutput_layernorm)r#   r   Úir$   s      €r%   r   ÚCpmAntEncoder.__init__S  sc   ø€ Ü‰ÑÔØ ×2Ñ2ˆŒÜ—m’mÔZ_Ð`d×`oÑ`oÔZpÓ$qÑZpÐUVÔ%;¸FÔ%PÑZpÑ$qÓrˆŒä /°Ó 7ˆÕùò %rs   ÁA7r(   r_   r`   ra   Úoutput_hidden_statesrb   rc   Úcache_postionc	           
      óþ   • U(       a  SOSn	U(       a  SOSn
[        U R                  5       H.  u  p¼U(       a  X‘4-  n	U" UUUUUUS9nUu  pU(       d  M)  X®4-  n
M0     U R                  U5      nU(       a  X‘4-  n	XU
4$ )a  
Args:
    hidden_states (`torch.Tensor`):
        Input to the layer of shape `(batch, seq_len, dim_model)`
    attention_mask (`torch.Tensor`):
        Avoid invalid areas to participate in the calculation of shape `(batch, seq_len, seq_len)`
    position_bias (`torch.Tensor`):
        Provides position information to attention mechanism of shape `(num_heads, seq_len, seq_len)`
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers.
    past_key_values (`tuple[torch.Tensor, torch.Tensor])`, *optional*):
        Cached past key and value projection states
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
© N)ra   rb   rc   )Ú	enumerater½   r¾   )r#   r(   r_   r`   ra   rÁ   rb   rc   rÂ   Úall_hidden_statesÚall_self_attnsr¿   ÚlayerÚlayer_outputsr{   s                  r%   r9   ÚCpmAntEncoder.forwardZ  s   € ö: #7™B¸DÐÞ0™°dˆä! $§+¡+Ö.‰HˆAÞ#Ø!Ð%5Ñ5Ð!Ù!ØØØØ"3Ø /Ø#ñˆMð +8Ñ'ˆMß Ð Ø /Ñ1’ñ /ð ×-Ñ-¨mÓ<ˆæØÐ!1Ñ1Ðà°Ð?Ð?r'   )r½   rº   r¾   )NNNNNr‹   rC   s   @r%   r·   r·   R  s§   ø† ð8˜|÷ 8ð -1Ø/3Ø+/Ø$(Ø04ñ4@à—|‘|ð4@ð Ÿ™ð4@ð —|‘|ð	4@ð
 $ D™>ð4@ð ' t™nð4@ð " %™ð4@ð ˜D‘>ð4@ð   §¡Ñ-÷4@ó 4@r'   r·   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚCpmAntIntermediatei’  c                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g r   )r   r   r   rQ   r   Úintermediate_sizeÚdenseÚ
isinstanceÚ
hidden_actÚstrr   Úintermediate_act_fnr"   s     €r%   r   ÚCpmAntIntermediate.__init__“  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$r'   r(   Úreturnc                 óJ   • U R                  U5      nU R                  U5      nU$ r   ©rÏ   rÓ   r¤   s     r%   r9   ÚCpmAntIntermediate.forward›  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆØÐr'   r×   ©
r;   r<   r=   r>   r   r   r@   r9   rA   rB   rC   s   @r%   rÌ   rÌ   ’  s(   ø† õ9ð U§\¡\ð °e·l±l÷ ò r'   rÌ   c                   óª   ^ • \ rS rSrS\4U 4S jjrS\R                  S\R                  S\R                  S\R                  4S jrS	 r	SS
 jr
SrU =r$ )ÚCpmAntSegmentPositionEmbeddingi¡  r   c                 óf  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U l        UR                  U l	        [        R                  " [        R                  " UR                  UR                  -  UR                  -   UR                  5      5      U l        g r   )r   r   rM   rN   Úposition_bias_num_bucketsÚnum_bucketsÚposition_bias_max_distanceÚmax_distanceÚsegment_typesÚnum_segmentsr   r   r   r    Úrelative_attention_biasr"   s     €r%   r   Ú'CpmAntSegmentPositionEmbedding.__init__¢  sŠ   ø€ Ü‰ÑÔà×3Ñ3ˆŒØ!×;Ñ;ˆÔØ"×=Ñ=ˆÔØ"×0Ñ0ˆÔä')§|¢|ÜKŠKØ×$Ñ$ v×';Ñ';Ñ;¸f×>^Ñ>^Ñ^Ø×*Ñ*óó(
ˆÕ$r'   Úkey_posÚ	query_posÚkey_segmentÚquery_segmentc           
      ó*  • [         R                  " 5          UR                  S5      nUR                  S5      nUR                  S5      nUR                  S5      UR                  S5      :w  a0  [        SUR                  S5       SUR                  S5       S35      eXcR                  S5      :w  d  XtR                  S5      :w  a!  [        SU SUR                  S5       S35      eXtR                  S5      :w  a!  [        SU SUR                  S5       S35      eUR	                  USU5      nUR	                  XWS5      nUR	                  USU5      nUR	                  XWS5      nU R                  XC5      nX€R                  -   nU R                  [         R                  " U[         R                  UR                  S	9S S S 24   [         R                  " U[         R                  UR                  S	9S S 2S 4   -
  U R                  U R                  S
9n	[         R                  " X4:H  U	S S S 2S S 24   U5      nS S S 5        [        R                  " WU R                  5      n
U
R!                  SSSS5      R#                  5       n
U
$ ! , (       d  f       NS= f)Nr   r   z>key_pos.size(0) should be equal to query_pos.size(0), but got z and Ú!z7keylen should be equal to key_segment.size(1), but got z;querylen should be equal to query_segment.size(1), but got r+   ©r1   rg   )rÞ   rà   r   r,   )r   Úno_gradr/   r0   rh   Ú!_segment_relative_position_bucketrÞ   Ú_position_bucketÚarangeÚint32rg   rà   ÚwhereÚFÚ	embeddingrã   ri   rs   )r#   rå   ræ   rç   rè   ÚbatchÚkeylenÚquerylenÚrelative_position_bucketÚabsolute_position_bucketÚembedss              r%   r9   Ú&CpmAntSegmentPositionEmbedding.forward±  s|  € ô ]Š]_Ø—L‘L “OˆEØ—\‘\ !“_ˆFØ —~‘~ aÓ(ˆHà|‰|˜A‹ )§.¡.°Ó"3Ó3Ü$ØTÐU\×UaÑUaÐbcÓUdÐTeÐejÐkt×kyÑkyÐz{Ók|Ðj}Ð}~Ðóð ð ×)Ñ)¨!Ó,Ó,°×<NÑ<NÈqÓ<QÓ0QÜ$ØMÈfÈXÐUZÐ[f×[kÑ[kÐlmÓ[nÐZoÐopÐqóð ð ×-Ñ-¨aÓ0Ó0Ü$ØQÐRZÐQ[Ð[`Ðan×asÑasÐtuÓavÐ`wÐwxÐyóð ð —l‘l 5¨"¨fÓ5ˆGØ!Ÿ™ u¸Ó;ˆIØ%×*Ñ*¨5°"°fÓ=ˆKØ)×.Ñ.¨uÀÓCˆMà'+×'MÑ'MÈmÓ'iÐ$Ø'?×BRÑBRÑ'RÐ$ð (,×'<Ñ'<Ü—’˜V¬5¯;©;Ð?W×?^Ñ?^Ñ_Ð`dÒfgÐ`gÑhÜ—,’,˜x¬u¯{©{ÐC[×CbÑCbÑcÒdeÐgkÐdkÑlñmà ×,Ñ,Ø!×.Ñ.ð	 (=ð (Ð$ô (-§{¢{ØÑ-Ø(¨ªq²!¨Ñ4Ø(ó(Ð$÷C ôP —’Ð5°t×7SÑ7SÓTˆà—‘  1 a¨Ó+×6Ñ6Ó8ˆØˆ÷W _ús   –H!JÊ
Jc                 ó$   • XR                   -  U-   $ r   )râ   )r#   rè   rç   s      r%   rí   Ú@CpmAntSegmentPositionEmbedding._segment_relative_position_bucketå  s   € Ø×0Ñ0Ñ0°;Ñ>Ð>r'   c                 ó0  • SnUS-  nUS:„  R                  [        R                  5      U-  n[        R                  " U5      nUS-  nX:  nU[        R                  " UR                  5       U-  5      [        R                  " X5-  5      -  X%-
  -  R                  [        R                  5      -   n[        R                  " U[        R                  " XrS-
  5      5      nU[        R                  " XaR                  [        R                  5      U5      -  nU$ )Nr   r,   r   )
r2   r   rð   ÚabsÚlogrr   rm   ÚminÚ	full_likerñ   )r#   Úrelative_positionrÞ   rà   Úrelative_bucketsÚ	max_exactÚis_smallÚrelative_postion_if_larges           r%   rî   Ú/CpmAntSegmentPositionEmbedding._position_bucketè  sú   € ØÐà˜ÑˆØ-°Ñ1×5Ñ5´e·k±kÓBÀ[ÑPÐÜ!ŸIšIÐ&7Ó8ÐØ 1Ñ$ˆ	Ø$Ñ0ˆØ$-ÜIŠIÐ'×-Ñ-Ó/°)Ñ;Ó<ÜhŠh|Ñ/Ó0ñ1àÑ&ñ(÷ ‰"ŒU[‰[‹/ñ	%Ð!ô
 %*§I¢IØ%ÜOŠOÐ5ÀQ±ÓGó%
Ð!ð 	œEŸKšK¨×2FÑ2FÄuÇ{Á{Ó2SÐUnÓoÑoÐØÐr'   )rà   rÞ   rN   râ   rã   )é    é€   )r;   r<   r=   r>   r   r   r   r@   r9   rí   rî   rA   rB   rC   s   @r%   rÛ   rÛ   ¡  sZ   ø† ð
˜|÷ 
ð2à—‘ð2ð —<‘<ð2ð —\‘\ð	2ð
 —|‘|ô2òh?÷ ò  r'   rÛ   c                   óz   ^ • \ rS rSrU 4S jrS\R                  S\R                  S\R                  4S jrSrU =r	$ )ÚCpmAntOutputiþ  c                 ó(  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                  5      U l        g )N)r   )r   r   r   rQ   rÎ   r   rÏ   Ú	LayerNormÚlayer_norm_epsrY   Úhidden_dropout_probrZ   r"   s     €r%   r   ÚCpmAntOutput.__init__ÿ  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆr'   r(   Úinput_tensorrÕ   c                 óp   • U R                  U5      nU R                  U5      nU R                  X-   5      nU$ r   )rÏ   rZ   r  )r#   r(   r  s      r%   r9   ÚCpmAntOutput.forward  s5   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆØŸ™ }Ñ'CÓDˆØÐr'   )r  rÏ   rZ   rÙ   rC   s   @r%   r  r  þ  s6   ø† õ>ð U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r'   r  c                   ó*   • \ rS rSr% \\S'   SrS rSrg)ÚCpmAntPreTrainedModeli  r   Úcpmantc                 ó*  • [        U[        R                  5      (       ak  UR                  R                  R                  SU R                  R                  S9  UR                  b%  UR                  R                  R                  5         gg[        U[        R                  5      (       ax  UR                  R                  R                  SU R                  R                  S9  UR                  b2  UR                  R                  UR                     R                  5         gg[        U[        R                  5      (       aJ  UR                  R                  R                  5         UR                  R                  R                  S5        g[        U[        5      (       a&  UR                  R                  R                  S5        g[        U[        5      (       a9  UR                   R                  R                  SU R                  R                  S9  gg)zInitialize the weightsg        )r5   ÚstdNg      ð?)rÐ   r   rQ   r!   ÚdataÚnormal_r   Úinit_stdrI   Úzero_Ú	EmbeddingÚpadding_idxr  Úfill_r   rÛ   rã   )r#   Úmodules     r%   Ú_init_weightsÚ#CpmAntPreTrainedModel._init_weights  sj  € äfœbŸi™i×(Ñ(ØM‰M×Ñ×&Ñ&¨C°T·[±[×5IÑ5IÐ&ÑJØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5IÑ5IÐ&ÑJØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤×0Ñ0ØM‰M×Ñ×$Ñ$ SÕ)Ü˜Ô >×?Ñ?Ø×*Ñ*×/Ñ/×7Ñ7¸SÀdÇkÁk×FZÑFZÐ7Ò[ð @r'   rÄ   N)	r;   r<   r=   r>   r   Ú__annotations__Úbase_model_prefixr!  rA   rÄ   r'   r%   r  r    s   ‡ àÓØ Ðõ\r'   r  c                   ó  ^ • \ rS rSrS\4U 4S jjrS rS rS r\	       SS\
\R                     S\
\   S	\
\   S
\
\\\R                           S\
\   S\
\   S\
\R                     S\\\R                     \4   4S jj5       rSrU =r$ )ÚCpmAntModeli$  r   c                 ó¼  >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  UR                  5      U l        [        R
                  " UR                  UR                  UR                  -  -   UR                  5      U l        [        U5      U l        UR                  U l        UR                  U l	        U R                  5         g r   )r   r   r·   Úencoderr   r  rá   r   Úsegment_embeddingÚ
vocab_sizeÚprompt_typesÚprompt_lengthÚinput_embeddingrÛ   r`   Ú	post_initr"   s     €r%   r   ÚCpmAntModel.__init__&  s§   ø€ Ü‰Ñ˜Ô Ü$ VÓ,ˆŒÜ!#§¢¨f×.BÑ.BÀF×DVÑDVÓ!WˆÔÜ!Ÿ|š|Ø×Ñ × 3Ñ 3°f×6JÑ6JÑ JÑJÈF×L^ÑL^ó 
ˆÔô <¸FÓCˆÔØ#×1Ñ1ˆÔØ ×+Ñ+ˆŒà‰Õr'   c                 ó   • U R                   $ r   ©r-  ©r#   s    r%   Úget_input_embeddingsÚ CpmAntModel.get_input_embeddings3  s   € Ø×#Ñ#Ð#r'   c                 ó   • Xl         g r   r1  )r#   Ú
embeddingsÚkwargss      r%   Úset_input_embeddingsÚ CpmAntModel.set_input_embeddings6  s   € Ø)Õr'   c                 ó  • UR                  S5      nUR                  S5      nUR                  n[        R                  " XgS9[        R                  " XgS9R	                  SS5      :*  nUS S 2S S S 24   US S 2S S 2S 4   R                  5       UR	                  SXf5      -  -  n	X’S S 2S S S 24   US S 2S S 2S 4   :H  -  n	[        R                  " [        [        X`R                  -
  5      5      S S S2   US9S S S 24   R                  US5      US S 2S 4   :  n
[        R                  " [        R                  " XPR                  US9R                  5       U
4SS9n
U
R	                  XVS5      U
R	                  USU5      -  U	-  n	U	$ )Nr   r   )rg   r+   rJ   )r/   rg   r   rï   rh   Úlogical_notrp   Úlistr¼   r,  ÚrepeatÚcatÚonesr~   )r#   Ú	input_idsÚspanÚcontextÚlengthrô   Úseqlenrg   Údirectional_mask_2dr_   Úmask_1ds              r%   Ú_prepare_attention_maskÚ#CpmAntModel._prepare_attention_mask9  sy  € Ø—‘˜qÓ!ˆØ—‘ Ó"ˆØ×!Ñ!ˆÜ#Ÿlšl¨6ÑAÄUÇ\Â\ÐRXÑEh×EmÑEmÐnpÐrsÓEtÑtÐØ ¢ Dª! Ñ,Ø’A’q˜$JÑ×+Ñ+Ó-Ð0C×0HÑ0HÈÈFÓ0[Ñ[ñ
ˆð (²°4º°
Ñ+;¸tÂAÂqÈ$ÀJÑ?OÑ+OÑPˆô LŠLœœe F×-?Ñ-?Ñ$?Ó@ÓAÁ$ÀBÀ$ÑGÐPVÑWÐX\Ò^_ÐX_Ñ`×gÑgÐhmÐopÓqØ’Q˜W‰oñð 	ô —)’)œUŸZšZ¨×/AÑ/AÈ&ÑQ×VÑVÓXÐZaÐbÐhiÑjˆØ Ÿ™ e°QÓ7¸'¿,¹,ÀuÈaÐQWÓ:XÑXÐ[iÑiˆØÐr'   r@  ra   rÁ   rb   rc   Úreturn_dictrd   rÕ   c           
      óþ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUR
                  [        R                  :w  a  UR                  [        R                  5      nUR
                  UR                  p©[        R                  " US:g  SS5      R                  XšS9nUS:g  R                  S5      R                  XšS9n[        R                  " [        R                  " U R                  S-  U R                  -   U R                  S-  U R                  -   U	U
S9R!                  UR#                  S5      S5      U4SS9nUR#                  5       u  pÞ[        R                  " [        R$                  " XÐR                  XšS9U4SS9n[        R&                  " XÞ4SXšS9n[        R                  " XéU
S9R!                  US5      n[        R&                  " XÞ4SXšS9nS	nU(       aB  [)        U[*        5      (       d-  [,        R/                  S
5        Sn[0        R2                  " U5      nUb  UR5                  5       OSnUR7                  5       nU R9                  U5      nU R;                  U5      nUS:w  a  USS2SS2SS24   nUU-   nU R=                  UUXü5      nU R?                  UUX»5      nUSS2US2SS24   nUSS2SS2US2SS24   nUSS2US2SS24   nU RA                  UUUUUUUU5      u  nnnUS:X  a}  USS2U R                  S2SS24   nUb6  SnU H,  nUUSS2SS2U R                  S2U R                  S24   4-  nM.     UnUb)  SnU H  nUUSS2U R                  S2SS24   4-  nM!     UnU(       a  URC                  5       nU(       d  [E        S UUUU4 5       5      $ [G        UUUUS9$ )a9  
input_ids (`torch.Tensor` of shape `(batch_size, seq_len)`):
    Indices of input sequence tokens in the vocabulary.

    Indices can be obtained using [`CPMAntTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are input IDs?](../glossary#input-ids)
Nr   r,   rë   r+   r   r   rJ   FzÞPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `DynamicCache` instead, e.g. `past_key_values=DynamicCache.from_legacy_cache(past_key_values)`.TrÄ   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr   rÄ   )Ú.0Úvs     r%   Ú	<genexpr>Ú&CpmAntModel.forward.<locals>.<genexpr>¶  s   é € ð Ù^a—‘Ò^ùs   ‚‹	)Úlast_hidden_staterb   r(   Ú
attentions)$r   ra   rÁ   Úuse_return_dictrc   r1   r   rð   r2   rg   rñ   Úsumr>  rï   r,  r*  r=  r/   ÚzerosÚfullrÐ   r	   ÚloggerÚwarning_oncer
   Úfrom_legacy_cacheÚget_seq_lengthrs   r-  r)  rG  r`   r(  Úto_legacy_cacheÚtupler   )r#   r@  ra   rÁ   rb   rc   rI  rd   r7  r1   rg   ÚsegmentrC  rô   Ú
seq_lengthrB  ÚpositionrA  Úreturn_legacy_cacheÚpast_lengthr(   Úsegment_statesr_   r`   rÆ   Úall_attentionsÚnew_attentionsÚ	attentionÚnew_hidden_statesÚhidden_states                                 r%   r9   ÚCpmAntModel.forwardK  s  € ð* 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ!*Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	ð ?‰?œeŸk™kÓ)Ø!Ÿ™¤U§[¡[Ó1ˆIØ!Ÿ™¨×)9Ñ)9ˆvÜ—+’+˜i¨1™n¨a°Ó3×6Ñ6¸UÐ6ÐRˆØ˜Q‘,×#Ñ# BÓ'×*Ñ*°Ð*ÐFˆÜ—I’Iä—’Ø×&Ñ&¨Ñ*¨T¯_©_Ñ<Ø×&Ñ&¨Ñ*¨T¯_©_Ñ<ØØ!ñ	÷
 ‘&˜Ÿ™¨Ó*¨AÓ.Øðð ñ
ˆ	ð &ŸN™NÓ,ÑˆÜ—)’)œUŸ[š[¨×0BÑ0BÈ%Ñ_ÐahÐiÐopÑqˆÜ—*’*˜eÐ0°!¸5ÑPˆÜ—<’< 
ÀÑG×NÑNÈuÐVWÓXˆÜzŠz˜5Ð-¨q¸ÑMˆà#ÐÞœZ¨¼×?Ñ?Ü×ÑðUôð
 #'ÐÜ*×<Ò<¸_ÓMˆOà:IÑ:Uo×4Ñ4Ô6Ð[\ˆØ×(Ñ(Ó*ˆ	Ø×,Ñ,¨YÓ7ˆØ×/Ñ/°Ó8ˆØ˜!ÓØ+ªA¨r©s²A¨IÑ6ˆNà%¨Ñ6ˆà×5Ñ5°iÀÀwÓWˆØ×*Ñ*¨8°X¸wÓPˆà'ª¨;©<ºÐ(:Ñ;ˆØ%¢aª¨K©Lº!Ð&;Ñ<ˆØ%¢a¨©²qÐ&8Ñ9ˆà;?¿<¹<ØØØØØ ØØØó	<
Ñ8ˆÐ(¨.ð ˜!ÓØ)ª!¨T×-?Ñ-?Ñ-AÂ1Ð*DÑEˆMàÑ)Ø!#Û!/IØ" y²²A°t×7IÑ7IÑ7KÈT×M_ÑM_ÑMaÐ1aÑ'bÐ&dÑd’Nñ "0à!/Ø Ñ,Ø$&Ð!Û$5LØ%¨,²q¸$×:LÑ:LÑ:NÒPQÐ7QÑ*RÐ)TÑTÒ%ñ %6à$5Ð!æØ-×=Ñ=Ó?ˆOæÜñ Ø)¨?Ð<MÈ~Ñ^óó ð ô 'Ø+Ø+Ø+Ø%ñ	
ð 	
r'   )r(  r-  r`   r,  r)  r*  )NNNNNNN)r;   r<   r=   r>   r   r   r3  r8  rG  r   r   r   r@   r~   r[  r   r   r9   rA   rB   rC   s   @r%   r&  r&  $  sê   ø† ð˜|÷ ò$ò*òð$ ð -1Ø,0Ø/3Ø@DØ$(Ø&*Ø15ñs
à˜EŸL™LÑ)ðs
ð $ D™>ðs
ð ' t™nð	s
ð
 " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðs
ð ˜D‘>ðs
ð ˜d‘^ðs
ð ! §¡Ñ.ðs
ð 
ˆuU—\‘\Ñ"Ð$;Ð;Ñ	<ôs
ó ös
r'   r&  zy
    The CPMAnt Model with a language modeling head on top (linear layer with weights tied to the input embeddings).
    )Úcustom_introc                   ób  ^ • \ rS rSrS/rS\4U 4S jjr\         SS\\	R                     S\\\\	R                  \	R                  4         S\\   S\\   S	\\   S
\\	R                     S\\   S\\	R                     S\\	R                     S\\\4   4S jj5       rS rS rS rSrU =r$ )ÚCpmAntForCausalLMiÂ  zlm_head.weightr   c                 óö   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  UR                  UR                  UR                  -  -   SS9U l
        U R                  5         g r   )r   r   r&  r  r   rQ   r   r*  r+  r,  Úlm_headr.  r"   s     €r%   r   ÚCpmAntForCausalLM.__init__Ê  sd   ø€ Ü‰Ñ˜Ô Ü! &Ó)ˆŒô —y’yØ×Ñ × 1Ñ 1°F×4GÑ4GÈ&×J^ÑJ^Ñ4^Ñ ^Ðejñ
ˆŒð 	‰Õr'   r@  rb   rc   ra   rÁ   ÚlabelsrI  r_   rd   rÕ   c
           	      óÐ  • Ub  UOU R                   R                  nU R                  UUUUUUU	5      nU(       a  UR                  OUS   nU R	                  U5      nSnUbA  [        5       nU" UR                  SUR                  S5      5      UR                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  S9$ )u”  
input_ids (`torch.Tensor` of shape `(batch_size, seq_len)`):
    Indices of input sequence tokens in the vocabulary.

    Indices can be obtained using [`CPMAntTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are input IDs?](../glossary#input-ids)
labels (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss.

Example:

Text Generation with CpmAntForCausalLM.
```python
>>> from transformers import CPMAntTokenizer, CpmAntForCausalLM

>>> texts = "ä»Šå¤©å¤©æ°”ä¸é”™ï¼Œ"
>>> model = CpmAntForCausalLM.from_pretrained("openbmb/cpm-ant-10b")
>>> tokenizer = CPMAntTokenizer.from_pretrained("openbmb/cpm-ant-10b")
>>> input_ids = tokenizer(texts, return_tensors="pt")
>>> outputs = model.generate(**input_ids)
>>> output_texts = tokenizer.batch_decode(outputs)
>>> print(output_texts)
['ä»Šå¤©å¤©æ°”ä¸é”™ï¼Œé˜³å…‰æ˜Žåªšï¼Œæˆ‘å’Œå¦ˆå¦ˆä¸€èµ·åŽ»è¶…å¸‚ä¹°ä¸œè¥¿ã€‚\nåœ¨è¶…å¸‚é‡Œï¼Œæˆ‘çœ‹åˆ°äº†ä¸€ä¸ªå¾ˆå¥½çŽ©çš„çŽ©å…·ï¼Œå®ƒçš„åå­—å«â€œæœºå™¨äººâ€ã€‚å®ƒæœ‰ä¸€ä¸ªåœ†åœ†çš„è„‘è¢‹ï¼Œä¸¤åªåœ†åœ†çš„çœ¼ç›ï¼Œè¿˜æœ‰ä¸€ä¸ªåœ†åœ†çš„']
```
Nr   r+   r   )ÚlossÚlogitsrb   r(   rQ  )r   rR  r  rP  rl  r   rh   r/   r   rb   r(   rQ  )r#   r@  rb   rc   ra   rÁ   rn  rI  r_   rd   r7  Úmodel_outputr(   rq  rp  Ú	loss_funcÚoutputs                    r%   r9   ÚCpmAntForCausalLM.forwardÔ  sø   € ðR &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—{‘{ØØØ ØØØØó
ˆö ;F˜×6Ò6È<ÐXYÉ?ˆà—‘˜mÓ,ˆàˆØÑÜ(Ó*ˆIÙ˜VŸ[™[¨¨V¯[©[¸«_Ó=¸v¿{¹{È2»ÓOˆDæØY ¨a¨bÐ!1Ñ1ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä%ØØØ(×8Ñ8Ø&×4Ñ4Ø#×.Ñ.ñ
ð 	
r'   c                 ó.   • U R                   R                  $ r   ©r  r-  r2  s    r%   r3  Ú&CpmAntForCausalLM.get_input_embeddings  s   € Ø{‰{×*Ñ*Ð*r'   c                 ó$   • XR                   l        g r   rw  )r#   r6  s     r%   r8  Ú&CpmAntForCausalLM.set_input_embeddings   s   € Ø&0‰Õ#r'   c                 óŠ   • U Vs/ sH  o3b  [        U5      OUPM     nnU H  nUS   U   US'   US   U   US'   M     U$ s  snf )Nr   r   )r<  )r#   rb   Úbeam_idxÚeachÚkey_value_layers        r%   Ú_reorder_cacheÚ CpmAntForCausalLM._reorder_cache#  sd   € ÙP_Ó`ÑP_ÈÑ)9œ4 œ:¸tÒCÑP_ˆÐ`Û.ˆOØ!0°Ñ!3°HÑ!=ˆO˜AÑØ!0°Ñ!3°HÑ!=ˆO˜AÓñ  /ð Ðùò	 as   …A )r  rl  )	NNNNNNNNN)r;   r<   r=   r>   Ú_tied_weights_keysr   r   r   r   r   r@   r<  r[  r~   r   r   r9   r3  r8  r  rA   rB   rC   s   @r%   rj  rj  Â  s)  ø† ð +Ð+Ðð˜|÷ ð ð -1ØMQØ$(Ø,0Ø/3Ø)-Ø&*Ø15Ø15ñF
à˜EŸL™LÑ)ðF
ð " $ u¨U¯\©\¸5¿<¹<Ð-GÑ'HÑ"IÑJðF
ð ˜D‘>ð	F
ð
 $ D™>ðF
ð ' t™nðF
ð ˜Ÿ™Ñ&ðF
ð ˜d‘^ðF
ð ! §¡Ñ.ðF
ð ! §¡Ñ.ðF
ð 
ˆuÐ,Ð,Ñ	-ôF
ó ðF
òP+ò1÷ð r'   rj  )rj  r&  r  )1r?   rm   Útypingr   r   r   Útorch.nn.functionalr   Ú
functionalrò   Útorch.utils.checkpointÚtorch.nnr   Úactivationsr   Úcache_utilsr	   r
   Ú
generationr   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_cpmantr   Ú
get_loggerr;   rV  ÚModuler   rE   r€   r   r   r§   r°   r·   rÌ   rÛ   r  r  r&  rj  Ú__all__rÄ   r'   r%   Ú<module>r‘     sv  ðñ ã ß "ã ß Ð Û Ý Ý %å !ß .Ý )ß OÝ -ß ,Ý .ð 
×	Ò	˜HÓ	%€ôb—i‘iô ô2b#b—i‘iô b#ôJ4+˜rŸy™yô 4+ôn˜"Ÿ)™)ô ô(˜Ÿ	™	ô ô4R—Y‘Yô ô6++˜RŸY™Yô ++ô\<@B—I‘Iô <@ô@˜Ÿ™ô ôY  R§Y¡Yô Y ôz2—9‘9ô ð ô\˜Oó \ó ð\ð. ôZ
Ð'ó Z
ó ðZ
ñz ðñô
aÐ-¨ó aóð
aòH Hr'   