ó
    <±hRa  ã                   ó¾  • S SK JrJrJr  S SKrS SKJr  S SKrSSKJ	r	  SSK
JrJr  SSKJrJr  SSKJrJr  SSKJr  SS	KJr  SS
KJrJr  SSKJr  SSKJr  SSKJrJ r   SSK!J"r"J#r#J$r$J%r%J&r&J'r'J(r(J)r)J*r*  \ RV                  " \,5      r- " S S\5      r. " S S\(5      r/ " S S\&5      r0   S-S\Rb                  S\Rd                  S\Rd                  S\Rd                  S\\Rd                     S\3S\\3   S\\3   S\4\Rd                  \Rd                  4   4S jjr5 " S  S!\"5      r6 " S" S#\5      r7 " S$ S%\'5      r8 " S& S'\#5      r9 " S( S)\$5      r: " S* S+\%5      r;/ S,Qr<g).é    )ÚCallableÚOptionalÚUnionNé   )ÚACT2FN)ÚCacheÚDynamicCache)ÚPretrainedConfigÚlayer_type_validation)Úcreate_causal_maskÚ!create_sliding_window_causal_mask)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)ÚBaseModelOutputWithPastÚCausalLMOutputWithPast)ÚALL_ATTENTION_FUNCTIONS)ÚUnpack)ÚTransformersKwargsÚloggingé   )	ÚGemmaAttentionÚGemmaForCausalLMÚGemmaForSequenceClassificationÚGemmaForTokenClassificationÚGemmaMLPÚ
GemmaModelÚGemmaRMSNormÚapply_rotary_pos_embÚ	repeat_kvc                   ó¤   ^ • \ rS rSrSrSrS/rSSSSSSSS.rS/S	/4S
S/S
/4S
/S
/4S.r                        SU 4S jjr	Sr
U =r$ )ÚGemma2Configé0   a³  
This is the configuration class to store the configuration of a [`Gemma2Model`]. It is used to instantiate an Gemma2
model according to the specified arguments, defining the model architecture. Instantiating a configuration with the
defaults will yield a similar configuration to that of the Gemma2-7B.
e.g. [google/gemma2-7b](https://huggingface.co/google/gemma2-7b)
Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
documentation from [`PretrainedConfig`] for more information.
Args:
    vocab_size (`int`, *optional*, defaults to 256000):
        Vocabulary size of the Gemma2 model. Defines the number of different tokens that can be represented by the
        `inputs_ids` passed when calling [`Gemma2Model`]
    hidden_size (`int`, *optional*, defaults to 2304):
        Dimension of the hidden representations.
    intermediate_size (`int`, *optional*, defaults to 9216):
        Dimension of the MLP representations.
    num_hidden_layers (`int`, *optional*, defaults to 26):
        Number of hidden layers in the Transformer decoder.
    num_attention_heads (`int`, *optional*, defaults to 8):
        Number of attention heads for each attention layer in the Transformer decoder.
    num_key_value_heads (`int`, *optional*, defaults to 4):
        This is the number of key_value heads that should be used to implement Grouped Query Attention. If
        `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
        `num_key_value_heads=1` the model will use Multi Query Attention (MQA) otherwise GQA is used. When
        converting a multi-head checkpoint to a GQA checkpoint, each group key and value head should be constructed
        by meanpooling all the original heads within that group. For more details, check out [this
        paper](https://huggingface.co/papers/2305.13245). If it is not specified, will default to
        `num_attention_heads`.
    head_dim (`int`, *optional*, defaults to 256):
        The attention head dimension.
    hidden_activation (`str` or `function`, *optional*, defaults to `"gelu_pytorch_tanh"`):
        The non-linear activation function (function or string) in the decoder. Will default to `"gelu_pytorch_tanh"`
        if not specified. `"gelu_pytorch_tanh"` uses an approximation of the `"gelu"` activation function.
    max_position_embeddings (`int`, *optional*, defaults to 8192):
        The maximum sequence length that this model might ever be used with.
    initializer_range (`float`, *optional*, defaults to 0.02):
        The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
    rms_norm_eps (`float`, *optional*, defaults to 1e-06):
        The epsilon used by the rms normalization layers.
    use_cache (`bool`, *optional*, defaults to `True`):
        Whether or not the model should return the last key/values attentions (not used by all models). Only
        relevant if `config.is_decoder=True`.
    pad_token_id (`int`, *optional*, defaults to 0):
        Padding token id.
    eos_token_id (`int`, *optional*, defaults to 1):
        End of stream token id.
    bos_token_id (`int`, *optional*, defaults to 2):
        Beginning of stream token id.
    tie_word_embeddings (`bool`, *optional*, defaults to `True`):
        Whether to tie weight embeddings
    rope_theta (`float`, *optional*, defaults to 10000.0):
        The base period of the RoPE embeddings.
    attention_bias (`bool`, defaults to `False`, *optional*, defaults to `False`):
        Whether to use a bias in the query, key, value and output projection layers during self-attention.
    attention_dropout (`float`, *optional*, defaults to 0.0):
        The dropout ratio for the attention probabilities.
    query_pre_attn_scalar (`float`, *optional*, defaults to 256):
        scaling factor used on the attention scores
    sliding_window (`int`, *optional*, defaults to 4096):
        in Gemma2, every other layer uses sliding window attention. This is the size of the sliding window.
    layer_types (`list`, *optional*):
        Attention pattern for each layer.
    final_logit_softcapping (`float`, *optional*, defaults to 30.0):
        scaling factor when applying tanh softcapping on the logits.
    attn_logit_softcapping (`float`, *optional*, defaults to 50.0):
        scaling factor when applying tanh softcapping on the attention scores.

```python
>>> from transformers import Gemma2Model, Gemma2Config
>>> # Initializing a Gemma2 gemma2-7b style configuration
>>> configuration = Gemma2Config()
>>> # Initializing a model from the gemma2-7b style configuration
>>> model = Gemma2Model(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
```Úgemma2Úpast_key_valuesÚcolwiseÚrowwise)zlayers.*.self_attn.q_projzlayers.*.self_attn.k_projzlayers.*.self_attn.v_projzlayers.*.self_attn.o_projzlayers.*.mlp.gate_projzlayers.*.mlp.up_projzlayers.*.mlp.down_projÚ	input_idsÚinputs_embedsÚhidden_statesÚattention_mask)Úembed_tokensÚlayersÚnormc                 ó  >• [         TU ]  " SUUUUS.UD6  Xl        Xl        X l        X0l        X@l        XPl        Xpl        X`l	        X l
        X°l        XÀl        UU l        UU l        UU l        X€l        UU l        UU l        UU l        UU l        UU l        U R*                  cB  [-        U R                  5       Vs/ sH  n[/        US-   S-  5      (       a  SOSPM     snU l        [1        U R*                  5        g s  snf )N)Úpad_token_idÚbos_token_idÚeos_token_idÚtie_word_embeddingsé   r   Úsliding_attentionÚfull_attention© )ÚsuperÚ__init__Ú
vocab_sizeÚmax_position_embeddingsÚhidden_sizeÚintermediate_sizeÚnum_hidden_layersÚnum_attention_headsÚhead_dimÚnum_key_value_headsÚinitializer_rangeÚrms_norm_epsÚ	use_cacheÚ
rope_thetaÚattention_biasÚattention_dropoutÚhidden_activationÚquery_pre_attn_scalarÚsliding_windowÚfinal_logit_softcappingÚattn_logit_softcappingÚlayer_typesÚrangeÚboolr   )Úselfr9   r;   r<   r=   r>   r@   r?   rG   r:   rA   rB   rC   r/   r1   r0   r2   rD   rE   rF   rH   rI   rL   rJ   rK   ÚkwargsÚiÚ	__class__s                              €Úa/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/gemma2/modular_gemma2.pyr8   ÚGemma2Config.__init__Ž   s  ø€ ô8 	‰Òð 	
Ø%Ø%Ø%Ø 3ñ		
ð
 ò	
ð %ŒØ'>Ô$Ø&ÔØ!2ÔØ!2ÔØ#6Ô Ø ŒØ#6Ô Ø!2ÔØ(ÔØ"ŒØ$ˆŒØ,ˆÔØ!2ˆÔØ!2ÔØ%:ˆÔ"Ø,ˆÔØ'>ˆÔ$Ø&<ˆÔ#Ø&ˆÔà×ÑÑ#äX]Ð^b×^tÑ^tÔXuó ÙXuÐST¤t¨Q°©U°a©K×'8Ñ'8Ñ#Ð>NÒNÑXuñ ˆDÔô 	˜d×.Ñ.Õ/ùò s   Â;#C<)rE   rF   rK   rJ   r?   rG   r;   rA   r<   rL   r:   r>   r=   r@   rH   rB   rD   rI   rC   r9   )i è i 	  i $  é   é   é   é   Úgelu_pytorch_tanhi    g{®Gáz”?gíµ ÷Æ°>Tr   r3   r   Tg     ˆÃ@Fç        rX   i   Ng      >@g      I@)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Ú
model_typeÚkeys_to_ignore_at_inferenceÚbase_model_tp_planÚbase_model_pp_planr8   Ú__static_attributes__Ú__classcell__©rR   s   @rS   r!   r!   0   sÁ   ø† ñJðX €JØ#4Ð"5Ðà%.Ø%.Ø%.Ø%.Ø"+Ø )Ø"+ñÐð &˜¨Ð(9Ð:Ø#Ð%5Ð6¸Ð8IÐJØ!Ð" _Ð$5Ð6ñÐð ØØØØØØØ-Ø $ØØØØØØØ ØØØØ!ØØØ $Ø#÷3<0õ <0ó    r!   c                   ó   • \ rS rSrSrg)ÚGemma2RMSNorméÍ   r6   N©r[   r\   r]   r^   rd   r6   rg   rS   ri   ri   Í   ó   † Úrg   ri   c                   ó(   ^ • \ rS rSrU 4S jrSrU =r$ )Ú	Gemma2MLPéÑ   c                 óR   >• [         TU ]  5         [        UR                     U l        g ©N)r7   r8   r   rG   Úact_fn©rO   ÚconfigrR   s     €rS   r8   ÚGemma2MLP.__init__Ò   s    ø€ Ü‰ÑÔÜ˜V×5Ñ5Ñ6ˆrg   )rr   )r[   r\   r]   r^   r8   rd   re   rf   s   @rS   rn   rn   Ñ   s   ø† ÷7ó 7rg   rn   ÚmoduleÚqueryÚkeyÚvaluer*   ÚdropoutÚscalingÚsoftcapÚreturnc                 ó¦  • Uc  U R                   S-  n[        X R                  5      n	[        X0R                  5      n
[        R                  " XR                  SS5      5      U-  nUb  X·-  n[        R                  " U5      nX·-  nUb"  US S 2S S 2S S 2S U	R                  S   24   nX¼-   n[        R                  R                  US[        R                  S9R                  UR                  5      n[        R                  R                  XµU R                  S9n[        R                  " Xº5      nUR                  SS5      R!                  5       nXÛ4$ )	Nç      à¿r   r   éþÿÿÿéÿÿÿÿ)ÚdimÚdtype)ÚpÚtrainingr3   )r?   r   Únum_key_value_groupsÚtorchÚmatmulÚ	transposeÚtanhÚshapeÚnnÚ
functionalÚsoftmaxÚfloat32Útorƒ   rz   r…   Ú
contiguous)rv   rw   rx   ry   r*   rz   r{   r|   rP   Ú
key_statesÚvalue_statesÚattn_weightsÚcausal_maskÚattn_outputs                 rS   Úeager_attention_forwardr—   ×   s/  € ð Ø—/‘/ 4Ñ'ˆä˜3× ;Ñ ;Ó<€JÜ˜U×$?Ñ$?Ó@€Lä—<’< ×';Ñ';¸A¸qÓ'AÓBÀWÑL€LàÑØ#Ñ-ˆÜ—z’z ,Ó/ˆØ#Ñ-ˆØÑ!Ø$¢Qªª1Ð.D°
×0@Ñ0@ÀÑ0DÐ.DÐ%DÑEˆØ#Ñ1ˆô —=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó:€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KØÐ$Ð$rg   c                   óB  ^ • \ rS rSrS\S\4U 4S jjr  SS\R                  S\	\R                  \R                  4   S\
\R                     S\
\   S	\
\R                     S
\\   S\	\R                  \
\R                     \
\	\R                        4   4S jjrSrU =r$ )ÚGemma2Attentionéú   rt   Ú	layer_idxc                 ó  >• [         TU ]  X5        U R                  R                  U l        U R                  R                  U l        SU l        UR                  S-  U l        UR                  U   S:X  a  UR                  U l	        g S U l	        g )NTr   r4   )
r7   r8   rt   rK   rF   Ú	is_causalrH   r{   rL   rI   ©rO   rt   r›   rR   s      €rS   r8   ÚGemma2Attention.__init__û   sv   ø€ Ü‰Ñ˜Ô+Ø&*§k¡k×&HÑ&HˆÔ#Ø!%§¡×!>Ñ!>ˆÔØˆŒØ×3Ñ3°TÑ9ˆŒØ7=×7IÑ7IÈ)Ñ7TÐXkÓ7k˜f×3Ñ3ˆÕÐquˆÕrg   r)   Úposition_embeddingsr*   Úpast_key_valueÚcache_positionrP   r}   c                 ó`  • UR                   S S n/ UQSPU R                  P7nU R                  U5      R                  U5      R	                  SS5      n	U R                  U5      R                  U5      R	                  SS5      n
U R                  U5      R                  U5      R	                  SS5      nUu  pÍ[        XšXÍ5      u  pšUb$  XÜUS.nUR                  X«U R                  U5      u  p«[        nU R                  R                  S:w  a  [        U R                  R                     nU" U U	U
UU4U R                  (       a  U R                  OSU R                   U R"                  U R$                  S.UD6u  nnUR&                  " / UQSP76 R)                  5       nU R+                  U5      nUU4$ )Nr   r3   r   )ÚsinÚcosr¢   ÚeagerrZ   )rz   r{   rI   r|   )r‹   r?   Úq_projÚviewr‰   Úk_projÚv_projr   Úupdater›   r—   rt   Ú_attn_implementationr   r…   rF   r{   rI   rK   Úreshaper‘   Úo_proj)rO   r)   r    r*   r¡   r¢   rP   Úinput_shapeÚhidden_shapeÚquery_statesr’   r“   r¥   r¤   Úcache_kwargsÚattention_interfacer–   r”   s                     rS   ÚforwardÚGemma2Attention.forward  s«  € ð $×)Ñ)¨#¨2Ð.ˆØ8˜Ð8 bÐ8¨$¯-©-Ñ8ˆà—{‘{ =Ó1×6Ñ6°|ÓD×NÑNÈqÐRSÓTˆØ—[‘[ Ó/×4Ñ4°\ÓB×LÑLÈQÐPQÓRˆ
Ø—{‘{ =Ó1×6Ñ6°|ÓD×NÑNÈqÐRSÓTˆà&‰ˆÜ#7¸ÐRUÓ#[Ñ ˆàÑ%à#&ÀnÑUˆLØ'5×'<Ñ'<¸ZÐW[×WeÑWeÐgsÓ'tÑ$ˆJä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð%
ð /3¯m¯mD×*Ò*ÀØ—L‘LØ×.Ñ.Ø×/Ñ/ñ%
ð ñ%
Ñ!ˆ\ð "×)Ò)Ð;¨;Ð;¸Ò;×FÑFÓHˆØ—k‘k +Ó.ˆØ˜LÐ(Ð(rg   )rF   rK   r   r{   rI   )NN)r[   r\   r]   r^   r!   Úintr8   r‡   ÚTensorÚtupler   r   Ú
LongTensorr   r   r´   rd   re   rf   s   @rS   r™   r™   ú   sÊ   ø† ðv˜|ð v¸÷ vð +/Ø59ñ+)à—|‘|ð+)ð # 5§<¡<°·±Ð#=Ñ>ð+)ð ! §¡Ñ.ð	+)ð
 ! ™ð+)ð ! ×!1Ñ!1Ñ2ð+)ð Ð-Ñ.ð+)ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷+)ó +)rg   r™   c                   ón  ^ • \ rS rSrS\S\4U 4S jjr      SS\R                  S\	\R                  \R                  4   S\
\R                     S\
\R                     S	\
\   S
\
\   S\
\   S\
\R                     S\	\R                  \
\	\R                  \R                  4      4   4S jjrSrU =r$ )ÚGemma2DecoderLayeri1  rt   r›   c                 óÌ  >• [         TU ]  5         UR                  U l        Xl        UR                  U   U l        [        XS9U l        [        U5      U l	        [        UR                  UR                  S9U l        [        UR                  UR                  S9U l        [        UR                  UR                  S9U l        [        UR                  UR                  S9U l        g )N)rt   r›   )Úeps)r7   r8   r;   rt   rL   Úattention_typer™   Ú	self_attnrn   Úmlpri   rB   Úinput_layernormÚpost_attention_layernormÚpre_feedforward_layernormÚpost_feedforward_layernormrž   s      €rS   r8   ÚGemma2DecoderLayer.__init__2  s¹   ø€ Ü‰ÑÔØ!×-Ñ-ˆÔØŒØ$×0Ñ0°Ñ;ˆÔÜ(°ÑLˆŒÜ˜VÓ$ˆŒÜ,¨V×-?Ñ-?ÀV×EXÑEXÑYˆÔÜ(5°f×6HÑ6HÈf×NaÑNaÑ(bˆÔ%ä)6°v×7IÑ7IÈv×ObÑObÑ)cˆÔ&Ü*7¸×8JÑ8JÐPV×PcÑPcÑ*dˆÕ'rg   r)   r    r*   Úposition_idsr¡   Úoutput_attentionsrC   r¢   r}   c	                 ó   • Un
U R                  U5      nU R                  " SUUUUUUUUS.U	D6u  pU R                  U5      nX¡-   nUn
U R                  U5      nU R	                  U5      nU R                  U5      nX¡-   nU4nU(       a  XË4-  nU$ )N)r)   r    r*   rÆ   r¡   rÇ   rC   r¢   r6   )rÁ   r¿   rÂ   rÃ   rÀ   rÄ   )rO   r)   r    r*   rÆ   r¡   rÇ   rC   r¢   rP   ÚresidualÚself_attn_weightsÚoutputss                rS   r´   ÚGemma2DecoderLayer.forward?  sÃ   € ð !ˆà×,Ñ,¨]Ó;ˆð ,0¯>ª>ð 
,
Ø'Ø 3Ø)Ø%Ø)Ø/ØØ)ñ
,
ð ñ
,
Ñ(ˆð ×5Ñ5°mÓDˆØ Ñ0ˆà ˆØ×6Ñ6°}ÓEˆØŸ™ Ó/ˆØ×7Ñ7¸ÓFˆØ Ñ0ˆà Ð"ˆæØÐ+Ñ+ˆGàˆrg   )	r¾   rt   r;   rÁ   rÀ   rÂ   rÄ   rÃ   r¿   )NNNFFN)r[   r\   r]   r^   r!   r¶   r8   r‡   r·   r¸   r   r¹   r   rN   ÚFloatTensorr´   rd   re   rf   s   @rS   r»   r»   1  sû   ø† ðe˜|ð e¸÷ eð" 26Ø37Ø*.Ø,1Ø$)Ø59ñ*à—|‘|ð*ð # 5§<¡<°·±Ð#=Ñ>ð*ð ! §¡Ñ.ð	*ð
 ˜u×/Ñ/Ñ0ð*ð ! ™ð*ð $ D™>ð*ð ˜D‘>ð*ð ! ×!1Ñ!1Ñ2ð*ð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷*ó *rg   r»   c                   ó  ^ • \ rS rSrS\4U 4S jjr         SS\\R                     S\\R                     S\\R                     S\\
   S\\R                     S	\\   S
\\   S\\   S\\R                     S\\   S\4S jjrSrU =r$ )ÚGemma2Modelil  rt   c           	      ó¼   >• [         TU ]  U5        [        R                  " [	        UR
                  5       Vs/ sH  n[        X5      PM     sn5      U l        g s  snf rq   )r7   r8   rŒ   Ú
ModuleListrM   r=   r»   r,   rž   s      €rS   r8   ÚGemma2Model.__init__m  sH   ø€ Ü‰Ñ˜Ô Ü—m’mÜDIÈ&×JbÑJbÔDcÓdÑDc°yÔ Ö2ÑDcÑdó
ˆùÚds   ¸Ar'   r*   rÆ   r$   r(   rC   rÇ   Úoutput_hidden_statesr¢   rP   r}   c
                 óô  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUS L US L-  (       a  [	        S5      eU R
                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnUc  U R                  U5      nU(       a  Uc  U R                  (       d
  [        5       nU	cD  Ub  UR                  5       OSn[        R                  " X»UR                  S   -   UR                  S9n	Uc  U	R!                  S5      n[#        U=n[$        5      (       d*  U R                   UUU	UUS.n['        S0 UD6[)        S0 UD6S.nUnU R+                  Xã5      n[        R,                  " U R                   R.                  S	-  UR0                  S
9nUU-  nU(       a  SOS nU(       a  SOS nU R2                  S U R                   R4                    HE  nU(       a  UU4-  nU" U4UUUR6                     UUUUU	S.U
D6nUS   nU(       d  M<  UUS   4-  nMG     U R9                  U5      nU(       a  UU4-  n[;        UUUUS9$ )Nz:You must specify exactly one of input_ids or inputs_embedszX`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.Fr   r3   )Údevice)rt   Úinput_embedsr*   r¢   r$   rÆ   )r5   r4   g      à?)rƒ   r6   )r    r*   rÆ   r¡   rÇ   rC   r¢   )Úlast_hidden_stater$   r)   Ú
attentions)rt   rÇ   rÓ   rC   Ú
ValueErrorÚgradient_checkpointingr…   ÚloggerÚwarning_oncer+   r	   Úget_seq_lengthr‡   Úaranger‹   rÕ   Ú	unsqueezeÚ
isinstanceÚdictr   r   Ú
rotary_embÚtensorr;   rƒ   r,   r=   r¾   r-   r   )rO   r'   r*   rÆ   r$   r(   rC   rÇ   rÓ   r¢   rP   Úpast_seen_tokensÚcausal_mask_mappingÚmask_kwargsr)   r    Ú
normalizerÚall_hidden_statesÚall_self_attnsÚdecoder_layerÚlayer_outputss                        rS   r´   ÚGemma2Model.forwards  s¡  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	à˜Ð -°tÐ";×<ÜÐYÓZÐZà×&×&¨4¯=¯=¾YÜ×ÑØjôð ˆIàÑ Ø ×-Ñ-¨iÓ8ˆMæ˜Ñ0¸¿¿Ü*›nˆOàÑ!ØCRÑC^˜×=Ñ=Ô?ÐdeÐÜ"Ÿ\š\Ø °]×5HÑ5HÈÑ5KÑ"KÐTa×ThÑThñˆNð ÑØ)×3Ñ3°AÓ6ˆLô °Ð?Ð-Ä×FÑFð Ÿ+™+Ø -Ø"0Ø"0Ø#2Ø ,ñˆKô #5Ñ"C°{Ñ"CÜ%FÑ%UÈÑ%Uñ#Ðð &ˆð #Ÿo™o¨mÓJÐô
 —\’\ $§+¡+×"9Ñ"9¸3Ñ">Àm×FYÑFYÑZˆ
Ø%¨
Ñ2ˆö #7™B¸DÐÞ0™°dˆà!Ÿ[™[Ð)H¨4¯;©;×+HÑ+HÓIˆMÞ#Ø! mÐ%5Ñ5Ð!á)Øð
à$7Ø2°=×3OÑ3OÑPØ)Ø.Ø"3Ø#Ø-ñ
ð ñ
ˆMð *¨!Ñ,ˆMç Ð Ø =°Ñ#3Ð"5Ñ5’ñ' Jð* Ÿ	™	 -Ó0ˆæØ -Ð!1Ñ1Ðä&Ø+Ø+Ø+Ø%ñ	
ð 	
rg   )r,   )	NNNNNNNNN)r[   r\   r]   r^   r!   r8   r   r‡   r¹   r·   r   rÍ   rN   r   r   r   r´   rd   re   rf   s   @rS   rÏ   rÏ   l  sú   ø† ð
˜|÷ 
ð 15Ø15Ø37Ø+/Ø59Ø$(Ø,0Ø/3Ø59ñk
à˜E×,Ñ,Ñ-ðk
ð ! §¡Ñ.ðk
ð ˜u×/Ñ/Ñ0ð	k
ð
 " %™ðk
ð   × 1Ñ 1Ñ2ðk
ð ˜D‘>ðk
ð $ D™>ðk
ð ' t™nðk
ð ! ×!1Ñ!1Ñ2ðk
ð Ð+Ñ,ðk
ð 
!÷k
ó k
rg   rÏ   c                   óN  ^ • \ rS rSrU 4S jr           SS\\R                     S\\R                     S\\R                     S\\	   S\\R                     S\\R                     S	\\   S
\\   S\\   S\\R                     S\\\R                  4   S\4S jjrSrU =r$ )ÚGemma2ForCausalLMiá  c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g rq   )r7   r8   rÏ   ÚmodelÚ	post_initrs   s     €rS   r8   ÚGemma2ForCausalLM.__init__â  s&   ø€ Ü‰Ñ˜Ô Ü  Ó(ˆŒ
Ø‰Õrg   r'   r*   rÆ   r$   r(   ÚlabelsrC   rÇ   rÓ   r¢   Úlogits_to_keepr}   c                 óF  • U R                   (       aG  U R                  R                  S:w  a-  [        R	                  SU R                  R                   S35        Ub  UOU R                  R
                  nU	b  U	OU R                  R                  n	U R                  " SUUUUUUUU	U
S.	UD6nUR                  n[        U[        5      (       a  [        U* S5      OUnU R                  USS2USS24   5      nU R                  R                  bH  UU R                  R                  -  n[        R                  " U5      nUU R                  R                  -  nSnUb  U R                   " UX`R"                  40 UD6n[%        UUUR&                  UR(                  UR*                  S9$ )a"  
Example:

```python
>>> from transformers import AutoTokenizer, Gemma2ForCausalLM

>>> model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-9b")
>>> tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b")

>>> prompt = "What is your favorite condiment?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"What is your favorite condiment?"
```r¦   zhIt is strongly recommended to train Gemma2 models with the `eager` attention implementation instead of `zp`. Use `eager` with `AutoModelForCausalLM.from_pretrained('<path-to-checkpoint>', attn_implementation='eager')`.N)	r'   r*   rÆ   r$   r(   rC   rÇ   rÓ   r¢   )ÚlossÚlogitsr$   r)   rØ   r6   )r…   rt   r¬   rÛ   rÜ   rÇ   rÓ   rð   r×   rà   r¶   ÚsliceÚlm_headrJ   r‡   rŠ   Úloss_functionr9   r   r$   r)   rØ   )rO   r'   r*   rÆ   r$   r(   ró   rC   rÇ   rÓ   r¢   rô   rP   rË   r)   Úslice_indicesr÷   rö   s                     rS   r´   ÚGemma2ForCausalLM.forwardç  sž  € ðB ==˜TŸ[™[×=Ñ=ÀÓHÜ×ÑðØ#Ÿ{™{×?Ñ?Ð@ð  Aqðrôð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð ,0¯:ª:ð ,
ØØ)Ø%Ø+Ø'ØØ/Ø!5Ø)ñ,
ð ñ,
ˆð  ×1Ñ1ˆä8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆØ;‰;×.Ñ.Ñ:Ø˜dŸk™k×AÑAÑAˆFÜ—Z’Z Ó'ˆFØ˜dŸk™k×AÑAÑAˆFàˆØÑØ×%Ò% f¨f·o±oÑPÈÑPˆDä%ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
rg   )rð   )NNNNNNNNNNr   )r[   r\   r]   r^   r8   r   r‡   r¹   r·   r   rÍ   rN   r   r¶   r   r´   rd   re   rf   s   @rS   rî   rî   á  s  ø† õð 15Ø15Ø37Ø+/Ø59Ø-1Ø$(Ø,0Ø/3Ø59Ø34ñK
à˜E×,Ñ,Ñ-ðK
ð ! §¡Ñ.ðK
ð ˜u×/Ñ/Ñ0ð	K
ð
 " %™ðK
ð   × 1Ñ 1Ñ2ðK
ð ˜×)Ñ)Ñ*ðK
ð ˜D‘>ðK
ð $ D™>ðK
ð ' t™nðK
ð ! ×!1Ñ!1Ñ2ðK
ð ˜c 5§<¡<Ð/Ñ0ðK
ð 
 ÷K
ó K
rg   rî   c                   ó   • \ rS rSrSrg)ÚGemma2ForSequenceClassificationi5  r6   Nrk   r6   rg   rS   rþ   rþ   5  rl   rg   rþ   c                   ó   • \ rS rSrSrg)ÚGemma2ForTokenClassificationi9  r6   Nrk   r6   rg   rS   r   r   9  rl   rg   r   )r!   rî   rÏ   ÚGemma2PreTrainedModelrþ   r   )rZ   NN)=Útypingr   r   r   r‡   Útorch.nnrŒ   Útorch.utils.checkpointÚactivationsr   Úcache_utilsr   r	   Úconfiguration_utilsr
   r   Úmasking_utilsr   r   Úmodeling_flash_attention_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   Úmodeling_utilsr   Úprocessing_utilsr   Úutilsr   r   Úgemma.modeling_gemmar   r   r   r   r   r   r   r   r   Ú
get_loggerr[   rÛ   r!   ri   rn   ÚModuler·   Úfloatr¸   r—   r™   r»   rÏ   rî   rþ   r   Ú__all__r6   rg   rS   Ú<module>r     sr  ð÷  -Ñ ,ã Ý Û å !ß .ß Jß RÝ BÝ 9ß OÝ 5Ý &ß 0÷
÷ 
õ 
ð 
×	Ò	˜HÓ	%€ôZ0Ð#ô Z0ôz	Lô 	ô7ô 7ð Ø#Ø#ñ %ØI‰Ið %à<‰<ð %ð 
‰ð %ð <‰<ð	 %ð
 ˜UŸ\™\Ñ*ð %ð ð %ð e‰_ð %ð e‰_ð %ð ˆ5<‰<˜Ÿ™Ð%Ñ&õ %ôF4)nô 4)ôn8Ð3ô 8ôvr
*ô r
ôjQ
Ð(ô Q
ôh	Ð&Dô 	ô	Ð#>ô 	òrg   