ó
    <±hS®  ã                   ó  • S SK JrJrJr  S SKrS SKJs  Jr  S SKJr  SSK	J
r
  SSKJrJr  SSKJr  SSKJr  SS	KJr  SS
KJrJrJr  SSKJrJr  SSKJrJr  SSKJrJ r J!r!  SSK"J#r#  \ " 5       (       a  S SK$J%r%  SSK&J'r'  \!RP                  " \)5      r*   S8S\\RV                  \,\RV                     S4   S\\-   S\\RV                     S\\RV                  \-4   4S jjr. " S S\R^                  5      r0 " S S\R^                  5      r1S r2S9S jr3 " S S\R^                  5      r4 " S S \R^                  5      r5 " S! S"\R^                  5      r6S#\RV                  S$\-S\RV                  4S% jr7 " S& S'\R^                  5      r8 S:S(\R^                  S)\RV                  S*\RV                  S+\RV                  S\\RV                     S,\9S-\94S. jjr: " S/ S0\5      r;\ " S1 S2\5      5       r<\ " S3 S4\<5      5       r= " S5 S6\<\5      r>/ S7Qr?g);é    )ÚCallableÚOptionalÚUnionN)Únné   )ÚACT2FN)ÚCacheÚDynamicCache)ÚGenerationMixin)ÚAttentionMaskConverter)ÚGradientCheckpointingLayer)ÚBaseModelOutputWithPastÚMoeCausalLMOutputWithPastÚMoeModelOutputWithPast)ÚROPE_INIT_FUNCTIONSÚdynamic_rope_update)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)Úauto_docstringÚis_torch_flex_attn_availableÚloggingé   )ÚGraniteMoeConfig)Ú	BlockMask)Úmake_flex_block_causal_maskÚgate_logitsÚnum_expertsÚattention_maskÚreturnc                 ód  • U b  [        U [        5      (       d  g[        U [        5      (       aB  U S   R                  n[        R                  " U  Vs/ sH  oUR                  U5      PM     snSS9n[        R                  R                  R                  WSS9n[        R                  " XrSS9u  p‰[        R                  R                  R                  X‘5      n
Uc:  [        R                  " U
R                  5       SS9n[        R                  " USS9nGO"UR                  u  pÞUR                  S   XÞ-  -  nUSSS2SS2SS4   R                  XýXâU45      R                  SX!5      R                  W5      n[        R                   " U
R                  5       U-  SS9[        R                   " USS9-  nUSSS2SS2S4   R                  XýXçR                  S   45      R                  SUR                  S   5      R                  U5      n[        R                   " UU-  SS9[        R                   " USS9-  nUR                  S   [#        UR                  R$                  5      -  n[        R                   " USS2UUUR                  S   -   24   UR'                  S5      -  5      nUU-  $ s  snf )ax  
Computes auxiliary load balancing loss as in Switch Transformer - implemented in Pytorch.

See Switch Transformer (https://huggingface.co/papers/2101.03961) for more details. This function implements the loss
function presented in equations (4) - (6) of the paper. It aims at penalizing cases where the routing between
experts is too unbalanced.

Args:
    gate_logits:
        Logits from the `gate`, should be a tuple of model.config.num_hidden_layers tensors of
        shape [batch_size X sequence_length, num_experts].
    num_experts:
        Number of experts
    top_k:
        The number of experts to route per-token, can be also interpreted as the `top-k` routing
        parameter.
    attention_mask (`torch.Tensor`, *optional*):
        The attention_mask used in forward function
        shape [batch_size X sequence_length] if not None.

Returns:
    The auxiliary loss.
Nr   ©Údiméÿÿÿÿr   )Ú
isinstanceÚtupleÚdeviceÚtorchÚcatÚtor   Ú
functionalÚsoftmaxÚtopkÚone_hotÚmeanÚfloatÚshapeÚexpandÚreshapeÚsumÚintÚindexÚ	unsqueeze)r   r   Útop_kr   Úcompute_deviceÚ
layer_gateÚconcatenated_gate_logitsÚrouting_weightsÚ_Úselected_expertsÚexpert_maskÚtokens_per_expertÚrouter_prob_per_expertÚ
batch_sizeÚsequence_lengthÚnum_hidden_layersÚexpert_attention_maskÚ router_per_expert_attention_maskÚrankÚoverall_losss                       Új/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/granitemoe/modeling_granitemoe.pyÚload_balancing_loss_funcrI   ,   sŽ  € ð: Ñ¤*¨[¼%×"@Ñ"@Øä+œu×%Ñ%Ø$ Q™×.Ñ.ˆÜ#(§9¢9Ñ^iÓ-jÑ^iÐPZ¯m©m¸NÖ.KÑ^iÑ-jÐpqÑ#rÐ ä—h‘h×)Ñ)×1Ñ1Ð2JÐPRÐ1ÐS€OäŸ*š* _ÀÑDÑ€Aä—(‘(×%Ñ%×-Ñ-Ð.>ÓL€KàÑä!ŸJšJ {×'8Ñ'8Ó':ÀÑBÐô "'§¢¨OÀÑ!CÒà&4×&:Ñ&:Ñ#ˆ
Ø4×:Ñ:¸1Ñ=À*ÑB^Ñ_Ðð ˜4¢¢A t¨TÐ1Ñ2ß‰VÐ&°OÈKÐXÓYß‰WR˜Ó,ß‰RÓð	 	ô "ŸIšI k×&7Ñ&7Ó&9Ð<QÑ&QÐWXÑYÔ\a×\eÒ\eØ! qñ]
ñ 
Ðð ˜4¢¢A tÐ+Ñ,ß‰VÐ&°O×EZÑEZÐ[\ÑE]Ð^Ó_ß‰WR˜×.Ñ.¨qÑ1Ó2ß‰RÓð	 	)ô "'§¢¨?Ð=]Ñ+]ÐcdÑ!eÔhm×hqÒhqØ,°!ñi
ñ "
Ðð × Ñ  Ñ#¤c¨/×*@Ñ*@×*FÑ*FÓ&GÑG€DÜ—9’9Øš!˜T D¨?×+@Ñ+@ÀÑ+CÑ$CÐCÐCÑDÐG]×GgÑGgÐhiÓGjÑjó€Lð ˜+Ñ%Ð%ùòa .ks   ÁJ-c                   ó8   ^ • \ rS rSrSU 4S jjrS rS rSrU =r$ )ÚGraniteMoeRMSNormé‚   c                 óŒ   >• [         TU ]  5         [        R                  " [        R
                  " U5      5      U l        X l        g)z0
GraniteMoeRMSNorm is equivalent to T5LayerNorm
N)ÚsuperÚ__init__r   Ú	Parameterr'   ÚonesÚweightÚvariance_epsilon)ÚselfÚhidden_sizeÚepsÚ	__class__s      €rH   rO   ÚGraniteMoeRMSNorm.__init__ƒ   s/   ø€ ô 	‰ÑÔÜ—l’l¤5§:¢:¨kÓ#:Ó;ˆŒØ #Õó    c                 ó  • UR                   nUR                  [        R                  5      nUR	                  S5      R                  SSS9nU[        R                  " X0R                  -   5      -  nU R                  UR                  U5      -  $ )Né   r#   T)Úkeepdim)	Údtyper)   r'   Úfloat32Úpowr.   ÚrsqrtrS   rR   )rT   Úhidden_statesÚinput_dtypeÚvariances       rH   ÚforwardÚGraniteMoeRMSNorm.forward‹   sw   € Ø#×)Ñ)ˆØ%×(Ñ(¬¯©Ó7ˆØ ×$Ñ$ QÓ'×,Ñ,¨R¸Ð,Ð>ˆØ%¬¯ª°H×?TÑ?TÑ4TÓ(UÑUˆØ{‰{˜]×-Ñ-¨kÓ:Ñ:Ð:rY   c                 ó^   • [        U R                  R                  5       SU R                   3$ )Nz, eps=)r%   rR   r0   rS   ©rT   s    rH   Ú
extra_reprÚGraniteMoeRMSNorm.extra_repr’   s*   € Ü˜Ÿ™×)Ñ)Ó*Ð+¨6°$×2GÑ2GÐ1HÐIÐIrY   )rS   rR   )gíµ ÷Æ°>)	Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__rO   rd   rh   Ú__static_attributes__Ú__classcell__©rW   s   @rH   rK   rK   ‚   s   ø† ÷$ò;÷Jð JrY   rK   c                   ól   ^ • \ rS rSrSS\4U 4S jjjr\R                  " 5       \S 5       5       r	Sr
U =r$ )ÚGraniteMoeRotaryEmbeddingé—   Úconfigc                 ó  >• [         TU ]  5         [        US5      (       aZ  [        UR                  [
        5      (       a;  UR                  R                  SUR                  R                  S5      5      U l        OSU l        UR                  U l	        UR                  U l
        Xl        [        U R                     U l        U R                  U R                  U5      u  o0l        U R                  SUSS9  U R                   U l        g )NÚrope_scalingÚ	rope_typeÚtypeÚdefaultÚinv_freqF)Ú
persistent)rN   rO   Úhasattrr$   rv   ÚdictÚgetrw   Úmax_position_embeddingsÚmax_seq_len_cachedÚoriginal_max_seq_lenrt   r   Úrope_init_fnÚattention_scalingÚregister_bufferrz   Úoriginal_inv_freq)rT   rt   r&   rz   rW   s       €rH   rO   Ú"GraniteMoeRotaryEmbedding.__init__˜   sÏ   ø€ Ü‰ÑÔä6˜>×*Ñ*¬z¸&×:MÑ:MÌt×/TÑ/TØ#×0Ñ0×4Ñ4°[À&×BUÑBU×BYÑBYÐZ`ÓBaÓbˆDNà&ˆDŒNØ"(×"@Ñ"@ˆÔØ$*×$BÑ$BˆÔ!àŒÜ/°·±Ñ?ˆÔà+/×+<Ñ+<¸T¿[¹[È&Ó+QÑ(ˆÔ(Ø×Ñ˜Z¨¸eÐÑDØ!%§¡ˆÕrY   c                 ób  • U R                   S S S 2S 4   R                  5       R                  UR                  S   SS5      R	                  UR
                  5      nUS S 2S S S 24   R                  5       n[        UR
                  R                  [        5      (       a0  UR
                  R                  S:w  a  UR
                  R                  OSn[        R                  " USS9   UR                  5       UR                  5       -  R                  SS5      n[        R                  " Xf4SS	9nUR                  5       U R                  -  nUR                  5       U R                  -  n	S S S 5        WR	                  UR                   S
9W	R	                  UR                   S
94$ ! , (       d  f       N@= f)Nr   r#   r   ÚmpsÚcpuF)Údevice_typeÚenabledr[   r!   )r]   )rz   r/   r1   r0   r)   r&   r$   rx   Ústrr'   ÚautocastÚ	transposer(   Úcosrƒ   Úsinr]   )
rT   ÚxÚposition_idsÚinv_freq_expandedÚposition_ids_expandedrŠ   ÚfreqsÚembr   r   s
             rH   rd   Ú!GraniteMoeRotaryEmbedding.forward©   sR  € ð !ŸM™M¨$²°4¨-Ñ8×>Ñ>Ó@×GÑGÈ×HZÑHZÐ[\ÑH]Ð_aÐcdÓe×hÑhÐij×iqÑiqÓrÐØ ,ªQ°²a¨ZÑ 8× >Ñ >Ó @Ðä'1°!·(±(·-±-Ä×'EÑ'EÈ!Ï(É(Ï-É-Ð[`ÓJ`a—h‘h—m’mÐfkˆÜ^Š^¨¸UÓCØ&×,Ñ,Ó.Ð1F×1LÑ1LÓ1NÑN×YÑYÐZ[Ð]^Ó_ˆEÜ—)’)˜U˜N°Ñ3ˆCØ—'‘'“)˜d×4Ñ4Ñ4ˆCØ—'‘'“)˜d×4Ñ4Ñ4ˆC÷	 Dð v‰v˜AŸG™GˆvÐ$ c§f¡f°1·7±7 fÐ&;Ð;Ð;÷ DÕCús   Ã$BF Æ 
F.)rƒ   rt   r€   r…   r   r‚   rw   ©N)rj   rk   rl   rm   r   rO   r'   Úno_gradr   rd   rn   ro   rp   s   @rH   rr   rr   —   s7   ø† ñ/Ð/÷ /ð /ð" ‡]‚]ƒ_Øñ<ó ó ö<rY   rr   c                 ó–   • U SSU R                   S   S-  24   nU SU R                   S   S-  S24   n[        R                  " U* U4SS9$ )z*Rotates half the hidden dims of the input..Nr#   r[   r!   )r0   r'   r(   )r‘   Úx1Úx2s      rH   Úrotate_halfr   º   sZ   € à	
ˆ3Ð"!—'‘'˜"‘+ Ñ"Ð"Ð"Ñ	#€BØ	
ˆ3—‘˜‘˜qÑ Ñ"Ð"Ñ	#€BÜ9Š9rc˜2Y BÑ'Ð'rY   c                 ó˜   • UR                  U5      nUR                  U5      nX-  [        U 5      U-  -   nX-  [        U5      U-  -   nXg4$ )a—  Applies Rotary Position Embedding to the query and key tensors.

Args:
    q (`torch.Tensor`): The query tensor.
    k (`torch.Tensor`): The key tensor.
    cos (`torch.Tensor`): The cosine part of the rotary embedding.
    sin (`torch.Tensor`): The sine part of the rotary embedding.
    position_ids (`torch.Tensor`, *optional*):
        Deprecated and unused.
    unsqueeze_dim (`int`, *optional*, defaults to 1):
        The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
        sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
        that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
        k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
        cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
        the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
Returns:
    `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
)r6   r   )ÚqÚkr   r   r’   Úunsqueeze_dimÚq_embedÚk_embeds           rH   Úapply_rotary_pos_embr¤   Â   sS   € ð( -‰-˜Ó
&€CØ
-‰-˜Ó
&€CØ‰wœ; q›>¨CÑ/Ñ0€GØ‰wœ; q›>¨CÑ/Ñ0€GØÐÐrY   c                   óB   ^ • \ rS rSrS\S\S\SS4U 4S jjrS rS	rU =r$ )
ÚGraniteMoeParallelExpertséÞ   r   Ú
input_sizeÚoutput_sizer   Nc                 ó¦   >• [         TU ]  5         [        R                  " [        R
                  " XU5      5      U l        Xl        X l        X0l	        g)aW  
Initialize the GraniteMoeParallelExperts module.
The experts weights are stored in [num_experts, output_size, input_size] format. Such that it's compatible with
many MoE libraries, such as [Megablock](https://github.com/databricks/megablocks) and
[ScatterMoE](https://github.com/shawntan/scattermoe), as well as the
[MoE kernel](https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/fused_moe/fused_moe.py)
used in vllm.

Args:
    num_experts (int):
        Number of experts.
    input_size (int):
        Size of the input.
    output_size (int):
        Size of the output.
N)
rN   rO   r   rP   r'   ÚemptyrR   r   r¨   r©   )rT   r   r¨   r©   rW   s       €rH   rO   Ú"GraniteMoeParallelExperts.__init__ß   s<   ø€ ô" 	‰ÑÔÜ—l’l¤5§;¢;¨{ÈÓ#TÓUˆŒØ&ÔØ$ŒØ&ÕrY   c                 óö   • UR                  USS9n/ n[        U R                  5       H8  nUR                  [        R
                  " X5   U R                  U   5      5        M:     [        R                  " USS9nU$ )zÀ
Forward pass of the GraniteMoeParallelExperts module.

Args:
    inputs (Tensor):
        Input tensor.
    expert_size:
        Expert size information.

Returns:
    Tensor: Output tensor.
r   r!   )	ÚsplitÚranger   ÚappendÚFÚlinearrR   r'   r(   )rT   ÚinputsÚexpert_sizeÚ
input_listÚoutput_listÚiÚresultss          rH   rd   Ú!GraniteMoeParallelExperts.forwardö   sh   € ð —\‘\ +°1\Ð5ˆ
ØˆÜt×'Ñ'Ö(ˆAØ×ÑœqŸxšx¨
©°t·{±{À1±~ÓFÖGñ )ä—)’)˜K¨QÑ/ˆØˆrY   )r¨   r   r©   rR   ©	rj   rk   rl   rm   r4   rO   rd   rn   ro   rp   s   @rH   r¦   r¦   Þ   s.   ø† ð' Cð '°Sð 'Àsð 'Èt÷ '÷.ð rY   r¦   c                   ó>   ^ • \ rS rSrS\S\S\4U 4S jjrS rSrU =r$ )ÚGraniteMoeTopKGatingi  r¨   r   r7   c                 óz   >• [         TU ]  5         X l        Xl        X0l        [
        R                  " XSS9U l        g)zÑ
Initialize the top-k gating mechanism.
Args:
    input_size (`int`):
        Size of the input.
    num_experts (`int`):
        Number of experts.
    top_k (`int`):
        Number of top experts to select.
F©ÚbiasN)rN   rO   r   r¨   r7   r   ÚLinearÚlayer)rT   r¨   r   r7   rW   s       €rH   rO   ÚGraniteMoeTopKGating.__init__  s2   ø€ ô 	‰ÑÔà&ÔØ$ŒØŒ
ä—Y’Y˜z¸UÑCˆ
rY   c                 óz  • U R                  U5      R                  5       nUR                  U R                  SS9u  p4[        R
                  " USS9R                  U5      n[        R                  " UR                  S5      U R                  /UR                  UR                  S9nUR                  SUS5      nUR                  5       R                  S5      nUR                  5       nUR!                  5       n	U	R#                  S5      u  p«UR%                  U R                  SS9nUR!                  5       nX[   nX¼XØU4$ )Nr   r!   r   ©r]   r&   Útrunc)Úrounding_mode)rÁ   r/   r,   r7   r'   r+   Útype_asÚzerosÚsizer   r]   r&   ÚscatterÚlongr3   ÚtolistÚflattenÚsortÚdiv)rT   ra   ÚlogitsÚtop_k_logitsÚtop_k_indicesÚtop_k_gatesrÈ   Úgatesr´   Útop_k_expertsr<   Úindex_sorted_expertsÚbatch_indexÚbatch_gatess                 rH   rd   ÚGraniteMoeTopKGating.forward   s"  € à—‘˜MÓ*×0Ñ0Ó2ˆØ&,§k¡k°$·*±*À! kÐ&DÑ#ˆÜ—m’m L°aÑ8×@Ñ@ÀÓOˆô —’Ø×Ñ˜aÓ  $×"2Ñ"2Ð3¸;×;LÑ;LÐU`×UgÑUgñ
ˆð —‘˜a °Ó2ˆØ—j‘j“l×&Ñ& qÓ)ˆð "×(Ñ(Ó*ˆð &×-Ñ-Ó/ˆØ"/×"4Ñ"4°QÓ"7ÑˆØ*×.Ñ.¨t¯z©zÈÐ.ÐQˆð "×)Ñ)Ó+ˆØ!Ñ7ˆà#°+ÈFÐRÐRrY   )r¨   rÁ   r   r7   rº   rp   s   @rH   r¼   r¼     s-   ø† ðD 3ð D°Sð DÀ÷ D÷&Sð SrY   r¼   c                   ó:   ^ • \ rS rSrSrS\4U 4S jjrS rSrU =r	$ )ÚGraniteMoeMoEi<  z¦
A Sparsely gated mixture of experts layer with 1-layer Feed-Forward networks as experts.

Args:
    config:
        Configuration object with model hyperparameters.
rt   c                 ó¸  >• [         TU ]  5         UR                  U l        UR                  U l        [
        UR                     U l        [        UR                  U R                  U R                  S-  5      U l
        [        UR                  U R                  U R                  5      U l        [        U R                  UR                  UR                  S9U l        g )Nr[   )r¨   r   r7   )rN   rO   rU   r¨   Úintermediate_sizer   Ú
hidden_actÚ
activationr¦   Únum_local_expertsÚinput_linearÚoutput_linearr¼   Únum_experts_per_tokÚrouter©rT   rt   rW   s     €rH   rO   ÚGraniteMoeMoE.__init__E  s°   ø€ Ü‰ÑÔà ×,Ñ,ˆŒØ!×3Ñ3ˆÔÜ  ×!2Ñ!2Ñ3ˆŒÜ5°f×6NÑ6NÐPT×P_ÑP_Ðae×aqÑaqÐtuÑauÓvˆÔÜ6°v×7OÑ7OÐQU×QaÑQaÐcg×crÑcrÓsˆÔä*Ø—‘Ø×0Ñ0Ø×,Ñ,ñ
ˆrY   c                 óþ  • UR                  5       u  p#nUR                  SU5      nU R                  U5      u  pVpxn	X   n
U R                  X¨5      nUR	                  SSS9nU R                  US   5      US   -  nU R                  X¸5      nX×SS2S4   -  n[        R                  " X#-  U R                  4UR                  UR                  S9nUR                  SXm5      nUR                  X#U R                  5      nXù4$ )z¶
Forward pass of the mixture of experts layer.

Args:
    layer_input (Tensor):
        Input tensor.

Returns:
    Tensor:
        Output tensor.
    Tensor:
        Router logits.
r#   r[   r!   r   r   NrÄ   )rÉ   r2   rä   rá   Úchunkrß   râ   r'   rÈ   r¨   r]   r&   Ú	index_addÚview)rT   Úlayer_inputÚbszÚlengthÚemb_sizer<   r×   rØ   r´   Úrouter_logitsÚexpert_inputsra   Úchunked_hidden_statesÚexpert_outputsrÈ   Úlayer_outputs                   rH   rd   ÚGraniteMoeMoE.forwardT  s  € ð !,× 0Ñ 0Ó 2ÑˆXØ!×)Ñ)¨"¨hÓ7ˆØBFÇ+Á+ÈkÓBZÑ?ˆ˜°-à#Ñ0ˆØ×)Ñ)¨-ÓEˆØ -× 3Ñ 3°A¸2Ð 3Ð >ÐØŸ™Ð(=¸aÑ(@ÓAÐDYÐZ[ÑD\Ñ\ˆØ×+Ñ+¨MÓGˆà'²a¸°gÑ*>Ñ>ˆä—’˜S™\¨4¯?©?Ð;À>×CWÑCWÐ`n×`uÑ`uÑvˆØ—‘ q¨+ÓFˆØ#×(Ñ(¨°d·o±oÓFˆØÐ*Ð*rY   )rß   rU   rá   r¨   râ   rä   )
rj   rk   rl   rm   Ú__doc__r   rO   rd   rn   ro   rp   s   @rH   rÛ   rÛ   <  s   ø† ñð
Ð/÷ 
÷+ð +rY   rÛ   ra   Ún_repc                 ó    • U R                   u  p#pEUS:X  a  U $ U SS2SS2SSS2SS24   R                  X#XU5      n U R                  X#U-  XE5      $ )zÈ
This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
r   N)r0   r1   r2   )ra   rö   ÚbatchÚnum_key_value_headsÚslenÚhead_dims         rH   Ú	repeat_kvrü   u  s_   € ð
 2?×1DÑ1DÑ.€E ØƒzØÐØ!¢!¢Q¨ªa²Ð"2Ñ3×:Ñ:¸5ÐW\ÐdlÓm€MØ× Ñ  ¸eÑ(CÀTÓTÐTrY   c                   óv  ^ • \ rS rSrSrSS\S\\   4U 4S jjjr      SS\	R                  S\\	R                     S\\	R                     S	\\   S
\S\\	R                     S\\\	R                  \	R                  4      S\\	R                  \\	R                     \\\	R                        4   4S jjrSrU =r$ )ÚGraniteMoeAttentioniƒ  z=Multi-headed attention from 'Attention Is All You Need' paperrt   Ú	layer_idxc                 óz  >• [         TU ]  5         Xl        X l        Uc-  [        R                  SU R                  R                   S35        UR                  U l        UR                  U l	        UR                  U l        U R                  U R                  -  U l        UR                  U l        U R                  U R                  -  U l        SU l        UR                   U l        U R                  U R                  -  U R                  :w  a&  [%        SU R                   SU R                   S35      e[&        R(                  " U R                  U R                  U R                  -  UR*                  S9U l        [&        R(                  " U R                  U R                  U R                  -  UR*                  S9U l        [&        R(                  " U R                  U R                  U R                  -  UR*                  S9U l        [&        R(                  " U R                  U R                  UR*                  S9U l        g )NzInstantiating z¹ without passing a `layer_idx` is not recommended and will lead to errors during the forward call if caching is used. Please make sure to provide a `layer_idx` when creating this class.Tz?hidden_size must be divisible by num_heads (got `hidden_size`: z and `num_heads`: z).r¾   )rN   rO   rt   rÿ   ÚloggerÚwarning_oncerW   rj   Úattention_dropoutrU   Únum_attention_headsÚ	num_headsrû   rù   Únum_key_value_groupsÚ	is_causalÚattention_multiplierÚscalingÚ
ValueErrorr   rÀ   Úattention_biasÚq_projÚk_projÚv_projÚo_proj©rT   rt   rÿ   rW   s      €rH   rO   ÚGraniteMoeAttention.__init__†  sÂ  ø€ Ü‰ÑÔØŒØ"ŒØÑÜ×ÑØ  §¡×!8Ñ!8Ð 9ð :,ð ,ôð "(×!9Ñ!9ˆÔØ!×-Ñ-ˆÔØ×3Ñ3ˆŒØ×(Ñ(¨D¯N©NÑ:ˆŒØ#)×#=Ñ#=ˆÔ Ø$(§N¡N°d×6NÑ6NÑ$NˆÔ!ØˆŒà×2Ñ2ˆŒàM‰M˜DŸN™NÑ*¨t×/?Ñ/?Ó?ÜØQÐRV×RbÑRbÐQcØ$ T§^¡^Ð$4°Bð8óð ô
 —i’i × 0Ñ 0°$·.±.À4Ç=Á=Ñ2PÐW]×WlÑWlÑmˆŒÜ—i’i × 0Ñ 0°$×2JÑ2JÈTÏ]É]Ñ2ZÐag×avÑavÑwˆŒÜ—i’i × 0Ñ 0°$×2JÑ2JÈTÏ]É]Ñ2ZÐag×avÑavÑwˆŒÜ—i’i × 0Ñ 0°$×2BÑ2BÈ×I^ÑI^Ñ_ˆrY   ra   r   r’   Úpast_key_valueÚ	use_cacheÚcache_positionÚposition_embeddingsr   c                 óš  • UR                  5       u  pšnU R                  U5      nU R                  U5      nU R                  U5      nUR	                  XšU R
                  U R                  5      R                  SS5      nUR	                  XšU R                  U R                  5      R                  SS5      nUR	                  XšU R                  U R                  5      R                  SS5      nUb  UOSu  nnUb  [        XÍUU5      u  pÍUb$  UXöS.nUR                  XÞU R                  U5      u  pÞ[        nU R                  R                  S:w  a  [        U R                  R                     nU" U UUUU4U R                   (       d  SOU R"                  U R$                  S.UD6u  nnUR	                  XšS5      nU R'                  U5      nUU4$ )	Nr   r[   )NN)r   r   r  Úeagerç        )Údropoutr	  r#   )rÉ   r  r  r  rê   r  rû   rŽ   rù   r¤   Úupdaterÿ   Úeager_attention_forwardrt   Ú_attn_implementationr   Útrainingr  r	  r  )rT   ra   r   r’   r  r  r  r  Úkwargsrì   Úq_lenr<   Úquery_statesÚ
key_statesÚvalue_statesr   r   Úcache_kwargsÚattention_interfaceÚattn_outputÚattn_weightss                        rH   rd   ÚGraniteMoeAttention.forward¦  s½  € ð &×*Ñ*Ó,‰ˆAà—{‘{ =Ó1ˆØ—[‘[ Ó/ˆ
Ø—{‘{ =Ó1ˆà#×(Ñ(¨°T·^±^ÀTÇ]Á]ÓS×]Ñ]Ð^_ÐabÓcˆØ—_‘_ S°×1IÑ1IÈ4Ï=É=ÓY×cÑcÐdeÐghÓiˆ
Ø#×(Ñ(¨°T×5MÑ5MÈtÏ}É}Ó]×gÑgÐhiÐklÓmˆà*=Ñ*IÑ&È|‰ˆˆSØÑ*Ü';¸LÐVYÐ[^Ó'_Ñ$ˆLàÑ%à#&¨sÑUˆLØ'5×'<Ñ'<¸ZÐW[×WeÑWeÐgsÓ'tÑ$ˆJä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð	%
ð  $Ÿ}Ÿ}‘C°$×2HÑ2HØ—L‘Lñ	%
ð ñ	%
Ñ!ˆ\ð "×&Ñ& s°2Ó6ˆØ—k‘k +Ó.ˆà˜LÐ(Ð(rY   )r  rt   rû   rU   r  r  rÿ   r  r  rù   r  r  r	  r  r˜   )NNNFNN)rj   rk   rl   rm   rõ   r   r   r4   rO   r'   ÚTensorÚ
LongTensorr	   Úboolr%   rd   rn   ro   rp   s   @rH   rþ   rþ   ƒ  sù   ø† ÙGñ`Ð/ð `¸HÀS¹M÷ `ð `ðF 26Ø37Ø*.ØØ59ØKOñ0)à—|‘|ð0)ð ! §¡Ñ.ð0)ð ˜u×/Ñ/Ñ0ð	0)ð
 ! ™ð0)ð ð0)ð ! ×!1Ñ!1Ñ2ð0)ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð0)ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷0)ó 0)rY   rþ   ÚmoduleÚqueryÚkeyÚvaluer	  r  c                 ó@  • [        X R                  5      n[        X0R                  5      n	[        R                  " XR	                  SS5      5      U-  n
Ub"  US S 2S S 2S S 2S UR
                  S   24   nX«-   n
[        R                  R                  U
S[        R                  S9R                  UR                  5      n
[        R                  R                  X¦U R                  S9n
[        R                  " X©5      nUR	                  SS5      R                  5       nXÊ4$ )Nr[   r   éþÿÿÿr#   )r"   r]   )Úpr  r   )rü   r  r'   ÚmatmulrŽ   r0   r   r*   r+   r^   r)   r]   r  r  Ú
contiguous)r+  r,  r-  r.  r   r	  r  r  r!  r"  r&  Úcausal_maskr%  s                rH   r  r  Ù  sø   € ô ˜3× ;Ñ ;Ó<€JÜ˜U×$?Ñ$?Ó@€Lä—<’< ×';Ñ';¸A¸qÓ'AÓBÀWÑL€LØÑ!Ø$¢Qªª1Ð.D°
×0@Ñ0@ÀÑ0DÐ.DÐ%DÑEˆØ#Ñ1ˆô —=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó:€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$rY   c                   ó‚  ^ • \ rS rSrS\S\4U 4S jjr        SS\R                  S\	\R                     S\	\R                     S\	\   S	\	\   S
\	\   S\	\R                     S\	\   S\	\\R                  \R                  4      S\\R                  \	\\R                  \R                  4      4   4S jjrSrU =r$ )ÚGraniteMoeDecoderLayeriô  rt   rÿ   c                 óN  >• [         TU ]  5         UR                  U l        [        XS9U l        UR
                  S:”  a  [        U5      U l        [        UR                  UR                  S9U l
        [        UR                  UR                  S9U l        UR                  U l        g )N)rt   rÿ   r   ©rV   )rN   rO   rU   rþ   Ú	self_attnrà   rÛ   Úblock_sparse_moerK   Úrms_norm_epsÚinput_layernormÚpost_attention_layernormÚresidual_multiplierr  s      €rH   rO   ÚGraniteMoeDecoderLayer.__init__õ  sˆ   ø€ Ü‰ÑÔØ!×-Ñ-ˆÔä,°FÑPˆŒØ×#Ñ# aÓ'Ü$1°&Ó$9ˆDÔ!Ü0°×1CÑ1CÈ×I\ÑI\Ñ]ˆÔÜ(9¸&×:LÑ:LÐRX×ReÑReÑ(fˆÔ%à#)×#=Ñ#=ˆÕ rY   ra   r   r’   r  Úoutput_attentionsr  r  Úoutput_router_logitsr  r   c
                 ó,  • UnU R                  U5      nU R                  " SUUUUUUUU	S.U
D6u  pX±U R                  -  -   nUnU R                  U5      nU R	                  U5      u  pX±U R                  -  -   nU4nU(       a  Xì4-  nU(       a  Xí4-  nU$ )aY  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`, *optional*):
        attention mask of size `(batch_size, sequence_length)` if flash attention is used or `(batch_size, 1,
        query_sequence_length, key_sequence_length)` if default attention is used.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence
    output_router_logits (`bool`, *optional*):
        Whether or not to return the logits of all the routers. They are useful for computing the router loss, and
        should not be returned during inference.
    position_embeddings (`tuple[torch.FloatTensor, torch.FloatTensor]`, *optional*):
        Tuple containing the cosine and sine positional embeddings of shape `(batch_size, seq_len, head_dim)`,
        with `head_dim` being the embedding dimension of each attention head.
    kwargs (`dict`, *optional*):
        Arbitrary kwargs to be ignored, used for FSDP and other methods that injects code
        into the model
)ra   r   r’   r  r@  r  r  r  © )r<  r9  r>  r=  r:  )rT   ra   r   r’   r  r@  r  r  rA  r  r  ÚresidualÚself_attn_weightsrï   Úoutputss                  rH   rd   ÚGraniteMoeDecoderLayer.forward  sÏ   € ðL !ˆà×,Ñ,¨]Ó;ˆð ,0¯>ª>ð 
,
Ø'Ø)Ø%Ø)Ø/ØØ)Ø 3ñ
,
ð ñ
,
Ñ(ˆð !°4×3KÑ3KÑ#KÑKˆð !ˆØ×5Ñ5°mÓDˆØ'+×'<Ñ'<¸]Ó'KÑ$ˆà °4×3KÑ3KÑ#KÑKˆà Ð"ˆæØÐ+Ñ+ˆGæØÐ'Ñ'ˆGàˆrY   )r:  rU   r<  r=  r>  r9  )NNNFFNFN)rj   rk   rl   rm   r   r4   rO   r'   r(  r   r)  r	   r*  r%   ÚFloatTensorrd   rn   ro   rp   s   @rH   r6  r6  ô  s  ø† ð
>Ð/ð 
>¸C÷ 
>ð 26Ø37Ø*.Ø,1Ø$)Ø59Ø/4ØKOñHà—|‘|ðHð ! §¡Ñ.ðHð ˜u×/Ñ/Ñ0ð	Hð
 ! ™ðHð $ D™>ðHð ˜D‘>ðHð ! ×!1Ñ!1Ñ2ðHð ' t™nðHð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHðHð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷Hó HrY   r6  c                   óT   ^ • \ rS rSr% \\S'   SrSrS/rS/r	Sr
SrSrU 4S jrS	rU =r$ )
ÚGraniteMoePreTrainedModeliL  rt   ÚmodelTr6  Úpast_key_valuesFc                 óÀ   >• [         TU ]  U5        [        U[        5      (       a9  UR                  R
                  R                  SU R                  R                  S9  g g )Nr  )r.   Ústd)	rN   Ú_init_weightsr$   r¦   rR   ÚdataÚnormal_rt   Úinitializer_range)rT   r+  rW   s     €rH   rO  Ú'GraniteMoePreTrainedModel._init_weightsX  sJ   ø€ Ü‰Ñ˜fÔ%ÜfÔ7×8Ñ8ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÒSð 9rY   rC  )rj   rk   rl   rm   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_skip_keys_device_placementÚ_supports_flash_attnÚ_supports_sdpaÚ_can_compile_fullgraphrO  rn   ro   rp   s   @rH   rJ  rJ  L  sD   ø‡ àÓØÐØ&*Ð#Ø1Ð2ÐØ#4Ð"5ÐØÐØ€Nà"Ð÷Tó TrY   rJ  c                   ó4  ^ • \ rS rSrS\4U 4S jjr\           SS\\R                     S\\R                     S\\R                     S\\\\\R                     4      S\\R                     S	\\   S
\\   S\\   S\\   S\\   S\\R                     S\\\4   4S jj5       r SS\\R                  S4   S\R                  S\R                  S\S
\4
S jjr\S\R                  S\S\S\R,                  S\R                  S\4S j5       rSrU =r$ )ÚGraniteMoeModeli^  rt   c           	      ó6  >• [         TU ]  U5        UR                  U l        UR                  U l        [
        R                  " UR                  UR                  U R                  5      U l        [
        R                  " [        UR                  5       Vs/ sH  n[        X5      PM     sn5      U l        [        UR                  UR                  S9U l        SU l        UR$                  U l        UR                  U l        UR&                  U l        U R                  U R(                  -  U l        UR,                  U l        UR.                  U l        UR0                  U l        U R0                  S:X  a  [3        U5      OS U l        U R7                  5         g s  snf )Nr8  FÚrope)rN   rO   Úpad_token_idÚpadding_idxÚ
vocab_sizer   Ú	EmbeddingrU   Úembed_tokensÚ
ModuleListr¯   rC   r6  ÚlayersrK   r;  ÚnormÚgradient_checkpointingÚembedding_multiplierr  r  rû   r   Ú
rope_thetaÚposition_embedding_typerr   Ú
rotary_embÚ	post_initr  s      €rH   rO   ÚGraniteMoeModel.__init__`  sD  ø€ Ü‰Ñ˜Ô Ø!×.Ñ.ˆÔØ ×+Ñ+ˆŒäŸLšL¨×):Ñ):¸F×<NÑ<NÐPT×P`ÑP`ÓaˆÔÜ—m’mÜHMÈf×NfÑNfÔHgÓhÑHg¸9Ô# FÖ6ÑHgÑhó
ˆŒô & f×&8Ñ&8¸f×>QÑ>QÑRˆŒ	Ø&+ˆÔ#à$*×$?Ñ$?ˆÔ!Ø!×-Ñ-ˆÔØ×3Ñ3ˆŒØ×(Ñ(¨D¯N©NÑ:ˆŒØ'-×'EÑ'EˆÔ$Ø ×+Ñ+ˆŒà'-×'EÑ'EˆÔ$Ø?C×?[Ñ?[Ð_eÓ?eÔ3°FÔ;ÐkoˆŒð 	‰Õùò! is   ÂFÚ	input_idsr   r’   rL  Úinputs_embedsr  r@  Úoutput_hidden_statesrA  Úreturn_dictr  r   c                 óè  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU
b  U
OU R                   R                  n
US L US L-  (       a  [        S5      eU R                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnUc  U R                  U5      nXPR                  -  n[        U[        S 5      [        45      (       d  [        S5      eU(       a  Uc
  [        5       nUcD  Ub  UR!                  5       OSn["        R$                  " XÝUR&                  S   -   UR(                  S9nUc  UR+                  S5      nU R-                  X%X´U5      nUnS nU R.                  b  U R/                  Xó5      nU(       a  SOS nU(       a  SOS nU	(       a  SOS nU R0                   HE  nU(       a  UU4-  nU" UUUUUUUU	US	9	nUS   nU(       a	  UUS   4-  nU	(       d  M<  UUS
   4-  nMG     U R3                  U5      nU(       a  UU4-  nU
(       d  [5        S XôUU4 5       5      $ [7        UUUUUS9$ )Nz:You must specify exactly one of input_ids or inputs_embedszX`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.FzBThe `past_key_values` should be either a `Cache` object or `None`.r   r   ©r&   rC  )r   r’   r  r@  r  r  rA  r  r#   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr˜   rC  )Ú.0Úvs     rH   Ú	<genexpr>Ú*GraniteMoeModel.forward.<locals>.<genexpr>Ý  s   é € ð Ù^a—‘Ò^ùs   ‚‹	)Úlast_hidden_staterL  ra   Ú
attentionsrï   )rt   r@  rq  r  Úuse_return_dictr
  rh  r  r  r  rd  ri  r$   rx   r	   r
   Úget_seq_lengthr'   Úaranger0   r&   r6   Ú_update_causal_maskrl  rf  rg  r%   r   )rT   ro  r   r’   rL  rp  r  r@  rq  rA  rr  r  r  Úpast_seen_tokensr4  ra   r  Úall_hidden_statesÚall_self_attnsÚall_router_logitsÚdecoder_layerÚlayer_outputss                         rH   rd   ÚGraniteMoeModel.forwardy  s¦  € ð  2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà˜Ð -°tÐ";×<ÜÐYÓZÐZà×&×&¨4¯=¯=¾YÜ×ÑØjôð ˆIàÑ Ø ×-Ñ-¨iÓ8ˆMà%×(AÑ(AÑAˆô ˜/¬D°«J¼Ð+>×?Ñ?ÜÐaÓbÐbæ˜Ñ0Ü*›nˆOàÑ!ØCRÑC^˜×=Ñ=Ô?ÐdeÐÜ"Ÿ\š\Ø °]×5HÑ5HÈÑ5KÑ"KÐTa×ThÑThñˆNð ÑØ)×3Ñ3°AÓ6ˆLà×.Ñ.Ø¨>ÐL]ó
ˆð
 &ˆà"Ðà?‰?Ñ&Ø"&§/¡/°-Ó"NÐö #7™B¸DÐÞ0™°dˆÞ"6™B¸DÐà!Ÿ[œ[ˆMÞ#Ø! mÐ%5Ñ5Ð!á)ØØ*Ø)Ø.Ø"3Ø#Ø-Ø%9Ø$7ñ
ˆMð *¨!Ñ,ˆMæ Ø =°Ñ#3Ð"5Ñ5ç#Ð#Ø! m°BÑ&7Ð%9Ñ9Ò!ñ- )ð0 Ÿ	™	 -Ó0ˆö  Ø -Ð!1Ñ1ÐæÜñ Ø)Ð<MÈ~Ñ^óó ð ô &Ø+Ø+Ø+Ø%Ø+ñ
ð 	
rY   r   Úinput_tensorc           	      óæ  • U R                   R                  S:X  a  Ub  US:H  R                  5       (       a  U$ g U R                   R                  S:X  a,  [        U[        R
                  5      (       a  [        U5      nU$ Ub  UR                  5       OSnUb  UR                  OSnU R                   R                  S:X  a5  U(       d.  U(       d'  [        R                  " UUUU R                  S9(       a  g UR                  nUR                  S   n	U(       a  UR                  5       n
O5[        U[        R
                  5      (       a  UR                  S	   OXi-   S-   n
U R                  UU	U
UUUR                  S   S
9nU R                   R                  S:X  aZ  UbW  UR                   R"                  S;   a=  U(       d6  [        R$                  " U5      R&                  n[        R(                  " X¼5      nU$ )NÚflash_attention_2r  Úflex_attentionr   FÚsdpa)rp  Úpast_key_values_lengthÚis_trainingr   r#   )rB   Útarget_lengthr]   r  rA   )ÚcudaÚxpuÚnpu)rt   r  Úanyr$   r'   r(  r   r}  Úis_compileabler   Ú_ignore_causal_mask_sdpar  r]   r0   Úget_max_cache_shapeÚ5_prepare_4d_causal_attention_mask_with_cache_positionr&   rx   ÚfinfoÚminÚ_unmask_unattended)rT   r   r‡  r  rL  r@  r€  Úusing_compilable_cacher]   rB   rŽ  r4  Ú	min_dtypes                rH   r  Ú#GraniteMoeModel._update_causal_maské  sË  € ð ;‰;×+Ñ+Ð/BÓBØÑ)¨~ÀÑ/D×.IÑ.I×.KÑ.KØ%Ð%ØØ;‰;×+Ñ+Ð/?Ó?Ü˜.¬%¯,©,×7Ñ7Ü!<¸^Ó!LØ!Ð!ð
 @OÑ?Z˜?×9Ñ9Ô;Ð`aÐØCRÑC^ ×!?Ò!?ÐdiÐð ;‰;×+Ñ+¨vÓ5Ö>TÖ]nÜ%×>Ò>ØØ*Ø'7Ø ŸM™M÷	ð à×"Ñ"ˆØ&×,Ñ,¨QÑ/ˆÞ!Ø+×?Ñ?ÓA‰Mô ˜n¬e¯l©l×;Ñ;ð ×$Ñ$ RÒ(à%Ñ7¸!Ñ;ð ð ×PÑPØØ+Ø'ØØ)Ø#×)Ñ)¨!Ñ,ð Qð 
ˆð K‰K×,Ñ,°Ó6ØÑ*Ø×%Ñ%×*Ñ*Ð.DÓDÞ%ô
 Ÿš EÓ*×.Ñ.ˆIÜ0×CÒCÀKÓ[ˆKàÐrY   rB   rŽ  r]   rA   c                 ó¶  • U b  U R                  5       S:X  a  U nU$ [        R                  " U5      R                  n[        R                  " X4XƒUR
                  S9nUS:w  a  [        R                  " USS9nU[        R                  " X$R
                  S9UR                  SS5      :„  -  nUSSSS2SS24   R                  USSS5      nU b‹  UR                  5       nU R                  S   n	USS2SS2SS2SU	24   U SS2SSSS24   R                  UR
                  5      -   n
U
S:H  n
USS2SS2SS2SU	24   R                  X¨5      USS2SS2SS2SU	24'   U$ )	a½  
Creates a causal 4D mask of shape `(batch_size, 1, query_length, key_value_length)` from a 2D mask of shape
`(batch_size, key_value_length)`, or if the input `attention_mask` is already 4D, do nothing.

Args:
    attention_mask (`torch.Tensor`):
        A 2D attention mask of shape `(batch_size, key_value_length)` or a 4D attention mask of shape
        `(batch_size, 1, query_length, key_value_length)`.
    sequence_length (`int`):
        The sequence length being processed.
    target_length (`int`):
        The target length: when generating with static cache, the mask should be as long as the static cache,
        to account for the 0 padding, the part of the cache that is not filled yet.
    dtype (`torch.dtype`):
        The dtype to use for the 4D attention mask.
    cache_position (`torch.Tensor`):
        Indices depicting the position of the input sequence tokens in the sequence.
    batch_size (`torch.Tensor`):
        Batch size.
Né   )Ú
fill_valuer]   r&   r   )Údiagonalrt  r#   r   )r"   r'   r—  r˜  Úfullr&   Útriur~  r2   r1   Úcloner0   r)   Úmasked_fill)r   rB   rŽ  r]   r  rA   r  r4  r›  Úmask_lengthÚpadding_masks              rH   r–  ÚEGraniteMoeModel._prepare_4d_causal_attention_mask_with_cache_position-  s}  € ð> Ñ%¨.×*<Ñ*<Ó*>À!Ó*Cà(ˆKð* Ðô' Ÿš EÓ*×.Ñ.ˆIÜŸ*š*Ø Ð0¸YÐ\j×\qÑ\qñˆKð  !Ó#Ü#Ÿjšj¨¸qÑAØœ5Ÿ<š<¨×>SÑ>SÑTÐWe×WmÑWmÐnpÐrsÓWtÑtÑtˆKØ% d¨D²!²QÐ&6Ñ7×>Ñ>¸zÈ1ÈbÐRTÓUˆKØÑ)Ø)×/Ñ/Ó1Ø,×2Ñ2°2Ñ6Ø*ª1ªa²°L°[°LÐ+@ÑAÀNÒSTÐVZÐ\`ÒbcÐScÑDd×DgÑDgØ×&Ñ&óEñ  ð  ,¨qÑ0Ø5@ÂÂAÂqÈ,È;È,ÐAVÑ5W×5cÑ5cØ ó6šAšq¢! \ k \Ð1Ñ2ð ÐrY   )rd  ri  rh  rû   rU   rf  r   rg  r  ra  rk  rj  rl  rb  )NNNNNNNNNNN)F)rj   rk   rl   rm   r   rO   r   r   r'   r)  r(  r   r	   ÚlistrH  r*  r%   r   rd   r  Ústaticmethodr4   r]   r–  rn   ro   rp   s   @rH   r]  r]  ^  sé  ø† ðÐ/÷ ð2 ð 15Ø15Ø37ØKOØ59Ø$(Ø,0Ø/3Ø/3Ø&*Ø59ñl
à˜E×,Ñ,Ñ-ðl
ð ! §¡Ñ.ðl
ð ˜u×/Ñ/Ñ0ð	l
ð
 " %¨¨t°E×4EÑ4EÑ/FÐ(FÑ"GÑHðl
ð   × 1Ñ 1Ñ2ðl
ð ˜D‘>ðl
ð $ D™>ðl
ð ' t™nðl
ð ' t™nðl
ð ˜d‘^ðl
ð ! ×!1Ñ!1Ñ2ðl
ð 
ˆuÐ-Ð-Ñ	.ôl
ó ðl
ðj #(ñBà˜eŸl™l¨KÐ7Ñ8ðBð —l‘lðBð Ÿ™ð	Bð
 ðBð  õBðH ð4ØŸ™ð4àð4ð ð4ð {‰{ð	4ð
 Ÿ™ð4ð ó4ó ö4rY   r]  c                    ó¸  ^ • \ rS rSrS/rS\4U 4S jjrS rS r\	             SS\
\R                     S\
\R                     S	\
\R                     S
\
\\\\R"                     4      S\
\R"                     S\
\R                     S\
\   S\
\   S\
\   S\
\   S\
\   S\
\R                     S\\\R                  4   S\\\4   4S jj5       rSrU =r$ )ÚGraniteMoeForCausalLMif  zlm_head.weightrt   c                 óJ  >• [         TU ]  U5        [        U5      U l        UR                  U l        [
        R                  " UR                  UR                  SS9U l        UR                  U l	        UR                  U l        UR                  U l        U R                  5         g )NFr¾   )rN   rO   r]  rK  rb  r   rÀ   rU   Úlm_headÚrouter_aux_loss_coefrà   r   rã   rm  rå   s     €rH   rO   ÚGraniteMoeForCausalLM.__init__i  s   ø€ Ü‰Ñ˜Ô Ü$ VÓ,ˆŒ
Ø ×+Ñ+ˆŒÜ—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒà$*×$?Ñ$?ˆÔ!Ø!×3Ñ3ˆÔØ#)×#=Ñ#=ˆÔ ð 	‰ÕrY   c                 ó   • Xl         g r˜   ©rK  )rT   Údecoders     rH   Úset_decoderÚ!GraniteMoeForCausalLM.set_decoderv  s   € Ø
rY   c                 ó   • U R                   $ r˜   r±  rg   s    rH   Úget_decoderÚ!GraniteMoeForCausalLM.get_decodery  s   € Øz‰zÐrY   ro  r   r’   rL  rp  Úlabelsr  r@  rq  rA  rr  r  Úlogits_to_keepr   c                 óê  • Ub  UOU R                   R                  nU
b  U
OU R                   R                  n
U	b  U	OU R                   R                  n	Ub  UOU R                   R                  nU R
                  " SUUUUUUUU	U
UUS.UD6nUS   n[        U[        5      (       a  [        U* S5      OUnU R                  USS2USS24   5      nUU R                   R                  -  nSnUb:  UR                  5       nU R                  " UU4SU R                   R                  0UD6nSnU
(       af  [        U(       a  UR                  OUS   U R                   U R"                  U5      nUb+  UU R$                  UR'                  UR(                  5      -  -  nU(       d!  U4USS -   nU
(       a  U4U-   nUb  U4U-   $ U$ [+        UUUUR,                  UR.                  UR0                  UR                  S9$ )	aì  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>>> from transformers import AutoTokenizer, GraniteMoeForCausalLM

>>> model = GraniteMoeForCausalLM.from_pretrained("ibm/PowerMoE-3b")
>>> tokenizer = AutoTokenizer.from_pretrained("ibm/PowerMoE-3b")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
```N)ro  r   r’   rL  rp  r  r@  rq  rA  rr  r  r   rb  r#   r   )ÚlossÚaux_lossrÐ   rL  ra   r{  rï   rC  )rt   r@  rA  rq  r|  rK  r$   r4   Úslicer­  Úlogits_scalingr/   Úloss_functionrb  rI   rï   r   rã   r®  r)   r&   r   rL  ra   r{  )rT   ro  r   r’   rL  rp  r¸  r  r@  rq  rA  rr  r  r¹  r  rF  ra   Úslice_indicesrÐ   r»  r¼  Úoutputs                         rH   rd   ÚGraniteMoeForCausalLM.forward|  s)  € ðP 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*’*ð 
ØØ)Ø%Ø+Ø'ØØ/Ø!5Ø!5Ø#Ø)ñ
ð ñ
ˆð    ™
ˆÜ8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆØ˜$Ÿ+™+×4Ñ4Ñ4ˆàˆØÑà—\‘\“^ˆFà×%Ò%ØØñð  Ÿ;™;×1Ñ1ðð ñ	ˆDð ˆÞÜ/Þ)4×%Ò%¸'À"¹+Ø× Ñ Ø×(Ñ(Øó	ˆHð Ñ!Ø˜×1Ñ1°H·K±KÀÇÁÓ4LÑLÑLæØY ¨¨ Ñ,ˆFÞ#Ø"˜ vÑ-Ø'+Ñ'7D7˜VÑ#ÐC¸VÐCä(ØØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø!×/Ñ/ñ
ð 	
rY   )r­  rK  r   rã   r®  rb  )NNNNNNNNNNNNr   )rj   rk   rl   rm   Ú_tied_weights_keysr   rO   r³  r¶  r   r   r'   r)  r(  r   r	   r¨  rH  r*  r4   r%   r   rd   rn   ro   rp   s   @rH   r«  r«  f  s  ø† Ø*Ð+ÐðÐ/÷ òòð ð 15Ø15Ø37ØKOØ59Ø-1Ø$(Ø,0Ø/3Ø/3Ø&*Ø59Ø34ñk
à˜E×,Ñ,Ñ-ðk
ð ! §¡Ñ.ðk
ð ˜u×/Ñ/Ñ0ð	k
ð
 " %¨¨t°E×4EÑ4EÑ/FÐ(FÑ"GÑHðk
ð   × 1Ñ 1Ñ2ðk
ð ˜×)Ñ)Ñ*ðk
ð ˜D‘>ðk
ð $ D™>ðk
ð ' t™nðk
ð ' t™nðk
ð ˜d‘^ðk
ð ! ×!1Ñ!1Ñ2ðk
ð ˜c 5§<¡<Ð/Ñ0ðk
ð  
ˆuÐ/Ð/Ñ	0ô!k
ó ök
rY   r«  )r«  r]  rJ  )Nr[   N)Nr   )r  )@Útypingr   r   r   r'   Útorch.nn.functionalr   r*   r±   Úactivationsr   Úcache_utilsr	   r
   Ú
generationr   Úmodeling_attn_mask_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   Úmodeling_rope_utilsr   r   Úmodeling_utilsr   r   Úutilsr   r   r   Úconfiguration_granitemoer   Ú!torch.nn.attention.flex_attentionr   Úintegrations.flex_attentionr   Ú
get_loggerrj   r  r(  r%   r4   rI   ÚModulerK   rr   r   r¤   r¦   r¼   rÛ   rü   rþ   r/   r  r6  rJ  r]  r«  Ú__all__rC  rY   rH   Ú<module>rÕ     s6  ð÷  -Ñ ,ã ß Ð Ý å !ß .Ý )Ý >Ý 9ß jÑ jß Kß Fß JÑ JÝ 6ñ  ×!Ñ!Ý;åJð 
×	Ò	˜HÓ	%€ð "&Ø
Ø-1ñ	R&Øu—|‘| U¨5¯<©<Ñ%8¸$Ð>Ñ?ðR&à˜#‘ðR&ð ˜UŸ\™\Ñ*ð	R&ð
 ˆ5<‰<˜ÐÑõR&ôlJ˜Ÿ	™	ô Jô*< §	¡	ô <òF(ôô8* §	¡	ô *ô\-S˜2Ÿ9™9ô -Sô`5+B—I‘Iô 5+ðr	U˜UŸ\™\ð 	U°#ð 	U¸%¿,¹,ô 	UôS)˜"Ÿ)™)ô S)ðz ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô6UÐ7ô Uðp ôT ó Tó ðTð" ôDÐ/ó Dó ðDôNB
Ð5°ô B
òJ TrY   