ó
    <±hŠ·  ã                   óf  • S SK JrJrJrJr  S SKrS SKJs  Jr	  S SKJr  SSK
Jr  SSKJrJr  SSKJr  SSKJr  SS	KJr  SS
KJrJrJr  SSKJrJr  SSKJrJr  SSKJ r   SSK!J"r"J#r#J$r$  SSK%J&r&  \#" 5       (       a  S SK'J(r(  SSK)J*r*  \$RV                  " \,5      r- " S S\SS9r. " S S\R^                  5      r0 " S S\R^                  5      r1 " S S\R^                  5      r2 " S S\R^                  5      r3 " S S \R^                  5      r4S! r5S?S" jr6S#\Rn                  S$\8S%\Rn                  4S& jr9 S@S'\R^                  S(\Rn                  S)\Rn                  S*\Rn                  S+\\Rn                     S,\:S-\:4S. jjr; " S/ S0\R^                  5      r< " S1 S2\5      r=\" " S3 S4\5      5       r> " S5 S6\R^                  5      r?\" " S7 S8\>5      5       r@   SAS9\\Rn                  \A\Rn                     S4   S:\\8   S+\\Rn                     S%\\Rn                  \84   4S; jjrB " S< S=\>\5      rC/ S>QrDg)Bé    )ÚCallableÚOptionalÚ	TypedDictÚUnionN)Únné   )ÚACT2FN)ÚCacheÚDynamicCache)ÚGenerationMixin)ÚAttentionMaskConverter)ÚGradientCheckpointingLayer)ÚBaseModelOutputWithPastÚMoeCausalLMOutputWithPastÚMoeModelOutputWithPast)ÚROPE_INIT_FUNCTIONSÚdynamic_rope_update)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)Úauto_docstringÚis_torch_flex_attn_availableÚloggingé   )ÚGraniteMoeSharedConfig)Ú	BlockMask)Úmake_flex_block_causal_maskc                   óˆ   • \ rS rSr% Sr\R                  \S'   \R                  \S'   \\S'   \\S'   \R                  \S'   Sr
g	)
ÚGraniteFlashAttentionKwargsé2   aR  
Keyword arguments for advanced Flash Attention, causal-conv1d, and mamba_ssm kernel usage.
Use cases include padding-free training and fewer `torch.compile` graph breaks.

Attributes:
    cu_seq_lens_q (`torch.LongTensor`)
        Gets cumulative sequence length for query state.
    cu_seq_lens_k (`torch.LongTensor`)
        Gets cumulative sequence length for key state.
    max_length_q (`int`):
        Maximum sequence length for query state.
    max_length_k (`int`):
        Maximum sequence length for key state.
    seq_idx (`torch.IntTensor):
        Index of each packed sequence.
Úcu_seq_lens_qÚcu_seq_lens_kÚmax_length_qÚmax_length_kÚseq_idx© N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__ÚtorchÚ
LongTensorÚ__annotations__ÚintÚ	IntTensorÚ__static_attributes__r&   ó    Úv/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/granitemoeshared/modeling_granitemoeshared.pyr   r   2   s7   ‡ ñð" ×#Ñ#Ó#Ø×#Ñ#Ó#ØÓØÓØ_‰_Ör2   r   F)Útotalc                   ón   ^ • \ rS rSrSrS\4U 4S jjrS\R                  S\R                  4S jr	Sr
U =r$ )	ÚGraniteMoeSharedMLPéK   zj
MLP layer for shared experts

Args:
    config:
        Configuration object with model hyperparameters.
Úconfigc                 óX  >• [         TU ]  5         UR                  U l        UR                  U l        [
        UR                     U l        [        R                  " U R                  U R                  S-  SS9U l
        [        R                  " U R                  U R                  SS9U l        g )Né   F©Úbias)ÚsuperÚ__init__Úhidden_sizeÚ
input_sizeÚshared_intermediate_sizer	   Ú
hidden_actÚ
activationr   ÚLinearÚinput_linearÚoutput_linear©Úselfr8   Ú	__class__s     €r3   r>   ÚGraniteMoeSharedMLP.__init__T   s   ø€ Ü‰ÑÔà ×,Ñ,ˆŒØ!×:Ñ:ˆÔÜ  ×!2Ñ!2Ñ3ˆŒÜŸIšI d§o¡o°t×7GÑ7GÈ!Ñ7KÐRWÑXˆÔÜŸYšY t×'7Ñ'7¸¿¹ÈuÑUˆÕr2   Úhidden_statesÚreturnc                 óž   • U R                  U5      nUR                  SSS9nU R                  US   5      US   -  nU R                  U5      nU$ )Nr:   éÿÿÿÿ©Údimr   r   )rE   ÚchunkrC   rF   )rH   rK   Úchunked_hidden_statess      r3   ÚforwardÚGraniteMoeSharedMLP.forward]   s^   € Ø×)Ñ)¨-Ó8ˆØ -× 3Ñ 3°A¸2Ð 3Ð >ÐØŸ™Ð(=¸aÑ(@ÓAÐDYÐZ[ÑD\Ñ\ˆØ×*Ñ*¨=Ó9ˆØÐr2   )rC   r?   rE   r@   rF   )r'   r(   r)   r*   r+   r   r>   r,   ÚTensorrS   r1   Ú__classcell__©rI   s   @r3   r6   r6   K   s7   ø† ñðVÐ5÷ Vð U§\¡\ð °e·l±l÷ ò r2   r6   c                   ó8   ^ • \ rS rSrSU 4S jjrS rS rSrU =r$ )ÚGraniteMoeSharedRMSNormée   c                 óŒ   >• [         TU ]  5         [        R                  " [        R
                  " U5      5      U l        X l        g)z6
GraniteMoeSharedRMSNorm is equivalent to T5LayerNorm
N)r=   r>   r   Ú	Parameterr,   ÚonesÚweightÚvariance_epsilon)rH   r?   ÚepsrI   s      €r3   r>   Ú GraniteMoeSharedRMSNorm.__init__f   s/   ø€ ô 	‰ÑÔÜ—l’l¤5§:¢:¨kÓ#:Ó;ˆŒØ #Õr2   c                 ó  • UR                   nUR                  [        R                  5      nUR	                  S5      R                  SSS9nU[        R                  " X0R                  -   5      -  nU R                  UR                  U5      -  $ )Nr:   rN   T)Úkeepdim)	ÚdtypeÚtor,   Úfloat32ÚpowÚmeanÚrsqrtr_   r^   )rH   rK   Úinput_dtypeÚvariances       r3   rS   ÚGraniteMoeSharedRMSNorm.forwardn   sw   € Ø#×)Ñ)ˆØ%×(Ñ(¬¯©Ó7ˆØ ×$Ñ$ QÓ'×,Ñ,¨R¸Ð,Ð>ˆØ%¬¯ª°H×?TÑ?TÑ4TÓ(UÑUˆØ{‰{˜]×-Ñ-¨kÓ:Ñ:Ð:r2   c                 ó^   • [        U R                  R                  5       SU R                   3$ )Nz, eps=)Útupler^   Úshaper_   ©rH   s    r3   Ú
extra_reprÚ"GraniteMoeSharedRMSNorm.extra_repru   s*   € Ü˜Ÿ™×)Ñ)Ó*Ð+¨6°$×2GÑ2GÐ1HÐIÐIr2   )r_   r^   )gíµ ÷Æ°>)	r'   r(   r)   r*   r>   rS   rq   r1   rV   rW   s   @r3   rY   rY   e   s   ø† ÷$ò;÷Jð Jr2   rY   c                   óB   ^ • \ rS rSrS\S\S\SS4U 4S jjrS rS	rU =r$ )
ÚGraniteMoeSharedParallelExpertséy   Únum_expertsr@   Úoutput_sizerL   Nc                 ó¦   >• [         TU ]  5         [        R                  " [        R
                  " XU5      5      U l        Xl        X l        X0l	        g)a]  
Initialize the GraniteMoeSharedParallelExperts module.
The experts weights are stored in [num_experts, output_size, input_size] format. Such that it's compatible with
many MoE libraries, such as [Megablock](https://github.com/databricks/megablocks) and
[ScatterMoE](https://github.com/shawntan/scattermoe), as well as the
[MoE kernel](https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/fused_moe/fused_moe.py)
used in vllm.

Args:
    num_experts (int):
        Number of experts.
    input_size (int):
        Size of the input.
    output_size (int):
        Size of the output.
N)
r=   r>   r   r\   r,   Úemptyr^   rv   r@   rw   )rH   rv   r@   rw   rI   s       €r3   r>   Ú(GraniteMoeSharedParallelExperts.__init__z   s<   ø€ ô" 	‰ÑÔÜ—l’l¤5§;¢;¨{ÈÓ#TÓUˆŒØ&ÔØ$ŒØ&Õr2   c                 óö   • UR                  USS9n/ n[        U R                  5       H8  nUR                  [        R
                  " X5   U R                  U   5      5        M:     [        R                  " USS9nU$ )zÆ
Forward pass of the GraniteMoeSharedParallelExperts module.

Args:
    inputs (Tensor):
        Input tensor.
    expert_size:
        Expert size information.

Returns:
    Tensor: Output tensor.
r   rO   )	ÚsplitÚrangerv   ÚappendÚFÚlinearr^   r,   Úcat)rH   ÚinputsÚexpert_sizeÚ
input_listÚoutput_listÚiÚresultss          r3   rS   Ú'GraniteMoeSharedParallelExperts.forward‘   sh   € ð —\‘\ +°1\Ð5ˆ
ØˆÜt×'Ñ'Ö(ˆAØ×ÑœqŸxšx¨
©°t·{±{À1±~ÓFÖGñ )ä—)’)˜K¨QÑ/ˆØˆr2   )r@   rv   rw   r^   ©	r'   r(   r)   r*   r/   r>   rS   r1   rV   rW   s   @r3   rt   rt   y   s.   ø† ð' Cð '°Sð 'Àsð 'Èt÷ '÷.ð r2   rt   c                   ó>   ^ • \ rS rSrS\S\S\4U 4S jjrS rSrU =r$ )ÚGraniteMoeSharedTopKGatingé¦   r@   rv   Útop_kc                 óz   >• [         TU ]  5         X l        Xl        X0l        [
        R                  " XSS9U l        g)zÑ
Initialize the top-k gating mechanism.
Args:
    input_size (`int`):
        Size of the input.
    num_experts (`int`):
        Number of experts.
    top_k (`int`):
        Number of top experts to select.
Fr;   N)r=   r>   rv   r@   r   r   rD   Úlayer)rH   r@   rv   r   rI   s       €r3   r>   Ú#GraniteMoeSharedTopKGating.__init__§   s2   ø€ ô 	‰ÑÔà&ÔØ$ŒØŒ
ä—Y’Y˜z¸UÑCˆ
r2   c                 óz  • U R                  U5      R                  5       nUR                  U R                  SS9u  p4[        R
                  " USS9R                  U5      n[        R                  " UR                  S5      U R                  /UR                  UR                  S9nUR                  SUS5      nUR                  5       R                  S5      nUR                  5       nUR!                  5       n	U	R#                  S5      u  p«UR%                  U R                  SS9nUR!                  5       nX[   nX¼XØU4$ )Nr   rO   r   ©rd   ÚdeviceÚtrunc)Úrounding_mode)r   ÚfloatÚtopkr   r,   ÚsoftmaxÚtype_asÚzerosÚsizerv   rd   r“   ÚscatterÚlongÚsumÚtolistÚflattenÚsortÚdiv)rH   rK   ÚlogitsÚtop_k_logitsÚtop_k_indicesÚtop_k_gatesrš   Úgatesrƒ   Útop_k_expertsÚ_Úindex_sorted_expertsÚbatch_indexÚbatch_gatess                 r3   rS   Ú"GraniteMoeSharedTopKGating.forwardº   s"  € à—‘˜MÓ*×0Ñ0Ó2ˆØ&,§k¡k°$·*±*À! kÐ&DÑ#ˆÜ—m’m L°aÑ8×@Ñ@ÀÓOˆô —’Ø×Ñ˜aÓ  $×"2Ñ"2Ð3¸;×;LÑ;LÐU`×UgÑUgñ
ˆð —‘˜a °Ó2ˆØ—j‘j“l×&Ñ& qÓ)ˆð "×(Ñ(Ó*ˆð &×-Ñ-Ó/ˆØ"/×"4Ñ"4°QÓ"7ÑˆØ*×.Ñ.¨t¯z©zÈÐ.ÐQˆð "×)Ñ)Ó+ˆØ!Ñ7ˆà#°+ÈFÐRÐRr2   )r@   r   rv   r   r‰   rW   s   @r3   r‹   r‹   ¦   s-   ø† ðD 3ð D°Sð DÀ÷ D÷&Sð Sr2   r‹   c                   ó:   ^ • \ rS rSrSrS\4U 4S jjrS rSrU =r	$ )ÚGraniteMoeSharedMoEéÖ   z¦
A Sparsely gated mixture of experts layer with 1-layer Feed-Forward networks as experts.

Args:
    config:
        Configuration object with model hyperparameters.
r8   c                 ó¸  >• [         TU ]  5         UR                  U l        UR                  U l        [
        UR                     U l        [        UR                  U R                  U R                  S-  5      U l
        [        UR                  U R                  U R                  5      U l        [        U R                  UR                  UR                  S9U l        g )Nr:   )r@   rv   r   )r=   r>   r?   r@   Úintermediate_sizer	   rB   rC   rt   Únum_local_expertsrE   rF   r‹   Únum_experts_per_tokÚrouterrG   s     €r3   r>   ÚGraniteMoeSharedMoE.__init__ß   s±   ø€ Ü‰ÑÔà ×,Ñ,ˆŒØ!×3Ñ3ˆÔÜ  ×!2Ñ!2Ñ3ˆŒÜ;Ø×$Ñ$ d§o¡o°t×7GÑ7GÈ!Ñ7Kó
ˆÔô =Ø×$Ñ$ d×&6Ñ&6¸¿¹ó
ˆÔô 1Ø—‘Ø×0Ñ0Ø×,Ñ,ñ
ˆr2   c                 óþ  • UR                  5       u  p#nUR                  SU5      nU R                  U5      u  pVpxn	X   n
U R                  X¨5      nUR	                  SSS9nU R                  US   5      US   -  nU R                  X¸5      nX×SS2S4   -  n[        R                  " X#-  U R                  4UR                  UR                  S9nUR                  SXm5      nUR                  X#U R                  5      nXù4$ )z¶
Forward pass of the mixture of experts layer.

Args:
    layer_input (Tensor):
        Input tensor.

Returns:
    Tensor:
        Output tensor.
    Tensor:
        Router logits.
rN   r:   rO   r   r   Nr’   )r›   Úreshaperµ   rE   rQ   rC   rF   r,   rš   r@   rd   r“   Ú	index_addÚview)rH   Úlayer_inputÚbszÚlengthÚemb_sizer©   r«   r¬   rƒ   Úrouter_logitsÚexpert_inputsrK   rR   Úexpert_outputsrš   Úlayer_outputs                   r3   rS   ÚGraniteMoeSharedMoE.forwardò   s  € ð !,× 0Ñ 0Ó 2ÑˆXØ!×)Ñ)¨"¨hÓ7ˆØBFÇ+Á+ÈkÓBZÑ?ˆ˜°-à#Ñ0ˆØ×)Ñ)¨-ÓEˆØ -× 3Ñ 3°A¸2Ð 3Ð >ÐØŸ™Ð(=¸aÑ(@ÓAÐDYÐZ[ÑD\Ñ\ˆØ×+Ñ+¨MÓGˆà'²a¸°gÑ*>Ñ>ˆä—’˜S™\¨4¯?©?Ð;À>×CWÑCWÐ`n×`uÑ`uÑvˆØ—‘ q¨+ÓFˆØ#×(Ñ(¨°d·o±oÓFˆØÐ*Ð*r2   )rC   r?   rE   r@   rF   rµ   )
r'   r(   r)   r*   r+   r   r>   rS   r1   rV   rW   s   @r3   r¯   r¯   Ö   s   ø† ñð
Ð5÷ 
÷&+ð +r2   r¯   c                 ó–   • U SSU R                   S   S-  24   nU SU R                   S   S-  S24   n[        R                  " U* U4SS9$ )z*Rotates half the hidden dims of the input..NrN   r:   rO   )ro   r,   r   )ÚxÚx1Úx2s      r3   Úrotate_halfrÈ     sZ   € à	
ˆ3Ð"!—'‘'˜"‘+ Ñ"Ð"Ð"Ñ	#€BØ	
ˆ3—‘˜‘˜qÑ Ñ"Ð"Ñ	#€BÜ9Š9rc˜2Y BÑ'Ð'r2   c                 ó˜   • UR                  U5      nUR                  U5      nX-  [        U 5      U-  -   nX-  [        U5      U-  -   nXg4$ )a—  Applies Rotary Position Embedding to the query and key tensors.

Args:
    q (`torch.Tensor`): The query tensor.
    k (`torch.Tensor`): The key tensor.
    cos (`torch.Tensor`): The cosine part of the rotary embedding.
    sin (`torch.Tensor`): The sine part of the rotary embedding.
    position_ids (`torch.Tensor`, *optional*):
        Deprecated and unused.
    unsqueeze_dim (`int`, *optional*, defaults to 1):
        The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
        sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
        that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
        k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
        cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
        the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
Returns:
    `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
)Ú	unsqueezerÈ   )ÚqÚkÚcosÚsinÚposition_idsÚunsqueeze_dimÚq_embedÚk_embeds           r3   Úapply_rotary_pos_embrÓ     sS   € ð( -‰-˜Ó
&€CØ
-‰-˜Ó
&€CØ‰wœ; q›>¨CÑ/Ñ0€GØ‰wœ; q›>¨CÑ/Ñ0€GØÐÐr2   rK   Ún_reprL   c                 ó    • U R                   u  p#pEUS:X  a  U $ U SS2SS2SSS2SS24   R                  X#XU5      n U R                  X#U-  XE5      $ )zÈ
This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
r   N)ro   Úexpandr¸   )rK   rÔ   ÚbatchÚnum_key_value_headsÚslenÚhead_dims         r3   Ú	repeat_kvrÛ   4  s_   € ð
 2?×1DÑ1DÑ.€E ØƒzØÐØ!¢!¢Q¨ªa²Ð"2Ñ3×:Ñ:¸5ÐW\ÐdlÓm€MØ× Ñ  ¸eÑ(CÀTÓTÐTr2   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutc                 ó@  • [        X R                  5      n[        X0R                  5      n	[        R                  " XR	                  SS5      5      U-  n
Ub"  US S 2S S 2S S 2S UR
                  S   24   nX«-   n
[        R                  R                  U
S[        R                  S9R                  UR                  5      n
[        R                  R                  X¦U R                  S9n
[        R                  " X©5      nUR	                  SS5      R                  5       nXÊ4$ )Nr:   r   éþÿÿÿrN   )rP   rd   )ÚpÚtrainingr   )rÛ   Únum_key_value_groupsr,   ÚmatmulÚ	transposero   r   Ú
functionalr˜   rf   re   rd   râ   ræ   Ú
contiguous)rÜ   rÝ   rÞ   rß   rà   rá   râ   ÚkwargsÚ
key_statesÚvalue_statesÚattn_weightsÚcausal_maskÚattn_outputs                r3   Úeager_attention_forwardrò   @  sø   € ô ˜3× ;Ñ ;Ó<€JÜ˜U×$?Ñ$?Ó@€Lä—<’< ×';Ñ';¸A¸qÓ'AÓBÀWÑL€LØÑ!Ø$¢Qªª1Ð.D°
×0@Ñ0@ÀÑ0DÐ.DÐ%DÑEˆØ#Ñ1ˆô —=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó:€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r2   c                   óv  ^ • \ rS rSrSrSS\S\\   4U 4S jjjr      SS\	R                  S\\	R                     S\\	R                     S	\\   S
\S\\	R                     S\\\	R                  \	R                  4      S\\	R                  \\	R                     \\\	R                        4   4S jjrSrU =r$ )ÚGraniteMoeSharedAttentioni]  z=Multi-headed attention from 'Attention Is All You Need' paperr8   Ú	layer_idxc                 óz  >• [         TU ]  5         Xl        X l        Uc-  [        R                  SU R                  R                   S35        UR                  U l        UR                  U l	        UR                  U l        U R                  U R                  -  U l        UR                  U l        U R                  U R                  -  U l        SU l        UR                   U l        U R                  U R                  -  U R                  :w  a&  [%        SU R                   SU R                   S35      e[&        R(                  " U R                  U R                  U R                  -  UR*                  S9U l        [&        R(                  " U R                  U R                  U R                  -  UR*                  S9U l        [&        R(                  " U R                  U R                  U R                  -  UR*                  S9U l        [&        R(                  " U R                  U R                  UR*                  S9U l        g )NzInstantiating z¹ without passing a `layer_idx` is not recommended and will lead to errors during the forward call if caching is used. Please make sure to provide a `layer_idx` when creating this class.Tz?hidden_size must be divisible by num_heads (got `hidden_size`: z and `num_heads`: z).r;   )r=   r>   r8   rõ   ÚloggerÚwarning_oncerI   r'   Úattention_dropoutr?   Únum_attention_headsÚ	num_headsrÚ   rØ   rç   Ú	is_causalÚattention_multiplierrá   Ú
ValueErrorr   rD   Úattention_biasÚq_projÚk_projÚv_projÚo_proj©rH   r8   rõ   rI   s      €r3   r>   Ú"GraniteMoeSharedAttention.__init__`  sÂ  ø€ Ü‰ÑÔØŒØ"ŒØÑÜ×ÑØ  §¡×!8Ñ!8Ð 9ð :,ð ,ôð "(×!9Ñ!9ˆÔØ!×-Ñ-ˆÔØ×3Ñ3ˆŒØ×(Ñ(¨D¯N©NÑ:ˆŒØ#)×#=Ñ#=ˆÔ Ø$(§N¡N°d×6NÑ6NÑ$NˆÔ!ØˆŒà×2Ñ2ˆŒàM‰M˜DŸN™NÑ*¨t×/?Ñ/?Ó?ÜØQÐRV×RbÑRbÐQcØ$ T§^¡^Ð$4°Bð8óð ô
 —i’i × 0Ñ 0°$·.±.À4Ç=Á=Ñ2PÐW]×WlÑWlÑmˆŒÜ—i’i × 0Ñ 0°$×2JÑ2JÈTÏ]É]Ñ2ZÐag×avÑavÑwˆŒÜ—i’i × 0Ñ 0°$×2JÑ2JÈTÏ]É]Ñ2ZÐag×avÑavÑwˆŒÜ—i’i × 0Ñ 0°$×2BÑ2BÈ×I^ÑI^Ñ_ˆr2   rK   rà   rÏ   Úpast_key_valueÚ	use_cacheÚcache_positionÚposition_embeddingsrL   c                 óš  • UR                  5       u  pšnU R                  U5      nU R                  U5      nU R                  U5      nUR	                  XšU R
                  U R                  5      R                  SS5      nUR	                  XšU R                  U R                  5      R                  SS5      nUR	                  XšU R                  U R                  5      R                  SS5      nUb  UOSu  nnUb  [        XÍUU5      u  pÍUb$  UXöS.nUR                  XÞU R                  U5      u  pÞ[        nU R                  R                  S:w  a  [        U R                  R                     nU" U UUUU4U R                   (       d  SOU R"                  U R$                  S.UD6u  nnUR	                  XšS5      nU R'                  U5      nUU4$ )	Nr   r:   )NN)rÎ   rÍ   r  Úeagerç        )râ   rá   rN   )r›   r   r  r  rº   rû   rÚ   ré   rØ   rÓ   Úupdaterõ   rò   r8   Ú_attn_implementationr   ræ   rù   rá   r  )rH   rK   rà   rÏ   r  r  r  r	  rì   r¼   Úq_lenr©   Úquery_statesrí   rî   rÍ   rÎ   Úcache_kwargsÚattention_interfacerñ   rï   s                        r3   rS   Ú!GraniteMoeSharedAttention.forward€  s½  € ð &×*Ñ*Ó,‰ˆAà—{‘{ =Ó1ˆØ—[‘[ Ó/ˆ
Ø—{‘{ =Ó1ˆà#×(Ñ(¨°T·^±^ÀTÇ]Á]ÓS×]Ñ]Ð^_ÐabÓcˆØ—_‘_ S°×1IÑ1IÈ4Ï=É=ÓY×cÑcÐdeÐghÓiˆ
Ø#×(Ñ(¨°T×5MÑ5MÈtÏ}É}Ó]×gÑgÐhiÐklÓmˆà*=Ñ*IÑ&È|‰ˆˆSØÑ*Ü';¸LÐVYÐ[^Ó'_Ñ$ˆLàÑ%à#&¨sÑUˆLØ'5×'<Ñ'<¸ZÐW[×WeÑWeÐgsÓ'tÑ$ˆJä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð	%
ð  $Ÿ}Ÿ}‘C°$×2HÑ2HØ—L‘Lñ	%
ð ñ	%
Ñ!ˆ\ð "×&Ñ& s°2Ó6ˆØ—k‘k +Ó.ˆà˜LÐ(Ð(r2   )rù   r8   rÚ   r?   rü   r  rõ   rû   rç   rØ   r  r   rá   r  ©N)NNNFNN)r'   r(   r)   r*   r+   r   r   r/   r>   r,   rU   r-   r
   Úboolrn   rS   r1   rV   rW   s   @r3   rô   rô   ]  sù   ø† ÙGñ`Ð5ð `À(È3Á-÷ `ð `ðF 26Ø37Ø*.ØØ59ØKOñ0)à—|‘|ð0)ð ! §¡Ñ.ð0)ð ˜u×/Ñ/Ñ0ð	0)ð
 ! ™ð0)ð ð0)ð ! ×!1Ñ!1Ñ2ð0)ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð0)ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷0)ó 0)r2   rô   c                   óŒ  ^ • \ rS rSrS\S\4U 4S jjr        SS\R                  S\	\R                     S\	\R                     S\	\   S	\	\   S
\	\   S\	\R                     S\	\   S\	\\R                  \R                  4      S\\   S\\R                   \	\\R                   \R                   4      4   4S jjrSrU =r$ )ÚGraniteMoeSharedDecoderLayeri³  r8   rõ   c                 óž  >• [         TU ]  5         UR                  U l        [        XS9U l        UR
                  S:”  a  [        U5      U l        [        UR                  UR                  S9U l
        [        UR                  UR                  S9U l        UR                  U l        UR                  S:X  a  S U l        g [        U5      U l        g )N)r8   rõ   r   ©r`   )r=   r>   r?   rô   Ú	self_attnr³   r¯   Úblock_sparse_moerY   Úrms_norm_epsÚinput_layernormÚpost_attention_layernormÚresidual_multiplierrA   r6   Ú
shared_mlpr  s      €r3   r>   Ú%GraniteMoeSharedDecoderLayer.__init__´  s©   ø€ Ü‰ÑÔØ!×-Ñ-ˆÔä2¸&ÑVˆŒØ×#Ñ# aÓ'Ü$7¸Ó$?ˆDÔ!Ü6°v×7IÑ7IÈv×ObÑObÑcˆÔÜ(?À×@RÑ@RÐX^×XkÑXkÑ(lˆÔ%à#)×#=Ñ#=ˆÔ Ø"(×"AÑ"AÀQÓ"F˜$ˆÔL_Ð`fÓLgˆr2   rK   rà   rÏ   r  Úoutput_attentionsr  r  Úoutput_router_logitsr	  rì   rL   c
                 ór  • UnU R                  U5      nU R                  " SUUUUUUUU	S.U
D6u  pX±U R                  -  -   nUnU R                  U5      nU R	                  U5      u  pÞU R
                  c  UnOXÐR                  U5      -   nX±U R                  -  -   nU4nU(       a  Xü4-  nU(       a  Xþ4-  nU$ )aƒ  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`, *optional*):
        attention mask of size `(batch_size, sequence_length)` if flash attention is used or `(batch_size, 1,
        query_sequence_length, key_sequence_length)` if default attention is used.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence
    output_router_logits (`bool`, *optional*):
        Whether or not to return the logits of all the routers. They are useful for computing the router loss, and
        should not be returned during inference.
    position_embeddings (`tuple[torch.FloatTensor, torch.FloatTensor]`, *optional*):
        Tuple containing the cosine and sine positional embeddings of shape `(batch_size, seq_len, head_dim)`,
        with `head_dim` being the embedding dimension of each attention head.
    kwargs (`dict`, *optional*):
        Arbitrary kwargs. Can be used to provide `GraniteFlashAttentionKwargs` for
        padding-free training and/or improve torch.compile performance.
)rK   rà   rÏ   r  r"  r  r  r	  r&   )r  r  r  r  r  r   )rH   rK   rà   rÏ   r  r"  r  r  r#  r	  rì   ÚresidualÚself_attn_weightsÚmoe_hidden_statesr¿   Úoutputss                   r3   rS   Ú$GraniteMoeSharedDecoderLayer.forwardÁ  sð   € ðL !ˆà×,Ñ,¨]Ó;ˆð ,0¯>ª>ð 
,
Ø'Ø)Ø%Ø)Ø/ØØ)Ø 3ñ
,
ð ñ
,
Ñ(ˆð !°4×3KÑ3KÑ#KÑKˆð !ˆØ×5Ñ5°mÓDˆØ+/×+@Ñ+@ÀÓ+OÑ(Ðà?‰?Ñ"Ø-‰Mà-·±ÀÓ0NÑNˆMà °4×3KÑ3KÑ#KÑKˆà Ð"ˆæØÐ+Ñ+ˆGæØÐ'Ñ'ˆGàˆr2   )r  r?   r  r  r  r  r   )NNNFFNFN)r'   r(   r)   r*   r   r/   r>   r,   rU   r   r-   r
   r  rn   r   r   ÚFloatTensorrS   r1   rV   rW   s   @r3   r  r  ³  s2  ø† ðhÐ5ð hÀ#÷ hð  26Ø37Ø*.Ø,1Ø$)Ø59Ø/4ØKOñMà—|‘|ðMð ! §¡Ñ.ðMð ˜u×/Ñ/Ñ0ð	Mð
 ! ™ðMð $ D™>ðMð ˜D‘>ðMð ! ×!1Ñ!1Ñ2ðMð ' t™nðMð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHðMð Ð4Ñ5ðMð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷Mó Mr2   r  c                   óT   ^ • \ rS rSr% \\S'   SrSrS/rS/r	Sr
SrSrU 4S jrS	rU =r$ )
ÚGraniteMoeSharedPreTrainedModeli  r8   ÚmodelTr  Úpast_key_valuesFc                 óÀ   >• [         TU ]  U5        [        U[        5      (       a9  UR                  R
                  R                  SU R                  R                  S9  g g )Nr  )rh   Ústd)	r=   Ú_init_weightsÚ
isinstancert   r^   ÚdataÚnormal_r8   Úinitializer_range)rH   rÜ   rI   s     €r3   r1  Ú-GraniteMoeSharedPreTrainedModel._init_weights  sJ   ø€ Ü‰Ñ˜fÔ%ÜfÔ=×>Ñ>ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÒSð ?r2   r&   )r'   r(   r)   r*   r   r.   Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_skip_keys_device_placementÚ_supports_flash_attnÚ_supports_sdpaÚ_can_compile_fullgraphr1  r1   rV   rW   s   @r3   r,  r,    sD   ø‡ à"Ó"ØÐØ&*Ð#Ø7Ð8ÐØ#4Ð"5ÐØÐØ€Nà"Ð÷Tó Tr2   r,  c                   ól   ^ • \ rS rSrSS\4U 4S jjjr\R                  " 5       \S 5       5       r	Sr
U =r$ )ÚGraniteMoeSharedRotaryEmbeddingi#  r8   c                 ó  >• [         TU ]  5         [        US5      (       aZ  [        UR                  [
        5      (       a;  UR                  R                  SUR                  R                  S5      5      U l        OSU l        UR                  U l	        UR                  U l
        Xl        [        U R                     U l        U R                  U R                  U5      u  o0l        U R                  SUSS9  U R                   U l        g )NÚrope_scalingÚ	rope_typeÚtypeÚdefaultÚinv_freqF)Ú
persistent)r=   r>   Úhasattrr2  rA  ÚdictÚgetrB  Úmax_position_embeddingsÚmax_seq_len_cachedÚoriginal_max_seq_lenr8   r   Úrope_init_fnÚattention_scalingÚregister_bufferrE  Úoriginal_inv_freq)rH   r8   r“   rE  rI   s       €r3   r>   Ú(GraniteMoeSharedRotaryEmbedding.__init__$  sÏ   ø€ Ü‰ÑÔä6˜>×*Ñ*¬z¸&×:MÑ:MÌt×/TÑ/TØ#×0Ñ0×4Ñ4°[À&×BUÑBU×BYÑBYÐZ`ÓBaÓbˆDNà&ˆDŒNØ"(×"@Ñ"@ˆÔØ$*×$BÑ$BˆÔ!àŒÜ/°·±Ñ?ˆÔà+/×+<Ñ+<¸T¿[¹[È&Ó+QÑ(ˆÔ(Ø×Ñ˜Z¨¸eÐÑDØ!%§¡ˆÕr2   c                 ób  • U R                   S S S 2S 4   R                  5       R                  UR                  S   SS5      R	                  UR
                  5      nUS S 2S S S 24   R                  5       n[        UR
                  R                  [        5      (       a0  UR
                  R                  S:w  a  UR
                  R                  OSn[        R                  " USS9   UR                  5       UR                  5       -  R                  SS5      n[        R                  " Xf4SS	9nUR                  5       U R                  -  nUR                  5       U R                  -  n	S S S 5        WR	                  UR                   S
9W	R	                  UR                   S
94$ ! , (       d  f       N@= f)Nr   rN   r   ÚmpsÚcpuF)Údevice_typeÚenabledr:   rO   )rd   )rE  r–   rÖ   ro   re   r“   r2  rC  Ústrr,   Úautocastré   r   rÍ   rN  rÎ   rd   )
rH   rÅ   rÏ   Úinv_freq_expandedÚposition_ids_expandedrU  ÚfreqsÚembrÍ   rÎ   s
             r3   rS   Ú'GraniteMoeSharedRotaryEmbedding.forward5  sR  € ð !ŸM™M¨$²°4¨-Ñ8×>Ñ>Ó@×GÑGÈ×HZÑHZÐ[\ÑH]Ð_aÐcdÓe×hÑhÐij×iqÑiqÓrÐØ ,ªQ°²a¨ZÑ 8× >Ñ >Ó @Ðä'1°!·(±(·-±-Ä×'EÑ'EÈ!Ï(É(Ï-É-Ð[`ÓJ`a—h‘h—m’mÐfkˆÜ^Š^¨¸UÓCØ&×,Ñ,Ó.Ð1F×1LÑ1LÓ1NÑN×YÑYÐZ[Ð]^Ó_ˆEÜ—)’)˜U˜N°Ñ3ˆCØ—'‘'“)˜d×4Ñ4Ñ4ˆCØ—'‘'“)˜d×4Ñ4Ñ4ˆC÷	 Dð v‰v˜AŸG™GˆvÐ$ c§f¡f°1·7±7 fÐ&;Ð;Ð;÷ DÕCús   Ã$BF Æ 
F.)rN  r8   rK  rP  rL  rM  rB  r  )r'   r(   r)   r*   r   r>   r,   Úno_gradr   rS   r1   rV   rW   s   @r3   r?  r?  #  s7   ø† ñ/Ð5÷ /ð /ð" ‡]‚]ƒ_Øñ<ó ó ö<r2   r?  c                   ó4  ^ • \ rS rSrS\4U 4S jjr\           SS\\R                     S\\R                     S\\R                     S\\\\\R                     4      S\\R                     S	\\   S
\\   S\\   S\\   S\\   S\\R                     S\\\4   4S jj5       r SS\\R                  S4   S\R                  S\R                  S\S
\4
S jjr\S\R                  S\S\S\R,                  S\R                  S\4S j5       rSrU =r$ )ÚGraniteMoeSharedModeliE  r8   c           	      ó6  >• [         TU ]  U5        UR                  U l        UR                  U l        [
        R                  " UR                  UR                  U R                  5      U l        [
        R                  " [        UR                  5       Vs/ sH  n[        X5      PM     sn5      U l        [        UR                  UR                  S9U l        SU l        UR$                  U l        UR                  U l        UR&                  U l        U R                  U R(                  -  U l        UR,                  U l        UR.                  U l        UR0                  U l        U R0                  S:X  a  [3        U5      OS U l        U R7                  5         g s  snf )Nr  FÚrope)r=   r>   Úpad_token_idÚpadding_idxÚ
vocab_sizer   Ú	Embeddingr?   Úembed_tokensÚ
ModuleListr}   Únum_hidden_layersr  ÚlayersrY   r  ÚnormÚgradient_checkpointingÚembedding_multiplierrú   rû   rÚ   rJ  Ú
rope_thetaÚposition_embedding_typer?  Ú
rotary_embÚ	post_initr  s      €r3   r>   ÚGraniteMoeSharedModel.__init__G  sE  ø€ Ü‰Ñ˜Ô Ø!×.Ñ.ˆÔØ ×+Ñ+ˆŒäŸLšL¨×):Ñ):¸F×<NÑ<NÐPT×P`ÑP`ÓaˆÔÜ—m’mÜNSÐTZ×TlÑTlÔNmÓnÑNmÀÔ)¨&Ö<ÑNmÑnó
ˆŒô ,¨F×,>Ñ,>ÀF×DWÑDWÑXˆŒ	Ø&+ˆÔ#à$*×$?Ñ$?ˆÔ!Ø!×-Ñ-ˆÔØ×3Ñ3ˆŒØ×(Ñ(¨D¯N©NÑ:ˆŒØ'-×'EÑ'EˆÔ$Ø ×+Ñ+ˆŒà'-×'EÑ'EˆÔ$ØEI×EaÑEaÐekÓEkÔ9¸&ÔAÐquˆŒð 	‰Õùò! os   ÂFÚ	input_idsrà   rÏ   r.  Úinputs_embedsr  r"  Úoutput_hidden_statesr#  Úreturn_dictr  rL   c                 óè  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU
b  U
OU R                   R                  n
US L US L-  (       a  [        S5      eU R                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnUc  U R                  U5      nXPR                  -  n[        U[        S 5      [        45      (       d  [        S5      eU(       a  Uc
  [        5       nUcD  Ub  UR!                  5       OSn["        R$                  " XÝUR&                  S   -   UR(                  S9nUc  UR+                  S5      nU R-                  X%X´U5      nUnS nU R.                  b  U R/                  Xó5      nU(       a  SOS nU(       a  SOS nU	(       a  SOS nU R0                   HE  nU(       a  UU4-  nU" UUUUUUUU	US	9	nUS   nU(       a	  UUS   4-  nU	(       d  M<  UUS
   4-  nMG     U R3                  U5      nU(       a  UU4-  nU
(       d  [5        S XôUU4 5       5      $ [7        UUUUUS9$ )Nz:You must specify exactly one of input_ids or inputs_embedszX`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.FzBThe `past_key_values` should be either a `Cache` object or `None`.r   r   ©r“   r&   )rà   rÏ   r  r"  r  r  r#  r	  rN   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7fr  r&   )Ú.0Úvs     r3   Ú	<genexpr>Ú0GraniteMoeSharedModel.forward.<locals>.<genexpr>Ä  s   é € ð Ù^a—‘Ò^ùs   ‚‹	)Úlast_hidden_stater.  rK   Ú
attentionsr¿   )r8   r"  ru  r  Úuse_return_dictrþ   rl  ræ   r÷   rø   rg  rm  r2  rC  r
   r   Úget_seq_lengthr,   Úarangero   r“   rÊ   Ú_update_causal_maskrp  rj  rk  rn   r   )rH   rs  rà   rÏ   r.  rt  r  r"  ru  r#  rv  r  rì   Úpast_seen_tokensrð   rK   r	  Úall_hidden_statesÚall_self_attnsÚall_router_logitsÚdecoder_layerÚlayer_outputss                         r3   rS   ÚGraniteMoeSharedModel.forward`  s¦  € ð  2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà˜Ð -°tÐ";×<ÜÐYÓZÐZà×&×&¨4¯=¯=¾YÜ×ÑØjôð ˆIàÑ Ø ×-Ñ-¨iÓ8ˆMà%×(AÑ(AÑAˆô ˜/¬D°«J¼Ð+>×?Ñ?ÜÐaÓbÐbæ˜Ñ0Ü*›nˆOàÑ!ØCRÑC^˜×=Ñ=Ô?ÐdeÐÜ"Ÿ\š\Ø °]×5HÑ5HÈÑ5KÑ"KÐTa×ThÑThñˆNð ÑØ)×3Ñ3°AÓ6ˆLà×.Ñ.Ø¨>ÐL]ó
ˆð
 &ˆà"Ðà?‰?Ñ&Ø"&§/¡/°-Ó"NÐö #7™B¸DÐÞ0™°dˆÞ"6™B¸DÐà!Ÿ[œ[ˆMÞ#Ø! mÐ%5Ñ5Ð!á)ØØ*Ø)Ø.Ø"3Ø#Ø-Ø%9Ø$7ñ
ˆMð *¨!Ñ,ˆMæ Ø =°Ñ#3Ð"5Ñ5ç#Ð#Ø! m°BÑ&7Ð%9Ñ9Ò!ñ- )ð0 Ÿ	™	 -Ó0ˆö  Ø -Ð!1Ñ1ÐæÜñ Ø)Ð<MÈ~Ñ^óó ð ô &Ø+Ø+Ø+Ø%Ø+ñ
ð 	
r2   r   Úinput_tensorc           	      óæ  • U R                   R                  S:X  a  Ub  US:H  R                  5       (       a  U$ g U R                   R                  S:X  a,  [        U[        R
                  5      (       a  [        U5      nU$ Ub  UR                  5       OSnUb  UR                  OSnU R                   R                  S:X  a5  U(       d.  U(       d'  [        R                  " UUUU R                  S9(       a  g UR                  nUR                  S   n	U(       a  UR                  5       n
O5[        U[        R
                  5      (       a  UR                  S	   OXi-   S-   n
U R                  UU	U
UUUR                  S   S
9nU R                   R                  S:X  aZ  UbW  UR                   R"                  S;   a=  U(       d6  [        R$                  " U5      R&                  n[        R(                  " X¼5      nU$ )NÚflash_attention_2r  Úflex_attentionr   FÚsdpa)rt  Úpast_key_values_lengthÚis_trainingr   rN   )Úsequence_lengthÚtarget_lengthrd   r  Ú
batch_size)ÚcudaÚxpuÚnpu)r8   r  Úanyr2  r,   rU   r   r  Úis_compileabler   Ú_ignore_causal_mask_sdparæ   rd   ro   Úget_max_cache_shapeÚ5_prepare_4d_causal_attention_mask_with_cache_positionr“   rC  ÚfinfoÚminÚ_unmask_unattended)rH   rà   r‹  r  r.  r"  r„  Úusing_compilable_cacherd   r’  r“  rð   Ú	min_dtypes                r3   rƒ  Ú)GraniteMoeSharedModel._update_causal_maskÏ  sË  € ð ;‰;×+Ñ+Ð/BÓBØÑ)¨~ÀÑ/D×.IÑ.I×.KÑ.KØ%Ð%ØØ;‰;×+Ñ+Ð/?Ó?Ü˜.¬%¯,©,×7Ñ7Ü!<¸^Ó!LØ!Ð!ð
 @OÑ?Z˜?×9Ñ9Ô;Ð`aÐØCRÑC^ ×!?Ò!?ÐdiÐð ;‰;×+Ñ+¨vÓ5Ö>TÖ]nÜ%×>Ò>ØØ*Ø'7Ø ŸM™M÷	ð à×"Ñ"ˆØ&×,Ñ,¨QÑ/ˆÞ!Ø+×?Ñ?ÓA‰Mô ˜n¬e¯l©l×;Ñ;ð ×$Ñ$ RÒ(à%Ñ7¸!Ñ;ð ð ×PÑPØØ+Ø'ØØ)Ø#×)Ñ)¨!Ñ,ð Qð 
ˆð K‰K×,Ñ,°Ó6ØÑ*Ø×%Ñ%×*Ñ*Ð.DÓDÞ%ô
 Ÿš EÓ*×.Ñ.ˆIÜ0×CÒCÀKÓ[ˆKàÐr2   r’  r“  rd   r”  c                 ó¶  • U b  U R                  5       S:X  a  U nU$ [        R                  " U5      R                  n[        R                  " X4XƒUR
                  S9nUS:w  a  [        R                  " USS9nU[        R                  " X$R
                  S9UR                  SS5      :„  -  nUSSSS2SS24   R                  USSS5      nU b‹  UR                  5       nU R                  S   n	USS2SS2SS2SU	24   U SS2SSSS24   R                  UR
                  5      -   n
U
S:H  n
USS2SS2SS2SU	24   R                  X¨5      USS2SS2SS2SU	24'   U$ )	a½  
Creates a causal 4D mask of shape `(batch_size, 1, query_length, key_value_length)` from a 2D mask of shape
`(batch_size, key_value_length)`, or if the input `attention_mask` is already 4D, do nothing.

Args:
    attention_mask (`torch.Tensor`):
        A 2D attention mask of shape `(batch_size, key_value_length)` or a 4D attention mask of shape
        `(batch_size, 1, query_length, key_value_length)`.
    sequence_length (`int`):
        The sequence length being processed.
    target_length (`int`):
        The target length: when generating with static cache, the mask should be as long as the static cache,
        to account for the 0 padding, the part of the cache that is not filled yet.
    dtype (`torch.dtype`):
        The dtype to use for the 4D attention mask.
    cache_position (`torch.Tensor`):
        Indices depicting the position of the input sequence tokens in the sequence.
    batch_size (`torch.Tensor`):
        Batch size.
Né   )Ú
fill_valuerd   r“   r   )Údiagonalrx  rN   r   )rP   r,   r  rž  Úfullr“   Útriur‚  r¸   rÖ   Úclonero   re   Úmasked_fill)rà   r’  r“  rd   r  r”  rì   rð   r¡  Úmask_lengthÚpadding_masks              r3   rœ  ÚKGraniteMoeSharedModel._prepare_4d_causal_attention_mask_with_cache_position  s}  € ð< Ñ%¨.×*<Ñ*<Ó*>À!Ó*Cà(ˆKð* Ðô' Ÿš EÓ*×.Ñ.ˆIÜŸ*š*Ø Ð0¸YÐ\j×\qÑ\qñˆKð  !Ó#Ü#Ÿjšj¨¸qÑAØœ5Ÿ<š<¨×>SÑ>SÑTÐWe×WmÑWmÐnpÐrsÓWtÑtÑtˆKØ% d¨D²!²QÐ&6Ñ7×>Ñ>¸zÈ1ÈbÐRTÓUˆKØÑ)Ø)×/Ñ/Ó1Ø,×2Ñ2°2Ñ6Ø*ª1ªa²°L°[°LÐ+@ÑAÀNÒSTÐVZÐ\`ÒbcÐScÑDd×DgÑDgØ×&Ñ&óEñ  ð  ,¨qÑ0Ø5@ÂÂAÂqÈ,È;È,ÐAVÑ5W×5cÑ5cØ ó6šAšq¢! \ k \Ð1Ñ2ð Ðr2   )rg  rm  rl  rÚ   r?   rj  rJ  rk  rû   rd  ro  rn  rp  re  )NNNNNNNNNNN)F)r'   r(   r)   r*   r   r>   r   r   r,   r-   rU   r   r
   Úlistr*  r  rn   r   rS   rƒ  Ústaticmethodr/   rd   rœ  r1   rV   rW   s   @r3   r`  r`  E  sé  ø† ðÐ5÷ ð2 ð 15Ø15Ø37ØKOØ59Ø$(Ø,0Ø/3Ø/3Ø&*Ø59ñl
à˜E×,Ñ,Ñ-ðl
ð ! §¡Ñ.ðl
ð ˜u×/Ñ/Ñ0ð	l
ð
 " %¨¨t°E×4EÑ4EÑ/FÐ(FÑ"GÑHðl
ð   × 1Ñ 1Ñ2ðl
ð ˜D‘>ðl
ð $ D™>ðl
ð ' t™nðl
ð ' t™nðl
ð ˜d‘^ðl
ð ! ×!1Ñ!1Ñ2ðl
ð 
ˆuÐ-Ð-Ñ	.ôl
ó ðl
ðh #(ñBà˜eŸl™l¨KÐ7Ñ8ðBð —l‘lðBð Ÿ™ð	Bð
 ðBð  õBðH ð4ØŸ™ð4àð4ð ð4ð {‰{ð	4ð
 Ÿ™ð4ð ó4ó ö4r2   r`  Úgate_logitsrv   c                 ód  • U b  [        U [        5      (       d  g[        U [        5      (       aB  U S   R                  n[        R                  " U  Vs/ sH  oUR                  U5      PM     snSS9n[        R                  R                  R                  WSS9n[        R                  " XrSS9u  p‰[        R                  R                  R                  X‘5      n
Uc:  [        R                  " U
R                  5       SS9n[        R                  " USS9nGO"UR                  u  pÞUR                  S   XÞ-  -  nUSSS2SS2SS4   R                  XýXâU45      R                  SX!5      R                  W5      n[        R                   " U
R                  5       U-  SS9[        R                   " USS9-  nUSSS2SS2S4   R                  XýXçR                  S   45      R                  SUR                  S   5      R                  U5      n[        R                   " UU-  SS9[        R                   " USS9-  nUR                  S   [#        UR                  R$                  5      -  n[        R                   " USS2UUUR                  S   -   24   UR'                  S5      -  5      nUU-  $ s  snf )ax  
Computes auxiliary load balancing loss as in Switch Transformer - implemented in Pytorch.

See Switch Transformer (https://huggingface.co/papers/2101.03961) for more details. This function implements the loss
function presented in equations (4) - (6) of the paper. It aims at penalizing cases where the routing between
experts is too unbalanced.

Args:
    gate_logits:
        Logits from the `gate`, should be a tuple of model.config.num_hidden_layers tensors of
        shape [batch_size X sequence_length, num_experts].
    num_experts:
        Number of experts
    top_k:
        The number of experts to route per-token, can be also interpreted as the `top-k` routing
        parameter.
    attention_mask (`torch.Tensor`, *optional*):
        The attention_mask used in forward function
        shape [batch_size X sequence_length] if not None.

Returns:
    The auxiliary loss.
Nr   rO   rN   r   )r2  rn   r“   r,   r   re   r   rê   r˜   r—   Úone_hotrh   r–   ro   rÖ   r¸   rž   r/   ÚindexrÊ   )r°  rv   r   rà   Úcompute_deviceÚ
layer_gateÚconcatenated_gate_logitsÚrouting_weightsr©   Úselected_expertsÚexpert_maskÚtokens_per_expertÚrouter_prob_per_expertr”  r’  ri  Úexpert_attention_maskÚ router_per_expert_attention_maskÚrankÚoverall_losss                       r3   Úload_balancing_loss_funcrÀ  K  sŽ  € ð: Ñ¤*¨[¼%×"@Ñ"@Øä+œu×%Ñ%Ø$ Q™×.Ñ.ˆÜ#(§9¢9Ñ^iÓ-jÑ^iÐPZ¯m©m¸NÖ.KÑ^iÑ-jÐpqÑ#rÐ ä—h‘h×)Ñ)×1Ñ1Ð2JÐPRÐ1ÐS€OäŸ*š* _ÀÑDÑ€Aä—(‘(×%Ñ%×-Ñ-Ð.>ÓL€KàÑä!ŸJšJ {×'8Ñ'8Ó':ÀÑBÐô "'§¢¨OÀÑ!CÒà&4×&:Ñ&:Ñ#ˆ
Ø4×:Ñ:¸1Ñ=À*ÑB^Ñ_Ðð ˜4¢¢A t¨TÐ1Ñ2ß‰VÐ&°OÈKÐXÓYß‰WR˜Ó,ß‰RÓð	 	ô "ŸIšI k×&7Ñ&7Ó&9Ð<QÑ&QÐWXÑYÔ\a×\eÒ\eØ! qñ]
ñ 
Ðð ˜4¢¢A tÐ+Ñ,ß‰VÐ&°O×EZÑEZÐ[\ÑE]Ð^Ó_ß‰WR˜×.Ñ.¨qÑ1Ó2ß‰RÓð	 	)ô "'§¢¨?Ð=]Ñ+]ÐcdÑ!eÔhm×hqÒhqØ,°!ñi
ñ "
Ðð × Ñ  Ñ#¤c¨/×*@Ñ*@×*FÑ*FÓ&GÑG€DÜ—9’9Øš!˜T D¨?×+@Ñ+@ÀÑ+CÑ$CÐCÐCÑDÐG]×GgÑGgÐhiÓGjÑjó€Lð ˜+Ñ%Ð%ùòa .ks   ÁJ-c                    ó¸  ^ • \ rS rSrS/rS\4U 4S jjrS rS r\	             SS\
\R                     S\
\R                     S	\
\R                     S
\
\\\\R"                     4      S\
\R"                     S\
\R                     S\
\   S\
\   S\
\   S\
\   S\
\   S\
\R                     S\\\R                  4   S\\\4   4S jj5       rSrU =r$ )ÚGraniteMoeSharedForCausalLMi   zlm_head.weightr8   c                 óJ  >• [         TU ]  U5        [        U5      U l        UR                  U l        [
        R                  " UR                  UR                  SS9U l        UR                  U l	        UR                  U l        UR                  U l        U R                  5         g )NFr;   )r=   r>   r`  r-  re  r   rD   r?   Úlm_headÚrouter_aux_loss_coefr³   rv   r´   rq  rG   s     €r3   r>   Ú$GraniteMoeSharedForCausalLM.__init__£  s   ø€ Ü‰Ñ˜Ô Ü*¨6Ó2ˆŒ
Ø ×+Ñ+ˆŒÜ—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒà$*×$?Ñ$?ˆÔ!Ø!×3Ñ3ˆÔØ#)×#=Ñ#=ˆÔ ð 	‰Õr2   c                 ó   • Xl         g r  ©r-  )rH   Údecoders     r3   Úset_decoderÚ'GraniteMoeSharedForCausalLM.set_decoder°  s   € Ø
r2   c                 ó   • U R                   $ r  rÈ  rp   s    r3   Úget_decoderÚ'GraniteMoeSharedForCausalLM.get_decoder³  s   € Øz‰zÐr2   rs  rà   rÏ   r.  rt  Úlabelsr  r"  ru  r#  rv  r  Úlogits_to_keeprL   c                 óê  • Ub  UOU R                   R                  nU
b  U
OU R                   R                  n
U	b  U	OU R                   R                  n	Ub  UOU R                   R                  nU R
                  " SUUUUUUUU	U
UUS.UD6nUS   n[        U[        5      (       a  [        U* S5      OUnU R                  USS2USS24   5      nUU R                   R                  -  nSnUb:  UR                  5       nU R                  " UU4SU R                   R                  0UD6nSnU
(       af  [        U(       a  UR                  OUS   U R                   U R"                  U5      nUb+  UU R$                  UR'                  UR(                  5      -  -  nU(       d!  U4USS -   nU
(       a  U4U-   nUb  U4U-   $ U$ [+        UUUUR,                  UR.                  UR0                  UR                  S9$ )	aø  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>>> from transformers import AutoTokenizer, GraniteMoeSharedForCausalLM

>>> model = GraniteMoeSharedForCausalLM.from_pretrained("ibm/PowerMoE-3b")
>>> tokenizer = AutoTokenizer.from_pretrained("ibm/PowerMoE-3b")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
```N)rs  rà   rÏ   r.  rt  r  r"  ru  r#  rv  r  r   re  rN   r   )ÚlossÚaux_lossr£   r.  rK   r  r¿   r&   )r8   r"  r#  ru  r€  r-  r2  r/   ÚslicerÄ  Úlogits_scalingr–   Úloss_functionre  rÀ  r¿   rv   r´   rÅ  re   r“   r   r.  rK   r  )rH   rs  rà   rÏ   r.  rt  rÏ  r  r"  ru  r#  rv  r  rÐ  rì   r(  rK   Úslice_indicesr£   rÒ  rÓ  Úoutputs                         r3   rS   Ú#GraniteMoeSharedForCausalLM.forward¶  s)  € ðP 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*’*ð 
ØØ)Ø%Ø+Ø'ØØ/Ø!5Ø!5Ø#Ø)ñ
ð ñ
ˆð    ™
ˆÜ8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆØ˜$Ÿ+™+×4Ñ4Ñ4ˆàˆØÑà—\‘\“^ˆFà×%Ò%ØØñð  Ÿ;™;×1Ñ1ðð ñ	ˆDð ˆÞÜ/Þ)4×%Ò%¸'À"¹+Ø× Ñ Ø×(Ñ(Øó	ˆHð Ñ!Ø˜×1Ñ1°H·K±KÀÇÁÓ4LÑLÑLæØY ¨¨ Ñ,ˆFÞ#Ø"˜ vÑ-Ø'+Ñ'7D7˜VÑ#ÐC¸VÐCä(ØØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø!×/Ñ/ñ
ð 	
r2   )rÄ  r-  rv   r´   rÅ  re  )NNNNNNNNNNNNr   )r'   r(   r)   r*   Ú_tied_weights_keysr   r>   rÊ  rÍ  r   r   r,   r-   rU   r   r
   r®  r*  r  r/   rn   r   rS   r1   rV   rW   s   @r3   rÂ  rÂ     s  ø† Ø*Ð+ÐðÐ5÷ òòð ð 15Ø15Ø37ØKOØ59Ø-1Ø$(Ø,0Ø/3Ø/3Ø&*Ø59Ø34ñk
à˜E×,Ñ,Ñ-ðk
ð ! §¡Ñ.ðk
ð ˜u×/Ñ/Ñ0ð	k
ð
 " %¨¨t°E×4EÑ4EÑ/FÐ(FÑ"GÑHðk
ð   × 1Ñ 1Ñ2ðk
ð ˜×)Ñ)Ñ*ðk
ð ˜D‘>ðk
ð $ D™>ðk
ð ' t™nðk
ð ' t™nðk
ð ˜d‘^ðk
ð ! ×!1Ñ!1Ñ2ðk
ð ˜c 5§<¡<Ð/Ñ0ðk
ð  
ˆuÐ/Ð/Ñ	0ô!k
ó ök
r2   rÂ  )rÂ  r`  r,  )Nr   )r  )Nr:   N)EÚtypingr   r   r   r   r,   Útorch.nn.functionalr   rê   r   Úactivationsr	   Úcache_utilsr
   r   Ú
generationr   Úmodeling_attn_mask_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   Úmodeling_rope_utilsr   r   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   Úconfiguration_granitemoesharedr   Ú!torch.nn.attention.flex_attentionr   Úintegrations.flex_attentionr   Ú
get_loggerr'   r÷   r   ÚModuler6   rY   rt   r‹   r¯   rÈ   rÓ   rU   r/   rÛ   r–   rò   rô   r  r,  r?  r`  rn   rÀ  rÂ  Ú__all__r&   r2   r3   Ú<module>rí     sW  ð÷, 8Ó 7ã ß Ð Ý å !ß .Ý )Ý >Ý 9ß jÑ jß Kß FÝ &ß JÑ JÝ Bñ  ×!Ñ!Ý;åJð 
×	Ò	˜HÓ	%€ô )°5ò ô2˜"Ÿ)™)ô ô4J˜bŸi™iô Jô(* b§i¡iô *ôZ-S §¡ô -Sô`9+˜"Ÿ)™)ô 9+òx(ôð6	U˜UŸ\™\ð 	U°#ð 	U¸%¿,¹,ô 	Uð& ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô:S) §	¡	ô S)ôl[Ð#=ô [ð| ôT oó Tó ðTô"< b§i¡iô <ðD ôBÐ;ó Bó ðBðN "&Ø
Ø-1ñ	R&Øu—|‘| U¨5¯<©<Ñ%8¸$Ð>Ñ?ðR&à˜#‘ðR&ð ˜UŸ\™\Ñ*ð	R&ð
 ˆ5<‰<˜ÐÑõR&ôjB
Ð"AÀ?ô B
òJ fr2   