ó
    <±h(  ã                   ó>  • S SK JrJr  S SKrS SKJr  SSKJr  SSKJr  SSK	J
r
  SSKJr  S	S
KJrJrJrJr  SSKJr  \R(                  " \5      r " S S\SS9r " S S\R0                  5      r " S S\5      r " S S\5      r " S S\5      r " S S\5      r/ SQrg)é    )ÚOptionalÚ	TypedDictN)Únné   )ÚACT2FN)ÚCache)ÚUnpack)Úloggingé   )ÚGraniteMoeDecoderLayerÚGraniteMoeForCausalLMÚGraniteMoeModelÚGraniteMoePreTrainedModelé   )ÚGraniteMoeSharedConfigc                   óˆ   • \ rS rSr% Sr\R                  \S'   \R                  \S'   \\S'   \\S'   \R                  \S'   Sr
g	)
ÚGraniteFlashAttentionKwargsé%   aR  
Keyword arguments for advanced Flash Attention, causal-conv1d, and mamba_ssm kernel usage.
Use cases include padding-free training and fewer `torch.compile` graph breaks.

Attributes:
    cu_seq_lens_q (`torch.LongTensor`)
        Gets cumulative sequence length for query state.
    cu_seq_lens_k (`torch.LongTensor`)
        Gets cumulative sequence length for key state.
    max_length_q (`int`):
        Maximum sequence length for query state.
    max_length_k (`int`):
        Maximum sequence length for key state.
    seq_idx (`torch.IntTensor):
        Index of each packed sequence.
Úcu_seq_lens_qÚcu_seq_lens_kÚmax_length_qÚmax_length_kÚseq_idx© N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__ÚtorchÚ
LongTensorÚ__annotations__ÚintÚ	IntTensorÚ__static_attributes__r   ó    Úu/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/granitemoeshared/modular_granitemoeshared.pyr   r   %   s7   ‡ ñð" ×#Ñ#Ó#Ø×#Ñ#Ó#ØÓØÓØ_‰_Ör&   r   F)Útotalc                   ón   ^ • \ rS rSrSrS\4U 4S jjrS\R                  S\R                  4S jr	Sr
U =r$ )	ÚGraniteMoeSharedMLPé>   zj
MLP layer for shared experts

Args:
    config:
        Configuration object with model hyperparameters.
Úconfigc                 óX  >• [         TU ]  5         UR                  U l        UR                  U l        [
        UR                     U l        [        R                  " U R                  U R                  S-  SS9U l
        [        R                  " U R                  U R                  SS9U l        g )Nr   F)Úbias)ÚsuperÚ__init__Úhidden_sizeÚ
input_sizeÚshared_intermediate_sizer   Ú
hidden_actÚ
activationr   ÚLinearÚinput_linearÚoutput_linear©Úselfr,   Ú	__class__s     €r'   r0   ÚGraniteMoeSharedMLP.__init__G   s   ø€ Ü‰ÑÔà ×,Ñ,ˆŒØ!×:Ñ:ˆÔÜ  ×!2Ñ!2Ñ3ˆŒÜŸIšI d§o¡o°t×7GÑ7GÈ!Ñ7KÐRWÑXˆÔÜŸYšY t×'7Ñ'7¸¿¹ÈuÑUˆÕr&   Úhidden_statesÚreturnc                 óž   • U R                  U5      nUR                  SSS9nU R                  US   5      US   -  nU R                  U5      nU$ )Nr   éÿÿÿÿ)Údimr   r   )r7   Úchunkr5   r8   )r:   r=   Úchunked_hidden_statess      r'   ÚforwardÚGraniteMoeSharedMLP.forwardP   s^   € Ø×)Ñ)¨-Ó8ˆØ -× 3Ñ 3°A¸2Ð 3Ð >ÐØŸ™Ð(=¸aÑ(@ÓAÐDYÐZ[ÑD\Ñ\ˆØ×*Ñ*¨=Ó9ˆØÐr&   )r5   r1   r7   r2   r8   )r   r   r   r   r   r   r0   r    ÚTensorrD   r%   Ú__classcell__©r;   s   @r'   r*   r*   >   s7   ø† ñðVÐ5÷ Vð U§\¡\ð °e·l±l÷ ò r&   r*   c                   óŒ  ^ • \ rS rSrS\S\4U 4S jjr        SS\R                  S\	\R                     S\	\R                     S\	\   S	\	\   S
\	\   S\	\R                     S\	\   S\	\\R                  \R                  4      S\\   S\\R                   \	\\R                   \R                   4      4   4S jjrSrU =r$ )ÚGraniteMoeSharedDecoderLayeréX   r,   Ú	layer_idxc                 ót   >• [         TU ]  X5        UR                  S:X  a  S U l        g [        U5      U l        g )Nr   )r/   r0   r3   r*   Ú
shared_mlp©r:   r,   rL   r;   s      €r'   r0   Ú%GraniteMoeSharedDecoderLayer.__init__Y   s1   ø€ Ü‰Ñ˜Ô+Ø"(×"AÑ"AÀQÓ"F˜$ˆÔL_Ð`fÓLgˆr&   r=   Úattention_maskÚposition_idsÚpast_key_valueÚoutput_attentionsÚ	use_cacheÚcache_positionÚoutput_router_logitsÚposition_embeddingsÚkwargsr>   c
                 ót  • UnU R                  U5      nU R                  " SUUUUUUUU	S.U
D6u  pX±U R                  -  -   nUnU R                  U5      nU R	                  U5      u  pÞU R
                  c  UnOXÐR                  U5      -   nAX±U R                  -  -   nU4nU(       a  Xü4-  nU(       a  Xþ4-  nU$ )aƒ  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`, *optional*):
        attention mask of size `(batch_size, sequence_length)` if flash attention is used or `(batch_size, 1,
        query_sequence_length, key_sequence_length)` if default attention is used.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence
    output_router_logits (`bool`, *optional*):
        Whether or not to return the logits of all the routers. They are useful for computing the router loss, and
        should not be returned during inference.
    position_embeddings (`tuple[torch.FloatTensor, torch.FloatTensor]`, *optional*):
        Tuple containing the cosine and sine positional embeddings of shape `(batch_size, seq_len, head_dim)`,
        with `head_dim` being the embedding dimension of each attention head.
    kwargs (`dict`, *optional*):
        Arbitrary kwargs. Can be used to provide `GraniteFlashAttentionKwargs` for
        padding-free training and/or improve torch.compile performance.
)r=   rQ   rR   rS   rT   rU   rV   rX   r   )Úinput_layernormÚ	self_attnÚresidual_multiplierÚpost_attention_layernormÚblock_sparse_moerN   )r:   r=   rQ   rR   rS   rT   rU   rV   rW   rX   rY   ÚresidualÚself_attn_weightsÚmoe_hidden_statesÚrouter_logitsÚoutputss                   r'   rD   Ú$GraniteMoeSharedDecoderLayer.forward]   só   € ðL !ˆà×,Ñ,¨]Ó;ˆð ,0¯>ª>ð 
,
Ø'Ø)Ø%Ø)Ø/ØØ)Ø 3ñ
,
ð ñ
,
Ñ(ˆð !°4×3KÑ3KÑ#KÑKˆð !ˆØ×5Ñ5°mÓDˆØ+/×+@Ñ+@ÀÓ+OÑ(Ðà?‰?Ñ"Ø-‰Mà-·±ÀÓ0NÑNˆMàà °4×3KÑ3KÑ#KÑKˆà Ð"ˆæØÐ+Ñ+ˆGæØÐ'Ñ'ˆGàˆr&   )rN   )NNNFFNFN)r   r   r   r   r   r#   r0   r    rF   r   r!   r   ÚboolÚtupler	   r   ÚFloatTensorrD   r%   rG   rH   s   @r'   rJ   rJ   X   s2  ø† ðhÐ5ð hÀ#÷ hð 26Ø37Ø*.Ø,1Ø$)Ø59Ø/4ØKOñOà—|‘|ðOð ! §¡Ñ.ðOð ˜u×/Ñ/Ñ0ð	Oð
 ! ™ðOð $ D™>ðOð ˜D‘>ðOð ! ×!1Ñ!1Ñ2ðOð ' t™nðOð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHðOð Ð4Ñ5ðOð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷Oó Or&   rJ   c                   ó&   • \ rS rSr% \\S'   S/rSrg)ÚGraniteMoeSharedPreTrainedModelé¯   r,   rJ   r   N)r   r   r   r   r   r"   Ú_no_split_modulesr%   r   r&   r'   rj   rj   ¯   s   ‡ Ø"Ó"Ø7Ð8Ór&   rj   c                   ó0   ^ • \ rS rSrS\4U 4S jjrSrU =r$ )ÚGraniteMoeSharedModelé´   r,   c           	      ó¼   >• [         TU ]  U5        [        R                  " [	        UR
                  5       Vs/ sH  n[        X5      PM     sn5      U l        g s  snf ©N)r/   r0   r   Ú
ModuleListÚrangeÚnum_hidden_layersrJ   ÚlayersrO   s      €r'   r0   ÚGraniteMoeSharedModel.__init__µ   sI   ø€ Ü‰Ñ˜Ô Ü—m’mÜNSÐTZ×TlÑTlÔNmÓnÑNmÀÔ)¨&Ö<ÑNmÑnó
ˆùÚns   ¸A)ru   )r   r   r   r   r   r0   r%   rG   rH   s   @r'   rn   rn   ´   s   ø† ð
Ð5÷ 
õ 
r&   rn   c                   ó6   ^ • \ rS rSrS/rS\4U 4S jjrSrU =r$ )ÚGraniteMoeSharedForCausalLMé¼   zlm_head.weightr,   c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g rq   )r/   r0   rn   ÚmodelÚ	post_initr9   s     €r'   r0   Ú$GraniteMoeSharedForCausalLM.__init__¿   s&   ø€ Ü‰Ñ˜Ô Ü*¨6Ó2ˆŒ
à‰Õr&   )r{   )	r   r   r   r   Ú_tied_weights_keysr   r0   r%   rG   rH   s   @r'   rx   rx   ¼   s   ø† Ø*Ð+ÐðÐ5÷ õ r&   rx   )rx   rn   rj   )Útypingr   r   r    r   Úactivationsr   Úcache_utilsr   Úprocessing_utilsr	   Úutilsr
   Úgranitemoe.modeling_granitemoer   r   r   r   Úconfiguration_granitemoesharedr   Ú
get_loggerr   Úloggerr   ÚModuler*   rJ   rj   rn   rx   Ú__all__r   r&   r'   Ú<module>rŠ      sš   ð÷  'ã Ý å !Ý  Ý &Ý ÷ó õ Cð 
×	Ò	˜HÓ	%€ô )°5ò ô2˜"Ÿ)™)ô ô4TÐ#9ô Tôn9Ð&?ô 9ô

˜Oô 
ôÐ"7ô ò fr&   