ó
    <±h.  ã                   ó:  • S SK JrJr  S SKrS SKrS SKJr  SSKJrJr  SSK	J
r
  SSKJrJr  SSKJr  SS	KJrJr  S
SKJrJrJrJrJr  SSKJr  \R6                  " \5      r " S S\5      r " S S\5      r " S S\5      r  " S S\5      r! " S S\5      r"/ SQr#g)é    )ÚOptionalÚUnionN)Únné   )ÚCacheÚDynamicCache)Úcreate_causal_mask)ÚBaseModelOutputWithPastÚCausalLMOutputWithPast)ÚUnpack)ÚTransformersKwargsÚloggingé   )ÚLlamaAttentionÚLlamaDecoderLayerÚLlamaForCausalLMÚ
LlamaModelÚLlamaPreTrainedModelé   )ÚGraniteConfigc                   óB   ^ • \ rS rSrSrSS\S\\   4U 4S jjjrSr	U =r
$ )ÚGraniteAttentioné(   z=Multi-headed attention from 'Attention Is All You Need' paperÚconfigÚ	layer_idxc                 óF   >• [         TU ]  X5        UR                  U l        g ©N)ÚsuperÚ__init__Úattention_multiplierÚscaling©Úselfr   r   Ú	__class__s      €Úc/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/granite/modular_granite.pyr   ÚGraniteAttention.__init__+   s   ø€ Ü‰Ñ˜Ô+Ø×2Ñ2ˆó    )r!   r   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   r   Úintr   Ú__static_attributes__Ú__classcell__©r$   s   @r%   r   r   (   s"   ø† ÙGñ3˜}ð 3¸À#¹÷ 3ö 3r'   r   c                   óv  ^ • \ rS rSrS\S\4U 4S jjr       SS\R                  S\	\R                     S\	\R                     S\	\   S	\	\   S
\	\   S\	\R                     S\	\\R                  \R                  4      S\\R                  \	\\R                  \R                  4      4   4S jjrSrU =r$ )ÚGraniteDecoderLayeré0   r   r   c                 ób   >• [         TU ]  X5        UR                  U l        [        XS9U l        g )N)r   r   )r   r   Úresidual_multiplierr   Ú	self_attnr"   s      €r%   r   ÚGraniteDecoderLayer.__init__1   s*   ø€ Ü‰Ñ˜Ô+Ø#)×#=Ñ#=ˆÔ Ü)°ÑMˆr'   Úhidden_statesÚattention_maskÚposition_idsÚpast_key_valueÚoutput_attentionsÚ	use_cacheÚcache_positionÚposition_embeddingsÚreturnc	                 ó  • Un
U R                  U5      nU R                  " SUUUUUUUUS.U	D6u  pX¡U R                  -  -   nUn
U R                  U5      nU R	                  U5      nX¡U R                  -  -   nU4nU(       a  XË4-  nU$ )a†  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`, *optional*):
        attention mask of size `(batch_size, sequence_length)` if flash attention is used or `(batch_size, 1,
        query_sequence_length, key_sequence_length)` if default attention is used.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence
    position_embeddings (`tuple[torch.FloatTensor, torch.FloatTensor]`, *optional*):
        Tuple containing the cosine and sine positional embeddings of shape `(batch_size, seq_len, head_dim)`,
        with `head_dim` being the embedding dimension of each attention head.
    kwargs (`dict`, *optional*):
        Arbitrary kwargs to be ignored, used for FSDP and other methods that injects code
        into the model
)r8   r9   r:   r;   r<   r=   r>   r?   © )Úinput_layernormr6   r5   Úpost_attention_layernormÚmlp)r#   r8   r9   r:   r;   r<   r=   r>   r?   ÚkwargsÚresidualÚself_attn_weightsÚoutputss                r%   ÚforwardÚGraniteDecoderLayer.forward6   s¼   € ðD !ˆà×,Ñ,¨]Ó;ˆð ,0¯>ª>ð 
,
Ø'Ø)Ø%Ø)Ø/ØØ)Ø 3ñ
,
ð ñ
,
Ñ(ˆð !°4×3KÑ3KÑ#KÑKˆð !ˆØ×5Ñ5°mÓDˆØŸ™ Ó/ˆØ °4×3KÑ3KÑ#KÑKˆà Ð"ˆæØÐ+Ñ+ˆGàˆr'   )r5   r6   )NNNFFNN)r(   r)   r*   r+   r   r-   r   ÚtorchÚTensorr   Ú
LongTensorr   ÚboolÚtupleÚFloatTensorrJ   r.   r/   r0   s   @r%   r2   r2   0   s  ø† ðN˜}ð N¸÷ Nð 26Ø37Ø*.Ø,1Ø$)Ø59ØKOñ?à—|‘|ð?ð ! §¡Ñ.ð?ð ˜u×/Ñ/Ñ0ð	?ð
 ! ™ð?ð $ D™>ð?ð ˜D‘>ð?ð ! ×!1Ñ!1Ñ2ð?ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð?ð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷?ó ?r'   r2   c                   ó   • \ rS rSrSrg)ÚGranitePreTrainedModeléx   rB   N)r(   r)   r*   r+   r.   rB   r'   r%   rS   rS   x   s   † Úr'   rS   c                   ó  ^ • \ rS rSrS\4U 4S jjr         SS\\R                     S\\R                     S\\R                     S\\
   S\\R                     S	\\   S
\\   S\\   S\\R                     S\\   S\4S jjrSrU =r$ )ÚGraniteModelé|   r   c           	      óÞ   >• [         TU ]  U5        UR                  U l        [        R                  " [        UR                  5       Vs/ sH  n[        X5      PM     sn5      U l        g s  snf r   )	r   r   Úembedding_multiplierr   Ú
ModuleListÚrangeÚnum_hidden_layersr2   Úlayersr"   s      €r%   r   ÚGraniteModel.__init__}   sV   ø€ Ü‰Ñ˜Ô Ø$*×$?Ñ$?ˆÔ!Ü—m’mÜEJÈ6×KcÑKcÔEdÓeÑEd¸	Ô  Ö3ÑEdÑeó
ˆùÚes   Á	A*Ú	input_idsr9   r:   Úpast_key_valuesÚinputs_embedsr=   r<   Úoutput_hidden_statesr>   rF   r@   c
                 ó  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUS L US L-  (       a  [	        S5      eU R
                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnUc  U R                  U5      nXPR                  -  nU(       a  Uc
  [        5       nU	cD  Ub  UR                  5       OSn[        R                  " X»UR                  S   -   UR                   S9n	Uc  U	R#                  S5      n[%        U R                   UUU	UUS9nUnU R'                  XÓ5      nU(       a  SOS nU(       a  SOS nU R(                  S U R                   R*                    H7  nU(       a  Xý4-  nU" U4UUUUUU	US	.U
D6nUS   nU(       d  M.  UUS   4-  nM9     U R-                  U5      nU(       a  Xý4-  n[/        UU(       a  UOS UUS
9$ )Nz:You must specify exactly one of input_ids or inputs_embedszX`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.Fr   r   )Údevice)r   Úinput_embedsr9   r>   r`   r:   rB   )r9   r:   r;   r<   r=   r>   r?   )Úlast_hidden_stater`   r8   Ú
attentions)r   r<   rb   r=   Ú
ValueErrorÚgradient_checkpointingÚtrainingÚloggerÚwarning_onceÚembed_tokensrY   r   Úget_seq_lengthrL   ÚarangeÚshaperd   Ú	unsqueezer	   Ú
rotary_embr]   r\   Únormr
   )r#   r_   r9   r:   r`   ra   r=   r<   rb   r>   rF   Úpast_seen_tokensÚcausal_maskr8   r?   Úall_hidden_statesÚall_self_attnsÚdecoder_layerÚlayer_outputss                      r%   rJ   ÚGraniteModel.forward„   s;  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	à˜Ð -°tÐ";×<ÜÐYÓZÐZà×&×&¨4¯=¯=¾YÜ×ÑØjôð ˆIàÑ Ø ×-Ñ-¨iÓ8ˆMà%×(AÑ(AÑAˆæ˜Ñ0Ü*›nˆOàÑ!ØCRÑC^˜×=Ñ=Ô?ÐdeÐÜ"Ÿ\š\Ø °]×5HÑ5HÈÑ5KÑ"KÐTa×ThÑThñˆNð ÑØ)×3Ñ3°AÓ6ˆLä(Ø—;‘;Ø&Ø)Ø)Ø+Ø%ñ
ˆð &ˆð #Ÿo™o¨mÓJÐö #7™B¸DÐÞ0™°dˆà!Ÿ[™[Ð)H¨4¯;©;×+HÑ+HÓIˆMÞ#Ø!Ð%5Ñ5Ð!á)Øð
à*Ø)Ø.Ø"3Ø#Ø-Ø$7ñ
ð ñ
ˆMð *¨!Ñ,ˆMç Ð Ø =°Ñ#3Ð"5Ñ5’ñ' Jð* Ÿ	™	 -Ó0ˆö  ØÐ!1Ñ1Ðä&Ø+Þ/8™O¸dØ+Ø%ñ	
ð 	
r'   )rY   r]   )	NNNNNNNNN)r(   r)   r*   r+   r   r   r   rL   rN   rM   r   rQ   rO   r   r   r
   rJ   r.   r/   r0   s   @r%   rV   rV   |   sú   ø† ð
˜}÷ 
ð 15Ø15Ø37Ø+/Ø59Ø$(Ø,0Ø/3Ø59ñ_
à˜E×,Ñ,Ñ-ð_
ð ! §¡Ñ.ð_
ð ˜u×/Ñ/Ñ0ð	_
ð
 " %™ð_
ð   × 1Ñ 1Ñ2ð_
ð ˜D‘>ð_
ð $ D™>ð_
ð ' t™nð_
ð ! ×!1Ñ!1Ñ2ð_
ð Ð+Ñ,ð_
ð 
!÷_
ó _
r'   rV   c                   óh  • \ rS rSr           SS\\R                     S\\R                     S\\R                     S\\\	\
\R                     4      S\\R                     S\\R                     S	\\   S
\\   S\\   S\\R                     S\\\R                  4   S\\   S\4S jjrSrg)ÚGraniteForCausalLMéæ   Nr_   r9   r:   r`   ra   Úlabelsr=   r<   rb   r>   Úlogits_to_keeprF   r@   c                 ó   • Ub  UOU R                   R                  nU	b  U	OU R                   R                  n	U R                  " SUUUUUUUU	U
S.	UD6nUR                  n[        U[        5      (       a  [        U* S 5      OUnU R                  US S 2US S 24   5      nUU R                   R                  -  nS nUb)  U R                  " SUX`R                   R                  S.UD6n[        UUUR                  UR                  UR                  S9$ )N)	r_   r9   r:   r`   ra   r=   r<   rb   r>   )Úlogitsr~   Ú
vocab_size)Úlossr   r`   r8   rg   rB   )r   r<   rb   Úmodelrf   Ú
isinstancer-   ÚsliceÚlm_headÚlogits_scalingÚloss_functionr‚   r   r`   r8   rg   )r#   r_   r9   r:   r`   ra   r~   r=   r<   rb   r>   r   rF   rI   r8   Úslice_indicesr   rƒ   s                     r%   rJ   ÚGraniteForCausalLM.forwardç   s+  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð
 ,0¯:ª:ð ,
ØØ)Ø%Ø+Ø'ØØ/Ø!5Ø)ñ,
ð ñ,
ˆð  ×1Ñ1ˆä8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆØ˜$Ÿ+™+×4Ñ4Ñ4ˆàˆØÑØ×%Ò%Ðp¨V¸FÏ{É{×OeÑOeÑpÐioÑpˆDä%ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r'   rB   )NNNNNNNNNNr   )r(   r)   r*   r+   r   rL   rN   rM   r   r   ÚlistrQ   rO   r-   r   r   r   rJ   r.   rB   r'   r%   r|   r|   æ   s)  † ð 15Ø15Ø37ØKOØ59Ø-1Ø$(Ø,0Ø/3Ø59Ø34ñ2
à˜E×,Ñ,Ñ-ð2
ð ! §¡Ñ.ð2
ð ˜u×/Ñ/Ñ0ð	2
ð
 " %¨¨t°E×4EÑ4EÑ/FÐ(FÑ"GÑHð2
ð   × 1Ñ 1Ñ2ð2
ð ˜×)Ñ)Ñ*ð2
ð ˜D‘>ð2
ð $ D™>ð2
ð ' t™nð2
ð ! ×!1Ñ!1Ñ2ð2
ð ˜c 5§<¡<Ð/Ñ0ð2
ð Ð+Ñ,ð2
ð 
 ÷2
ð 2
r'   r|   )r|   rV   rS   )$Útypingr   r   rL   Útorch.utils.checkpointr   Úcache_utilsr   r   Úmasking_utilsr	   Úmodeling_outputsr
   r   Úprocessing_utilsr   Úutilsr   r   Úllama.modeling_llamar   r   r   r   r   Úconfiguration_graniter   Ú
get_loggerr(   rk   r   r2   rS   rV   r|   Ú__all__rB   r'   r%   Ú<module>r˜      s‘   ð÷  #ã Û Ý ç .Ý /ß OÝ &ß 0÷õ õ 1ð 
×	Ò	˜HÓ	%€ô3~ô 3ôEÐ+ô EôP	Ð1ô 	ôg
:ô g
ôT3
Ð)ô 3
òl Kr'   