ó
    <±h?„  ã                   ó
  • S r SSKJrJrJr  SSKrSSKrSSKJr  SSKJ	r	  SSK
JrJr  SSKJr  SS	KJr  SS
KJr  SSKJrJrJr  SSKJrJr  SSKJrJr  SSKJrJr  SSK J!r!  SSK"J#r#J$r$J%r%J&r&  SSK'J(r(  \%" 5       (       a  SSK)J*r*  SSK+J,r,  \&RZ                  " \.5      r/ " S S\R`                  5      r1S r2S2S jr3 " S S\R`                  5      r4 S3S\R`                  S\Rj                  S\Rj                  S\Rj                  S\\Rj                     S \6S!\64S" jjr7 " S# S$\R`                  5      r8 " S% S&\5      r9\# " S' S(\5      5       r:\# " S) S*\:5      5       r; " S+ S,\:\5      r< " S- S.\\:5      r= " S/ S0\\:5      r>/ S1Qr?g)4zPyTorch Persimmon model.é    )ÚCallableÚOptionalÚUnionN)Únné   )ÚACT2FN)ÚCacheÚDynamicCache)ÚGenerationMixin)ÚAttentionMaskConverter)ÚFlashAttentionKwargs)Ú GenericForSequenceClassificationÚGenericForTokenClassificationÚGradientCheckpointingLayer)ÚBaseModelOutputWithPastÚCausalLMOutputWithPast)ÚROPE_INIT_FUNCTIONSÚdynamic_rope_update)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)Úauto_docstringÚcan_return_tupleÚis_torch_flex_attn_availableÚloggingé   )ÚPersimmonConfig)Ú	BlockMask)Úmake_flex_block_causal_maskc                   ól   ^ • \ rS rSrSS\4U 4S jjjr\R                  " 5       \S 5       5       r	Sr
U =r$ )ÚPersimmonRotaryEmbeddingé;   Úconfigc                 ó  >• [         TU ]  5         [        US5      (       aZ  [        UR                  [
        5      (       a;  UR                  R                  SUR                  R                  S5      5      U l        OSU l        UR                  U l	        UR                  U l
        Xl        [        U R                     U l        U R                  U R                  U5      u  o0l        U R                  SUSS9  U R                   U l        g )NÚrope_scalingÚ	rope_typeÚtypeÚdefaultÚinv_freqF)Ú
persistent)ÚsuperÚ__init__ÚhasattrÚ
isinstancer%   ÚdictÚgetr&   Úmax_position_embeddingsÚmax_seq_len_cachedÚoriginal_max_seq_lenr#   r   Úrope_init_fnÚattention_scalingÚregister_bufferr)   Úoriginal_inv_freq)Úselfr#   Údevicer)   Ú	__class__s       €Úh/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/persimmon/modeling_persimmon.pyr,   Ú!PersimmonRotaryEmbedding.__init__<   sÏ   ø€ Ü‰ÑÔä6˜>×*Ñ*¬z¸&×:MÑ:MÌt×/TÑ/TØ#×0Ñ0×4Ñ4°[À&×BUÑBU×BYÑBYÐZ`ÓBaÓbˆDNà&ˆDŒNØ"(×"@Ñ"@ˆÔØ$*×$BÑ$BˆÔ!àŒÜ/°·±Ñ?ˆÔà+/×+<Ñ+<¸T¿[¹[È&Ó+QÑ(ˆÔ(Ø×Ñ˜Z¨¸eÐÑDØ!%§¡ˆÕó    c                 ób  • U R                   S S S 2S 4   R                  5       R                  UR                  S   SS5      R	                  UR
                  5      nUS S 2S S S 24   R                  5       n[        UR
                  R                  [        5      (       a0  UR
                  R                  S:w  a  UR
                  R                  OSn[        R                  " USS9   UR                  5       UR                  5       -  R                  SS5      n[        R                  " Xf4SS	9nUR                  5       U R                  -  nUR                  5       U R                  -  n	S S S 5        WR	                  UR                   S
9W	R	                  UR                   S
94$ ! , (       d  f       N@= f)Nr   éÿÿÿÿr   ÚmpsÚcpuF)Údevice_typeÚenabledé   ©Údim)Údtype)r)   ÚfloatÚexpandÚshapeÚtor9   r.   r'   ÚstrÚtorchÚautocastÚ	transposeÚcatÚcosr5   ÚsinrG   )
r8   ÚxÚposition_idsÚinv_freq_expandedÚposition_ids_expandedrB   ÚfreqsÚembrQ   rR   s
             r;   ÚforwardÚ PersimmonRotaryEmbedding.forwardM   sR  € ð !ŸM™M¨$²°4¨-Ñ8×>Ñ>Ó@×GÑGÈ×HZÑHZÐ[\ÑH]Ð_aÐcdÓe×hÑhÐij×iqÑiqÓrÐØ ,ªQ°²a¨ZÑ 8× >Ñ >Ó @Ðä'1°!·(±(·-±-Ä×'EÑ'EÈ!Ï(É(Ï-É-Ð[`ÓJ`a—h‘h—m’mÐfkˆÜ^Š^¨¸UÓCØ&×,Ñ,Ó.Ð1F×1LÑ1LÓ1NÑN×YÑYÐZ[Ð]^Ó_ˆEÜ—)’)˜U˜N°Ñ3ˆCØ—'‘'“)˜d×4Ñ4Ñ4ˆCØ—'‘'“)˜d×4Ñ4Ñ4ˆC÷	 Dð v‰v˜AŸG™GˆvÐ$ c§f¡f°1·7±7 fÐ&;Ð;Ð;÷ DÕCús   Ã$BF Æ 
F.)r5   r#   r2   r7   r3   r4   r&   ©N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r   r,   rM   Úno_gradr   rY   Ú__static_attributes__Ú__classcell__©r:   s   @r;   r!   r!   ;   s6   ø† ñ/˜÷ /ð /ð" ‡]‚]ƒ_Øñ<ó ó ö<r=   r!   c                 ó–   • U SSU R                   S   S-  24   nU SU R                   S   S-  S24   n[        R                  " U* U4SS9$ )z*Rotates half the hidden dims of the input..Nr?   rD   rE   )rJ   rM   rP   )rS   Úx1Úx2s      r;   Úrotate_halfrg   ^   sZ   € à	
ˆ3Ð"!—'‘'˜"‘+ Ñ"Ð"Ð"Ñ	#€BØ	
ˆ3—‘˜‘˜qÑ Ñ"Ð"Ñ	#€BÜ9Š9rc˜2Y BÑ'Ð'r=   c                 ó˜   • UR                  U5      nUR                  U5      nX-  [        U 5      U-  -   nX-  [        U5      U-  -   nXg4$ )a—  Applies Rotary Position Embedding to the query and key tensors.

Args:
    q (`torch.Tensor`): The query tensor.
    k (`torch.Tensor`): The key tensor.
    cos (`torch.Tensor`): The cosine part of the rotary embedding.
    sin (`torch.Tensor`): The sine part of the rotary embedding.
    position_ids (`torch.Tensor`, *optional*):
        Deprecated and unused.
    unsqueeze_dim (`int`, *optional*, defaults to 1):
        The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
        sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
        that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
        k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
        cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
        the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
Returns:
    `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
)Ú	unsqueezerg   )ÚqÚkrQ   rR   rT   Úunsqueeze_dimÚq_embedÚk_embeds           r;   Úapply_rotary_pos_embro   f   sS   € ð( -‰-˜Ó
&€CØ
-‰-˜Ó
&€CØ‰wœ; q›>¨CÑ/Ñ0€GØ‰wœ; q›>¨CÑ/Ñ0€GØÐÐr=   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚPersimmonMLPé‚   c                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  5      U l        [        UR                     U l
        g r[   )r+   r,   r   ÚLinearÚhidden_sizeÚintermediate_sizeÚdense_h_to_4hÚdense_4h_to_hr   Ú
hidden_actÚact©r8   r#   r:   s     €r;   r,   ÚPersimmonMLP.__init__ƒ   s^   ø€ Ü‰ÑÔÜŸYšY v×'9Ñ'9¸6×;SÑ;SÓTˆÔÜŸYšY v×'?Ñ'?À×ASÑASÓTˆÔÜ˜&×+Ñ+Ñ,ˆr=   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ r[   )rw   rz   rx   )r8   Úhidden_statess     r;   rY   ÚPersimmonMLP.forward‰   s6   € Ø×*Ñ*¨=Ó9ˆØŸ™ Ó/ˆØ×*Ñ*¨=Ó9ˆØÐr=   )rz   rx   rw   )r\   r]   r^   r_   r,   rY   ra   rb   rc   s   @r;   rq   rq   ‚   s   ø† õ-÷ð r=   rq   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutc                 óì  • [         R                  " XR                  SS5      5      U-  nUb"  US S 2S S 2S S 2S UR                  S   24   n	X‰-   n[        R
                  R                  US[         R                  S9R                  UR                  5      n[        R
                  R                  X†U R                  S9n[         R                  " Xƒ5      n
U
R                  SS5      R                  5       n
X¨4$ )NrD   r   éþÿÿÿr?   )rF   rG   )ÚpÚtrainingr   )rM   ÚmatmulrO   rJ   r   Ú
functionalÚsoftmaxÚfloat32rK   rG   r†   rŠ   Ú
contiguous)r€   r   r‚   rƒ   r„   r…   r†   ÚkwargsÚattn_weightsÚcausal_maskÚattn_outputs              r;   Úeager_attention_forwardr”      sÏ   € ô —<’< §}¡}°Q¸Ó':Ó;¸gÑE€LØÑ!Ø$¢Qªª1¨o°·	±	¸"±¨oÐ%=Ñ>ˆØ#Ñ1ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r=   c                   óô  ^ • \ rS rSrSrSS\S\\   4U 4S jjjrS\	R                  S\\	R                  \	R                  \	R                  4   4S jr       SS	\	R                  S
\\	R                     S\\	R                     S\\   S\S\S\\	R                     S\\\	R                  \	R                  4      S\\   S\\	R                  \\	R                     \\\	R                        4   4S jjrSrU =r$ )ÚPersimmonAttentioné§   z=Multi-headed attention from 'Attention Is All You Need' paperr#   Ú	layer_idxc                 óä  >• [         TU ]  5         Xl        X l        Uc-  [        R                  SU R                  R                   S35        UR                  U l        UR                  U l
        U R                  U R                  -  U l        UR                  U l        [        U R                  UR                  -  5      U l        SU l        U R                  U R                  -  U R                  :w  a&  [#        SU R                   SU R                   S35      e[$        R&                  " U R                  SU R                  -  SS9U l        [$        R&                  " U R                  U R                  -  U R                  SS9U l        UR,                  U l        U R                  S	-  U l        U R,                  (       ax  [$        R0                  " UR                  U R                  -  UR2                  SS
9U l        [$        R0                  " UR                  U R                  -  UR2                  SS
9U l        [$        R8                  " UR:                  5      U l        [=        U R                  S9U l        g )NzInstantiating z¹ without passing a `layer_idx` is not recommended and will lead to errors during the forward call if caching is used. Please make sure to provide a `layer_idx` when creating this class.Tz?hidden_size must be divisible by num_heads (got `hidden_size`: z and `num_heads`: z).r   ©Úbiasg      à¿)ÚepsÚelementwise_affine©r#   ) r+   r,   r#   r˜   ÚloggerÚwarning_oncer:   r\   ru   Únum_attention_headsÚ	num_headsÚhead_dimÚ
rope_thetaÚintÚpartial_rotary_factorÚrotary_ndimsÚ	is_causalÚ
ValueErrorr   rt   Úquery_key_valueÚdenseÚqk_layernormr…   Ú	LayerNormÚlayer_norm_epsÚq_layernormÚk_layernormÚDropoutÚattention_dropoutr!   Ú
rotary_emb©r8   r#   r˜   r:   s      €r;   r,   ÚPersimmonAttention.__init__ª   sô  ø€ Ü‰ÑÔØŒØ"ŒØÑÜ×ÑØ  §¡×!8Ñ!8Ð 9ð :,ð ,ôð "×-Ñ-ˆÔØ×3Ñ3ˆŒØ×(Ñ(¨D¯N©NÑ:ˆŒØ ×+Ñ+ˆŒÜ §¡°×0LÑ0LÑ LÓMˆÔØˆŒàM‰M˜DŸN™NÑ*¨t×/?Ñ/?Ó?ÜØQÐRV×RbÑRbÐQcØ$ T§^¡^Ð$4°Bð8óð ô  "Ÿyšy¨×)9Ñ)9¸1¸t×?OÑ?OÑ;OÐVZÑ[ˆÔÜ—Y’Y˜tŸ~™~°·±Ñ=¸t×?OÑ?OÐVZÑ[ˆŒ
Ø"×/Ñ/ˆÔØ—}‘} dÑ*ˆŒà××Ü!Ÿ|š|Ø×"Ñ" d§n¡nÑ4¸&×:OÑ:OÐdhñ ˆDÔô  "Ÿ|š|Ø×"Ñ" d§n¡nÑ4¸&×:OÑ:OÐdhñ ˆDÔô "$§¢¨F×,DÑ,DÓ!EˆÔÜ2¸$¿+¹+ÑFˆr=   Ú	fused_qkvÚreturnc                 óª   • UR                   u  p#nUR                  X#U R                  SU R                  5      nUSSSS24   USSSS24   USSSS24   4$ )aŠ  
Split the last dimension into (num_heads, head_dim) without making any copies, results share same memory
storage as `fused_qkv`

Args:
    fused_qkv (`torch.tensor`): [batch_size, seq_length, num_heads * 3 * head_dim]

Returns:
    query: [batch_size, seq_length, num_heads, head_dim] key: [batch_size, seq_length, num_heads, head_dim]
    value: [batch_size, seq_length, num_heads, head_dim]
r   .r   Nr   rD   )rJ   Úviewr¢   r£   )r8   r¶   Ú
batch_sizeÚ
seq_lengthÚthree_times_hidden_sizes        r;   Ú_split_headsÚPersimmonAttention._split_headsÐ   s^   € ð ;D¿/¹/Ñ7ˆ
Ð 7Ø—N‘N :¸4¿>¹>È1ÈdÏmÉmÓ\ˆ	Ø˜˜a¢˜Ñ# Y¨s°A²q¨yÑ%9¸9ÀSÈ!ÊQÀYÑ;OÐOÐOr=   r~   r„   rT   Úpast_key_valueÚoutput_attentionsÚ	use_cacheÚcache_positionÚposition_embeddingsr   c	                 ó0  • UR                  5       u  p«nU R                  U5      nU R                  U5      u  pïnU R                  (       a"  U R	                  U5      nU R                  U5      nUR                  SS5      nUR                  SS5      nUR                  SS5      nUu  nnUSS U R                  24   USU R                  S 24   nnUSS U R                  24   USU R                  S 24   nn[        UUUU5      u  nn[        R                  " UU4SS9n[        R                  " UU4SS9nUb2  UUU R                  US.nUR                  UUU R                  U5      u  nn[        nU R                  R                  S:w  a  [         U R                  R                     nU" U UUUU4U R"                  (       d  SOU R                  R$                  U R&                  S	.U	D6u  nnUR)                  X«S5      nU R+                  U5      nU(       d  S nUU4$ )
Nr   rD   .r?   rE   )rR   rQ   Úpartial_rotation_sizerÂ   Úeagerç        )r†   r…   )Úsizerª   r½   r¬   r¯   r°   rO   r§   ro   rM   rP   Úupdater˜   r”   r#   Ú_attn_implementationr   rŠ   r²   r…   Úreshaper«   )r8   r~   r„   rT   r¿   rÀ   rÁ   rÂ   rÃ   r   ÚbszÚq_lenÚ_r¶   Úquery_statesÚ
key_statesÚvalue_statesrQ   rR   Ú	query_rotÚ
query_passÚkey_rotÚkey_passÚcache_kwargsÚattention_interfacer“   r‘   s                              r;   rY   ÚPersimmonAttention.forwardà   sO  € ð &×*Ñ*Ó,‰ˆAð ×(Ñ(¨Ó7ˆ	ð 48×3DÑ3DÀYÓ3OÑ0ˆ <à××Ø×+Ñ+¨LÓ9ˆLØ×)Ñ)¨*Ó5ˆJð $×-Ñ-¨a°Ó3ˆØ#×-Ñ-¨a°Ó3ˆØ×)Ñ)¨!¨QÓ/ˆ
à&‰ˆˆSð ˜Ð1 × 1Ñ 1Ð1Ð1Ñ2Ø˜˜d×/Ñ/Ñ1Ð1Ñ2ð ˆ	ð
 sÐ/˜d×/Ñ/Ð/Ð/Ñ0Øs˜D×-Ñ-Ñ/Ð/Ñ0ð ˆô
 2°)¸WÀcÈ3ÓOÑˆ	7ô —y’y )¨ZÐ!8¸bÑAˆÜ—Y’Y ¨Ð2¸Ñ;ˆ
àÑ%ð ØØ)-×):Ñ):Ø"0ñ	ˆLð (6×'<Ñ'<¸ZÈÐW[×WeÑWeÐgsÓ'tÑ$ˆJ˜ä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð	%
ð  $Ÿ}Ÿ}‘C°$·+±+×2OÑ2OØ—L‘Lñ	%
ð ñ	%
Ñ!ˆ\ð "×)Ñ)¨#°bÓ9ˆØ—j‘j Ó-ˆæ ØˆLà˜LÐ(Ð(r=   )r²   r#   r«   r£   ru   r¨   r°   r˜   r¢   r¯   r¬   rª   r¤   r³   r§   r…   r[   ©NNNFFNN)r\   r]   r^   r_   Ú__doc__r   r   r¥   r,   rM   ÚTensorÚtupler½   Ú
LongTensorr	   Úboolr   r   rY   ra   rb   rc   s   @r;   r–   r–   §   sV  ø† ÙGñ$G˜ð $G¸8ÀC¹=÷ $Gð $GðLP e§l¡lð P°u¸U¿\¹\È5Ï<É<ÐY^×YeÑYeÐ=eÑ7fô Pð& 26Ø37Ø*.Ø"'ØØ59ØKOñN)à—|‘|ðN)ð ! §¡Ñ.ðN)ð ˜u×/Ñ/Ñ0ð	N)ð
 ! ™ðN)ð  ðN)ð ðN)ð ! ×!1Ñ!1Ñ2ðN)ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHðN)ð Ð-Ñ.ðN)ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷N)ó N)r=   r–   c                   óš  ^ • \ rS rSrS\S\4U 4S jjr       SS\R                  S\	\R                     S\	\R                     S\	\\R                        S	\	\   S
\	\   S\	\R                     S\	\\R                  \R                  4      S\\   S\\R                  \	\\R                  \R                  4      4   4S jjrSrU =r$ )ÚPersimmonDecoderLayeri1  r#   r˜   c                 ó‚  >• [         TU ]  5         UR                  U l        [        XS9U l        [        U5      U l        [        R                  " UR                  UR                  S9U l
        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  5      U l        g )N)r#   r˜   ©rœ   )r+   r,   ru   r–   Ú	self_attnrq   Úmlpr   r­   r®   Úinput_layernormÚpost_attention_layernormr±   Úhidden_dropoutr†   r´   s      €r;   r,   ÚPersimmonDecoderLayer.__init__2  sˆ   ø€ Ü‰ÑÔØ!×-Ñ-ˆÔÜ+°6ÑOˆŒÜ Ó'ˆŒÜ!Ÿ|š|¨F×,>Ñ,>ÀF×DYÑDYÑZˆÔÜ(*¯ª°V×5GÑ5GÈV×MbÑMbÑ(cˆÔ%Ü—z’z &×"7Ñ"7Ó8ˆr=   r~   r„   rT   r¿   rÀ   rÁ   rÂ   rÃ   r   r·   c	                 óþ   • Un
U R                  U5      nU R                  " SUUUUUUUUS.U	D6u  pX¡-   nUn
U R                  U5      nU R                  U5      nU R	                  U5      nX-   nU4nU(       a  XË4-  nU$ )aÐ  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    position_ids (`torch.LongTensor` of shape `({0})`, *optional*):
        Indices of positions of each input sequence tokens in the position embeddings. Selected in the range
        `[0, config.n_positions - 1]`.
        [What are position IDs?](../glossary#position-ids)
    past_key_value (`Tuple(torch.FloatTensor)`, *optional*):
        cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence
    position_embeddings (`tuple[torch.FloatTensor, torch.FloatTensor]`, *optional*):
        Tuple containing the cosine and sine positional embeddings of shape `(batch_size, seq_len, head_dim)`,
        with `head_dim` being the embedding dimension of each attention head.
)r~   r„   rT   r¿   rÀ   rÁ   rÂ   rÃ   © )rå   rã   ræ   rä   r†   )r8   r~   r„   rT   r¿   rÀ   rÁ   rÂ   rÃ   r   ÚresidualÚself_attn_weightsÚoutputss                r;   rY   ÚPersimmonDecoderLayer.forward;  s´   € ðH !ˆà×,Ñ,¨]Ó;ˆð ,0¯>ª>ð 
,
Ø'Ø)Ø%Ø)Ø/ØØ)Ø 3ñ
,
ð ñ
,
Ñ(ˆð !Ñ0ˆð !ˆØ×5Ñ5°mÓDˆØŸ™ Ó/ˆàŸ™ ]Ó3ˆØ%Ñ0ˆà Ð"ˆæØÐ+Ñ+ˆGàˆr=   )r†   ru   rå   rä   ræ   rã   rÙ   )r\   r]   r^   r_   r   r¥   r,   rM   rÛ   r   rÝ   rÜ   rÞ   r   r   ÚFloatTensorrY   ra   rb   rc   s   @r;   rà   rà   1  s&  ø† ð9˜ð 9¸3÷ 9ð 26Ø37Ø8<Ø,1Ø$)Ø59ØKOñCà—|‘|ðCð ! §¡Ñ.ðCð ˜u×/Ñ/Ñ0ð	Cð
 !  u§|¡|Ñ!4Ñ5ðCð $ D™>ðCð ˜D‘>ðCð ! ×!1Ñ!1Ñ2ðCð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHðCð Ð-Ñ.ðCð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷Có Cr=   rà   c                   óH   • \ rS rSr% \\S'   SrSrS/rSr	Sr
SrSrSrS rSrg	)
ÚPersimmonPreTrainedModeli  r#   ÚmodelTrà   Úpast_key_valuesc                 óô  • U R                   R                  n[        U[        R                  5      (       aW  UR
                  R                  R                  SUS9  UR                  b%  UR                  R                  R                  5         g g [        U[        R                  5      (       ad  UR
                  R                  R                  SUS9  UR                  b2  UR
                  R                  UR                     R                  5         g g [        U[        R                  5      (       aJ  UR
                  R                  R                  S5        UR                  R                  R                  5         g g )NrÇ   )ÚmeanÚstdg      ð?)r#   Úinitializer_ranger.   r   rt   ÚweightÚdataÚnormal_r›   Úzero_Ú	EmbeddingÚpadding_idxr­   Úfill_)r8   r€   rö   s      r;   Ú_init_weightsÚ&PersimmonPreTrainedModel._init_weightsŽ  s  € Øk‰k×+Ñ+ˆÜfœbŸi™i×(Ñ(ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØM‰M×Ñ×$Ñ$ SÔ)ØK‰K×Ñ×"Ñ"Õ$ð .r=   rê   N)r\   r]   r^   r_   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_skip_keys_device_placementÚ_can_compile_fullgraphÚ_supports_sdpaÚ_supports_flash_attnÚ_supports_attention_backendrÿ   ra   rê   r=   r;   rñ   rñ     s?   ‡ àÓØÐØ&*Ð#Ø0Ð1ÐØ"3Ðà!ÐØ€NØÐØ"&Ðõ%r=   rñ   c                   ó  ^ • \ rS rSrSrS\4U 4S jjr\\         SS\	\
R                     S\	\
R                     S\	\
R                     S\	\   S	\	\
R                     S
\	\   S\	\   S\	\   S\	\
R                     S\\   S\4S jj5       5       r SS\\
R                  S4   S\
R                  S\
R                  S\S\4
S jjr\S\
R                  S\S\S\
R0                  S\
R                  S\4S j5       rSrU =r$ )ÚPersimmonModeli  z“
Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`PersimmonDecoderLayer`]

Args:
    config: PersimmonConfig
r#   c           	      ó  >• [         TU ]  U5        UR                  U l        UR                  U l        [
        R                  " UR                  UR                  U R                  5      U l        [
        R                  " [        UR                  5       Vs/ sH  n[        X5      PM     sn5      U l        [
        R                  " UR                  UR                  S9U l        [#        US9U l        SU l        U R)                  5         g s  snf )Nrâ   rž   F)r+   r,   Úpad_token_idrý   Ú
vocab_sizer   rü   ru   Úembed_tokensÚ
ModuleListÚrangeÚnum_hidden_layersrà   Úlayersr­   r®   Úfinal_layernormr!   r³   Úgradient_checkpointingÚ	post_initr´   s      €r;   r,   ÚPersimmonModel.__init__¦  sÍ   ø€ Ü‰Ñ˜Ô Ø!×.Ñ.ˆÔØ ×+Ñ+ˆŒäŸLšL¨×):Ñ):¸F×<NÑ<NÐPT×P`ÑP`ÓaˆÔÜ—m’mÜGLÈV×MeÑMeÔGfÓgÑGf¸)Ô" 6Ö5ÑGfÑgó
ˆŒô  "Ÿ|š|¨F×,>Ñ,>ÀF×DYÑDYÑZˆÔä2¸&ÑAˆŒà&+ˆÔ#à‰Õùò hs   ÂD	Ú	input_idsr„   rT   ró   Úinputs_embedsrÁ   rÀ   Úoutput_hidden_statesrÂ   r   r·   c
                 ó
  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUS L US L-  (       a  [	        S5      eU R
                  (       a/  U R                  (       a  U(       a  [        R                  S5        Sn[        U[        S 5      [        45      (       d  [	        S5      eU(       a  Uc
  [        5       nUc  U R                  U5      nU	cD  Ub  UR                  5       OSn[        R                   " X»UR"                  S   -   UR$                  S9n	Uc  U	R'                  S5      nU R)                  X%X”U5      nUnU R+                  XÓ5      nU(       a  SOS nU(       a  SOS nU R,                   H7  nU(       a  Xý4-  nU" U4UUUUUU	US	.U
D6nUS   nU(       d  M.  UUS   4-  nM9     U R/                  U5      nU(       a  Xý4-  n[1        UUUUS
9$ )Nz:You must specify exactly one of input_ids or inputs_embedszZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...FzBThe `past_key_values` should be either a `Cache` object or `None`.r   r   ©r9   rê   )r„   rT   r¿   rÀ   rÁ   rÂ   rÃ   )Úlast_hidden_stateró   r~   Ú
attentions)r#   rÀ   r  rÁ   r©   r  rŠ   rŸ   r    r.   r'   r	   r
   r  Úget_seq_lengthrM   ÚarangerJ   r9   ri   Ú_update_causal_maskr³   r  r  r   )r8   r  r„   rT   ró   r  rÁ   rÀ   r  rÂ   r   Úpast_seen_tokensr’   r~   rÃ   Úall_hidden_statesÚall_self_attnsÚdecoder_layerÚlayer_outputss                      r;   rY   ÚPersimmonModel.forward·  s5  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	à˜Ð -°tÐ";×<ÜÐYÓZÐZà×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	ô ˜/¬D°«J¼Ð+>×?Ñ?ÜÐaÓbÐbæ˜Ñ0Ü*›nˆOàÑ Ø ×-Ñ-¨iÓ8ˆMàÑ!ØCRÑC^˜×=Ñ=Ô?ÐdeÐÜ"Ÿ\š\Ø °]×5HÑ5HÈÑ5KÑ"KÐTa×ThÑThñˆNð ÑØ)×3Ñ3°AÓ6ˆLà×.Ñ.Ø¨>ÐL]ó
ˆð &ˆð #Ÿo™o¨mÓJÐö #7™B¸DÐÞ0™°dˆà!Ÿ[œ[ˆMÞ#Ø!Ð%5Ñ5Ð!á)Øð
à*Ø)Ø.Ø"3Ø#Ø-Ø$7ñ
ð ñ
ˆMð *¨!Ñ,ˆMç Ð Ø =°Ñ#3Ð"5Ñ5’ñ' )ð* ×,Ñ,¨]Ó;ˆö  ØÐ!1Ñ1Ðä&Ø+Ø+Ø+Ø%ñ	
ð 	
r=   r   Úinput_tensorc           	      óæ  • U R                   R                  S:X  a  Ub  US:H  R                  5       (       a  U$ g U R                   R                  S:X  a,  [        U[        R
                  5      (       a  [        U5      nU$ Ub  UR                  5       OSnUb  UR                  OSnU R                   R                  S:X  a5  U(       d.  U(       d'  [        R                  " UUUU R                  S9(       a  g UR                  nUR                  S   n	U(       a  UR                  5       n
O5[        U[        R
                  5      (       a  UR                  S	   OXi-   S-   n
U R                  UU	U
UUUR                  S   S
9nU R                   R                  S:X  aZ  UbW  UR                   R"                  S;   a=  U(       d6  [        R$                  " U5      R&                  n[        R(                  " X¼5      nU$ )NÚflash_attention_2rÇ   Úflex_attentionr   FÚsdpa)r  Úpast_key_values_lengthÚis_trainingr   r?   )Úsequence_lengthÚtarget_lengthrG   rÂ   rº   )ÚcudaÚxpuÚnpu)r#   rÊ   Úanyr.   rM   rÛ   r   r  Úis_compileabler   Ú_ignore_causal_mask_sdparŠ   rG   rJ   Úget_max_cache_shapeÚ5_prepare_4d_causal_attention_mask_with_cache_positionr9   r'   ÚfinfoÚminÚ_unmask_unattended)r8   r„   r(  rÂ   ró   rÀ   r"  Úusing_compilable_cacherG   r/  r0  r’   Ú	min_dtypes                r;   r!  Ú"PersimmonModel._update_causal_mask  sË  € ð ;‰;×+Ñ+Ð/BÓBØÑ)¨~ÀÑ/D×.IÑ.I×.KÑ.KØ%Ð%ØØ;‰;×+Ñ+Ð/?Ó?Ü˜.¬%¯,©,×7Ñ7Ü!<¸^Ó!LØ!Ð!ð
 @OÑ?Z˜?×9Ñ9Ô;Ð`aÐØCRÑC^ ×!?Ò!?ÐdiÐð ;‰;×+Ñ+¨vÓ5Ö>TÖ]nÜ%×>Ò>ØØ*Ø'7Ø ŸM™M÷	ð à×"Ñ"ˆØ&×,Ñ,¨QÑ/ˆÞ!Ø+×?Ñ?ÓA‰Mô ˜n¬e¯l©l×;Ñ;ð ×$Ñ$ RÒ(à%Ñ7¸!Ñ;ð ð ×PÑPØØ+Ø'ØØ)Ø#×)Ñ)¨!Ñ,ð Qð 
ˆð K‰K×,Ñ,°Ó6ØÑ*Ø×%Ñ%×*Ñ*Ð.DÓDÞ%ô
 Ÿš EÓ*×.Ñ.ˆIÜ0×CÒCÀKÓ[ˆKàÐr=   r/  r0  rG   rº   c                 ó¶  • U b  U R                  5       S:X  a  U nU$ [        R                  " U5      R                  n[        R                  " X4XƒUR
                  S9nUS:w  a  [        R                  " USS9nU[        R                  " X$R
                  S9UR                  SS5      :„  -  nUSSSS2SS24   R                  USSS5      nU b‹  UR                  5       nU R                  S   n	USS2SS2SS2SU	24   U SS2SSSS24   R                  UR
                  5      -   n
U
S:H  n
USS2SS2SS2SU	24   R                  X¨5      USS2SS2SS2SU	24'   U$ )	a½  
Creates a causal 4D mask of shape `(batch_size, 1, query_length, key_value_length)` from a 2D mask of shape
`(batch_size, key_value_length)`, or if the input `attention_mask` is already 4D, do nothing.

Args:
    attention_mask (`torch.Tensor`):
        A 2D attention mask of shape `(batch_size, key_value_length)` or a 4D attention mask of shape
        `(batch_size, 1, query_length, key_value_length)`.
    sequence_length (`int`):
        The sequence length being processed.
    target_length (`int`):
        The target length: when generating with static cache, the mask should be as long as the static cache,
        to account for the 0 padding, the part of the cache that is not filled yet.
    dtype (`torch.dtype`):
        The dtype to use for the 4D attention mask.
    cache_position (`torch.Tensor`):
        Indices depicting the position of the input sequence tokens in the sequence.
    batch_size (`torch.Tensor`):
        Batch size.
Né   )Ú
fill_valuerG   r9   r   )Údiagonalr  r?   r   )rF   rM   r9  r:  Úfullr9   Útriur   rË   rI   ÚclonerJ   rK   Úmasked_fill)r„   r/  r0  rG   rÂ   rº   r   r’   r=  Úmask_lengthÚpadding_masks              r;   r8  ÚDPersimmonModel._prepare_4d_causal_attention_mask_with_cache_position\  s}  € ð> Ñ%¨.×*<Ñ*<Ó*>À!Ó*Cà(ˆKð* Ðô' Ÿš EÓ*×.Ñ.ˆIÜŸ*š*Ø Ð0¸YÐ\j×\qÑ\qñˆKð  !Ó#Ü#Ÿjšj¨¸qÑAØœ5Ÿ<š<¨×>SÑ>SÑTÐWe×WmÑWmÐnpÐrsÓWtÑtÑtˆKØ% d¨D²!²QÐ&6Ñ7×>Ñ>¸zÈ1ÈbÐRTÓUˆKØÑ)Ø)×/Ñ/Ó1Ø,×2Ñ2°2Ñ6Ø*ª1ªa²°L°[°LÐ+@ÑAÀNÒSTÐVZÐ\`ÒbcÐScÑDd×DgÑDgØ×&Ñ&óEñ  ð  ,¨qÑ0Ø5@ÂÂAÂqÈ,È;È,ÐAVÑ5W×5cÑ5cØ ó6šAšq¢! \ k \Ð1Ñ2ð Ðr=   )r  r  r  r  rý   r³   r  )	NNNNNNNNN)F)r\   r]   r^   r_   rÚ   r   r,   r   r   r   rM   rÝ   rÛ   r	   rï   rÞ   r   r   r   rY   r   r!  Ústaticmethodr¥   rG   r8  ra   rb   rc   s   @r;   r  r    sÁ  ø† ñð˜÷ ð" Øð 15Ø15Ø37Ø+/Ø59Ø$(Ø,0Ø/3Ø59ñ\
à˜E×,Ñ,Ñ-ð\
ð ! §¡Ñ.ð\
ð ˜u×/Ñ/Ñ0ð	\
ð
 " %™ð\
ð   × 1Ñ 1Ñ2ð\
ð ˜D‘>ð\
ð $ D™>ð\
ð ' t™nð\
ð ! ×!1Ñ!1Ñ2ð\
ð Ð-Ñ.ð\
ð 
!ô\
ó ó ð\
ðJ #(ñBà˜eŸl™l¨KÐ7Ñ8ðBð —l‘lðBð Ÿ™ð	Bð
 ðBð  õBðH ð4ØŸ™ð4àð4ð ð4ð {‰{ð	4ð
 Ÿ™ð4ð ó4ó ö4r=   r  c                   ót  ^ • \ rS rSrS/rU 4S jrS rS r\\	           SS\
\R                     S\
\R                     S\
\R                     S	\
\   S
\
\R                     S\
\R                     S\
\   S\
\   S\
\   S\
\R                     S\\\R                  4   S\4S jj5       5       rSrU =r$ )ÚPersimmonForCausalLMi•  zlm_head.weightc                 óä   >• [         TU ]  U5        [        U5      U l        UR                  U l        [
        R                  " UR                  UR                  SS9U l        U R                  5         g )NFrš   )
r+   r,   r  rò   r  r   rt   ru   Úlm_headr  r{   s     €r;   r,   ÚPersimmonForCausalLM.__init__™  sU   ø€ Ü‰Ñ˜Ô Ü# FÓ+ˆŒ
Ø ×+Ñ+ˆŒÜ—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒð 	‰Õr=   c                 ó   • Xl         g r[   ©rò   )r8   Údecoders     r;   Úset_decoderÚ PersimmonForCausalLM.set_decoder£  s   € Ø
r=   c                 ó   • U R                   $ r[   rQ  )r8   s    r;   Úget_decoderÚ PersimmonForCausalLM.get_decoder§  s   € Øz‰zÐr=   r  r„   rT   ró   r  ÚlabelsrÁ   rÀ   r  rÂ   Úlogits_to_keepr·   c                 óð  • Ub  UOU R                   R                  nU	b  U	OU R                   R                  n	U R                  " SUUUUUUUU	U
S.	UD6nUR                  n[        U[        5      (       a  [        U* S5      OUnU R                  USS2USS24   5      nSnUb*  U R                  " UU4SU R                   R                  0UD6n[        UUUR                  UR                  UR                  S9$ )uë  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>>> from transformers import AutoTokenizer, PersimmonForCausalLM

>>> model = PersimmonForCausalLM.from_pretrained("adept/persimmon-8b-base")
>>> tokenizer = AutoTokenizer.from_pretrained("adept/persimmon-8b-base")

>>> prompt = "human: Hey, what should I eat for dinner?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
'human: Hey, what should I eat for dinner?\n\ncat: ðŸ±\n\nhuman: ðŸ˜\n\n'
```N)	r  r„   rT   ró   r  rÁ   rÀ   r  rÂ   r  )ÚlossÚlogitsró   r~   r  rê   )r#   rÀ   r  rò   r  r.   r¥   ÚslicerN  Úloss_functionr  r   ró   r~   r  )r8   r  r„   rT   ró   r  rX  rÁ   rÀ   r  rÂ   rY  r   rí   r~   Úslice_indicesr\  r[  s                     r;   rY   ÚPersimmonForCausalLM.forwardª  s)  € ðP 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð
 ,0¯:ª:ð ,
ØØ)Ø%Ø+Ø'ØØ/Ø!5Ø)ñ,
ð ñ,
ˆð  ×1Ñ1ˆä8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆàˆØÑØ×%Ò%ØØñð  Ÿ;™;×1Ñ1ðð ñ	ˆDô &ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r=   )rN  rò   r  )NNNNNNNNNNr   )r\   r]   r^   r_   Ú_tied_weights_keysr,   rS  rV  r   r   r   rM   rÝ   rÛ   r	   rï   rÞ   r   r¥   r   rY   ra   rb   rc   s   @r;   rL  rL  •  s<  ø† Ø*Ð+Ðõòòð Øð 15Ø15Ø37Ø+/Ø59Ø-1Ø$(Ø,0Ø/3Ø59Ø34ñM
à˜E×,Ñ,Ñ-ðM
ð ! §¡Ñ.ðM
ð ˜u×/Ñ/Ñ0ð	M
ð
 " %™ðM
ð   × 1Ñ 1Ñ2ðM
ð ˜×)Ñ)Ñ*ðM
ð ˜D‘>ðM
ð $ D™>ðM
ð ' t™nðM
ð ! ×!1Ñ!1Ñ2ðM
ð ˜c 5§<¡<Ð/Ñ0ðM
ð 
 ôM
ó ó öM
r=   rL  c                   ó   • \ rS rSrSrg)Ú"PersimmonForSequenceClassificationiü  rê   N©r\   r]   r^   r_   ra   rê   r=   r;   rc  rc  ü  s   † Òfir=   rc  c                   ó   • \ rS rSrSrg)ÚPersimmonForTokenClassificationiÿ  rê   Nrd  rê   r=   r;   rf  rf  ÿ  s   † Ò`cr=   rf  )rL  r  rñ   rc  rf  )Nr   )rÇ   )@rÚ   Útypingr   r   r   rM   Útorch.utils.checkpointr   Úactivationsr   Úcache_utilsr	   r
   Ú
generationr   Úmodeling_attn_mask_utilsr   Úmodeling_flash_attention_utilsr   Úmodeling_layersr   r   r   Úmodeling_outputsr   r   Úmodeling_rope_utilsr   r   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   r   Úconfiguration_persimmonr   Ú!torch.nn.attention.flex_attentionr   Úintegrations.flex_attentionr   Ú
get_loggerr\   rŸ   ÚModuler!   rg   ro   rq   rÛ   rH   r”   r–   rà   rñ   r  rL  rc  rf  Ú__all__rê   r=   r;   Ú<module>rz     s”  ðñ( ç ,Ñ ,ã Û Ý å !ß .Ý )Ý >Ý B÷ñ ÷
÷ Lß FÝ &ß \Ó \Ý 4ñ  ×!Ñ!Ý;åJð 
×	Ò	˜HÓ	%€ô<˜rŸy™yô <òF(ôô82—9‘9ô ð* ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô.G)˜Ÿ™ô G)ôTMÐ6ô Mð` ô%˜ó %ó ð%ð6 ôtÐ-ó tó ðtônd
Ð3°_ô d
ôN jÐ)IÐKcÔ iô dÐ&CÐE]Ô còr=   