ó
    <±h—^  ã                   óö  • S SK JrJrJr  S SKrS SKJr  SSKJr  SSKJ	r	J
r
  SSKJr  SSKJr  SS	KJr  SS
KJr  SSKJrJr  SSKJrJr  SSKJrJr  SSKJr  SSKJrJ r J!r!  SSK"J#r#  SSK$J%r%   " S S\RL                  5      r' " S S\RL                  5      r( " S S\RL                  5      r)S\RT                  S\+S\RT                  4S jr, S3S\RL                  S\RT                  S\RT                  S \RT                  S!\\RT                     S"\-S#\-S$\\   4S% jjr.S& r/S4S' jr0 " S( S)\RL                  5      r1 " S* S+\5      r2\  " S, S-\5      5       r3\  " S. S/\35      5       r4\  " S0 S1\3\5      5       r5/ S2Qr6g)5é    )ÚCallableÚOptionalÚUnionN)Únné   )ÚACT2FN)ÚCacheÚDynamicCache)ÚGenerationMixin)Úcreate_causal_mask)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)ÚBaseModelOutputWithPastÚCausalLMOutputWithPast)ÚROPE_INIT_FUNCTIONSÚdynamic_rope_update)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)ÚTransformersKwargsÚauto_docstringÚcan_return_tuple)Úcheck_model_inputsé   )ÚCohereConfigc                   ó2   ^ • \ rS rSrSU 4S jjrS rSrU =r$ )ÚCohereLayerNormé2   c                 óŒ   >• [         TU ]  5         [        R                  " [        R
                  " U5      5      U l        X l        g)zcThe hidden size can be a tuple or an int. The tuple is used for QKNorm to normalize across head_dimN)ÚsuperÚ__init__r   Ú	ParameterÚtorchÚonesÚweightÚvariance_epsilon)ÚselfÚhidden_sizeÚepsÚbiasÚ	__class__s       €Úb/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/cohere/modeling_cohere.pyr!   ÚCohereLayerNorm.__init__3   s-   ø€ ä‰ÑÔÜ—l’l¤5§:¢:¨kÓ#:Ó;ˆŒØ #Õó    c                 ó‚  • UR                   nUR                  [        R                  5      nUR	                  SSS9nX-
  R                  S5      R	                  SSS9nX-
  [        R                  " X@R                  -   5      -  nU R                  R                  [        R                  5      U-  nUR                  U5      $ )NéÿÿÿÿT)Úkeepdimé   )	ÚdtypeÚtor#   Úfloat32ÚmeanÚpowÚrsqrtr&   r%   )r'   Úhidden_statesÚinput_dtyper6   Úvariances        r,   ÚforwardÚCohereLayerNorm.forward9   s¤   € Ø#×)Ñ)ˆØ%×(Ñ(¬¯©Ó7ˆØ×!Ñ! "¨dÐ!Ð3ˆØ!Ñ(×-Ñ-¨aÓ0×5Ñ5°bÀ$Ð5ÐGˆØ&Ñ-´·²¸X×H]ÑH]Ñ=]Ó1^Ñ^ˆØŸ™Ÿ™¤u§}¡}Ó5¸ÑEˆØ×Ñ Ó,Ð,r.   )r&   r%   )Ngñhãˆµøä>F©Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r!   r<   Ú__static_attributes__Ú__classcell__©r+   s   @r,   r   r   2   s   ø† ÷$÷-ð -r.   r   c                   ól   ^ • \ rS rSrSS\4U 4S jjjr\R                  " 5       \S 5       5       r	Sr
U =r$ )ÚCohereRotaryEmbeddingéC   Úconfigc                 ó  >• [         TU ]  5         [        US5      (       aZ  [        UR                  [
        5      (       a;  UR                  R                  SUR                  R                  S5      5      U l        OSU l        UR                  U l	        UR                  U l
        Xl        [        U R                     U l        U R                  U R                  U5      u  o0l        U R                  SUSS9  U R                   U l        g )NÚrope_scalingÚ	rope_typeÚtypeÚdefaultÚinv_freqF)Ú
persistent)r    r!   ÚhasattrÚ
isinstancerK   ÚdictÚgetrL   Úmax_position_embeddingsÚmax_seq_len_cachedÚoriginal_max_seq_lenrI   r   Úrope_init_fnÚattention_scalingÚregister_bufferrO   Úoriginal_inv_freq)r'   rI   ÚdevicerO   r+   s       €r,   r!   ÚCohereRotaryEmbedding.__init__D   sÏ   ø€ Ü‰ÑÔä6˜>×*Ñ*¬z¸&×:MÑ:MÌt×/TÑ/TØ#×0Ñ0×4Ñ4°[À&×BUÑBU×BYÑBYÐZ`ÓBaÓbˆDNà&ˆDŒNØ"(×"@Ñ"@ˆÔØ$*×$BÑ$BˆÔ!àŒÜ/°·±Ñ?ˆÔà+/×+<Ñ+<¸T¿[¹[È&Ó+QÑ(ˆÔ(Ø×Ñ˜Z¨¸eÐÑDØ!%§¡ˆÕr.   c                 ó0  • U R                   S S S 2S 4   R                  5       R                  UR                  S   SS5      nUS S 2S S S 24   R                  5       n[	        UR
                  R                  [        5      (       a0  UR
                  R                  S:w  a  UR
                  R                  OSn[        R                  " USS9   UR                  5       UR                  5       -  R                  SS5      n[        R                  " USSS	9nUR                  5       U R                  -  nUR                  5       U R                  -  n	S S S 5        WR                  UR                   S
9W	R                  UR                   S
94$ ! , (       d  f       N@= f)Nr   r0   r   ÚmpsÚcpuF)Údevice_typeÚenabledr2   ©Údim©r3   )rO   ÚfloatÚexpandÚshaperR   r\   rM   Ústrr#   ÚautocastÚ	transposeÚrepeat_interleaveÚcosrY   Úsinr4   r3   )
r'   ÚxÚposition_idsÚinv_freq_expandedÚposition_ids_expandedra   ÚfreqsÚembrm   rn   s
             r,   r<   ÚCohereRotaryEmbedding.forwardU   sB  € ð !ŸM™M¨$²°4¨-Ñ8×>Ñ>Ó@×GÑGÈ×HZÑHZÐ[\ÑH]Ð_aÐcdÓeÐØ ,ªQ°²a¨ZÑ 8× >Ñ >Ó @Ðä'1°!·(±(·-±-Ä×'EÑ'EÈ!Ï(É(Ï-É-Ð[`ÓJ`a—h‘h—m’mÐfkˆÜ^Š^¨¸UÓCØ&×,Ñ,Ó.Ð1F×1LÑ1LÓ1NÑN×YÑYÐZ[Ð]^Ó_ˆEÜ×)Ò)¨%°¸Ñ;ˆCØ—'‘'“)˜d×4Ñ4Ñ4ˆCØ—'‘'“)˜d×4Ñ4Ñ4ˆC÷	 Dð v‰v˜AŸG™GˆvÐ$ c§f¡f°1·7±7 fÐ&;Ð;Ð;÷ DÕCús   ÃBFÆ
F)rY   rI   rV   r[   rW   rX   rL   ©N)r?   r@   rA   rB   r   r!   r#   Úno_gradr   r<   rC   rD   rE   s   @r,   rG   rG   C   s6   ø† ñ/˜|÷ /ð /ð" ‡]‚]ƒ_Øñ<ó ó ö<r.   rG   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )Ú	CohereMLPée   c                 ó¼  >• [         TU ]  5         Xl        UR                  U l        UR                  U l        [
        R                  " U R                  U R                  SS9U l        [
        R                  " U R                  U R                  SS9U l        [
        R                  " U R                  U R                  SS9U l	        [        UR                     U l        g ©NF©r*   )r    r!   rI   r(   Úintermediate_sizer   ÚLinearÚ	gate_projÚup_projÚ	down_projr   Ú
hidden_actÚact_fn©r'   rI   r+   s     €r,   r!   ÚCohereMLP.__init__f   s¤   ø€ Ü‰ÑÔØŒØ!×-Ñ-ˆÔØ!'×!9Ñ!9ˆÔÜŸš 4×#3Ñ#3°T×5KÑ5KÐRWÑXˆŒÜ—y’y ×!1Ñ!1°4×3IÑ3IÐPUÑVˆŒÜŸš 4×#9Ñ#9¸4×;KÑ;KÐRWÑXˆŒÜ˜V×.Ñ.Ñ/ˆr.   c                 óˆ   • U R                  U R                  U R                  U5      5      U R                  U5      -  5      nU$ rv   )r‚   r„   r€   r   )r'   ro   r‚   s      r,   r<   ÚCohereMLP.forwardp   s6   € Ø—N‘N 4§;¡;¨t¯~©~¸aÓ/@Ó#AÀDÇLÁLÐQRÃOÑ#SÓTˆ	ØÐr.   )r„   rI   r‚   r€   r(   r~   r   r>   rE   s   @r,   ry   ry   e   s   ø† õ0÷ð r.   ry   r9   Ún_repÚreturnc                 ó    • U R                   u  p#pEUS:X  a  U $ U SS2SS2SSS2SS24   R                  X#XU5      n U R                  X#U-  XE5      $ )zÈ
This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
r   N)rh   rg   Úreshape)r9   r‰   ÚbatchÚnum_key_value_headsÚslenÚhead_dims         r,   Ú	repeat_kvr‘   u   s_   € ð
 2?×1DÑ1DÑ.€E ØƒzØÐØ!¢!¢Q¨ªa²Ð"2Ñ3×:Ñ:¸5ÐW\ÐdlÓm€MØ× Ñ  ¸eÑ(CÀTÓTÐTr.   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutÚkwargsc                 ó@  • [        X R                  5      n[        X0R                  5      n	[        R                  " XR	                  SS5      5      U-  n
Ub"  US S 2S S 2S S 2S UR
                  S   24   nX«-   n
[        R                  R                  U
S[        R                  S9R                  UR                  5      n
[        R                  R                  X¦U R                  S9n
[        R                  " X©5      nUR	                  SS5      R                  5       nXÊ4$ )Nr2   r   éþÿÿÿr0   )rd   r3   )ÚpÚtrainingr   )r‘   Únum_key_value_groupsr#   Úmatmulrk   rh   r   Ú
functionalÚsoftmaxr5   r4   r3   r˜   r   Ú
contiguous)r’   r“   r”   r•   r–   r—   r˜   r™   Ú
key_statesÚvalue_statesÚattn_weightsÚcausal_maskÚattn_outputs                r,   Úeager_attention_forwardr¨      sö   € ô ˜3× ;Ñ ;Ó<€JÜ˜U×$?Ñ$?Ó@€Lä—<’< ×';Ñ';¸A¸qÓ'AÓBÀWÑL€LØÑ!Ø$¢Qªª1Ð.D°
×0@Ñ0@ÀÑ0DÐ.DÐ%DÑEˆØ#Ñ1ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó:€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r.   c                 ó|   • U SS S S24   nU SSS S24   n[         R                  " U* U/SS9R                  S5      nU$ )N.r2   r   r0   rc   r›   )r#   ÚstackÚflatten)ro   Úx1Úx2Úrot_xs       r,   Úrotate_halfr¯   ›   sL   € à	
ˆ3‘!ˆ8‰€BØ	
ˆ31ˆ9‰€BÜKŠK˜"˜˜b˜	 rÑ*×2Ñ2°2Ó6€EØ€Lr.   c                 ó&  • U R                   nU R                  5       n UR                  5       nUR                  U5      nUR                  U5      nX-  [        U 5      U-  -   nX-  [        U5      U-  -   nUR	                  US9UR	                  US94$ )a—  Applies Rotary Position Embedding to the query and key tensors.

Args:
    q (`torch.Tensor`): The query tensor.
    k (`torch.Tensor`): The key tensor.
    cos (`torch.Tensor`): The cosine part of the rotary embedding.
    sin (`torch.Tensor`): The sine part of the rotary embedding.
    position_ids (`torch.Tensor`, *optional*):
        Deprecated and unused.
    unsqueeze_dim (`int`, *optional*, defaults to 1):
        The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
        sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
        that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
        k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
        cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
        the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
Returns:
    `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
re   )r3   rf   Ú	unsqueezer¯   r4   )	ÚqÚkrm   rn   rp   Úunsqueeze_dimr3   Úq_embedÚk_embeds	            r,   Úapply_rotary_pos_embr·   £   sŠ   € ð( G‰G€EØ	‰‹	€AØ	‰‹	€AØ
-‰-˜Ó
&€CØ
-‰-˜Ó
&€CØ‰wœ; q›>¨CÑ/Ñ0€GØ‰wœ; q›>¨CÑ/Ñ0€GØ:‰:˜Eˆ:Ð" G§J¡J°U JÐ$;Ð;Ð;r.   c                   óP  ^ • \ rS rSrSrSS\S\\   4U 4S jjjr  SS\	R                  S\\	R                  \	R                  4   S\\	R                     S	\\   S
\\	R                     S\\   S\\	R                  \\	R                     \\\	R                        4   4S jjrSrU =r$ )ÚCohereAttentionéÁ   z=Multi-headed attention from 'Attention Is All You Need' paperrI   Ú	layer_idxc                 óR  >• [         TU ]  5         Xl        X l        [	        USUR
                  UR                  -  5      U l        UR                  UR                  -  U l	        U R                  S-  U l
        UR                  U l        SU l        [        R                  " UR
                  UR                  U R                  -  UR                  S9U l        [        R                  " UR
                  UR                  U R                  -  UR                  S9U l        [        R                  " UR
                  UR                  U R                  -  UR                  S9U l        [        R                  " UR                  U R                  -  UR
                  UR                  S9U l        UR(                  U l        U R(                  (       a_  [+        UR                  U R                  4UR,                  S9U l        [+        UR                  U R                  4UR,                  S9U l        g g )Nr   g      à¿Tr}   ©r(   r)   )r    r!   rI   r»   Úgetattrr(   Únum_attention_headsr   rŽ   rž   r—   Úattention_dropoutÚ	is_causalr   r   Úattention_biasÚq_projÚk_projÚv_projÚo_projÚuse_qk_normr   Úlayer_norm_epsÚq_normÚk_norm©r'   rI   r»   r+   s      €r,   r!   ÚCohereAttention.__init__Ä   sµ  ø€ Ü‰ÑÔØŒØ"ŒÜ ¨
°F×4FÑ4FÈ&×JdÑJdÑ4dÓeˆŒØ$*×$>Ñ$>À&×B\ÑB\Ñ$\ˆÔ!Ø—}‘} dÑ*ˆŒØ!'×!9Ñ!9ˆÔØˆŒä—i’iØ×Ñ × :Ñ :¸T¿]¹]Ñ JÐQW×QfÑQfñ
ˆŒô —i’iØ×Ñ × :Ñ :¸T¿]¹]Ñ JÐQW×QfÑQfñ
ˆŒô —i’iØ×Ñ × :Ñ :¸T¿]¹]Ñ JÐQW×QfÑQfñ
ˆŒô —i’iØ×&Ñ&¨¯©Ñ6¸×8JÑ8JÐQW×QfÑQfñ
ˆŒð "×-Ñ-ˆÔØ××ä)Ø#×7Ñ7¸¿¹ÐGÈV×MbÑMbñˆDŒKô *Ø#×7Ñ7¸¿¹ÐGÈV×MbÑMbñˆDKð r.   r9   Úposition_embeddingsr–   Úpast_key_valueÚcache_positionr™   rŠ   c                 ó¦  • UR                   S S n/ UQSPU R                  P7nU R                  U5      R                  U5      n	U R	                  U5      R                  U5      n
U R                  U5      R                  U5      nU R                  (       a"  U R                  U	5      n	U R                  U
5      n
U	R                  SS5      n	U
R                  SS5      n
UR                  SS5      nUu  pÍ[        XšXÍ5      u  pšUb$  XÜUS.nUR                  X«U R                  U5      u  p«[        nU R                  R                  S:w  a  [         U R                  R                     nU" U U	U
UU4U R"                  (       d  SOU R$                  U R&                  S.UD6u  nnUR(                  " / UQSP76 R+                  5       nU R-                  U5      nUU4$ )Nr0   r   r2   )rn   rm   rÏ   Úeagerç        )r˜   r—   )rh   r   rÃ   ÚviewrÄ   rÅ   rÇ   rÉ   rÊ   rk   r·   Úupdater»   r¨   rI   Ú_attn_implementationr   r   rÀ   r—   rŒ   r¢   rÆ   )r'   r9   rÍ   r–   rÎ   rÏ   r™   Úinput_shapeÚhidden_shapeÚquery_statesr£   r¤   rm   rn   Úcache_kwargsÚattention_interfacer§   r¥   s                     r,   r<   ÚCohereAttention.forwardä   sÊ  € ð $×)Ñ)¨#¨2Ð.ˆØ8˜Ð8 bÐ8¨$¯-©-Ñ8ˆà—{‘{ =Ó1×6Ñ6°|ÓDˆØ—[‘[ Ó/×4Ñ4°\ÓBˆ
Ø—{‘{ =Ó1×6Ñ6°|ÓDˆà××ØŸ;™; |Ó4ˆLØŸ™ ZÓ0ˆJà#×-Ñ-¨a°Ó3ˆØ×)Ñ)¨!¨QÓ/ˆ
Ø#×-Ñ-¨a°Ó3ˆà&‰ˆÜ#7¸ÐRUÓ#[Ñ ˆàÑ%à#&ÀnÑUˆLØ'5×'<Ñ'<¸ZÐW[×WeÑWeÐgsÓ'tÑ$ˆJä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð	%
ð  $Ÿ}Ÿ}‘C°$×2HÑ2HØ—L‘Lñ	%
ð ñ	%
Ñ!ˆ\ð "×)Ò)Ð;¨;Ð;¸Ò;×FÑFÓHˆØ—k‘k +Ó.ˆØ˜LÐ(Ð(r.   )rÀ   rI   r   rÁ   rÊ   rÄ   r»   rž   rÆ   rÉ   rÃ   r—   rÇ   rÅ   rv   )NN)r?   r@   rA   rB   Ú__doc__r   r   Úintr!   r#   ÚTensorÚtupler	   Ú
LongTensorr   r   r<   rC   rD   rE   s   @r,   r¹   r¹   Á   sÔ   ø† ÙGñ˜|ð ¸À¹÷ ð ðJ +/Ø59ñ1)à—|‘|ð1)ð # 5§<¡<°·±Ð#=Ñ>ð1)ð ! §¡Ñ.ð	1)ð
 ! ™ð1)ð ! ×!1Ñ!1Ñ2ð1)ð Ð-Ñ.ð1)ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷1)ó 1)r.   r¹   c                   ót  ^ • \ rS rSrS\S\4U 4S jjr      SS\R                  S\	\R                     S\	\R                     S\	\   S	\	\   S
\	\R                     S\	\\R                  \R                  4      S\\   S\\R                   \	\\R                   \R                   4      4   4S jjrSrU =r$ )ÚCohereDecoderLayeri  rI   r»   c                 óÆ   >• [         TU ]  5         UR                  U l        [        XS9U l        [        U5      U l        [        UR                  UR                  S9U l	        g )N)rI   r»   r½   )
r    r!   r(   r¹   Ú	self_attnry   Úmlpr   rÈ   Úinput_layernormrË   s      €r,   r!   ÚCohereDecoderLayer.__init__  sP   ø€ Ü‰ÑÔØ!×-Ñ-ˆÔÜ(°ÑLˆŒÜ˜VÓ$ˆŒÜ.¸F×<NÑ<NÐU[×UjÑUjÑkˆÕr.   r9   r–   rp   rÎ   Ú	use_cacherÏ   rÍ   r™   rŠ   c                 ó”   • Un	U R                  U5      nU R                  " SUUUUUUUS.UD6u  p«U R                  U5      nXš-   U-   nU$ )aô  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`, *optional*):
        attention mask of size `(batch_size, sequence_length)` if flash attention is used or `(batch_size, 1,
        query_sequence_length, key_sequence_length)` if default attention is used.
    past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence
    position_embeddings (`tuple[torch.FloatTensor, torch.FloatTensor]`, *optional*):
        Tuple containing the cosine and sine positional embeddings of shape `(batch_size, seq_len, head_dim)`,
        with `head_dim` being the embedding dimension of each attention head.
)r9   r–   rp   rÎ   rè   rÏ   rÍ   © )ræ   rä   rå   )r'   r9   r–   rp   rÎ   rè   rÏ   rÍ   r™   ÚresidualÚhidden_states_attentionÚ_Úhidden_states_mlps                r,   r<   ÚCohereDecoderLayer.forward   st   € ð< !ˆØ×,Ñ,¨]Ó;ˆà%)§^¢^ð 	&
Ø'Ø)Ø%Ø)ØØ)Ø 3ñ	&
ð ñ	&
Ñ"Ðð !ŸH™H ]Ó3ÐØ Ñ:Ð=NÑNˆØÐr.   )r(   ræ   rå   rä   )NNNFNN)r?   r@   rA   rB   r   rÝ   r!   r#   rÞ   r   rà   r	   Úboolrß   r   r   ÚFloatTensorr<   rC   rD   rE   s   @r,   râ   râ     s  ø† ðl˜|ð l¸÷ lð 26Ø37Ø*.Ø$)Ø59ØKOñ.à—|‘|ð.ð ! §¡Ñ.ð.ð ˜u×/Ñ/Ñ0ð	.ð
 ! ™ð.ð ˜D‘>ð.ð ! ×!1Ñ!1Ñ2ð.ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð.ð Ð-Ñ.ð.ð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷.ó .r.   râ   c                   óR   • \ rS rSr% \\S'   SrSrS/rS/r	Sr
SrSrSrSr\\S.rSrg	)
ÚCoherePreTrainedModeliQ  rI   ÚmodelTrâ   Úpast_key_values)r9   Ú
attentionsrê   N)r?   r@   rA   rB   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_skip_keys_device_placementÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnÚ_can_compile_fullgraphÚ_supports_attention_backendrâ   r¹   Ú_can_record_outputsrC   rê   r.   r,   ró   ró   Q  sQ   ‡ àÓØÐØ&*Ð#Ø-Ð.ÐØ#4Ð"5ÐØÐØ€NØÐà!ÐØ"&Ðà+Ø%ñÓr.   ró   c                   ó  ^ • \ rS rSrS\4U 4S jjr\\       SS\\	R                     S\\	R                     S\\	R                     S\\   S\\	R                     S	\\	R                     S
\\   S\\   S\4S jj5       5       rSrU =r$ )ÚCohereModelid  rI   c           	      ó  >• [         TU ]  U5        UR                  U l        UR                  U l        [
        R                  " UR                  UR                  U R                  5      U l        [
        R                  " [        UR                  5       Vs/ sH  n[        X5      PM     sn5      U l        [        UR                  UR                  S9U l        [#        US9U l        SU l        U R)                  5         g s  snf )Nr½   )rI   F)r    r!   Úpad_token_idÚpadding_idxÚ
vocab_sizer   Ú	Embeddingr(   Úembed_tokensÚ
ModuleListÚrangeÚnum_hidden_layersrâ   Úlayersr   rÈ   ÚnormrG   Ú
rotary_embÚgradient_checkpointingÚ	post_initrË   s      €r,   r!   ÚCohereModel.__init__f  sÊ   ø€ Ü‰Ñ˜Ô Ø!×.Ñ.ˆÔØ ×+Ñ+ˆŒäŸLšL¨×):Ñ):¸F×<NÑ<NÐPT×P`ÑP`ÓaˆÔÜ—m’mÜDIÈ&×JbÑJbÔDcÓdÑDc°yÔ Ö2ÑDcÑdó
ˆŒô $°×1CÑ1CÈ&×J_ÑJ_Ñ`ˆŒ	Ü/°vÑ>ˆŒØ&+ˆÔ#ð 	‰Õùò es   ÂC>Ú	input_idsr–   rp   rõ   Úinputs_embedsrÏ   rè   r™   rŠ   c           
      ó8  • US L US L-  (       a  [        S5      eUc  U R                  U5      nU(       a  Uc
  [        5       nUcD  Ub  UR                  5       OSn	[        R
                  " X™UR                  S   -   UR                  S9nUc  UR                  S5      n[        U R                  UUUUUS9n
UnU R                  X³5      nU R                  S U R                  R                    H  nU" U4U
UUUUS.UD6nM     U R                  U5      n[        UUS9$ )Nz:You must specify exactly one of input_ids or inputs_embedsr   r   )r\   )rI   Úinput_embedsr–   rÏ   rõ   rp   )r–   rp   rÎ   rÏ   rÍ   )Úlast_hidden_staterõ   )Ú
ValueErrorr	  r
   Úget_seq_lengthr#   Úarangerh   r\   r±   r   rI   r  r  r  r  r   )r'   r  r–   rp   rõ   r  rÏ   rè   r™   Úpast_seen_tokensr¦   r9   rÍ   Údecoder_layers                 r,   r<   ÚCohereModel.forwardv  sK  € ð ˜Ð -°tÐ";×<ÜÐYÓZÐZàÑ Ø*.×*;Ñ*;¸IÓ*FˆMæ˜Ñ0Ü*›nˆOàÑ!ØCRÑC^˜×=Ñ=Ô?ÐdeÐÜ+0¯<ª<Ø °]×5HÑ5HÈÑ5KÑ"KÐTa×ThÑThñ,ˆNð ÑØ)×3Ñ3°AÓ6ˆLä(Ø—;‘;Ø&Ø)Ø)Ø+Ø%ñ
ˆð &ˆØ"Ÿo™o¨mÓJÐà!Ÿ[™[Ð)H¨4¯;©;×+HÑ+HÓIˆMÙ)Øðà*Ø)Ø.Ø-Ø$7ñð ñŠMñ Jð Ÿ	™	 -Ó0ˆÜ&Ø+Ø+ñ
ð 	
r.   )r	  r  r  r  r  r  r  )NNNNNNN)r?   r@   rA   rB   r   r!   r   r   r   r#   rà   rÞ   r	   rñ   rð   r   r   r   r<   rC   rD   rE   s   @r,   r  r  d  sÝ   ø† ð˜|÷ ð  Øð 15Ø15Ø37Ø+/Ø59Ø59Ø$(ñ8
à˜E×,Ñ,Ñ-ð8
ð ! §¡Ñ.ð8
ð ˜u×/Ñ/Ñ0ð	8
ð
 " %™ð8
ð   × 1Ñ 1Ñ2ð8
ð ! ×!1Ñ!1Ñ2ð8
ð ˜D‘>ð8
ð Ð+Ñ,ð8
ð 
!ô8
ó ó ö8
r.   r  c                   óº  ^ • \ rS rSrS/rSS0rSS/S/40rU 4S jrS rS	 r	\
\           SS
\\R                     S\\R                     S\\R                     S\\\\\R&                     4      S\\R&                     S\\R                     S\\   S\\   S\\   S\\R                     S\\\R                  4   S\\   S\4S jj5       5       rSrU =r$ )ÚCohereForCausalLMi³  zlm_head.weightÚlm_headÚcolwise_repr9   Úlogitsc                 ó(  >• [         TU ]  U5        [        U5      U l        UR                  U l        [
        R                  " UR                  UR                  SS9U l        UR                  U l	        UR                  U l
        U R                  5         g r|   )r    r!   r  rô   r  r   r   r(   r   Úlogit_scaleÚtie_word_embeddingsr  r…   s     €r,   r!   ÚCohereForCausalLM.__init__¹  sq   ø€ Ü‰Ñ˜Ô Ü  Ó(ˆŒ
Ø ×+Ñ+ˆŒÜ—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒØ!×-Ñ-ˆÔØ#)×#=Ñ#=ˆÔ ð 	‰Õr.   c                 ó   • Xl         g rv   ©rô   )r'   Údecoders     r,   Úset_decoderÚCohereForCausalLM.set_decoderÄ  s   € Ø
r.   c                 ó   • U R                   $ rv   r(  )r'   s    r,   Úget_decoderÚCohereForCausalLM.get_decoderÇ  s   € Øz‰zÐr.   r  r–   rp   rõ   r  Úlabelsrè   Úoutput_attentionsÚoutput_hidden_statesrÏ   Úlogits_to_keepr™   rŠ   c                 ó  • Ub  UOU R                   R                  nU	b  U	OU R                   R                  n	U R                  " SUUUUUUUU	U
S.	UD6nUR                  n[        U[        5      (       a  [        U* S5      OUnU R                  USS2USS24   5      nUU R                  -  nSnUb)  U R                  " SUX`R                   R                  S.UD6n[        UUUR                  UR                  UR                  S9$ )aú  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>> from transformers import AutoTokenizer, CohereForCausalLM

>> model = CohereForCausalLM.from_pretrained("CohereForAI/c4ai-command-r-v01")
>> tokenizer = AutoTokenizer.from_pretrained("CohereForAI/c4ai-command-r-v01")

>> prompt = "Hey, are you conscious? Can you talk to me?"
>> inputs = tokenizer(prompt, return_tensors="pt")

>> # Generate
>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
```N)	r  r–   rp   rõ   r  rè   r0  r1  rÏ   )r"  r/  r  )Úlossr"  rõ   r9   rö   rê   )rI   r0  r1  rô   r  rR   rÝ   Úslicer   r$  Úloss_functionr  r   rõ   r9   rö   )r'   r  r–   rp   rõ   r  r/  rè   r0  r1  rÏ   r2  r™   Úoutputsr9   Úslice_indicesr"  r4  s                     r,   r<   ÚCohereForCausalLM.forwardÊ  s(  € ðN 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð
 ,0¯:ª:ð ,
ØØ)Ø%Ø+Ø'ØØ/Ø!5Ø)ñ,
ð ñ,
ˆð  ×1Ñ1ˆä8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆØ˜$×*Ñ*Ñ*ˆàˆØÑØ×%Ò%Ðp¨V¸FÏ{É{×OeÑOeÑpÐioÑpˆDä%ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r.   )r   r$  rô   r%  r  )NNNNNNNNNNr   )r?   r@   rA   rB   Ú_tied_weights_keysÚ_tp_planÚ_pp_planr!   r*  r-  r   r   r   r#   rà   rÞ   r   r	   Úlistrñ   rð   rÝ   r   r   r   r<   rC   rD   rE   s   @r,   r  r  ³  s  ø† à*Ð+ÐØ˜=Ð)€HØ˜_Ð-°¨zÐ:Ð;€Hõ	òòð Øð 15Ø15Ø37ØKOØ59Ø-1Ø$(Ø,0Ø/3Ø59Ø34ñH
à˜E×,Ñ,Ñ-ðH
ð ! §¡Ñ.ðH
ð ˜u×/Ñ/Ñ0ð	H
ð
 " %¨¨t°E×4EÑ4EÑ/FÐ(FÑ"GÑHðH
ð   × 1Ñ 1Ñ2ðH
ð ˜×)Ñ)Ñ*ðH
ð ˜D‘>ðH
ð $ D™>ðH
ð ' t™nðH
ð ! ×!1Ñ!1Ñ2ðH
ð ˜c 5§<¡<Ð/Ñ0ðH
ð Ð+Ñ,ðH
ð 
 ôH
ó ó öH
r.   r  )r  r  ró   )rÒ   )Nr   )7Útypingr   r   r   r#   r   Úactivationsr   Úcache_utilsr	   r
   Ú
generationr   Úmasking_utilsr   Úmodeling_flash_attention_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   Úmodeling_rope_utilsr   r   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   Úutils.genericr   Úconfiguration_coherer   ÚModuler   rG   ry   rÞ   rÝ   r‘   rf   r¨   r¯   r·   r¹   râ   ró   r  r  Ú__all__rê   r.   r,   Ú<module>rN     s™  ð÷< -Ñ ,ã Ý å !ß .Ý )Ý /Ý BÝ 9ß Oß Kß FÝ &ß IÑ IÝ /Ý .ô-b—i‘iô -ô"<˜BŸI™Iô <ôD—	‘	ô ð 	U˜UŸ\™\ð 	U°#ð 	U¸%¿,¹,ô 	Uð& ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð ð%ð Ð'Ñ(õ%ò4ô<ô<T)b—i‘iô T)ôn6Ð3ô 6ðr ô˜Oó ó ðð$ ôK
Ð'ó K
ó ðK
ð\ ô`
Ð-¨ó `
ó ð`
òF Hr.   