ó
    <±hûö  ã                   ó@  • S r SSKrSSKJrJrJrJr  SSKrSSKrSSKJ	r	  SSK
JrJrJr  SSKJr  SSKJrJr  SS	KJr  SS
KJr  SSKJr  SSKJrJrJr  SSKJrJr  SSK J!r!  SSK"J#r#J$r$  SSK%J&r&J'r'  SSK(J)r)  \'" 5       (       a  SSK*J+r+J,r,  SSK-J.r.  OSu  r.r,r+\&" 5       (       a	  SSK/J0r0J1r1  OSu  r1r0\2" \.\,\0\1\+45      r3\$Rh                  " \55      r6 " S S\	Rn                  5      r8S\Rr                  S\:S\Rr                  4S jr; " S S\5      r< S?S \	Rn                  S!\Rr                  S"\Rr                  S#\Rr                  S$\\Rr                     S%\=S&\=4S' jjr> " S( S)\	Rn                  5      r? " S* S+\	Rn                  5      r@ " S, S-\	Rn                  5      rA " S. S/\	Rn                  5      rB " S0 S1\	Rn                  5      rC " S2 S3\	Rn                  5      rD\# " S4 S5\5      5       rE\# " S6 S7\E5      5       rF " S8 S9\E\5      rG\#" S:S;9 " S< S=\E5      5       rH/ S>QrIg)@zPyTorch Zamba model.é    N)ÚAnyÚCallableÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚCacheÚDynamicCache)ÚGenerationMixin)ÚAttentionMaskConverter)ÚFlashAttentionKwargs)ÚBaseModelOutputWithPastÚCausalLMOutputWithPastÚ SequenceClassifierOutputWithPast)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)Úauto_docstringÚlogging)Úis_causal_conv1d_availableÚis_mamba_ssm_availableé   )ÚZambaConfig)Úmamba_inner_fnÚselective_scan_fn)Úselective_state_update)NNN)Úcausal_conv1d_fnÚcausal_conv1d_update©NNc                   ó8   ^ • \ rS rSrSU 4S jjrS rS rSrU =r$ )ÚZambaRMSNormé?   c                 óŒ   >• [         TU ]  5         [        R                  " [        R
                  " U5      5      U l        X l        g)z+
ZambaRMSNorm is equivalent to T5LayerNorm
N)ÚsuperÚ__init__r   Ú	ParameterÚtorchÚonesÚweightÚvariance_epsilon)ÚselfÚhidden_sizeÚepsÚ	__class__s      €Ú`/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/zamba/modeling_zamba.pyr)   ÚZambaRMSNorm.__init__@   s/   ø€ ô 	‰ÑÔÜ—l’l¤5§:¢:¨kÓ#:Ó;ˆŒØ #Õó    c                 ó  • UR                   nUR                  [        R                  5      nUR	                  S5      R                  SSS9nU[        R                  " X0R                  -   5      -  nU R                  UR                  U5      -  $ )Né   éÿÿÿÿT)Úkeepdim)	ÚdtypeÚtor+   Úfloat32ÚpowÚmeanÚrsqrtr.   r-   )r/   Úhidden_statesÚinput_dtypeÚvariances       r3   ÚforwardÚZambaRMSNorm.forwardH   sw   € Ø#×)Ñ)ˆØ%×(Ñ(¬¯©Ó7ˆØ ×$Ñ$ QÓ'×,Ñ,¨R¸Ð,Ð>ˆØ%¬¯ª°H×?TÑ?TÑ4TÓ(UÑUˆØ{‰{˜]×-Ñ-¨kÓ:Ñ:Ð:r5   c                 ó^   • [        U R                  R                  5       SU R                   3$ )Nz, eps=)Útupler-   Úshaper.   ©r/   s    r3   Ú
extra_reprÚZambaRMSNorm.extra_reprO   s*   € Ü˜Ÿ™×)Ñ)Ó*Ð+¨6°$×2GÑ2GÐ1HÐIÐIr5   )r.   r-   )gíµ ÷Æ°>)	Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r)   rC   rI   Ú__static_attributes__Ú__classcell__©r2   s   @r3   r%   r%   ?   s   ø† ÷$ò;÷Jð Jr5   r%   r@   Ún_repÚreturnc                 ó    • U R                   u  p#pEUS:X  a  U $ U SS2SS2SSS2SS24   R                  X#XU5      n U R                  X#U-  XE5      $ )zÈ
This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
r   N)rG   ÚexpandÚreshape)r@   rR   ÚbatchÚnum_key_value_headsÚslenÚhead_dims         r3   Ú	repeat_kvr[   T   s_   € ð
 2?×1DÑ1DÑ.€E ØƒzØÐØ!¢!¢Q¨ªa²Ð"2Ñ3×:Ñ:¸5ÐW\ÐdlÓm€MØ× Ñ  ¸eÑ(CÀTÓTÐTr5   c                   óî  • \ rS rSrSrSrSrSr\R                  S4S jr
S rS\S\\R                  \R                  4   4S	 jr SS
\R                  S\R                  S\S\\\\4      S\\R                  \R                  4   4
S jjrS\R*                  4S jrSS\\   S\4S jjrS\\\R                     \\R                     4   4S jr\SS\\\\R4                           SS4S jj5       rSrg)ÚZambaHybridDynamicCacheé`   a|  
A dynamic cache that can handle both the attention cache (which has a seq_len dimension) and the mamba cache
(which has a constant shape regardless of seq_len).

This cache has two sets of lists of tensors: `key_cache` and `value_cache` for attention cache and `conv_states`
and `ssm_states` for mamba cache. Each of these lists has `num_layers` tensors. The expected shape for each tensor
For attention layers, `key_cache` and `value_cache` have a shape of `(batch_size, num_heads, seq_len, head_dim)`,
while `conv_states` and `ssm_states` have a shape of `(batch_size, 0)` (empty tensors).
For mamba layers, `key_cache` and `value_cache` have a shape of `(batch_size, 0)` (empty tensors),
while `conv_states` represents the convolution state and has a shape of `(batch_size, d_inner, d_conv)`,
and `ssm_states` represents the ssm state and has a shape of `(batch_size, d_inner, d_state)`.
NFc                 ó$  • X0l         SU l        UR                  U l        SU l        UR                  UR
                  -  U l        UR                  U l        UR                  U l
        UR                  U l        / U l        / U l        / U l        0 U l        0 U l        0 U l        [%        UR&                  5       HË  nU =R                  [(        R*                  " X R                  U R                  XCS9/-  sl        UU R                  U R                  U R                  -  U R                  4nU =R                  [(        R*                  " XdUS9/-  sl        U R                  U   S:X  d  M°  U R                  R-                  U5        MÍ     [%        UR&                  5       Vs/ sH  n[(        R.                  " / /U-  US9PM     snU l        [%        UR&                  5       Vs/ sH  n[(        R.                  " / /U-  US9PM     snU l        g s  snf s  snf )NF©Údevicer:   Úhybrid©ra   )r:   Úis_compileableÚlayers_block_typeÚhas_previous_stateÚmamba_expandr0   Úintermediate_sizeÚmamba_d_stateÚssm_state_sizeÚmamba_d_convÚconv_kernel_sizeÚn_mamba_headsÚconv_statesÚ
ssm_statesÚtransformer_layersÚ_modulesÚ_parametersÚ_buffersÚrangeÚnum_hidden_layersr+   ÚzerosÚappendÚtensorÚ	key_cacheÚvalue_cache)r/   ÚconfigÚ
batch_sizer:   ra   ÚiÚcache_shapeÚ_s           r3   r)   Ú ZambaHybridDynamicCache.__init__r   sÎ  € ØŒ
Ø#ˆÔØ!'×!9Ñ!9ˆÔØ"'ˆÔØ!'×!4Ñ!4°v×7IÑ7IÑ!IˆÔØ$×2Ñ2ˆÔØ &× 3Ñ 3ˆÔØ#×1Ñ1ˆÔØˆÔØˆŒØ"$ˆÔØˆŒØˆÔØˆŒÜv×/Ñ/Ö0ˆAØ×ÒÜ—’˜J×(>Ñ(>À×@UÑ@UÐ^dÑrð!ñ Õð Ø×"Ñ"Ø×&Ñ&¨$×*<Ñ*<Ñ<Ø×#Ñ#ð	ˆKð OŠO¤§¢¨KÈeÑ TÐUÑUOØ×%Ñ% aÑ(¨HÕ4Ø×'Ñ'×.Ñ.¨qÖ1ñ 1ô SXÐX^×XpÑXpÔRqÓrÑRqÈQœ%Ÿ,š,¨ t¨jÑ'8ÀÔHÑRqÑrˆŒÜTYÐZ`×ZrÑZrÔTsÓtÑTsÈqœEŸLšL¨"¨°
Ñ):À6ÔJÑTsÑtˆÕùò sùÚts   Æ"HÇ"Hc                 ó,   • [        U R                  5      $ ©N)Úlenry   rH   s    r3   Ú__len__ÚZambaHybridDynamicCache.__len__’   s   € Ü4—>‘>Ó"Ð"r5   Ú	layer_idxrS   c                 ó>   • U R                   U   U R                  U   4$ r‚   )ry   rz   ©r/   r†   s     r3   Ú__getitem__Ú#ZambaHybridDynamicCache.__getitem__•   s!   € Ø~‰~˜iÑ(¨$×*:Ñ*:¸9Ñ*EÐEÐEr5   Ú
key_statesÚvalue_statesÚcache_kwargsc                 ó|  • U R                   U   R                  S   S:X  a  XR                   U'   X R                  U'   Ob[        R                  " U R                   U   U/SS9U R                   U'   [        R                  " U R                  U   U/SS9U R                  U'   U R                   U   U R                  U   4$ )Nr8   r   r7   ©Údim)ry   rG   rz   r+   Úcat)r/   r‹   rŒ   r†   r   s        r3   ÚupdateÚZambaHybridDynamicCache.update™   s®   € ð >‰>˜)Ñ$×*Ñ*¨2Ñ.°!Ó3Ø(2N‰N˜9Ñ%Ø*6×Ñ˜YÒ'ä(-¯	ª	°4·>±>À)Ñ3LÈjÐ2YÐ_`Ñ(aˆDN‰N˜9Ñ%Ü*/¯)ª)°T×5EÑ5EÀiÑ5PÐR^Ð4_ÐefÑ*gˆD×Ñ˜YÑ'à~‰~˜iÑ(¨$×*:Ñ*:¸9Ñ*EÐEÐEr5   Úbeam_idxc                 óò  • [        [        U R                  5      5       GHT  nU R                  U   R                  nU R                  U   R	                  SUR                  U5      5      U R                  U'   U R                  U   R                  nU R                  U   R	                  SUR                  U5      5      U R                  U'   U R                  U   R                  nU R                  U   R	                  SUR                  U5      5      U R                  U'   U R                  U   R                  nU R                  U   R	                  SUR                  U5      5      U R                  U'   GMW     g)zDReorders the cache for beam search, given the selected beam indices.r   N)	rt   rƒ   ry   ra   Úindex_selectr;   rz   rn   ro   )r/   r”   r†   ra   s       r3   Úreorder_cacheÚ%ZambaHybridDynamicCache.reorder_cache«   s=  € äœs 4§>¡>Ó2×3ˆIØ—^‘^ IÑ.×5Ñ5ˆFØ(,¯©°yÑ(A×(NÑ(NÈqÐRZ×R]ÑR]Ð^dÓReÓ(fˆDN‰N˜9Ñ%Ø×%Ñ% iÑ0×7Ñ7ˆFØ*.×*:Ñ*:¸9Ñ*E×*RÑ*RÐSTÐV^×VaÑVaÐbhÓViÓ*jˆD×Ñ˜YÑ'à×%Ñ% iÑ0×7Ñ7ˆFØ*.×*:Ñ*:¸9Ñ*E×*RÑ*RÐSTÐV^×VaÑVaÐbhÓViÓ*jˆD×Ñ˜YÑ'Ø—_‘_ YÑ/×6Ñ6ˆFØ)-¯©¸Ñ)C×)PÑ)PÐQRÐT\×T_ÑT_Ð`fÓTgÓ)hˆDO‰O˜IÔ&ò 4r5   c                 ó®   • XR                   ;  a  U R                   S   OUn[        U R                  5      U::  a  gU R                  U   R                  S   $ )zYReturns the sequence length of the cached states. A layer index can be optionally passed.r   éþÿÿÿ)rp   rƒ   ry   rG   rˆ   s     r3   Úget_seq_lengthÚ&ZambaHybridDynamicCache.get_seq_length¹   sP   € ð 3<×CZÑCZÓ2ZD×+Ñ+¨AÒ.Ð`iˆ	Üˆt~‰~Ó )Ó+ØØ~‰~˜iÑ(×.Ñ.¨rÑ2Ð2r5   c                 ó   • [        S5      e©Nz@ZambaHybridDynamicCache does not have a legacy cache equivalent.©ÚNotImplementedErrorrH   s    r3   Úto_legacy_cacheÚ'ZambaHybridDynamicCache.to_legacy_cacheÁ   s   € Ü!Ð"dÓeÐer5   Úpast_key_valuesr   c                 ó   • [        S5      erž   rŸ   )Úclsr£   s     r3   Úfrom_legacy_cacheÚ)ZambaHybridDynamicCache.from_legacy_cacheÄ   s   € ä!Ð"dÓeÐer5   )rs   rq   rr   rl   rn   r:   rf   rh   rd   ry   re   rm   rj   ro   rp   rz   r‚   )r   )rK   rL   rM   rN   Ú__doc__ry   rz   rd   r+   Úfloat16r)   r„   ÚintrF   ÚTensorr‰   r   ÚdictÚstrr   r’   Ú
LongTensorr—   r›   r¡   ÚclassmethodÚFloatTensorr¦   rO   © r5   r3   r]   r]   `   sM  † ñð €IØ€KØ€Nà16·±Àtô uò@#ðF Sð F¨U°5·<±<ÀÇÁÐ3MÑ-Nô Fð 26ñFà—L‘LðFð —l‘lðFð ð	Fð
 ˜t C¨ H™~Ñ.ðFð 
ˆu|‰|˜UŸ\™\Ð)Ñ	*õFð$i e×&6Ñ&6ô iñ3¨°©ð 3¸cõ 3ðf  u¨U¯\©\Ñ':¸EÀ%Ç,Á,Ñ<OÐ'OÑ!Pô fð ñf°¸¸uÀU×EVÑEVÑ?WÑ9XÑ0Yð fÐesô fó ófr5   r]   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutc                 ó@  • [        X R                  5      n[        X0R                  5      n	[        R                  " XR	                  SS5      5      U-  n
Ub"  US S 2S S 2S S 2S UR
                  S   24   nX«-   n
[        R                  R                  U
S[        R                  S9R                  UR                  5      n
[        R                  R                  X¦U R                  S9n
[        R                  " X©5      nUR	                  SS5      R                  5       nXÊ4$ )Nr7   r   rš   r8   )r   r:   )ÚpÚtrainingr   )r[   Únum_key_value_groupsr+   ÚmatmulÚ	transposerG   r   Ú
functionalÚsoftmaxr<   r;   r:   r¸   r»   Ú
contiguous)r²   r³   r´   rµ   r¶   r·   r¸   Úkwargsr‹   rŒ   Úattn_weightsÚcausal_maskÚattn_outputs                r3   Úeager_attention_forwardrÆ   É   sö   € ô ˜3× ;Ñ ;Ó<€JÜ˜U×$?Ñ$?Ó@€Lä—<’< ×';Ñ';¸A¸qÓ'AÓBÀWÑL€LØÑ!Ø$¢Qªª1Ð.D°
×0@Ñ0@ÀÑ0DÐ.DÐ%DÑEˆØ#Ñ1ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó:€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r5   c                   óô   ^ • \ rS rSrSrS\S\4U 4S jjr SS\R                  S\S\
\R                     S\
\   S	\\   S
\\R                  \
\R                     \
\\R                        4   4S jjrSrU =r$ )ÚZambaAttentionéã   a  
Multi-headed attention from 'Attention Is All You Need' paper. Modified to use sliding window attention: Longformer
and "Generating Long Sequences with Sparse Transformers".

Adapted from transformers.models.mistral.modeling_mistral.MistralAttention:
The input dimension here is attention_hidden_size = 2 * hidden_size, and head_dim = attention_hidden_size // num_heads.
The extra factor of 2 comes from the input being the concatenation of original_hidden_states with the output of the previous (mamba) layer
(see fig. 2 in https://huggingface.co/papers/2405.16712).
Additionally, replaced
attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim) with
attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim/2)
r{   r†   c                 ó  >• [         TU ]  5         Xl        X l        UR                  U l        UR
                  U l        UR                  UR                  -  U l	        UR                  U l
        U R                  S-  S-  U l        SU l        UR                  U l        [        R                  " UR                  UR                  U R                  -  SS9U l        [        R                  " UR                  UR                  U R                  -  SS9U l        [        R                  " UR                  UR                  U R                  -  SS9U l        [        R                  " UR                  U R                  -  UR&                  SS9U l        g )Nr7   ç      à¿TF©Úbias)r(   r)   r{   r†   Úattention_hidden_sizeÚattention_head_dimrZ   Únum_attention_headsrX   r¼   Úmax_position_embeddingsr·   Ú	is_causalÚattention_dropoutr   ÚLinearÚq_projÚk_projÚv_projr0   Úo_proj©r/   r{   r†   r2   s      €r3   r)   ÚZambaAttention.__init__ñ   s5  ø€ Ü‰ÑÔØŒØ"Œà%+×%AÑ%AˆÔ"Ø×1Ñ1ˆŒØ$*×$>Ñ$>À&×B\ÑB\Ñ$\ˆÔ!Ø'-×'EÑ'EˆÔ$ØŸ™¨Ñ)¨dÑ2ˆŒØˆŒØ!'×!9Ñ!9ˆÔä—i’i × <Ñ <¸f×>XÑ>XÐ[_×[hÑ[hÑ>hÐotÑuˆŒÜ—i’i × <Ñ <¸f×>XÑ>XÐ[_×[hÑ[hÑ>hÐotÑuˆŒÜ—i’i × <Ñ <¸f×>XÑ>XÐ[_×[hÑ[hÑ>hÐotÑuˆŒÜ—i’i × :Ñ :¸T¿]¹]Ñ JÈF×L^ÑL^ÐejÑkˆr5   r@   r¶   Úpast_key_valuerÂ   rS   c                 óì  • UR                   S S n/ UQSPU R                  P7nU R                  U5      R                  U5      R	                  SS5      nU R                  U5      R                  U5      R	                  SS5      n	U R                  U5      R                  U5      R	                  SS5      n
Ub  UR                  XšU5      u  pš[        nU R                  R                  S:w  a  [        U R                  R                     nU" U UU	U
U4U R                  (       d  SOU R                  U R                  S.UD6u  pÍUR                  " / UQSP76 R!                  5       nU R#                  U5      nXÍ4$ )Nr8   r   r7   Úeagerç        )r¸   r·   )rG   rZ   rÕ   Úviewr¾   rÖ   r×   r’   rÆ   r{   Ú_attn_implementationr   r»   rÓ   r·   rV   rÁ   rØ   )r/   r@   r†   r¶   rÛ   rÂ   Úinput_shapeÚhidden_shapeÚquery_statesr‹   rŒ   Úattention_interfacerÅ   rÃ   s                 r3   rC   ÚZambaAttention.forward  sk  € ð $×)Ñ)¨#¨2Ð.ˆØ8˜Ð8 bÐ8¨$¯-©-Ñ8ˆà—{‘{ =Ó1×6Ñ6°|ÓD×NÑNÈqÐRSÓTˆØ—[‘[ Ó/×4Ñ4°\ÓB×LÑLÈQÐPQÓRˆ
Ø—{‘{ =Ó1×6Ñ6°|ÓD×NÑNÈqÐRSÓTˆàÑ%Ø'5×'<Ñ'<¸ZÐW`Ó'aÑ$ˆJä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð	%
ð  $Ÿ}Ÿ}‘C°$×2HÑ2HØ—L‘Lñ	%
ð ñ	%
Ñ!ˆð "×)Ò)Ð;¨;Ð;¸Ò;×FÑFÓHˆØ—k‘k +Ó.ˆØÐ(Ð(r5   )rÓ   rÎ   r{   rZ   rÒ   rÖ   r†   rÑ   r¼   rØ   rÕ   r·   r×   r‚   )rK   rL   rM   rN   r¨   r   rª   r)   r+   r«   r   r]   r   r   rF   rC   rO   rP   rQ   s   @r3   rÈ   rÈ   ã   s¨   ø† ñðl˜{ð l°s÷ lð. =Añ#)à—|‘|ð#)ð ð#)ð ! §¡Ñ.ð	#)ð
 !Ð!8Ñ9ð#)ð Ð-Ñ.ð#)ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷#)ó #)r5   rÈ   c                   ó„   ^ • \ rS rSrSrS\4U 4S jjr SS\R                  S\	4S jjr
SS\	4S jjrSS\	4S	 jjrS
rU =r$ )ÚZambaMambaMixeri)  u!  
Compute âˆ†, A, B, C, and D the state space parameters and compute the `contextualized_states`.
A, D are input independent (see Mamba paper [1] Section 3.5.2 "Interpretation of A" for why A isn't selective)
âˆ†, B, C are input-dependent (this is a key difference between Mamba and the linear time invariant S4,
and is why Mamba is called **selective** state spaces)

This module differs from `transformers.models.mamba.modeling_mamba.MambaMixer` in two ways:
- Added multi-head: the output of `self.in_proj` is split into `self.n_mamba_heads` heads, and each head
undergoes an independent forward pass, identical to the original `MambaMixer`, up until the pre-activations of
`self.out_proj`. The pre-activations, coming from different mamba heads, are then concatenated and fed into `self.out_proj`.
r{   c           	      óþ  >• [         TU ]  5         Xl        X l        UR                  U l        UR
                  U l        UR                  U l        UR                  UR                  -  U l
        UR                  U l        UR                  U l        U R                  U R                  -  U l        UR                  U l        UR"                  U l        [&        R(                  " U R                  U R                  U R                   U R                  U R                  U R                  S-
  S9U l        UR,                  U l        [0        UR,                     U l        UR4                  U l        [&        R8                  " U R                  U R                  S-  U R$                  S9U l        [&        R<                  " [>        R@                  " U R                  U R                  U R                  S-  -   U R                  5      5      U l!        [&        R<                  " [>        R@                  " U R                  U R                  U R                  5      S-
  S-  U R                  S-  -  5      U l"        [&        R<                  " [>        R@                  " U R                  U R                  5      5      U l#        [>        RH                  " SU R                  S-   [>        RJ                  S9S S S 24   nURM                  U R                  S5      RO                  5       n[&        R<                  " [>        RP                  " U5      RS                  U R                  U R                  S5      5      U l*        [&        R<                  " [>        RV                  " U R                  U R                  5      5      U l,        [&        R8                  " U R                  U R                  U R$                  S9U l-        [\        (       d  [^        Ra                  S5        g g )	Nr   )Úin_channelsÚout_channelsrÍ   Úkernel_sizeÚgroupsÚpaddingr7   rÌ   g      à?©r:   r8   ap  The fast path is not available because on of `(selective_state_update, selective_scan_fn, causal_conv1d_fn, causal_conv1d_update, mamba_inner_fn)` is None. To install follow https://github.com/state-spaces/mamba/#installation and https://github.com/Dao-AILab/causal-conv1d. If you want to use the naive implementation, set `use_mamba_kernels=False` in the model config)1r(   r)   r{   r†   r0   ri   rj   rk   rl   rg   rh   Úmamba_dt_rankÚtime_step_rankrm   Úmamba_head_dimÚmamba_conv_biasÚuse_conv_biasÚmamba_proj_biasÚuse_biasr   ÚConv1dÚconv1dÚhidden_mamba_actÚ
activationr   ÚactÚuse_mamba_kernelsÚuse_fast_kernelsrÔ   Úin_projr*   r+   rv   Úx_proj_weightÚdt_proj_weightÚdt_proj_biasÚaranger<   rU   rÁ   ÚlogrV   ÚA_logr,   ÚDÚout_projÚis_fast_path_availableÚloggerÚwarning_once)r/   r{   r†   ÚAr2   s       €r3   r)   ÚZambaMambaMixer.__init__6  s
  ø€ Ü‰ÑÔØŒØ"ŒØ!×-Ñ-ˆÔØ$×2Ñ2ˆÔØ &× 3Ñ 3ˆÔØ!'×!4Ñ!4°v×7IÑ7IÑ!IˆÔØ$×2Ñ2ˆÔØ#×1Ñ1ˆÔØ"×4Ñ4¸×8JÑ8JÑJˆÔØ#×3Ñ3ˆÔØ×.Ñ.ˆŒÜ—i’iØ×.Ñ.Ø×/Ñ/Ø×#Ñ#Ø×-Ñ-Ø×)Ñ)Ø×)Ñ)¨AÑ-ñ
ˆŒð !×1Ñ1ˆŒÜ˜&×1Ñ1Ñ2ˆŒà &× 8Ñ 8ˆÔô —y’y ×!1Ñ!1°4×3IÑ3IÈAÑ3MÐTX×TaÑTaÑbˆŒô  Ÿ\š\ÜKŠKØ×"Ñ"Ø×#Ñ# d×&9Ñ&9¸AÑ&=Ñ=Ø×#Ñ#óó
ˆÔô !ŸlšlÜ[Š[˜×+Ñ+¨T×-@Ñ-@À$×BUÑBUÓVÐY\Ñ\Øñà×!Ñ! 3Ñ&ñ'ó
ˆÔô
 ŸLšL¬¯ª°T×5GÑ5GÈ×I\ÑI\Ó)]Ó^ˆÔô LŠL˜˜D×/Ñ/°!Ñ3¼5¿=¹=ÑIÈ$ÒPQÈ'ÑRˆØH‰HT×+Ñ+¨RÓ0×;Ñ;Ó=ˆÜ—\’\¤%§)¢)¨A£,×"6Ñ"6°t×7IÑ7IÈ4×K^ÑK^Ð`bÓ"cÓdˆŒ
Ü—’œeŸjšj¨×);Ñ);¸T×=PÑ=PÓQÓRˆŒÜŸ	š	 $×"8Ñ"8¸$×:JÑ:JÐQU×Q^ÑQ^Ñ_ˆŒç%Ò%Ü×Ñð^õð &r5   r@   Úcache_paramsc                 óö  • UR                   u  pEnUS L=(       a    UR                  =(       a    US:H  nU R                  U5      R                  SS5      nUR	                  USSU5      R                  SSS9u  pUR                  S5      R                  5       nU	R                  S5      n	U	R                  X@R                  SU5      R                  SS5      n	U R                  R                  R	                  U R                  R                  R                  S5      U R                  R                  R                  S5      5      n
U(       ae  [        UR                  S5      UR                  U R                     U
U R                  R                   U R"                  5      nUR%                  S5      nO÷Ub1  [&        R(                  " US:H  5      (       d  XR%                  S5      -  nUbc  [*        R,                  R/                  XR0                  UR                   S   -
  S45      nUR                  U R                     R3                  U5        [5        XU R                  R                   U R"                  S9nUb1  [&        R(                  " US:H  5      (       d  XR%                  S5      -  nUR                  SU R                  U R6                  U5      R                  SS5      nU R8                  S S 2S S S 2S S 24   U-  R                  SS5      n[&        R:                  " XÀR<                  U R>                  U R>                  /SS9u  pÞnU R@                  S S 2S 4   UR                  SS5      -  n[&        RB                  " U RD                  RG                  5       5      * nU RH                  b  U RH                  RG                  5       OS n[&        RJ                  " USU4URL                  URN                  S9nU(       a©  [Q        U R                  5       HŽ  n[S        URT                  U R                     S S 2U4   UUS	S4   UUS	S4   UU   UUS S 2S4   UUS S 2S4   U RV                  U   U	US	S4   UU   S
S9
R%                  S5      n[&        RX                  " UU4SS9nM     GO<[&        RJ                  " USU R6                  U R>                  4URL                  URN                  S9n[Q        U R                  5       H³  n[[        UU   UU   UU   UU   R                  SS5      UU   R                  SS5      U RV                  U   RG                  5       U	U   UU   S
S
S9
u  nn[&        RX                  " UU4SS9R                  5       n[&        RX                  " UUR%                  S5      4SS9nMµ     Ub+  Ub(  URT                  U R                     R3                  U5        U R]                  UR                  SS5      5      nU$ )Nr   r7   r8   r   r   )rù   rš   r`   .T)Údt_softplus)Údelta_softplusÚreturn_last_state)/rG   rf   rý   r¾   rß   ÚchunkÚsqueezerÁ   rV   rm   r÷   r-   Úsizer"   rn   r†   rÍ   rù   Ú	unsqueezer+   Úallr   r¿   Úpadrl   Úcopy_r!   rñ   rþ   Úsplitrð   rj   rÿ   Úexpr  Úfloatr   Úemptyra   r:   rt   r    ro   r  r‘   r   r  )r/   r@   r  r¶   r|   Úseq_lenr   Úuse_precomputed_statesÚprojected_statesÚgateÚconv_weightsrn   Ússm_parametersÚ	time_stepÚBÚCÚdiscrete_time_stepr	  Útime_proj_biasÚscan_outputsÚnÚscan_outputs_Ú	ssm_stateÚ
ssm_state_Úcontextualized_statess                            r3   Úcuda_kernels_forwardÚ$ZambaMambaMixer.cuda_kernels_forwards  sn  € ð "/×!4Ñ!4Ñˆ
˜QØ!-°TÐ!9×!n¸l×>]Ñ>]×!nÐbiÐmnÑbnÐð  Ÿ<™<¨Ó6×@Ñ@ÀÀAÓFÐà.×3Ñ3°JÀÀAÀwÓO×UÑUÐVWÐ]^ÐUÐ_ÑˆØ%×-Ñ-¨aÓ0×;Ñ;Ó=ˆØ|‰|˜A‹ˆØ|‰|˜J×(:Ñ(:¸BÀÓH×RÑRÐSTÐVWÓXˆð —{‘{×)Ñ)×.Ñ.¨t¯{©{×/AÑ/A×/FÑ/FÀqÓ/IÈ4Ï;É;×K]ÑK]×KbÑKbÐcdÓKeÓfˆÞ!Ü0Ø×%Ñ% bÓ)Ø×(Ñ(¨¯©Ñ8ØØ—‘× Ñ Ø—‘óˆMð *×3Ñ3°BÓ7‰MàÑ)´%·)²)¸NÈaÑ<O×2PÑ2PØ -×0HÑ0HÈÓ0KÑ KØÑ'Ü Ÿm™m×/Ñ/°×@UÑ@UÐXe×XkÑXkÐlnÑXoÑ@oÐqrÐ?sÓtØ×(Ñ(¨¯©Ñ8×>Ñ>¸{ÔKÜ,¨]È$Ï+É+×JZÑJZÐgk×gvÑgvÑwˆMØÑ)´%·)²)¸NÈaÑ<O×2PÑ2PØ -×0HÑ0HÈÓ0KÑ Kð
 &×-Ñ-¨b°$×2DÑ2DÀd×FYÑFYÐ[bÓc×mÑmÐnoÐqrÓsˆØ×,Ñ,ªQ°²aº¨]Ñ;¸mÑK×VÑVÐWYÐ[]Ó^ˆäŸ+š+Ø×0Ñ0°$×2EÑ2EÀt×GZÑGZÐ[Ðacñ
‰ˆ	að "×0Ñ0²°D°Ñ9¸I×<OÑ<OÐPRÐTVÓ<WÑWÐäYŠYt—z‘z×'Ñ'Ó)Ó*Ð*ˆð 7;×6GÑ6GÑ6S˜×*Ñ*×0Ñ0Ô2ÐY]ˆÜ—{’{ J°°7Ð#;ÀM×DXÑDXÐ`m×`sÑ`sÑtˆæ!Ü˜4×-Ñ-Ö.Ü 6Ø ×+Ñ+¨D¯N©NÑ;ºA¸q¸DÑAØ! ! S¨! )Ñ,Ø& q¨#¨q yÑ1Øa‘DØaš˜Ag‘JØaš˜Ag‘JØ—F‘F˜1‘IØ˜˜C ˜‘OØ" 1Ñ%Ø $ñ!÷ ‘)˜B“-ð ô  %Ÿyšy¨,¸Ð)FÈAÑN’ó /ô  ŸšØ˜Q × 3Ñ 3°T×5HÑ5HÐIØ$×+Ñ+Ø#×)Ñ)ñˆIô
 ˜4×-Ñ-Ö.Ü,=Ø! !Ñ$Ø& qÑ)Øa‘DØa‘D—N‘N 1 aÓ(Øa‘D—N‘N 1 aÓ(Ø—F‘F˜1‘I—O‘OÓ%Ø˜‘GØ" 1Ñ%Ø#'Ø&*ñ-Ñ)˜zô  %Ÿyšy¨,¸Ð)FÈAÑN×YÑYÓ[Ü!ŸIšI y°*×2FÑ2FÀqÓ2IÐ&JÐPQÑR’	ñ /ð Ñ$¨Ñ)AØ×'Ñ'¨¯©Ñ7×=Ñ=¸iÔHð !%§¡¨l×.DÑ.DÀQÈÓ.JÓ KÐØ$Ð$r5   c           
      óR  • UR                   u  pEnUR                  nU R                  U5      R                  SS5      nUR	                  USSU5      R                  SSS9u  pšU	R                  S5      R                  5       n	U
R                  S5      n
U
R                  X@R                  SU5      R                  SS5      n
[        U[        5      nU(       GaØ  UR                  U R                     R                   S   U:X  Ga­  U R                  (       a(  UR                  U R                     R                  5       nOUR                  U R                     nUR!                  U	R"                  5      nUR$                  (       Ga  US:X  Ga  UR&                  U R                     R                   S   U:X  aì  UR&                  U R                     n[(        R*                  " USSS9nU	S S 2S S 2S4   US S 2S S 2S4'   XÒR&                  U R                  '   [(        R,                  " XÐR.                  R0                  S S 2SS S 24   -  SS9n	U R2                  (       a  XR.                  R4                  -  n	U R7                  U	5      R!                  U5      R9                  S5      n	GOáUbH  [(        R:                  " US:H  5      (       d*  X“S S 2U	R                   S   * S 24   R9                  S5      -  n	[<        R>                  RA                  XRB                  U	R                   S   -
  S45      nXÒR&                  U R                  '   U R7                  U R/                  U	5      SS U24   5      n	UbH  [(        R:                  " US:H  5      (       d*  X“S S 2U	R                   S   * S 24   R9                  S5      -  n	OÐ[(        RD                  " X@R                  U RF                  U RH                  4U	R"                  US9nUb1  [(        R:                  " US:H  5      (       d  X“R9                  S5      -  n	U R7                  U R/                  U	5      SS U24   5      n	Ub1  [(        R:                  " US:H  5      (       d  X“R9                  S5      -  n	U	R                  SU R                  U RF                  U5      R                  SS5      n	U RJ                  S S 2S S S 2S S 24   U	-  R                  SS	5      n[(        RL                  " XàRN                  U RH                  U RH                  /SS9u  nnnU RP                  S S 2S 4   UR                  SS	5      -  U RR                  S S 2S S S 2S 4   -   n[<        R>                  RU                  U5      n[(        RV                  " U RX                  R[                  5       5      * n[(        RV                  " US S 2S S S 2S S S 24   US S 2S S 2S S 2S S 2S 4   -  5      nUS S 2S S 2S S 2S S 2S 4   US S 2S S 2S S S 2S S 24   R[                  5       -  nUU	S S 2S S 2S S 2S S 2S 4   R[                  5       -  n/ n[]        U5       H»  nUS S 2S S 2S S 2US S 24   R                  SS5      U-  US S 2S S 2S S 2US S 24   R                  SS5      -   n[(        R^                  " UR                  SS5      R!                  U5      US S 2S S 2US S 24   R9                  S5      5      nURa                  US S 2S S 2S S 2S4   5        M½     [(        Rb                  " USS9nUXRd                  S S 2S S S 2S 4   -  -   nUU R7                  U
5      -  nU(       a  XÂR                  U R                  '   U Rg                  UR                  SS5      R                  USU5      R                  SS5      5      nU$ )
Nr   r7   r8   r   r   )ÚshiftsÚdims.r`   rš   )4rG   r:   rý   r¾   rß   r  r  rÁ   rV   rm   Ú
isinstancer]   ro   r†   r»   Úcloner;   ra   rf   rn   r+   ÚrollÚsumr÷   r-   ró   rÍ   rú   r  r  r   r¿   r  rl   rv   rñ   rj   rþ   r  rð   rÿ   r   Úsoftplusr  r  r  rt   r½   rw   Ústackr  r  )r/   Úinput_statesr  r¶   r|   r  r   r:   r  r@   r  Ú	use_cacher)  Ú
conv_stater   r!  r"  r#  r$  r	  Ú
discrete_AÚ
discrete_BÚdeltaB_ur&  r}   Úscan_outputr+  s                              r3   Úslow_forwardÚZambaMambaMixer.slow_forwardÔ  sÕ  € Ø!-×!3Ñ!3Ñˆ
˜QØ×"Ñ"ˆàŸ<™<¨Ó5×?Ñ?ÀÀ1ÓEÐà.×3Ñ3°JÀÀAÀwÓO×UÑUÐVWÐ]^ÐUÐ_ÑˆØ%×-Ñ-¨aÓ0×;Ñ;Ó=ˆØ|‰|˜A‹ˆØ|‰|˜J×(:Ñ(:¸BÀÓH×RÑRÐSTÐVWÓXˆä˜|Ô-DÓEˆ	ç˜×0Ñ0°·±Ñ@×FÑFÀqÑIÈZÔWØ}}à(×3Ñ3°D·N±NÑC×IÑIÓK‘	à(×3Ñ3°D·N±NÑC	à!Ÿ™ ]×%9Ñ%9Ó:ˆIð ×/×/Ð/Ø˜q”LØ ×,Ñ,¨T¯^©^Ñ<×BÑBÀ1ÑEÈÓSà)×5Ñ5°d·n±nÑE
Ü"ŸZšZ¨
¸2ÀBÑG
Ø'4²Qº¸1°WÑ'=
š1ša ˜8Ñ$Ø;E×(Ñ(¨¯©Ñ8Ü %§	¢	¨*·{±{×7IÑ7IÊ!ÈQÒPQÈ'Ñ7RÑ*RÐXZÑ [Ø×%×%Ø!§[¡[×%5Ñ%5Ñ5MØ $§¡¨Ó 7× :Ñ :¸5Ó A× KÑ KÈBÓ O’à!Ñ-´e·i²iÀÐRSÑ@S×6TÑ6TØ$1Â1À}×GZÑGZÐ[]ÑG^ÐF^ÑF`ÐC`Ñ4a×4kÑ4kÐlmÓ4nÑ$nMÜŸ]™]×.Ñ.¨}×?TÑ?TÐWd×WjÑWjÐkmÑWnÑ?nÐpqÐ>rÓs
Ø;E×(Ñ(¨¯©Ñ8Ø $§¡¨¯©°]Ó)CÀCÈÈ'ÈÀMÑ)RÓ SØ!Ñ-´e·i²iÀÐRSÑ@S×6TÑ6TØ$1Â1À}×GZÑGZÐ[]ÑG^ÐF^ÑF`ÐC`Ñ4a×4kÑ4kÐlmÓ4nÑ$nMøäŸšØ×/Ñ/°×1DÑ1DÀd×FYÑFYÐZØ$×+Ñ+ØñˆIð
 Ñ)´%·)²)¸NÈaÑ<O×2PÑ2PØ -×0HÑ0HÈÓ0KÑ KØ ŸH™H T§[¡[°Ó%?ÀÀXÀgÀXÀÑ%NÓOˆMØÑ)´%·)²)¸NÈaÑ<O×2PÑ2PØ -×0HÑ0HÈÓ0KÑ Kð &×-Ñ-¨b°$×2DÑ2DÀd×FYÑFYÐ[bÓc×mÑmÐnoÐqrÓsˆØ×,Ñ,ªQ°²aº¨]Ñ;¸mÑK×VÑVÐWYÐ[]Ó^ˆäŸ+š+Ø×0Ñ0°$×2EÑ2EÀt×GZÑGZÐ[Ðacñ
‰ˆ	1að #×1Ñ1²!°T°'Ñ:¸Y×=PÑ=PÐQSÐUWÓ=XÑXÐ\`×\mÑ\mÚˆt’Q˜Ðñ]
ñ 
Ðô  Ÿ]™]×3Ñ3Ð4FÓGÐô YŠYt—z‘z×'Ñ'Ó)Ó*Ð*ˆÜ—Y’Y˜q¢ Dª!¨T²1Ð!4Ñ5Ð8JÊ1ÊaÒQRÒTUÐW[ÐK[Ñ8\Ñ\Ó]ˆ
Ø'ªª1ªa²°DÐ(8Ñ9¸AºaÂÀDÊ!ÊQÐ>NÑ<O×<UÑ<UÓ<WÑWˆ
Ø ªa²²A²q¸$Ð.>Ñ ?× EÑ EÓ GÑGˆàˆÜw–ˆAØ"¢1¢aª¨Aªq =Ñ1×;Ñ;¸A¸qÓAÀIÑMÐPXÒYZÒ\]Ò_`ÐbcÒefÐYfÑPg×PqÑPqÐrsÐuvÓPwÑwˆIÜŸ,š, y×':Ñ':¸1¸aÓ'@×'CÑ'CÀEÓ'JÈAÊaÒQRÐTUÒWXÈjÉM×LcÑLcÐdfÓLgÓhˆKØ×Ñ ªAªq²!°Q¨JÑ 7Ö8ñ  ô —k’k ,°BÑ7ˆØ! ]·V±VºA¸tÂQÈÐ<LÑ5MÑ%MÑNˆØ! D§H¡H¨T£NÑ2ˆæØ6?×#Ñ# D§N¡NÑ3ð !%§¡Ø×!Ñ! ! QÓ'×/Ñ/°
¸BÀÓH×RÑRÐSTÐVWÓXó!
Ðð %Ð$r5   c                 óØ   • U R                   (       aJ  [        (       a$  SU R                  R                  R                  ;  a  [        S5      eU R                  XUS9$ U R                  XUS9$ )NÚcudazôFast Mamba kernels are not available. Make sure to they are installed and that the mamba module is on a CUDA device. lease run 'pip install causal-conv1d>=1.2.0' and 'pip install mamba-ssm', or set use_mamba_kernels=False in the model's config.)r¶   )rü   r  rþ   ra   ÚtypeÚ
ValueErrorr,  r>  )r/   r@   r  r¶   s       r3   rC   ÚZambaMambaMixer.forward1  sl   € Ø× × ß)Ò)¨V¸4×;MÑ;M×;TÑ;T×;YÑ;YÓ-YÜ ðióð ð
 ×,Ñ,¨]ÐYgÐ,ÐhÐhØ× Ñ  È^Ð Ð\Ð\r5   )r  r  rú   rù   r{   r÷   rl   r   rÿ   r0   rý   rh   r†   rñ   rm   r  rj   rð   rõ   ró   rü   rþ   r#   )rK   rL   rM   rN   r¨   r   r)   r+   r«   r]   r,  r>  rC   rO   rP   rQ   s   @r3   rç   rç   )  s^   ø† ñ
ð;˜{÷ ;ð| imñ_%Ø"Ÿ\™\ð_%Ø9Põ_%ñB[%Ð7Nõ [%ñz	]Ð3J÷ 	]ó 	]r5   rç   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚZambaMLPi>  c                 ó¼  >• [         TU ]  5         Xl        UR                  U l        UR                  U l        [
        R                  " U R                  U R                  SS9U l        [
        R                  " U R                  U R                  SS9U l        [
        R                  " U R                  U R                  SS9U l	        [        UR                     U l        g ©NFrÌ   )r(   r)   r{   r0   rh   r   rÔ   Ú	gate_projÚup_projÚ	down_projr   Ú
hidden_actÚact_fn©r/   r{   r2   s     €r3   r)   ÚZambaMLP.__init__?  s¤   ø€ Ü‰ÑÔØŒØ!×-Ñ-ˆÔØ!'×!9Ñ!9ˆÔÜŸš 4×#3Ñ#3°T×5KÑ5KÐRWÑXˆŒÜ—y’y ×!1Ñ!1°4×3IÑ3IÐPUÑVˆŒÜŸš 4×#9Ñ#9¸4×;KÑ;KÐRWÑXˆŒÜ˜V×.Ñ.Ñ/ˆr5   c                 óˆ   • U R                  U R                  U R                  U5      5      U R                  U5      -  5      nU$ r‚   )rK  rM  rI  rJ  )r/   ÚxrK  s      r3   rC   ÚZambaMLP.forwardI  s6   € Ø—N‘N 4§;¡;¨t¯~©~¸aÓ/@Ó#AÀDÇLÁLÐQRÃOÑ#SÓTˆ	ØÐr5   )rM  r{   rK  rI  r0   rh   rJ  )rK   rL   rM   rN   r)   rC   rO   rP   rQ   s   @r3   rF  rF  >  s   ø† õ0÷ð r5   rF  c                   ó(  ^ • \ rS rSrSS\S\\   4U 4S jjjr    SS\R                  S\R                  S\S\\R                     S\\
   S	\\   S
\\   S\\   S\\R                  \\\R                  \R                  4      4   4S jjrSrU =r$ )ÚZambaAttentionDecoderLayeriN  r{   r†   c                 óî   >• [         TU ]  5         [        X5      U l        [	        U5      U l        [        UR                  UR                  S9U l	        [        UR                  UR                  S9U l        g )N©r1   )r(   r)   rÈ   Ú	self_attnrF  Úfeed_forwardr%   rÎ   Úrms_norm_epsÚinput_layernormr0   Úpre_ff_layernormrÙ   s      €r3   r)   Ú#ZambaAttentionDecoderLayer.__init__O  s]   ø€ Ü‰ÑÔÜ'¨Ó:ˆŒä$ VÓ,ˆÔÜ+¨F×,HÑ,HÈf×NaÑNaÑbˆÔÜ ,¨V×-?Ñ-?ÀV×EXÑEXÑ YˆÕr5   r@   Úoriginal_hidden_statesr¶   rÛ   Úoutput_attentionsr8  rÂ   rS   c           
      óì   • [         R                  " X/SS9nU R                  U5      nU R                  " SUUUUUUS.UD6u  pU R	                  U5      nU R                  U5      nU4n
U(       a  X©4-  n
U
$ )ai  
Args:
    hidden_states (`torch.FloatTensor`): output of previous Mamba layer of shape `(batch, seq_len, embed_dim)`
    original_hidden_states (`torch.FloatTensor`): word embedding output of shape `(batch, seq_len, embed_dim)`.
        This is concatenated with `hidden_states` (which is the output of the previous (mamba) layer). The
        concatenated tensor is then used as input of the pre-attention RMSNorm
        (see fig. 2 in https://huggingface.co/papers/2405.16712).
    layer_idx (`int`): layer_idx in the forward pass. Used to distinguish Zamba's tied transformer layers.
    attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
        `(batch, sequence_length)` where padding elements are indicated by 0.
    past_key_value (`ZambaHybridDynamicCache`, *optional*): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence.
r8   r   )r@   r†   r¶   rÛ   r^  r8  r±   )r+   ÚconcatenaterZ  rW  r[  rX  )r/   r@   r]  r†   r¶   rÛ   r^  r8  rÂ   Úself_attn_weightsÚoutputss              r3   rC   Ú"ZambaAttentionDecoderLayer.forwardW  s™   € ô> ×)Ò)¨=Ð*QÐWYÑZˆØ×,Ñ,¨]Ó;ˆØ+/¯>ª>ð ,
Ø'ØØ)Ø)Ø/Øñ,
ð ñ,
Ñ(ˆð ×-Ñ-¨mÓ<ˆØ×)Ñ)¨-Ó8ˆà Ð"ˆæØÐ+Ñ+ˆGàˆr5   )rX  rZ  r[  rW  r‚   )NNFF)rK   rL   rM   rN   r   r   rª   r)   r+   r«   r]   Úboolr   r   rF   r°   rC   rO   rP   rQ   s   @r3   rT  rT  N  sã   ø† ñZ˜{ð Z°xÀ±}÷ Zð Zð 26Ø<@Ø,1Ø$)ñ3à—|‘|ð3ð !&§¡ð3ð ð	3ð
 ! §¡Ñ.ð3ð !Ð!8Ñ9ð3ð $ D™>ð3ð ˜D‘>ð3ð Ð-Ñ.ð3ð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷3ó 3r5   rT  c                   ó„  ^ • \ rS rSrS\S\4U 4S jjr         SS\R                  S\	\R                     S\	\   S\	\R                     S\	\R                     S	\	\
   S
\	\   S\	\   S\	\R                     S\	\R                     S\\R                  \	\\R                  \R                  4      4   4S jjrSrU =r$ )ÚZambaMambaDecoderLayeri  r{   r†   c                 ó   >• [         TU ]  5         [        XS9U l        [	        UR
                  UR                  S9U l        X l        g )N)r{   r†   rV  )	r(   r)   rç   Úmambar%   r0   rY  rZ  r†   rÙ   s      €r3   r)   ÚZambaMambaDecoderLayer.__init__Ž  s:   ø€ Ü‰ÑÔÜ$¨FÑHˆŒ
Ü+¨F×,>Ñ,>ÀF×DWÑDWÑXˆÔØ"r5   r@   r]  r¶   rÄ   rÛ   r^  r8  Úcache_positionÚtransformer_hidden_statesrS   c                 ó¢   • UnU
b  X-   OUnU R                  U5      nU R                  UUUS9nSnXÁ-   nU4nU(       a  Xí4-  nU(       a  Xæ4-  nU$ )a†  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
        `(batch, sequence_length)` where padding elements are indicated by 0.
    past_key_value (`ZambaHybridDynamicCache`, *optional*): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence.
N)r@   r  r¶   )rZ  rh  )r/   r@   r]  r†   r¶   rÄ   rÛ   r^  r8  rj  rk  rÂ   Úresidualra  rb  s                  r3   rC   ÚZambaMambaDecoderLayer.forward”  sˆ   € ð< !ˆð
 :SÑ9^ˆMÒ5Ðdqð 	ð ×,Ñ,¨]Ó;ˆàŸ
™
Ø'Ø'Ø)ð #ð 
ˆð !Ðð !Ñ0ˆà Ð"ˆæØÐ+Ñ+ˆGæØÐ(Ñ(ˆGàˆr5   )rZ  r†   rh  )	NNNNNFFNN)rK   rL   rM   rN   r   rª   r)   r+   r«   r   r]   rd  r®   rF   r°   rC   rO   rP   rQ   s   @r3   rf  rf    s  ø† ð#˜{ð #°s÷ #ð :>Ø#'Ø15Ø.2Ø<@Ø,1Ø$)Ø59Ø<@ñ:à—|‘|ð:ð !)¨¯©Ñ 6ð:ð ˜C‘=ð	:ð
 ! §¡Ñ.ð:ð ˜eŸl™lÑ+ð:ð !Ð!8Ñ9ð:ð $ D™>ð:ð ˜D‘>ð:ð ! ×!1Ñ!1Ñ2ð:ð $,¨E¯L©LÑ#9ð:ð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷:ó :r5   rf  c                   ó|  ^ • \ rS rSrS\S\R                  S\4U 4S jjr        SS\	R                  S\\	R                     S\\   S	\\	R                     S
\\	R                     S\\   S\\   S\\   S\\	R                     S\\	R"                  \\\	R"                  \	R"                  4      4   4S jjrSrU =r$ )ÚZambaHybridLayeriÑ  Úshared_transfÚlinearrh  c                 óF   >• [         TU ]  5         Xl        X l        X0l        g r‚   )r(   r)   rq  rr  Úmamba_decoder)r/   rq  rr  rh  r2   s       €r3   r)   ÚZambaHybridLayer.__init__Ò  s   ø€ Ü‰ÑÔØ*ÔØŒØ"Õr5   r@   r]  r†   r¶   rÄ   rÛ   r^  r8  rj  rS   c
                 óÈ   • U R                  UUUUUUUU	S9n
U
S   nU(       a  U
S   nU R                  U5      nU R                  UUUUUUU	S9n
U(       a  U
S   W4U
SS -   n
U
$ )a\  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    original_hidden_states (`torch.FloatTensor`): word embedding output that will be concatenated with
    hidden activations to form the input of the shared transformer layer.
    layer_idx (`int`): layer number.
    attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
        `(batch, sequence_length)` where padding elements are indicated by 0.
    past_key_value (`ZambaHybridDynamicCache`, *optional*): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence.
)r]  r†   r¶   rÛ   r^  r8  rj  r   r   )rk  r¶   rÛ   r^  r8  rj  r7   N)rq  rr  rt  )r/   r@   r]  r†   r¶   rÄ   rÛ   r^  r8  rj  Úlayer_outputsrk  ra  s                r3   rC   ÚZambaHybridLayer.forwardØ  s¯   € ð> ×*Ñ*ØØ#9ØØ&Ø)Ø/ØØ)ð +ð 	
ˆð %2°!Ñ$4Ð!æØ -¨aÑ 0Ðà$(§K¡KÐ0IÓ$JÐ!à×*Ñ*ØØ&?Ø)Ø)Ø/ØØ)ð +ð 
ˆö Ø*¨1Ñ-Ð/@ÐAÀMÐRSÐRTÐDUÑUˆMàÐr5   )rr  rt  rq  )NNNNNFFN)rK   rL   rM   rN   rT  r   rÔ   rf  r)   r+   r«   r   rª   r]   rd  r®   rF   r°   rC   rO   rP   rQ   s   @r3   rp  rp  Ñ  s  ø† ð#Ð&@ð #È"Ï)É)ð #Ð\r÷ #ð :>Ø#'Ø15Ø.2Ø<@Ø,1Ø$)Ø59ñ>à—|‘|ð>ð !)¨¯©Ñ 6ð>ð ˜C‘=ð	>ð
 ! §¡Ñ.ð>ð ˜eŸl™lÑ+ð>ð !Ð!8Ñ9ð>ð $ D™>ð>ð ˜D‘>ð>ð ! ×!1Ñ!1Ñ2ð>ð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷>ó >r5   rp  c                   óF   • \ rS rSr% \\S'   SrSrSS/rSr	Sr
SrSrS	 rS
rg)ÚZambaPreTrainedModeli  r{   ÚmodelTrT  rf  r£   Fc                 ót  • U R                   R                  n[        U[        R                  [        R
                  45      (       aW  UR                  R                  R                  SUS9  UR                  b%  UR                  R                  R                  5         g g [        U[        R                  5      (       ad  UR                  R                  R                  SUS9  UR                  b2  UR                  R                  UR                     R                  5         g g [        U[        5      (       a&  UR                  R                  R                  S5        g [        U[        5      (       GaÈ  UR                   R                  R                  SUS9  U R                   R"                  S-  n[        R$                  R'                  UR(                  U* U5        U R                   R*                  U R                   R,                  -  U R                   R.                  -  n[0        R2                  " [0        R4                  " U R                   R.                  U5      [6        R8                  " U R                   R:                  5      [6        R8                  " U R                   R<                  5      -
  -  [6        R8                  " U R                   R<                  5      -   5      R?                  U R                   R@                  S9nU[0        R8                  " [0        RB                  " U* 5      * 5      -   nURD                  R                  RG                  U5        [0        RH                  " SURJ                  S-   [0        RL                  S9S S S 24   nURO                  URP                  S5      RS                  5       nURT                  R                  RG                  [0        R8                  " U5      RW                  UR.                  URX                  S5      5        URZ                  R                  R                  S5        g g )	NrÞ   )r>   Ústdg      ð?rË   )Úminr   rî   r8   ).r{   Úinitializer_ranger1  r   rÔ   rö   r-   ÚdataÚnormal_rÍ   Úzero_Ú	EmbeddingÚpadding_idxr%   Úfill_rç   rþ   rï   ÚinitÚuniform_rÿ   rg   r0   rm   r+   r  ÚrandÚmathr  Útime_step_maxÚtime_step_minÚclampÚtime_step_floorÚexpm1r   r  r  rj   r<   rU   rh   rÁ   r  rV   rñ   r  )r/   r²   r}  Údt_init_stdrñ   ÚdtÚinv_dtr	  s           r3   Ú_init_weightsÚ"ZambaPreTrainedModel._init_weights%  sð  € Øk‰k×+Ñ+ˆÜfœrŸy™y¬"¯)©)Ð4×5Ñ5ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤×-Ñ-ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤×0Ò0Ø× Ñ ×%Ñ%×-Ñ-°3¸CÐ-Ñ@ØŸ+™+×3Ñ3°TÑ9ˆKÜG‰G×Ñ˜V×2Ñ2°[°LÀ+ÔNà!Ÿ[™[×5Ñ5¸¿¹×8OÑ8OÑOÐSW×S^ÑS^×SlÑSlÑlˆNÜ—’Ü—
’
˜4Ÿ;™;×4Ñ4°nÓEÜ—8’8˜DŸK™K×5Ñ5Ó6¼¿ºÀ$Ç+Á+×B[ÑB[Ó9\Ñ\ñ^ä—(’(˜4Ÿ;™;×4Ñ4Ó5ñ6ó÷ ‰e˜Ÿ™×3Ñ3ˆeÐ4ð	 ð œ%Ÿ)š)¤U§[¢[°"°Ó%5Ð$5Ó6Ñ6ˆFØ×Ñ×$Ñ$×*Ñ*¨6Ô2ä—’˜Q × 5Ñ 5¸Ñ 9ÄÇÁÑOÐPTÒVWÐPWÑXˆAØ—‘˜×1Ñ1°2Ó6×AÑAÓCˆAØL‰L×Ñ×#Ñ#¤E§I¢I¨a£L×$8Ñ$8¸×9MÑ9MÈv×OdÑOdÐfhÓ$iÔjØH‰HM‰M×Ñ Õ$ð% 1r5   r±   N)rK   rL   rM   rN   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_skip_keys_device_placementÚ_supports_flash_attnÚ_supports_sdpaÚ_is_statefulr’  rO   r±   r5   r3   rz  rz    s;   ‡ àÓØÐØ&*Ð#Ø5Ð7OÐPÐØ"3ÐØ ÐØ€Nà€Lõ%r5   rz  c                   ó<  ^ • \ rS rSrSrS\4U 4S jjr\          SS\\	R                     S\\	R                     S\\	R                     S\\   S	\\	R                     S
\\   S\\   S\\   S\\   S\\	R                     S\\\4   4S jj5       rS rSrU =r$ )Ú
ZambaModeliF  z‹
Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`ZambaDecoderLayer`]

Args:
    config: ZambaConfig
r{   c           
      óö  >• [         TU ]  U5        UR                  U l        UR                  U l        [
        R                  " UR                  UR                  U R                  5      U l        [        U5      n/ n/ nUR                  U l
        [        UR                  5       Hª  nUR                  U   S:X  a  UR                  [        XS95        M0  UR                  U   S:X  d  ME  UR                  [
        R                  " U R                   R                  U R                   R                  SS95        UR                  [        XS95        M¬     [#        U5      n[#        U5      n/ n/ U l        ['        U R                  5       H†  u  pxUS:X  aa  SU S3n	/ SQn
/ U R$                  QU
 Vs/ sH  o¹U-   PM	     snQU l        UR                  [)        U[+        U5      [+        U5      5      5        Ml  UR                  [+        U5      5        Mˆ     [
        R,                  " U5      U l        UR0                  U l        [3        UR                  UR4                  S	9U l        SU l        U R;                  5         g s  snf )
Nrh  )r†   rb   FrÌ   zlayers.Ú.)	z%shared_transf.self_attn.q_proj.weightz%shared_transf.self_attn.k_proj.weightz%shared_transf.self_attn.v_proj.weightz%shared_transf.self_attn.o_proj.weightz+shared_transf.feed_forward.gate_proj.weightz)shared_transf.feed_forward.up_proj.weightz+shared_transf.feed_forward.down_proj.weightz$shared_transf.input_layernorm.weightz%shared_transf.pre_ff_layernorm.weightrV  )r(   r)   Úpad_token_idr„  Ú
vocab_sizer   rƒ  r0   Úembed_tokensrT  re   rt   ru   rw   rf  rÔ   r{   ÚiterÚ_tied_weights_keysÚ	enumeraterp  ÚnextÚ
ModuleListÚlayersrà   r%   rY  Úfinal_layernormÚgradient_checkpointingÚ	post_init)r/   r{   ÚblockÚmamba_layersÚlinear_layersr}   r¨  Úlayer_idÚ
layer_typeÚprefix_nameÚ	tied_keysr´   r2   s               €r3   r)   ÚZambaModel.__init__O  s  ø€ Ü‰Ñ˜Ô Ø!×.Ñ.ˆÔØ ×+Ñ+ˆŒäŸLšL¨×):Ñ):¸F×<NÑ<NÐPT×P`ÑP`ÓaˆÔÜ*¨6Ó2ˆØˆØˆØ!'×!9Ñ!9ˆÔÜv×/Ñ/Ö0ˆAØ×'Ñ'¨Ñ*¨gÓ5Ø×#Ñ#Ô$:¸6Ñ$OÖPØ×)Ñ)¨!Ñ,°Õ8Ø×$Ñ$¤R§Y¢Y¨t¯{©{×/FÑ/FÈÏÉ×H_ÑH_ÐfkÑ%lÔmØ×#Ñ#Ô$:¸6Ñ$OÖPñ 1ô ˜LÓ)ˆÜ˜]Ó+ˆØˆØ"$ˆÔÜ$-¨d×.DÑ.DÖ$EÑ ˆHØ˜XÓ%Ø '¨ z°Ð3ò
	ð +p¨D×,CÑ,CÐ*oÑdmÓFnÑdmÐ]`ÐUXÔGXÑdmÑFnÐ*oÔ'Ø—‘Ô.¨u´d¸=Ó6IÌ4ÐP\ÓK]Ó^Ö_à—‘œd <Ó0Ö1ñ# %Fô$ —m’m FÓ+ˆŒà$*×$?Ñ$?ˆÔ!Ü+¨F×,>Ñ,>ÀF×DWÑDWÑXˆÔà&+ˆÔ#à‰Õùò Gos   Æ+I6Ú	input_idsr¶   Úposition_idsr£   Úinputs_embedsr8  r^  Úoutput_hidden_statesÚreturn_dictrj  rS   c                 ó
  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU	b  U	OU R                   R                  n	US L US L-  (       a  [        S5      eU R                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnUc  U R                  U5      nUn[        R                  " U5      nU(       a  Uc  [        R                  S5        U
c,  [        R                  " UR                  S   UR                  S9n
Uc  U
R!                  S5      nU R#                  X%U
5      nU(       a  SOS nU(       a  SOS n[%        U R&                  5       H†  u  nnU(       a  Xë4-  nU R                  (       a6  U R                  (       a%  U R)                  UR*                  UUUUUUUUU
5
      nOU" UUUUUUUUU
S	9	nUS   nU(       d  Mu  US   c  M}  UUS   4-  nMˆ     U R-                  U5      nU(       a  Xë4-  nU(       a  UR.                  (       d  S
Ul        [1        UU(       a  UOS UUS9nU	(       a  U$ UR3                  5       $ )NzaYou cannot specify both input_ids and inputs_embeds at the same time, and must specify either onezX`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.Fz{Zamba requires an initialized `ZambaHybridDynamicCache` to return a cache. None was provided, so no cache will be returned.r   rc   r   r±   )r]  r†   r¶   rÄ   rÛ   r^  r8  rj  T)Úlast_hidden_stater£   r@   Ú
attentions)r{   r^  r·  r8  Úuse_return_dictrC  rª  r»   r  r  r¢  r+   r2  r  rG   ra   r  Ú_update_causal_maskr¥  r¨  Ú_gradient_checkpointing_funcÚ__call__r©  rf   r   Úto_tuple)r/   r´  r¶   rµ  r£   r¶  r8  r^  r·  r¸  rj  r@   r]  rÄ   Úall_hidden_statesÚall_self_attnsr†   Úlayerrw  Úoutputs                       r3   rC   ÚZambaModel.forward~  s†  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	à%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà˜Ð -°tÐ";×<ÜØsóð ð ×&×&¨4¯=¯=¾YÜ×ÑØjôð ˆIàÑ Ø ×-Ñ-¨iÓ8ˆMà%ˆä!&§¢¨]Ó!;Ðö ˜Ñ0Ü×Ñð:ôð
 Ñ!Ü"Ÿ\š\¨-×*=Ñ*=¸aÑ*@È×I]ÑI]Ñ^ˆNØÑØ)×3Ñ3°AÓ6ˆLà×.Ñ.¨~ÈnÓ]ˆæ"6™B¸DÐÞ0™°dˆä )¨$¯+©+Ö 6ÑˆIuÞ#Ø!Ð%5Ñ5Ð!à×*×*¨t¯}¯}Ø $× AÑ AØ—N‘NØ!Ø*ØØ"ØØ#Ø%ØØ"ó!‘ñ !&Ø!Ø+AØ'Ø#1Ø +Ø#2Ø&7Ø'Ø#1ñ
!ð *¨!Ñ,ˆMç Ð Ø  Ñ#Ó/à" }°QÑ'7Ð&9Ñ9’NñE !7ðH ×,Ñ,¨]Ó;ˆö  ØÐ!1Ñ1Ðæ ?×#E×#EØ15ˆOÔ.ä(Ø+Þ/8™O¸dØ+Ø%ñ	
ˆö %ˆvÐ;¨&¯/©/Ó*;Ð;r5   c                 ó¬  • U R                   R                  S:X  a  Ub  SU;   a  U$ g UR                  UR                  pT[        R
                  " U5      R                  nUR                  S   nUS   S-   n[        R                  " Xx4XdUS9n	US:w  a  [        R                  " U	SS9n	U	[        R                  " X…S9UR                  SS5      :„  -  n	U	S S S S 2S S 24   R                  UR                  S   SSS5      n	Ub‡  U	R                  5       n	UR                  5       S	:X  ac  UR                  S   n
U	S
S U
24   R                  S5      US S 2S S S S 24   R                  S5      -  nU	S
S U
24   R!                  X¶5      U	S
S U
24'   U R                   R                  S:X  a3  Ub0  UR                  R"                  S;   a  [$        R&                  " X–5      n	U	$ )NÚflash_attention_2rÞ   r   r8   )Ú
fill_valuer:   ra   )Údiagonalrc   r   r7   .Úsdpa)rA  ÚxpuÚnpu)r{   rà   r:   ra   r+   Úfinfor~  rG   ÚfullÚtriur  rV   rU   r2  r   ÚeqÚmasked_fillrB  r   Ú_unmask_unattended)r/   r¶   Úinput_tensorrj  r:   ra   Ú	min_dtypeÚsequence_lengthÚtarget_lengthrÄ   Úmask_lengthÚpadding_masks               r3   r½  ÚZambaModel._update_causal_maskí  sâ  € Ø;‰;×+Ñ+Ð/BÓBØÑ)¨c°^Ó.CØ%Ð%Øà$×*Ñ*¨L×,?Ñ,?ˆvÜ—K’K Ó&×*Ñ*ˆ	Ø&×,Ñ,¨QÑ/ˆØ& rÑ*¨QÑ.ˆä—j’j /Ð!AÈiÐmsÑtˆØ˜aÓÜŸ*š* [¸1Ñ=ˆKØ”u—|’| MÑAÀN×DZÑDZÐ[]Ð_`ÓDaÑaÑaˆØ! $¨ªa²Ð"2Ñ3×:Ñ:¸<×;MÑ;MÈaÑ;PÐRSÐUWÐY[Ó\ˆØÑ%Ø%×+Ñ+Ó-ˆKØ×!Ñ!Ó# qÓ(Ø,×2Ñ2°2Ñ6Ø*¨3°°°Ð+<Ñ=×@Ñ@ÀÓEÈÒWXÐZ^Ð`dÒfgÐWgÑHh×HkÑHkÐloÓHpÑpØ1<¸SÀ,À;À,Ð=NÑ1O×1[Ñ1[Ð\hÓ1t˜C  + Ð-Ñ.ð K‰K×,Ñ,°Ó6ØÑ*Ø×%Ñ%×*Ñ*Ð.DÓDô
 1×CÒCÀKÓ[ˆKàÐr5   )	rà   r¤  r¢  r©  rª  r¨  re   r„  r¡  ©
NNNNNNNNNN)rK   rL   rM   rN   r¨   r   r)   r   r   r+   r®   r«   r]   r°   rd  r   rF   r   rC   r½  rO   rP   rQ   s   @r3   r  r  F  s#  ø† ñð-˜{÷ -ð^ ð 15Ø15Ø37Ø=AØ59Ø$(Ø,0Ø/3Ø&*Ø59ñk<à˜E×,Ñ,Ñ-ðk<ð ! §¡Ñ.ðk<ð ˜u×/Ñ/Ñ0ð	k<ð
 "Ð"9Ñ:ðk<ð   × 1Ñ 1Ñ2ðk<ð ˜D‘>ðk<ð $ D™>ðk<ð ' t™nðk<ð ˜d‘^ðk<ð ! ×!1Ñ!1Ñ2ðk<ð 
ˆuÐ-Ð-Ñ	.ôk<ó ðk<÷\!ð !r5   r  c                   ó˜  ^ • \ rS rSrS\4U 4S jjrS rS r\            SS\	\
R                     S\	\
R                     S\	\
R                     S	\	\   S
\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\	\   S\	\
R                     S\\\
R                  4   S\\\4   4S jj5       r      SS jrSrU =r$ )ÚZambaForCausalLMi  r{   c                 ó   >• [         TU ]  U5        [        U5      U l        S/U R                  R                  QU l        UR
                  U l        [        R                  " UR                  UR
                  SS9U l	        U R                  5         g )Nzlm_head.weightFrÌ   )r(   r)   r  r{  r¤  r¡  r   rÔ   r0   Úlm_headr«  rN  s     €r3   r)   ÚZambaForCausalLM.__init__  so   ø€ Ü‰Ñ˜Ô Ü Ó'ˆŒ
Ø#3Ð"T°d·j±j×6SÑ6SÐ"TˆÔØ ×+Ñ+ˆŒÜ—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒð 	‰Õr5   c                 ó   • Xl         g r‚   ©r{  )r/   Údecoders     r3   Úset_decoderÚZambaForCausalLM.set_decoder  s   € Ø
r5   c                 ó   • U R                   $ r‚   rá  rH   s    r3   Úget_decoderÚZambaForCausalLM.get_decoder   s   € Øz‰zÐr5   r´  r¶   rµ  r£   r¶  Úlabelsr8  r^  r·  r¸  rj  Úlogits_to_keeprS   c                 ó.  • Ub  UOU R                   R                  nU	b  U	OU R                   R                  n	U
b  U
OU R                   R                  n
U R	                  UUUUUUUU	UU
S9
nUS   n[        U[        5      (       a  [        U* S5      OUnU R                  USS2USS24   5      nSnUb  U R                  " UX`R                  40 UD6nU
(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  S9$ )aè  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>>> from transformers import AutoTokenizer, ZambaForCausalLM

>>> model = ZambaForCausalLM.from_pretrained("Zyphra/Zamba-7B-v1")
>>> tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba-7B-v1")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
```N)
r´  r¶   rµ  r£   r¶  r8  r^  r·  rj  r¸  r   r   ©ÚlossÚlogitsr£   r@   r»  )r{   r^  r·  r¼  r{  r1  rª   ÚslicerÞ  Úloss_functionr¡  r   r£   r@   r»  )r/   r´  r¶   rµ  r£   r¶  rè  r8  r^  r·  r¸  rj  ré  rÂ   rb  r@   Úslice_indicesrí  rì  rÄ  s                       r3   rC   ÚZambaForCausalLM.forward#  sK  € ðP 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐð %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*‘*ØØ)Ø%Ø+Ø'ØØ/Ø!5Ø)Ø#ð ð 
ˆð   ™
ˆä8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆàˆØÑØ×%Ò% f¨f·o±oÑPÈÑPˆDæØY ¨¨ Ñ,ˆFØ'+Ñ'7D7˜VÑ#ÐC¸VÐCä%ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r5   c           	      ó˜  • US L n	U	(       d]  Uc  US   UR                   S   :¼  a  US S 2UR                   S   * S 24   nOaUR                   S   UR                   S   :w  a	  US S 2U4   nO7[        U R                  UR                   S   U R                  U R                  S9nUbZ  UcW  UR                  5       R                  S5      S-
  nUR                  US:H  S5        U	(       d  US S 2UR                   S   * S 24   nUb  U	(       a  SU0n
OSUR                  5       0n
U
R                  UUUUU R                  R                  US.5        U
$ )Nr8   r   r   )r:   ra   r¶  r´  )rµ  r£   r8  r¶   ré  rj  )rG   r]   r{   r:   ra   ÚlongÚcumsumÚmasked_fill_rÁ   r’   Únum_logits_to_keep)r/   r´  r£   r¶   r¶  rj  rµ  r8  rÂ   Úempty_past_kvÚmodel_inputss              r3   Úprepare_inputs_for_generationÚ.ZambaForCausalLM.prepare_inputs_for_generationu  sd  € ð (¨4Ð/ˆö ð Ñ)Ø! "Ñ%¨¯©¸Ñ);Ó;à%¢a¨.×*>Ñ*>¸qÑ*AÐ)AÑ)CÐ&CÑD‘	Ø—‘ Ñ# ~×';Ñ';¸AÑ'>Ó>Ø%¢a¨Ð&7Ñ8	øä5Ø—‘˜YŸ_™_¨QÑ/°t·z±zÈ$Ï+É+ñˆOð Ñ%¨,Ñ*>à)×.Ñ.Ó0×7Ñ7¸Ó;¸aÑ?ˆLØ×%Ñ% n¸Ñ&9¸1Ô=Þ Ø+ªA°	·±ÀÑ0BÐ/BÑ/DÐ,DÑEð Ñ$®Ø+¨]Ð;‰Là'¨×)=Ñ)=Ó)?Ð@ˆLà×Ñà ,Ø#2Ø&Ø"0Ø"&§+¡+×"@Ñ"@Ø"0ñô		
ð Ðr5   )r¤  rÞ  r{  r¡  )NNNNNNNNNNNr   )NNNNNT)rK   rL   rM   rN   r   r)   rã  ræ  r   r   r+   r®   r«   r]   r°   rd  r   rª   rF   r   rC   rù  rO   rP   rQ   s   @r3   rÜ  rÜ    sp  ø† ð˜{÷ òòð ð 15Ø15Ø37Ø=AØ59Ø-1Ø$(Ø,0Ø/3Ø&*Ø59Ø34ñO
à˜E×,Ñ,Ñ-ðO
ð ! §¡Ñ.ðO
ð ˜u×/Ñ/Ñ0ð	O
ð
 "Ð"9Ñ:ðO
ð   × 1Ñ 1Ñ2ðO
ð ˜×)Ñ)Ñ*ðO
ð ˜D‘>ðO
ð $ D™>ðO
ð ' t™nðO
ð ˜d‘^ðO
ð ! ×!1Ñ!1Ñ2ðO
ð ˜c 5§<¡<Ð/Ñ0ðO
ð 
ˆuÐ,Ð,Ñ	-ôO
ó ðO
ðh ØØØØØ÷9ò 9r5   rÜ  aÊ  
    The Zamba Model with a sequence classification head on top (linear layer).

    [`ZambaForSequenceClassification`] uses the last token in order to do the classification, as other causal models
    (e.g. GPT-2) do.

    Since it does classification on the last token, it requires to know the position of the last token. If a
    `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in each row. If
    no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot guess the
    padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last value in
    each row of the batch).
    )Úcustom_introc                   óN  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\
\\\R                     4      S\\R                     S\\R                     S	\\   S
\\   S\\   S\\   S\
\\4   4S jj5       rSrU =r$ )ÚZambaForSequenceClassificationi±  c                 ó  >• [         TU ]  U5        UR                  U l        [        U5      U l        U R                  R
                  U l        [        R                  " UR                  U R                  SS9U l	        U R                  5         g rH  )r(   r)   Ú
num_labelsr  r{  r¤  r   rÔ   r0   Úscorer«  rN  s     €r3   r)   Ú'ZambaForSequenceClassification.__init__À  se   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒÜ Ó'ˆŒ
Ø"&§*¡*×"?Ñ"?ˆÔÜ—Y’Y˜v×1Ñ1°4·?±?ÈÑOˆŒ
ð 	‰Õr5   r´  r¶   rµ  r£   r¶  rè  r8  r^  r·  r¸  rS   c                 ó  • U
b  U
OU R                   R                  n
U R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nUb  UR                  S   nOUR                  S   nU R                   R
                  c  US:w  a  [        S5      eU R                   R
                  c  SnOÁUb  XR                   R
                  :g  R                  UR                  [        R                  5      n[        R                  " UR                  S   UR                  [        R                  S9nUU-  R                  S5      nO.Sn[        R                  U R                  R                    S35        U[        R                  " XíR                  S	9U4   nSnUGb«  UR                  UR                  5      nU R                   R"                  c‘  U R$                  S:X  a  S
U R                   l        OoU R$                  S:”  aN  UR&                  [        R(                  :X  d  UR&                  [        R*                  :X  a  SU R                   l        OSU R                   l        U R                   R"                  S
:X  aJ  [-        5       nU R$                  S:X  a&  U" UR/                  5       UR/                  5       5      nOŽU" UU5      nO„U R                   R"                  S:X  a=  [1        5       nU" UR3                  SU R$                  5      UR3                  S5      5      nO-U R                   R"                  S:X  a  [5        5       nU" UU5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [7        UUUR8                  UR:                  UR<                  S9$ )ae  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
N)r¶   rµ  r£   r¶  r8  r^  r·  r¸  r   r   z=Cannot handle batch sizes > 1 if no padding token is defined.r8   r`   zŠ will not detect padding tokens in `inputs_embeds`. Results may be unexpected if using padding tokens in conjunction with `inputs_embeds.`rc   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationrë  )r{   r¼  r{  r   rG   r   rC  r;   ra   r+   Úint32r  Úargmaxr  r  r2   rK   Úproblem_typerÿ  r:   ró  rª   r
   r  r	   rß   r   r   r£   r@   r»  )r/   r´  r¶   rµ  r£   r¶  rè  r8  r^  r·  r¸  Útransformer_outputsr@   rí  r|   Úlast_non_pad_tokenÚnon_pad_maskÚtoken_indicesÚpooled_logitsrì  Úloss_fctrÄ  s                         r3   rC   Ú&ZambaForSequenceClassification.forwardÊ  s  € ð( &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"Ÿj™jØØ)Ø%Ø+Ø'ØØ/Ø!5Ø#ð )ð 

Ðð ,¨AÑ.ˆØ—‘˜MÓ*ˆàÑ Ø"Ÿ™¨Ñ+‰Jà&×,Ñ,¨QÑ/ˆJà;‰;×#Ñ#Ñ+°
¸a³ÜÐ\Ó]Ð]Ø;‰;×#Ñ#Ñ+Ø!#ÑØÑ"à%¯©×)AÑ)AÑA×EÑEÀfÇmÁmÔUZ×U`ÑU`ÓaˆLÜ!ŸLšL¨¯©¸Ñ)<ÀVÇ]Á]ÔZ_×ZeÑZeÑfˆMØ"/°,Ñ">×!FÑ!FÀrÓ!JÑà!#ÐÜ×ÑØ—>‘>×*Ñ*Ð+ð ,Zð Zôð
 œuŸ|š|¨J¿}¹}ÑMÐOaÐaÑbˆàˆØÒØ—Y‘Y˜vŸ}™}Ó-ˆFØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# M×$9Ñ$9Ó$;¸V¿^¹^Ó=MÓN‘Dá# M°6Ó:‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù × 2Ñ 2°2°t·±Ó GÈÏÉÐUWËÓY‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù ¨vÓ6ÞØ#Ð%Ð(;¸A¸BÐ(?Ñ?ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä/ØØ Ø/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ñ
ð 	
r5   )r¤  r{  rÿ  r   rÚ  )rK   rL   rM   rN   r)   r   r   r+   r®   r«   r   r   Úlistr°   rd  rF   r   rC   rO   rP   rQ   s   @r3   rý  rý  ±  s  ø† õð ð 15Ø15Ø37ØKOØ59Ø-1Ø$(Ø,0Ø/3Ø&*ñ[
à˜E×,Ñ,Ñ-ð[
ð ! §¡Ñ.ð[
ð ˜u×/Ñ/Ñ0ð	[
ð
 " %¨¨t°E×4EÑ4EÑ/FÐ(FÑ"GÑHð[
ð   × 1Ñ 1Ñ2ð[
ð ˜×)Ñ)Ñ*ð[
ð ˜D‘>ð[
ð $ D™>ð[
ð ' t™nð[
ð ˜d‘^ð[
ð 
ˆuÐ6Ð6Ñ	7ô[
ó ö[
r5   rý  )rÜ  rý  r  rz  )rÞ   )Jr¨   r‰  Útypingr   r   r   r   r+   Útorch.utils.checkpointr   Útorch.nnr   r	   r
   Úactivationsr   Úcache_utilsr   r   Ú
generationr   Úmodeling_attn_mask_utilsr   Úmodeling_flash_attention_utilsr   Úmodeling_outputsr   r   r   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   Úutils.import_utilsr   r   Úconfiguration_zambar   Ú&mamba_ssm.ops.selective_scan_interfacer   r   Ú+mamba_ssm.ops.triton.selective_state_updater    Úcausal_conv1dr!   r"   r  r  Ú
get_loggerrK   r  ÚModuler%   r«   rª   r[   r]   r  rÆ   rÈ   rç   rF  rT  rf  rp  rz  r  rÜ  rý  Ú__all__r±   r5   r3   Ú<module>r%     sL  ðñ( ã ß 1Ó 1ã Û Ý ß AÑ Aå !ß .Ý )Ý >Ý Bß qÑ qß FÝ &ß ,ß TÝ ,ñ ×ÑßXÞRà@PÑ=ÐÐ-¨~á×ÑßDÐDà-7Ñ*ÐÐ*áØÐ.Ð0@ÐBVÐXfÐgóÐ ð
 
×	Ò	˜HÓ	%€ôJ2—9‘9ô Jð*	U˜UŸ\™\ð 	U°#ð 	U¸%¿,¹,ô 	Uôff˜eô ffð` ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô4C)R—Y‘Yô C)ôLQ]b—i‘iô Q]ôjˆry‰yô ô < §¡ô <ô~A˜RŸY™Yô AôHEr—y‘yô EðP ô)%˜?ó )%ó ð)%ðX ôGÐ%ó Gó ðGôV\Ð+¨_ô \ñ~ ðñôg
Ð%9ó g
óðg
òT gr5   