ó
    <±hL ã                   ó–  • S r SSKrSSKJr  SSKJrJrJr  SSKrSSK	J
r
  SSKJr  SSKJr  SSKJr  SS	KJr  SS
KJr  SSKJrJrJr  SSKJrJr  SSKJr  \R<                  " \5      r  " S S\
RB                  5      r" " S S\
RB                  5      r# " S S\
RB                  5      r$ " S S\
RB                  5      r% " S S\
RB                  5      r& " S S\
RB                  5      r'   SyS\
RB                  S\RP                  S\RP                  S\RP                  S\\RP                     S \\)   S!\)S"\\RP                     4S# jjr* " S$ S%\
RB                  5      r+ " S& S'\
RB                  5      r, " S( S)\
RB                  5      r- " S* S+\
RB                  5      r. " S, S-\
RB                  5      r/ " S. S/\
RB                  5      r0 " S0 S1\
RB                  5      r1\ " S2 S3\5      5       r2 " S4 S5\
RB                  5      r3   SzS6\RP                  S7\)S8\\4   S9\5S:\64
S; jjr7  S{S6\RP                  S<\\4\64   S8\\4   S:\64S= jjr8 " S> S?\
RB                  5      r9 " S@ SA\
RB                  5      r: " SB SC\
RB                  5      r; " SD SE\
RB                  5      r< " SF SG\
RB                  5      r=\\" SHSI9 " SJ SK\5      5       5       r> " SL SM\25      r?\\" SNSI9 " SO SP\5      5       5       r@\" SQSI9 " SR SS\25      5       rA\\" STSI9 " SU SV\5      5       5       rB\" SWSI9 " SX SY\25      5       rC\\" SZSI9 " S[ S\\5      5       5       rD\\" S]SI9 " S^ S_\5      5       5       rE\\" S]SI9 " S` Sa\5      5       5       rFSb\RŽ                  R                  Sc\RP                  Sd\RP                  4Se jrIS|Sf\RP                  Sg\\RP                     Sd\RP                  4Sh jjrJ " Si Sj\25      rK\\" SkSI9 " Sl Sm\5      5       5       rL " Sn So\25      rM\\" SpSI9 " Sq Sr\5      5       5       rN " Ss St\
RB                  5      rO\" SuSI9 " Sv Sw\25      5       rP/ SxQrQg)}zPyTorch PatchTSMixer model.é    N)Ú	dataclass)ÚCallableÚOptionalÚUnion)ÚPreTrainedModel)ÚModelOutputé   )ÚFlashAttentionKwargs)ÚALL_ATTENTION_FUNCTIONS)ÚUnpack)ÚNegativeBinomialOutputÚNormalOutputÚStudentTOutput)Úauto_docstringÚloggingé   )ÚPatchTSMixerConfigc                   ó>   ^ • \ rS rSrSrS\S\4U 4S jjrS rSrU =r	$ )ÚPatchTSMixerGatedAttentioné&   z‡
Module that applies gated attention to input data.

Args:
    in_size (`int`): The input size.
    out_size (`int`): The output size.
Úin_sizeÚout_sizec                 óŠ   >• [         TU ]  5         [        R                  " X5      U l        [        R
                  " SS9U l        g )Néÿÿÿÿ©Údim)ÚsuperÚ__init__ÚnnÚLinearÚ
attn_layerÚSoftmaxÚattn_softmax)Úselfr   r   Ú	__class__s      €Ún/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/patchtsmixer/modeling_patchtsmixer.pyr   Ú#PatchTSMixerGatedAttention.__init__/   s/   ø€ Ü‰ÑÔÜŸ)š) GÓ6ˆŒÜŸJšJ¨2Ñ.ˆÕó    c                 óN   • U R                  U R                  U5      5      nX-  nU$ ©N)r#   r!   )r$   ÚinputsÚattn_weights      r&   ÚforwardÚ"PatchTSMixerGatedAttention.forward4   s(   € Ø×'Ñ'¨¯©¸Ó(?Ó@ˆØÑ%ˆØˆr(   )r!   r#   )
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Úintr   r-   Ú__static_attributes__Ú__classcell__©r%   s   @r&   r   r   &   s%   ø† ñð/ ð /¨s÷ /÷
ð r(   r   c                   óV   ^ • \ rS rSrSrS\4U 4S jjrS\R                  4S jr	Sr
U =r$ )ÚPatchTSMixerBatchNormé;   zH
Compute batch normalization over the sequence length (time) dimension.
Úconfigc                 ó~   >• [         TU ]  5         [        R                  " UR                  UR
                  S9U l        g )N©Úeps)r   r   r   ÚBatchNorm1dÚd_modelÚnorm_epsÚ	batchnorm©r$   r;   r%   s     €r&   r   ÚPatchTSMixerBatchNorm.__init__@   s(   ø€ Ü‰ÑÔÜŸš¨¯©¸F¿O¹OÑLˆr(   r+   c                 ól   • UR                  SS5      nU R                  U5      nUR                  SS5      $ )zÓ
Parameters:
    inputs (`torch.Tensor` of shape `(batch_size, sequence_length, d_model)`):
        input for Batch norm calculation
Returns:
    `torch.Tensor` of shape `(batch_size, sequence_length, d_model)`
r   é   )Ú	transposerB   )r$   r+   Úoutputs      r&   r-   ÚPatchTSMixerBatchNorm.forwardD   s7   € ð ×!Ñ! ! QÓ'ˆØ—‘ Ó'ˆØ×Ñ  1Ó%Ð%r(   )rB   ©r/   r0   r1   r2   r3   r   r   ÚtorchÚTensorr-   r5   r6   r7   s   @r&   r9   r9   ;   s,   ø† ñðMÐ1÷ Mð
&˜eŸl™l÷ 
&ò 
&r(   r9   c                   ó†   ^ • \ rS rSrSrS\4U 4S jjr\S\S\R                  4S j5       r
S\R                  4S jrS	rU =r$ )
ÚPatchTSMixerPositionalEncodingéQ   z
Class for positional encoding
r;   c                 óú   >• [         TU ]  5         UR                  (       a  U R                  U5      U l        g [
        R                  " [        R                  " UR                  UR                  5      5      U l        g r*   )r   r   Úuse_positional_encodingÚ_init_peÚposition_encr   Ú	ParameterrK   ÚzerosÚnum_patchesr@   rC   s     €r&   r   Ú'PatchTSMixerPositionalEncoding.__init__V   sN   ø€ Ü‰ÑÔà×)×)Ø $§¡¨fÓ 5ˆDÕä "§¢¬U¯[ª[¸×9KÑ9KÈVÏ^É^Ó-\Ó ]ˆDÕr(   Úreturnc                 ód  • U R                   S:X  a@  [        R                  " [        R                  " U R
                  U R                  5      SS9nU$ U R                   S:X  Ga8  [        R                  " U R
                  U R                  5      n[        R                  " SU R
                  5      R                  S5      n[        R                  " [        R                  " SU R                  S5      [        R                  " S5      U R                  -  * -  5      n[        R                  " X#-  5      US S 2SS S24'   [        R                  " X#-  5      US S 2SS S24'   XR                  5       -
  nXR!                  5       S	-  -  n[        R                  " US
S9nU$ [#        U R                    S35      e)NÚrandomT©Úrequires_gradÚsincosr   r   rF   g     ˆÃ@é
   FzN is not a valid positional encoder. Available types are 'random' and 'sincos'.)Úpositional_encoding_typer   rT   rK   ÚrandnrV   r@   rU   ÚarangeÚ	unsqueezeÚexpÚmathÚlogÚsinÚcosÚmeanÚstdÚ
ValueError)r;   rS   ÚpositionÚdiv_terms       r&   rR   Ú'PatchTSMixerPositionalEncoding._init_pe^   sn  € ð ×*Ñ*¨hÓ6ÜŸ<š<¬¯ª°F×4FÑ4FÈÏÉÓ(WÐgkÑlˆLð Ðð ×,Ñ,°Ô8Ü Ÿ;š; v×'9Ñ'9¸6¿>¹>ÓJˆLÜ—|’| A v×'9Ñ'9Ó:×DÑDÀQÓGˆHÜ—y’y¤§¢¨a°·±ÀÓ!CÌÏÊÐQXÓHYÐ\b×\jÑ\jÑHjÐFkÑ!kÓlˆHÜ$)§I¢I¨hÑ.AÓ$BˆLš˜A˜D˜q˜D˜Ñ!Ü$)§I¢I¨hÑ.AÓ$BˆLš˜A˜D˜q˜D˜Ñ!Ø'×*;Ñ*;Ó*=Ñ=ˆLØ'×+;Ñ+;Ó+=ÀÑ+BÑCˆLÜŸ<š<¨ÀEÑJˆLð
 Ðô Ø×2Ñ2Ð3ð  4Bð  Cóð r(   Úpatch_inputc                 ó"   • XR                   -   nU$ r*   ©rS   )r$   rn   Úhidden_states      r&   r-   Ú&PatchTSMixerPositionalEncoding.forwardr   s   € à"×%6Ñ%6Ñ6ˆØÐr(   rp   )r/   r0   r1   r2   r3   r   r   Ústaticmethodr   rT   rR   rK   rL   r-   r5   r6   r7   s   @r&   rN   rN   Q   sS   ø† ñð^Ð1÷ ^ð ðÐ+ð °·±ó ó ðð& 5§<¡<÷ ò r(   rN   c                   óV   ^ • \ rS rSrSrS\4U 4S jjrS\R                  4S jr	Sr
U =r$ )ÚPatchTSMixerNormLayeréx   zUNormalization block

Args:
    config (`PatchTSMixerConfig`):
        Configuration.
r;   c                 óþ   >• [         TU ]  5         UR                  U l        SUR                  R                  5       ;   a  [	        U5      U l        g [        R                  " UR                  UR                  S9U l        g )NÚbatchr=   )
r   r   Únorm_mlpÚlowerr9   Únormr   Ú	LayerNormr@   rA   rC   s     €r&   r   ÚPatchTSMixerNormLayer.__init__€   sT   ø€ Ü‰ÑÔàŸ™ˆŒàf—o‘o×+Ñ+Ó-Ó-Ü-¨fÓ5ˆDIäŸš V§^¡^¸¿¹ÑIˆDIr(   r+   c                 ól  • SU R                   R                  5       ;   a„  [        R                  " UUR                  S   UR                  S   -  UR                  S   UR                  S   45      nU R                  U5      n[        R                  " X!R                  5      nU$ U R                  U5      nU$ )zæ
Args:
    inputs (`torch.Tensor` of shape `((batch_size, num_channels, num_patches, d_model))`):
        Input to the normalization layer.
Returns:
    `torch.Tensor` of shape `((batch_size, num_channels, num_patches, d_model))`
rx   r   r   rF   r	   )ry   rz   rK   ÚreshapeÚshaper{   )r$   r+   Úinputs_reshapeds      r&   r-   ÚPatchTSMixerNormLayer.forwardŠ   s   € ð d—m‘m×)Ñ)Ó+Ó+ä#ŸmšmØà—L‘L ‘O f§l¡l°1¡oÑ5Ø—L‘L ‘OØ—L‘L ‘OðóˆOð #Ÿi™i¨Ó8ˆOô —]’] ?·L±LÓAˆFð
 ˆð —Y‘Y˜vÓ&ˆFàˆr(   )r{   ry   rJ   r7   s   @r&   ru   ru   x   s,   ø† ñðJÐ1÷ Jð˜eŸl™l÷ ò r(   ru   c                   óJ   ^ • \ rS rSrU 4S jrS\R                  4S jrSrU =r	$ )ÚPatchTSMixerMLPé©   c                 ó>  >• [         TU ]  5         XR                  -  n[        R                  " X5      U l        [        R                  " UR                  5      U l        [        R                  " XB5      U l	        [        R                  " UR                  5      U l
        g r*   )r   r   Úexpansion_factorr   r    Úfc1ÚDropoutÚdropoutÚdropout1Úfc2Údropout2)r$   Úin_featuresÚout_featuresr;   Ú
num_hiddenr%   s        €r&   r   ÚPatchTSMixerMLP.__init__ª   sd   ø€ Ü‰ÑÔØ ×#:Ñ#:Ñ:ˆ
Ü—9’9˜[Ó5ˆŒÜŸ
š
 6§>¡>Ó2ˆŒÜ—9’9˜ZÓ6ˆŒÜŸ
š
 6§>¡>Ó2ˆr(   r+   c                 óÄ   • U R                  [        R                  R                  U R	                  U5      5      5      nU R                  U5      nU R                  U5      nU$ )z¼
Args:
    inputs (`torch.Tensor` of shape `((batch_size, num_channels, num_patches, d_model))`):
        Input to the MLP layer.
Returns:
    `torch.Tensor` of the same shape as `inputs`
)r‹   r   Ú
functionalÚgelurˆ   rŒ   r   )r$   r+   s     r&   r-   ÚPatchTSMixerMLP.forward²   sK   € ð —‘œrŸ}™}×1Ñ1°$·(±(¸6Ó2BÓCÓDˆØ—‘˜&Ó!ˆØ—‘˜vÓ&ˆØˆr(   )r‹   r   rˆ   rŒ   )
r/   r0   r1   r2   r   rK   rL   r-   r5   r6   r7   s   @r&   r„   r„   ©   s   ø† õ3ð˜eŸl™l÷ ò r(   r„   c                   óV   ^ • \ rS rSrSrS\4U 4S jjrS\R                  4S jr	Sr
U =r$ )Ú$PatchTSMixerChannelFeatureMixerBlockéÀ   zzThis module mixes the features in the channel dimension.

Args:
    config (`PatchTSMixerConfig`):
        Configuration.
r;   c                 ó  >• [         TU ]  5         [        U5      U l        UR                  U l        [        UR                  UR                  US9U l        UR                  (       a$  [        UR                  UR                  S9U l	        g g ©N©rŽ   r   r;   ©r   r   )
r   r   ru   r{   Ú
gated_attnr„   Únum_input_channelsÚmlpr   Úgating_blockrC   s     €r&   r   Ú-PatchTSMixerChannelFeatureMixerBlock.__init__È   sv   ø€ Ü‰ÑÔä)¨&Ó1ˆŒ	Ø ×+Ñ+ˆŒÜ"Ø×1Ñ1Ø×2Ñ2Øñ
ˆŒð ××Ü :Ø×1Ñ1¸F×<UÑ<Uñ!ˆDÕð r(   r+   c                 óê   • UnU R                  U5      nUR                  SSSS5      nU R                  (       a  U R                  U5      nU R	                  U5      nUR                  SSSS5      nX-   nU$ )z»
Args:
    inputs (`torch.Tensor` of shape `((batch_size, num_channels, num_patches, d_model))`):
        input to the MLP layer
Returns:
    `torch.Tensor` of the same shape as `inputs`
r   r	   rF   r   )r{   Úpermuter   r    rŸ   )r$   r+   ÚresidualÚouts       r&   r-   Ú,PatchTSMixerChannelFeatureMixerBlock.forwardØ   sq   € ð ˆØ—‘˜6Ó"ˆà—‘  1 a¨Ó+ˆà??Ø×&Ñ& vÓ.ˆFà—‘˜&Ó!ˆà—‘  1 a¨Ó+ˆàÑˆØˆ
r(   ©r   r    rŸ   r{   rJ   r7   s   @r&   r—   r—   À   s*   ø† ñðÐ1÷ ð ˜eŸl™l÷ ò r(   r—   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingrŠ   Ú	head_maskc                 óÀ  • Uc  UR                  S5      S-  n[        R                  " XR                  SS5      5      U-  n	Ub  X”-   n	[        R
                  R                  U	SS9n	Ub  X—R                  SSSS5      -  n	[        R
                  R                  X–U R                  S9n	[        R                  " X“5      n
U
R                  SS5      R                  5       n
X©4$ )Nr   ç      à¿rF   r	   r   r   )ÚpÚtraining)ÚsizerK   ÚmatmulrG   r   r“   ÚsoftmaxÚviewrŠ   r²   Ú
contiguous)r¨   r©   rª   r«   r¬   r­   rŠ   r®   ÚkwargsÚattn_weightsÚattn_outputs              r&   Úeager_attention_forwardr»   ñ   sÌ   € ð Ø—*‘*˜R“. DÑ(ˆä—<’< §}¡}°Q¸Ó':Ó;¸gÑE€LØÑ!Ø#Ñ4ˆä—=‘=×(Ñ(¨¸2Ð(Ð>€LàÑØ#§n¡n°Q¸¸A¸qÓ&AÑAˆä—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r(   c                   óZ  ^ • \ rS rSrSr     SS\S\S\S\S\S\S	\\	   4U 4S
 jjjr
    SS\R                  S\\R                     S\\R                     S\\R                     S\\   S\\   S\\R                  \\R                     \\\R                        4   4S jjrSrU =r$ )ÚPatchTSMixerAttentioni  z=Multi-headed attention from 'Attention Is All You Need' paperÚ	embed_dimÚ	num_headsrŠ   Ú
is_decoderÚbiasÚ	is_causalr;   c                 óæ  >• [         TU ]  5         Xl        X l        X0l        X-  U l        Xpl        U R
                  U-  U R                  :w  a  [        SU R                   SU S35      eU R
                  S-  U l        X@l	        X`l
        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: ú).r°   )rÁ   )r   r   r¾   r¿   rŠ   Úhead_dimr;   rj   r­   rÀ   rÂ   r   r    Úk_projÚv_projÚq_projÚout_proj)	r$   r¾   r¿   rŠ   rÀ   rÁ   rÂ   r;   r%   s	           €r&   r   ÚPatchTSMixerAttention.__init__  sÎ   ø€ ô 	‰ÑÔØ"ŒØ"ŒØŒØ!Ñ.ˆŒØŒàM‰M˜IÑ%¨$¯.©.Ó8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ŒØ"Œä—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜŸ	š	 )¸TÑBˆr(   Úhidden_statesÚkey_value_statesr¬   Úlayer_head_maskÚoutput_attentionsr¸   rX   c                 ó   • USLnUR                   SS u  p‰U(       a  UR                   S   OU	n
X‰SU R                  4nXŠSU R                  4nU R                  U5      R                  " U6 R	                  SS5      nU(       a  UOUnU R                  U5      R                  " U6 R	                  SS5      nU R                  U5      R                  " U6 R	                  SS5      n[        nU R                  R                  S:w  a  [        U R                  R                     nU" U UUUU4U R                  (       d  SOU R                  U R                  UUS.UD6u  nnUR                  X‰S5      R                  5       nU R!                  U5      nUUS4$ )z#Input shape: Batch x Time x ChannelNr   r   rF   Úeagerç        )rŠ   r­   rÎ   r®   )r€   rÅ   rÈ   r¶   rG   rÆ   rÇ   r»   r;   Ú_attn_implementationr   r²   rŠ   r­   r   r·   rÉ   )r$   rË   rÌ   r¬   rÍ   rÎ   r¸   Úis_cross_attentionÚbszÚtgt_lenÚsrc_lenÚq_input_shapeÚkv_input_shapeÚquery_statesÚcurrent_statesÚ
key_statesÚvalue_statesÚattention_interfacerº   r¹   s                       r&   r-   ÚPatchTSMixerAttention.forward2  sŽ  € ð .°TÐ9Ðð %×*Ñ*¨3¨BÐ/‰ˆÞ/AÐ"×(Ñ(¨Ò+Àwˆà r¨4¯=©=Ð9ˆØ¨¨D¯M©MÐ:ˆð —{‘{ =Ó1×6Ò6¸ÐF×PÑPÐQRÐTUÓVˆæ-?Ñ)À]ˆØ—[‘[ Ó0×5Ò5°~ÐF×PÑPÐQRÐTUÓVˆ
Ø—{‘{ >Ó2×7Ò7¸ÐH×RÑRÐSTÐVWÓXˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð%
ð  $Ÿ}Ÿ}‘C°$·,±,Ø—L‘LØ/Ø%ñ%
ð ñ%
Ñ!ˆ\ð "×)Ñ)¨#¸Ó;×FÑFÓHˆØ—m‘m KÓ0ˆà˜L¨$Ð.Ð.r(   )r;   rŠ   r¾   rÅ   rÂ   rÀ   rÆ   r¿   rÉ   rÈ   r­   rÇ   )rÑ   FTFN)NNNF)r/   r0   r1   r2   r3   r4   ÚfloatÚboolr   r   r   rK   rL   r   r
   Útupler-   r5   r6   r7   s   @r&   r½   r½     s!  ø† ÙGð Ø ØØØ/3ñCàðCð ðCð ð	Cð
 ðCð ðCð ðCð Ð+Ñ,÷Cð CðD 48Ø15Ø26Ø,1ñ3/à—|‘|ð3/ð # 5§<¡<Ñ0ð3/ð ! §¡Ñ.ð	3/ð
 " %§,¡,Ñ/ð3/ð $ D™>ð3/ð Ð-Ñ.ð3/ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷3/ó 3/r(   r½   c                   ó:   ^ • \ rS rSrSrS\4U 4S jjrS rSrU =r	$ )ÚPatchMixerBlockih  zhThis module mixes the patch dimension.

Args:
    config (`PatchTSMixerConfig`):
        Configuration.
r;   c                 óØ  >• [         TU ]  5         [        U5      U l        UR                  U l        UR
                  U l        [        UR                  UR                  US9U l        UR
                  (       a#  [        UR                  UR                  S9U l
        UR                  (       a@  [        UR                  UR                  UR                  US9U l        [        U5      U l        g g )Nr›   rœ   )r¾   r¿   rŠ   r;   )r   r   ru   r{   Ú	self_attnr   r„   rV   rŸ   r   r    r½   r@   Úself_attn_headsrŠ   Úself_attn_layerÚ	norm_attnrC   s     €r&   r   ÚPatchMixerBlock.__init__p  s¿   ø€ Ü‰ÑÔä)¨&Ó1ˆŒ	à×)Ñ)ˆŒØ ×+Ñ+ˆŒä"Ø×*Ñ*Ø×+Ñ+Øñ
ˆŒð ××Ü :À6×CUÑCUÐ`f×`rÑ`rÑ sˆDÔà××Ü#8Ø Ÿ.™.Ø ×0Ñ0ØŸ™Øñ	$ˆDÔ ô 3°6Ó:ˆDNð r(   c                 óà  • UnU R                  U5      nU R                  (       aI  UR                  u  p4pVUR                  X4-  XV5      nU R	                  USS9u  n  n	UR                  X4XV5      nUR                  SS5      nU R                  U5      nU R                  (       a  U R                  U5      nUR                  SS5      nU R                  (       a  U R                  UW-   5      nX-   n
U
$ )zj
Args:
    hidden_state (`torch.Tensor`): Input tensor.

Returns:
    `torch.Tensor`: Transformed tensor.
F)rÎ   rF   r	   )
r{   rå   r€   r   rç   rG   rŸ   r   r    rè   )r$   rq   r¤   Ú
batch_sizeÚn_varsrV   r@   Úhidden_state_reshapedÚx_attnÚ_r¥   s              r&   r-   ÚPatchMixerBlock.forwardŠ  så   € ð  ˆà—y‘y Ó.ˆà>>Ø7C×7IÑ7IÑ4ˆJ Ø$0×$8Ñ$8¸Ñ9LÈkÓ$cÐ!à×/Ñ/Ð0EÐY^Ð/Ð_‰LˆFAqØ—^‘^ J¸ÓMˆFð $×-Ñ-¨a°Ó3ˆØ—x‘x Ó-ˆà??Ø×,Ñ,¨\Ó:ˆLð $×-Ñ-¨a°Ó3ˆà>>ØŸ>™>¨,¸Ñ*?Ó@ˆLàÑ%ˆØˆ
r(   )r   r    rŸ   r{   rè   rå   rç   ©
r/   r0   r1   r2   r3   r   r   r-   r5   r6   r7   s   @r&   rã   rã   h  s   ø† ñð;Ð1÷ ;÷4!ð !r(   rã   c                   óV   ^ • \ rS rSrSrS\4U 4S jjrS\R                  4S jr	Sr
U =r$ )ÚFeatureMixerBlocki®  zrThis module mixes the hidden feature dimension.

Args:
    config (`PatchTSMixerConfig`):
        Configuration.

r;   c                 ó  >• [         TU ]  5         [        U5      U l        UR                  U l        [        UR                  UR                  US9U l        UR                  (       a$  [        UR                  UR                  S9U l	        g g rš   )
r   r   ru   r{   r   r„   r@   rŸ   r   r    rC   s     €r&   r   ÚFeatureMixerBlock.__init__·  sn   ø€ Ü‰ÑÔä)¨&Ó1ˆŒ	à ×+Ñ+ˆŒä"ØŸ™ØŸ™Øñ
ˆŒð ××Ü :À6Ç>Á>Ð\b×\jÑ\jÑ kˆDÕð r(   Úhiddenc                 óš   • UnU R                  U5      nU R                  U5      nU R                  (       a  U R                  U5      nX-   nU$ )ú§
Args:
    hidden (`torch.Tensor` of shape `(batch_size, num_patches, d_model)`):
        Input tensor to the layer.

Returns:
    `torch.Tensor`: Transformed tensor.
)r{   rŸ   r   r    )r$   rö   r¤   r¥   s       r&   r-   ÚFeatureMixerBlock.forwardÇ  sI   € ð ˆØ—‘˜6Ó"ˆØ—‘˜&Ó!ˆà??Ø×&Ñ& vÓ.ˆFàÑˆØˆ
r(   r§   rJ   r7   s   @r&   ró   ró   ®  s,   ø† ñðlÐ1÷ lð ˜eŸl™l÷ ò r(   ró   c                   óV   ^ • \ rS rSrSrS\4U 4S jjrS\R                  4S jr	Sr
U =r$ )ÚPatchTSMixerLayeriÛ  z
The `PatchTSMixer` layer that does all three kinds of mixing.

Args:
    config (`PatchTSMixerConfig`):
        Configuration.

r;   c                 óº   >• [         TU ]  5         [        US9U l        [	        US9U l        UR                  U l        UR                  S:X  a  [        US9U l        g g )N©r;   Úmix_channel)	r   r   rã   Úpatch_mixerró   Úfeature_mixerÚmoder—   Úchannel_feature_mixerrC   s     €r&   r   ÚPatchTSMixerLayer.__init__å  sR   ø€ Ü‰ÑÔä*°&Ñ9ˆÔÜ.°fÑ=ˆÔà—K‘KˆŒ	à;‰;˜-Ó'Ü)MÐU[Ñ)\ˆDÕ&ð (r(   rö   c                 óŒ   • U R                   S:X  a  U R                  U5      nU R                  U5      nU R                  U5      nU$ )rø   rþ   )r  r  rÿ   r   )r$   rö   s     r&   r-   ÚPatchTSMixerLayer.forwardð  sE   € ð 9‰9˜Ó%Ø×/Ñ/°Ó7ˆFà×!Ñ! &Ó)ˆØ×#Ñ# FÓ+ˆØˆr(   )r  r   r  rÿ   rJ   r7   s   @r&   rû   rû   Û  s,   ø† ñð	]Ð1÷ 	]ð˜eŸl™l÷ ò r(   rû   c                   óF   ^ • \ rS rSrSrS\4U 4S jjrSS\4S jjrSr	U =r
$ )	ÚPatchTSMixerBlocki  z{The main computing framework of the `PatchTSMixer` model.

Args:
    config (`PatchTSMixerConfig`):
        Configuration.
r;   c           	      óº   >• [         TU ]  5         UR                  n[        R                  " [        U5       Vs/ sH  n[        US9PM     sn5      U l        g s  snf ©Nrý   )r   r   Ú
num_layersr   Ú
ModuleListÚrangerû   Úmixers)r$   r;   r
  rï   r%   s       €r&   r   ÚPatchTSMixerBlock.__init__	  sI   ø€ Ü‰ÑÔà×&Ñ&ˆ
ä—m’mÌuÐU_ÔO`Ó$aÑO`È!Ô%6¸fÔ%EÑO`Ñ$aÓbˆùÒ$as   ¹AÚoutput_hidden_statesc                 ó   • / nUnU R                    H%  nU" U5      nU(       d  M  UR                  U5        M'     U(       a  XC4$ US4$ )a3  
Args:
    hidden_state (`torch.Tensor`): The input tensor.
    output_hidden_states (`bool`, *optional*, defaults to False.):
        Whether to output the hidden states as well.

Returns:
    `torch.Tensor`: The embedding. `list`: List of all hidden states if `output_hidden_states` is set to
    `True`.
N)r  Úappend)r$   rq   r  Úall_hidden_statesÚ	embeddingÚmods         r&   r-   ÚPatchTSMixerBlock.forward  sR   € ð Ðà ˆ	à—;”;ˆCÙ˜I›ˆIß#Ð#Ø!×(Ñ(¨Ö3ñ ö
  ØÐ/Ð/à˜d?Ð"r(   )r  ©F)r/   r0   r1   r2   r3   r   r   rà   r-   r5   r6   r7   s   @r&   r  r    s(   ø† ñðcÐ1÷ cñ#¸$÷ #ó #r(   r  c                   ó>   ^ • \ rS rSrSrSS\4U 4S jjjrS rSrU =r	$ )ÚPatchTSMixerForPredictionHeadi*  zaPrediction Head for Forecasting

Args:
    config (`PatchTSMixerConfig`):
        Configuration.
r;   c                 óê  >• [         TU ]  5         UR                  U l        U R                  b  U R                  R                  5         [        R
                  " UR                  5      U l        Uc>  [        R                  " UR                  UR                  -  UR                  5      U l        O-UR                  UR                  UR                  -  5      U l        [        R                  " SS9U l        g )Néþÿÿÿ©Ú	start_dim)r   r   Úprediction_channel_indicesÚsortr   r‰   Úhead_dropoutÚdropout_layerr    rV   r@   Úprediction_lengthÚbase_forecast_blockÚget_parameter_projectionÚFlattenÚflatten)r$   r;   Údistribution_outputr%   s      €r&   r   Ú&PatchTSMixerForPredictionHead.__init__2  s·   ø€ Ü‰ÑÔà*0×*KÑ*KˆÔ'à×*Ñ*Ñ6Ø×+Ñ+×0Ñ0Ô2äŸZšZ¨×(;Ñ(;Ó<ˆÔØÑ&Ü')§y¢y°&×2DÑ2DÀvÇ~Á~Ñ2UÐX^×XpÑXpÓ'qˆDÕ$à':×'SÑ'SØ×"Ñ" V§^¡^Ñ3ó(ˆDÔ$ô —z’z¨BÑ/ˆr(   c                 óv  ^ • T R                  U5      nT R                  U5      nT R                  U5      n[        U[        5      (       a  [	        S U 5       5      nOUR                  SS5      nT R                  b=  [        U[        5      (       a  [	        U 4S jU 5       5      nU$ UST R                  4   nU$ )a:  

Args:
    hidden_features (`torch.Tensor` of shape `(batch_size, num_patch, d_model)` in `flatten` mode
        or `(batch_size, n_vars, num_patch, d_model)` in `common_channel`/`mix_channel` mode.): Input hidden
        features.

Returns:
    `torch.Tensor` of shape `(batch_size, prediction_length, nvars)`.

c              3   óB   #   • U H  oR                  S S5      v •  M     g7f)r   r  N)rG   )Ú.0Úzs     r&   Ú	<genexpr>Ú8PatchTSMixerForPredictionHead.forward.<locals>.<genexpr>U  s   é € ÐC¹(°QŸ[™[¨¨R×0Ð0º(ùs   ‚r   r  c              3   óB   >#   • U H  oS TR                   4   v •  M     g7f).N)r  )r*  r+  r$   s     €r&   r,  r-  [  s!   øé € Ð [ÑRZÈQ 3¨×(GÑ(GÐ#GÖ!HÒRZùs   ƒ.)r%  r   r"  Ú
isinstancerá   rG   r  ©r$   Úhidden_featuresÚforecasts   `  r&   r-   Ú%PatchTSMixerForPredictionHead.forwardD  s¯   ø€ ð Ÿ,™, Ó7ˆØ×,Ñ,¨_Ó=ˆØ×+Ñ+¨OÓ<ˆÜh¤×&Ñ&ÜÑC¹(ÓCÓC‰Hà×)Ñ)¨"¨bÓ1ˆHà×*Ñ*Ñ6Ü˜(¤E×*Ñ*Ü Ô [ÑRZÓ [Ó[ð ˆð $ C¨×)HÑ)HÐ$HÑIàˆr(   )r"  r   r%  r  r*   rñ   r7   s   @r&   r  r  *  s$   ø† ññ0Ð1÷ 0ð 0÷$ð r(   r  c                   ó>   ^ • \ rS rSrSrSS\4U 4S jjjrS rSrU =r	$ )ÚPatchTSMixerLinearHeadib  zpLinear head for Classification and Regression.

Args:
    config (`PatchTSMixerConfig`):
        Configuration.
r;   c                 ó\  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  c  UR                  nOSnX l        UcA  [        R                  " UR                  UR                  -  U-  UR                  5      U l        O0UR                  UR                  UR                  -  U-  5      U l        UR                  c  [        R                  " SS9U l        O[        R                  " SS9U l        [        R                  " UR                   5      U l        g )Nr   éýÿÿÿr  r  )r   r   Úhead_aggregationÚoutput_rangerV   r&  r   r    r@   rž   Únum_targetsÚ
projectionr#  r$  r%  r‰   r  rŠ   )r$   r;   r&  Ú
mul_factorr%   s       €r&   r   ÚPatchTSMixerLinearHead.__init__j  sñ   ø€ Ü‰ÑÔà &× 7Ñ 7ˆÔØ"×/Ñ/ˆÔà×"Ñ"Ñ*Ø×+Ñ+‰JàˆJØ#6Ô ØÑ&Ü ŸišiØ—‘ ×!:Ñ!:Ñ:¸ZÑGØ×"Ñ"óˆDOð
 2×JÑJØ—‘ ×!:Ñ!:Ñ:¸ZÑGóˆDŒOð ×"Ñ"Ñ*ÜŸ:š:°Ñ3ˆDLäŸ:š:°Ñ3ˆDŒLä—z’z &×"5Ñ"5Ó6ˆr(   c                 ó0  • UR                  SS5      nU R                  S:X  a  US   nOIU R                  S:X  a  UR                  SS9R                  nOU R                  S:X  a  UR	                  SS9nU R
                  (       a  U R                  U5      nU R                  U5      nU R                  U5      nU R                  cS  U R                  bF  [        R                  " U5      U R                  S   U R                  S	   -
  -  U R                  S	   -   nU$ )
a1  
Args:
    hidden_features (`torch.Tensor` of shape `(batch_size x num_patch x d_model)` in `flatten` mode
        or `(batch_size x n_vars x num_patch x d_model)` in `common_channel`/`mix_channel` mode.): Input hidden
        features.

Returns:
    `torch.Tensor` of shape `(batch_size x num_targets)`.
r   r  Úuse_last).r   Úmax_poolr   Úavg_poolr   r   )rG   r8  ÚmaxÚvaluesrh   r%  rŠ   r;  r&  r9  rK   Úsigmoid)r$   r1  s     r&   r-   ÚPatchTSMixerLinearHead.forward†  s
  € ð *×3Ñ3°B¸Ó;ˆØ× Ñ  JÓ.à-¨gÑ6‰OØ×"Ñ" jÓ0à-×1Ñ1°bÐ1Ð9×@Ñ@‰OØ×"Ñ" jÓ0à-×2Ñ2°rÐ2Ð:ˆOà<<Ø"Ÿl™l¨?Ó;ˆOØŸ,™, Ó7ˆØŸ/™/¨/Ó:ˆà×$Ñ$Ñ,°4×3DÑ3DÑ3Pä—’˜oÓ.°$×2CÑ2CÀAÑ2FÈ×IZÑIZÐ[\ÑI]Ñ2]Ñ^Ðae×arÑarÐstÑauÑuð ð Ðr(   )r&  rŠ   r%  r8  r9  r;  r*   rñ   r7   s   @r&   r5  r5  b  s$   ø† ññ7Ð1÷ 7ð 7÷8 ð  r(   r5  c                   ó2   • \ rS rSr% \\S'   SrSrSrS r	Sr
g)	ÚPatchTSMixerPreTrainedModeli©  r;   ÚmodelÚpast_valuesFc                 ó¤  • [        U[        5      (       aE  U R                  R                  S:X  a*  [        R
                  R                  UR                  SSS9  gg[        U[        R                  [        R                  45      (       aJ  UR                  R                  R                  5         UR                  R                  R                  S5        g[        U[        5      (       a^  UR                   R                  R                  R                  5         UR                   R                  R                  R                  S5        g[        U[        R"                  5      (       ak  UR                  R                  R                  SU R                  R$                  S9  UR                  b%  UR                  R                  R                  5         ggg)zInitialize weightsrZ   rÑ   gš™™™™™¹?)rh   ri   ç      ð?N)r/  rN   r;   r_   r   ÚinitÚnormal_rS   r|   r?   rÁ   ÚdataÚzero_ÚweightÚfill_r9   rB   r    Úinit_std)r$   r¨   s     r&   Ú_init_weightsÚ)PatchTSMixerPreTrainedModel._init_weights±  s:  € äfÔ<×=Ñ=à{‰{×3Ñ3°xÓ?Ü—‘—‘ × 3Ñ 3¸#À3ÒGð @ä˜¤§¡¬r¯~©~Ð >×?Ñ?ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜Ô 5×6Ñ6Ø×Ñ×!Ñ!×&Ñ&×,Ñ,Ô.Ø×Ñ×#Ñ#×(Ñ(×.Ñ.¨sÕ3Ü˜¤§	¡	×*Ñ*ØM‰M×Ñ×&Ñ&¨C°T·[±[×5IÑ5IÐ&ÑJØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ð +r(   © N)r/   r0   r1   r2   r   Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingrS  r5   rU  r(   r&   rG  rG  ©  s    ‡ ð ÓØÐØ#€OØ&+Ð#õ)r(   rG  c                   ó:   ^ • \ rS rSrSrS\4U 4S jjrS rSrU =r	$ )ÚPatchTSMixerPretrainHeadiÃ  zSPretraining head.

Args:
    config (`PatchTSMixerConfig`):
        Configuration.
r;   c                 óÌ   >• [         TU ]  5         [        R                  " UR                  5      U l        [        R                  " UR                  UR                  5      U l	        g r*   )
r   r   r   r‰   r  r   r    r@   Úpatch_lengthÚbase_pt_blockrC   s     €r&   r   Ú!PatchTSMixerPretrainHead.__init__Ë  sB   ø€ Ü‰ÑÔäŸZšZ¨×(;Ñ(;Ó<ˆÔÜŸYšY v§~¡~°v×7JÑ7JÓKˆÕr(   c                 óJ   • U R                  U5      nU R                  U5      nU$ )aG  
Args:
    hidden_features (`torch.Tensor` of shape `(batch_size x num_patch x d_model)` in `flatten` mode
        or `(batch_size x n_vars x num_patch x d_model)` in `common_channel`/`mix_channel` mode.): Input hidden
        features.

Returns:
    `torch.Tensor` of shape `(batch_size x n_vars x num_patch x patch_length)`.
)r   r^  r0  s      r&   r-   Ú PatchTSMixerPretrainHead.forwardÑ  s)   € ð ×,Ñ,¨_Ó=ˆØ×%Ñ% oÓ6ˆØˆr(   )r^  r   rñ   r7   s   @r&   r[  r[  Ã  s!   ø† ñðLÐ1÷ L÷ð r(   r[  r+   Ú
mask_ratioÚunmasked_channel_indicesÚchannel_consistent_maskingÚ
mask_valuec                 ó˜  • US:  d  US:¼  a  [        SU S35      eU R                  u  pVpxU R                  n	[        USU-
  -  5      n
U(       a*  [        R
                  " USXyS9nUR                  SUS5      nO[        R
                  " XVXyS9n[        R                  " XVXyS9nSUSS2SS2SU
24'   [        R                  " USS9n[        R                  " USS9n[        R                  " USUS	9nUR                  S5      R                  SSSU5      nUb  SUSS2USS2SS24'   U R                  UR                  5       U5      nXüS
   4$ )a†  random_masking: Mask the input considering the control variables.

Args:
    inputs (`torch.Tensor` of shape `(batch_size, num_channels, sequence_length, num_features)`):
        The input tensor to mask.
    mask_ratio (`float`):
        Masking ratio applied to mask the input data during random pretraining. It is the number between 0 and 1.
    unmasked_channel_indices (list, *optional*):
        Indices of channels that will not be masked.
    channel_consistent_masking (bool, *optional*, defaults to `False`):
        When true, masking will be same across all channels of a timeseries. Otherwise, masking positions will vary
        across channels.
    mask_value (int, *optional*, defaults to 0):
        Define the value of masked patches for pretraining.

Returns:
    `tuple(torch.Tensor)`: inputs_mask, masked input, same shape as input Tensor and mask tensor of shape [bs x c x
    n]
r   r   zMask ratio z has to be between 0 and 1.©ÚdeviceNr   r   )r   Úindex©.r   )rj   r€   rh  r4   rK   ÚrandÚrepeatÚonesÚargsortÚgatherrb   Úmasked_fillrà   )r+   rb  rc  rd  re  rë   Únum_channelsÚsequence_lengthÚnum_featuresrh  Úlen_keepÚnoiseÚmaskÚids_shuffleÚids_restoreÚinputs_masks                   r&   Úrandom_maskingrz  â  sA  € ð4 Aƒ~˜ q›Ü˜; z lÐ2MÐNÓOÐOà>D¿l¹lÑ;€J˜oØ]‰]€Fä? a¨*¡nÑ5Ó6€Hæ!Ü—
’
˜: q¨/ÑIˆØ—‘˜Q ¨aÓ0‰ô —
’
˜:°_ÑTˆô :Š:j°ÑO€DØ€DŠŠAˆyˆyˆÑô —-’- ¨2Ñ.€KÜ—-’- °Ñ4€Kä<Š<˜ "¨KÑ8€DØ>‰>˜"Ó×$Ñ$ Q¨¨1¨lÓ;€DØÑ+Ø23ˆŠQÐ(ª!ªQÐ.Ñ/à×$Ñ$ T§Y¡Y£[°*Ó=€KØ˜V™Ð$Ð$r(   Únum_forecast_mask_patchesc                 óN  • [        U[        5      (       a  U/nU Vs/ sH  nSPM     nnU R                  u  pgp‰[        R                  " XgX€R
                  S9n
/ nSn[        U5      n[        X5       HG  u  pïUS::  d  Xè:¼  a  [        SU S35      e[        Xo-  U-  5      nUR                  XïU/5        UU-  nMI     [        US S9nXÆ:  a  US   S   Xl-
  -   US   S'   OXÆ:”  a  US	   S   XÆ-
  -   US	   S'   SnU H  u  nnnUU-   nSU
UU2S
S
2U* S
24'   UnM     [        R                  " U
R                  S   5      nU
U   n
U
R                  S	5      R                  SSSU	5      n
Ub  SU
S
S
2US
S
2S
S
24'   U R                  U
R                  5       U5      nUU
S   4$ s  snf )ai  Forecast masking that masks the last K patches where K is from the num_forecast_mask_patches.
If num_forecast_mask_patches is a list, samples in the batch will be randomly masked by numbers defined in the list.

Parameters:
    inputs (`torch.Tensor`):
        Input of shape `(bs, num_channels, num_patch, patch_length)`
    num_forecast_mask_patches (`list`):
        Number of patches to be masked at the end of each batch sample. e.g. 4 or [3, 5].
    unmasked_channel_indices (`list`, *optional*):
        Indices of channels that are not masked.
    mask_value (`int`, *optional*, defaults to 0):
        Values in the masked patches will be filled by `mask_value`.

Returns:
    `tuple(torch.Tensor)`: inputs_mask, masked input, same shape as inputs Tensor and Mask tensor of shape `(bs,
    num_channels , num_patch)` or `(bs, tsg1, tsg2, num_channels, num_patch)`
r   rg  r   znum_forecast_mask_patches z6 should be greater than 0 and less than total patches.c                 ó   • U S   $ ©NrF   rU  )Úxs    r&   Ú<lambda>Ú"forecast_masking.<locals>.<lambda>I  s   € ¨!¨Aª$r(   )rª   rF   r   Nrj  )r/  r4   r€   rK   rU   rh  ÚsumÚziprj   r  ÚsortedÚrandpermrb   rl  rp  rà   )r+   r{  rc  re  rï   Úforecast_mask_ratiosrë   rq  rr  rs  rv  Út_listÚtotal_lengthÚtotal_ratior]  ÚratioÚtemp_lenÚbatch1Ú	patch_lenÚbatch2Úpermry  s                         r&   Úforecast_maskingr    sí  € ô0 Ð+¬S×1Ñ1Ø%>Ð$?Ð!Ù'@ÓAÑ'@ !›AÑ'@ÐÐAà>D¿l¹lÑ;€J˜oÜ;Š;z°ÏÉÑW€Dà€FØ€LÜÐ*Ó+€Kä"Ð#<ÖSÑˆØ˜1Ó Ó ?ÜØ,¨\¨NÐ:pÐqóð ô zÑ)¨KÑ7Ó8ˆØ‰|¨HÐ5Ô6Ø˜Ñ Šñ  Tô F¡Ñ/€FàÓ Ø˜a‘y ‘| zÑ'@ÑAˆˆq‰	!ŠØ	Ó	"Ø˜r™
 1™¨Ñ)BÑCˆˆr‰
1‰à€FÛ"(Ñˆ	1hØ˜(Ñ"ˆØ./ˆˆVFˆ]šA 	˜z™{Ð*Ñ+ØŠñ #)ô
 >Š>˜$Ÿ*™* Q™-Ó(€DØ‰:€Dà>‰>˜"Ó×$Ñ$ Q¨¨1¨lÓ;€DØÑ+Ø23ˆŠQÐ(ª!ªQÐ.Ñ/à×$Ñ$ T§Y¡Y£[°*Ó=€KØ˜˜V™Ð$Ð$ùòO Bs   F"c                   óV   ^ • \ rS rSrSrS\4U 4S jjrS\R                  4S jr	Sr
U =r$ )ÚPatchTSMixerPatchifyib  z£
A class to patchify the time series sequence into different patches

Returns:
    `torch.Tensor` of shape `(batch_size, num_channels, num_patches, patch_length)`
r;   c                 ó  >• [         TU ]  5         UR                  U l        UR                  U l        UR
                  U l        U R                  U R                  ::  a&  [        SU R                   SU R                   S35      e[        U R                  U R                  5      U R                  -
  U R
                  -  S-   U l        U R                  U R
                  U R                  S-
  -  -   nU R                  U-
  U l	        g )NzSequence length (z+) has to be greater than the patch length (Ú)r   )
r   r   Úcontext_lengthrr  r]  Úpatch_striderj   rB  rV   Úsequence_start)r$   r;   Únew_sequence_lengthr%   s      €r&   r   ÚPatchTSMixerPatchify.__init__j  sò   ø€ Ü‰ÑÔà%×4Ñ4ˆÔØ"×/Ñ/ˆÔØ"×/Ñ/ˆÔà×Ñ 4×#4Ñ#4Ó4ÜØ# D×$8Ñ$8Ð#9Ð9dÐei×evÑevÐdwÐwxÐyóð ô
   × 4Ñ 4°d×6GÑ6GÓHÈ4×K\ÑK\Ñ\Ðae×arÑarÑrÐuvÑvˆÔØ"×/Ñ/°$×2CÑ2CÀt×GWÑGWÐZ[ÑG[Ñ2\Ñ\ÐØ"×2Ñ2Ð5HÑHˆÕr(   rI  c                 ó4  • UR                   S   nX R                  :w  a  [        SU SU R                   S35      eUSS2U R                  S2SS24   nUR	                  SU R
                  U R                  S9nUR                  SS5      R                  5       nU$ )zñ
Parameters:
    past_values (`torch.Tensor` of shape `(batch_size, sequence_length, num_channels)`, *required*):
        Input for patchification

Returns:
    `torch.Tensor` of shape `(batch_size, num_channels, num_patches, patch_length)`
r  zInput sequence length (z%) doesn't match model configuration (rÄ   N)Ú	dimensionr³   Ústepr7  )	r€   rr  rj   r—  Úunfoldr]  r–  rG   r·   )r$   rI  rr  rH   s       r&   r-   ÚPatchTSMixerPatchify.forward{  s¦   € ð &×+Ñ+¨BÑ/ˆØ×2Ñ2Ó2ÜØ)¨/Ð):Ð:_Ð`d×`tÑ`tÐ_uÐuwÐxóð ð šQ × 3Ñ 3Ñ 5²qÐ8Ñ9ˆà—‘¨°$×2CÑ2CÈ$×J[ÑJ[Ð\ˆà×!Ñ! " bÓ)×4Ñ4Ó6ˆØˆr(   )rV   r]  r–  rr  r—  rJ   r7   s   @r&   r’  r’  b  s,   ø† ñðIÐ1÷ Ið" 5§<¡<÷ ò r(   r’  c                   óV   ^ • \ rS rSrSrS\4U 4S jjrS\R                  4S jr	Sr
U =r$ )ÚPatchTSMixerMaskingi“  ap  
Class to perform random or forecast masking.

Parameters:
    config (`PatchTSMixerConfig`): model config
Returns:
    x_mask (`torch.Tensor` of shape `(batch_size, num_channels, num_patches, patch_length)`)
        Masked patched input
    mask (`torch.Tensor` of shape `(batch_size, num_channels, num_patches)`)
        Bool tensor indicating True on masked points
r;   c                 ó>  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U l        UR
                  U l        UR                  U l        UR                  U l        U R                  b  [        U R                  5      U l        g g r*   )	r   r   Úrandom_mask_ratiord  Ú	mask_typer{  rc  re  r„  rC   s     €r&   r   ÚPatchTSMixerMasking.__init__   s„   ø€ Ü‰ÑÔØ!'×!9Ñ!9ˆÔØ*0×*KÑ*KˆÔ'Ø×)Ñ)ˆŒØ)/×)IÑ)IˆÔ&Ø(.×(GÑ(GˆÔ%Ø ×+Ñ+ˆŒØ×(Ñ(Ñ4Ü,2°4×3PÑ3PÓ,QˆDÕ)ð 5r(   rn   c                 ód  • U R                   S:X  a8  [        UU R                  U R                  U R                  U R
                  S9u  p#OVU R                   S:X  a-  [        UU R                  U R                  U R
                  S9u  p#O[        SU R                    S35      eUR                  5       nX#4$ )aœ  
Parameters:
    patch_input (`torch.Tensor` of shape `(batch_size, num_channels, num_patches, patch_length)`, *required*):
        Patch input

Return:
    masked_input (`torch.Tensor` of shape `(batch_size, num_channels, num_patches, patch_length)`)
        Masked patched input
    mask (`torch.Tensor` of shape `(batch_size, num_channels, num_patches)`)
        Bool tensor indicating True on masked points

rZ   )r+   rb  rc  rd  re  r2  )r+   r{  rc  re  zInvalid mask type Ú.)
r£  rz  r¢  rc  rd  re  r  r{  rj   rà   )r$   rn   Úmasked_inputrv  s       r&   r-   ÚPatchTSMixerMasking.forward«  s¯   € ð >‰>˜XÓ%Ü!/Ø"Ø×1Ñ1Ø)-×)FÑ)FØ+/×+JÑ+JØŸ?™?ñ"ÑˆL˜$ð ^‰^˜zÓ)Ü!1Ø"Ø*.×*HÑ*HØ)-×)FÑ)FØŸ?™?ñ	"ÑˆL˜$ô Ð1°$·.±.Ð1AÀÐCÓDÐDð y‰y‹{ˆØÐ!Ð!r(   )rd  r£  re  r{  r¢  rc  rJ   r7   s   @r&   r   r   “  s,   ø† ñ
ð	RÐ1÷ 	Rð!" 5§<¡<÷ !"ò !"r(   r   c            	       óº   ^ • \ rS rSrSrS\4U 4S jjrS\R                  S\R                  S\	\R                  \R                  \R                  4   4S jr
S	rU =r$ )
ÚPatchTSMixerStdScaleriÐ  z±
Standardize features by calculating the mean and scaling along the first dimension, and then normalizes it by
subtracting from the mean and dividing by the standard deviation.
r;   c                 ó  >• [         TU ]  5         [        US5      (       a  UR                  OSU l        [        US5      (       a  UR
                  OSU l        [        US5      (       a  UR                  U l        g SU l        g )NÚscaling_dimr   ÚkeepdimTÚminimum_scalegñhãˆµøä>)r   r   Úhasattrr¬  r   r­  r®  rC   s     €r&   r   ÚPatchTSMixerStdScaler.__init__Ö  sd   ø€ Ü‰ÑÔÜ)0°¸×)GÑ)G6×%Ò%ÈQˆŒÜ)0°¸×)CÑ)Cv—~’~ÈˆŒÜ5<¸VÀ_×5UÑ5U˜V×1Ñ1ˆÕÐ[_ˆÕr(   rN  Úobserved_indicatorrX   c                 ór  • UR                  U R                  U R                  S9nUR                  S5      nX-  R                  U R                  U R                  S9U-  nX-
  U-  S-  R                  U R                  U R                  S9U-  n[        R
                  " XPR                  -   5      nX-
  U-  XF4$ )áó  
Parameters:
    data (`torch.Tensor` of shape `(batch_size, sequence_length, num_input_channels)`):
        input for Batch norm calculation
    observed_indicator (`torch.BoolTensor` of shape `(batch_size, sequence_length, num_input_channels)`):
        Calculating the scale on the observed indicator.
Returns:
    tuple of `torch.Tensor` of shapes
        (`(batch_size, sequence_length, num_input_channels)`,`(batch_size, 1, num_input_channels)`,
        `(batch_size, 1, num_input_channels)`)
©r­  rK  rF   )r‚  r   r­  Ú	clamp_minrK   Úsqrtr®  )r$   rN  r±  ÚdenominatorÚlocÚvarianceÚscales          r&   r-   ÚPatchTSMixerStdScaler.forwardÜ  s³   € ð )×,Ñ,¨T¯X©X¸t¿|¹|Ð,ÐLˆØ!×+Ñ+¨CÓ0ˆØÑ(×-Ñ-¨d¯h©hÀÇÁÐ-ÐMÐP[Ñ[ˆà‘jÐ$6Ñ6¸1Ñ<×AÑAÀ$Ç(Á(ÐTX×T`ÑT`ÐAÐaÐdoÑoˆÜ—
’
˜8×&8Ñ&8Ñ8Ó9ˆØ‘
˜eÑ# SÐ/Ð/r(   )r   r­  r®  ©r/   r0   r1   r2   r3   r   r   rK   rL   rá   r-   r5   r6   r7   s   @r&   rª  rª  Ð  sY   ø† ñð
`Ð1÷ `ð0Ø—L‘Lð0Ø6;·l±lð0à	ˆu|‰|˜UŸ\™\¨5¯<©<Ð7Ñ	8÷0ò 0r(   rª  c            	       óº   ^ • \ rS rSrSrS\4U 4S jjrS\R                  S\R                  S\	\R                  \R                  \R                  4   4S jr
S	rU =r$ )
ÚPatchTSMixerMeanScaleriô  z~
Computes a scaling factor as the weighted average absolute value along the first dimension, and scales the data
accordingly.
r;   c                 óN  >• [         TU ]  5         [        US5      (       a  UR                  OSU l        [        US5      (       a  UR
                  OSU l        [        US5      (       a  UR                  OSU l        [        US5      (       a  UR                  U l        g S U l        g )Nr¬  r   r­  Tr®  ç»½×Ùß|Û=Údefault_scale)r   r   r¯  r¬  r   r­  r®  rÁ  rC   s     €r&   r   ÚPatchTSMixerMeanScaler.__init__ú  s   ø€ Ü‰ÑÔÜ)0°¸×)GÑ)G6×%Ò%ÈQˆŒÜ)0°¸×)CÑ)Cv—~’~ÈˆŒÜ5<¸VÀ_×5UÑ5U˜V×1Ò1Ð[`ˆÔÜ5<¸VÀ_×5UÑ5U˜V×1Ñ1ˆÕÐ[_ˆÕr(   rN  r±  rX   c                 ó°  • X-  R                  5       R                  U R                  SS9nUR                  U R                  SS9nU[        R                  " USS9-  nU R
                  cL  UR                  SS9n[        R                  " UR                  S5      SS9n[        R                  " Xg-  5      nO#U R
                  [        R                  " U5      -  n[        R                  " US:„  XX5      n[        R                  " XPR                  S9nX-  n	U R                  (       d  UR                  U R                  S9nU	[        R                  " U5      U4$ )r³  Tr´  r   ©Úminr   r   )Úabsr‚  r   rK   ÚclamprÁ  ÚsqueezeÚ	ones_likeÚwherer®  r­  Ú
zeros_like)
r$   rN  r±  Úts_sumÚnum_observedrº  Ú	batch_sumÚbatch_observationsrÁ  Úscaled_datas
             r&   r-   ÚPatchTSMixerMeanScaler.forward  s"  € ð Ñ+×0Ñ0Ó2×6Ñ6°t·x±xÈÐ6ÐNˆØ)×-Ñ-¨d¯h©hÀÐ-ÐEˆàœŸš \°qÑ9Ñ9ˆð ×ÑÑ%ØŸ
™
 q˜
Ð)ˆIÜ!&§¢¨\×-=Ñ-=¸aÓ-@ÀaÑ!HÐÜ!ŸMšM¨)Ñ*HÓI‰Mà ×.Ñ.´·²ÀÓ1GÑGˆMô —’˜L¨1Ñ,¨eÓCˆô —’˜E×'9Ñ'9Ñ:ˆØ‘lˆà||Ø—M‘M d§h¡hMÐ/ˆEàœE×,Ò,¨UÓ3°UÐ:Ð:r(   )rÁ  r   r­  r®  r¼  r7   s   @r&   r¾  r¾  ô  sY   ø† ñð
`Ð1÷ `ð&;Ø—L‘Lð&;Ø6;·l±lð&;à	ˆu|‰|˜UŸ\™\¨5¯<©<Ð7Ñ	8÷&;ò &;r(   r¾  c            
       óÆ   ^ • \ rS rSrSrS\4U 4S jjr S
S\R                  S\	\R                     S\
\R                  \R                  \R                  4   4S jjrS	rU =r$ )ÚPatchTSMixerNOPScaleri+  zt
Assigns a scaling factor equal to 1 along the first dimension, and therefore applies no scaling to the input data.
r;   c                 ó¾   >• [         TU ]  5         [        US5      (       a  UR                  OSU l        [        US5      (       a  UR
                  U l        g SU l        g )Nr¬  r   r­  T)r   r   r¯  r¬  r   r­  rC   s     €r&   r   ÚPatchTSMixerNOPScaler.__init__0  sF   ø€ Ü‰ÑÔÜ)0°¸×)GÑ)G6×%Ò%ÈQˆŒÜ)0°¸×)CÑ)Cv—~‘~ˆÈˆr(   rN  r±  rX   c                 óæ   • [         R                  " USS9R                  U R                  U R                  S9n[         R
                  " USS9R                  U R                  U R                  S9nXU4$ )aP  
Parameters:
    data (`torch.Tensor` of shape `(batch_size, sequence_length, num_input_channels)`):
        input for Batch norm calculation
Returns:
    tuple of `torch.Tensor` of shapes
        (`(batch_size, sequence_length, num_input_channels)`,`(batch_size, 1, num_input_channels)`,
        `(batch_size, 1, num_input_channels)`)
Fr[   ©r   r­  )rK   rÉ  rh   r   r­  rË  )r$   rN  r±  rº  r¸  s        r&   r-   ÚPatchTSMixerNOPScaler.forward5  sg   € ô —’ °EÑ:×?Ñ?ÀDÇHÁHÐVZ×VbÑVbÐ?ÐcˆÜ×Ò˜t°5Ñ9×>Ñ>À4Ç8Á8ÐUY×UaÑUaÐ>ÐbˆØ˜%ÐÐr(   r×  r*   )r/   r0   r1   r2   r3   r   r   rK   rL   r   rá   r-   r5   r6   r7   s   @r&   rÓ  rÓ  +  se   ø† ñðNÐ1÷ Nð PTñ Ø—L‘Lð Ø6>¸u¿|¹|Ñ6Lð à	ˆu|‰|˜UŸ\™\¨5¯<©<Ð7Ñ	8÷ ó  r(   rÓ  zS
    Base class for `PatchTSMixerEncoderOutput`, with potential hidden states.
    )Úcustom_introc                   óp   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\\R                        \	S'   Srg)ÚPatchTSMixerEncoderOutputiF  a  
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, num_channels, num_patches, d_model)`):
    Hidden-state at the output of the last layer of the model.
hidden_states (`tuple(torch.FloatTensor)`, *optional*):
    Hidden-states of the model at the output of each layer.
NÚlast_hidden_staterË   rU  )r/   r0   r1   r2   r3   rÜ  r   rK   ÚFloatTensorrV  rË   rá   r5   rU  r(   r&   rÛ  rÛ  F  s9   ‡ ñð 6:Ðx × 1Ñ 1Ñ2Ó9Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ö<r(   rÛ  c                   óŠ   ^ • \ rS rSrSrS\4U 4S jjr\  SS\R                  S\
\   S\
\   S\\\4   4S	 jj5       rS
rU =r$ )ÚPatchTSMixerEncoderiX  zœ
Encoder for PatchTSMixer which inputs patched time-series and outputs patched embeddings.

Args:
    config (`PatchTSMixerConfig`):
        Configuration.
r;   c                 óT  >• [         TU ]  U5        UR                  U l        [        R                  " UR
                  UR                  5      U l        UR                  (       a  [        US9U l
        OS U l
        [        US9U l        UR                  (       a  U R                  5         g g r	  )r   r   Úuse_return_dictr   r    r]  r@   ÚpatcherrQ   rN   Úpositional_encoderr  Úmlp_mixer_encoderÚ	post_initrC   s     €r&   r   ÚPatchTSMixerEncoder.__init__a  s   ø€ Ü‰Ñ˜Ô à%×5Ñ5ˆÔä—y’y ×!4Ñ!4°f·n±nÓEˆŒØ×)×)Ü&DÈFÑ&SˆDÕ#à&*ˆDÔ#Ü!2¸&Ñ!AˆÔð ××ØN‰NÕð r(   rI  r  Úreturn_dictrX   c                 óì   • Ub  UOU R                   nU R                  U5      nU R                  b  U R                  U5      nU R                  XBS9u  pVU(       d  [	        S UU4 5       5      $ [        XVS9$ )a  
past_values (`torch.FloatTensor` of shape `(batch_size, seq_length, num_input_channels)`):
    Context values of the time series. For a pretraining task, this denotes the input time series to
    predict the masked portion. For a forecasting task, this denotes the history/past time series values.
    Similarly, for classification or regression tasks, it denotes the appropriate context values of the
    time series.

    For univariate time series, `num_input_channels` dimension should be 1. For multivariate time series,
    it is greater than 1.

Returns:
    `torch.FloatTensor` of shape `(batch_size, n_vars, num_patches, d_model)`
)r  c              3   ó$   #   • U H  nUv •  M	     g 7fr*   rU  ©r*  Úvs     r&   r,  Ú.PatchTSMixerEncoder.forward.<locals>.<genexpr>’  s   é € ð ñAõ òùó   ‚)rÜ  rË   )rá  râ  rã  rä  rá   rÛ  )r$   rI  r  rç  ÚpatchesrÜ  rË   s          r&   r-   ÚPatchTSMixerEncoder.forwardq  s   € ð* &1Ñ%<‘kÀ$×BVÑBVˆð —,‘,˜{Ó+ˆð ×"Ñ"Ñ.Ø×-Ñ-¨gÓ6ˆGà+/×+AÑ+AÀ'Ð+AÐ+uÑ(ÐæÜñ ð &Ø!ñóó ð ô )Ð;LÑjÐjr(   )rä  râ  rã  rá  )FN)r/   r0   r1   r2   r3   r   r   r   rK   rL   r   rà   r   rá   rÛ  r-   r5   r6   r7   s   @r&   rß  rß  X  st   ø† ñðÐ1÷ ð  ð 05Ø&*ñ	(kà—\‘\ð(kð ' t™nð(kð ˜d‘^ð	(kð
 
ˆuÐ/Ð/Ñ	0ô(kó ö(kr(   rß  zG
    Base class for model's outputs, with potential hidden states.
    c                   ó  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\\R                        \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S	'   S
rg)ÚPatchTSMixerModelOutputi  aÔ  
last_hidden_state (`torch.FloatTensor`  of shape `(batch_size, num_channels, num_patches, d_model)`):
    Hidden-state at the output of the last layer of the model.
hidden_states (`tuple(torch.FloatTensor)`, *optional*):
    Hidden-states of the model at the output of each layer.
patch_input (`torch.FloatTensor` of shape `(batch_size, num_channels, num_patches, patch_length)`):
    Patched input data to the model.
mask (`torch.FloatTensor` of shape `(batch_size, num_channels, num_patches)`, *optional*):
    Bool Tensor indicating True in masked patches and False otherwise.
loc (`torch.FloatTensor` of shape `(batch_size, 1, num_channels)`, *optional*):
    Gives the mean of the context window per channel. Used for revin denorm outside the model, if revin
    enabled.
scale (`torch.FloatTensor` of shape `(batch_size, 1, num_channels)`, *optional*):
    Gives the std dev of the context window per channel. Used for revin denorm outside the model, if revin
    enabled.
NrÜ  rË   rn   rv  r¸  rº  rU  )r/   r0   r1   r2   r3   rÜ  r   rK   rÝ  rV  rË   rá   rn   rv  r¸  rº  r5   rU  r(   r&   rñ  rñ    s   ‡ ñð" 6:Ðx × 1Ñ 1Ñ2Ó9Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø/3€K˜%×+Ñ+Ñ,Ó3Ø(,€Dˆ(5×$Ñ$Ñ
%Ó,Ø'+€Cˆ%×#Ñ#Ñ	$Ó+Ø)-€Eˆ8E×%Ñ%Ñ&Ö-r(   rñ  z=
    The PatchTSMixer Model for time-series forecasting.
    c                   ó¤   ^ • \ rS rSrSS\S\4U 4S jjjr\   SS\R                  S\
\R                     S\
\   S\
\   S	\4
S
 jj5       rSrU =r$ )ÚPatchTSMixerModeli½  r;   Ú
mask_inputc                 óÆ  >• [         TU ]  U5        UR                  U l        [        U5      U l        [        U5      U l        USL a  [        U5      U l        OSU l        UR                  S:X  a  [        U5      U l        O@UR                  S:X  d  UR                  SL a  [        U5      U l        O[        U5      U l        UR                  (       a  U R                  5         gg)z}
mask_input (bool, *optional*, defaults to `False`):
    Whether to mask the input using the [`PatchTSMixerMasking`] module.
TNrh   ri   )r   r   rá  rß  Úencoderr’  Úpatchingr   Úmaskingr­   r¾  Úscalerrª  rÓ  rå  )r$   r;   rô  r%   s      €r&   r   ÚPatchTSMixerModel.__init__Ã  s´   ø€ ô
 	‰Ñ˜Ô à%×5Ñ5ˆÔÜ*¨6Ó2ˆŒÜ,¨VÓ4ˆŒà˜ÒÜ.¨vÓ6ˆDLàˆDŒLà>‰>˜VÓ#Ü0°Ó8ˆDKØ^‰^˜uÓ$¨¯©¸$Ò(>Ü/°Ó7ˆDKä/°Ó7ˆDŒKð ××ØN‰NÕð r(   rI  Úobserved_maskr  rç  rX   c           	      óî  • Ub  UOU R                   nSnUc  [        R                  " U5      nU R                  X5      u  pgnU R	                  U5      n	U	n
U R
                  b  U R                  U	5      u  p¥U R                  U
UUS9n[        U[        5      (       a  [        U6 nU(       d,  [        S UR                  UR                  U	UUU4 5       5      $ [        UR                  UR                  U	UUUS9$ )a‹  
past_values (`torch.FloatTensor` of shape `(batch_size, seq_length, num_input_channels)`):
    Context values of the time series. For a pretraining task, this denotes the input time series to predict
    the masked portion. For a forecasting task, this denotes the history/past time series values. Similarly,
    for classification or regression tasks, it denotes the appropriate context values of the time series.

    For univariate time series, `num_input_channels` dimension should be 1. For multivariate time series, it is
    greater than 1.
observed_mask (`torch.FloatTensor` of shape `(batch_size, sequence_length, num_input_channels)`, *optional*):
    Boolean mask to indicate which `past_values` were observed and which were missing. Mask values selected
    in `[0, 1]`:
    - 1 for values that are **observed**,
    - 0 for values that are **missing** (i.e. NaNs that were replaced by zeros).
N©r  rç  c              3   ó$   #   • U H  nUv •  M	     g 7fr*   rU  rê  s     r&   r,  Ú,PatchTSMixerModel.forward.<locals>.<genexpr>  ó   é € ð 
ñAõ òùrí  )rÜ  rË   rn   rv  r¸  rº  )rá  rK   rÉ  rù  r÷  rø  rö  r/  rá   rÛ  rÜ  rË   rñ  )r$   rI  rû  r  rç  rv  Úscaled_past_valuesr¸  rº  Ú	patched_xÚ	enc_inputÚencoder_outputs               r&   r-   ÚPatchTSMixerModel.forwardÞ  s  € ð, &1Ñ%<‘kÀ$×BVÑBVˆàˆØÑ Ü!ŸOšO¨KÓ8ˆMØ)-¯©°[Ó)PÑ&Ð à—M‘MÐ"4Ó5ˆ	àˆ	Ø<‰<Ñ#Ø"Ÿl™l¨9Ó5‰OˆIð Ÿ™ØØ!5Ø#ð &ð 
ˆô n¤e×,Ñ,Ü6¸ÐGˆNæÜñ 
ð #×4Ñ4Ø"×0Ñ0ØØØØñó
ó 
ð 
ô 'Ø,×>Ñ>Ø(×6Ñ6Ø!ØØØñ
ð 	
r(   )rö  rø  r÷  rù  rá  r  )NFN)r/   r0   r1   r2   r   rà   r   r   rK   rL   r   rñ  r-   r5   r6   r7   s   @r&   ró  ró  ½  s‡   ø† ñÐ1ð ¸t÷ ð ð6 ð 15Ø/4Ø&*ñA
à—\‘\ðA
ð   §¡Ñ-ðA
ð ' t™nð	A
ð
 ˜d‘^ðA
ð 
!ôA
ó öA
r(   ró  z>
    Output type of [`PatchTSMixerForPreTrainingOutput`].
    c                   óÀ   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Srg)	Ú PatchTSMixerForPreTrainingOutputi#  a  
loss (*optional*, returned when `y` is provided, `torch.FloatTensor` of shape `()`):
    Total loss
prediction_outputs (`torch.FloatTensor` of shape `(batch_size, num_input_channels, num_patches, patch_length)`):
    Prediction output from the pretrain head.
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, num_input_channels, num_patches, d_model)`):
    Backbone embeddings before passing through the head.
hidden_states (`tuple(torch.FloatTensor)`, *optional*):
    Hidden-states of the model at the output of each layer.
NÚlossÚprediction_outputsrÜ  rË   rU  ©r/   r0   r1   r2   r3   r  r   rK   rÝ  rV  r	  rÜ  rË   rá   r5   rU  r(   r&   r  r  #  ód   ‡ ñ	ð )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø6:Ð˜ ×!2Ñ!2Ñ3Ó:Ø59Ðx × 1Ñ 1Ñ2Ó9Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ö<r(   r  z.
    `PatchTSMixer` for mask pretraining.
    c                   ó¢   ^ • \ rS rSrS\4U 4S jjr\    SS\R                  S\	\R                     S\	\
   S\
S\	\
   S	\4S
 jj5       rSrU =r$ )ÚPatchTSMixerForPretrainingi;  r;   c                 óæ   >• [         TU ]  U5        [        USS9U l        [	        US9U l        UR                  U l        UR                  U l        UR                  (       a  U R                  5         g g )NT)rô  rý   )	r   r   ró  rH  r[  ÚheadÚmasked_lossrá  rå  rC   s     €r&   r   Ú#PatchTSMixerForPretraining.__init__A  s`   ø€ Ü‰Ñ˜Ô Ü& v¸$Ñ?ˆŒ
Ü,°FÑ;ˆŒ	Ø!×-Ñ-ˆÔØ%×5Ñ5ˆÔð ××ØN‰NÕð r(   rI  rû  r  Úreturn_lossrç  rX   c                 óÖ  • Ub  UOU R                   nU R                  SL a  [        R                  R	                  SS9nO[        R                  R	                  SS9nU R                  UUUUS9n[        U[        5      (       a  [        U6 nU R                  UR                  5      nUSL a  U" X‡R                  5      n	OSn	U R                  SL aK  U	bH  U	R                  SS9UR                  -  R                  5       UR                  R                  5       S	-   -  n	U(       d*  [        S
 U	UUR                  UR                  4 5       5      $ [!        U	UUR                  UR                  S9$ )aä  
past_values (`torch.FloatTensor` of shape `(batch_size, seq_length, num_input_channels)`):
    Context values of the time series. For a pretraining task, this denotes the input time series to predict
    the masked portion. For a forecasting task, this denotes the history/past time series values. Similarly,
    for classification or regression tasks, it denotes the appropriate context values of the time series.

    For univariate time series, `num_input_channels` dimension should be 1. For multivariate time series, it is
    greater than 1.
observed_mask (`torch.FloatTensor` of shape `(batch_size, sequence_length, num_input_channels)`, *optional*):
    Boolean mask to indicate which `past_values` were observed and which were missing. Mask values selected
    in `[0, 1]`:
    - 1 for values that are **observed**,
    - 0 for values that are **missing** (i.e. NaNs that were replaced by zeros).
return_loss (`bool`,  *optional*):
    Whether to return the loss in the `forward` call.
NTÚnone©Ú	reductionrh   ©rû  r  rç  r   r   rÀ  c              3   ó$   #   • U H  nUv •  M	     g 7fr*   rU  rê  s     r&   r,  Ú5PatchTSMixerForPretraining.forward.<locals>.<genexpr>‚  ó   é € ð ñAõ òùrí  ©r  r	  rÜ  rË   )rá  r  rK   r   ÚMSELossrH  r/  rá   rñ  r  rÜ  rn   rh   rv  r‚  rË   r  )
r$   rI  rû  r  r  rç  r  Úmodel_outputÚx_hatÚloss_vals
             r&   r-   Ú"PatchTSMixerForPretraining.forwardL  sp  € ð2 &1Ñ%<‘kÀ$×BVÑBVˆà×Ñ˜tÒ#Ü—8‘8×#Ñ#¨fÐ#Ð5‰Dä—8‘8×#Ñ#¨fÐ#Ð5ˆDð —z‘zØØ'Ø!5Ø#ð	 "ð 
ˆô l¤E×*Ñ*Ü2°LÐAˆLà—	‘	˜,×8Ñ8Ó9ˆà˜$ÒÙ˜E×#;Ñ#;Ó<‰HàˆHð ×Ñ˜tÒ#¨Ñ(<Ø Ÿ™¨"˜Ð-°×0AÑ0AÑA×FÑFÓHÈL×L]ÑL]×LaÑLaÓLcÐfkÑLkÑlˆHæÜñ ð ØØ ×2Ñ2Ø ×.Ñ.ñ	óó ð ô 0ØØ$Ø*×<Ñ<Ø&×4Ñ4ñ	
ð 	
r(   )r  r  rH  rá  ©NFTN)r/   r0   r1   r2   r   r   r   rK   rL   r   rà   r  r-   r5   r6   r7   s   @r&   r  r  ;  s‰   ø† ð	Ð1÷ 	ð ð 15Ø/4Ø Ø&*ñD
à—\‘\ðD
ð   §¡Ñ-ðD
ð ' t™nð	D
ð
 ðD
ð ˜d‘^ðD
ð 
*ôD
ó öD
r(   r  z=
    Output type of [`PatchTSMixerForPredictionOutput`].
    c                   ó  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Sr\\R                     \	S'   Sr\\R                     \	S	'   S
rg)ÚPatchTSMixerForPredictionOutputi”  a  
loss (*optional*, returned when `y` is provided, `torch.FloatTensor` of shape `()`):
    Total loss.
prediction_outputs (`torch.FloatTensor` of shape `(batch_size, prediction_length, num_input_channels)`):
    Prediction output from the forecast head.
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, num_input_channels, num_patches, d_model)`):
    Backbone embeddings before passing through the head.
hidden_states (`tuple(torch.FloatTensor)`, *optional*):
    Hidden-states of the model at the output of each layer plus the optional initial embedding outputs.
loc (`torch.FloatTensor`, *optional* of shape `(batch_size, 1, num_input_channels)`):
    Input mean
scale (`torch.FloatTensor`, *optional* of shape `(batch_size, 1, num_input_channels)`):
    Input std dev
Nr  r	  rÜ  rË   r¸  rº  rU  )r/   r0   r1   r2   r3   r  r   rK   rÝ  rV  r	  rÜ  rË   rá   r¸  rº  r5   rU  r(   r&   r#  r#  ”  sŽ   ‡ ñð )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø6:Ð˜ ×!2Ñ!2Ñ3Ó:Ø59Ðx × 1Ñ 1Ñ2Ó9Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø'+€Cˆ%×#Ñ#Ñ	$Ó+Ø)-€Eˆ8E×%Ñ%Ñ&Ö-r(   r#  zƒ
    Base class for time series model's predictions outputs that contains the sampled values from the chosen
    distribution.
    c                   óB   • \ rS rSr% SrSr\\R                     \	S'   Sr
g)Ú"SamplePatchTSMixerPredictionOutputi²  úœ
sequences (`torch.FloatTensor` of shape `(batch_size, num_samples, prediction_length, number_channels)`):
    Sampled values from the chosen distribution.
NÚ	sequencesrU  ©r/   r0   r1   r2   r3   r'  r   rK   rÝ  rV  r5   rU  r(   r&   r%  r%  ²  ó   ‡ ñð
 .2€Iˆx˜×)Ñ)Ñ*Ö1r(   r%  c                   óB   • \ rS rSr% SrSr\\R                     \	S'   Sr
g)Ú"SamplePatchTSMixerRegressionOutputiÂ  r&  Nr'  rU  r(  rU  r(   r&   r+  r+  Â  r)  r(   r+  ÚinputÚtargetrX   c                 ó&   • U R                  U5      * $ )z[
Computes the negative log likelihood loss from input distribution with respect to target.
)Úlog_prob)r,  r-  s     r&   Únllr0  Ó  s   € ð N‰N˜6Ó"Ð"Ð"r(   Úinput_tensorÚweightsc                 óR  • Ub–  [         R                  " US:g  X-  [         R                  " U 5      5      n[         R                  " U(       a  UR	                  US9OUR	                  5       SS9nU(       a  UR	                  US9U-  $ UR	                  5       U-  $ U R                  US9$ )a:  
Computes the weighted average of a given tensor across a given `dim`, masking values associated with weight zero,
meaning instead of `nan * 0 = nan` you will get `0 * 0 = 0`.

Args:
    input_tensor (`torch.FloatTensor`):
        Input tensor, of which the average must be computed.
    weights (`torch.FloatTensor`, *optional*):
        Weights tensor, of the same shape as `input_tensor`.
    dim (`int`, *optional*):
        The dim along which to average `input_tensor`.

Returns:
    `torch.FloatTensor`: The tensor with values averaged along the specified `dim`.
r   r   rK  rÄ  )rK   rÊ  rË  rÇ  r‚  rh   )r1  r2  r   Úweighted_tensorÚsum_weightss        r&   Úweighted_averager6  Û  s™   € ð  ÑÜŸ+š+ g°¡l°LÑ4JÌE×L\ÒL\Ð]iÓLjÓkˆÜ—k’k¾# '§+¡+°# +Ñ"6À7Ç;Á;Ã=ÐVYÑZˆÞ03×#Ñ#¨Ð#Ð,ÐR]Ñ]Ð]¸×9LÑ9LÓ9NÐR]Ñ]Ð]à× Ñ  SÐ Ð)Ð)r(   c                   ó8  ^ • \ rS rSrSrS\4U 4S jjr\     SS\R                  S\
\R                     S\
\R                     S\
\   S	\S
\
\   S\4S jj5       r\R                  " 5        SS\R                  S\
\R                     S\4S jj5       rSrU =r$ )ÚPatchTSMixerForPredictionió  z„
`PatchTSMixer` for forecasting application.

Args:
    config (`PatchTSMixerConfig`):
        Configuration.

Returns:
    `None`.
r;   c                 ó4  >• [         TU ]  U5        UR                  U l        UR                  U l        UR                  U l        UR
                  U l        UR                  S:X  a  S U l        OaUR                  n[        [        [        S.nUR                  UR                  S 5      nUb  U" US9U l        O[        SUR                   35      e[        U5      U l        [        UU R                  S9U l        UR"                  (       a  U R#                  5         g g )NÚmse©Ú	student_tÚnormalÚnegative_binomialr   úUnknown distribution output ©r;   r&  )r   r   r  rá  r  Únum_parallel_samplesr&  r!  r   r   r   Úgetrj   ró  rH  r  r  rå  )r$   r;   r   Údistribution_output_mapÚoutput_classr%   s        €r&   r   Ú"PatchTSMixerForPrediction.__init__ÿ  sû   ø€ Ü‰Ñ˜Ô Ø—K‘KˆŒ	Ø%×5Ñ5ˆÔØ*0×*KÑ*KˆÔ'Ø$*×$?Ñ$?ˆÔ!à;‰;˜%ÓØ'+ˆDÕ$à×*Ñ*ˆCä+Ü&Ü%;ñ'Ð#ð
 3×6Ñ6°v×7QÑ7QÐSWÓXˆLØÑ'Ù+7¸CÑ+@Õ(ä Ð#?À×@ZÑ@ZÐ?[Ð!\Ó]Ð]ä& vÓ.ˆŒ
Ü1ØØ $× 8Ñ 8ñ
ˆŒ	ð ××ØN‰NÕð r(   rI  rû  Úfuture_valuesr  r  rç  rX   c           	      ó˜  • U R                   S:X  a  [        R                  " SS9nO"U R                   S:X  a  [        nO[	        S5      eUb  UOU R
                  nU R                  UUUUS9n[        U[        5      (       a  [        U6 nU R                  UR                  5      n	Sn
U R                  bã  U R                  (       ay  U R                  R                  U	UR                  SU R                  4   UR                   SU R                  4   S	9nUb(  US
L a#  U" UUSU R                  4   5      n
[#        U
5      n
OßX˜R                   SU R                  4   -  UR                  SU R                  4   -   n	Ub  US
L a  U" X“SU R                  4   5      n
O†U R                  (       aJ  U R                  R                  X˜R                  UR                   S	9nUb  US
L a  U" X³5      n
[#        U
5      n
O+X˜R                   -  UR                  -   n	Ub  US
L a  U" X“5      n
U R                  b7  UR                  SU R                  4   nUR                   SU R                  4   nOUR                  nUR                   nU(       d,  [        S U
U	UR                  UR$                  UU4 5       5      $ ['        U
U	UR                  UR$                  UUS9$ )a  
past_values (`torch.FloatTensor` of shape `(batch_size, seq_length, num_input_channels)`):
    Context values of the time series. For a pretraining task, this denotes the input time series to predict
    the masked portion. For a forecasting task, this denotes the history/past time series values. Similarly,
    for classification or regression tasks, it denotes the appropriate context values of the time series.

    For univariate time series, `num_input_channels` dimension should be 1. For multivariate time series, it is
    greater than 1.
observed_mask (`torch.FloatTensor` of shape `(batch_size, sequence_length, num_input_channels)`, *optional*):
    Boolean mask to indicate which `past_values` were observed and which were missing. Mask values selected
    in `[0, 1]`:
    - 1 for values that are **observed**,
    - 0 for values that are **missing** (i.e. NaNs that were replaced by zeros).
future_values (`torch.FloatTensor` of shape `(batch_size, target_len, num_input_channels)` for forecasting,:
    `(batch_size, num_targets)` for regression, or `(batch_size,)` for classification, *optional*):
    Target values of the time series, that serve as labels for the model. The `future_values` is what the
    Transformer needs during training to learn to output, given the `past_values`. Note that, this is NOT
    required for a pretraining task.

    For a forecasting task, the shape is be `(batch_size, target_len, num_input_channels)`. Even if we want
    to forecast only specific channels by setting the indices in `prediction_channel_indices` parameter,
    pass the target data with all channels, as channel Filtering for both prediction and target will be
    manually applied before the loss computation.
return_loss (`bool`,  *optional*):
    Whether to return the loss in the `forward` call.
r:  rh   r  r0  ú2Invalid loss function: Allowed values: mse and nllNr  .©r¸  rº  Tc              3   ó$   #   • U H  nUv •  M	     g 7fr*   rU  rê  s     r&   r,  Ú4PatchTSMixerForPrediction.forward.<locals>.<genexpr>„  r   rí  )r  r	  rÜ  rË   r¸  rº  )r  r   r  r0  rj   rá  rH  r/  rá   rñ  r  rÜ  r  r&  Údistributionr¸  rº  r6  rË   r#  )r$   rI  rû  rF  r  r  rç  r  r  Úy_hatr  rL  r¸  rº  s                 r&   r-   Ú!PatchTSMixerForPrediction.forward  sÿ  € ðH 9‰9˜ÓÜ—:’:¨Ñ/‰DØY‰Y˜%ÓÜ‰DäÐQÓRÐRà%0Ñ%<‘kÀ$×BVÑBVˆð —z‘zØØ'Ø!5Ø#ð	 "ð 
ˆô l¤E×*Ñ*Ü2°LÐAˆLð —	‘	˜,×8Ñ8Ó9ˆàˆØ×*Ñ*Ñ6Ø×'×'Ø#×7Ñ7×DÑDØØ$×(Ñ(¨¨d×.MÑ.MÐ)MÑNØ&×,Ñ,¨S°$×2QÑ2QÐ-QÑRð  Eð  ð
 !Ñ,°ÀÒ1DÙ#Ø$Ø% c¨4×+JÑ+JÐ&JÑKó Hô
  0°Ó9Høð ×.Ñ.¨s°D×4SÑ4SÐ/SÑTÑTØ"×&Ñ& s¨D×,KÑ,KÐ'KÑLñMð ð !Ñ,°ÀÒ1DÙ# E¸¸d×>]Ñ>]Ð9]Ñ+^Ó_Høà×'×'Ø#×7Ñ7×DÑDØ×/Ñ/°|×7IÑ7Ið  Eð  ð !Ñ,°ÀÒ1DÙ# LÓ@HÜ/°Ó9Høà× 2Ñ 2Ñ2°\×5EÑ5EÑEØ Ñ,°ÀÒ1DÙ# EÓ9Hà×*Ñ*Ñ6Ø×"Ñ" 3¨×(GÑ(GÐ#GÑHˆCØ ×&Ñ& s¨D×,KÑ,KÐ'KÑL‰Eà×"Ñ"ˆCØ ×&Ñ&ˆEæÜñ 
ð ØØ ×2Ñ2Ø ×.Ñ.ØØñó
ó 
ð 
ô /ØØ$Ø*×<Ñ<Ø&×4Ñ4ØØñ
ð 	
r(   c                 ó2  • U R                   nU " USUSS9nU R                  R                  UR                  UR                  UR
                  S9n[        U5       Vs/ sH  oeR                  5       PM     nn[        R                  " USS9n[        US9$ s  snf )aX  
Generate sequences of sample predictions from a model with a probability distribution head.

Args:
    past_values (`torch.FloatTensor` of shape `(batch_size, sequence_length, num_input_channels)`):
        Past values of the time series that serves as context in order to predict the future.

    observed_mask (`torch.BoolTensor` of shape `(batch_size, sequence_length, num_input_channels)`, *optional*):
        Boolean mask to indicate which `past_values` were observed and which were missing. Mask values selected
        in `[0, 1]`:

        - 1 for values that are **observed**,
        - 0 for values that are **missing** (i.e. NaNs that were replaced by zeros).

Return:
    [`SamplePatchTSMixerPredictionOutput`] where the outputs `sequences` tensor will have shape `(batch_size,
    number of samples, prediction_length, num_input_channels)`.
NF)rI  rF  rû  r  rI  r   r   ©r'  )rA  r&  rL  r	  r¸  rº  r  ÚsamplerK   Ústackr%  )r$   rI  rû  rA  ÚoutputsrL  rï   Úsampless           r&   ÚgenerateÚ"PatchTSMixerForPrediction.generate™  s¢   € ð2  $×8Ñ8Ðñ Ø#ØØ'Ø!&ñ	
ˆð ×/Ñ/×<Ñ<Ø×&Ñ&¨G¯K©K¸w¿}¹}ð =ð 
ˆô
 38Ð8LÔ2MÓNÑ2M¨Q×&Ñ&Ö(Ñ2MˆÐNô —+’+˜g¨1Ñ-ˆÜ1¸GÑDÐDùò	 Os   ÁB)r&  r  r  rH  rA  r  rá  )NNFTNr*   )r/   r0   r1   r2   r3   r   r   r   rK   rL   r   rà   r#  r-   Úno_gradr%  rU  r5   r6   r7   s   @r&   r8  r8  ó  sô   ø† ñ	ðÐ1÷ ð@ ð 15Ø04Ø/4Ø Ø&*ñw
à—\‘\ðw
ð   §¡Ñ-ðw
ð   §¡Ñ-ð	w
ð
 ' t™nðw
ð ðw
ð ˜d‘^ðw
ð 
)ôw
ó ðw
ðr ‡]‚]ƒ_ð 15ñ-Eà—\‘\ð-Eð   §¡Ñ-ð-Eð 
,ô	-Eó ö-Er(   r8  zK
    Output type of [`PatchTSMixerForTimeSeriesClassificationOutput`].
    c                   óÀ   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Srg)	Ú-PatchTSMixerForTimeSeriesClassificationOutputiÊ  a,  
loss (*optional*, returned when `y` is provided, `torch.FloatTensor` of shape `()`):
    Total loss.
prediction_outputs (`torch.FloatTensor` of shape `(batch_size, num_labels)`):
    Prediction output from the classification head.
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, num_input_channels, num_patches, d_model)`):
    Backbone embeddings before passing through the head.
hidden_states (`tuple(torch.FloatTensor)`, *optional*):
    Hidden-states of the model at the output of each layer plus the optional initial embedding outputs.
Nr  r	  rÜ  rË   rU  r
  rU  r(   r&   rY  rY  Ê  r  r(   rY  c                   ó¦   ^ • \ rS rSrSrS\4U 4S jjr\    SS\R                  S\
\R                     S\
\   S\S	\
\   S
\4S jj5       rSrU =r$ )Ú'PatchTSMixerForTimeSeriesClassificationiâ  z‡
`PatchTSMixer` for classification application.

Args:
    config (`PatchTSMixerConfig`):
        Configuration.

Returns:
    `None`.
r;   c                 ó<  >• [         TU ]  U5        [        U5      U l        [	        US9U l        UR                  U l        UR                  S;   a$  [        UR                  UR                  S9U l        OS U l        UR                  (       a  U R                  5         g g )Nrý   ©ri   rh   T©r@   rV   )r   r   ró  rH  r5  r  rá  r­   ÚInjectScalerStatistics4Dr@   rV   Úinject_scalerå  rC   s     €r&   r   Ú0PatchTSMixerForTimeSeriesClassification.__init__î  s„   ø€ Ü‰Ñ˜Ô ä& vÓ.ˆŒ
Ü*Øñ
ˆŒ	ð  &×5Ñ5ˆÔØ>‰>Ð2Ó2Ü 8ÀÇÁÐ]c×]oÑ]oÑ pˆDÕà $ˆDÔð ××ØN‰NÕð r(   rI  Útarget_valuesr  r  rç  rX   c                 ó<  • [         R                  R                  5       nUb  UOU R                  nU R	                  UUUS9n[        U[        5      (       a  [        U6 nU R                  b4  U R                  UR                  UR                  UR                  S9Ul	        U R                  UR                  5      nUb  USL a	  U" X‚5      n	OSn	U(       d*  [        S U	UUR                  UR                  4 5       5      $ [        U	UUR                  UR                  S9$ )aH  
past_values (`torch.FloatTensor` of shape `(batch_size, seq_length, num_input_channels)`):
    Context values of the time series. For a pretraining task, this denotes the input time series to predict
    the masked portion. For a forecasting task, this denotes the history/past time series values. Similarly,
    for classification or regression tasks, it denotes the appropriate context values of the time series.

    For univariate time series, `num_input_channels` dimension should be 1. For multivariate time series, it is
    greater than 1.
target_values (`torch.FloatTensor` of shape `(batch_size, target_len, num_input_channels)` for forecasting,
    `(batch_size, num_targets)` for regression, or `(batch_size,)` for classification, *optional*):
    Target
    values of the time series, that serve as labels for the model. The `target_values` is what the
    Transformer needs during training to learn to output, given the `past_values`. Note that, this is NOT
    required for a pretraining task.

    For a forecasting task, the shape is be `(batch_size, target_len, num_input_channels)`. Even if we want
    to forecast only specific channels by setting the indices in `prediction_channel_indices` parameter,
    pass the target data with all channels, as channel Filtering for both prediction and target will be
    manually applied before the loss computation.

    For a classification task, it has a shape of `(batch_size,)`.

    For a regression task, it has a shape of `(batch_size, num_targets)`.
return_loss (`bool`, *optional*):
    Whether to return the loss in the `forward` call.
Nrý  rI  Tc              3   ó$   #   • U H  nUv •  M	     g 7fr*   rU  rê  s     r&   r,  ÚBPatchTSMixerForTimeSeriesClassification.forward.<locals>.<genexpr>>  r  rí  r  )rK   r   ÚCrossEntropyLossrá  rH  r/  rá   rñ  r`  rÜ  r¸  rº  r  rË   rY  )
r$   rI  rb  r  r  rç  r  r  rM  r  s
             r&   r-   Ú/PatchTSMixerForTimeSeriesClassification.forwardÿ  s/  € ôH x‰x×(Ñ(Ó*ˆà%0Ñ%<‘kÀ$×BVÑBVˆà—z‘zØØ!5Ø#ð "ð 
ˆô
 l¤E×*Ñ*Ü2°LÐAˆLà×ÑÑ(Ø-1×->Ñ->Ø×.Ñ.Ø ×$Ñ$Ø"×(Ñ(ð .?ð .ˆLÔ*ð —	‘	˜,×8Ñ8Ó9ˆàÑ$¨¸Ò)<Ù˜EÓ1‰HàˆHæÜñ ð ØØ ×2Ñ2Ø ×.Ñ.ñ	óó ð ô =ØØ$Ø*×<Ñ<Ø&×4Ñ4ñ	
ð 	
r(   )r  r`  rH  rá  r!  )r/   r0   r1   r2   r3   r   r   r   rK   rL   r   rà   rY  r-   r5   r6   r7   s   @r&   r[  r[  â  sŽ   ø† ñ	ðÐ1÷ ð" ð 15Ø/4Ø Ø&*ñM
à—\‘\ðM
ð   §¡Ñ-ðM
ð ' t™nð	M
ð
 ðM
ð ˜d‘^ðM
ð 
7ôM
ó öM
r(   r[  z=
    Output type of [`PatchTSMixerForRegressionOutput`].
    c                   óÀ   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Srg)	ÚPatchTSMixerForRegressionOutputiP  a)  
loss (*optional*, returned when `y` is provided, `torch.FloatTensor` of shape `()`):
    Total loss.
regression_outputs (`torch.FloatTensor` of shape `(batch_size, num_targets)`):
    Prediction output from the regression head.
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, num_input_channels, num_patches, d_model)`):
    Backbone embeddings before passing through the head.
hidden_states (`tuple(torch.FloatTensor)`, *optional*):
    Hidden-states of the model at the output of each layer plus the optional initial embedding outputs.
Nr  Úregression_outputsrÜ  rË   rU  )r/   r0   r1   r2   r3   r  r   rK   rÝ  rV  rj  rÜ  rË   rá   r5   rU  r(   r&   ri  ri  P  r  r(   ri  c                   óŽ   ^ • \ rS rSrSS\S\S\4U 4S jjjrS\R                  S\R                  S\R                  4S	 jrS
r	U =r
$ )r_  ih  r@   rV   Ú	expansionc                 ó(  >• [         TU ]  5         [        R                  " US-   X1-  5      U l        [        R                  " X1-  U5      U l        [        R                  " SSU-  5      U l        [        R                  " SU-  S5      U l        X l        g r~  )	r   r   r   r    Úinverse_trans_expansionÚinverse_trans_compressionÚmap_scale_expansionÚmap_scale_compressionrV   )r$   r@   rV   rl  r%   s       €r&   r   Ú!InjectScalerStatistics4D.__init__i  sr   ø€ Ü‰ÑÔä')§y¢y°¸1±¸iÑ>QÓ'RˆÔ$Ü)+¯ª°9Ñ3FÈÓ)PˆÔ&Ü#%§9¢9¨Q°°I±Ó#>ˆÔ Ü%'§Y¢Y¨q°9©}¸aÓ%@ˆÔ"Ø&Õr(   r+   r¸  rº  c                 óê  • UR                  SS5      nUR                  S5      nUR                  SSU R                  S5      nUR                  SS5      nUR                  S5      nUR                  SSU R                  S5      n[        R
                  " XE/SS9nU R                  U5      nU R                  U5      n[        R
                  " X/SS9nU R                  U5      nU R                  U5      nU$ )aQ  
Args:
    inputs (`torch.Tensor` of shape `(batch_size, num_input_channels, num_patch, d_model)`)
    loc (`torch.Tensor` of shape `(batch_size, 1, num_input_channels)`)
    scale (`torch.Tensor` of shape `(batch_size, 1, num_input_channels)`)
Returns:
    `torch.Tensor` of shape `(batch_size, num_input_channels, num_patch, d_model)`
r   r  r   r   )
rG   rb   rl  rV   rK   Úcatrp  rq  rn  ro  )r$   r+   r¸  rº  rh   ÚstdevÚconcat_statss          r&   r-   Ú InjectScalerStatistics4D.forwardr  sÞ   € ð }‰}˜R Ó$ˆØ~‰~˜bÓ!ˆØ{‰{˜1˜a ×!1Ñ!1°1Ó5ˆà—‘  BÓ'ˆØ—‘ Ó#ˆØ—‘˜Q  4×#3Ñ#3°QÓ7ˆä—y’y $ °BÑ7ˆà×/Ñ/°Ó=ˆØ×1Ñ1°,Ó?ˆä—’˜FÐ1°rÑ:ˆØ×-Ñ-¨fÓ5ˆØ×/Ñ/°Ó7ˆàˆr(   )ro  rn  rq  rp  rV   )rF   )r/   r0   r1   r2   r4   r   rK   rL   r-   r5   r6   r7   s   @r&   r_  r_  h  sM   ø† ñ' ð '°#ð 'À#÷ 'ð 'ð˜eŸl™lð °·±ð ÀeÇlÁl÷ ò r(   r_  z4
    `PatchTSMixer` for regression application.
    c                   óð   ^ • \ rS rSrS\4U 4S jjr\    SS\R                  S\	\R                     S\	\
   S\
S\	\
   S	\4S
 jj5       r\R                  " 5       S\R                  S	\4S j5       rSrU =r$ )ÚPatchTSMixerForRegressioni  r;   c                 ó¤  >• [         TU ]  U5        [        U5      U l        UR                  U l        UR
                  U l        UR                  U l        UR                  U l        UR                  S:X  a  S U l        O^[        [        [        S.nUR                  UR
                  5      nUb  U" UR                  S9U l        O[        SUR
                   35      eUR                  S;   a$  [        UR                   UR"                  S9U l        OS U l        ['        UU R
                  S9U l        UR*                  (       a  U R+                  5         g g )Nr:  r;  r   r?  r]  r^  r@  )r   r   ró  rH  r  r&  rá  rA  r   r   r   rB  r:  rj   r­   r_  r@   rV   r`  r5  r  rå  )r$   r;   rC  rD  r%   s       €r&   r   Ú"PatchTSMixerForRegression.__init__–  s$  ø€ Ü‰Ñ˜Ô ä& vÓ.ˆŒ
à—K‘KˆŒ	Ø#)×#=Ñ#=ˆÔ à%×5Ñ5ˆÔØ$*×$?Ñ$?ˆÔ!à;‰;˜%ÓØ'+ˆDÕ$ô ,Ü&Ü%;ñ'Ð#ð
 3×6Ñ6°v×7QÑ7QÓRˆLØÑ'Ù+7¸F×<NÑ<NÑ+OÕ(ä Ð#?À×@ZÑ@ZÐ?[Ð!\Ó]Ð]à>‰>Ð2Ó2Ü 8ÀÇÁÐ]c×]oÑ]oÑ pˆDÕà $ˆDÔä*ØØ $× 8Ñ 8ñ
ˆŒ	ð ××ØN‰NÕð r(   rI  rb  r  r  rç  rX   c           	      ó  • U R                   S:X  a  [        R                  " SS9nO"U R                   S:X  a  [        nO[	        S5      eUb  UOU R
                  nU R                  UUUS9n[        U[        5      (       a  [        U6 nU R                  b4  U R                  UR                  UR                  UR                  S9Ul        U R                  UR                  5      nUbÅ  US	L aÀ  U R                  (       a¦  U R                  S
:X  a)  [         R"                  " US:  5      (       a  [%        S5      eU R                  R'                  U5      n	[        U V
s/ sH(  oªR)                  SU R*                  R,                  5      PM*     sn
5      nU" X’5      n[/        U5      nOU" X‚5      nOSnU(       d*  [        S UUUR                  UR0                  4 5       5      $ [3        UUUR                  UR0                  S9$ s  sn
f )aD  
past_values (`torch.FloatTensor` of shape `(batch_size, seq_length, num_input_channels)`):
    Context values of the time series. For a pretraining task, this denotes the input time series to predict
    the masked portion. For a forecasting task, this denotes the history/past time series values. Similarly,
    for classification or regression tasks, it denotes the appropriate context values of the time series.

    For univariate time series, `num_input_channels` dimension should be 1. For multivariate time series, it is
    greater than 1.
target_values (`torch.FloatTensor` of shape `(batch_size, target_len, num_input_channels)` for forecasting,
    `(batch_size, num_targets)` for regression, or `(batch_size,)` for classification, *optional*):
    Target values of the time series, that serve as labels for the model. The `target_values` is what the
    Transformer needs during training to learn to output, given the `past_values`. Note that, this is NOT
    required for a pretraining task.

    For a forecasting task, the shape is be `(batch_size, target_len, num_input_channels)`. Even if we want
    to forecast only specific channels by setting the indices in `prediction_channel_indices` parameter,
    pass the target data with all channels, as channel Filtering for both prediction and target will be
    manually applied before the loss computation.

    For a classification task, it has a shape of `(batch_size,)`.

    For a regression task, it has a shape of `(batch_size, num_targets)`.
return_loss (`bool`, *optional*):
    Whether to return the loss in the `forward` call.
r:  rh   r  r0  rH  Nrý  rI  Tr>  r   zDtarget_values cannot be negative for negative_binomial distribution.r   c              3   ó$   #   • U H  nUv •  M	     g 7fr*   rU  rê  s     r&   r,  Ú4PatchTSMixerForRegression.forward.<locals>.<genexpr>	  r  rí  )r  rj  rÜ  rË   )r  r   r  r0  rj   rá  rH  r/  rá   rñ  r`  rÜ  r¸  rº  r  r&  rK   ÚanyÚ	ExceptionrL  r¶   r;   r:  r6  rË   ri  )r$   rI  rb  r  r  rç  r  r  rM  rL  Úitemr  s               r&   r-   Ú!PatchTSMixerForRegression.forward½  sì  € ðF 9‰9˜ÓÜ—:’:¨Ñ/‰DØY‰Y˜%ÓÜ‰DäÐQÓRÐRà%0Ñ%<‘kÀ$×BVÑBVˆØ—z‘zØØ!5Ø#ð "ð 
ˆô
 l¤E×*Ñ*Ü2°LÐAˆLà×ÑÑ(Ø-1×->Ñ->Ø×.Ñ.Ø ×$Ñ$Ø"×(Ñ(ð .?ð .ˆLÔ*ð —	‘	˜,×8Ñ8Ó9ˆàÑ$¨¸Ò)<Ø×'×'Ø×+Ñ+Ð/BÓBÄuÇyÂyÐQ^ÐabÑQb×GcÑGcÜ#Ð$jÓkÐkØ#×7Ñ7×DÑDÀUÓKäÑRWÓXÑRWÈ$Ÿy™y¨¨T¯[©[×-DÑ-DÖEÑRWÑXÓYÙ Ó<ä+¨HÓ5‘á Ó5‘àˆHæÜñ ð ØØ ×2Ñ2Ø ×.Ñ.ñ	óó ð ô /ØØ$Ø*×<Ñ<Ø&×4Ñ4ñ	
ð 	
ùò) Ys   Å.G>c                 óP  • U R                   nU " USSS9nU R                  R                  UR                  5      n[	        U5       Vs/ sH  oTR                  5       PM     nn[        R                  " USS9R                  SX R                  R                  5      n[        US9$ s  snf )aÊ  
Generate sequences of sample predictions from a model with a probability distribution head.

Args:
    past_values (`torch.FloatTensor` of shape `(batch_size, sequence_length, num_input_channels)`):
        Past values of the time series that serves as context in order to predict the target values.

Return:
    [`SamplePatchTSMixerRegressionOutput`] where the outputs `sequences` tensor will have shape `(batch_size,
    number of samples, num_targets)`.
NF)rI  rb  r  r   r   r   rP  )rA  r&  rL  rj  r  rQ  rK   rR  r¶   r;   r:  r+  )r$   rI  rA  rS  rL  rï   rT  s          r&   rU  Ú"PatchTSMixerForRegression.generate  s©   € ð"  $×8Ñ8Ðñ Ø#ØØ!&ñ
ˆð ×/Ñ/×<Ñ<¸W×=WÑ=WÓXˆô ,1Ð1EÔ+Fó
Ù+F a×ÑÖ!Ñ+Fð 	ð 
ô
 —+’+˜g¨1Ñ-×2Ñ2°2Ð7KÏ[É[×MdÑMdÓeˆÜ1¸GÑDÐDùò
s   ÁB#)r&  r  r`  r  rH  rA  rá  r!  )r/   r0   r1   r2   r   r   r   rK   rL   r   rà   ri  r-   rW  r+  rU  r5   r6   r7   s   @r&   ry  ry    s¿   ø† ð%Ð1÷ %ðN ð 15Ø/4Ø Ø&*ñZ
à—\‘\ðZ
ð   §¡Ñ-ðZ
ð ' t™nð	Z
ð
 ðZ
ð ˜d‘^ðZ
ð 
)ôZ
ó ðZ
ðx ‡]‚]ƒ_ð#Eà—\‘\ð#Eð 
,ó#Eó ö#Er(   ry  )rG  ró  r  r8  r[  ry  )NrÑ   N)NFr   )Nr   )NN)Rr3   rd   Údataclassesr   Útypingr   r   r   rK   Útorch.nnr   Útransformers.modeling_utilsr   Útransformers.utilsr   Úmodeling_flash_attention_utilsr
   Úmodeling_utilsr   Úprocessing_utilsr   Útime_series_utilsr   r   r   Úutilsr   r   Úconfiguration_patchtsmixerr   Ú
get_loggerr/   ÚloggerÚModuler   r9   rN   ru   r„   r—   rL   rß   r»   r½   rã   ró   rû   r  r  r5  rG  r[  Úlistrà   r4   rz  r  r’  r   rª  r¾  rÓ  rÛ  rß  rñ  ró  r  r  r#  r%  r+  ÚdistributionsÚDistributionr0  r6  r8  rY  r[  ri  r_  ry  Ú__all__rU  r(   r&   Ú<module>r—     sK  ðñ "ã Ý !ß ,Ñ ,ã Ý å 7Ý *å BÝ 5Ý &ß UÑ Uß ,Ý :ð 
×	Ò	˜HÓ	%€ô §¡ô ô*&˜BŸI™Iô &ô,$ R§Y¡Yô $ôN.˜BŸI™Iô .ôbb—i‘iô ô.-¨2¯9©9ô -ðn  $ØØ(,ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð e‰_ð%ð ð%ð ˜Ÿ™Ñ%õ%ô>U/˜BŸI™Iô U/ôpCb—i‘iô CôL*˜Ÿ	™	ô *ôZ#˜Ÿ	™	ô #ôL&#˜Ÿ	™	ô &#ôR5 B§I¡Iô 5ôpD˜RŸY™Yô DðN ô) /ó )ó ð)ô2˜rŸy™yô ðD 04Ø',Øñ7%ØL‰Lð7%àð7%ð ' t™nð7%ð !%ð	7%ð
 õ7%ð| 04Øñ	A%ØL‰LðA%à$ T¨3 YÑ/ðA%ð ' t™nðA%ð õ	A%ôJ-˜2Ÿ9™9ô -ôb9"˜"Ÿ)™)ô 9"ôz 0˜BŸI™Iô  0ôH3;˜RŸY™Yô 3;ôn ˜BŸI™Iô  ð6 Ùðñô
	= ó 	=óó ð	=ôBkÐ5ô BkðJ Ùðñô
.˜kó .óó ð.ñ4 ðñô
^
Ð3ó ^
óð
^
ðB Ùðñô
= {ó =óó ð=ñ$ ðñô
Q
Ð!<ó Q
óð
Q
ðh Ùðñô
. kó .óó ð.ð0 Ùðñô2¨ó 2óó ð2ð Ùðñô2¨ó 2óó ð2ð#ˆu×"Ñ"×/Ñ/ð #¸¿¹ð #È%Ï,É,ô #ñ* 5§<¡<ð *¸(À5Ç<Á<Ñ:Pð *Ðfk×frÑfrõ *ô0TEÐ ;ô TEðn Ùðñô
=°Kó =óó ð=ô$k
Ð.Iô k
ð\ Ùðñô
= kó =óó ð=ô$%˜rŸy™yô %ñP ðñô
iEÐ ;ó iEóð
iEòXr(   