ó
    <±h¡I  ã                   óæ  • S r SSKJrJr  SSKrSSKJs  Jr  SSK	rSSKJr  SSK
Jr  SSKJrJr  SSKJrJr  SS	KJr  SS
KJrJr  SSKJr  SSKJrJr  SSKJr  SSKJrJ r J!r!J"r"J#r#J$r$J%r%J&r&J'r'  SSK(J)r)  \RT                  " \+5      r,   S0S\\RZ                  \.\RZ                     S4   S\\/   S\\RZ                     S\\RZ                  \/4   4S jjr0 " S S\Rb                  5      r2 " S S\Rb                  5      r3 " S S\&5      r4 " S S\5      r5 " S S \5      r6 " S! S"\'5      r7 " S# S$\%5      r8 " S% S&\$5      r9 " S' S(\ 5      r: " S) S*\"5      r; " S+ S,\#5      r< " S- S.\!5      r=/ S/Qr>g)1zPyTorch Mixtral model.é    )ÚOptionalÚUnionN)Únné   )ÚACT2FN)ÚCacheÚDynamicCache)Úcreate_causal_maskÚ!create_sliding_window_causal_mask)ÚGradientCheckpointingLayer)ÚMoeCausalLMOutputWithPastÚMoeModelOutputWithPast)ÚUnpack)ÚTransformersKwargsÚlogging)ÚOutputRecorderé   )	ÚMistralAttentionÚMistralForCausalLMÚMistralForQuestionAnsweringÚ MistralForSequenceClassificationÚMistralForTokenClassificationÚMistralModelÚMistralPreTrainedModelÚMistralRMSNormÚMistralRotaryEmbeddingé   )ÚMixtralConfigÚgate_logitsÚnum_expertsÚattention_maskÚreturnc                 óž  • U b  [        U [        5      (       d  g[        U [        5      (       aB  U S   R                  n[        R                  " U  Vs/ sH  oUR                  U5      PM     snSS9n[        R                  R                  R                  WSS9n[        R                  " XrSS9u  p‰[        R                  R                  R                  X‘5      n
Uc:  [        R                  " U
R                  5       SS9n[        R                  " USS9nGOUR                  u  pÞUR                  S   XÞ-  -  nUSSS2SS2SS4   R                  XýXâU45      R                  SX!5      R                  W5      n[        R                   " U
R                  5       U-  SS9[        R                   " USS9-  nUSSS2SS2S4   R                  XýXá45      R                  SU5      R                  U5      n[        R                   " UU-  SS9[        R                   " USS9-  n[        R                   " X¼R#                  S5      -  5      nUU-  $ s  snf )ax  
Computes auxiliary load balancing loss as in Switch Transformer - implemented in Pytorch.

See Switch Transformer (https://huggingface.co/papers/2101.03961) for more details. This function implements the loss
function presented in equations (4) - (6) of the paper. It aims at penalizing cases where the routing between
experts is too unbalanced.

Args:
    gate_logits:
        Logits from the `gate`, should be a tuple of model.config.num_hidden_layers tensors of
        shape [batch_size X sequence_length, num_experts].
    num_experts:
        Number of experts
    top_k:
        The number of experts to route per-token, can be also interpreted as the `top-k` routing
        parameter.
    attention_mask (`torch.Tensor`, *optional*):
        The attention_mask used in forward function
        shape [batch_size X sequence_length] if not None.

Returns:
    The auxiliary loss.
Nr   ©Údiméÿÿÿÿ)Ú
isinstanceÚtupleÚdeviceÚtorchÚcatÚtor   Ú
functionalÚsoftmaxÚtopkÚone_hotÚmeanÚfloatÚshapeÚexpandÚreshapeÚsumÚ	unsqueeze)r   r    Útop_kr!   Úcompute_deviceÚ
layer_gateÚconcatenated_gate_logitsÚrouting_weightsÚ_Úselected_expertsÚexpert_maskÚtokens_per_expertÚrouter_prob_per_expertÚ
batch_sizeÚsequence_lengthÚnum_hidden_layersÚexpert_attention_maskÚ router_per_expert_attention_maskÚoverall_losss                      Úc/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/mixtral/modular_mixtral.pyÚload_balancing_loss_funcrI   6   s+  € ð: Ñ¤*¨[¼%×"@Ñ"@Øä+œu×%Ñ%Ø$ Q™×.Ñ.ˆÜ#(§9¢9Ñ^iÓ-jÑ^iÐPZ¯m©m¸NÖ.KÑ^iÑ-jÐpqÑ#rÐ ä—h‘h×)Ñ)×1Ñ1Ð2JÐPRÐ1ÐS€OäŸ*š* _ÀÑDÑ€Aä—(‘(×%Ñ%×-Ñ-Ð.>ÓL€KàÑä!ŸJšJ {×'8Ñ'8Ó':ÀÑBÐô "'§¢¨OÀÑ!CÒà&4×&:Ñ&:Ñ#ˆ
Ø4×:Ñ:¸1Ñ=À*ÑB^Ñ_Ðð ˜4¢¢A t¨TÐ1Ñ2ß‰VÐ&°OÈKÐXÓYß‰WR˜Ó,ß‰RÓð	 	ô "ŸIšI k×&7Ñ&7Ó&9Ð<QÑ&QÐWXÑYÔ\a×\eÒ\eØ! qñ]
ñ 
Ðð ˜4¢¢A tÐ+Ñ,ß‰VÐ&°OÐQÓRß‰WR˜Ó%ß‰RÓð	 	)ô "'§¢¨?Ð=]Ñ+]ÐcdÑ!eÔhm×hqÒhqØ,°!ñi
ñ "
Ðô —9’9Ð.×1QÑ1QÐRSÓ1TÑTÓU€LØ˜+Ñ%Ð%ùò[ .ks   ÁI
c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )ÚMixtralBlockSparseTop2MLPéˆ   Úconfigc                 ó°  >• [         TU ]  5         UR                  U l        UR                  U l        [        R                  " U R
                  U R                  SS9U l        [        R                  " U R                  U R
                  SS9U l	        [        R                  " U R
                  U R                  SS9U l
        [        UR                     U l        g ©NF)Úbias)ÚsuperÚ__init__Úintermediate_sizeÚffn_dimÚhidden_sizeÚ
hidden_dimr   ÚLinearÚw1Úw2Úw3r   Ú
hidden_actÚact_fn©ÚselfrM   Ú	__class__s     €rH   rR   Ú"MixtralBlockSparseTop2MLP.__init__‰   sŽ   ø€ Ü‰ÑÔØ×/Ñ/ˆŒØ ×,Ñ,ˆŒä—)’)˜DŸO™O¨T¯\©\ÀÑFˆŒÜ—)’)˜DŸL™L¨$¯/©/ÀÑFˆŒÜ—)’)˜DŸO™O¨T¯\©\ÀÑFˆŒä˜V×.Ñ.Ñ/ˆó    c                 óŒ   • U R                  U R                  U5      5      U R                  U5      -  nU R                  U5      nU$ ©N)r\   rX   rZ   rY   )r^   Úhidden_statesÚcurrent_hidden_statess      rH   ÚforwardÚ!MixtralBlockSparseTop2MLP.forward”   s>   € Ø $§¡¨D¯G©G°MÓ,BÓ CÀdÇgÁgÈmÓF\Ñ \ÐØ $§¡Ð(=Ó >ÐØ$Ð$ra   )r\   rT   rV   rX   rY   rZ   )	Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r   rR   rf   Ú__static_attributes__Ú__classcell__©r_   s   @rH   rK   rK   ˆ   s   ø† ð	0˜}÷ 	0÷%ð %ra   rK   c                   óf   ^ • \ rS rSrSrU 4S jrS\R                  S\R                  4S jrSr	U =r
$ )ÚMixtralSparseMoeBlockéš   a¤  
This implementation is
strictly equivalent to standard MoE with full capacity (no
dropped tokens). It's faster since it formulates MoE operations
in terms of block-sparse operations to accommodate imbalanced
assignments of tokens to experts, whereas standard MoE either
(1) drop tokens at the cost of reduced performance or (2) set
capacity factor to number of experts and thus waste computation
and memory on padding.
c                 óÂ  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U l        UR                  U l	        [        R                  " U R                  U R                  SS9U l        [        R                  " [        U R                  5       Vs/ sH  n[        U5      PM     sn5      U l        UR"                  U l        g s  snf rO   )rQ   rR   rU   rV   rS   rT   Únum_local_expertsr    Únum_experts_per_tokr8   r   rW   ÚgateÚ
ModuleListÚrangerK   ÚexpertsÚrouter_jitter_noiseÚjitter_noise)r^   rM   r=   r_   s      €rH   rR   ÚMixtralSparseMoeBlock.__init__¦   s­   ø€ Ü‰ÑÔØ ×,Ñ,ˆŒØ×/Ñ/ˆŒØ!×3Ñ3ˆÔØ×/Ñ/ˆŒ
ô —I’I˜dŸo™o¨t×/?Ñ/?ÀeÑLˆŒ	ä—}’}ÔQVÐW[×WgÑWgÔQhÓ%iÑQhÈAÔ&?ÀÖ&GÑQhÑ%iÓjˆŒð #×6Ñ6ˆÕùò &js   Â*Crd   r"   c                 ó¨  • UR                   u  p#nU R                  (       aS  U R                  S:”  aC  U[        R                  " U5      R                  SU R                  -
  SU R                  -   5      -  nUR                  SU5      nU R                  U5      n[        R                  " US[        R                  S9n[        R                  " X`R                  SS9u  pgXfR                  SSS9-  nUR                  UR                  5      n[        R                   " X#-  U4UR                  UR"                  S	9n[        R$                  R&                  R)                  XpR*                  S
9R-                  SSS5      n	[        R.                  " U	R                  SS9S5      R1                  5       n
U
 HŽ  nU R2                  U   n[        R4                  " X›   R7                  S5      5      u  pÞUSU4   R9                  SU5      nU" U5      XnUS4   -  nUR;                  SUUR                  UR                  5      5        M     UR9                  X#U5      nX…4$ )Ú r   g      ð?r&   r   )r%   Údtyper$   T)r%   Úkeepdim)r~   r)   )Únum_classesr   )r&   éþÿÿÿN)r3   Útrainingrz   r*   Ú
empty_likeÚuniform_Úviewru   ÚFr.   r2   r/   r8   r6   r,   r~   Úzerosr)   r   r-   r0   r    ÚpermuteÚgreaterÚnonzerorx   ÚwhereÚsqueezer5   Ú
index_add_)r^   rd   rB   rC   rV   Úrouter_logitsr<   r>   Úfinal_hidden_statesr?   Úexpert_hittedÚ
expert_idxÚexpert_layerÚidxÚtop_xÚcurrent_statere   s                    rH   rf   ÚMixtralSparseMoeBlock.forwardµ   s  € à2?×2EÑ2EÑ/ˆ
 ZØ==˜T×.Ñ.°Ó2ØœU×-Ò-¨mÓ<×EÑEÀcÈD×L]ÑL]ÑF]Ð_bÐei×evÑevÑ_vÓwÑwˆMØ%×*Ñ*¨2¨zÓ:ˆàŸ	™	 -Ó0ˆäŸ)š) M°qÄÇÁÑLˆÜ,1¯JªJ°Ï
É
ÐXZÑ,[Ñ)ˆØ×.Ñ.°2¸tÐ.ÐDÑDˆà)×,Ñ,¨]×-@Ñ-@ÓAˆä#ŸkškØÑ)¨:Ð6¸m×>QÑ>QÐZg×ZnÑZnñ
Ðô —h‘h×)Ñ)×1Ñ1Ð2B×P`ÑP`Ð1Ða×iÑiÐjkÐmnÐpqÓrˆäŸš k§o¡o¸( oÐ&CÀQÓG×OÑOÓQˆÛ'ˆJØŸ<™<¨
Ñ3ˆLÜŸš [Ñ%<×%DÑ%DÀQÓ%GÓH‰JˆCð *¨$°¨+Ñ6×>Ñ>¸rÀ:ÓNˆMÙ$0°Ó$?À/ÐY\Ð^bÐRbÑBcÑ$cÐ!ð  ×*Ñ*¨1¨eÐ5J×5MÑ5MÈm×NaÑNaÓ5bÖcñ (ð 2×9Ñ9¸*ÐWaÓbÐØ"Ð1Ð1ra   )rx   rT   ru   rV   rz   r    r8   )rh   ri   rj   rk   Ú__doc__rR   r*   ÚTensorrf   rl   rm   rn   s   @rH   rp   rp   š   s-   ø† ñ	õ7ð%2 U§\¡\ð %2°e·l±l÷ %2ò %2ra   rp   c                   ó   • \ rS rSrSrg)ÚMixtralRMSNorméÝ   © N©rh   ri   rj   rk   rl   rœ   ra   rH   rš   rš   Ý   ó   † Úra   rš   c                   ó   • \ rS rSrSrg)ÚMixtralAttentionéá   rœ   Nr   rœ   ra   rH   r    r    á   rž   ra   r    c                   ó8  ^ • \ rS rSrS\S\4U 4S jjr    SS\R                  S\	\R                  \R                  4   S\
\R                     S\
\R                     S	\
\	\R                        S
\
\R                     S\\   S\R                  4S jjrSrU =r$ )ÚMixtralDecoderLayeréå   rM   Ú	layer_idxc                 ó  >• [         TU ]  5         UR                  U l        [        X5      U l        [        U5      U l        [        UR                  UR                  S9U l	        [        UR                  UR                  S9U l
        g )N)Úeps)rQ   rR   rU   r    Ú	self_attnrp   Úblock_sparse_moerš   Úrms_norm_epsÚinput_layernormÚpost_attention_layernorm)r^   rM   r¥   r_   s      €rH   rR   ÚMixtralDecoderLayer.__init__æ   sk   ø€ Ü‰ÑÔØ!×-Ñ-ˆÔä)¨&Ó<ˆŒä 5°fÓ =ˆÔÜ-¨f×.@Ñ.@Àf×FYÑFYÑZˆÔÜ(6°v×7IÑ7IÈv×ObÑObÑ(cˆÕ%ra   rd   Úposition_embeddingsr!   Úposition_idsÚpast_key_valueÚcache_positionÚkwargsr"   c           
      ó¾   • UnU R                  U5      nU R                  " SUUUUUUS.UD6u  pX-   nUnU R                  U5      nU R                  U5      u  pX-   nU$ )N)rd   r®   r!   r¯   r°   r±   rœ   )r«   r¨   r¬   r©   )
r^   rd   r®   r!   r¯   r°   r±   r²   Úresidualr=   s
             rH   rf   ÚMixtralDecoderLayer.forwardð   s   € ð !ˆà×,Ñ,¨]Ó;ˆð  Ÿ>š>ð 
Ø'Ø 3Ø)Ø%Ø)Ø)ñ
ð ñ
Ñˆð !Ñ0ˆð !ˆØ×5Ñ5°mÓDˆØ×0Ñ0°Ó?ÑˆØ Ñ0ˆàÐra   )r©   rU   r«   r¬   r¨   )NNNN)rh   ri   rj   rk   r   ÚintrR   r*   r˜   r(   r   Ú
LongTensorr   r   ÚFloatTensorrf   rl   rm   rn   s   @rH   r£   r£   å   sÎ   ø† ðd˜}ð d¸÷ dð 26Ø37Ø8<Ø59ñ à—|‘|ð ð # 5§<¡<°·±Ð#=Ñ>ð ð ! §¡Ñ.ð	 ð
 ˜u×/Ñ/Ñ0ð ð !  u§|¡|Ñ!4Ñ5ð ð ! ×!1Ñ!1Ñ2ð ð Ð+Ñ,ð ð 
×	Ñ	÷ ó  ra   r£   c                   ó   • \ rS rSrSrg)ÚMixtralRotaryEmbeddingi  rœ   Nr   rœ   ra   rH   rº   rº     rž   ra   rº   c                   ó.   • \ rS rSrSr\" \SS9\\S.r	Sr
g)ÚMixtralPreTrainedModeli  Fr   )Úindex)rŽ   rd   Ú
attentionsrœ   N)rh   ri   rj   rk   Ú_can_compile_fullgraphr   rp   r£   r    Ú_can_record_outputsrl   rœ   ra   rH   r¼   r¼     s!   † Ø"Ðá'Ð(=ÀQÑGØ,Ø&ñÓra   r¼   c                   óè   • \ rS rSr       SS\\R                     S\\R                     S\\R                     S\\   S\\R                     S\\
   S	\\R                     S
\\   S\4S jjrSrg)ÚMixtralModeli   NÚ	input_idsr!   r¯   Úpast_key_valuesÚinputs_embedsÚ	use_cacher±   r²   r"   c                 óz  • US L US L-  (       a  [        S5      eU(       a  Uc
  [        5       nUc  U R                  U5      nUcD  Ub  UR                  5       OSn	[        R
                  " X™UR                  S   -   UR                  S9nUc  UR                  S5      nU R                  R                  c  [        O[        n
U
" U R                  UUUUUS9nUnU R                  XÃ5      nU R                  S U R                  R                    H  nU" U4UUUUUUS.UD6nM     U R!                  U5      n[#        UUS9$ )Nz:You must specify exactly one of input_ids or inputs_embedsr   r   )r)   )rM   Úinput_embedsr!   r±   rÄ   r¯   )r®   r!   r¯   r°   rÆ   r±   )Úlast_hidden_staterÄ   )Ú
ValueErrorr	   Úembed_tokensÚget_seq_lengthr*   Úaranger3   r)   r7   rM   Úsliding_windowr
   r   Ú
rotary_embÚlayersrD   Únormr   )r^   rÃ   r!   r¯   rÄ   rÅ   rÆ   r±   r²   Úpast_seen_tokensÚmask_functionÚcausal_maskrd   r®   Údecoder_layers                  rH   rf   ÚMixtralModel.forward!  sh  € ð ˜Ð -°tÐ";×<ÜÐYÓZÐZæ˜Ñ0Ü*›nˆOàÑ Ø ×-Ñ-¨iÓ8ˆMàÑ!ØCRÑC^˜×=Ñ=Ô?ÐdeÐÜ"Ÿ\š\Ø °]×5HÑ5HÈÑ5KÑ"KÐTa×ThÑThñˆNð ÑØ)×3Ñ3°AÓ6ˆLà.2¯k©k×.HÑ.HÑ.PÕ*ÔVwˆÙ#Ø—;‘;Ø&Ø)Ø)Ø+Ø%ñ
ˆð &ˆð #Ÿo™o¨mÓJÐà!Ÿ[™[Ð)H¨4¯;©;×+HÑ+HÓIˆMÙ)Øð	à$7Ø*Ø)Ø.Ø#Ø-ñ	ð ñ	ŠMñ Jð Ÿ	™	 -Ó0ˆä%Ø+Ø+ñ
ð 	
ra   rœ   )NNNNNNN)rh   ri   rj   rk   r   r*   r·   r˜   r   r¸   Úboolr   r   r   rf   rl   rœ   ra   rH   rÂ   rÂ      s¾   † ð 15Ø15Ø37Ø+/Ø59Ø$(Ø59ñ<
à˜E×,Ñ,Ñ-ð<
ð ! §¡Ñ.ð<
ð ˜u×/Ñ/Ñ0ð	<
ð
 " %™ð<
ð   × 1Ñ 1Ñ2ð<
ð ˜D‘>ð<
ð ! ×!1Ñ!1Ñ2ð<
ð Ð+Ñ,ð<
ð 
 ÷<
ð <
ra   rÂ   c                   óR  ^ • \ rS rSrS/rU 4S jr          SS\\R                     S\\R                     S\\R                     S\\
   S\\R                     S	\\R                     S
\\   S\\   S\\R                     S\\\R                  4   S\\   S\4S jjrSrU =r$ )ÚMixtralForCausalLMi`  zlm_head.weightc                 óª   >• [         TU ]  U5        [        U5      U l        UR                  U l        UR
                  U l        UR                  U l        g rc   )rQ   rR   rÂ   ÚmodelÚrouter_aux_loss_coefrs   r    rt   r]   s     €rH   rR   ÚMixtralForCausalLM.__init__c  sF   ø€ Ü‰Ñ˜Ô Ü! &Ó)ˆŒ
Ø$*×$?Ñ$?ˆÔ!Ø!×3Ñ3ˆÔØ#)×#=Ñ#=ˆÕ ra   rÃ   r!   r¯   rÄ   rÅ   ÚlabelsrÆ   Úoutput_router_logitsr±   Úlogits_to_keepr²   r"   c                 ó~  • Ub  UOU R                   R                  nU R                  " SUUUUUUUU	S.UD6nUR                  n[	        U
[
        5      (       a  [        U
* S5      OU
nU R                  USS2USS24   5      nSnUb  U R                  " XöU R                  40 UD6nSnU(       aZ  [        UR                  U R                  U R                  U5      nUb+  UU R                  UR                  UR                   5      -  -  n[#        UUUUR$                  UR&                  UR(                  UR                  S9$ )aþ  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>>> from transformers import AutoTokenizer, MixtralForCausalLM

>>> model = MixtralForCausalLM.from_pretrained("mistralai/Mixtral-8x7B-v0.1")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mixtral-8x7B-v0.1")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
```N)rÃ   r!   r¯   rÄ   rÅ   rÆ   rß   r±   )ÚlossÚaux_lossÚlogitsrÄ   rd   r¾   rŽ   rœ   )rM   rß   rÛ   rÉ   r'   r¶   ÚsliceÚlm_headÚloss_functionÚ
vocab_sizerI   rŽ   r    rt   rÜ   r,   r)   r   rÄ   rd   r¾   )r^   rÃ   r!   r¯   rÄ   rÅ   rÞ   rÆ   rß   r±   rà   r²   Úoutputsrd   Úslice_indicesrä   râ   rã   s                     rH   rf   ÚMixtralForCausalLM.forwardj  sU  € ðL %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð
 +/¯*ª*ð 
+
ØØ)Ø%Ø+Ø'ØØ!5Ø)ñ
+
ð ñ
+
ˆð  ×1Ñ1ˆä8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆàˆØÑØ×%Ò% f°d·o±oÑPÈÑPˆDàˆÞÜ/Ø×%Ñ%Ø× Ñ Ø×(Ñ(Øó	ˆHð Ñ!Ø˜×1Ñ1°H·K±KÀÇÁÓ4LÑLÑLä(ØØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø!×/Ñ/ñ
ð 	
ra   )rÛ   r    rt   rÜ   )
NNNNNNNNNr   )rh   ri   rj   rk   Ú_tied_weights_keysrR   r   r*   r·   r˜   r   r¸   r×   r   r¶   r   r   r   rf   rl   rm   rn   s   @rH   rÙ   rÙ   `  s  ø† Ø*Ð+Ðõ>ð 15Ø15Ø37Ø+/Ø59Ø-1Ø$(Ø/3Ø59Ø34ñR
à˜E×,Ñ,Ñ-ðR
ð ! §¡Ñ.ðR
ð ˜u×/Ñ/Ñ0ð	R
ð
 " %™ðR
ð   × 1Ñ 1Ñ2ðR
ð ˜×)Ñ)Ñ*ðR
ð ˜D‘>ðR
ð ' t™nðR
ð ! ×!1Ñ!1Ñ2ðR
ð ˜c 5§<¡<Ð/Ñ0ðR
ð Ð+Ñ,ðR
ð 
#÷R
ó R
ra   rÙ   c                   ó   • \ rS rSrSrg)Ú MixtralForSequenceClassificationi¿  rœ   Nr   rœ   ra   rH   rî   rî   ¿  rž   ra   rî   c                   ó   • \ rS rSrSrg)ÚMixtralForTokenClassificationiÃ  rœ   Nr   rœ   ra   rH   rð   rð   Ã  rž   ra   rð   c                   ó   • \ rS rSrSrg)ÚMixtralForQuestionAnsweringiÇ  rœ   Nr   rœ   ra   rH   rò   rò   Ç  rž   ra   rò   )rÙ   rò   rÂ   r¼   rî   rð   )Nr   N)?r—   Útypingr   r   r*   Útorch.nn.functionalr   r-   r†   Útorch.utils.checkpointÚactivationsr   Úcache_utilsr   r	   Úmasking_utilsr
   r   Úmodeling_layersr   Úmodeling_outputsr   r   Úprocessing_utilsr   Úutilsr   r   Úutils.genericr   Úmistral.modeling_mistralr   r   r   r   r   r   r   r   r   Úconfiguration_mixtralr   Ú
get_loggerrh   Úloggerr˜   r(   r¶   rI   ÚModulerK   rp   rš   r    r£   rº   r¼   rÂ   rÙ   rî   rð   rò   Ú__all__rœ   ra   rH   Ú<module>r     sw  ðñ( ç "ã ß Ð Û Ý å !ß .ß RÝ 9ß QÝ &ß 0Ý +÷
÷ 
õ 
õ 1ð 
×	Ò	˜HÓ	%€ð
 "&Ø
Ø-1ñ	O&Øu—|‘| U¨5¯<©<Ñ%8¸$Ð>Ñ?ðO&à˜#‘ðO&ð ˜UŸ\™\Ñ*ð	O&ð
 ˆ5<‰<˜ÐÑõO&ôd% §	¡	ô %ô$@2˜BŸI™Iô @2ôF	^ô 	ô	Ð'ô 	ô+Ð4ô +ô\	Ð3ô 	ôÐ3ô ô=
<ô =
ô@\
Ð+ô \
ô~	Ð'Gô 	ô	Ð$Aô 	ô	Ð"=ô 	òra   