ó
    <±h‚S  ã                   ó¾  • S r SSKJr  SSKJrJr  SSKrSSKrSSKJr  SSK	J
r
  SSKJr  SS	KJr  SS
KJr  SSKJr  SSKJrJr  SSKJr  SSKJrJrJr  SSKJr  \R<                  " \5      r S r! " S S\RD                  5      r#S r$S-S jr% S.S\RD                  S\RL                  S\RL                  S\RL                  S\\RL                     S\'S\'4S jjr( " S S\RD                  5      r) " S  S!\RD                  5      r* " S" S#\RD                  5      r+ " S$ S%\5      r, " S& S'\RD                  5      r-\ " S( S)\5      5       r.S* r/\ " S+ S,\.5      5       r0S,S)/r1g)/zPyTorch Pixtral model.é    )ÚCallable)ÚOptionalÚUnionN)Únné   )ÚACT2FN)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)ÚBaseModelOutput)Údynamic_rope_update)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)Úauto_docstringÚcan_return_tupleÚloggingé   )ÚPixtralVisionConfigc                 óŽ  • / nU  H¨  nUR                   SS  u  pE[        R                  " [        R                  " U5      [        R                  " U5      SS9n[        R                  " USS9R                  SS5      R                  SS5      u  pxXq-  U-   n	UR                  U	S S 2S4   5        Mª     [        R                  " U5      $ )NéþÿÿÿÚij)Úindexingéÿÿÿÿ©Údimé   r   )	ÚshapeÚtorchÚmeshgridÚarangeÚstackÚreshapeÚchunkÚappendÚcat)
Úpatch_embeds_listÚ	max_widthÚ	positionsÚpatchÚheightÚwidthÚmeshÚh_gridÚv_gridÚidss
             Úd/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/pixtral/modeling_pixtral.pyÚposition_ids_in_meshgridr1   &   s¨   € Ø€IÛ"ˆØŸ™ B CÐ(‰ˆÜ~Š~œeŸlšl¨6Ó2´E·L²LÀÓ4GÐRVÑWˆÜŸš T¨rÑ2×:Ñ:¸2¸qÓA×GÑGÈÈ2ÓN‰ˆØÑ  6Ñ)ˆØ×Ñ˜šQ ˜T™Ö#ñ #ô 9Š9YÓÐó    c                   óh   ^ • \ rS rSrSrSU 4S jjr\R                  " 5       \S 5       5       r	Sr
U =r$ )ÚPixtralRotaryEmbeddingé1   aå  
The key with pixtral embedding is just that you have a frequency for each pixel positions.
If you have height x width pixels (or embedding pixels), then the frequency used for ROPE
is given by indexing the pre_computed frequency on the width and height.

What you output is of dimension (batch, height * width, dim) with dim the embed dim.

This simply means that for each image hidden state, you are going to add
a corresponding positional embedding, based on its index in the grid.
c                 ó~  >• [         T
U ]  5         SU l        UR                  U l        UR
                  U l        UR                  UR                  -  nSU R                  [        R                  " SU R                  S5      R                  5       U R                  -  -  -  n[        R                  " X4R                  S9n[        R                  " X4R                  S9n[        R                  " XTS S S2   5      R                  5       n[        R                  " XdSS S2   5      R                  5       n[        R                  " US S 2S S S 24   R                  SUS5      US S S 2S S 24   R                  USS5      /SS9R!                  SU R                  S-  5      n	U R#                  S	[        R                  " X™4SS9S
S9  g )NÚdefaultç      ð?r   r   )Údevicer   r   r   Úinv_freqF)Ú
persistent)ÚsuperÚ__init__Ú	rope_typeÚhead_dimr   Ú
rope_thetaÚbaseÚ
image_sizeÚ
patch_sizer   r    Úfloatr9   Úouterr%   Úrepeatr"   Úregister_buffer)ÚselfÚconfigr9   Úmax_patches_per_sideÚfreqsÚhÚwÚfreqs_hÚfreqs_wr:   Ú	__class__s             €r0   r=   ÚPixtralRotaryEmbedding.__init__=   ss  ø€ Ü‰ÑÔØ"ˆŒØ—?‘?ˆŒØ×%Ñ%ˆŒ	Ø%×0Ñ0°F×4EÑ4EÑEÐØt—y‘y¤U§\¢\°!°T·X±X¸qÓ%A×%GÑ%GÓ%IÈDÏHÉHÑ%TÑUÑVˆäLŠLÐ-·l±lÑCˆÜLŠLÐ-·l±lÑCˆä—+’+˜a¡s¨ s¡Ó,×2Ñ2Ó4ˆÜ—+’+˜a q t¨! t¡Ó-×3Ñ3Ó5ˆÜ—9’9àš˜4¢˜
Ñ#×*Ñ*¨1Ð.BÀAÓFØ˜ša¢˜
Ñ#×*Ñ*Ð+?ÀÀAÓFðð ñ
÷ ‰'"d—h‘h !‘mÓ
$ð 	ð 	×Ñ˜Z¬¯ª°HÐ3GÈRÑ)PÐ]bÐÒcr2   c                 óÜ  • U R                   U   n[        UR                  R                  [        5      (       a0  UR                  R                  S:w  a  UR                  R                  OSn[
        R                  " USS9   UnUR                  5       nUR                  5       nS S S 5        WR                  UR                  S9WR                  UR                  S94$ ! , (       d  f       N@= f)NÚmpsÚcpuF)Údevice_typeÚenabled)Údtype)r:   Ú
isinstancer9   ÚtypeÚstrr   ÚautocastÚcosÚsinÚtorW   )rH   ÚxÚposition_idsrK   rU   Úembr\   r]   s           r0   ÚforwardÚPixtralRotaryEmbedding.forwardV   sª   € ð —‘˜lÑ+ˆä'1°!·(±(·-±-Ä×'EÑ'EÈ!Ï(É(Ï-É-Ð[`ÓJ`a—h‘h—m’mÐfkˆÜ^Š^¨¸UÓCØˆCØ—'‘'“)ˆCØ—'‘'“)ˆC÷ Dð
 v‰v˜AŸG™GˆvÐ$ c§f¡f°1·7±7 fÐ&;Ð;Ð;÷ DÕCús   Â #CÃ
C+)rA   r   r>   ©N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r=   r   Úno_gradr   rb   Ú__static_attributes__Ú__classcell__©rP   s   @r0   r4   r4   1   s0   ø† ñ	÷dð2 ‡]‚]ƒ_Øñ	<ó ó ö	<r2   r4   c                 ó–   • U SSU R                   S   S-  24   nU SU R                   S   S-  S24   n[        R                  " U* U4SS9$ )z*Rotates half the hidden dims of the input..Nr   r   r   )r   r   r%   )r_   Úx1Úx2s      r0   Úrotate_halfrq   e   sZ   € à	
ˆ3Ð"!—'‘'˜"‘+ Ñ"Ð"Ð"Ñ	#€BØ	
ˆ3—‘˜‘˜qÑ Ñ"Ð"Ñ	#€BÜ9Š9rc˜2Y BÑ'Ð'r2   c                 ó˜   • UR                  U5      nUR                  U5      nX-  [        U 5      U-  -   nX-  [        U5      U-  -   nXg4$ )a—  Applies Rotary Position Embedding to the query and key tensors.

Args:
    q (`torch.Tensor`): The query tensor.
    k (`torch.Tensor`): The key tensor.
    cos (`torch.Tensor`): The cosine part of the rotary embedding.
    sin (`torch.Tensor`): The sine part of the rotary embedding.
    position_ids (`torch.Tensor`, *optional*):
        Deprecated and unused.
    unsqueeze_dim (`int`, *optional*, defaults to 1):
        The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
        sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
        that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
        k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
        cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
        the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
Returns:
    `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
)Ú	unsqueezerq   )ÚqÚkr\   r]   r`   Úunsqueeze_dimÚq_embedÚk_embeds           r0   Úapply_rotary_pos_embry   l   sS   € ð( -‰-˜Ó
&€CØ
-‰-˜Ó
&€CØ‰wœ; q›>¨CÑ/Ñ0€GØ‰wœ; q›>¨CÑ/Ñ0€GØÐÐr2   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutc                 ó°  • [         R                  " XR                  SS5      5      U-  nUb  X„-   n[        R                  R                  US[         R                  S9R                  UR                  5      n[        R                  R                  X†U R                  S9n[         R                  " Xƒ5      n	U	R                  SS5      R                  5       n	X˜4$ )Nr   r   )r   rW   )ÚpÚtrainingr   r   )r   ÚmatmulÚ	transposer   Ú
functionalÚsoftmaxÚfloat32r^   rW   r€   rƒ   Ú
contiguous)
rz   r{   r|   r}   r~   r   r€   ÚkwargsÚattn_weightsÚattn_outputs
             r0   Úeager_attention_forwardr   ˆ   s°   € ô —<’< §}¡}°R¸Ó'<Ó=ÀÑG€LØÑ!Ø#Ñ4ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€Lä—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r2   c                   ó  ^ • \ rS rSrSrU 4S jr   SS\R                  S\\R                     S\\	\R                  \R                  4      S\\
   S\\   S	\	\R                  \\R                     4   4S
 jjrSrU =r$ )ÚPixtralAttentionéŸ   zA
Multi-headed attention compatible with ALL_ATTENTION_FUNCTIONS.
c                 óŒ  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        U R                  U R                  -  U l        SU l        U R                  S-  U l	        SU l        UR                  U l        [        R                  " U R                  U R                  SS9U l        [        R                  " U R                  U R                  SS9U l        [        R                  " U R                  U R                  SS9U l        [        R                  " U R                  U R                  SS9U l        g )NFg      à¿©Úbias)r<   r=   rI   Úhidden_sizeÚ	embed_dimÚnum_attention_headsÚ	num_headsr?   Ú	is_causalr   Úattention_dropoutr€   r   ÚLinearÚk_projÚv_projÚq_projÚo_proj©rH   rI   rP   s     €r0   r=   ÚPixtralAttention.__init__¤   sÜ   ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒØˆŒà—}‘} dÑ*ˆŒØˆŒà×/Ñ/ˆŒä—i’i §¡°·±ÀUÑKˆŒÜ—i’i §¡°·±ÀUÑKˆŒÜ—i’i §¡°·±ÀUÑKˆŒÜ—i’i §¡°·±ÀUÑKˆr2   Úhidden_statesr~   Úposition_embeddingsÚoutput_attentionsrŠ   Úreturnc                 óF  • UR                  5       u  pgnU R                  U5      n	U R                  U5      n
U R                  U5      nU	R	                  XgU R
                  U R                  5      R                  SS5      n	U
R	                  XgU R
                  U R                  5      R                  SS5      n
UR	                  XgU R
                  U R                  5      R                  SS5      nUu  pÍ[        XšXÍSS9u  pš[        nU R                  R                  S:w  aT  U R                  R                  S:X  a  U(       a  [        R                  S5        O[        U R                  R                     nU R                  R                  S:X  a   US	   R                  UR                   S
S9US	'   U" U U	U
UU4U R"                  (       d  SOU R$                  U R&                  S.UD6u  nnUR)                  XgS5      R+                  5       nU R-                  U5      nU(       d  SnUU4$ )z#Input shape: Batch x Time x Channelr   r   r   )rv   ÚeagerÚsdpazã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.Úflash_attention_2r`   T)Únon_blockingç        )r€   r   r   N)Úsizer   r›   rœ   Úviewr—   r?   r…   ry   r   rI   Ú_attn_implementationÚloggerÚwarning_oncer   r^   r9   rƒ   r€   r   r"   r‰   rž   )rH   r¡   r~   r¢   r£   rŠ   Ú
batch_sizeÚpatchesÚ_Úquery_statesÚ
key_statesÚvalue_statesr\   r]   Úattention_interfacerŒ   r‹   s                    r0   rb   ÚPixtralAttention.forward¶   sð  € ð "/×!3Ñ!3Ó!5Ñˆ
˜Qà—{‘{ =Ó1ˆØ—[‘[ Ó/ˆ
Ø—{‘{ =Ó1ˆà#×(Ñ(¨¸d¿n¹nÈdÏmÉmÓ\×fÑfÐghÐjkÓlˆØ—_‘_ Z¸$¿.¹.È$Ï-É-ÓX×bÑbÐcdÐfgÓhˆ
Ø#×(Ñ(¨¸d¿n¹nÈdÏmÉmÓ\×fÑfÐghÐjkÓlˆà&‰ˆÜ#7¸ÐRUÐjkÑ#lÑ ˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9Ö>OÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#ð ;‰;×+Ñ+Ð/BÓBØ%+¨NÑ%;×%>Ñ%>¸}×?SÑ?SÐbfÐ%>Ð%gˆF>Ñ"á$7ØØØØØð	%
ð  $Ÿ}Ÿ}‘C°$·,±,Ø—L‘Lñ	%
ð ñ	%
Ñ!ˆ\ð "×)Ñ)¨*¸rÓB×MÑMÓOˆØ—k‘k +Ó.ˆæ ØˆLØ˜LÐ(Ð(r2   )rI   r€   r•   r?   r˜   r›   r—   rž   r   r   rœ   )NNF)re   rf   rg   rh   ri   r=   r   ÚTensorr   ÚtupleÚboolr   r	   rb   rk   rl   rm   s   @r0   r   r   Ÿ   s¢   ø† ñõLð* 26ØKOØ,1ñ5)à—|‘|ð5)ð ! §¡Ñ.ð5)ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð	5)ð
 $ D™>ð5)ð Ð-Ñ.ð5)ð 
ˆu|‰|˜X e§l¡lÑ3Ð3Ñ	4÷5)ó 5)r2   r   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )Ú
PixtralMLPéï   c                 ó¼  >• [         TU ]  5         Xl        UR                  U l        UR                  U l        [
        R                  " U R                  U R                  SS9U l        [
        R                  " U R                  U R                  SS9U l        [
        R                  " U R                  U R                  SS9U l	        [        UR                     U l        g )NFr’   )r<   r=   rI   r”   Úintermediate_sizer   rš   Ú	gate_projÚup_projÚ	down_projr   Ú
hidden_actÚact_fnrŸ   s     €r0   r=   ÚPixtralMLP.__init__ð   s¤   ø€ Ü‰ÑÔØŒØ!×-Ñ-ˆÔØ!'×!9Ñ!9ˆÔÜŸš 4×#3Ñ#3°T×5KÑ5KÐRWÑXˆŒÜ—y’y ×!1Ñ!1°4×3IÑ3IÐPUÑVˆŒÜŸš 4×#9Ñ#9¸4×;KÑ;KÐRWÑXˆŒÜ˜V×.Ñ.Ñ/ˆr2   c                 óˆ   • U R                  U R                  U R                  U5      5      U R                  U5      -  5      nU$ rd   )rÂ   rÄ   rÀ   rÁ   )rH   r_   rÂ   s      r0   rb   ÚPixtralMLP.forwardú   s6   € Ø—N‘N 4§;¡;¨t¯~©~¸aÓ/@Ó#AÀDÇLÁLÐQRÃOÑ#SÓTˆ	ØÐr2   )rÄ   rI   rÂ   rÀ   r”   r¿   rÁ   )re   rf   rg   rh   r=   rb   rk   rl   rm   s   @r0   r¼   r¼   ï   s   ø† õ0÷ð r2   r¼   c                   ó8   ^ • \ rS rSrSU 4S jjrS rS rSrU =r$ )ÚPixtralRMSNormé   c                 óŒ   >• [         TU ]  5         [        R                  " [        R
                  " U5      5      U l        X l        g)z-
PixtralRMSNorm is equivalent to T5LayerNorm
N)r<   r=   r   Ú	Parameterr   ÚonesÚweightÚvariance_epsilon)rH   r”   ÚepsrP   s      €r0   r=   ÚPixtralRMSNorm.__init__  s/   ø€ ô 	‰ÑÔÜ—l’l¤5§:¢:¨kÓ#:Ó;ˆŒØ #Õr2   c                 ó  • UR                   nUR                  [        R                  5      nUR	                  S5      R                  SSS9nU[        R                  " X0R                  -   5      -  nU R                  UR                  U5      -  $ )Nr   r   T)Úkeepdim)	rW   r^   r   rˆ   ÚpowÚmeanÚrsqrtrÏ   rÎ   )rH   r¡   Úinput_dtypeÚvariances       r0   rb   ÚPixtralRMSNorm.forward	  sw   € Ø#×)Ñ)ˆØ%×(Ñ(¬¯©Ó7ˆØ ×$Ñ$ QÓ'×,Ñ,¨R¸Ð,Ð>ˆØ%¬¯ª°H×?TÑ?TÑ4TÓ(UÑUˆØ{‰{˜]×-Ñ-¨kÓ:Ñ:Ð:r2   c                 ó^   • [        U R                  R                  5       SU R                   3$ )Nz, eps=)r¹   rÎ   r   rÏ   ©rH   s    r0   Ú
extra_reprÚPixtralRMSNorm.extra_repr  s*   € Ü˜Ÿ™×)Ñ)Ó*Ð+¨6°$×2GÑ2GÐ1HÐIÐIr2   )rÏ   rÎ   )gíµ ÷Æ°>)	re   rf   rg   rh   r=   rb   rÜ   rk   rl   rm   s   @r0   rÉ   rÉ      s   ø† ÷$ò;÷Jð Jr2   rÉ   c                   óØ   ^ • \ rS rSrU 4S jr  SS\R                  S\R                  S\\\R                  \R                  4      S\\	   S\
\   S\\R                     4S	 jjrS
rU =r$ )ÚPixtralAttentionLayeri  c                 óÆ   >• [         TU ]  5         [        UR                  SS9U l        [        U5      U l        [        U5      U l        [        UR                  SS9U l	        g )Nçñhãˆµøä>©rÐ   )
r<   r=   rÉ   r”   Úattention_normr¼   Úfeed_forwardr   Ú	attentionÚffn_normrŸ   s     €r0   r=   ÚPixtralAttentionLayer.__init__  sP   ø€ Ü‰ÑÔÜ,¨V×-?Ñ-?ÀTÑJˆÔÜ& vÓ.ˆÔÜ)¨&Ó1ˆŒÜ& v×'9Ñ'9¸tÑDˆr2   r¡   r~   r¢   r£   rŠ   r¤   c                 óÔ   • UnU R                  U5      nU R                  " SUUUUS.UD6u  pXa-   nUnU R                  U5      nU R                  U5      nXa-   nU4nU(       a  X‡4-  nU$ )aõ  
Args:
    hidden_states (`torch.FloatTensor`):
        Input to the layer of shape `(batch, seq_len, embed_dim)`.
    attention_mask (`torch.FloatTensor`):
        Attention mask of shape `(batch, 1, q_len, k_v_seq_len)` where padding elements are indicated by very large negative values.
    output_attentions (`bool`, *optional*, defaults to `False`):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)r¡   r~   r¢   r£   © )rã   rå   ræ   rä   )	rH   r¡   r~   r¢   r£   rŠ   Úresidualr‹   Úoutputss	            r0   rb   ÚPixtralAttentionLayer.forward  s”   € ð$ !ˆà×+Ñ+¨MÓ:ˆØ&*§n¢nð '
Ø'Ø)Ø 3Ø/ñ	'
ð
 ñ'
Ñ#ˆð !Ñ0ˆà ˆØŸ™ mÓ4ˆØ×)Ñ)¨-Ó8ˆØ Ñ0ˆà Ð"ˆæØÑ&ˆGØˆr2   )rå   rã   rä   ræ   )NN)re   rf   rg   rh   r=   r   r¸   r   r¹   rº   r   r	   ÚFloatTensorrb   rk   rl   rm   s   @r0   rß   rß     s‹   ø† õEð LPØ,0ñ'à—|‘|ð'ð Ÿ™ð'ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð	'ð
 $ D™>ð'ð Ð-Ñ.ð'ð 
ˆu× Ñ Ñ	!÷'ó 'r2   rß   c                   óÐ   ^ • \ rS rSrU 4S jr     SS\\R                     S\\\R                  \R                  4      S\\	   S\\	   S\\	   S\
\   S	\\\4   4S
 jjrSrU =r$ )ÚPixtralTransformeriF  c                 ó  >• [         TU ]  5         Xl        [        R                  R                  5       U l        [        UR                  5       H'  nU R                  R                  [        U5      5        M)     SU l        g )NF)r<   r=   rI   r   r   Ú
ModuleListÚlayersÚrangeÚnum_hidden_layersr$   rß   Úgradient_checkpointing)rH   rI   r²   rP   s      €r0   r=   ÚPixtralTransformer.__init__G  s\   ø€ Ü‰ÑÔØŒÜ—h‘h×)Ñ)Ó+ˆŒÜv×/Ñ/Ö0ˆAØK‰K×ÑÔ4°VÓ<Ö=ñ 1à&+ˆÕ#r2   r~   r¢   r£   Úoutput_hidden_statesÚreturn_dictrŠ   r¤   c                 óº  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU(       a  SOSnU(       a  SOSn	Un
U R                   H2  nU(       a  XŠ4-   nU" U
U4UUS.UD6nUS   n
U(       d  M*  XœS   4-   n	M4     U(       a  XŠ4-   nU(       d  [        S X¨U	4 5       5      $ [        X¨U	S9$ )aî  
Args:
    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
        Embeddings which serve as input to the Transformer.
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
Nré   )r¢   r£   r   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frd   ré   )Ú.0Úvs     r0   Ú	<genexpr>Ú-PixtralTransformer.forward.<locals>.<genexpr>‹  s   é € ÐeÑ$S˜qŸ™Ò$Sùs   ‚‹	)Úlast_hidden_stater¡   Ú
attentions)rI   r£   r÷   Úuse_return_dictrò   r¹   r   )rH   Úinputs_embedsr~   r¢   r£   r÷   rø   rŠ   Úencoder_statesÚall_attentionsr¡   Úencoder_layerÚlayer_outputss                r0   rb   ÚPixtralTransformer.forwardO  s
  € ð< 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆæ3™¸ˆÞ0™°dˆà%ˆØ!Ÿ[œ[ˆMÞ#Ø!/Ð2BÑ!BÙ)ØØðð %8Ø"3ñ	ð
 ñˆMð *¨!Ñ,ˆMç Ð Ø!/ÀÑ3CÐ2EÑ!E’ñ )ö   Ø+Ð.>Ñ>ˆNæÜÑe ]ÀNÑ$SÓeÓeÐeÜØ+ÐVdñ
ð 	
r2   )rI   rõ   rò   )NNNNN)re   rf   rg   rh   r=   r   r   r¸   r¹   rº   r   r	   r   r   rb   rk   rl   rm   s   @r0   rï   rï   F  s¥   ø† õ,ð 26ØKOØ,0Ø/3Ø&*ñ?
ð ! §¡Ñ.ð?
ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð	?
ð
 $ D™>ð?
ð ' t™nð?
ð ˜d‘^ð?
ð Ð-Ñ.ð?
ð 
ˆuoÐ%Ñ	&÷?
ó ?
r2   rï   c                   óX   • \ rS rSr% \\S'   SrSrSrSr	Sr
SrSrS/rSr
SrSrSr	S rSrg	)
ÚPixtralPreTrainedModeli‘  rI   ÚmodelÚpixel_valuesTrß   c                 ó²  • U R                   R                  n[        U[        R                  [        R
                  45      (       aW  UR                  R                  R                  SUS9  UR                  b%  UR                  R                  R                  5         g g [        U[        5      (       a&  UR                  R                  R                  S5        g g )Nrª   )rÕ   Ústdr8   )rI   Úinitializer_rangerX   r   rš   ÚConv2drÎ   ÚdataÚnormal_r“   Úzero_rÉ   Úfill_)rH   rz   r  s      r0   Ú_init_weightsÚ$PixtralPreTrainedModel._init_weights¡  s—   € Øk‰k×+Ñ+ˆÜfœrŸy™y¬"¯)©)Ð4×5Ñ5ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤×/Ñ/ØM‰M×Ñ×$Ñ$ SÕ)ð 0r2   ré   N)re   rf   rg   rh   r   Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_supports_attention_backendÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnÚ_no_split_modulesr  rk   ré   r2   r0   r	  r	  ‘  sU   ‡ àÓØÐØ$€OØ&*Ð#Ø"&ÐØÐØ€NØÐØ0Ð1ÐØÐØ€NØÐØ"&Ðõ*r2   r	  c                 óö  • UR                   nUR                  nUR                  S   n[        R                  " U5      R
                  n[        R                  " XD4XRUS9n[        R                  " U 5      R                  S5      n[        R                  " S/U S S -   5      R                  S5      n[        X‡5       H  u  pšSXiU
2Xš24'   M     US S S S 2S S 24   R                  UR                  S   SSS5      nU$ )Nr   )Ú
fill_valuerW   r9   r   r   )rW   r9   r   r   ÚfinfoÚminÚfullÚtensorÚcumsumÚzipÚexpand)r&   r$  rW   r9   Úseq_lenÚd_minÚcausal_maskÚblock_end_idxÚblock_start_idxÚstartÚends              r0   Úgenerate_block_attention_maskr/  «  så   € ØL‰L€EØ]‰]€FØl‰l˜1‰o€GÜKŠK˜Ó×"Ñ"€EÜ—*’*˜gÐ/¸EÐW]Ñ^€Kä—L’LÐ!2Ó3×:Ñ:¸2Ó>€MÜ—l’l A 3Ð):¸3¸BÐ)?Ñ#?Ó@×GÑGÈÓK€OÜ˜/Ö9‰
ˆØ,-ˆ˜#I˜u˜yÐ(Ó)ñ :ð ˜d Dª!ªQÐ.Ñ/×6Ñ6°v·|±|ÀA±ÈÈ2ÈrÓR€KØÐr2   c                   óÈ   ^ • \ rS rSrSrU 4S jrS r\\    SS\	R                  S\\	R                     S\\   S\\   S	\\   S
\\   S\\\4   4S jj5       5       rSrU =r$ )ÚPixtralVisionModeli»  Úvision_encoderc                 ón  >• [         TU ]  U5        Xl        [        R                  " UR
                  UR                  UR                  UR                  SS9U l        UR                  U l        [        UR                  SS9U l
        [        U5      U l        [        U5      U l        U R                  5         g )NF)Úin_channelsÚout_channelsÚkernel_sizeÚstrider“   rá   râ   )r<   r=   rI   r   r  Únum_channelsr”   rC   Ú
patch_convrÉ   Úln_prerï   Útransformerr4   Úpatch_positional_embeddingÚ	post_initrŸ   s     €r0   r=   ÚPixtralVisionModel.__init__¿  s“   ø€ Ü‰Ñ˜Ô ØŒÜŸ)š)Ø×+Ñ+Ø×+Ñ+Ø×)Ñ)Ø×$Ñ$Øñ
ˆŒð !×+Ñ+ˆŒÜ$ V×%7Ñ%7¸TÑBˆŒÜ-¨fÓ5ˆÔÜ*@ÀÓ*HˆÔ'à‰Õr2   c                 ó   • U R                   $ rd   )r9  rÛ   s    r0   Úget_input_embeddingsÚ'PixtralVisionModel.get_input_embeddingsÐ  s   € Ø‰Ðr2   r  Úimage_sizesr÷   r£   rø   rŠ   r¤   c           
      ó6  • Uc  UR                   u  p‰p«X«4/U-  nU R                  U5      n[        XÂ5       VVs/ sH1  u  pÞUSS US   U R                  -  2S US   U R                  -  24   PM3     nnn[        R
                  " U Vs/ sH  nUR                  S5      R                  PM      snSS9R                  S5      nU R                  U5      n[        XðR                  R                  U R                  R                  -  S9nUUS'   U R                  UU5      nU R                  R                  S:X  a  S nO9[        U Vs/ sH"  nUR                   S   UR                   S	   -  PM$     snU5      nU R                   " U4UUUUS
S.UD6$ s  snnf s  snf s  snf )N.r   r   r   )r'   r`   r¨   r   r   T)r~   r¢   r÷   r£   rø   )r   r9  r&  rC   r   r%   ÚflattenÚTrs   r:  r1   rI   rB   r<  r­   r/  r;  )rH   r  rB  r÷   r£   rø   ÚargsrŠ   r°   r²   r*   r+   Úpatch_embedsÚembedr«   r&   r‚   r`   r¢   r~   s                       r0   rb   ÚPixtralVisionModel.forwardÓ  sº  € ð ÑØ+7×+=Ñ+=Ñ(ˆJ˜6Ø"˜?Ð+¨jÑ8ˆKð —‘ |Ó4ˆô  # <Ô=ô
á=‘ð #Ð5˜$˜q™' T§_¡_Ñ4Ð5Ð7U¸$¸q¹'ÀTÇ_Á_Ñ:TÐ7UÐUÔVÙ=ð 	ñ 
ô —y’yÑ:KÓ!LÑ:K°Q !§)¡)¨A£,§.¤.Ñ:KÑ!LÐRSÑT×^Ñ^Ð_`ÓaˆØ—{‘{ <Ó0ˆô 0Ø¯©×)?Ñ)?À4Ç;Á;×CYÑCYÑ)Yñ
ˆð ".ˆˆ~Ñà"×=Ñ=¸lÈLÓYÐà;‰;×+Ñ+Ð/BÓBà!‰Nä:Ù4EÓFÑ4E¨q—‘˜‘˜qŸw™w r™{Ô*Ñ4EÑFÈóˆNð ×ÒØð
à)Ø 3Ø!5Ø/Øñ
ð ñ
ð 	
ùó3
ùò "Mùò  Gs   ¹7FÂ$FÅ(F)rI   r:  r9  r<  rC   r;  )NNNN)re   rf   rg   rh   r  r=   r@  r   r   r   r¸   r   rº   r   r	   r   r¹   r   rb   rk   rl   rm   s   @r0   r1  r1  »  sª   ø† à(Ðõò"ð Øð /3Ø/3Ø,0Ø&*ñ1
à—l‘lð1
ð ˜eŸl™lÑ+ð1
ð ' t™nð	1
ð
 $ D™>ð1
ð ˜d‘^ð1
ð Ð-Ñ.ð1
ð 
ˆuoÐ%Ñ	&ô1
ó ó ö1
r2   r1  )Nr   )rª   )2ri   Úcollections.abcr   Útypingr   r   r   Útorch.utils.checkpointr   Úactivationsr   Úmodeling_flash_attention_utilsr	   Úmodeling_layersr
   Úmodeling_outputsr   Úmodeling_rope_utilsr   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   Úconfiguration_pixtralr   Ú
get_loggerre   r®   r1   ÚModuler4   rq   ry   r¸   rD   r   r   r¼   rÉ   rß   rï   r	  r/  r1  Ú__all__ré   r2   r0   Ú<module>rY     sr  ðñ å $ß "ã Û Ý å !Ý BÝ 9Ý /Ý 6ß FÝ &ß >Ñ >Ý 6ð 
×	Ò	˜HÓ	%€ò ô0<˜RŸY™Yô 0<òh(ôðF ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô.L)r—y‘yô L)ô`—‘ô ô"JR—Y‘Yô Jô(/Ð6ô /ôdH
˜Ÿ™ô H
ðV ô*˜_ó *ó ð*ò2ð  ôJ
Ð/ó J
ó ðJ
ðZ  Ð!9Ð
:r2   