ó
    <±hÒ$  ã                   ó²   • S r SSKJr  SSKrSSKJr  SSKJr   " S S\R                  5      r	 " S S	\R                  5      r
 " S
 S\R                  5      rg)a  

Generic interface to various configurations of the Perceiver Resampler, that simply takes in a series of (potentially
time-indexed) contextual embeddings, and "resamples" (compresses) them down to a pre-specified number of latents! Note
that the Perceiver in general resamples based solely off the *long-range* context; there's a nice opportunity here to
prime the Perceiver Resampler with say a single layer's worth of language embeddings (the target domain), and use that
to softly "retrieve & compress" what we need --> this would be a novel contribution we should explore.

References:
    - DeepMind's Flamingo: https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model
    - Code borrowed w/ love from: https://github.com/lucidrains/flamingo-pytorch

é    )ÚOptionalNé   )ÚIdeficsConfigc                   ó‚   ^ • \ rS rSrS\S\S\S\S\S\SS	4U 4S
 jjrS\R                  S\R                  4S jr	Sr
U =r$ )ÚIdeficsPerceiverResampleré0   ÚconfigÚ	embed_dimÚdepthÚn_headsÚhead_dimÚ	n_latentsÚreturnNc                 ó   >• [         TU ]  5         X$XV4u  U l        U l        U l        U l        UR                  R                  U l        [        R                  " [        R                  " U R
                  U R                  5      SS9U l        [        UR                  S5      (       d  U R                  S-  OUR                  R                  S-  U l        [        R"                  " [%        U5       Vs/ sHc  n[        R"                  " ['        U R                  U R                  U R                  U R                  5      [)        U R                   U5      /5      PMe     sn5      U l        [        R,                  " U R                  5      U l        gs  snf )aÿ  
Instantiates a Perceiver Resampler that operates over a sequence of embeddings (say from a ResNet or ViT or
MAE) of a given dimension, performs `depth` blocks of cross-attention with a fixed `n_latents` inputs, then
returns a Tensor of shape [bsz, n_latents, embed_dim]. :param embed_dim: Dimensionality of embeddings being fed
to the Perceiver Resampler (also dimensionality of latent embeddings *returned* by the Perceiver Resampler.
Could be e.g., VIT embed_dim, ResNet pool dim, and so on.

Args:
    config (`IdeficsConfig`): config object
    embed_dim (`int`): The size of each embedding vector
    depth (`int`): Depth of the Perceiver Resampler (Transformer w/ cross attention). Should be shallow (< 3).
    n_heads (`int`): Number of heads in each Transformer block (for multi-headed self-attention).
    head_dim (`int`): Dimensionality of each head projection in the Transformer block.
    n_latents (`int`):
        Number of latent embeddings to resample ("compress") the input sequence to (usually < 128).

T)Úrequires_gradr
   é   N)ÚsuperÚ__init__r
   r   r   r   Úperceiver_configÚqk_layer_norms_perceiverÚqk_layer_normsÚnnÚ	ParameterÚtorchÚrandnÚlatentsÚhasattrÚvision_configÚintermediate_dimÚ
ModuleListÚrangeÚIdeficsPerceiverAttentionÚ
IdeficsMLPÚblocksÚ	LayerNormÚ
layer_norm)	Úselfr	   r
   r   r   r   r   Ú_Ú	__class__s	           €Ú]/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/idefics/perceiver.pyr   Ú"IdeficsPerceiverResampler.__init__1   s;  ø€ ô( 	‰ÑÔØFOÐZbÐFmÑCˆŒ˜œ d¤m°T´^Ø$×5Ñ5×NÑNˆÔô —|’|¤E§K¢K°·±ÀÇÁÓ$OÐ_cÑdˆŒô ˜6×/Ñ/°×=Ñ=ð N‰N˜QÒà×%Ñ%×/Ñ/°!Ñ3ð 	Ôô —m’mô ˜uœóñ &Aô —’ä1°$·.±.À$Ç,Á,ÐPT×P]ÑP]Ð_c×_rÑ_rÓsÜ" 4×#8Ñ#8¸&ÓAðöñ &ñó

ˆŒô Ÿ,š, t§~¡~Ó6ˆùòs   Ã0A)FÚcontextc                 óÎ   • U R                   R                  UR                  S   SS5      nU R                   H  u  p4U" X5      U-   nU" U5      U-   nM     U R	                  U5      $ )zWResample arbitrary length context & *compress* down to self.n_latents latent embeddingsr   r   )r   ÚrepeatÚshaper$   r&   )r'   r,   r   ÚattnÚffs        r*   ÚforwardÚ!IdeficsPerceiverResampler.forward_   se   € ð —,‘,×%Ñ% g§m¡m°AÑ&6¸¸1Ó=ˆð Ÿœ‰HˆDÙ˜7Ó,¨wÑ6ˆGÙ˜“k GÑ+ŠGñ $ð ‰˜wÓ'Ð'ó    )	r$   r
   r   r   r   r&   r   r   r   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r   Úintr   r   ÚTensorr2   Ú__static_attributes__Ú__classcell__©r)   s   @r*   r   r   0   sa   ø† ð,7Ø#ð,7Ø03ð,7Ø<?ð,7ØJMð,7ØY\ð,7Øilð,7à	÷,7ð\
(˜uŸ|™|ð 
(°·±÷ 
(ò 
(r4   r   c            
       ó’   ^ • \ rS rSrS\S\S\S\SS4
U 4S jjrS	\R                  S
\R                  S\R                  4S jr	Sr
U =r$ )r"   él   r
   r   r   r   r   Nc                 ó–  >• [         TU ]  5         XUsU l        U l        U l        X@l        [        R                  " U R                  5      U l        [        R                  " U R                  5      U l	        U R
                  (       aJ  [        R                  " U R                  5      U l
        [        R                  " U R                  5      U l        U R                  S-  U l        [        R                  " U R                  U R                  U R                  -  SS9U l        [        R                  " U R                  U R                  U R                  -  SS9U l        [        R                  " U R                  U R                  U R                  -  SS9U l        [        R                  " U R                  U R                  -  USS9U l        g)ziPerceiver Cross-Attention Module --> let long-form inputs be `context`, resampled embeddings be `latents`g      à¿F©ÚbiasN)r   r   r
   r   r   r   r   r%   Úcontext_layer_normÚlatents_layer_normÚq_layer_normÚk_layer_normÚqk_scaleÚLinearÚq_projÚk_projÚv_projÚoutput_proj)r'   r
   r   r   r   r)   s        €r*   r   Ú"IdeficsPerceiverAttention.__init__m   s,  ø€ ä‰ÑÔØ6?È(Ð3ˆŒ˜œ d¤mØ,Ôä"$§,¢,¨t¯~©~Ó">ˆÔÜ"$§,¢,¨t¯~©~Ó">ˆÔØ××Ü "§¢¨T¯]©]Ó ;ˆDÔÜ "§¢¨T¯]©]Ó ;ˆDÔàŸ™ tÑ+ˆŒô —i’i §¡°·±¸t¿}¹}Ñ0LÐSXÑYˆŒÜ—i’i §¡°·±¸t¿}¹}Ñ0LÐSXÑYˆŒÜ—i’i §¡°·±¸t¿}¹}Ñ0LÐSXÑYˆŒäŸ9š9 T§\¡\°D·M±MÑ%AÀ9ÐSXÑYˆÕr4   r,   r   c           	      ót  • U R                  U5      nU R                  U5      nUR                  SS u  p4nU R                  U5      nU R	                  [
        R                  " X/SS95      nU R                  [
        R                  " X/SS95      nXgU4 V	s/ sHF  o™R                  X9R                  S   U R                  U R                  5      R                  SS5      PMH     sn	u  pgnU R                  (       a"  U R                  U5      nU R                  U5      n[
        R                  " SX`R                   -  U5      n
XªR#                  SS	S
9R%                  5       -
  nUR'                  SS9n[
        R                  " SXÈ5      nU R)                  UR                  SS5      R+                  S5      5      $ s  sn	f )aö  
Runs Perceiver Self-Attention, with special (context, latents) appended along the `seq` dimension!

Args:
    context (`torch.Tensor`):
        Tensor of shape `[bsz, seq, embed_dim]` representing long-form context to resample.
    latents (`torch.Tensor`):
        Tensor of shape `[bsz, n_latents, embed_dim]` representing fixed length latents to compress to.

Returns:
    `torch.Tensor`: Tensor of shape `[bsz, n_latents, embed_dim]` representing attention over latents w/ cross
    from context.
Né   éþÿÿÿ)Údimr   é   z... i d, ... j d -> ... i jéÿÿÿÿT)rQ   Úkeepdimz... i j, ... j d -> ... i d)rC   rD   r/   rI   rJ   r   ÚcatrK   Úreshaper   r   Ú	transposer   rE   rF   ÚeinsumrG   ÚamaxÚdetachÚsoftmaxrL   Úflatten)r'   r,   r   Ú
batch_sizeÚ
seq_lengthr
   ÚqÚkÚvÚxÚscoresÚstabilized_scoresr0   Ú	resampleds                 r*   r2   Ú!IdeficsPerceiverAttention.forward‚   sˆ  € ð ×)Ñ)¨'Ó2ˆØ×)Ñ)¨'Ó2ˆØ,3¯M©M¸"¸1Ð,=Ñ)ˆ
 	ð K‰K˜Ó ˆØK‰KœŸ	š	 7Ð"4¸"Ñ=Ó>ˆØK‰KœŸ	š	 7Ð"4¸"Ñ=Ó>ˆð
 mnÐrsÑktÓuÑktÐfg—9‘9˜Z¯©°©°T·\±\À4Ç=Á=ÓQ×[Ñ[Ð\]Ð_`ÖaÑktÑu‰ˆˆaà××Ø×!Ñ! !Ó$ˆAØ×!Ñ! !Ó$ˆAä—’Ð;¸QÇÁÑ=NÐPQÓRˆØ"§k¡k°bÀ$ kÐ&G×&NÑ&NÓ&PÑQÐØ ×(Ñ(¨RÐ(Ð0ˆô —L’LÐ!>ÀÓHˆ	à×Ñ 	× 3Ñ 3°A°qÓ 9× AÑ AÀ"Ó EÓFÐFùò vs   ÂAF5)rC   r
   r   rF   rJ   rD   r   rL   rE   rI   r   rG   rK   )r5   r6   r7   r8   r9   Úboolr   r   r:   r2   r;   r<   r=   s   @r*   r"   r"   l   sc   ø† ðZ #ð Z°ð Z¸sð ZÐTXð ZÐ]a÷ Zð*(G˜uŸ|™|ð (G°e·l±lð (GÀuÇ|Á|÷ (Gò (Gr4   r"   c                   óv   ^ • \ rS rSrS\4U 4S jjrS\\\R                        S\R                  4S jr
SrU =r$ )r#   é­   r	   c                 óh  >• [         TU ]  5         UR                  R                  U l        [        R
                  " U R                  5      U l        [        R                  " U R                  USS9U l        [        R                  " 5       U l
        [        R                  " XR                  SS9U l        g)z:Simple MLP block with intermediate_size and embedding sizeFrA   N)r   r   r   r
   r   r%   ÚlnrH   ÚfcÚReLUÚactÚc_proj)r'   Úintermediate_sizer	   r)   s      €r*   r   ÚIdeficsMLP.__init__®   sr   ø€ ä‰ÑÔØ×-Ñ-×7Ñ7ˆŒÜ—,’,˜tŸ~™~Ó.ˆŒÜ—)’)˜DŸN™NÐ,=ÀEÑJˆŒÜ—7’7“9ˆŒÜ—i’iÐ 1·>±>ÈÑNˆr4   Úhidden_statesr   c                 óŽ   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ )N)rk   rl   rn   ro   )r'   rr   s     r*   r2   ÚIdeficsMLP.forward·   s@   € ØŸ™ Ó.ˆØŸ™ Ó.ˆØŸ™ Ó/ˆØŸ™ MÓ2ˆàÐr4   )rn   ro   r
   rl   rk   )r5   r6   r7   r8   r   r   r   Útupler   ÚFloatTensorr2   r;   r<   r=   s   @r*   r#   r#   ­   s?   ø† ðO°-÷ Oð X¨e°E×4EÑ4EÑ.FÑ%Gð ÈE×L]ÑL]÷ ò r4   r#   )Ú__doc__Útypingr   r   Útorch.nnr   Úconfiguration_ideficsr   ÚModuler   r"   r#   © r4   r*   Ú<module>r}      sL   ðñ4õ ã Ý å 0ô9( §	¡	ô 9(ôx>G §	¡	ô >GôB—‘õ r4   