ó
    <±h ã                   ó.  • S r SSKJr  SSKJrJrJrJr  SSKrSSK	J
s  Jr  SSKrSSKJ
r
  SSKJr  SSKJrJr  SS	KJr  SS
KJr  SSKJr  SSKJr  SSKJr  SSKJrJrJ r   SSK!J"r"  SSK#J$r$J%r%J&r&J'r'J(r(  SSK)J*r*  SSK+J,r,  SSK-J.r.J/r/  \'" 5       (       a  SSK0J1r1  SSK2J3r3  \(Rh                  " \55      r6\\%" SS9 " S S\5      5       5       r7\\%" SS9 " S S\5      5       5       r8    SAS jr9/ 4S jr: " S  S!\
Rv                  5      r< " S" S#\
Rz                  5      r> " S$ S%\
R~                  5      r@ " S& S'\R                  R~                  5      rAS( rBSBS) jrC " S* S+\
R~                  5      rD SCS,\
R~                  S-\RŠ                  S.\RŠ                  S/\RŠ                  S0\\RŠ                     S1\FS2\F4S3 jjrG " S4 S5\
R~                  5      rH " S6 S7\5      rI " S8 S9\5      rJ\% " S: S;\ 5      5       rK\% " S< S=\K5      5       rL " S> S?\K\5      rM/ S@QrNg)DzPyTorch Idefics model.é    )Ú	dataclass)ÚAnyÚCallableÚOptionalÚUnionN)Únné   )ÚACT2FN)ÚCacheÚDynamicCache)ÚGenerationMixin)ÚAttentionMaskConverter)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)ÚModelOutput)ÚALL_ATTENTION_FUNCTIONSÚPretrainedConfigÚPreTrainedModel)ÚUnpack)ÚTransformersKwargsÚauto_docstringÚcan_return_tupleÚis_torch_flex_attn_availableÚloggingé   )ÚIdeficsConfig)ÚIdeficsPerceiverResampler)ÚIdeficsVisionEmbeddingsÚIdeficsVisionTransformer)Ú	BlockMask)Úmake_flex_block_causal_maskz{
    Base class for Idefics model's outputs that may also contain a past key/values (to speed up sequential decoding).
    )Úcustom_introc                   ó   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\\\R                           \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   S	rg)
ÚIdeficsBaseModelOutputWithPasté6   a(  
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
    Sequence of hidden-states at the output of the last layer of the model.

    If `past_key_values` is used only the last hidden-state of the sequences of shape `(batch_size, 1,
    hidden_size)` is output.
past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of shape
    `(batch_size, num_heads, sequence_length, embed_size_per_head)`) and optionally if
    `config.is_encoder_decoder=True` 2 additional tensors of shape `(batch_size, num_heads,
    encoder_sequence_length, embed_size_per_head)`.

    Contains pre-computed hidden-states (key and values in the self-attention blocks and optionally if
    `config.is_encoder_decoder=True` in the cross-attention blocks) that can be used (see `past_key_values`
    input) to speed up sequential decoding.
image_hidden_states (`tuple(torch.FloatTensor)`, *optional*):
    Tuple of `torch.FloatTensor` (one for the output of the image embeddings, `(batch_size, num_images,
    sequence_length, hidden_size)`.

    image_hidden_states of the model produced by the vision encoder, and optionally by the perceiver
NÚlast_hidden_stateÚpast_key_valuesÚhidden_statesÚ
attentionsÚimage_hidden_states© )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r&   r   ÚtorchÚFloatTensorÚ__annotations__r'   Útupler(   r)   r*   Ú__static_attributes__r+   ó    Úd/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/idefics/modeling_idefics.pyr$   r$   6   s   ‡ ñð, 6:Ðx × 1Ñ 1Ñ2Ó9ØAE€OX˜e E¨%×*;Ñ*;Ñ$<Ñ=Ñ>ÓEØ8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ó9Ø>BÐ˜ %¨×(9Ñ(9Ñ":Ñ;ÖBr6   r$   zS
    Base class for Idefics causal language model (or autoregressive) outputs.
    c                   ó"  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S	'   S
rg)ÚIdeficsCausalLMOutputWithPastéZ   aV  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
    Language modeling loss (for next-token prediction).
logits (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.vocab_size)`):
    Prediction scores of the language modeling head (scores for each vocabulary token before SoftMax).
past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of shape
    `(batch_size, num_heads, sequence_length, embed_size_per_head)`)

    Contains pre-computed hidden-states (key and values in the self-attention blocks) that can be used (see
    `past_key_values` input) to speed up sequential decoding.
image_hidden_states (`tuple(torch.FloatTensor)`, *optional*):
    Tuple of `torch.FloatTensor` (one for the output of the image embeddings, `(batch_size, num_images,
    sequence_length, hidden_size)`.

    image_hidden_states of the model produced by the vision encoder, and optionally by the perceiver
NÚlossÚlogitsr'   r(   r)   r*   r+   )r,   r-   r.   r/   r0   r;   r   r1   r2   r3   r<   r'   Úlistr(   r4   r)   r*   r5   r+   r6   r7   r9   r9   Z   sœ   ‡ ñð$ )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø*.€FˆHU×&Ñ&Ñ'Ó.Ø9=€OX˜d 5×#4Ñ#4Ñ5Ñ6Ó=Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ó9Ø>BÐ˜ %¨×(9Ñ(9Ñ":Ñ;ÖBr6   r9   c                 ó  • [         R                  " U R                  S   5      R                  SS5      R	                  SU5      R                  S5      R                  U R                  5      nU R                  SU5      n UR                  S5      US'   UR                  S5      US'   UR                  S5      US'   UR                  S5      US'   SU;   a  US   nUR                  SU5      US'   Ub  UR                  SU5      US	'   US   b  US   R                  SU5      US'   US   b  US   R                  SU5      US'   X4$ US   b  US   R                  SU5      US'   X4$ US   b  US   R                  SU5      US'   X4$ )
Nr   éÿÿÿÿr   Úpixel_valuesÚimage_encoder_embeddingsÚperceiver_embeddingsÚimage_attention_maskÚtoken_type_idsÚattention_mask)	r1   ÚarangeÚshapeÚviewÚrepeatÚtoÚdeviceÚindex_selectÚget)Ú	input_idsÚexpand_sizeÚis_encoder_decoderrE   Úencoder_outputsÚmodel_kwargsÚexpanded_return_idxrD   s           r7   Úexpand_inputs_for_generationrT   {   sê  € ô 	ŠY—_‘_ QÑ'Ó(×-Ñ-¨b°!Ó4×;Ñ;¸A¸{ÓK×PÑPÐQSÓT×WÑWÐXa×XhÑXhÓið ð ×&Ñ& qÐ*=Ó>€IØ#/×#3Ñ#3°NÓ#C€LÑ Ø/;×/?Ñ/?Ð@ZÓ/[€LÐ+Ñ,Ø+7×+;Ñ+;Ð<RÓ+S€LÐ'Ñ(Ø+7×+;Ñ+;Ð<RÓ+S€LÐ'Ñ(à˜<Ó'Ø%Ð&6Ñ7ˆØ)7×)DÑ)DÀQÐH[Ó)\ˆÐ%Ñ&àÑ!Ø)7×)DÑ)DÀQÐH[Ó)\ˆÐ%Ñ&àÐ*Ñ+Ñ7Ø/;Ð<RÑ/S×/`Ñ/`ØÐ"ó0
ˆÐ+Ñ,ð NÑ#Ñ/Ø'3°NÑ'C×'PÑ'PÐQRÐTgÓ'hˆ^Ñ$ð Ð"Ð"ð 
Ð0Ñ	1Ñ	=Ø3?Ð@ZÑ3[×3hÑ3hØÐ"ó4
ˆÐ/Ñ0ð Ð"Ð"ð 
Ð,Ñ	-Ñ	9Ø/;Ð<RÑ/S×/`Ñ/`ØÐ"ó0
ˆÐ+Ñ,ð Ð"Ð"r6   c                 óP  ^• [         R                  [         R                  [         R                  S.nU Vs/ sH  o2U   PM	     nnU R	                  5        HH  mU(       a-  [        U4S jU 5       5      (       a  TR                  S5        M7  TR                  S5        MJ     U $ s  snf )N)Ú	LayerNormÚLinearÚ	Embeddingc              3   ó:   >#   • U H  n[        TU5      v •  M     g 7f©N)Ú
isinstance)Ú.0ÚtÚmodules     €r7   Ú	<genexpr>Úfreeze_model.<locals>.<genexpr>°   s   øé € Ð$]ÑD\¸q¤Z°¸×%:Ð%:ÒD\ùs   ƒTF)r   rV   rW   rX   ÚmodulesÚanyÚrequires_grad_)ÚmodelÚmodule_exceptionsÚmappingÚmÚmodule_exceptions_mappedr^   s        @r7   Úfreeze_modelri   ¨   sˆ   ø€ ä—\‘\Ü—)‘)Ü—\‘\ñ€Gñ
 5FÓFÑ4E¨q¨¤
Ñ4EÐÐFØ—-‘-–/ˆÞ¤Ô$]ÑD\Ó$]×!]Ñ!]Ø×!Ñ! $Ö'à×!Ñ! %Ö(ñ	 "ð
 €Lùò  Gs   ¶B#c                   ó^   ^ • \ rS rSrSr    S
S\\   SS4U 4S jjjrS rS\	4S jr
S	rU =r$ )ÚIdeficsDecoupledEmbeddingé·   a«  
Implements a decoupling of parameters to allow freezing (or not) a subset of the embeddings. In practise, the
regular `weight` can be trained or frozen (i.e. `partially_freeze=True`), and if `num_additional_embeddings` > 0,
then it will create `num_additional_embeddings` additional parameters that are always trained. If
`num_additional_embeddings=0`, then the module defaults back to the regular behavior of `nn.Embedding`.
NÚpartially_freezeÚreturnc           	      óF  >• Ub  Xq:”  a  [        SU SU 35      e[        T	U ]  " SUUUUUS.UD6  Xl        Xpl        X l        X@l        U(       a  U R                  R                  S5        U R
                  S:”  a'  [        R                  " U R
                  UUUS9U l        gg)	a¹  
Args:
    num_embeddings (`int`):
        Size of the dictionary of embeddings
    num_additional_embeddings (`int`):
        Number of additional embeddings. Only useful when you `partially_freeze=True`.
    embedding_dim (`int`):
        The size of each embedding vector
    partially_freeze: (`bool`, *optional*, defaults to `False`):
        If `True`, the regular `weight` will be frozen. `additional_weight` is never frozen.
    padding_idx (`int`, *optional*):
        The padding index (needs to be less than num_embeddings)

Note: there are a lot of other parameters to initialize a standard `nn.Embedding` such as `padding_idx`,
`max_norm` or `norm_type`. We are not supporting these.
Nz/padding_idx must be within num_embeddings. Got z and )Únum_embeddingsÚembedding_dimrK   ÚdtypeÚpadding_idxFr   )rp   rq   rK   rr   r+   )Ú
ValueErrorÚsuperÚ__init__rp   rs   Únum_additional_embeddingsrm   Úweightrc   r   rX   Úadditional_embedding)
Úselfrp   rw   rq   rm   rK   rr   rs   ÚkwargsÚ	__class__s
            €r7   rv   Ú"IdeficsDecoupledEmbedding.__init__À   s¼   ø€ ð6 Ñ" {Ó'CÜÐNÈ{ÈmÐ[`ÐaoÐ`pÐqÓrÐrÜ‰Òð 	
Ø)Ø'ØØØ#ñ	
ð ò	
ð -ÔØ&ÔØ)BÔ&Ø 0ÔæØK‰K×&Ñ& uÔ-à×)Ñ)¨AÓ-Ü(*¯ªØ#×=Ñ=Ø+ØØñ	)ˆDÕ%ð .r6   c                 ó\  • U R                   S:X  a   [        R                  " XR                  5      $ UR	                  5       n[
        R                  " XR                  :¬  5      nX   nU R                  X0R                  -
  5      nSX'   [        R                  " XR                  5      nXEU'   U$ )a{  
we have 2 embeddings, with different indices - one pretrained self.weight and another
self.additional_embedding.weight that is being trained.

in order to make a lookup of the input ids, we:
1. find out the indices of the entries belonging to the 2nd embedding
2. extract those values while subtracting the size of the first embedding (num_embeddings), since the 2nd
   embedding starts from 0 and not num_embeddings
3. perform the 2nd embedding lookup
4. now we handle the 1st embedding, we overwrite indices belonging to the 2nd embedding with a padding index
5. perform the 1st embedding lookup
6. now we overwrite the values in the 1st embedding lookup with the values of the 2nd embedding lookup

note: for the 1st embedding lookup we could have looked up only the low indices and not do the padding, but
then we have to create a new tensor and populate it with 2 tensors that are spread out across various indices -
i.e. not a simple concat - I haven't benchmarked the complex case if it's any faster, given that seqlens are
usually relatively short it's probably not faster or if faster not by much - but might be a good idea to
measure.

r   )	rw   ÚFÚ	embeddingrx   Úcloner1   Úwhererp   ry   )rz   rN   Úadditional_vocab_indicesÚinput_ids_additional_vocabÚadditional_embeddingsÚfull_vectors         r7   ÚforwardÚ!IdeficsDecoupledEmbedding.forwardõ   s   € ð* ×)Ñ)¨QÓ.Ü—;’;˜y¯+©+Ó6Ð6ð —O‘OÓ%ˆ	Ü#(§;¢;¨y×<OÑ<OÑ/OÓ#PÐ Ø%.Ñ%HÐ"Ø $× 9Ñ 9Ð:T×WjÑWjÑ:jÓ kÐð /0ˆ	Ñ+Ü—k’k )¯[©[Ó9ˆð 1FÐ,Ñ-àÐr6   c                 ón   • SU R                    SU R                   SU R                   SU R                   3$ )Nznum_embeddings=z, num_additional_embeddings=z, embedding_dim=ú, partially_freeze=)rp   rw   rq   rm   ©rz   s    r7   Ú
extra_reprÚ$IdeficsDecoupledEmbedding.extra_repr  sq   € Ø  ×!4Ñ!4Ð 5Ð5QÐRV×RpÑRpÐQqð  rBð  CG÷  CUñ  CUð  BVð  Við  jn÷  jñ  jð  i@ð  Að  	Ar6   )ry   rw   rp   rs   rm   )FNNN)r,   r-   r.   r/   r0   r   Úboolrv   r‡   ÚstrrŒ   r5   Ú__classcell__©r|   s   @r7   rk   rk   ·   sS   ø† ñð ,1ØØØñ3ð
 # 4™.ð3ð 
÷3ð 3òj%ðNA˜C÷ Aò Ar6   rk   c                   óž   ^ • \ rS rSrSr     SS\S\S\S\S\S	S4U 4S
 jjjrS\R                  S	\R                  4S jr
S	\4S jrSrU =r$ )ÚIdeficsDecoupledLineari   a°  
Implements a decoupling of parameters to allow freezing (or not) a subset of the parameters. In practise, the
regular `weight` can be trained or frozen (i.e. `partially_freeze=True`), and if `out_additional_features` > 0,
then it will create `out_additional_features * in_features` additional parameters that are always trained. If
`out_additional_features=0`, then the module defaults back to the regular behavior of `nn.Linear`.
NÚin_featuresÚout_featuresÚout_additional_featuresÚbiasrm   rn   c                 ó(  >• [         TU ]  XXFU5        X0l        XPl        Xl        X l        U(       a=  U R                  R                  S5        U(       a  U R                  R                  S5        US:”  a  [        R                  " UUUUUS9U l        gg)a'  
out_additional_features: int. Number of additional trainable dimensions. Only makes sense when
`partially_freeze=True`. partially_freeze: bool. If True, the regular `weight` will be frozen and extra
parameters (if any) will be trainable. If False, default to the regular behavior of nn.Linear.
Fr   )r”   r•   r—   rK   rr   N)ru   rv   r–   rm   r”   r•   rx   rc   r—   r   rW   Úadditional_fc)	rz   r”   r•   r–   r—   rm   rK   rr   r|   s	           €r7   rv   ÚIdeficsDecoupledLinear.__init__)  s…   ø€ ô 	‰Ñ˜°DÀ%ÔHØ'>Ô$Ø 0Ôà&ÔØ(ÔæØK‰K×&Ñ& uÔ-ÞØ—	‘	×(Ñ(¨Ô/à" QÓ&Ü!#§¢Ø'Ø4ØØØñ"ˆDÕð 'r6   Úinputc                 óÎ   • [         R                  " XR                  U R                  5      nU R                  S:”  a)  U R                  U5      n[        R                  " X#4S5      nU$ )Nr   r?   )r   Úlinearrx   r—   r–   r™   r1   Úcat)rz   r›   ÚoutputÚadditional_featuress       r7   r‡   ÚIdeficsDecoupledLinear.forwardM  sQ   € Ü—’˜%§¡¨d¯i©iÓ8ˆà×'Ñ'¨!Ó+Ø"&×"4Ñ"4°UÓ";ÐÜ—Y’Y Ð<¸bÓAˆFàˆr6   c           
      óŒ   • SU R                    SU R                   SU R                   SU R                  SL SU R                   3
$ )z=Overwriting `nn.Linear.extra_repr` to include new parameters.zin_features=z, out_features=z, out_additional_features=z, bias=NrŠ   ©r”   r•   r–   r—   rm   r‹   s    r7   rŒ   Ú!IdeficsDecoupledLinear.extra_reprV  s˜   € à˜d×.Ñ.Ð/¨¸t×?PÑ?PÐ>QÐQkÐlp÷  mIñ  mIð  lJð  JQð  RV÷  R[ñ  R[ð  cgð  Rgð  Qhð  h{ð  |@÷  |Qñ  |Qð  {Rð  Sð  	Sr6   )r™   r”   r–   r•   rm   )r   TTNN)r,   r-   r.   r/   r0   ÚintrŽ   rv   r1   ÚTensorr‡   r   rŒ   r5   r   r‘   s   @r7   r“   r“      s   ø† ñð ()ØØ!%ØØñ"àð"ð ð"ð "%ð	"ð
 ð"ð ð"ð 
÷"ð "ðH˜UŸ\™\ð ¨e¯l©lô ðS˜C÷ Sò Sr6   r“   c                   ó8   ^ • \ rS rSrSU 4S jjrS rS rSrU =r$ )ÚIdeficsRMSNormi\  c                 óŒ   >• [         TU ]  5         [        R                  " [        R
                  " U5      5      U l        X l        g)z-
IdeficsRMSNorm is equivalent to T5LayerNorm
N)ru   rv   r   Ú	Parameterr1   Úonesrx   Úvariance_epsilon)rz   Úhidden_sizeÚepsr|   s      €r7   rv   ÚIdeficsRMSNorm.__init__]  s/   ø€ ô 	‰ÑÔÜ—l’l¤5§:¢:¨kÓ#:Ó;ˆŒØ #Õr6   c                 óœ  • UR                  [        R                  5      R                  S5      R	                  SSS9nU[        R
                  " X R                  -   5      -  nU R                  R                  [        R                  [        R                  4;   a%  UR                  U R                  R                  5      nU R                  U-  $ )Né   r?   T)Úkeepdim)rJ   r1   Úfloat32ÚpowÚmeanÚrsqrtr¬   rx   rr   Úfloat16Úbfloat16)rz   r(   Úvariances      r7   r‡   ÚIdeficsRMSNorm.forwarde  s—   € Ø ×#Ñ#¤E§M¡MÓ2×6Ñ6°qÓ9×>Ñ>¸rÈ4Ð>ÐPˆØ%¬¯ª°H×?TÑ?TÑ4TÓ(UÑUˆð ;‰;×Ñ¤§¡´·±Ð ?Ó?Ø)×,Ñ,¨T¯[©[×->Ñ->Ó?ˆMà{‰{˜]Ñ*Ð*r6   c                 ó^   • [        U R                  R                  5       SU R                   3$ )Nz, eps=)r4   rx   rG   r¬   r‹   s    r7   rŒ   ÚIdeficsRMSNorm.extra_repro  s*   € Ü˜Ÿ™×)Ñ)Ó*Ð+¨6°$×2GÑ2GÐ1HÐIÐIr6   )r¬   rx   )gíµ ÷Æ°>)	r,   r-   r.   r/   rv   r‡   rŒ   r5   r   r‘   s   @r7   r¨   r¨   \  s   ø† ÷$ò+÷Jð Jr6   r¨   c                   ó<   ^ • \ rS rSrSU 4S jjrS rSS jrSrU =r$ )ÚIdeficsEmbeddingit  c           	      ó¦  >• [         TU ]  5         Xl        X l        X0l        SU R                  [
        R                  " SU R                  S[
        R                  S9R                  U[
        R                  S9U R                  -  -  -  nU R                  SUSS9  U R                  X R                  R                  [
        R                  " 5       S	9  g )
Nç      ð?r   r±   ©rr   ©rK   rr   Úinv_freqF©Ú
persistent©Úseq_lenrK   rr   )ru   rv   ÚdimÚmax_position_embeddingsÚbaser1   rF   Úint64rJ   ÚfloatÚregister_bufferÚ_set_cos_sin_cacherÃ   rK   Úget_default_dtype)rz   rÈ   rÉ   rÊ   rK   rÃ   r|   s         €r7   rv   ÚIdeficsEmbedding.__init__u  s·   ø€ Ü‰ÑÔàŒØ'>Ô$ØŒ	ØØI‰IÜ—’˜Q §¡¨!´5·;±;Ñ?×BÑBÈ&ÔX]×XcÑXcÐBÐdÐgk×goÑgoÑoñqñ
ˆð 	×Ñ˜Z¨¸eÐÑDð 	×ÑØ+·M±M×4HÑ4HÔPU×PgÒPgÓPið 	 ò 	
r6   c                 óÄ  • Xl         [        R                  " U R                   U[        R                  S9R	                  U R
                  5      n[        R                  " SX@R
                  5      n[        R                  " XU4SS9nU R                  SUR                  5       R                  U5      SS9  U R                  SUR                  5       R                  U5      SS9  g )	NrÂ   zi,j->ijr?   ©rÈ   Ú
cos_cachedFrÄ   Ú
sin_cached)Úmax_seq_len_cachedr1   rF   rË   Útype_asrÃ   Úeinsumrž   rÍ   ÚcosrJ   Úsin)rz   rÇ   rK   rr   r]   ÚfreqsÚembs          r7   rÎ   Ú#IdeficsEmbedding._set_cos_sin_cache†  s¤   € Ø")ÔÜLŠL˜×0Ñ0¸ÄuÇ{Á{ÑS×[Ñ[Ð\`×\iÑ\iÓjˆä—’˜Y¨¯=©=Ó9ˆäiŠi˜˜¨BÑ/ˆØ×Ñ˜\¨3¯7©7«9¯<©<¸Ó+>È5ÐÑQØ×Ñ˜\¨3¯7©7«9¯<©<¸Ó+>È5ÐÒQr6   c                 ó   • X R                   :”  a$  U R                  X!R                  UR                  S9  U R                  S U R                  UR                  S9U R                  S U R                  UR                  S94$ )NrÆ   rÁ   )rÕ   rÎ   rK   rr   rÓ   rJ   rÔ   )rz   ÚxrÇ   s      r7   r‡   ÚIdeficsEmbedding.forward  su   € à×,Ñ,Ó,Ø×#Ñ#¨G¿H¹HÈAÏGÉGÐ#ÑTð O‰O˜H˜WÐ%×(Ñ(¨q¯w©wÐ(Ð7ØO‰O˜H˜WÐ%×(Ñ(¨q¯w©wÐ(Ð7ð
ð 	
r6   )rÊ   rÈ   rÉ   rÕ   )i   i'  NrZ   )	r,   r-   r.   r/   rv   rÎ   r‡   r5   r   r‘   s   @r7   r¾   r¾   t  s   ø† ÷
ò"R÷
ò 
r6   r¾   c                 ó–   • U SSU R                   S   S-  24   nU SU R                   S   S-  S24   n[        R                  " U* U4SS9$ )z*Rotates half the hidden dims of the input..Nr?   r±   rÒ   )rG   r1   rž   )rÞ   Úx1Úx2s      r7   Úrotate_halfrã   ›  sZ   € à	
ˆ3Ð"!—'‘'˜"‘+ Ñ"Ð"Ð"Ñ	#€BØ	
ˆ3—‘˜‘˜qÑ Ñ"Ð"Ñ	#€BÜ9Š9rc˜2Y BÑ'Ð'r6   c                 ó    • X$   R                  U5      nX4   R                  U5      nX-  [        U 5      U-  -   nX-  [        U5      U-  -   nXg4$ )a&  Applies Rotary Position Embedding to the query and key tensors.

Args:
    q (`torch.Tensor`): The query tensor.
    k (`torch.Tensor`): The key tensor.
    cos (`torch.Tensor`): The cosine part of the rotary embedding.
    sin (`torch.Tensor`): The sine part of the rotary embedding.
    position_ids (`torch.Tensor`):
        The position indices of the tokens corresponding to the query and key tensors. For example, this can be
        used to pass offsetted position ids when working with a KV-cache.
    unsqueeze_dim (`int`, *optional*, defaults to 1):
        The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
        sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
        that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
        k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
        cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
        the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
Returns:
    `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
)Ú	unsqueezerã   )ÚqÚkrØ   rÙ   Úposition_idsÚunsqueeze_dimÚq_embedÚk_embeds           r7   Úapply_rotary_pos_embrì   ¢  s]   € ð* Ñ
×
%Ñ
% mÓ
4€CØ
Ñ
×
%Ñ
% mÓ
4€CØ‰wœ; q›>¨CÑ/Ñ0€GØ‰wœ; q›>¨CÑ/Ñ0€GØÐÐr6   c                   ó>   ^ • \ rS rSrS\S\S\4U 4S jjrS rSrU =r	$ )Ú
IdeficsMLPi¿  r­   Úintermediate_sizeÚ
hidden_actc                 óÚ   >• [         TU ]  5         [        R                  " XSS9U l        [        R                  " X!SS9U l        [        R                  " XSS9U l        [        U   U l        g )NF©r—   )	ru   rv   r   rW   Ú	gate_projÚ	down_projÚup_projr
   Úact_fn)rz   r­   rï   rð   r|   s       €r7   rv   ÚIdeficsMLP.__init__À  sS   ø€ ô 	‰ÑÔÜŸš ;ÈÑNˆŒÜŸšÐ#4ÈÑNˆŒÜ—y’y ÀeÑLˆŒÜ˜ZÑ(ˆr6   c                 ó„   • U R                  U R                  U R                  U5      5      U R                  U5      -  5      $ rZ   )rô   rö   ró   rõ   )rz   rÞ   s     r7   r‡   ÚIdeficsMLP.forwardÌ  s0   € Ø~‰~˜dŸk™k¨$¯.©.¸Ó*;Ó<¸t¿|¹|ÈA»ÑNÓOÐOr6   )rö   rô   ró   rõ   )
r,   r-   r.   r/   r¥   r   rv   r‡   r5   r   r‘   s   @r7   rî   rî   ¿  s0   ø† ð
)àð
)ð ð
)ð ÷	
)÷Pð Pr6   rî   r^   ÚqueryÚkeyÚvaluerE   ÚscalingÚdropoutc                 ó°  • [         R                  " XR                  SS5      5      U-  nUb  X„-   n[        R                  R                  US[         R                  S9R                  UR                  5      n[        R                  R                  X†U R                  S9n[         R                  " Xƒ5      n	U	R                  SS5      R                  5       n	X˜4$ )Nr?   éþÿÿÿ)rÈ   rr   ©ÚpÚtrainingr   r±   )r1   ÚmatmulÚ	transposer   Ú
functionalÚsoftmaxr³   rJ   rr   rþ   r  Ú
contiguous)
r^   rú   rû   rü   rE   rý   rþ   r{   Úattn_weightsÚattn_outputs
             r7   Úeager_attention_forwardr  Ñ  s°   € ô —<’< §}¡}°R¸Ó'<Ó=ÀÑG€LØÑ!Ø#Ñ4ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€Lä—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r6   c                   óÀ  ^ • \ rS rSrSr     SS\S\S\S\S\S\S	\	\   4U 4S
 jjjr
S\R                  S\S\4S jr       SS\R                  S\	\R                     S\	\R                     S\	\R                     S\	\\R                        S\S\S\	\R                     S\\R                  \	\R                     \	\\R                        4   4S jjrSrU =r$ )ÚIdeficsAttentionié  z=Multi-headed attention from 'Attention Is All You Need' paperr­   Ú	num_headsrþ   Úis_cross_attentionÚconfigÚqk_layer_normsÚ	layer_idxc                 óØ  >• [         T	U ]  5         XPl        Xl        X l        X-  U l        X0l        SU l        U R
                  S-  U l        Xpl	        Uc-  [        R                  SU R                  R                   S35        U R
                  U-  U R                  :w  a  [        SU R                   SU S35      eX@l        [!        ["        R$                  S5      (       d  [        S	5      eU R                  (       a½  [!        UR&                  S
5      (       d  U R                  OUR&                  R(                  n["        R*                  " U R                  X R
                  -  SS9U l        ["        R*                  " X‚U R
                  -  SS9U l        ["        R*                  " UX R
                  -  SS9U l        O“["        R*                  " U R                  X R
                  -  SS9U l        ["        R*                  " U R                  X R
                  -  SS9U l        ["        R*                  " U R                  X R
                  -  SS9U l        ["        R*                  " X R
                  -  USS9U l        [5        U R
                  5      U l        X`l        U R8                  (       aG  [;        U R
                  UR<                  S9U l        [;        U R
                  UR<                  S9U l         g g )NTg      à¿zInstantiating z¹ without passing a `layer_idx` is not recommended and will lead to errors during the forward call if caching is used. Please make sure to provide a `layer_idx` when creating this class.z?hidden_size must be divisible by num_heads (got `hidden_size`: z and `num_heads`: z).Úscaled_dot_product_attentionz)this model requires pytorch 2.0 or higherÚ	embed_dimFrò   ©r®   )!ru   rv   r  r­   r  Úhead_dimrþ   Ú	is_causalrý   r  ÚloggerÚwarning_oncer|   r,   rt   r  Úhasattrr   r  Úvision_configr  rW   Úq_projÚk_projÚv_projÚo_projr¾   Ú
rotary_embr  r¨   Úrms_norm_epsÚq_layer_normÚk_layer_norm)
rz   r­   r  rþ   r  r  r  r  Úkv_input_dimr|   s
            €r7   rv   ÚIdeficsAttention.__init__ì  st  ø€ ô 	‰ÑÔØŒØ&ÔØ"ŒØ#Ñ0ˆŒØŒØˆŒØ—}‘} dÑ*ˆŒà"ŒØÑÜ×ÑØ  §¡×!8Ñ!8Ð 9ð :,ð ,ôð M‰M˜IÑ%¨$×*:Ñ*:Ó:ÜØQÐRV×RbÑRbÐQcØ$ Y K¨rð3óð ð
 #5Ôä”r—}‘}Ð&D×EÑEÜÐHÓIÐIà×"×"ä(/°×0DÑ0DÀk×(RÑ(R× Ò ÐX^×XlÑXl×XvÑXvð ô Ÿ)š)Ø× Ñ ØŸM™MÑ)ØñˆDŒKô
 Ÿ)š) L¸d¿m¹mÑ2KÐRWÑXˆDŒKÜŸ)š)ØØŸM™MÑ)ØñˆDKô Ÿ)š)Ø× Ñ ØŸM™MÑ)ØñˆDŒKô
 Ÿ)š)Ø× Ñ ØŸM™MÑ)ØñˆDŒKô
 Ÿ)š)Ø× Ñ ØŸM™MÑ)ØñˆDŒKô
 —i’iØŸ™Ñ%ØØñ
ˆŒô
 +¨4¯=©=Ó9ˆŒà,ÔØ××Ü .¨t¯}©}À&×BUÑBUÑ VˆDÔÜ .¨t¯}©}À&×BUÑBUÑ VˆDÕð r6   ÚtensorrÇ   Úbszc                 óŒ   • UR                  X2U R                  U R                  5      R                  SS5      R	                  5       $ )Nr   r±   )rH   r  r  r  r  )rz   r'  rÇ   r(  s       r7   Ú_shapeÚIdeficsAttention._shape=  s5   € Ø{‰{˜3¨¯©¸¿¹ÓG×QÑQÐRSÐUVÓW×bÑbÓdÐdr6   r(   Úkey_value_statesrE   rè   Úpast_key_valueÚoutput_attentionsÚ	use_cacheÚcache_positionrn   c	                 óx  • U R                   =(       d    US Ln
UR                  5       u  p¼nU R                  U5      R                  X¼U R                  U R
                  5      R                  SS5      nU
(       d  U R                  U5      R                  X¼U R                  U R
                  5      R                  SS5      nU R                  U5      R                  X¼U R                  U R
                  5      R                  SS5      nO¢UR                  5       u  nnnU R                  U5      R                  UUU R                  U R
                  5      R                  SS5      nU R                  U5      R                  UUU R                  U R
                  5      R                  SS5      nUR                  S   nUb  UUS   -  nU
(       d-  U R                  U[        UU5      S9u  nn[        XïUUU5      u  pïUb%  SU0nUR                  UUU R                  U5      u  nnU R                  (       a"  U R!                  U5      nU R#                  U5      n[$        nU R&                  R(                  S:w  aT  U R&                  R(                  S:X  a  U(       a  [*        R-                  S	5        O[.        U R&                  R(                     nU" U UUUU4U R0                  (       d  S
OU R2                  U R4                  S.U	D6u  nnUR7                  X¼S5      R9                  5       nU R;                  U5      nU(       a  S nUU4$ )Nr   r±   r   r   )rÇ   r0  ÚeagerÚsdpazã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.ç        )rþ   rý   r?   )r  Úsizer  rH   r  r  r  r  r  rG   r!  Úmaxrì   Úupdater  r  r#  r$  r  r  Ú_attn_implementationr  r  r   r  rþ   rý   Úreshaper  r   )rz   r(   r,  rE   rè   r-  r.  r/  r0  r{   r  r(  Úq_lenÚ_Úquery_statesÚ
key_statesÚvalue_statesÚkv_lenÚ
kv_seq_lenrØ   rÙ   Úcache_kwargsÚattention_interfacer
  r	  s                            r7   r‡   ÚIdeficsAttention.forward@  s÷  € ð "×4Ñ4×TÐ8HÐPTÐ8TÐà%×*Ñ*Ó,‰ˆAà—{‘{ =Ó1×6Ñ6°sÀ4Ç>Á>ÐSW×S`ÑS`Óa×kÑkÐlmÐopÓqˆÞ!ØŸ™ ]Ó3×8Ñ8¸ÀTÇ^Á^ÐUY×UbÑUbÓc×mÑmÐnoÐqrÓsˆJØŸ;™; }Ó5×:Ñ:¸3ÀtÇ~Á~ÐW[×WdÑWdÓe×oÑoÐpqÐstÓu‰Là+×0Ñ0Ó2‰LˆAˆvqØŸ™Ð%5Ó6×;Ñ;¸CÀÈÏÉÐY]×YfÑYfÓg×qÑqÐrsÐuvÓwˆJà—‘Ð,Ó-×2Ñ2°3¸ÀÇÁÐPT×P]ÑP]Ó^×hÑhÐijÐlmÓnð ð  ×%Ñ% bÑ)ˆ
ØÑ%Ø˜.¨Ñ+Ñ+ˆJæ!Ø—‘ |¼SÀÈUÓ=SÐT‰HˆCÜ';¸LÐVYÐ[^Ð`lÓ'mÑ$ˆLð Ñ%à,¨nÐ=ˆLØ'5×'<Ñ'<¸ZÈÐW[×WeÑWeÐgsÓ'tÑ$ˆJ˜à××Ø×,Ñ,¨\Ó:ˆLØ×*Ñ*¨:Ó6ˆJä(?Ðà;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9Ö>OÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#á$7ØØØØØð	%
ð  $Ÿ}Ÿ}‘C°$·,±,Ø—L‘Lñ	%
ð ñ	%
Ñ!ˆ\ð "×)Ñ)¨#°bÓ9×DÑDÓFˆØ—k‘k +Ó.ˆæØˆLà˜LÐ(Ð(r6   )r  rþ   r  r­   r  r  r$  r  r  r  r   r#  r  r  r!  rý   r  )r4  FNFN©NNNNFFN)r,   r-   r.   r/   r0   r¥   rÌ   rŽ   r   r   rv   r1   r¦   r*  Ú
LongTensorr4   r‡   r5   r   r‘   s   @r7   r  r  é  sƒ  ø† ÙGð Ø#(Ø#'Ø$Ø#'ñOWàðOWð ðOWð ð	OWð
 !ðOWð !ðOWð ðOWð ˜C‘=÷OWð OWðbe˜UŸ\™\ð e°Cð e¸cô eð 48Ø15Ø37Ø8<Ø"'ØØ59ñJ)à—|‘|ðJ)ð # 5§<¡<Ñ0ðJ)ð ! §¡Ñ.ð	J)ð
 ˜u×/Ñ/Ñ0ðJ)ð !  u§|¡|Ñ!4Ñ5ðJ)ð  ðJ)ð ðJ)ð ! ×!1Ñ!1Ñ2ðJ)ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷J)ó J)r6   r  c                   ó\  ^ • \ rS rSrSS\S\\   4U 4S jjjr      SS\R                  S\\R                     S\\R                     S\\\R                        S	\\   S
\\   S\\R                     S\\R                  \\\R                  \R                  4      4   4S jjrSrU =r$ )ÚIdeficsDecoderLayeriŽ  r  r  c                 ó®  >• [         TU ]  5         UR                  U l        [        U R                  UR                  UR
                  UUS9U l        [        U R                  UR                  UR                  S9U l
        [        UR                  UR                  S9U l        [        UR                  UR                  S9U l        UR
                  U l        g )N)r­   r  rþ   r  r  ©r­   rï   rð   r  )ru   rv   r­   r  Únum_attention_headsrþ   Ú	self_attnrî   rï   rð   Úmlpr¨   r"  Úinput_layernormÚpost_attention_layernorm©rz   r  r  r|   s      €r7   rv   ÚIdeficsDecoderLayer.__init__  s³   ø€ Ü‰ÑÔØ!×-Ñ-ˆÔÜ)Ø×(Ñ(Ø×0Ñ0Ø—N‘NØØñ
ˆŒô Ø×(Ñ(Ø$×6Ñ6Ø×(Ñ(ñ
ˆŒô
  .¨f×.@Ñ.@Àf×FYÑFYÑZˆÔÜ(6°v×7IÑ7IÈv×ObÑObÑ(cˆÔ%Ø—~‘~ˆr6   r(   rE   rè   r-  r.  r/  r0  rn   c                 ó¢  • Un	U R                  U5      nU R                  " SUUUUUUUS.UD6u  p[        R                  R	                  XR                  U R
                  S9nX‘-   nUn	U R                  U5      nU R                  U5      n[        R                  R	                  XR                  U R
                  S9nX‘-   nU4nU(       a  Xº4-  nU$ )aý  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
)r(   rE   rè   r-  r.  r/  r0  r  r+   )rM  rK  r   r  rþ   r  rN  rL  )rz   r(   rE   rè   r-  r.  r/  r0  r{   ÚresidualÚself_attn_weightsÚoutputss               r7   r‡   ÚIdeficsDecoderLayer.forward¢  sê   € ð2 !ˆà×,Ñ,¨]Ó;ˆð ,0¯>ª>ð 	,
Ø'Ø)Ø%Ø)Ø/ØØ)ñ	,
ð ñ	,
Ñ(ˆô Ÿ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆð !ˆØ×5Ñ5°mÓDˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆà Ð"ˆæØÐ+Ñ+ˆGàˆr6   )rþ   r­   rM  rL  rN  rK  rZ   )NNNFFN)r,   r-   r.   r/   r   r   r¥   rv   r1   r¦   rE  r4   rŽ   r2   r‡   r5   r   r‘   s   @r7   rG  rG  Ž  sï   ø† ñ&˜}ð &¸À#¹÷ &ð &ð, 26Ø37Ø8<Ø,1Ø$)Ø59ñ7à—|‘|ð7ð ! §¡Ñ.ð7ð ˜u×/Ñ/Ñ0ð	7ð
 !  u§|¡|Ñ!4Ñ5ð7ð $ D™>ð7ð ˜D‘>ð7ð ! ×!1Ñ!1Ñ2ð7ð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷7ó 7r6   rG  c                   ó|  ^ • \ rS rSrSS\S\\   4U 4S jjjr       SS\R                  S\\R                     S\\R                     S\\R                     S	\\R                     S
\\
   S\\
   S\\\R                        S\\R                  \\\R                  \R                  4      4   4S jjrSrU =r$ )ÚIdeficsGatedCrossAttentionLayeriÜ  r  r  c           
      óÖ	  >• [         TU ]  5         UR                  U l        [        U R                  UR                  SUR
                  UUR                  US9U l        [        U R                  UR                  UR                  S9U l        [        UR                  UR                  S9U l        [        UR                  UR                  S9U l        UR
                  U l        ["        R$                  " 5       U l        ["        R$                  " 5       U l        UR*                  S:X  Ga  UR,                  S:X  ax  ["        R.                  " [0        R2                  " SSU R                  5      5      U l        ["        R.                  " [0        R2                  " SSU R                  5      5      U l        GOUR,                  S:X  a`  ["        R.                  " [0        R2                  " S5      5      U l        ["        R.                  " [0        R2                  " S5      5      U l        GOž[9        S	UR,                   S
35      eUR*                  S:X  Ga  UR,                  S:X  ax  ["        R.                  " [0        R:                  " SSU R                  5      5      U l        ["        R.                  " [0        R:                  " SSU R                  5      5      U l        GOìUR,                  S:X  a`  ["        R.                  " [0        R:                  " S5      5      U l        ["        R.                  " [0        R:                  " S5      5      U l        GO|[9        S	UR,                   S
35      eUR*                  S;   Ga9  UR,                  S:X  a  ["        R.                  " [0        R<                  " SUR>                  SSU R                  4S95      U l        ["        R.                  " [0        R<                  " SUR>                  SSU R                  4S95      U l        OµUR,                  S:X  as  ["        R.                  " [0        R<                  " SUR>                  SS95      U l        ["        R.                  " [0        R<                  " SUR>                  SS95      U l        O2[9        S	UR,                   S
35      e[A        SUR*                   S35      e[C        U S5      (       a  [C        U S5      (       d  [9        S5      eg )NT)r­   r  r  rþ   r  r  r  rI  r  ÚzerosÚvectorr   rÌ   z Unknown value for `alpha_type` (Ú)r«   >   ÚnormalÚrandomÚgaussianr4  )rµ   Ústdr5  zAlpha initialization scheme z not yet implemented!Úalpha_cross_attnÚalpha_densez+Alpha parameters not initialized correctly!)"ru   rv   r­   r  rJ  rþ   r  Ú
cross_attnrî   rï   rð   rL  r¨   r"  rM  rN  r  r   ÚTanhÚact_cross_attnÚ	act_denseÚalpha_initializerÚ
alpha_typerª   r1   rY  r`  ra  rt   r«   r\  Úalphas_initializer_rangeÚNotImplementedErrorr  rO  s      €r7   rv   Ú(IdeficsGatedCrossAttentionLayer.__init__Ý  s°  ø€ Ü‰ÑÔØ!×-Ñ-ˆÔÜ*Ø×(Ñ(Ø×0Ñ0Ø#Ø—N‘NØØ!×0Ñ0Øñ
ˆŒô Ø×(Ñ(Ø$×6Ñ6Ø×(Ñ(ñ
ˆŒô
  .¨f×.@Ñ.@Àf×FYÑFYÑZˆÔÜ(6°v×7IÑ7IÈv×ObÑObÑ(cˆÔ%Ø—n‘nˆŒä Ÿgšg›iˆÔÜŸš›ˆŒà×#Ñ# wÔ.Ø× Ñ  HÓ,Ü(*¯ª´U·[²[ÀÀAÀt×GWÑGWÓ5XÓ(YÔ%Ü#%§<¢<´·²¸A¸qÀ$×BRÑBRÓ0SÓ#TÖ Ø×"Ñ" gÓ-Ü(*¯ª´U·[²[À³^Ó(DÔ%Ü#%§<¢<´·²¸A³Ó#?Ö ä Ð#CÀF×DUÑDUÐCVÐVWÐ!XÓYÐYà×%Ñ%¨Ô/Ø× Ñ  HÓ,Ü(*¯ª´U·Z²ZÀÀ1Àd×FVÑFVÓ5WÓ(XÔ%Ü#%§<¢<´·
²
¸1¸aÀ×AQÑAQÓ0RÓ#SÖ Ø×"Ñ" gÓ-Ü(*¯ª´U·Z²ZÀ³]Ó(CÔ%Ü#%§<¢<´·
²
¸1³Ó#>Ö ä Ð#CÀF×DUÑDUÐCVÐVWÐ!XÓYÐYà×%Ñ%Ð)IÔIØ× Ñ  HÓ,Ü(*¯ªÜ—L’L c¨v×/NÑ/NÐVWÐYZÐ\`×\lÑ\lÐUmÑnó)Ô%ô $&§<¢<Ü—L’L c¨v×/NÑ/NÐVWÐYZÐ\`×\lÑ\lÐUmÑnó$Õ ð ×"Ñ" gÓ-Ü(*¯ªÜ—L’L c¨v×/NÑ/NÐVWÑYó)Ô%ô $&§<¢<´·²À#È6×KjÑKjÐrsÑ0uÓ#vÕ ä Ð#CÀF×DUÑDUÐCVÐVWÐ!XÓYÐYô &Ð(DÀV×E]ÑE]ÐD^Ð^sÐ&tÓuÐuä˜Ð0×1Ñ1´g¸dÀM×6RÑ6RÜÐJÓKÐKð 7Sr6   r(   rE   r*   rC   Úcross_attention_gater.  r/  r-  rn   c	                 óž  • Uc  [        S5      eUc  [        S5      eUb  [        S5      eUn
U R                  U5      nU R                  " S	UUUUS.U	D6u  p[        R
                  R                  XR                  U R                  S9nUR                  US:H  SS2SS2S4   S5      nX R                  U R                  5      U-  -   nUn
U R                  U5      nU R                  U5      n[        R
                  R                  XR                  U R                  S9nX R                  U R                  5      U-  -   nU4nU(       a  XË4-  nU$ )
am  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    image_attention_mask (`torch.FloatTensor`, *optional*): image attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    cross_attention_gate (`torch.FloatTensor`, *optional*):
        gate of size `(batch, seq_len)` used to zero-out cross-attention output for tokens attending no images.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
Nzt`image_hidden_states` is required for Idefics cross attention module which are visual features to be conditioned on.z‹`cross_attention_gate` is required for Idefics cross attention module to zero-out the cross-attention hidden_states attending to no images.zMPast key value states are not implemented for Idefics cross attention module.)r(   r,  rE   r.  r  r   r4  r+   )rt   ri  rM  rb  r   r  rþ   r  r  Úmasked_fillrd  r`  rN  rL  re  ra  )rz   r(   rE   r*   rC   rk  r.  r/  r-  r{   rR  rS  rT  s                r7   r‡   Ú'IdeficsGatedCrossAttentionLayer.forward  sy  € ð: Ñ&Üð#óð ð
  Ñ'Üð ^óð ð Ñ%Ü%Ð&uÓvÐvà ˆà×,Ñ,¨]Ó;ˆð ,0¯?ª?ð ,
Ø'Ø0Ø/Ø/ñ	,
ð
 ñ,
Ñ(ˆô Ÿ™×-Ñ-¨m¿{¹{ÐUY×UbÑUbÐ-Ðcˆà%×1Ñ1Ð3GÈ1Ñ3LÊaÒQRÐTXÈjÑ2YÐ[^Ó_ˆØ ×#6Ñ#6°t×7LÑ7LÓ#MÐP]Ñ#]Ñ]ˆð !ˆØ×5Ñ5°mÓDˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¿{¹{ÐUY×UbÑUbÐ-ÐcˆØ §>¡>°$×2BÑ2BÓ#CÀmÑ#SÑSˆà Ð"ˆæØÐ+Ñ+ˆGàˆr6   )
rd  re  r`  ra  r  rb  r­   rM  rL  rN  rZ   rD  )r,   r-   r.   r/   r   r   r¥   rv   r1   r¦   rŽ   r4   r2   r‡   r5   r   r‘   s   @r7   rW  rW  Ü  s  ø† ñ@L˜}ð @L¸À#¹÷ @Lð @LðJ 26Ø6:Ø7;Ø7;Ø,1Ø$)Ø8<ñHà—|‘|ðHð ! §¡Ñ.ðHð & e§l¡lÑ3ð	Hð
 ' u§|¡|Ñ4ðHð ' u§|¡|Ñ4ðHð $ D™>ðHð ˜D‘>ðHð !  u§|¡|Ñ!4Ñ5ðHð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷Hó Hr6   rW  c                   óF   • \ rS rSr% \\S'   SrSrSS/rSr	Sr
SrSrS rS	rg
)ÚIdeficsPreTrainedModelij  r  rd   TrG  rW  Fc                 óF  • U R                   R                  n[        U[        R                  [        R
                  45      (       aW  UR                  R                  R                  SUS9  UR                  b%  UR                  R                  R                  5         g g [        U[        R                  5      (       ad  UR                  R                  R                  SUS9  UR                  b2  UR                  R                  UR                     R                  5         g g [        U[        R                  5      (       aJ  UR                  R                  R                  S5        UR                  R                  R                  5         g [        U[        5      (       a&  UR                  R                  R                  S5        g [        U[         5      (       a%  UR"                  R                  R                  5         g [        U[$        5      (       GaT  U R                   R&                  S:X  aI  UR(                  R                  R                  5         UR*                  R                  R                  5         g U R                   R&                  S:X  aK  UR(                  R                  R                  S5        UR*                  R                  R                  S5        g U R                   R&                  S;   aq  UR(                  R                  R                  SU R                   R,                  S9  UR*                  R                  R                  SU R                   R,                  S9  g g [        U[.        5      (       a%  UR0                  R                  R                  5         g g )Nr4  )rµ   r_  rÀ   rY  r«   >   r\  r]  r^  )r  Úinitializer_ranger[   r   rW   ÚConv2drx   ÚdataÚnormal_r—   Úzero_rX   rs   rV   Úfill_r¨   r   Úclass_embeddingrW  rf  r`  ra  rh  r   Úlatents)rz   r^   r_  s      r7   Ú_init_weightsÚ$IdeficsPreTrainedModel._init_weightsv  s…  € ð k‰k×+Ñ+ˆÜfœrŸy™y¬"¯)©)Ð4×5Ñ5ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØM‰M×Ñ×$Ñ$ SÔ)ØK‰K×Ñ×"Ñ"Õ$Ü˜¤×/Ñ/ØM‰M×Ñ×$Ñ$ SÕ)Ü˜Ô 7×8Ñ8Ø×"Ñ"×'Ñ'×/Ñ/Õ1Ü˜Ô ?×@Ò@Ø{‰{×,Ñ,°Ó7Ø×'Ñ'×,Ñ,×2Ñ2Ô4Ø×"Ñ"×'Ñ'×-Ñ-Õ/Ø—‘×.Ñ.°&Ó8Ø×'Ñ'×,Ñ,×2Ñ2°3Ô7Ø×"Ñ"×'Ñ'×-Ñ-¨cÕ2Ø—‘×.Ñ.Ð2RÓRØ×'Ñ'×,Ñ,×4Ñ4¸#À4Ç;Á;×CgÑCgÐ4ÑhØ×"Ñ"×'Ñ'×/Ñ/°S¸d¿k¹k×>bÑ>bÐ/Òcð Sô ˜Ô 9×:Ñ:ØN‰N×Ñ×'Ñ'Õ)ð ;r6   r+   N)r,   r-   r.   r/   r   r3   Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_sdpaÚ_supports_flash_attnÚ_can_compile_fullgraphÚ_supports_attention_backendrz  r5   r+   r6   r7   rp  rp  j  s<   ‡ àÓØÐØ&*Ð#Ø.Ð0QÐRÐØ€NàÐØ"ÐØ"&Ðõ*r6   rp  c            '       óÊ  ^ • \ rS rSrSrS\4U 4S jjrS#S jr/ 4S jr/ 4S jr	\
\               S$S\\R                     S	\\R                     S
\\R                     S\\   S\\R"                     S\\R"                     S\\R"                     S\\R"                     S\\R                     S\\   S\\   S\\   S\\   S\\   S\\R                     S\\   S\\\4   4"S jj5       5       r S%S	\\R                  S4   S\R                  S\R                  S\S\4
S jjr\S	\R                  S\S\S\R8                  S\R                  S \4S! j5       rS"rU =r$ )&ÚIdeficsModeli˜  z
Transformer decoder consisting of `config.num_hidden_layers` layers. Each layer is a [`IdeficsDecoderLayer`]

Args:
    config: IdeficsConfig
r  c           
      ó˜  >• [         TU ]  U5        Xl        UR                  U l        UR
                  U l        [        UR
                  UR                  UR                  UR                  U R                  S9U l
        UR                  R                  U l        UR                  U l        UR                  U R                  l        [        UR                  5      U l        UR                   (       a]  UR"                  n[%        UUR                  R&                  UR(                  UR*                  UR,                  UR.                  5      U l        [2        R4                  " [7        UR8                  5       Vs/ sH  n[;        XS9PM     sn5      U l        UR>                  U l        UR8                  U R>                  -  n[2        R4                  " [7        U5       Vs/ sH  n[A        XS9PM     sn5      U l!        SU l"        [G        UR                  URH                  S9U l%        U RM                  5         U RO                  U5        g s  snf s  snf )N)rp   rw   rq   rm   rs   )r  Fr  )(ru   rv   r  Úpad_token_idrs   Ú
vocab_sizerk   Úadditional_vocab_sizer­   Úfreeze_text_layersÚembed_tokensr  Ú
image_sizer8  r   Úvision_modelÚuse_resamplerÚperceiver_configr   r  Úresampler_depthÚresampler_n_headsÚresampler_head_dimÚresampler_n_latentsÚperceiver_resamplerr   Ú
ModuleListÚrangeÚnum_hidden_layersrG  ÚlayersÚcross_layer_intervalrW  Úgated_cross_attn_layersÚgradient_checkpointingr¨   r"  ÚnormÚ	post_initÚfreeze_relevant_params)rz   r  rŽ  ÚiÚnum_cross_layersr|   s        €r7   rv   ÚIdeficsModel.__init__¡  sç  ø€ Ü‰Ñ˜Ô ØŒØ!×.Ñ.ˆÔØ ×+Ñ+ˆŒä5Ø!×,Ñ,Ø&,×&BÑ&BØ ×,Ñ,Ø#×6Ñ6Ø×(Ñ(ñ
ˆÔð !×.Ñ.×9Ñ9ˆŒØ#×1Ñ1ˆÔà28×2MÑ2Mˆ×ÑÔ/Ü4°V×5IÑ5IÓJˆÔð ××Ø%×6Ñ6ÐÜ'@ØØ×$Ñ$×.Ñ.Ø ×0Ñ0Ø ×2Ñ2Ø ×3Ñ3Ø ×4Ñ4ó(ˆDÔ$ô —m’mÜ?DÀV×E]ÑE]Ô?^Ó_Ñ?^¸!Ô  Ô5Ñ?^Ñ_ó
ˆŒð %+×$?Ñ$?ˆÔ!Ø!×3Ñ3°t×7PÑ7PÑPÐÜ')§}¢}ÜKPÐQaÔKbÓcÑKbÀaÔ,¨VÔAÑKbÑcó(
ˆÔ$ð ',ˆÔ#ä" 6×#5Ñ#5¸6×;NÑ;NÑOˆŒ	ð 	‰Ôà×#Ñ# FÕ+ùò `ùò ds   Å3IÇIc                 óÚ   • Uc  U R                   nUR                  (       a  U R                  UR                  5        UR                  (       a  [	        U R
                  UR                  S9  g g ©N)re   )r  r‰  Úfreeze_text_module_exceptionsÚfreeze_vision_layersri   rŒ  Úfreeze_vision_module_exceptions)rz   r  s     r7   r  Ú#IdeficsModel.freeze_relevant_paramsÓ  sQ   € Ø‰>Ø—[‘[ˆFà×$×$Ø×#Ñ# F×$HÑ$HÔIà×&×&Ü˜×*Ñ*¸f×>dÑ>dÓeð 'r6   c                 óT   • U R                   U R                  4 H  n[        X!S9  M     g r¢  )r—  r›  ri   )rz   re   r^   s      r7   r‰  ÚIdeficsModel.freeze_text_layersÝ  s!   € Ø—{‘{ D§I¡IÓ.ˆFÜ˜ÔEò /r6   c                 ó,   • [        U R                  US9  g r¢  )ri   rŒ  )rz   re   s     r7   r¤  Ú!IdeficsModel.freeze_vision_layersá  s   € ÜT×&Ñ&Ð:KÓLr6   rN   rE   rè   r'   Úinputs_embedsr@   rA   rB   rC   r/  r.  Úoutput_hidden_statesÚinterpolate_pos_encodingÚreturn_dictr0  r{   rn   c                 óD  • Ub  UR                   OUR                   nUb  UOU R                  R                  nUb  UOU R                  R                  nU
b  U
OU R                  R                  n
Ub  UOU R                  R
                  nUSL USL-  (       a  [        S5      eU R                  (       a/  U R                  (       a  U
(       a  [        R                  S5        Sn
Uc  U R                  U5      n[        U[        S5      [        45      (       d  [        S5      eU
(       a  Uc
  [        5       nUR                   u  nnnUb  UR#                  5       OSnUU-   nUc0  [$        R&                  " UUUR                   S   -   UR                   S9nUbG  UcD  UR)                  5       R+                  S	5      S-
  nUR-                  US:H  S5        USS2U* S24   nOUc  UR/                  S5      n[1        XgU4 Vs/ sH  nUSL PM	     sn5      S
:w  a  [        S5      eUbw  UR3                  U R4                  US9nUR                   SS
 u  nnUR7                  5       R8                  " UU-  /UR                   S
S Q76 nU R;                  XmS9R<                  nOHUbE  UR?                  5       u  nnnnUR3                  U R4                  US9nUR9                  UU-  UU5      nU R                  R@                  (       aO  Uc4  U RC                  W5      nUR?                  S5      UR?                  S
5      nnOUR?                  5       u  nnnnUnO1Uc#  WR?                  S5      UR?                  S
5      nnO[        S5      eUR9                  UWU-  U5      nU	R?                  S5      nU	R/                  S	5      n	U	RE                  SSSU5      n	U	R9                  UUUU-  5      n	UbB  UR?                  5       u  nnnUU4nU	c  [$        RF                  " UUS9n	U RI                  U	5      n	OSn	U	S:H  RK                  S	S9R3                  U R4                  S9RM                  SS9R3                  U5      n Uc0  [$        RF                  " UU4[$        RN                  UR                   S9nU RQ                  X%XôU5      nUn!U(       a  SOSn"U(       a  SOSn#[S        U RT                  5       H  u  n$n%U(       a  U"U!4-  n"U$U RV                  -  S:X  a2  U RX                  U$U RV                  -     n&U&" U!UU4U	U UU
SS.UD6n'U'S   n!U%" U!4UUUUU
US.UD6n(U(S   n!U(       d  Mv  U#U(S   4-  n#M     U R[                  U!5      n!U(       a  U"U!4-  n"UR9                  UUUU5      n[]        U!UU"U#US9$ s  snf )a*  
image_encoder_embeddings (`torch.FloatTensor`, *optional*):
    The output of the image encoder.
perceiver_embeddings (`torch.FloatTensor`, *optional*):
    The output of the perceiver resampler.
image_attention_mask (`torch.LongTensor`, *optional*):
    The attention mask for the image encoder.
Nz:You must specify exactly one of input_ids or inputs_embedszX`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.FzBThe `past_key_values` should be either a `Cache` object or `None`.r   r   ©rK   r?   r±   z_Exactly 1 of pixel_values, image_encoder_embeddings or perceiver_embeddings has to be not-None.)rr   rK   )r@   r­  zBIf `perceiver_embeddings` are passed, use_resampler should be Truer4  rÒ   rÁ   r+   )rC   rk  r.  r/  r-  )rE   rè   r-  r.  r/  r0  )r&   r'   r(   r)   r*   )/rK   r  r.  r¬  r/  Úuse_return_dictrt   rš  r  r  r  rŠ  r[   Útyper   r   rG   Úget_seq_lengthr1   rF   ÚlongÚcumsumÚmasked_fill_rå   ÚsumrJ   rr   r  rH   rŒ  r&   r5  r  r“  rI   r«   Úinvert_attention_maskrb   ÚsqueezerŽ   Ú_update_causal_maskÚ	enumerater—  r˜  r™  r›  r$   ))rz   rN   rE   rè   r'   r«  r@   rA   rB   rC   r/  r.  r¬  r­  r®  r0  r{   rK   Ú
batch_sizeÚ
seq_lengthr;  Úpast_key_values_lengthÚseq_length_with_pastrÞ   Ú
num_imagesr*   Úimage_seq_lenÚimage_hidden_sizeÚtext_seq_lenÚimage_batch_sizeÚimage_sequence_lengthÚimage_hidden_shaperk  r(   Úall_hidden_statesÚall_self_attnsÚidxÚdecoder_layerÚcross_attn_blockrT  Úlayer_outputss)                                            r7   r‡   ÚIdeficsModel.forwardä  s_  € ð: &/Ñ%:×!Ò!À×@TÑ@Tˆà1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	à%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà˜Ð -°tÐ";×<ÜÐYÓZÐZà×&×&¨4¯=¯=¾YÜ×ÑØjôð ˆIàÑ Ø ×-Ñ-¨iÓ8ˆMô ˜/¬D°«J¼Ð+>×?Ñ?ÜÐaÓbÐbæ˜Ñ0Ü*›nˆOà$1×$7Ñ$7Ñ!ˆ
J ØETÑE` ×!?Ñ!?Ô!AÐfgÐØ)Ð,BÑBÐàÑ!Ü"Ÿ\š\Ø&Ð(>À×ATÑATÐUVÑAWÑ(WÐ`m×`tÑ`tñˆNð Ñ%¨,Ñ*>à)×.Ñ.Ó0×7Ñ7¸Ó;¸aÑ?ˆLØ×%Ñ% n¸Ñ&9¸1Ô=Ø'ª¨J¨;©<¨Ñ8‰LØÑ!Ø)×3Ñ3°AÓ6ˆLä LÐL`Ñ#aÓbÑ#a˜aT“	Ñ#aÑbÓcÐghÓhÜØqóð ð Ñ%Ø'Ÿ?™?°·±ÀF˜?ÐKˆLØ%1×%7Ñ%7¸¸Ð%;Ñ"ˆJ˜
Ø'×2Ñ2Ó4×9Ò9¸*ÀzÑ:QÐkÐT`×TfÑTfÐghÐgiÐTjÒkˆLð #'×"3Ñ"3Ø)ð #4ð #çÑñ  ð &Ñ1ØG_×GdÑGdÓGfÑDˆJ˜
 MÐ3DØ":×"=Ñ"=ÀDÇJÁJÐW]Ð"=Ð"^ÐØ"5×":Ñ":¸:È
Ñ;RÐTaÐctÓ"uÐà;‰;×$×$Ø#Ñ+Ø'+×'?Ñ'?Ð@SÓ'TÐ$Ø3G×3LÑ3LÈQÓ3OÐQe×QjÑQjÐklÓQmÐ0Ð0àK_×KdÑKdÓKfÑH
˜J¨Ð7HØ"6ÑØ!Ñ)Ø/B×/GÑ/GÈÓ/JÐL_×LdÑLdÐefÓLgÐ,ˆMÐ,äÐaÓbÐbà1×6Ñ6°zÀ:ÐP]ÑC]Ð_pÓqÐð ,×0Ñ0°Ó3ˆØ3×=Ñ=¸bÓAÐØ3×:Ñ:¸1¸aÀÀMÓRÐØ3×8Ñ8¸À\ÐS]Ð`mÑSmÓnÐàÑ*Ø9L×9QÑ9QÓ9SÑ6ÐÐ3°QØ"2Ð4IÐ!JÐØ#Ñ+Ü',§z¢zÐ2DÈVÑ'TÐ$Ø#'×#=Ñ#=Ð>RÓ#SÑ à#'Ð ð $8¸3Ñ#>×"CÑ"CÈÐ"CÐ"K×!OÑ!OÐVZ×V`ÑV`Ð!OÐ!a× jÑ jÐopÐ jÐ q×uÑuØó 
Ðð
 Ñ!Ü"ŸZšZØÐ1Ð2¼%¿*¹*È]×MaÑMañˆNð ×1Ñ1Ø¨>ÐL]ó
ˆð &ˆö #7™B¸DÐÞ0™°dˆä"+¨D¯K©KÖ"8ÑˆCÞ#Ø! mÐ%5Ñ5Ð!ð T×.Ñ.Ñ.°!Ó3Ø#'×#?Ñ#?ÀÀt×G`ÑG`Ñ@`Ñ#aÐ Ù*Ø!Ø"Ø'ð
ð *>Ø)=Ø&7Ø'Ø#'ñ
ð ñ
ð !(¨¡
á)Øð	à-Ø)Ø.Ø"3Ø#Ø-ñ	ð ñ	ˆMð *¨!Ñ,ˆMç Ð Ø =°Ñ#3Ð"5Ñ5’ñC #9ðF Ÿ	™	 -Ó0ˆö  Ø -Ð!1Ñ1Ðà1×6Ñ6°zÀ:È}Ð^oÓpÐä-Ø+Ø+Ø+Ø%Ø 3ñ
ð 	
ùòm cs   Ç:Vr    Úinput_tensorc           	      óæ  • U R                   R                  S:X  a  Ub  US:H  R                  5       (       a  U$ g U R                   R                  S:X  a,  [        U[        R
                  5      (       a  [        U5      nU$ Ub  UR                  5       OSnUb  UR                  OSnU R                   R                  S:X  a5  U(       d.  U(       d'  [        R                  " UUUU R                  S9(       a  g UR                  nUR                  S   n	U(       a  UR                  5       n
O5[        U[        R
                  5      (       a  UR                  S	   OXi-   S-   n
U R                  UU	U
UUUR                  S   S
9nU R                   R                  S:X  aZ  UbW  UR                   R"                  S;   a=  U(       d6  [        R$                  " U5      R&                  n[        R(                  " X¼5      nU$ )NÚflash_attention_2r4  Úflex_attentionr   Fr3  )r«  r¾  Úis_trainingr   r?   )Úsequence_lengthÚtarget_lengthrr   r0  r¼  )ÚcudaÚxpuÚnpu)r  r8  rb   r[   r1   r¦   r!   r³  Úis_compileabler   Ú_ignore_causal_mask_sdpar  rr   rG   Úget_max_cache_shapeÚ5_prepare_4d_causal_attention_mask_with_cache_positionrK   r²  ÚfinfoÚminÚ_unmask_unattended)rz   rE   rÎ  r0  r'   r.  Úpast_seen_tokensÚusing_compilable_cacherr   rÓ  rÔ  Úcausal_maskÚ	min_dtypes                r7   rº  Ú IdeficsModel._update_causal_mask®  sË  € ð ;‰;×+Ñ+Ð/BÓBØÑ)¨~ÀÑ/D×.IÑ.I×.KÑ.KØ%Ð%ØØ;‰;×+Ñ+Ð/?Ó?Ü˜.¬%¯,©,×7Ñ7Ü!<¸^Ó!LØ!Ð!ð
 @OÑ?Z˜?×9Ñ9Ô;Ð`aÐØCRÑC^ ×!?Ò!?ÐdiÐð ;‰;×+Ñ+¨vÓ5Ö>TÖ]nÜ%×>Ò>ØØ*Ø'7Ø ŸM™M÷	ð à×"Ñ"ˆØ&×,Ñ,¨QÑ/ˆÞ!Ø+×?Ñ?ÓA‰Mô ˜n¬e¯l©l×;Ñ;ð ×$Ñ$ RÒ(à%Ñ7¸!Ñ;ð ð ×PÑPØØ+Ø'ØØ)Ø#×)Ñ)¨!Ñ,ð Qð 
ˆð K‰K×,Ñ,°Ó6ØÑ*Ø×%Ñ%×*Ñ*Ð.DÓDÞ%ô
 Ÿš EÓ*×.Ñ.ˆIÜ0×CÒCÀKÓ[ˆKàÐr6   rÓ  rÔ  rr   r¼  c                 ó¶  • U b  U R                  5       S:X  a  U nU$ [        R                  " U5      R                  n[        R                  " X4XƒUR
                  S9nUS:w  a  [        R                  " USS9nU[        R                  " X$R
                  S9UR                  SS5      :„  -  nUSSSS2SS24   R                  USSS5      nU b‹  UR                  5       nU R                  S   n	USS2SS2SS2SU	24   U SS2SSSS24   R                  UR
                  5      -   n
U
S:H  n
USS2SS2SS2SU	24   R                  X¨5      USS2SS2SS2SU	24'   U$ )	a½  
Creates a causal 4D mask of shape `(batch_size, 1, query_length, key_value_length)` from a 2D mask of shape
`(batch_size, key_value_length)`, or if the input `attention_mask` is already 4D, do nothing.

Args:
    attention_mask (`torch.Tensor`):
        A 2D attention mask of shape `(batch_size, key_value_length)` or a 4D attention mask of shape
        `(batch_size, 1, query_length, key_value_length)`.
    sequence_length (`int`):
        The sequence length being processed.
    target_length (`int`):
        The target length: when generating with static cache, the mask should be as long as the static cache,
        to account for the 0 padding, the part of the cache that is not filled yet.
    dtype (`torch.dtype`):
        The dtype to use for the 4D attention mask.
    cache_position (`torch.Tensor`):
        Indices depicting the position of the input sequence tokens in the sequence.
    batch_size (`torch.Tensor`):
        Batch size.
Né   )Ú
fill_valuerr   rK   r   )Údiagonalr°  r?   r   )rÈ   r1   rÜ  rÝ  ÚfullrK   ÚtriurF   r9  Úexpandr   rG   rJ   rm  )rE   rÓ  rÔ  rr   r0  r¼  r{   rá  râ  Úmask_lengthÚpadding_masks              r7   rÛ  ÚBIdeficsModel._prepare_4d_causal_attention_mask_with_cache_positionò  s}  € ð> Ñ%¨.×*<Ñ*<Ó*>À!Ó*Cà(ˆKð* Ðô' Ÿš EÓ*×.Ñ.ˆIÜŸ*š*Ø Ð0¸YÐ\j×\qÑ\qñˆKð  !Ó#Ü#Ÿjšj¨¸qÑAØœ5Ÿ<š<¨×>SÑ>SÑTÐWe×WmÑWmÐnpÐrsÓWtÑtÑtˆKØ% d¨D²!²QÐ&6Ñ7×>Ñ>¸zÈ1ÈbÐRTÓUˆKØÑ)Ø)×/Ñ/Ó1Ø,×2Ñ2°2Ñ6Ø*ª1ªa²°L°[°LÐ+@ÑAÀNÒSTÐVZÐ\`ÒbcÐScÑDd×DgÑDgØ×&Ñ&óEñ  ð  ,¨qÑ0Ø5@ÂÂAÂqÈ,È;È,ÐAVÑ5W×5cÑ5cØ ó6šAšq¢! \ k \Ð1Ñ2ð Ðr6   )r  r˜  rŠ  r™  rš  r‹  r—  r›  rs   r“  r  rŒ  r‡  rZ   )NNNNNNNNNNNNFNN©F) r,   r-   r.   r/   r0   r   rv   r  r‰  r¤  r   r   r   r1   rE  r¦   r   r2   rŽ   r   r   r   r4   r$   r‡   rº  Ústaticmethodr¥   rr   rÛ  r5   r   r‘   s   @r7   r„  r„  ˜  so  ø† ñð0,˜}÷ 0,ôdfð 46ô Fð 68ô Mð Øð 15Ø15Ø37Ø+/Ø59Ø48Ø@DØ<@Ø7;Ø$(Ø,0Ø/3Ø38Ø&*Ø59ñ!E
à˜E×,Ñ,Ñ-ðE
ð ! §¡Ñ.ðE
ð ˜u×/Ñ/Ñ0ð	E
ð
 " %™ðE
ð   × 1Ñ 1Ñ2ðE
ð ˜u×0Ñ0Ñ1ðE
ð #+¨5×+<Ñ+<Ñ"=ðE
ð ' u×'8Ñ'8Ñ9ðE
ð ' u§|¡|Ñ4ðE
ð ˜D‘>ðE
ð $ D™>ðE
ð ' t™nðE
ð #+¨4¡.ðE
ð ˜d‘^ðE
ð  ! ×!1Ñ!1Ñ2ð!E
ð" Ð-Ñ.ð#E
ð$ 
ˆuÐ4Ð4Ñ	5ô%E
ó ó ðE
ð\ #(ñBà˜eŸl™l¨KÐ7Ñ8ðBð —l‘lðBð Ÿ™ð	Bð
 ðBð  õBðH ð4ØŸ™ð4àð4ð ð4ð {‰{ð	4ð
 Ÿ™ð4ð ó4ó ö4r6   r„  c            )       ód  ^ • \ rS rSrSS/rS!U 4S jjrS rS rS r\	\
                S"S\\R                     S	\\R                     S
\\R                     S\\   S\\R                      S\\R                      S\\R                      S\\R                      S\\R                     S\\R                     S\\   S\\   S\\   S\\   S\\   S\\R                     S\\   S\\\4   4$S jj5       5       r         S#U 4S jjr S$S\S\\\4   S\S\\\4   4U 4S jjjrS rU =r$ )%ÚIdeficsForVisionText2Texti+  zmodel.embed_tokens.weightzlm_head.weightc                 óØ   >• [         TU ]  U5        [        U5      U l        [	        UR
                  UR                  UR                  SUR                  S9U l	        U R                  5         g )NFr£   )ru   rv   r„  rd   r“   r­   r‡  rˆ  Úfreeze_lm_headÚlm_headrœ  )rz   r  rŒ  r|   s      €r7   rv   Ú"IdeficsForVisionText2Text.__init__.  s[   ø€ Ü‰Ñ˜Ô Ü! &Ó)ˆŒ
ä-Ø×*Ñ*Ø×*Ñ*Ø$*×$@Ñ$@ØØ#×2Ñ2ñ
ˆŒð 	‰Õr6   c                 ó   • Xl         g rZ   ©rd   )rz   Údecoders     r7   Úset_decoderÚ%IdeficsForVisionText2Text.set_decoder=  s   € Ø
r6   c                 ó   • U R                   $ rZ   r÷  r‹   s    r7   Úget_decoderÚ%IdeficsForVisionText2Text.get_decoder@  s   € Øz‰zÐr6   c                 ó  • U R                  5       nU R                  5       n[        U R                  SS5      (       ab  UR                  Ul        UR
                  S:”  aA  UR                  UR
                  :X  d   eUR                  R                  UR                  l        [        US5      (       aY  [        US5      (       aG  UR                  Ul        [        US5      (       a$  [        US5      (       a  UR
                  Ul        ggggg)	z‘
Overwrite `transformers.modeling_utils.PreTrainedModel.tie_weights` to handle the case of
IdeficsDecoupledLinear and IdeficsDecoupledEmbedding.
Útie_word_embeddingsTr   r•   rp   r–   rw   N)Úget_output_embeddingsÚget_input_embeddingsÚgetattrr  rx   rw   r–   ry   r™   r  rp   r•   )rz   Úoutput_embeddingsÚinput_embeddingss      r7   Útie_weightsÚ%IdeficsForVisionText2Text.tie_weightsC  sû   € ð
 !×6Ñ6Ó8ÐØ×4Ñ4Ó6Ðä4—;‘;Ð 5°t×<Ñ<Ø'7×'>Ñ'>ÐÔ$Ø×9Ñ9¸AÓ=Ø(×@Ñ@ÐDT×DnÑDnÓnÐnÐnØ9I×9^Ñ9^×9eÑ9eÐ!×/Ñ/Ô6äÐ$ n×5Ñ5¼'ÐBRÐTd×:eÑ:eØ-=×-LÑ-LÐÔ*ÜÐ(Ð*C×DÑDÌØ Ð"=÷Jñ Jð =M×<fÑ<fÐ!Õ9ðJÐDð ;fÐ5r6   rN   rE   rè   r'   r«  r@   rA   rB   rC   Úlabelsr/  r.  r¬  r­  r®  r0  r{   rn   c                 óÜ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R                  " SUUUUUUUUU	UUUUSUS.UD6nUS   nU R                  U5      nSnU
b)  U R                  " SUX R                   R                  S.UD6n[        UUUR                  UR                  UR                  UR                  S9$ )aK  
image_encoder_embeddings (`torch.FloatTensor`, *optional*):
    The output of the image encoder.
perceiver_embeddings (`torch.FloatTensor`, *optional*):
    The output of the perceiver resampler.
image_attention_mask (`torch.LongTensor`, *optional*):
    The attention mask for the image encoder.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>>> from transformers import AutoProcessor, IdeficsForVisionText2Text

>>> model = IdeficsForVisionText2Text.from_pretrained("HuggingFaceM4/idefics-9b")
>>> processor = AutoProcessor.from_pretrained("HuggingFaceM4/idefics-9b")

>>> dogs_image_url_1 = "https://huggingface.co/datasets/hf-internal-testing/fixtures_nlvr2/raw/main/image1.jpeg"
>>> dogs_image_url_2 = "https://huggingface.co/datasets/hf-internal-testing/fixtures_nlvr2/raw/main/image2.jpeg"

>>> prompts = [
...     [
...         "User:",
...         dogs_image_url_1,
...         "Describe this image.\nAssistant: An image of two dogs.\n",
...         "User:",
...         dogs_image_url_2,
...         "Describe this image.\nAssistant:",
...     ]
... ]
>>> inputs = processor(prompts, return_tensors="pt")
>>> generate_ids = model.generate(**inputs, max_new_tokens=6)
>>> processor.batch_decode(generate_ids, skip_special_tokens=True)
```NT)rN   rE   rè   r'   r«  r@   rA   rB   rC   r/  r.  r¬  r­  r®  r0  r   )r<   r  r‡  )r;   r<   r'   r(   r)   r*   r+   )r  r.  r¬  r±  rd   rô  Úloss_functionr‡  r9   r'   r(   r)   r*   )rz   rN   rE   rè   r'   r«  r@   rA   rB   rC   r  r/  r.  r¬  r­  r®  r0  r{   rT  r(   r<   r;   s                         r7   r‡   Ú!IdeficsForVisionText2Text.forwardX  s  € ðx 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*’*ð 
ØØ)Ø%Ø+Ø'Ø%Ø%=Ø!5Ø!5ØØ/Ø!5Ø%=ØØ)ñ
ð  ñ!
ˆð&   ™
ˆØ—‘˜mÓ,ˆàˆØÑØ×%Ò%Ðp¨V¸FÏ{É{×OeÑOeÑpÐioÑpˆDä,ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø '× ;Ñ ;ñ
ð 	
r6   c                 ó  >• 0 nUb%  U R                   R                  (       a  XŒS'   O	XŒS'   OX|S'   UR                  SS5      US'   [        TU ]  " U4UUUUUU
U	S.UDUD6nU	b$  Uc!  US   R
                  S   nU	S S 2U* S 24   US	'   U$ )
NrB   rA   r@   r­  F)r'   rE   r«  r0  rè   r/  rC   rN   r   rC   )r  r  Úpopru   Úprepare_inputs_for_generationrG   )rz   rN   rE   rè   r«  r'   r0  r@   r*   rC   r/  r{   Úimages_kwargsÚmodel_inputsr½  r|   s                  €r7   r  Ú7IdeficsForVisionText2Text.prepare_inputs_for_generation¾  sÏ   ø€ ð  ˆØÑ*Ø{‰{×(×(Ø8KÐ4Ò5à<OÐ8Ò9à,8˜.Ñ)Ø4:·J±JÐ?YÐ[`Ó4aˆÐ0Ñ1ä‘wÒ<Øð
à+Ø)Ø'Ø)Ø%ØØ!5ñ
ð ð
ð ñ
ˆð  Ñ+°Ñ0EØ% kÑ2×8Ñ8¸Ñ;ˆJØ3GÊÈJÈ;É<ÈÑ3XˆLÐ/Ñ0àÐr6   rT  rR   rP   c                 ó  >• [         TU ]  " UUU40 UD6nSU;   aU  US   nUS S 2SS S 24   R                  S5      nUR                  SS5      (       a  XbS'   O[        R
                  " XV/SS9US'   UR                  US'   U$ )NrC   r?   r   r/  TrÒ   r*   )ru   Ú#_update_model_kwargs_for_generationrå   rM   r1   rž   r*   )rz   rT  rR   rP   r{   rC   Ú	last_maskr|   s          €r7   r  Ú=IdeficsForVisionText2Text._update_model_kwargs_for_generationë  s¨   ø€ ô ‘wÒBØØØñ
ð ñ	
ˆð " \Ó1Ø#/Ð0FÑ#GÐ Ø,ªQ°²A¨XÑ6×@Ñ@ÀÓCˆIØ×Ñ ¨T×2Ñ2Ø7@Ð3Ò4ä7<·y²yÐBVÐAbÐhiÑ7jÐ3Ñ4ð /6×.IÑ.IˆÐ*Ñ+ØÐr6   )rô  rd   rZ   )NNNNNNNNNNNNNFNN)	NNNNNNNNNrî  ) r,   r-   r.   r/   Ú_tied_weights_keysrv   rù  rü  r  r   r   r   r1   rE  r¦   r   r2   rŽ   r   r   r   r4   r9   r‡   r  r   Údictr   r   r  r5   r   r‘   s   @r7   rñ  rñ  +  s4  ø† Ø5Ð7GÐHÐ÷òòògð* Øð 15Ø15Ø37Ø+/Ø59Ø48Ø@DØ<@Ø7;Ø-1Ø$(Ø,0Ø/3Ø38Ø&*Ø59ñ#b
à˜E×,Ñ,Ñ-ðb
ð ! §¡Ñ.ðb
ð ˜u×/Ñ/Ñ0ð	b
ð
 " %™ðb
ð   × 1Ñ 1Ñ2ðb
ð ˜u×0Ñ0Ñ1ðb
ð #+¨5×+<Ñ+<Ñ"=ðb
ð ' u×'8Ñ'8Ñ9ðb
ð ' u§|¡|Ñ4ðb
ð ˜×)Ñ)Ñ*ðb
ð ˜D‘>ðb
ð $ D™>ðb
ð ' t™nðb
ð #+¨4¡.ðb
ð  ˜d‘^ð!b
ð" ! ×!1Ñ!1Ñ2ð#b
ð$ Ð+Ñ,ð%b
ð& 
ˆuÐ3Ð3Ñ	4ô'b
ó ó ðb
ðN ØØØØØØ Ø!Ø÷+ðb $)ñ	àðð ˜3 ˜8‘nðð !ð	ð 
ˆc3ˆh‰÷ö r6   rñ  )rñ  r„  rp  )r   FNN)r   )r4  )Or0   Údataclassesr   Útypingr   r   r   r   r1   Útorch.nn.functionalr   r  r   Útorch.utils.checkpointÚactivationsr
   Úcache_utilsr   r   Ú
generationr   Úmodeling_attn_mask_utilsr   Úmodeling_flash_attention_utilsr   Úmodeling_layersr   Úmodeling_outputsr   Úmodeling_utilsr   r   r   Úprocessing_utilsr   Úutilsr   r   r   r   r   Úconfiguration_ideficsr   Ú	perceiverr   Úvisionr   r   Ú!torch.nn.attention.flex_attentionr    Úintegrations.flex_attentionr!   Ú
get_loggerr,   r  r$   r9   rT   ri   rX   rk   rW   r“   ÚModuler¨   r¾   rã   rì   rî   r¦   rÌ   r  r  rG  rW  rp  r„  rñ  Ú__all__r+   r6   r7   Ú<module>r-     sI  ðñ( å !ß 1Ó 1ã ß Ð Û Ý å !ß .Ý )Ý >Ý BÝ 9Ý +ß XÑ XÝ &ß pÕ pÝ 0Ý 0ß Eñ  ×!Ñ!Ý;åJð 
×	Ò	˜HÓ	%€ð Ùðñô
C [ó Cóó ðCð< Ùðñô
C Kó Cóó ðCð: ØØØô*#ðZ +-ô ôfA §¡ô fAôR8S˜RŸY™Yô 8SôxJR—Y‘Yô Jô0$
u—x‘x—‘ô $
òN(ôô:P—‘ô Pð2 ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô0a)r—y‘yô a)ôJKÐ4ô Kô\KÐ&@ô Kð\ ô**˜_ó **ó ð**ðZ ôOÐ)ó Oó ðOôdXÐ 6¸ô Xòv Rr6   