ó
    <±h"U  ã                   ób  • S r SSKrSSKJr  SSKJrJrJr  SSKrSSK	rSSKJ
r
  SSKJr  SSKJr  SS	KJrJr  SS
KJr  SSKJrJrJr  SSKJr  \R4                  " \5      r\ " S S\5      5       r " S S\
R<                  5      r S$S\
R<                  S\R@                  S\R@                  S\R@                  S\\R@                     S\!S\!4S jjr" " S S\
R<                  5      r# " S S\
R<                  5      r$ " S S\5      r% " S  S!\
R<                  5      r& " S" S#\
R<                  5      r'g)%zTPyTorch IdeficsVision model: a copy of CLIPVisionModel using a simpler config objecté    N)Ú	dataclass)ÚCallableÚOptionalÚUnion)Únné   )ÚACT2FN)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPooling)ÚALL_ATTENTION_FUNCTIONS)ÚModelOutputÚcan_return_tupleÚloggingé   )ÚIdeficsVisionConfigc                   óÎ   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\\R                  S4      \	S'   Sr\\\R                  S4      \	S'   S	rg)
ÚIdeficsVisionModelOutputé(   a  
Base class for vision model's outputs that also contains image embeddings of the pooling of the last hidden states.

Args:
    image_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim)` *optional* returned when model is initialized with `with_projection=True`):
        The image embeddings obtained by applying the projection layer to the pooler_output.
    last_hidden_state (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
        Sequence of hidden-states at the output of the last layer of the model.
    hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
        Tuple of `torch.FloatTensor` (one for the output of the embeddings, if the model has an embedding layer, +
        one for the output of each layer) of shape `(batch_size, sequence_length, hidden_size)`.

        Hidden-states of the model at the output of each layer plus the optional initial embedding outputs.
    attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
        Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_heads, sequence_length,
        sequence_length)`.

        Attentions weights after the attention softmax, used to compute the weighted average in the self-attention
        heads.
NÚimage_embedsÚlast_hidden_state.Úhidden_statesÚ
attentions© )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   r   ÚtorchÚFloatTensorÚ__annotations__r   r   Útupler   Ú__static_attributes__r   ó    ÚZ/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/idefics/vision.pyr   r   (   sr   ‡ ñð* 15€L(˜5×,Ñ,Ñ-Ó4Ø59Ðx × 1Ñ 1Ñ2Ó9Ø=A€M8˜E %×"3Ñ"3°SÐ"8Ñ9Ñ:ÓAØ:>€J˜˜u×0Ñ0°#Ð5Ñ6Ñ7Ö>r%   r   c                   ó´   ^ • \ rS rSrS\4U 4S jjrS\R                  S\S\S\R                  4S jr	SS	\R                  S
\S\R                  4S jjrSrU =r$ )ÚIdeficsVisionEmbeddingséF   Úconfigc                 óÖ  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        UR                  U l        [        R                  " [        R                  " U R                  5      5      U l        [        R                  " UR                  U R                  U R                  U R                  SS9U l        U R
                  U R                  -  S-  U l        U R                  S-   U l        [        R"                  " U R                   U R                  5      U l        U R'                  S[        R(                  " U R                   5      R+                  S5      SS9  g )NF)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚbiasé   r   Úposition_ids)r   éÿÿÿÿ)Ú
persistent)ÚsuperÚ__init__r*   Úhidden_sizeÚ	embed_dimÚ
image_sizeÚ
patch_sizer   Ú	Parameterr    ÚrandnÚclass_embeddingÚConv2dÚnum_channelsÚpatch_embeddingÚnum_patchesÚnum_positionsÚ	EmbeddingÚposition_embeddingÚregister_bufferÚarangeÚexpand©Úselfr*   Ú	__class__s     €r&   r6   Ú IdeficsVisionEmbeddings.__init__G   s  ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ ×+Ñ+ˆŒØ ×+Ñ+ˆŒä!Ÿ|š|¬E¯KªK¸¿¹Ó,GÓHˆÔä!ŸyšyØ×+Ñ+ØŸ™ØŸ™Ø—?‘?Øñ 
ˆÔð !ŸO™O¨t¯©Ñ>À1ÑDˆÔØ!×-Ñ-°Ñ1ˆÔÜ"$§,¢,¨t×/AÑ/AÀ4Ç>Á>Ó"RˆÔØ×Ñ˜^¬U¯\ª\¸$×:LÑ:LÓ-M×-TÑ-TÐU\Ó-]ÐjoÐÒpr%   Ú
embeddingsÚheightÚwidthÚreturnc                 óÂ  • UR                   S   S-
  nU R                  U R                  5      nUR                   S   S-
  nXF:X  a  X#:X  a  U$ USS2S4   nUSS2SS24   nUR                   S   n	X R                  R                  -  n
X0R                  R                  -  nU
S-   US-   pº[
        R                  " U5      nUR                  S[        U5      [        U5      U	5      nUR                  SSSS5      nUR                  [        R                  :H  nU(       a4  [        R                  S5        UR                  [        R                   5      n["        R$                  R'                  UX¬-  X¼-  4S	S
S9nU(       a  UR                  [        R                  5      n[        U
5      UR                   S   :w  d  [        U5      UR                   S   :w  aB  [)        S[        U
5      [        U5      4 SUR                   S   UR                   S   4 S35      eUR                  SSSS5      R+                  SSU	5      n[        R,                  " UR/                  S5      U4SS9$ )zû
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher
resolution images.

Source:
https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174
r   Nr   r3   gš™™™™™¹?r   r1   zËUpcasting patch_pos_embed to fp32 for interpolation since `upsample_bicubic2d_out_frame` in nn.functional.interpolate is not implemented for 'torch.bfloat16' dtype. This will result in a slight overhead.ÚbicubicF)Úscale_factorÚmodeÚalign_cornerséþÿÿÿzNumber of patches for images (z/) don't match the shape of position embedding (Ú)©Údim)ÚshaperD   r2   r*   r:   ÚmathÚsqrtÚreshapeÚintÚpermuteÚdtyper    Úbfloat16ÚloggerÚwarning_onceÚtoÚfloatr   Ú
functionalÚinterpolateÚ
ValueErrorÚviewÚcatÚ	unsqueeze)rI   rL   rM   rN   rA   Ú	pos_embedrB   Úclass_pos_embedÚpatch_pos_embedr8   Únum_h_patchesÚnum_w_patchesÚsqrt_num_positionsÚfp32_upcastings                 r&   Úinterpolate_pos_encodingÚ0IdeficsVisionEmbeddings.interpolate_pos_encoding^   sV  € ð !×&Ñ& qÑ)¨AÑ-ˆØ×+Ñ+¨D×,=Ñ,=Ó>ˆ	Ø!Ÿ™¨Ñ*¨QÑ.ˆØÓ'¨F«OØÐØ#¢A q D™/ˆØ#¢A q¡r EÑ*ˆà×$Ñ$ RÑ(ˆ	Ø§+¡+×"8Ñ"8Ñ8ˆØ§¡×!7Ñ!7Ñ7ˆð (5°sÑ':¸MÈCÑ<O}Ü!ŸYšY }Ó5ÐØ)×1Ñ1°!´SÐ9KÓ5LÌcÐRdÓNeÐgpÓqˆØ)×1Ñ1°!°Q¸¸1Ó=ˆØ(×.Ñ.´%·.±.Ñ@ˆÞÜ×Ñðhôð .×0Ñ0´·±Ó=ˆOÜŸ-™-×3Ñ3ØØ'Ñ<¸mÑ>`ÐaØØð	 4ð 
ˆö Ø-×0Ñ0´·±Ó@ˆOÜˆ}Ó ×!6Ñ!6°rÑ!:Ó:¼cÀ-Ó>PÐTc×TiÑTiÐjlÑTmÓ>mÜØ0´°]Ó1CÄSÈÓEWÐ1WÐ0Xð Y0Ø0?×0EÑ0EÀbÑ0IÈ?×K`ÑK`ÐacÑKdÐ0dÐ/eÐefðhóð ð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ)ÓTˆÜyŠy˜/×3Ñ3°AÓ6¸ÐHÈaÑPÐPr%   Úpixel_valuesrr   c                 ó^  • UR                   u  p4pVU(       dJ  XPR                  :w  d  X`R                  :w  a,  [        SU SU SU R                   SU R                   S3	5      eU R                  R                  R
                  nU R                  UR                  US95      nUR                  S5      R                  SS5      nU R                  R                  USS5      n	[        R                  " X˜/SS	9n
U(       a  X R                  X¥U5      -   n
U
$ X R                  U R                  5      -   n
U
$ )
NzInput image size (Ú*z) doesn't match model (z8). You should try to set `interpolate_pos_encoding=True`)r_   r1   r   r3   rW   )rY   r9   rg   r@   Úweightr_   rc   ÚflattenÚ	transposer=   rG   r    ri   rr   rD   r2   )rI   rt   rr   Ú
batch_sizer?   rM   rN   Útarget_dtypeÚpatch_embedsÚclass_embedsrL   s              r&   ÚforwardÚIdeficsVisionEmbeddings.forward   s'  € Ø2>×2DÑ2DÑ/ˆ
 &Þ'ØŸ™Ó(¨E·_±_Ó,DÜ Ø(¨¨°°%°ð 9ØŸ™Ð)¨¨4¯?©?Ð*;Ð;sðuóð ð
 ×+Ñ+×2Ñ2×8Ñ8ˆØ×+Ñ+¨L¯O©OÀ,¨OÐ,OÓPˆà#×+Ñ+¨AÓ.×8Ñ8¸¸AÓ>ˆà×+Ñ+×2Ñ2°:¸qÀ"ÓEˆÜ—Y’Y Ð;ÀÑCˆ
ö $Ø#×&CÑ&CÀJÐX]Ó&^Ñ^ˆJð Ðð $×&=Ñ&=¸d×>OÑ>OÓ&PÑPˆJàÐr%   )	r=   r*   r8   r9   rA   rB   r@   r:   rD   ©F)r   r   r   r   r   r6   r    ÚTensorr]   rr   r!   Úboolr~   r$   Ú__classcell__©rJ   s   @r&   r(   r(   F   sr   ø† ðqÐ2÷ qð./Q°5·<±<ð /QÈð /QÐUXð /QÐ]b×]iÑ]iô /Qñb E×$5Ñ$5ð ÐQUð Ðbg×bnÑbn÷ ó r%   r(   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutc                 ó°  • [         R                  " XR                  SS5      5      U-  nUb  X„-   n[        R                  R                  US[         R                  S9R                  UR                  5      n[        R                  R                  X†U R                  S9n[         R                  " Xƒ5      n	U	R                  SS5      R                  5       n	X˜4$ )Nr3   rU   )rX   r_   )ÚpÚtrainingr   r1   )r    Úmatmulry   r   re   ÚsoftmaxÚfloat32rc   r_   r‹   rŽ   Ú
contiguous)
r…   r†   r‡   rˆ   r‰   rŠ   r‹   ÚkwargsÚattn_weightsÚattn_outputs
             r&   Úeager_attention_forwardr–   ª   s°   € ô —<’< §}¡}°R¸Ó'<Ó=ÀÑG€LØÑ!Ø#Ñ4ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€Lä—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r%   c                   óâ   ^ • \ rS rSrSrS\4U 4S jjr   SS\R                  S\	\R                     S\	\R                     S\	\
   S	\\R                  \	\R                     4   4
S
 jjrSrU =r$ )ÚIdeficsVisionAttentionéÁ   z=Multi-headed attention from 'Attention Is All You Need' paperr*   c                 ó   >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        U R                  U R                  -  U l        U R                  U R                  -  U R                  :w  a&  [        SU R                   SU R                   S35      eU R                  S-  U l	        UR                  U l        SU l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).g      à¿F)r5   r6   r*   r7   r8   Únum_attention_headsÚ	num_headsÚhead_dimrg   ÚscaleÚattention_dropoutr‹   Ú	is_causalr   ÚLinearÚk_projÚv_projÚq_projÚout_projrH   s     €r&   r6   ÚIdeficsVisionAttention.__init__Ä   s  ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒØ=‰=˜4Ÿ>™>Ñ)¨T¯^©^Ó;ÜØMÈdÏnÉnÐM]ð ^Ø—N‘NÐ# 2ð'óð ð —]‘] DÑ(ˆŒ
Ø×/Ñ/ˆŒØˆŒä—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜŸ	š	 $§.¡.°$·.±.ÓAˆr%   r   r‰   Úcausal_attention_maskÚoutput_attentionsrO   c                 ó  • UR                   u  pVnU R                  U5      nU R                  U5      n	U R                  U5      n
UR	                  XVU R
                  U R                  5      R                  SS5      nU	R	                  XVU R
                  U R                  5      R                  SS5      n	U
R	                  XVU R
                  U R                  5      R                  SS5      n
U R                  R                  S:w  a  Ub  Ub  X#-   nOUb  UnO	USLU l
        [        nU R                  R                  S:w  aT  U R                  R                  S:X  a  U(       a  [        R                  S5        O[        U R                  R                     nU" U UU	U
UU R                  U R                  U R                   (       d  SOU R"                  S	9u  pÍUR%                  XVU5      R'                  5       nU R)                  U5      nU(       d  SnXÍ4$ )
z#Input shape: Batch x Time x Channelr   r1   Úflash_attention_2NÚeagerÚsdpazã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.ç        )r    rŠ   r‹   )rY   r¤   r¢   r£   rh   rœ   r   ry   r*   Ú_attn_implementationr    r–   ra   rb   r   rž   rŽ   r‹   r\   r’   r¥   )rI   r   r‰   r§   r¨   rz   Ú
seq_lengthr8   ÚqueriesÚkeysÚvaluesÚattention_interfacer•   r”   s                 r&   r~   ÚIdeficsVisionAttention.forwardØ   sÇ  € ð -:×,?Ñ,?Ñ)ˆ
 	à—+‘+˜mÓ,ˆØ{‰{˜=Ó)ˆØ—‘˜]Ó+ˆà—,‘,˜z°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØy‰y˜°·±ÀÇÁÓO×YÑYÐZ[Ð]^Ó_ˆØ—‘˜Z°T·^±^ÀTÇ]Á]ÓS×]Ñ]Ð^_ÐabÓcˆð ;‰;×+Ñ+Ð/BÓBØÑ)Ð.CÑ.OØ!/Ñ!G‘Ø&Ñ2Ø!6øà2¸$Ð>ˆDŒNä(?ÐØ;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9Ö>OÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#á$7ØØØØØØ—n‘nØ—J‘JØ#Ÿ}Ÿ}‘C°$·,±,ñ	%
Ñ!ˆð "×)Ñ)¨*À)ÓL×WÑWÓYˆØ—m‘m KÓ0ˆÞ ØˆLØÐ(Ð(r%   )r*   r‹   r8   r   r    r¢   rœ   r¥   r¤   rž   r£   )NNF)r   r   r   r   r   r   r6   r    r   r   r‚   r#   r~   r$   rƒ   r„   s   @r&   r˜   r˜   Á   s‹   ø† ÙGðBÐ2÷ Bð. 26Ø8<Ø,1ñ5)à—|‘|ð5)ð ! §¡Ñ.ð5)ð  (¨¯©Ñ5ð	5)ð
 $ D™>ð5)ð 
ˆu|‰|˜X e§l¡lÑ3Ð3Ñ	4÷5)ó 5)r%   r˜   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚIdeficsVisionMLPi  c                 ó  >• [         TU ]  5         Xl        [        UR                     U l        [        R                  " UR                  UR                  5      U l
        [        R                  " UR                  UR                  5      U l        g ©N)r5   r6   r*   r	   Ú
hidden_actÚactivation_fnr   r¡   r7   Úintermediate_sizeÚfc1Úfc2rH   s     €r&   r6   ÚIdeficsVisionMLP.__init__  sb   ø€ Ü‰ÑÔØŒÜ# F×$5Ñ$5Ñ6ˆÔÜ—9’9˜V×/Ñ/°×1IÑ1IÓJˆŒÜ—9’9˜V×5Ñ5°v×7IÑ7IÓJˆr%   r   rO   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ r¸   )r¼   rº   r½   )rI   r   s     r&   r~   ÚIdeficsVisionMLP.forward  s4   € ØŸ™ Ó/ˆØ×*Ñ*¨=Ó9ˆØŸ™ Ó/ˆØÐr%   )rº   r*   r¼   r½   )
r   r   r   r   r6   r    r   r~   r$   rƒ   r„   s   @r&   r¶   r¶     s)   ø† õKð U§\¡\ð °e·l±l÷ ò r%   r¶   c                   ó°   ^ • \ rS rSrS\4U 4S jjr SS\R                  S\R                  S\R                  S\\	   S\
\R                     4
S	 jjrS
rU =r$ )ÚIdeficsVisionEncoderLayeri!  r*   c                 ó<  >• [         TU ]  5         UR                  U l        [	        U5      U l        [        R                  " U R                  UR                  S9U l	        [        U5      U l        [        R                  " U R                  UR                  S9U l        g ©N)Úeps)r5   r6   r7   r8   r˜   Ú	self_attnr   Ú	LayerNormÚlayer_norm_epsÚlayer_norm1r¶   ÚmlpÚlayer_norm2rH   s     €r&   r6   Ú"IdeficsVisionEncoderLayer.__init__"  sm   ø€ Ü‰ÑÔØ×+Ñ+ˆŒÜ/°Ó7ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÔÜ# FÓ+ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÕr%   r   r‰   r§   r¨   rO   c                 óÊ   • UnU R                  U5      nU R                  UUUUS9u  pXQ-   nUnU R                  U5      nU R                  U5      nXQ-   nU4nU(       a  Xv4-  nU$ )a  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
        `(config.encoder_attention_heads,)`.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)r   r‰   r§   r¨   )rÉ   rÆ   rË   rÊ   )rI   r   r‰   r§   r¨   Úresidualr”   Úoutputss           r&   r~   Ú!IdeficsVisionEncoderLayer.forward*  sŠ   € ð" !ˆà×(Ñ(¨Ó7ˆØ&*§n¡nØ'Ø)Ø"7Ø/ð	 '5ð '
Ñ#ˆð !Ñ0ˆà ˆØ×(Ñ(¨Ó7ˆØŸ™ Ó/ˆØ Ñ0ˆà Ð"ˆæØÑ&ˆGàˆr%   )r8   rÉ   rË   rÊ   rÆ   r€   )r   r   r   r   r   r6   r    r   r   r‚   r#   r!   r~   r$   rƒ   r„   s   @r&   rÂ   rÂ   !  sl   ø† ðSÐ2÷ Sð -2ñ&à—|‘|ð&ð Ÿ™ð&ð  %Ÿ|™|ð	&ð
 $ D™>ð&ð 
ˆu× Ñ Ñ	!÷&ó &r%   rÂ   c                   ó¾   ^ • \ rS rSrSrS\4U 4S jjr\     SS\\	R                     S\\	R                     S\\   S\\   S	\\   S
\\\4   4S jj5       rSrU =r$ )ÚIdeficsVisionEncoderiT  z«
Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a
[`IdeficsVisionEncoderLayer`].

Args:
    config: IdeficsVisionConfig
r*   c                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf )NF)
r5   r6   r*   r   Ú
ModuleListÚrangeÚnum_hidden_layersrÂ   ÚlayersÚgradient_checkpointing)rI   r*   Ú_rJ   s      €r&   r6   ÚIdeficsVisionEncoder.__init__]  sU   ø€ Ü‰ÑÔØŒÜ—m’mÔPUÐV\×VnÑVnÔPoÓ$pÑPoÈ1Ô%>¸vÖ%FÑPoÑ$pÓqˆŒØ&+ˆÕ#ùò %qs   ½A%r‰   r§   r¨   Úoutput_hidden_statesÚreturn_dictrO   c                 ó’  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU(       a  SOSnU(       a  SOSnUn	[	        U R
                  5       H0  u  p«U(       a  Xy4-   nU" U	UUUS9nUS   n	U(       d  M(  XŒS   4-   nM2     U(       a  Xy4-   n[        X—US9$ )a  
Args:
    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
        Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.
        This is useful if you want more control over how to convert `input_ids` indices into associated vectors
        than the model's internal embedding lookup matrix.
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    causal_attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Causal mask for the text model. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
Nr   )r¨   r   r   )r   r   r   )r*   r¨   rÛ   Úuse_return_dictÚ	enumerater×   r   )rI   Úinputs_embedsr‰   r§   r¨   rÛ   rÜ   Úencoder_statesÚall_attentionsr   ÚidxÚencoder_layerÚlayer_outputss                r&   r~   ÚIdeficsVisionEncoder.forwardc  sé   € ðN 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆæ3™¸ˆÞ0™°dˆà%ˆÜ"+¨D¯K©KÖ"8ÑˆCÞ#Ø!/Ð2BÑ!BÙ)ØØØ%Ø"3ñ	ˆMð *¨!Ñ,ˆMç Ð Ø!/ÀÑ3CÐ2EÑ!E’ñ #9ö  Ø+Ð.>Ñ>ˆNäØ+ÐVdñ
ð 	
r%   )r*   rØ   r×   )NNNNN)r   r   r   r   r   r   r6   r   r   r    r   r‚   r   r#   r   r~   r$   rƒ   r„   s   @r&   rÒ   rÒ   T  s¦   ø† ñð,Ð2÷ ,ð ð 26Ø8<Ø,0Ø/3Ø&*ñD
ð ! §¡Ñ.ðD
ð  (¨¯©Ñ5ð	D
ð
 $ D™>ðD
ð ' t™nðD
ð ˜d‘^ðD
ð 
ˆuoÐ%Ñ	&ôD
ó öD
r%   rÒ   c                   óœ   ^ • \ rS rSrS\4U 4S jjr     SS\\R                     S\\	   S\\	   S\\	   S\\	   S	\
\\4   4S
 jjrSrU =r$ )ÚIdeficsVisionTransformeri¬  r*   c                 ó  >• [         TU ]  5         Xl        UR                  n[	        U5      U l        [        R                  " X!R                  S9U l	        [        U5      U l        [        R                  " X!R                  S9U l        g rÄ   )r5   r6   r*   r7   r(   rL   r   rÇ   rÈ   Úpre_layrnormrÒ   ÚencoderÚpost_layernorm)rI   r*   r8   rJ   s      €r&   r6   Ú!IdeficsVisionTransformer.__init__­  sd   ø€ Ü‰ÑÔØŒØ×&Ñ&ˆ	ä1°&Ó9ˆŒÜŸLšL¨×8MÑ8MÑNˆÔÜ+¨FÓ3ˆŒÜ Ÿlšl¨9×:OÑ:OÑPˆÕr%   rt   r¨   rÛ   rr   rÜ   rO   c                 óÈ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eU R                  XS9nU R                  U5      nU R                  UUUUS9nUS   nUSS2SSS24   n	U R                  U	5      n	U(       d	  X‰4USS -   $ [        UU	UR                  UR                  S9$ )z
Returns:

Nz You have to specify pixel_values)rr   )rà   r¨   rÛ   rÜ   r   r   )r   Úpooler_outputr   r   )r*   r¨   rÛ   rÞ   rg   rL   rê   rë   rì   r   r   r   )
rI   rt   r¨   rÛ   rr   rÜ   r   Úencoder_outputsr   Úpooled_outputs
             r&   r~   Ú IdeficsVisionTransformer.forward¸  s  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ?Ó@Ð@àŸ™¨˜ÐhˆØ×)Ñ)¨-Ó8ˆàŸ,™,Ø'Ø/Ø!5Ø#ð	 'ð 
ˆð ,¨AÑ.ÐØ)ª!¨Q²¨'Ñ2ˆØ×+Ñ+¨MÓ:ˆæØ%Ð5¸ÈÈÐ8KÑKÐKä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r%   )r*   rL   rë   rì   rê   )NNNFN)r   r   r   r   r   r6   r   r    r!   r‚   r   r#   r   r~   r$   rƒ   r„   s   @r&   rè   rè   ¬  s   ø† ðQÐ2÷ Qð 59Ø,0Ø/3Ø38Ø&*ñ+
à˜u×0Ñ0Ñ1ð+
ð $ D™>ð+
ð ' t™nð	+
ð
 #+¨4¡.ð+
ð ˜d‘^ð+
ð 
ˆuÐ0Ð0Ñ	1÷+
ó +
r%   rè   )r­   )(r   rZ   Údataclassesr   Útypingr   r   r   r    Útorch.utils.checkpointr   Úactivationsr	   Úmodeling_layersr
   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   r   Úconfiguration_ideficsr   Ú
get_loggerr   ra   r   ÚModuler(   r   rd   r–   r˜   r¶   rÂ   rÒ   rè   r   r%   r&   Ú<module>rþ      s4  ðñ [ã Ý !ß ,Ñ ,ã Û Ý å !Ý 9ß KÝ 5÷ñ õ
 7ð 
×	Ò	˜HÓ	%€ð ô?˜{ó ?ó ð?ô:`˜bŸi™iô `ðV ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô.L)˜RŸY™Yô L)ô`r—y‘yô ô /Ð :ô /ôfT
˜2Ÿ9™9ô T
ôp7
˜rŸy™yõ 7
r%   