ó
    <±h<r ã                   ó~  • S r SSKrSSKrSSKJr  SSKJr  SSKJrJrJ	r	  SSK
r
SSKr
SSK
Jr  SSKJr  SS	KJr  SS
KJrJr  SSKJrJrJr  SSKJrJrJrJr  SSKJrJrJ r J!r!J"r"  \RF                  " \$5      r%Sr&Sr'Sr(\	\"\ \!4   r)\\" SS9 " S S\5      5       5       r*\\" SS9 " S S\5      5       5       r+\\" SS9 " S S\5      5       5       r, " S S\RZ                  5      r. " S S\RZ                  5      r/ " S S \RZ                  5      r0 " S! S"\RZ                  5      r1 " S# S$\RZ                  5      r2 " S% S&\RZ                  5      r3 " S' S(\RZ                  5      r4 " S) S*\RZ                  5      r5 " S+ S,\5      r6 " S- S.\RZ                  5      r7 " S/ S0\RZ                  5      r8\ " S1 S2\5      5       r9\ " S3 S4\95      5       r:\ " S5 S6\95      5       r;\ " S7 S8\95      5       r<\ " S9 S:\95      5       r= " S; S<\RZ                  5      r> " S= S>\RZ                  5      r? " S? S@\RZ                  5      r@\" SAS9 " SB SC\95      5       rA " SD SE\RZ                  5      rB " SF SG\RZ                  5      rC " SH SI\RZ                  5      rD " SJ SK\RZ                  5      rE\" SLS9 " SM SN\95      5       rF/ SOQrGg)PzPyTorch FLAVA model.é    N)ÚOrderedDict)Ú	dataclass)ÚAnyÚOptionalÚUnion)Únné   )ÚACT2FN)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPooling)ÚPreTrainedModelÚ find_pruneable_heads_and_indicesÚprune_linear_layer)ÚModelOutputÚauto_docstringÚloggingÚ	torch_inté   )ÚFlavaConfigÚFlavaImageCodebookConfigÚFlavaImageConfigÚFlavaMultimodalConfigÚFlavaTextConfigzfacebook/flava-image-codebookg$(~Œ¹k@a–  
    Output from FlavaModel containing embeddings and outputs from individual encoders.

    Note that `image_embeddings` and `text_embeddigns` returned are similar to pooled output returned from a
    transformer. If you want embeddings for contrastive loss or retrieval use a FLAVA model's `image_projection` and
    `text_projection` layers on `image_embeddings` and `text_embeddings` respectively.
    )Úcustom_introc                   óâ   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\   \	S'   Sr\\R                     \	S'   Sr\\   \	S'   Sr\\R                     \	S'   Sr\\   \	S	'   S
\\   4S jrSrg)ÚFlavaModelOutputé3   a¸  
image_embeddings (`torch.FloatTensor` of shape `(batch_size, output_dim)`, *optional*, returned when `pixel_values` are present):
    The image embeddings which are basically the pooled output of [`FlavaImageModel`].
image_output (`BaseModelOutputWithPooling`, *optional*, returned when `pixel_values` are present):
    The output of the [`FlavaImageModel`].
text_embeddings (`torch.FloatTensor` of shape `(batch_size, output_dim)`, *optional*, returned when `input_ids` are present):
    The text embeddings which are basically the pooled output of [`FlavaTextModel`].
text_output (`BaseModelOutputWithPooling`, *optional*, returned when `input_ids` are present):
    The output of the [`FlavaTextModel`].
multimodal_embeddings (`torch.FloatTensor` of shape `(batch_size, output_dim)`, *optional*, returned when `input_ids` and `pixel_values` are present and `skip_multimodal_encoder` is `None` or `False`):
    The multimodal embeddings which are basically the pooled output of [`FlavaTextModel`].
multimodal_output (`BaseModelOutputWithPooling`, returned when `input_ids` and `pixel_values` are present and `skip_multimodal_encoder` is `None` or `False`):
    The output of the [`FlavaMultimodalModel`].
NÚimage_embeddingsÚimage_outputÚtext_embeddingsÚtext_outputÚmultimodal_embeddingsÚmultimodal_outputÚreturnc                 óJ   ^ • [        U 4S jT R                  5        5       5      $ )Nc              3   ól   >#   • U H*  nUS ;  a  TU   O[        TU5      R                  5       v •  M,     g7f))r"   r    r$   N©ÚgetattrÚto_tuple)Ú.0ÚkÚselfs     €Ú`/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/flava/modeling_flava.pyÚ	<genexpr>Ú,FlavaModelOutput.to_tuple.<locals>.<genexpr>U   s<   øé € ð 
á ð Ð TÓTˆDŠGÔZaÐbfÐhiÓZj×ZsÑZsÓZuÔuÚ ùs   ƒ14©ÚtupleÚkeys©r-   s   `r.   r*   ÚFlavaModelOutput.to_tupleT   s#   ø€ Üô 
à—Y‘Y”[ó
ó 
ð 	
ó    © )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   r   ÚtorchÚFloatTensorÚ__annotations__r    r   r!   r"   r#   r$   r2   r   r*   Ú__static_attributes__r7   r6   r.   r   r   3   s‹   ‡ ñð 59Ðh˜u×0Ñ0Ñ1Ó8Ø9=€L(Ð5Ñ6Ó=Ø37€OX˜e×/Ñ/Ñ0Ó7Ø8<€KÐ4Ñ5Ó<Ø9=Ð˜8 E×$5Ñ$5Ñ6Ó=Ø>BÐxÐ :Ñ;ÓBð
˜% ™*÷ 
r6   r   z@
    Class representing pretraining losses from FLAVA model
    c                   ó  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S	'   S
\4S jrSrg)ÚFlavaLossesé[   as  
mim (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `mim_labels` and `pixel_values` are present, `input_ids_masked` is absent and `mim_weight` > 0.):
    Masked Image Modeling loss as used in BeIT calculated only for unimodal image data.
mlm (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `mlm_labels` and `input_ids_masked` are present, `pixel_values` is absent and `mlm_weight` > 0.):
    Masked Language Modeling loss as used in BERT calculated only for unimodal text data.
itm (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `itm_labels`, `input_ids_masked`, `pixel_values` are present and `itm_weight` > 0.):
    Image Text Matching (ITM) loss calculated for paired image-text data. Note that ITM loss is calculated on
    masked pairs in FLAVA.
global_contrastive (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `input_ids` and `pixel_values` are present and `global_contrastive_weight` > 0.):
    Contrastive loss for image-text similarity similar to CLIP but calculated globally for paired image-text
    data. This is calculated on unmasked images and texts.
mmm_image (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `mim_labels`, `pixel_values` and `input_ids_masked` are present and `mmm_image_weight` > 0.):
    Masked Multimodal Modeling loss's image component calculated on paired image-text data.
mmm_text (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `mlm_labels`, `pixel_values` and `input_ids_masked` are present and `mmm_text_weight` > 0.):
    Masked Multimodal Modeling loss's text component calculated on paired image-text data.
NÚmimÚmlmÚitmÚglobal_contrastiveÚ	mmm_imageÚmmm_textr%   c                 óH   • SnU R                  5        H  nUc  M  Sn  U$    U$ )NTF)Úvalues)r-   Úall_noneÚvs      r.   rL   ÚFlavaLosses.all_nonez   s0   € ØˆØ—‘–ˆAØ‹}Ø ØØˆñ	 ð ˆr6   r7   )r8   r9   r:   r;   r<   rD   r   r=   r>   r?   rE   rF   rG   rH   rI   ÚboolrL   r@   r7   r6   r.   rB   rB   [   s”   ‡ ñð" (,€Cˆ%×#Ñ#Ñ	$Ó+Ø'+€Cˆ%×#Ñ#Ñ	$Ó+Ø'+€Cˆ%×#Ñ#Ñ	$Ó+Ø6:Ð˜ ×!2Ñ!2Ñ3Ó:Ø-1€Iˆx˜×)Ñ)Ñ*Ó1Ø,0€Hˆhu×(Ñ(Ñ)Ó0ð˜$÷ r6   rB   a   
    Output from FlavaForPreTraining containing embeddings, and outputs from individual encoders.

    Note that `image_embeddings` and `text_embeddings` returned are similar to pooled output returned from a
    transformer. If you want embeddings for contrastive loss or retrieval use a FLAVA model's `image_projection` and
    `text_projection` layers on `image_embeddings` and `text_embeddings` respectively.
    c                   óä  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\	S'   Sr\\R                     \	S'   Sr\\   \	S'   Sr\\R                     \	S'   Sr\\   \	S	'   Sr\\R                     \	S
'   Sr\\   \	S'   Sr\\R                     \	S'   Sr\\   \	S'   Sr\\R                     \	S'   Sr\\   \	S'   Sr\\R                     \	S'   Sr\\   \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   S\ \!   4S jr"Sr#g)ÚFlavaForPreTrainingOutputéƒ   a¥  
loss (`torch.FloatTensor`, *optional*, returned when `return_loss` is True):
    Total loss calculated for this model.
loss_info (`FlavaLosses`):
    Detailed info for FLAVA Pretraining losses. Check `FlavaLosses` class description for the information on
    the keys.
image_embeddings (`torch.FloatTensor` of shape `(batch_size, output_dim)`, *optional*, returned when `pixel_values` are present):
    The image embeddings which are basically the pooled output of [`FlavaImageModel`].
image_output (`BaseModelOutputWithPooling`, *optional*, returned when `pixel_values` are present):
    The output of the [`FlavaImageModel`].
text_embeddings (`torch.FloatTensor` of shape `(batch_size, output_dim)`, *optional*, returned when `input_ids` are present):
    The text embeddings which are basically the pooled output of [`FlavaTextModel`].
text_output (`BaseModelOutputWithPooling`, *optional*, returned when `input_ids` are present):
    The output of the [`FlavaTextModel`].
multimodal_embeddings (`torch.FloatTensor` of shape `(batch_size, output_dim)`, *optional*, returned when `input_ids` and `pixel_values` are present and `skip_unmasked_multimodal_encoder` is `None` or `False`):
    The multimodal embeddings which are basically the pooled output of [`FlavaTextModel`].
multimodal_output (`BaseModelOutputWithPooling`, returned when `input_ids` and `pixel_values` are present and `skip_unmasked_multimodal_encoder` is `None` or `False`):
    The output of the [`FlavaMultimodalModel`].
image_masked_embeddings (`torch.FloatTensor` of shape `(batch_size, output_dim)`, *optional*, returned when `pixel_values` are present):
    The image embeddings which are basically the pooled output of [`FlavaImageModel`]. Uses `bool_masked_pos`
    to create masked images.
image_masked_output (`BaseModelOutputWithPooling`, *optional*, returned when `pixel_values` are present):
    The output of the [`FlavaImageModel`]. Uses `bool_masked_pos` to create masked images.
text_masked_embeddings (`torch.FloatTensor` of shape `(batch_size, output_dim)`, *optional*, returned when `input_ids_masked` are present):
    The text embeddings which are basically the pooled output of [`FlavaTextModel`].
text_masked_output (`BaseModelOutputWithPooling`, *optional*, returned when `input_ids_masked` are present):
    The output of the [`FlavaTextModel`].
multimodal_masked_embeddings (`torch.FloatTensor` of shape `(batch_size, output_dim)`, *optional*, returned when `input_ids` and `pixel_values` are present):
    The multimodal embeddings which are basically the pooled output of [`FlavaTextModel`].
multimodal_masked_output (`BaseModelOutputWithPooling`, *optional*, returned when `input_ids_masked` and `pixel_values` are present):
    The output of the [`FlavaMultimodalModel`].
mim_logits (`torch.FloatTensor` of shape `(batch_size, num_image_patches, image_vocab_size)` or of shape `(total_masked_patches, image_vocab_size)` , *optional*, returned when `pixel_values` are present and `input_ids_masked` are not):
    The logits for MIM unimodal loss. Uses `book_masked_pos` to get masked patches. The flattened output is
        returned when `bool_masked_pos` has some of the patches masked.
mlm_logits (`torch.FloatTensor` of shape `(batch_size, text_seq_length, text_vocab_size)` or of shape `(total_masked_seq_length, text_vocab_size)`, *optional*, returned when `input_ids_masked` are present and `pixel_values` are not):
    The logits for MLM unimodal loss. The flattened output is returned when `input_ids_masked` has some of
        the tokens masked.
itm_logits (`torch.FloatTensor` of shape `(batch_size, 2)`, *optional*, returned when `input_ids_masked` and `pixel_values` are present):
    The logits for ITM loss. Note that ITM loss is calculated on masked pairs in FLAVA.
contrastive_logits_per_image (`torch.FloatTensor` of shape `(image_batch_size, text_batch_size)`):
    The scaled dot product scores between `image_embeddings` and `text_embeddings` but passed through FLAVA's
    `image_projection` and `text_projection` layers respectively. This represents the image-text similarity
    scores. This is calculated on unmasked images and texts.
contrastive_logits_per_text (`torch.FloatTensor` of shape `(text_batch_size, image_batch_size)`):
    The scaled dot product scores between `text_embeddings` and `image_embeddings` but passed through FLAVA's
    `text_projection` and `image_projection` layers respectively. This is calculated on unmasked images and
    texts.
mmm_image_logits (`torch.FloatTensor` of shape `(batch_size, num_image_patches, image_vocab_size)` or of shape`(total_masked_patches, image_vocab_size)`, *optional*, returned when `pixel_values` and `input_ids_masked` are present):
    The logits for MMM image multimodal loss. Uses `book_masked_pos` to get masked patches. The flattened
        output is returned when `bool_masked_pos` has some of the patches masked.
mmm_text_logits (`torch.FloatTensor` of shape `(batch_size, text_seq_length, text_vocab_size)` or of shape `(`(total_masked_seq_length, text_vocab_size)`), *optional*, returned when `pixel_values` and `input_ids_masked` are present):
    The logits for MMM text multimodal loss. The flattened output is returned when `input_ids_masked` has
        some of the tokens masked.
NÚlossÚ	loss_infor   r    r!   r"   r#   r$   Úimage_masked_embeddingsÚimage_masked_outputÚtext_masked_embeddingsÚtext_masked_outputÚmultimodal_masked_embeddingsÚmultimodal_masked_outputÚ
mim_logitsÚ
mlm_logitsÚ
itm_logitsÚcontrastive_logits_per_imageÚcontrastive_logits_per_textÚmmm_image_logitsÚmmm_text_logitsr%   c                 óV   ^ ^• / SQm[        U U4S jT R                  5        5       5      $ )N)r"   r    r$   rX   rV   rZ   c              3   ój   >#   • U H)  oT;  a  TU   O[        TU5      R                  5       v •  M+     g 7f©Nr(   )r+   r,   r-   Útransformer_outputss     €€r.   r/   Ú5FlavaForPreTrainingOutput.to_tuple.<locals>.<genexpr>ä   s4   øé € ÐsÑgrÐbcÐ)<Ó <T˜!’WÄ'È$ÐPQÓBR×B[ÑB[ÓB]Ô]Ògrùs   ƒ03r1   )r-   re   s   `@r.   r*   Ú"FlavaForPreTrainingOutput.to_tupleÛ   s(   ù€ ò
Ðô ÕsÐgk×gpÑgpÔgrÓsÓsÐsr6   r7   )$r8   r9   r:   r;   r<   rS   r   r=   r>   r?   rT   rB   r   r    r   r!   r"   r#   r$   rU   rV   rW   rX   rY   rZ   r[   r\   r]   r^   r_   r`   ra   r2   r   r*   r@   r7   r6   r.   rQ   rQ   ƒ   s¸  ‡ ñ5ðn )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø!€Iˆ{Ó!Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø9=€L(Ð5Ñ6Ó=Ø37€OX˜e×/Ñ/Ñ0Ó7Ø8<€KÐ4Ñ5Ó<Ø9=Ð˜8 E×$5Ñ$5Ñ6Ó=Ø>BÐxÐ :Ñ;ÓBØ;?Ð˜X e×&7Ñ&7Ñ8Ó?Ø@DÐ˜Ð"<Ñ=ÓDØ:>Ð˜H U×%6Ñ%6Ñ7Ó>Ø?CÐ˜Ð!;Ñ<ÓCØ@DÐ  (¨5×+<Ñ+<Ñ"=ÓDØEIÐ˜hÐ'AÑBÓIØ.2€J˜×*Ñ*Ñ+Ó2Ø.2€J˜×*Ñ*Ñ+Ó2Ø.2€J˜×*Ñ*Ñ+Ó2Ø@DÐ  (¨5×+<Ñ+<Ñ"=ÓDØ?CÐ ¨%×*;Ñ*;Ñ!<ÓCØ48Ðh˜u×0Ñ0Ñ1Ó8Ø37€OX˜e×/Ñ/Ñ0Ó7ð	t˜% ™*÷ 	tr6   rQ   c            	       óæ   ^ • \ rS rSrSrSS\S\SS4U 4S jjjrS\R                  S	\
S
\
S\R                  4S jr  SS\R                  S\\R                     S\S\R                  4S jjrSrU =r$ )ÚFlavaImageEmbeddingséé   zZ
Construct the CLS token, position and patch embeddings. Optionally, also the mask token.
ÚconfigÚuse_mask_tokenr%   Nc                 óÜ  >• [         TU ]  5         U=(       d    UR                  n[        R                  " [
        R                  " SSUR                  5      5      U l        U(       a6  [        R                  " [
        R                  " SSUR                  5      5      OS U l        [        UR                  UR                  UR                  UR                  S9U l        U R                  R                  n[        R                  " [
        R                  " SUS-   UR                  5      5      U l        [        R                   " UR"                  5      U l        UR                  U l        Xl        g )Nr   )Ú
image_sizeÚ
patch_sizeÚnum_channelsÚ	embed_dim)ÚsuperÚ__init__Ú
mask_tokenr   Ú	Parameterr=   ÚzerosÚhidden_sizeÚ	cls_tokenÚPatchEmbeddingsrn   ro   rp   Úpatch_embeddingsÚnum_patchesÚposition_embeddingsÚDropoutÚhidden_dropout_probÚdropoutrk   )r-   rk   rl   r{   Ú	__class__s       €r.   rs   ÚFlavaImageEmbeddings.__init__î   sþ   ø€ Ü‰ÑÔà'×<¨6×+<Ñ+<ˆÜŸš¤e§k¢k°!°Q¸×8JÑ8JÓ&KÓLˆŒÞQ_œ"Ÿ,š,¤u§{¢{°1°a¸×9KÑ9KÓ'LÔMÐeiˆŒÜ /Ø×(Ñ(Ø×(Ñ(Ø×,Ñ,Ø×(Ñ(ñ	!
ˆÔð ×+Ñ+×7Ñ7ˆÜ#%§<¢<´·²¸A¸{ÈQ¹ÐPV×PbÑPbÓ0cÓ#dˆÔ Ü—z’z &×"<Ñ"<Ó=ˆŒØ ×+Ñ+ˆŒØr6   Ú
embeddingsÚheightÚwidthc                 óœ  • UR                   S   S-
  nU R                  R                   S   S-
  n[        R                  R	                  5       (       d  XE:X  a  X#:X  a  U R                  $ U R                  SS2SS24   nU R                  SS2SS24   nUR                   S   nX R
                  -  n	X0R
                  -  n
[        US-  5      nUR                  SX»U5      nUR                  SSSS5      n[        R                  R                  UXš4SS	S
9nUR                  SSSS5      R                  SSU5      n[        R                  " Xg4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   Néÿÿÿÿg      à?r   r	   é   ÚbicubicF)ÚsizeÚmodeÚalign_corners©Údim)Úshaper|   r=   ÚjitÚ
is_tracingro   r   ÚreshapeÚpermuter   Ú
functionalÚinterpolateÚviewÚcat)r-   r‚   rƒ   r„   r{   Únum_positionsÚclass_pos_embedÚpatch_pos_embedr   Ú
new_heightÚ	new_widthÚsqrt_num_positionss               r.   Úinterpolate_pos_encodingÚ-FlavaImageEmbeddings.interpolate_pos_encoding  sS  € ð !×&Ñ& qÑ)¨AÑ-ˆØ×0Ñ0×6Ñ6°qÑ9¸AÑ=ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×+Ñ+Ð+à×2Ñ2²1°b°q°b°5Ñ9ˆØ×2Ñ2²1°a±b°5Ñ9ˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ
ØŸ_™_Ñ,ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr6   Úpixel_valuesÚbool_masked_posr   c                 óF  • UR                   u  pEpgU R                  XS9nUR                  5       u  pIn
Ub~  U R                  R	                  XIS5      nUR                  5       S:X  a!  UR                  UR                  S5      S5      nUR                  S5      R                  U5      nUSU-
  -  X¼-  -   nU R                  R	                  USS5      n[        R                  " XØ4SS9nU(       a  X€R                  X†U5      -   nOX€R                  -   nU R                  U5      nU$ )N)r   r†   r	   r   ç      ð?r   rŒ   )rŽ   rz   r‰   rt   Úexpandr   r•   Ú	unsqueezeÚtype_asrx   r=   r–   r   r|   r   )r-   rŸ   r    r   Ú
batch_sizerp   rƒ   r„   r‚   Úseq_lenÚ_Úmask_tokensÚmaskÚ
cls_tokenss                 r.   ÚforwardÚFlavaImageEmbeddings.forward)  s  € ð 3?×2DÑ2DÑ/ˆ
 &Ø×*Ñ*¨<Ð*Ðkˆ
à!+§¡Ó!2Ñˆ
˜QØÑ&ØŸ/™/×0Ñ0°ÀbÓIˆKà×"Ñ"Ó$¨Ó)Ø"1×"6Ñ"6°×7KÑ7KÈAÓ7NÐPRÓ"Sà"×,Ñ,¨RÓ0×8Ñ8¸ÓEˆDØ# s¨T¡zÑ2°[Ñ5GÑGˆJð —^‘^×*Ñ*¨:°r¸2Ó>ˆ
Ü—Y’Y 
Ð7¸QÑ?ˆ
ö $Ø#×&CÑ&CÀJÐX]Ó&^Ñ^‰Jà#×&>Ñ&>Ñ>ˆJà—\‘\ *Ó-ˆ
àÐr6   )rx   rk   r   rt   rz   ro   r|   ©F©NF)r8   r9   r:   r;   r<   r   rO   rs   r=   ÚTensorÚintr   r   Ú
BoolTensorr¬   r@   Ú__classcell__©r€   s   @r.   ri   ri   é   s§   ø† ññÐ/ð Àð ÐRV÷ ð ð&&D°5·<±<ð &DÈð &DÐUXð &DÐ]b×]iÑ]iô &DðV 7;Ø).ñ	à—l‘lðð " %×"2Ñ"2Ñ3ðð #'ð	ð
 
‰÷ó r6   ri   c            	       ó¢   ^ • \ rS rSrSr    SS\S\\\\\4   4   S\S\4U 4S jjjrSS\	R                  S	\S
\	R                  4S jjrSrU =r$ )ry   iM  z
Image to Patch Embedding.
rn   ro   rp   rq   c                 óX  >• [         TU ]  5         [        U[        R                  R
                  5      (       d  X4n[        U[        R                  R
                  5      (       d  X"4nUS   US   -  US   US   -  -  nXl        X l        XPl        [        R                  " X4X"S9U l        g )Nr   r   )Úkernel_sizeÚstride)rr   rs   Ú
isinstanceÚcollectionsÚabcÚIterablern   ro   r{   r   ÚConv2dÚ
projection)r-   rn   ro   rp   rq   r{   r€   s         €r.   rs   ÚPatchEmbeddings.__init__R  s•   ø€ ô 	‰ÑÔÜ˜*¤k§o¡o×&>Ñ&>×?Ñ?Ø$Ð1ˆJÜ˜*¤k§o¡o×&>Ñ&>×?Ñ?Ø$Ð1ˆJØ! !‘}¨
°1©Ñ5¸*ÀQ¹-È:ÐVWÉ=Ñ:XÑYˆØ$ŒØ$ŒØ&ÔäŸ)š) LÈÑgˆr6   rŸ   r   r%   c                 ó>  • UR                   u  p4pVU(       dV  XPR                  S   :w  d  X`R                  S   :w  a2  [        SU SU SU R                  S    SU R                  S    S3	5      eU R                  U5      R	                  S5      R                  SS5      nU$ )Nr   r   zInput image size (Ú*z) doesn't match model (z).r‡   )rŽ   rn   Ú
ValueErrorr¾   ÚflattenÚ	transpose)r-   rŸ   r   r¦   rp   rƒ   r„   Úxs           r.   r¬   ÚPatchEmbeddings.forwarde  s¥   € Ø2>×2DÑ2DÑ/ˆ
 &Þ'ØŸ™¨Ñ+Ó+¨u¿¹ÈÑ8JÓ/JÜ Ø(¨¨°°%°ð 9ØŸ™¨Ñ+Ð,¨A¨d¯o©o¸aÑ.@Ð-AÀðEóð ð O‰O˜LÓ)×1Ñ1°!Ó4×>Ñ>¸qÀ!ÓDˆØˆr6   )rn   r{   ro   r¾   )éà   é   r	   i   r®   )r8   r9   r:   r;   r<   r±   r   r2   rs   r=   r°   rO   r¬   r@   r³   r´   s   @r.   ry   ry   M  sˆ   ø† ñð Ø24ØØñhàðhð ˜#˜u S¨# X™Ð.Ñ/ðhð ð	hð
 ÷hð hñ&	 E§L¡Lð 	ÈDð 	Ð]b×]iÑ]i÷ 	ó 	r6   ry   c                   óš   ^ • \ rS rSrSrU 4S jr   S	S\\R                     S\\R                     S\\R                     4S jjr	Sr
U =r$ )
ÚFlavaTextEmbeddingsiq  zGConstruct the embeddings from word, position and token_type embeddings.c                 ó.  >• [         TU ]  5         [        R                  " UR                  UR
                  UR                  S9U l        [        R                  " UR                  UR
                  5      U l	        [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                  5      U l        [#        USS5      U l        U R'                  S[(        R*                  " UR                  5      R-                  S5      SS9  U R'                  S	[(        R.                  " U R0                  R3                  5       [(        R4                  S
9SS9  g )N)Úpadding_idx©ÚepsÚposition_embedding_typeÚabsoluteÚposition_ids)r   r†   F)Ú
persistentÚtoken_type_ids)Údtype)rr   rs   r   Ú	EmbeddingÚ
vocab_sizerw   Úpad_token_idÚword_embeddingsÚmax_position_embeddingsr|   Útype_vocab_sizeÚtoken_type_embeddingsÚ	LayerNormÚlayer_norm_epsr}   r~   r   r)   rÏ   Úregister_bufferr=   Úaranger£   rv   rÑ   r‰   Úlong©r-   rk   r€   s     €r.   rs   ÚFlavaTextEmbeddings.__init__t  s/  ø€ Ü‰ÑÔÜ!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ#%§<¢<°×0NÑ0NÐPV×PbÑPbÓ#cˆÔ Ü%'§\¢\°&×2HÑ2HÈ&×J\ÑJ\Ó%]ˆÔ"ô Ÿš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒä'.¨vÐ7PÐR\Ó']ˆÔ$Ø×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð 	ñ 	
ð 	×ÑØœeŸkšk¨$×*;Ñ*;×*@Ñ*@Ó*BÌ%Ï*É*ÑUÐbgð 	ò 	
r6   Ú	input_idsrÓ   rÑ   c                 ó,  • UR                  5       nUS   nUc  U R                  S S 2S U24   nUcv  [        U S5      (       a-  U R                  S S 2S U24   nUR	                  US   U5      nUnO8[
        R                  " U[
        R                  U R                  R                  S9nU R                  U5      nU R                  U5      n	X‰-   n
U R                  S:X  a  U R                  U5      nX«-  n
U R                  U
5      n
U R                  U
5      n
U
$ )Nr   rÓ   r   )rÔ   ÚdevicerÐ   )r‰   rÑ   ÚhasattrrÓ   r£   r=   rv   rà   rå   rØ   rÛ   rÏ   r|   rÜ   r   )r-   rã   rÓ   rÑ   Úinput_shapeÚ
seq_lengthÚbuffered_token_type_idsÚ buffered_token_type_ids_expandedÚinputs_embedsrÛ   r‚   r|   s               r.   r¬   ÚFlavaTextEmbeddings.forward‡  s  € ð  —n‘nÓ&ˆØ  ‘^ˆ
àÑØ×,Ñ,ªQ°°°¨^Ñ<ˆLð
 Ñ!ÜtÐ-×.Ñ.Ø*.×*=Ñ*=ºaÀÀ*À¸nÑ*MÐ'Ø3J×3QÑ3QÐR]Ð^_ÑR`ÐblÓ3mÐ0Ø!A‘ä!&§¢¨[ÄÇ
Á
ÐSW×SdÑSd×SkÑSkÑ!là×,Ñ,¨YÓ7ˆØ $× :Ñ :¸>Ó JÐà"Ñ:ˆ
Ø×'Ñ'¨:Ó5Ø"&×":Ñ":¸<Ó"HÐØÑ-ˆJØ—^‘^ JÓ/ˆ
Ø—\‘\ *Ó-ˆ
ØÐr6   )rÜ   r   rÏ   r|   rÛ   rØ   )NNN)r8   r9   r:   r;   r<   rs   r   r=   r°   r¬   r@   r³   r´   s   @r.   rÊ   rÊ   q  sW   ø† ÙQõ
ð* -1Ø15Ø/3ñ	 à˜EŸL™LÑ)ð ð ! §¡Ñ.ð ð ˜uŸ|™|Ñ,÷	 ó  r6   rÊ   c                   óú   ^ • \ rS rSrS\SS4U 4S jjr   SS\R                  S\\R                     S\\R                     S	\	S\
\\R                  \R                  4   \\R                     4   4
S
 jjrSrU =r$ )ÚFlavaSelfAttentioniª  rk   r%   Nc                 ó  >• [         TU ]  5         UR                  UR                  -  S:w  a7  [	        US5      (       d&  [        SUR                   SUR                   S35      eUR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l        [        R                  " UR                  U R                  UR                  S9U l        [        R                  " UR                  U R                  UR                  S9U l        [        R                  " UR                  U R                  UR                  S9U l        [        R                  " UR                   5      U l        g )Nr   Úembedding_sizezThe hidden size z4 is not a multiple of the number of attention heads Ú.©Úbias)rr   rs   rw   Únum_attention_headsræ   rÂ   r±   Úattention_head_sizeÚall_head_sizer   ÚLinearÚqkv_biasÚqueryÚkeyÚvaluer}   Úattention_probs_dropout_probr   rá   s     €r.   rs   ÚFlavaSelfAttention.__init__«  s1  ø€ Ü‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ" 6×#5Ñ#5Ð"6ð 7Ø×3Ñ3Ð4°Að7óð ð
 $*×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔä—Y’Y˜v×1Ñ1°4×3EÑ3EÈFÏOÉOÑ\ˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÈ&Ï/É/ÑZˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÈFÏOÉOÑ\ˆŒ
ä—z’z &×"EÑ"EÓFˆr6   Úhidden_statesÚattention_maskÚ	head_maskÚoutput_attentionsc                 óÈ  • UR                   u  pVnU R                  U5      R                  USU R                  U R                  5      R                  SS5      nU R                  U5      R                  USU R                  U R                  5      R                  SS5      n	U R                  U5      R                  USU R                  U R                  5      R                  SS5      n
[        R                  " X‰R                  SS5      5      nU[        R                  " U R                  5      -  nUb  X²-   n[        R                  R                  USS9nU R                  U5      nUb  XÃ-  n[        R                  " XÊ5      nUR!                  SSSS5      R#                  5       nUR%                  5       S S U R&                  4-   nUR                  " U6 nU(       a  XÜ4nU$ U4nU$ )Nr†   r   r‡   éþÿÿÿrŒ   r   r	   )rŽ   rù   r•   rô   rõ   rÄ   rú   rû   r=   ÚmatmulÚmathÚsqrtr   r“   Úsoftmaxr   r’   Ú
contiguousr‰   rö   )r-   rþ   rÿ   r   r  r¦   rè   r¨   Úquery_layerÚ	key_layerÚvalue_layerÚattention_scoresÚattention_probsÚcontext_layerÚnew_context_layer_shapeÚoutputss                   r.   r¬   ÚFlavaSelfAttention.forward½  sÅ  € ð %2×$7Ñ$7Ñ!ˆ
 àJ‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð H‰H]Ó#ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ð J‰J}Ó%ß‰T*˜b $×":Ñ":¸D×<TÑ<TÓUß‰Yq˜!‹_ð 	ô !Ÿ<š<¨×5HÑ5HÈÈRÓ5PÓQÐà+¬d¯iªi¸×8PÑ8PÓ.QÑQÐØÑ%à/Ñ@Ðô Ÿ-™-×/Ñ/Ð0@ÀbÐ/ÐIˆð Ÿ,™, Ó7ˆð Ñ Ø-Ñ9ˆOäŸš _ÓBˆà%×-Ñ-¨a°°A°qÓ9×DÑDÓFˆØ"/×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×*Ò*Ð,CÐDˆæ6G=Ð2ˆàˆð O\ÐM]ˆàˆr6   )rö   rõ   r   rú   rô   rù   rû   ©NNF)r8   r9   r:   r;   ÚFlavaPossibleConfigsrs   r=   r°   r   rO   r   r2   r¬   r@   r³   r´   s   @r.   rî   rî   ª  sš   ø† ðGÐ3ð G¸÷ Gð* 26Ø,0Ø"'ñ3à—|‘|ð3ð ! §¡Ñ.ð3ð ˜EŸL™LÑ)ð	3ð
  ð3ð 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷3ó 3r6   rî   c                   óŠ   ^ • \ rS rSrSrS\SS4U 4S jjrS\R                  S\R                  S\R                  4S	 jr	S
r
U =r$ )ÚFlavaSelfOutputió  z©
The residual connection is defined in FlavaLayer (same as ViTLayer) instead of here (as is the case with other
models), due to the layernorm applied before each block.
rk   r%   Nc                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  5      U l        g rd   )	rr   rs   r   r÷   rw   Údenser}   r~   r   rá   s     €r.   rs   ÚFlavaSelfOutput.__init__ù  sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr6   rþ   Úinput_tensorc                 óJ   • U R                  U5      nU R                  U5      nU$ rd   ©r  r   ©r-   rþ   r  s      r.   r¬   ÚFlavaSelfOutput.forwardþ  s$   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆàÐr6   r  )r8   r9   r:   r;   r<   r  rs   r=   r°   r¬   r@   r³   r´   s   @r.   r  r  ó  sJ   ø† ñð
>Ð3ð >¸÷ >ð
 U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r6   r  c                   ó  ^ • \ rS rSrS\SS4U 4S jjrS\\   SS4S jr   SS\	R                  S	\\	R                     S
\\	R                     S\S\\\	R                  \	R                  4   \\	R                     4   4
S jjrSrU =r$ )ÚFlavaAttentioni  rk   r%   Nc                 ó€   >• [         TU ]  5         [        U5      U l        [	        U5      U l        [        5       U l        g rd   )rr   rs   rî   Ú	attentionr  ÚoutputÚsetÚpruned_headsrá   s     €r.   rs   ÚFlavaAttention.__init__  s0   ø€ Ü‰ÑÔÜ+¨FÓ3ˆŒÜ% fÓ-ˆŒÜ›EˆÕr6   Úheadsc                 ó6  • [        U5      S:X  a  g [        XR                  R                  U R                  R                  U R
                  5      u  p[        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l	        [        U R                  R                  USS9U R                  l        U R                  R                  [        U5      -
  U R                  l        U R                  R                  U R                  R                  -  U R                  l        U R
                  R                  U5      U l        g )Nr   r   rŒ   )Úlenr   r!  rô   rõ   r$  r   rù   rú   rû   r"  r  rö   Úunion)r-   r&  Úindexs      r.   Úprune_headsÚFlavaAttention.prune_heads  s  € Üˆu‹:˜‹?ØÜ7Ø—>‘>×5Ñ5°t·~±~×7YÑ7YÐ[_×[lÑ[ló
‰ˆô
  2°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ/°·±×0BÑ0BÀEÓJˆ‰ÔÜ1°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð .2¯^©^×-OÑ-OÔRUÐV[ÓR\Ñ-\ˆ‰Ô*Ø'+§~¡~×'IÑ'IÈDÏNÉN×LnÑLnÑ'nˆ‰Ô$Ø ×-Ñ-×3Ñ3°EÓ:ˆÕr6   rþ   rÿ   r   r  c                 ób   • U R                  XX4S9nU R                  US   U5      nU4USS  -   nU$ ©N)rÿ   r   r  r   r   )r!  r"  )r-   rþ   rÿ   r   r  Úself_outputsÚattention_outputr  s           r.   r¬   ÚFlavaAttention.forward  sL   € ð —~‘~ØÀIð &ð 
ˆð  Ÿ;™; |°A¡¸ÓFÐà#Ð%¨°Q°RÐ(8Ñ8ˆØˆr6   )r!  r"  r$  r  )r8   r9   r:   r;   r  rs   r#  r±   r+  r=   r°   r   rO   r   r2   r¬   r@   r³   r´   s   @r.   r  r    s®   ø† ð"Ð3ð "¸÷ "ð;  S¡ð ;¨dô ;ð* 26Ø,0Ø"'ñà—|‘|ðð ! §¡Ñ.ðð ˜EŸL™LÑ)ð	ð
  ðð 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷ó r6   r  c                   ón   ^ • \ rS rSrS\SS4U 4S jjrS\R                  S\R                  4S jrSr	U =r
$ )	ÚFlavaIntermediatei/  rk   r%   Nc                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g rd   )rr   rs   r   r÷   rw   Úintermediate_sizer  r¹   Ú
hidden_actÚstrr
   Úintermediate_act_fnrá   s     €r.   rs   ÚFlavaIntermediate.__init__0  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$r6   rþ   c                 óJ   • U R                  U5      nU R                  U5      nU$ rd   ©r  r8  ©r-   rþ   s     r.   r¬   ÚFlavaIntermediate.forward9  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆàÐr6   r;  ©r8   r9   r:   r;   r  rs   r=   r°   r¬   r@   r³   r´   s   @r.   r3  r3  /  s7   ø† ð9Ð3ð 9¸÷ 9ð U§\¡\ð °e·l±l÷ ò r6   r3  c                   ó†   ^ • \ rS rSrS\SS4U 4S jjrS\R                  S\R                  S\R                  4S jrS	r	U =r
$ )
ÚFlavaOutputi@  rk   r%   Nc                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR                  5      U l	        g rd   )
rr   rs   r   r÷   r5  rw   r  r}   r~   r   rá   s     €r.   rs   ÚFlavaOutput.__init__A  sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr6   rþ   r  c                 óR   • U R                  U5      nU R                  U5      nX-   nU$ rd   r  r  s      r.   r¬   ÚFlavaOutput.forwardG  s,   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆà%Ñ4ˆàÐr6   r  r>  r´   s   @r.   r@  r@  @  sE   ø† ð>Ð3ð >¸÷ >ð U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r6   r@  c                   óþ   ^ • \ rS rSrSrS\SS4U 4S jjr   SS\R                  S\	\R                     S	\	\R                     S
\
S\\\R                  \R                  4   \\R                     4   4
S jjrSrU =r$ )Ú
FlavaLayeriP  z?This corresponds to the Block class in the timm implementation.rk   r%   Nc                 ój  >• [         TU ]  5         UR                  U l        SU l        [	        U5      U l        [        U5      U l        [        U5      U l	        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  UR                  S9U l        g )Nr   rÍ   )rr   rs   Úchunk_size_feed_forwardÚseq_len_dimr  r!  r3  Úintermediater@  r"  r   rÜ   rw   rÝ   Úlayernorm_beforeÚlayernorm_afterrá   s     €r.   rs   ÚFlavaLayer.__init__S  s‰   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ'¨Ó/ˆŒÜ-¨fÓ5ˆÔÜ! &Ó)ˆŒô !#§¢¨V×-?Ñ-?ÀV×EZÑEZÑ [ˆÔÜ!Ÿ|š|¨F×,>Ñ,>ÀF×DYÑDYÑZˆÕr6   rþ   rÿ   r   r  c                 óÖ   • U R                  U R                  U5      UUUS9nUS   nUSS  nXa-   nU R                  U5      nU R                  U5      nU R	                  X5      nU4U-   nU$ r.  )r!  rK  rL  rJ  r"  )	r-   rþ   rÿ   r   r  Úself_attention_outputsr0  r  Úlayer_outputs	            r.   r¬   ÚFlavaLayer.forward_  s•   € ð "&§¡Ø×!Ñ! -Ó0Ø)ØØ/ð	 "0ð "
Ðð 2°!Ñ4ÐØ(¨¨Ð,ˆð )Ñ8ˆð ×+Ñ+¨MÓ:ˆØ×(Ñ(¨Ó6ˆð —{‘{ <Ó?ˆà/ GÑ+ˆàˆr6   )r!  rH  rJ  rL  rK  r"  rI  r  )r8   r9   r:   r;   r<   r  rs   r=   r°   r   rO   r   r2   r¬   r@   r³   r´   s   @r.   rF  rF  P  s   ø† ÙIð
[Ð3ð 
[¸÷ 
[ð 26Ø,0Ø"'ñà—|‘|ðð ! §¡Ñ.ðð ˜EŸL™LÑ)ð	ð
  ðð 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷ó r6   rF  c                   óº   ^ • \ rS rSrS\SS4U 4S jjr     SS\R                  S\\R                     S\\R                     S	\	S
\	S\	S\
\\4   4S jjrSrU =r$ )ÚFlavaEncoderi~  rk   r%   Nc                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf r¯   )
rr   rs   rk   r   Ú
ModuleListÚrangeÚnum_hidden_layersrF  ÚlayerÚgradient_checkpointing)r-   rk   r¨   r€   s      €r.   rs   ÚFlavaEncoder.__init__  sR   ø€ Ü‰ÑÔØŒÜ—]’]ÄÀf×F^ÑF^Ô@_Ó#`Ñ@_¸1¤J¨vÖ$6Ñ@_Ñ#`ÓaˆŒ
Ø&+ˆÕ#ùò $as   ½A%rþ   rÿ   r   r  Úoutput_hidden_statesÚreturn_dictc                 ó4  • U(       a  SOS nU(       a  SOS n[        U R                  5       H9  u  pšU(       a  Xq4-   nUb  X9   OS nU
" XX´5      nUS   nU(       d  M1  XŒS   4-   nM;     U(       a  Xq4-   nU(       d  [        S XU4 5       5      $ [        XUS9$ )Nr7   r   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frd   r7   )r+   rM   s     r.   r/   Ú'FlavaEncoder.forward.<locals>.<genexpr>¢  s   é € ÐmÑ$[˜qŸ™Ò$[ùó   ‚‹	)Úlast_hidden_staterþ   Ú
attentions)Ú	enumeraterX  r2   r   )r-   rþ   rÿ   r   r  r[  r\  Úall_hidden_statesÚall_self_attentionsÚiÚlayer_moduleÚlayer_head_maskÚlayer_outputss                r.   r¬   ÚFlavaEncoder.forward…  sµ   € ö #7™B¸DÐÞ$5™b¸4Ðä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜išlÈˆOá(¨ÈÓkˆMà)¨!Ñ,ˆMç Ð Ø&9È1Ñ=MÐ<OÑ&OÒ#ñ  5ö  Ø 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+ÐYlñ
ð 	
r6   )rk   rY  rX  )NNFFT)r8   r9   r:   r;   r   rs   r=   r°   r   rO   r   r2   r   r¬   r@   r³   r´   s   @r.   rS  rS  ~  s•   ø† ð,˜{ð ,¨t÷ ,ð 26Ø,0Ø"'Ø%*Ø ñ 
à—|‘|ð 
ð ! §¡Ñ.ð 
ð ˜EŸL™LÑ)ð	 
ð
  ð 
ð #ð 
ð ð 
ð 
ˆuoÐ%Ñ	&÷ 
ó  
r6   rS  c                   óR   ^ • \ rS rSrS\4U 4S jjrS\R                  4S jrSr	U =r
$ )ÚFlavaPooleri¨  rk   c                 ó¶   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " 5       U l        g rd   )rr   rs   r   r÷   rw   r  ÚTanhÚ
activationrá   s     €r.   rs   ÚFlavaPooler.__init__©  s9   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ'š'›)ˆr6   rþ   c                 ó\   • US S 2S4   nU R                  U5      nU R                  U5      nU$ ©Nr   )r  ro  )r-   rþ   Úfirst_token_tensorÚpooled_outputs       r.   r¬   ÚFlavaPooler.forward®  s6   € ð +ª1¨a¨4Ñ0ÐØŸ
™
Ð#5Ó6ˆØŸ™¨Ó6ˆØÐr6   )ro  r  r>  r´   s   @r.   rl  rl  ¨  s%   ø† ð$Ð3÷ $ð
 U§\¡\÷ ò r6   rl  c                   ó‚   • \ rS rSr% \\S'   SrSrS\\	R                  \	R                  \	R                  4   SS4S jrS	rg)
ÚFlavaPreTrainedModeli·  rk   ÚflavaTÚmoduler%   Nc                 ó  • [        U[        R                  [        R                  45      (       ak  UR                  R
                  R                  SU R                  R                  S9  UR                  b%  UR                  R
                  R                  5         gg[        U[        R                  5      (       ax  UR                  R
                  R                  SU R                  R                  S9  UR                  b2  UR                  R
                  UR                     R                  5         gg[        U[        R                  5      (       aJ  UR                  R
                  R                  5         UR                  R
                  R                  S5        g[        U[        5      (       a%  UR                  R
                  R                  5         g[        U[         5      (       a{  UR"                  R
                  R                  5         UR$                  R
                  R                  5         UR&                  b%  UR&                  R
                  R                  5         gg[        U[(        5      (       a7  UR*                  (       a%  UR"                  R
                  R                  5         gg[        U[,        5      (       a:  UR.                  R
                  R                  U R                  R0                  5        gg)zInitialize the weightsg        )ÚmeanÚstdNr¢   )r¹   r   r÷   r½   ÚweightÚdataÚnormal_rk   Úinitializer_rangeró   Úzero_rÕ   rÌ   rÜ   Úfill_ÚFlavaMaskedPredictionHeadri   rx   r|   rt   ÚFlavaMultimodalModelÚuse_cls_tokenÚ
FlavaModelÚlogit_scaleÚlogit_scale_init_value)r-   ry  s     r.   Ú_init_weightsÚ"FlavaPreTrainedModel._init_weights½  s  € äfœrŸy™y¬"¯)©)Ð4×5Ñ5ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜Ô 9×:Ñ:ØK‰K×Ñ×"Ñ"Õ$Ü˜Ô 4×5Ñ5Ø×Ñ×!Ñ!×'Ñ'Ô)Ø×&Ñ&×+Ñ+×1Ñ1Ô3Ø× Ñ Ñ,Ø×!Ñ!×&Ñ&×,Ñ,Õ.ð -ä˜Ô 4×5Ñ5Ø×#×#Ø× Ñ ×%Ñ%×+Ñ+Õ-ð $ä˜¤
×+Ñ+Ø×Ñ×#Ñ#×)Ñ)¨$¯+©+×*LÑ*LÕMð ,r6   r7   )r8   r9   r:   r;   r   r?   Úbase_model_prefixÚsupports_gradient_checkpointingr   r   r÷   r½   rÜ   r‰  r@   r7   r6   r.   rw  rw  ·  sC   ‡ àÓØÐØ&*Ð#ðN E¨"¯)©)°R·Y±YÀÇÁÐ*LÑ$Mð NÐRV÷ Nr6   rw  c                   óˆ  ^ • \ rS rSr% \\S'   SrSrSS\S\4U 4S jjjr	S\
R                  4S jrS	\
R                  4S
 jrS\\\\   4   SS4S jr\        SS\\R*                     S\\R,                     S\\   S\\R*                     S\\R*                     S\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚFlavaImageModeliÚ  rk   zflava.image_modelrŸ   Úadd_pooling_layerc                 ó  >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        [        R                  " UR                  UR                  S9U l        U(       a  [        U5      OSU l        U R                  5         g©ú^
add_pooling_layer (bool, *optional*, defaults to `True`):
    Whether to add a pooling layer
rÍ   N)rr   rs   rk   ri   r‚   rS  Úencoderr   rÜ   rw   rÝ   Ú	layernormrl  ÚpoolerÚ	post_init©r-   rk   r  r€   s      €r.   rs   ÚFlavaImageModel.__init__á  sg   ø€ ô
 	‰Ñ˜Ô àŒä.¨vÓ6ˆŒÜ# FÓ+ˆŒäŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÞ->”k &Ô)ÀDˆŒà‰Õr6   r%   c                 ó.   • U R                   R                  $ rd   ©r‚   rz   r4   s    r.   Úget_input_embeddingsÚ$FlavaImageModel.get_input_embeddingsò  s   € Ø‰×/Ñ/Ð/r6   rû   c                 ó$   • XR                   l        g rd   rš  ©r-   rû   s     r.   Úset_input_embeddingsÚ$FlavaImageModel.set_input_embeddingsõ  s   € Ø+0‰Õ(r6   Úheads_to_pruneNc                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g©z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N©Úitemsr“  rX  r!  r+  ©r-   r¡  rX  r&  s       r.   Ú_prune_headsÚFlavaImageModel._prune_headsø  ó<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r6   r    r   rÿ   r   r  r[  r\  c	           	      ó  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eU R                  XPR                   R                  5      nU R                  XUS9n	U R                  U	UUUUUS9n
U
S   nU R                  U5      nU R                  b  U R                  U5      OSnU(       d	  X¼4U
SS -   $ [        UUU
R                  U
R                  S9$ )z­
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, image_num_patches)`):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).
Nz You have to specify pixel_values)r    r   ©rÿ   r   r  r[  r\  r   r   ©ra  Úpooler_outputrþ   rb  )rk   r  r[  Úuse_return_dictrÂ   Úget_head_maskrW  r‚   r“  r”  r•  r   rþ   rb  )r-   rŸ   r    r   rÿ   r   r  r[  r\  Úembedding_outputÚencoder_outputsÚsequence_outputrt  s                r.   r¬   ÚFlavaImageModel.forward   s2  € ð  2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ?Ó@Ð@ð ×&Ñ& y·+±+×2OÑ2OÓPˆ	àŸ?™?ØÐTlð +ð 
Ðð Ÿ,™,ØØ)ØØ/Ø!5Ø#ð 'ð 
ˆð *¨!Ñ,ˆØŸ.™.¨Ó9ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆæØ#Ð3°oÀaÀbÐ6IÑIÐIä)Ø-Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r6   ©rk   r‚   r“  r”  r•  ©T©NNNNNNNN)r8   r9   r:   r;   r   r?   r‹  Úmain_input_namerO   rs   r   ÚModuler›  rŸ  Údictr±   Úlistr§  r   r   r=   r°   r²   r   r2   r   r¬   r@   r³   r´   s   @r.   rŽ  rŽ  Ú  s7  ø‡ àÓà+ÐØ$€OñÐ/ð ÀD÷ ð ð"0 b§i¡iô 0ð1¨"¯)©)ô 1ðC¨4°°T¸#±Y°Ñ+?ð CÀDô Cð ð 04Ø6:Ø37Ø15Ø,0Ø,0Ø/3Ø&*ñ7
à˜uŸ|™|Ñ,ð7
ð " %×"2Ñ"2Ñ3ð7
ð #+¨4¡.ð	7
ð
 ! §¡Ñ.ð7
ð ˜EŸL™LÑ)ð7
ð $ D™>ð7
ð ' t™nð7
ð ˜d‘^ð7
ð 
ˆuÐ0Ð0Ñ	1ô7
ó ö7
r6   rŽ  c                   ó„  ^ • \ rS rSr% \\S'   SrSS\S\4U 4S jjjrS\	4S jr
S\R                  4S	 jrS
\\\\   4   SS4S jr\        SS\\R*                     S\\R*                     S\\R*                     S\\R*                     S\\R*                     S\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚFlavaTextModeli;  rk   zflava.text_modelr  c                 ó  >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        [        R                  " UR                  UR                  S9U l        U(       a  [        U5      OSU l        U R                  5         gr‘  )rr   rs   rk   rÊ   r‚   rS  r“  r   rÜ   rw   rÝ   r”  rl  r•  r–  r—  s      €r.   rs   ÚFlavaTextModel.__init__A  sg   ø€ ô
 	‰Ñ˜Ô ØŒä-¨fÓ5ˆŒÜ# FÓ+ˆŒäŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÞ->”k &Ô)ÀDˆŒà‰Õr6   r%   c                 ó.   • U R                   R                  $ rd   ©r‚   rØ   r4   s    r.   r›  Ú#FlavaTextModel.get_input_embeddingsQ  s   € Ø‰×.Ñ.Ð.r6   rû   c                 ó$   • XR                   l        g rd   rÀ  rž  s     r.   rŸ  Ú#FlavaTextModel.set_input_embeddingsT  s   € Ø*/‰Õ'r6   r¡  Nc                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     gr£  r¤  r¦  s       r.   r§  ÚFlavaTextModel._prune_headsW  r©  r6   rã   rÿ   rÓ   rÑ   r   r  r[  r\  c	           	      óº  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eUR                  5       n	Uc  [        R                  " X‘R                  S9nU R                  XPR                   R                  5      nU R                  X)UR                  5      n
U R                  UUUS9nU R                  UU
UUUUS9nUS   nU R                  U5      nU R                  b  U R                  U5      OSnU(       d	  XÞ4USS -   $ [!        UUUR"                  UR$                  S9$ )	a¡  
input_ids (`torch.LongTensor` of shape `(batch_size, text_seq_length)`):
    Indices of input sequence tokens in the vocabulary. Indices can be obtained using [`AutoTokenizer`]. See
    [`PreTrainedTokenizer.encode`] and [`PreTrainedTokenizer.__call__`] for details. [What are input
    IDs?](../glossary#input-ids)
token_type_ids (`torch.LongTensor` of shape `(batch_size, text_seq_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,
    1]`:
    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.
    [What are token type IDs?](../glossary#token-type-ids)
NzYou have to specify input_ids©rå   )rã   rÓ   rÑ   r«  r   r   r¬  )rk   r  r[  r®  rÂ   r‰   r=   Úonesrå   r¯  rW  Úget_extended_attention_maskr‚   r“  r”  r•  r   rþ   rb  )r-   rã   rÿ   rÓ   rÑ   r   r  r[  r\  rç   Úextended_attention_maskr°  r±  r²  rt  s                  r.   r¬   ÚFlavaTextModel.forward_  sy  € ð0 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ<Ó=Ð=à—n‘nÓ&ˆàÑ!Ü"ŸZšZ¨×<LÑ<LÑMˆNð ×&Ñ& y·+±+×2OÑ2OÓPˆ	Ø04×0PÑ0PØ¨×)9Ñ)9ó1
Ðð  Ÿ?™?ØØ)Ø%ð +ð 
Ðð Ÿ,™,ØØ2ØØ/Ø!5Ø#ð 'ð 
ˆð *¨!Ñ,ˆØŸ.™.¨Ó9ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆæØ#Ð3°oÀaÀbÐ6IÑIÐIä)Ø-Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r6   r´  rµ  r¶  )r8   r9   r:   r;   r   r?   r‹  rO   rs   ry   r›  r   r¸  rŸ  r¹  r±   rº  r§  r   r   r=   r°   r   r2   r   r¬   r@   r³   r´   s   @r.   r¼  r¼  ;  s;  ø‡ àÓà*Ðñ˜ð À4÷ ð ð / oô /ð0¨"¯)©)ô 0ðC¨4°°T¸#±Y°Ñ+?ð CÀDô Cð ð -1Ø15Ø15Ø/3Ø,0Ø,0Ø/3Ø&*ñI
à˜EŸL™LÑ)ðI
ð ! §¡Ñ.ðI
ð ! §¡Ñ.ð	I
ð
 ˜uŸ|™|Ñ,ðI
ð ˜EŸL™LÑ)ðI
ð $ D™>ðI
ð ' t™nðI
ð ˜d‘^ðI
ð 
ˆuÐ0Ð0Ñ	1ôI
ó öI
r6   r¼  c                   ó  ^ • \ rS rSr% \\S'   SrSrSS\4U 4S jjjrS\	\
\\
   4   SS4S	 jr\     SS\R                  S
\\R                     S\\R                     S\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )r„  i¬  rk   zflava.multimodal_modelrþ   c                 óÌ  >• [         TU ]  U5        Xl        U R                  R                  U l        U R                  (       a;  [        R
                  " [        R                  " SSUR                  5      5      U l	        [        U5      U l        [        R                  " UR                  UR                  S9U l        U(       a  [        U5      OSU l        U R#                  5         g)r’  r   rÍ   N)rr   rs   rk   r…  r   ru   r=   rv   rw   rx   rS  r“  rÜ   rÝ   r”  rl  r•  r–  r—  s      €r.   rs   ÚFlavaMultimodalModel.__init__³  s™   ø€ ô
 	‰Ñ˜Ô ØŒØ!Ÿ[™[×6Ñ6ˆÔØ××ÜŸ\š\¬%¯+ª+°a¸¸F×<NÑ<NÓ*OÓPˆDŒNä# FÓ+ˆŒäŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÞ->”k &Ô)ÀDˆŒà‰Õr6   r¡  r%   Nc                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     gr£  r¤  r¦  s       r.   r§  Ú!FlavaMultimodalModel._prune_headsÅ  r©  r6   rÿ   r   r  r[  r\  c           	      ó  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUR	                  5       u  pxn	U R
                  (       a8  U R                  R                  USS5      n
[        R                  " X¡4SS9nUS-  nUc   [        R                  " Xx4UR                  S9nU R                  X0R                   R                  5      nU R                  X'U4UR                  5      nU R                  UUUUUUS9nUS   nU R!                  U5      nU R"                  b  U R#                  U5      OSnU(       d	  XÞ4USS -   $ [%        UUUR&                  UR(                  S9$ )	z¦
hidden_states (`torch.FloatTensor` of shape `(batch_size, image_num_patches + text_seq_len, hidden_size)`):
    The concatenated hidden states of unimodal encoders.
Nr†   r   rŒ   rÇ  r«  r   r¬  )rk   r  r[  r®  r‰   r…  rx   r£   r=   r–   rÈ  rå   r¯  rW  rÉ  r“  r”  r•  r   rþ   rb  )r-   rþ   rÿ   r   r  r[  r\  r¦   rè   r¨   r«   rÊ  r±  r²  rt  s                  r.   r¬   ÚFlavaMultimodalModel.forwardÍ  s–  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$1×$6Ñ$6Ó$8Ñ!ˆ
 à××ØŸ™×.Ñ.¨z¸2¸rÓBˆJÜ!ŸIšI zÐ&AÀqÑIˆMØ˜!‰OˆJàÑ!Ü"ŸZšZ¨Ð(@È×I]ÑI]Ñ^ˆNð ×&Ñ& y·+±+×2OÑ2OÓPˆ	Ø04×0PÑ0PØ¨Ð4°m×6JÑ6Jó1
Ðð Ÿ,™,ØØ2ØØ/Ø!5Ø#ð 'ð 
ˆð *¨!Ñ,ˆØŸ.™.¨Ó9ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆæØ#Ð3°oÀaÀbÐ6IÑIÐIä)Ø-Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r6   )rx   rk   r“  r”  r•  r…  rµ  )NNNNN)r8   r9   r:   r;   r   r?   r‹  r·  rs   r¹  r±   rº  r§  r   r=   r°   r   rO   r   r2   r   r¬   r@   r³   r´   s   @r.   r„  r„  ¬  sß   ø‡ à!Ó!à0ÐØ%€OñÐ4÷ ð ð$C¨4°°T¸#±Y°Ñ+?ð CÀDô Cð ð 26Ø,0Ø,0Ø/3Ø&*ñ;
à—|‘|ð;
ð ! §¡Ñ.ð;
ð ˜EŸL™LÑ)ð	;
ð
 $ D™>ð;
ð ' t™nð;
ð ˜d‘^ð;
ð 
ˆuÐ0Ð0Ñ	1ô;
ó ö;
r6   r„  c                   ó   ^ • \ rS rSr% \\S'   S\4U 4S jjr\       SS\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\   S	\\   S
\\   S\	R                  4S jj5       r\        SS\\	R                     S\\	R                     S\\   S\\	R                     S\\	R                     S\\   S	\\   S
\\   S\	R                  4S jj5       r\           SS\\	R                      S\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\	R                      S\\	R                     S\\   S\\   S	\S
\\   S\\\4   4S jj5       rSrU =r$ )r†  i  rk   c                 ó  >• [         TU ]  U5        [        UR                  [        5      (       d"  [        S[        UR                  5       S35      e[        UR                  [        5      (       d"  [        S[        UR                  5       S35      e[        UR                  [        5      (       d%  [        SS[        UR                  5       S3-   5      eUR                  nUR                  nUR                  nUR                  U l        UR                  U l        UR                  U l        UR                  U l        [!        U5      U l        [%        U5      U l        [)        U5      U l        [,        R.                  " U R                  U R                  5      U l        [,        R.                  " U R                  U R                  5      U l        [,        R4                  " [6        R8                  " U R:                  R<                  5      5      U l        [,        R.                  " U R                  U R                  5      U l         [,        R.                  " U R                  U R                  5      U l!        U RE                  5         g )NzLconfig.text_config is expected to be of type FlavaTextConfig but is of type rñ   zNconfig.image_config is expected to be of type FlavaImageConfig but is of type zMconfig.multimodal_config is expected to be of type FlavaMultimodalConfig but zis of type )#rr   rs   r¹   Útext_configr   Ú	TypeErrorÚtypeÚimage_configr   Úmultimodal_configr   Úprojection_dimrw   Útext_hidden_sizeÚimage_hidden_sizeÚmm_hidden_sizer¼  Ú
text_modelrŽ  Úimage_modelr„  Úmultimodal_modelr   r÷   Úimage_projectionÚtext_projectionru   r=   Útensorrk   rˆ  r‡  Úimage_to_mm_projectionÚtext_to_mm_projectionr–  )r-   rk   rÕ  rØ  rÙ  r€   s        €r.   rs   ÚFlavaModel.__init__  sþ  ø€ Ü‰Ñ˜Ô ä˜&×,Ñ,¬o×>Ñ>ÜðÜ˜×+Ñ+Ó,Ð-¨Qð0óð ô
 ˜&×-Ñ-Ô/?×@Ñ@ÜðÜ˜×,Ñ,Ó-Ð.¨að1óð ô
 ˜&×2Ñ2Ô4I×JÑJÜØ_Ø¤ V×%=Ñ%=Ó >Ð?¸qÐAñBóð ð
 ×(Ñ(ˆØ×*Ñ*ˆØ"×4Ñ4Ðà$×3Ñ3ˆÔØ +× 7Ñ 7ˆÔØ!-×!9Ñ!9ˆÔØ/×;Ñ;ˆÔä(¨Ó5ˆŒÜ*¨<Ó8ˆÔÜ 4Ð5FÓ GˆÔä "§	¢	¨$×*@Ñ*@À$×BUÑBUÓ VˆÔÜ!Ÿyšy¨×)>Ñ)>À×@SÑ@SÓTˆÔÜŸ<š<¬¯ª°T·[±[×5WÑ5WÓ(XÓYˆÔä&(§i¢i°×0FÑ0FÈ×H[ÑH[Ó&\ˆÔ#Ü%'§Y¢Y¨t×/DÑ/DÀd×FYÑFYÓ%ZˆÔ"à‰Õr6   rã   rÿ   rÓ   rÑ   r  r[  r\  r%   c           
      ó\   • U R                  UUUUUUUS9nUS   n	U R                  U	5      n
U
$ )aß  
input_ids (`torch.LongTensor` of shape `(batch_size, text_seq_length)`):
    Indices of input sequence tokens in the vocabulary. Indices can be obtained using [`AutoTokenizer`]. See
    [`PreTrainedTokenizer.encode`] and [`PreTrainedTokenizer.__call__`] for details. [What are input
    IDs?](../glossary#input-ids)
token_type_ids (`torch.LongTensor` of shape `(batch_size, text_seq_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,
    1]`:
    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.
    [What are token type IDs?](../glossary#token-type-ids)

Returns:
    text_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by
    applying the projection layer to the pooled output of [`FlavaTextModel`].

Examples:

```python
>>> from transformers import AutoProcessor, FlavaModel

>>> model = FlavaModel.from_pretrained("{0}")
>>> processor = AutoProcessor.from_pretrained("{0}")

>>> inputs = processor(
...     text=["a photo of a cat", "a photo of a dog"], max_length=77, padding="max_length", return_tensors="pt"
... )
>>> text_features = model.get_text_features(**inputs)
```
)rã   rÿ   rÓ   rÑ   r  r[  r\  r   )rÞ  râ  )r-   rã   rÿ   rÓ   rÑ   r  r[  r\  Útext_outputsrt  Útext_featuress              r.   Úget_text_featuresÚFlavaModel.get_text_features;  sN   € ðR —‘ØØ)Ø)Ø%Ø/Ø!5Ø#ð 'ð 
ˆð % Q™ˆØ×,Ñ,¨]Ó;ˆàÐr6   rŸ   r    r   r   c	                 ó^   • U R                  UUUUUUUUS9n	U	S   n
U R                  U
5      nU$ )aJ  
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, image_num_patches)`):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).

Returns:
    image_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by
    applying the projection layer to the pooled output of [`FlavaImageModel`].

Examples:

```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, FlavaModel

>>> model = FlavaModel.from_pretrained("{0}")
>>> processor = AutoProcessor.from_pretrained("{0}")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> image_features = model.get_image_features(**inputs)
```
)rŸ   r    rÿ   r   r  r[  r   r\  r   )rß  rá  )r-   rŸ   r    r   rÿ   r   r  r[  r\  Úimage_outputsrt  Úimage_featuress               r.   Úget_image_featuresÚFlavaModel.get_image_featuress  sT   € ðL ×(Ñ(Ø%Ø+Ø)ØØ/Ø!5Ø%=Ø#ð )ð 	
ˆð & aÑ(ˆØ×.Ñ.¨}Ó=ˆàÐr6   Úimage_attention_maskÚskip_multimodal_encoderc           
      óà  • Ub  UOU R                   R                  nU
(       d  [        S5      eSnSnSnSnUb1  U R                  UUUU	U
US9nUS   US   pÜU R	                  US   5      nSnSnSnSnUb3  U R                  UUUUU	U
US9nUS   US   nnU R                  US   5      nSnSnUb¤  Ub¡  U(       dš  Ubh  UR                  u  nnnU R                  R                  (       a  US-  n[        R                  " UUUR                  S	9n[        R                  " UU/SS
9nOSn[        R                  " UU/SS
9nU R                  UUUS9nUS   nU(       d  UUUUUU4$ [        UUUUUUS9$ )až  
input_ids (`torch.LongTensor` of shape `(batch_size, image_num_patches + text_seq_len)`):
    Indices of input sequence tokens in the vocabulary. Indices can be obtained using [`AutoTokenizer`]. See
    [`PreTrainedTokenizer.encode`] and [`PreTrainedTokenizer.__call__`] for details. [What are input
    IDs?](../glossary#input-ids)
token_type_ids (`torch.LongTensor` of shape `(batch_size, image_num_patches + text_seq_len)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,
    1]`:
    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.
    [What are token type IDs?](../glossary#token-type-ids)
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, image_num_patches)`):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).
image_attention_mask (`torch.Tensor` of shape `(batch_size, image_num_patches)`, *optional*):
    Mask to avoid performing attention on padding pixel values for image inputs. Mask values selected in `[0, 1]`:
    - 1 for pixel values that are real (i.e., **not masked**),
    - 0 for pixel values that are padding (i.e., **masked**).
skip_multimodal_encoder (*bool*, *optional*):
    Skip any calculations for multimodal encoder. Useful if multimodal encoding is not going to be used.

Examples:

```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, FlavaModel

>>> model = FlavaModel.from_pretrained("facebook/flava-full")
>>> processor = AutoProcessor.from_pretrained("facebook/flava-full")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(text=["a photo of a cat"], images=image, return_tensors="pt", padding=True)

>>> outputs = model(**inputs)

>>> image_embeddings = outputs.image_embeddings
>>> text_embeddings = outputs.text_embeddings
>>> multimodal_embeddings = outputs.multimodal_embeddings

>>> outputs.image_embeddings.shape
torch.Size([1, 197, 768])

>>> text_embeddings.shape
torch.Size([1, 7, 768])

>>> multimodal_embeddings.shape
torch.Size([1, 205, 768])
```
NzRFLAVA model requires hidden states to work. Please set `output_hidden_states=True`)rŸ   r    rÿ   r  r[  r\  r   r‡   r†   )rã   rÿ   rÑ   rÓ   r  r[  r\  r   rÇ  rŒ   )rÿ   r\  )r   r    r!   r"   r#   r$   )rk   r\  rÂ   rß  rä  rÞ  rå  rŽ   rà  r…  r=   rÈ  rå   r–   r   )r-   rã   rŸ   rÿ   rÓ   r    rÑ   rñ  rò  r  r[  r\  r   Úimage_statesÚimage_mm_projectionr    r!   Útext_statesÚtext_mm_projectionr"   r#   r$   r¦   r§   r¨   Úattention_mask_imageÚattention_multimodalÚmultimodal_inputs                               r.   r¬   ÚFlavaModel.forward©  s  € ðF &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆÞ#ÜÐqÓrÐrØÐØˆØ"ÐØˆØÑ#Ø×+Ñ+Ø)Ø /Ø3Ø"3Ø%9Ø'ð ,ð ˆLð .:¸!©_¸lÈ1¹o˜là"&×"=Ñ"=¸lÈ2Ñ>NÓ"OÐàˆØˆØ!ÐØˆØÑ ØŸ/™/Ø#Ø-Ø)Ø-Ø"3Ø%9Ø'ð *ð ˆKð ,7°q©>¸;Àq¹>˜[ˆOà!%×!;Ñ!;¸KÈ¹OÓ!LÐà $ÐØ ÐØÑ*Ð/AÑ/MÖVmØÑ)Ø)<×)BÑ)BÑ&
˜G QØ×(Ñ(×6×6Ø˜q‘LGÜ',§z¢z°*¸gÐNa×NhÑNhÑ'iÐ$Ü',§y¢yÐ2FÈÐ1WÐ]^Ñ'_Ñ$à'+Ð$Ü$ŸyšyÐ*=Ð?QÐ)RÐXYÑZÐØ $× 5Ñ 5Ø Ð1EÐS^ð !6ð !Ðð %6°aÑ$8Ð!æà ØØØØ%Ø!ðð ô  Ø-Ø%Ø+Ø#Ø"7Ø/ñ
ð 	
r6   )rÜ  rß  rá  rä  r‡  rÝ  rà  rÚ  rÛ  rÞ  râ  rå  )NNNNNNNr¶  )NNNNNNNNNTN)r8   r9   r:   r;   r   r?   rs   r   r   r=   r°   rO   r>   rê  r²   rï  Ú
LongTensorr   r2   r@  r¬   r@   r³   r´   s   @r.   r†  r†    sŸ  ø‡ àÓð)˜{÷ )ðV ð -1Ø15Ø15Ø/3Ø,0Ø/3Ø&*ñ5à˜EŸL™LÑ)ð5ð ! §¡Ñ.ð5ð ! §¡Ñ.ð	5ð
 ˜uŸ|™|Ñ,ð5ð $ D™>ð5ð ' t™nð5ð ˜d‘^ð5ð 
×	Ñ	ô5ó ð5ðn ð 04Ø6:Ø37Ø15Ø,0Ø,0Ø/3Ø&*ñ3à˜uŸ|™|Ñ,ð3ð " %×"2Ñ"2Ñ3ð3ð #+¨4¡.ð	3ð
 ! §¡Ñ.ð3ð ˜EŸL™LÑ)ð3ð $ D™>ð3ð ' t™nð3ð ˜d‘^ð3ð 
×	Ñ	ô3ó ð3ðj ð 15Ø48Ø15Ø15Ø26Ø37Ø7;Ø26Ø,0Ø%)Ø&*ñK
à˜E×,Ñ,Ñ-ðK
ð ˜u×0Ñ0Ñ1ðK
ð ! §¡Ñ.ð	K
ð
 ! §¡Ñ.ðK
ð " %§,¡,Ñ/ðK
ð ˜u×/Ñ/Ñ0ðK
ð ' u§|¡|Ñ4ðK
ð "*¨$¡ðK
ð $ D™>ðK
ð #ðK
ð ˜d‘^ðK
ð 
ˆukÐ!Ñ	"ôK
ó öK
r6   r†  c                   ón   ^ • \ rS rSrS\S\4U 4S jjrS\R                  S\R                  4S jrSr	U =r
$ )	ÚFlavaImageCodebookResPathi8  Úin_sizeÚout_sizec                 óþ  >• [         TU ]  5         US-  n[        5       n[        R                  " 5       US'   [        R
                  " XSSS9US'   [        R                  " 5       US'   [        R
                  " XDSSS9US'   [        R                  " 5       US	'   [        R
                  " XDSSS9US
'   [        R                  " 5       US'   [        R
                  " XBSSS9US'   [        R                  " U5      U l        g )Né   Úrelu_1r	   r   ©r·   ÚpaddingÚconv_1Úrelu_2Úconv_2Úrelu_3Úconv_3Úrelu_4r   Úconv_4)rr   rs   r   r   ÚReLUr½   Ú
SequentialÚpath)r-   rÿ  r   ÚkwargsÚhid_sizer  r€   s         €r.   rs   Ú"FlavaImageCodebookResPath.__init__9  sÂ   ø€ Ü‰ÑÔØ˜q‘=ˆä‹}ˆÜŸš›ˆˆX‰ÜŸš 7À!ÈQÑOˆˆX‰ÜŸš›ˆˆX‰ÜŸš 8À1ÈaÑPˆˆX‰ÜŸš›ˆˆX‰ÜŸš 8À1ÈaÑPˆˆX‰ÜŸš›ˆˆX‰ÜŸš 8À1ÈaÑPˆˆX‰ä—M’M $Ó'ˆ	r6   rÅ   r%   c                 ó$   • U R                  U5      $ rd   ©r  ©r-   rÅ   s     r.   r¬   Ú!FlavaImageCodebookResPath.forwardI  s   € Øy‰y˜‹|Ðr6   r  ©r8   r9   r:   r;   r±   rs   r=   r°   r¬   r@   r³   r´   s   @r.   rþ  rþ  8  s6   ø† ð( ð (¨s÷ (ð ˜Ÿ™ð ¨%¯,©,÷ ò r6   rþ  c                   ór   ^ • \ rS rSrS\S\S\4U 4S jjrS\R                  S\R                  4S jrS	r	U =r
$ )
ÚFlavaImageCodebookBlockiM  rÿ  r   Ú
num_layersc                 óÒ   >• [         TU ]  5         SUS-  -  U l        X:w  a  [        R                  " XSSS9U l        O[        R                  " 5       U l        [        X5      U l        g )Nr   r‡   r   r  )	rr   rs   Ú	post_gainr   r½   Úid_pathÚIdentityrþ  Úres_path)r-   rÿ  r   r  r  r€   s        €r.   rs   Ú FlavaImageCodebookBlock.__init__N  sQ   ø€ Ü‰ÑÔà˜j¨!™mÑ,ˆŒàÓÜŸ9š9 WÀAÈqÑQˆDLäŸ;š;›=ˆDŒLä1°'ÓDˆr6   rÅ   r%   c                 ób   • U R                  U5      U R                  U R                  U5      -  -   $ rd   ©r  r  r  r  s     r.   r¬   ÚFlavaImageCodebookBlock.forwardZ  s'   € Ø|‰|˜A‹ §¡°$·-±-ÀÓ2BÑ!BÑBÐBr6   r"  r  r´   s   @r.   r  r  M  sE   ø† ð
E ð 
E¨sð 
EÀ÷ 
EðC˜Ÿ™ð C¨%¯,©,÷ Cò Cr6   r  c                   ó~   ^ • \ rS rSrSS\S\S\S\S\4
U 4S jjjrS\R                  S	\R                  4S
 jr	Sr
U =r$ )ÚFlavaImageCodebookLayerGroupi^  Ú
num_blocksr  rÿ  r   Úuse_poolc                 ó0  >• [         TU ]  5         [        5       n[        U5       H5  nUS:X  a  [	        X4U5      USUS-    3'   M   [	        XDU5      USUS-    3'   M7     U(       a  [
        R                  " SS9US'   [
        R                  " U5      U l        g )Nr   Úblock_r   r‡   )r·   Úpool)	rr   rs   r   rV  r  r   Ú	MaxPool2dr  Úgroup)	r-   r&  r  rÿ  r   r'  Úblocksrf  r€   s	           €r.   rs   Ú%FlavaImageCodebookLayerGroup.__init___  sŒ   ø€ Ü‰ÑÔÜ“ˆÜzÖ"ˆAØA‹vÜ+BÀ7ÐV`Ó+a˜  A¡˜wÐ'Ó(ä+BÀ8ÐWaÓ+b˜  A¡˜wÐ'Ó(ñ	 #ö ÜŸ\š\°aÑ8ˆF6‰Nä—]’] 6Ó*ˆ
r6   rÅ   r%   c                 ó$   • U R                  U5      $ rd   ©r,  r  s     r.   r¬   Ú$FlavaImageCodebookLayerGroup.forwardm  s   € Øz‰z˜!‹}Ðr6   r0  rµ  )r8   r9   r:   r;   r±   rO   rs   r=   r°   r¬   r@   r³   r´   s   @r.   r%  r%  ^  sR   ø† ñ+ 3ð +°Cð +À#ð +ÐQTð +Ð`d÷ +ð +ð˜Ÿ™ð ¨%¯,©,÷ ò r6   r%  a"  
    The FLAVA's image codebook model inspired from DALL-E's original encoder. Outputs raw hidden states and can be used
    to generate image tokens for an image based on DALL-E's vocab. Used to generate labels for MIM. Use
    `get_codebook_indices` to get image tokens for an image.
    c                   óú   ^ • \ rS rSr% Sr\\S'   SrSrS\S\	4U 4S jjr
S\R                  S\R                  4S	 jrS\R                  S\R                  4S
 jrS\R                  S\R                  4S jrSrU =r$ )ÚFlavaImageCodebookir  Ú rk   rŸ   Fr  c                 óÊ  >• [         TU ]  U5        Xl        UR                  U l        UR                  U l        UR
                  U l        UR                  U l        UR                  U l        U R                  U R
                  -  n[        5       n[        R                  " 5       US'   [        R                  " SU R                  -  U R                  SSS9US'   [        5       n[        R                  " U R                  SU R                  -  SSS9US	'   [        U R
                  USU R                  -  SU R                  -  5      US
'   [        U R
                  USU R                  -  SU R                  -  5      US'   [        U R
                  USU R                  -  SU R                  -  5      US'   [        U R
                  USU R                  -  SU R                  -  SS9US'   [        R                  " U5      US'   [        R                  " U5      U l        U R                  5         U R                  R                   (       a  U R#                  5        H
  nSUl        M     g g )NÚrelué   r   r   r  Úconvé   r	   ÚinputÚgroup_1r‡   Úgroup_2r  Úgroup_3F)r'  Úgroup_4r"  )rr   rs   rk   Ú
num_groupsÚinput_channelsÚnum_blocks_per_grouprw   rÖ   r   r   r  r½   r%  r  r-  r–  ÚfreezeÚ
parametersÚrequires_grad)r-   rk   r  r  Úoutput_blocksr-  Úparamr€   s          €r.   rs   ÚFlavaImageCodebook.__init__  s  ø€ ô
 	‰Ñ˜Ô àŒØ ×+Ñ+ˆŒØ$×3Ñ3ˆÔØ$*×$?Ñ$?ˆÔ!Ø!×-Ñ-ˆÔØ ×+Ñ+ˆŒà—_‘_ t×'@Ñ'@Ñ@ˆ
ä#›ˆÜ "§¢£	ˆfÑÜ "§	¢	¨!¨d×.>Ñ.>Ñ*>ÀÇÁÐ]^ÐhiÑ jˆfÑä“ˆÜŸ)š) D×$7Ñ$7¸¸T×=MÑ=MÑ9MÐ[\ÐfgÑhˆˆw‰Ü8Ø×%Ñ% z°1°t×7GÑ7GÑ3GÈÈT×M]ÑM]ÑI]ó
ˆˆyÑô 9Ø×%Ñ% z°1°t×7GÑ7GÑ3GÈÈT×M]ÑM]ÑI]ó
ˆˆyÑô 9Ø×%Ñ% z°1°t×7GÑ7GÑ3GÈÈT×M]ÑM]ÑI]ó
ˆˆyÑô 9Ø×%Ñ% z°1°t×7GÑ7GÑ3GÈÈT×M]ÑM]ÑI]Ðhmñ
ˆˆyÑô Ÿ=š=¨Ó7ˆˆxÑä—m’m FÓ+ˆŒà‰Ôà;‰;××ØŸ™Ö*Ø&+Ö#ò +ð r6   r%   c                 óp   • S[          S[          S3  U R                  U5      n[        R                  " USS9$ )Na)  
        Args:
            pixel_values (`torch.FloatTensor` of shape `(batch_size, num_channels, height, width)`):
                Pixel values. Codebook pixel values can be obtained using [`AutoImageProcessor`] by passing
                `return_codebook_pixels=True`. See [`FlavaImageProcessor.__call__`] for details.

        Examples:
        ```python
        >>> from PIL import Image
        >>> import requests
        >>> from transformers import AutoImageProcessor, FlavaImageCodebook

        >>> model = FlavaImageCodebook.from_pretrained("úE")
        >>> image_processor = AutoImageProcessor.from_pretrained("aˆ  ")

        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> inputs = image_processor([image], return_codebook_pixels=True, return_tensors="pt")
        >>> inputs = dict(pixel_values=inputs.codebook_pixel_values)

        >>> outputs = model.get_codebook_indices(**inputs)
        ```
        r   )Úaxis)Ú_CHECKPOINT_FOR_CODEBOOK_DOCr-  r=   Úargmax©r-   rŸ   Úz_logitss      r.   Úget_codebook_indicesÚ'FlavaImageCodebook.get_codebook_indices«  sI   € ð9ô :VÐ8Vð WCÜC_ÐB`ð 
a	ñ	ð0 —;‘;˜|Ó,ˆÜ|Š|˜H¨1Ñ-Ð-r6   c                 óX   • U R                  U5      n[        R                  " SS9" U5      $ )Nr   rŒ   )r-  r   ÚSoftmaxrM  s      r.   Úget_codebook_probsÚ%FlavaImageCodebook.get_codebook_probsÇ  s$   € Ø—;‘;˜|Ó,ˆÜzŠz˜aÒ  Ó*Ð*r6   c                 ó4  • S[          S[          S3  [        UR                  5      S:w  a  [        SUR                   S35      eUR                  S   U R                  :w  a(  [        SUR                  S    S	U R                   35      eU R                  U5      $ )
Na*  
        Args:
            pixel_values (`torch.FloatTensor` of shape `(batch_size, num_channels, height, width)`):
                Pixel values. Codebook pixel values can be obtained using [`AutoImageProcessor`] by passing
                `return_codebook_pixels=True`. See [`FlavaImageProcessor.__call__`] for details.

        Examples:

        ```python
        >>> from PIL import Image
        >>> import requests
        >>> from transformers import AutoImageProcessor, FlavaImageCodebook

        >>> model = FlavaImageCodebook.from_pretrained("rI  a¥  ")

        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> inputs = image_processor([image], return_codebook_pixels=True, return_tensors="pt")
        >>> inputs = dict(pixel_values=inputs.codebook_pixel_values)

        >>> outputs = model(**inputs)
        >>> print(outputs.shape)
        (1, 196)
        ```
        r  zinput shape z
 is not 4dr   z
input has z channels but model built for )rK  r(  rŽ   rÂ   r@  r-  )r-   rŸ   s     r.   r¬   ÚFlavaImageCodebook.forwardË  s­   € ð9ô :VÐ8Vð WCÜC_ÐB`ð a	ñ	ô6 ˆ|×!Ñ!Ó" aÓ'Ü˜|¨L×,>Ñ,>Ð+?¸zÐJÓKÐKØ×Ñ˜aÑ  D×$7Ñ$7Ó7Ü˜z¨,×*<Ñ*<¸QÑ*?Ð)@Ð@^Ð_c×_rÑ_rÐ^sÐtÓuÐuØ{‰{˜<Ó(Ð(r6   )r-  rk   rw   r@  rA  r?  rÖ   )r8   r9   r:   r;   r‹  r   r?   r·  rŒ  r   rs   r=   r°   rO  rS  r>   r¬   r@   r³   r´   s   @r.   r3  r3  r  sŒ   ø‡ ð ÐØ$Ó$Ø$€OØ&+Ð#ð*,à(ð*,ð ÷*,ðX.°·±ð .À%Ç,Á,ô .ð8+¨u¯|©|ð +ÀÇÁô +ð ) E×$5Ñ$5ð  )¸%¿,¹,÷  )ò  )r6   r3  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚFlavaPredictionHeadTransformiî  c                 óp  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        UR                  [        5      (       a  [        UR                     U l
        OUR                  U l
        [        R                  " UR                  UR                  S9U l        g )NrÍ   )rr   rs   r   r÷   rw   r  r¹   r6  r7  r
   Útransform_act_fnrÜ   rÝ   rá   s     €r.   rs   Ú%FlavaPredictionHeadTransform.__init__ï  s~   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
Üf×'Ñ'¬×-Ñ-Ü$*¨6×+<Ñ+<Ñ$=ˆDÕ!à$*×$5Ñ$5ˆDÔ!ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆr6   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ rd   )r  rZ  rÜ   r<  s     r.   r¬   Ú$FlavaPredictionHeadTransform.forwardø  s4   € ØŸ
™
 =Ó1ˆØ×-Ñ-¨mÓ<ˆØŸ™ }Ó5ˆØÐr6   )rÜ   r  rZ  ©r8   r9   r:   r;   rs   r¬   r@   r³   r´   s   @r.   rX  rX  î  s   ø† õU÷ð r6   rX  c                   ó8   ^ • \ rS rSrSU 4S jjrS rS rSrU =r$ )rƒ  iÿ  c                 óz  >• [         TU ]  5         Xl        [        U5      U l        [
        R                  " UR                  UR                  SS9U l	        [
        R                  " [        R                  " UR                  5      5      U l        Ub  X R                  l        U R                  U R                  l        g )NFrò   )rr   rs   rk   rX  Ú	transformr   r÷   rw   rÖ   Údecoderru   r=   rv   ró   r}  )r-   rk   r}  r€   s      €r.   rs   Ú"FlavaMaskedPredictionHead.__init__   s€   ø€ Ü‰ÑÔØŒÜ5°fÓ=ˆŒÜ—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒÜ—L’L¤§¢¨V×->Ñ->Ó!?Ó@ˆŒ	ØÑØ"(L‰LÔð !ŸI™Iˆ‰Õr6   c                 ó:   • U R                   U R                  l         g rd   )ró   rb  r4   s    r.   Ú_tie_weightsÚ&FlavaMaskedPredictionHead._tie_weights  s   € Ø ŸI™Iˆ‰Õr6   c                 óJ   • U R                  U5      nU R                  U5      nU$ rd   )ra  rb  r  s     r.   r¬   Ú!FlavaMaskedPredictionHead.forward  s"   € ØN‰N˜1ÓˆØL‰L˜‹OˆØˆr6   )ró   rk   rb  ra  rd   )	r8   r9   r:   r;   rs   re  r¬   r@   r³   r´   s   @r.   rƒ  rƒ  ÿ  s   ø† ÷
&ò&÷ð r6   rƒ  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚFlavaITMHeadi  c                 óš   >• [         TU ]  5         Xl        [        U5      U l        [
        R                  " UR                  S5      U l        g )Nr‡   )	rr   rs   rk   rl  r•  r   r÷   rw   Úseq_relationshiprá   s     €r.   rs   ÚFlavaITMHead.__init__  s8   ø€ Ü‰ÑÔØŒÜ! &Ó)ˆŒÜ "§	¢	¨&×*<Ñ*<¸aÓ @ˆÕr6   c                 óJ   • U R                  U5      nU R                  U5      nU$ rd   )r•  rl  r  s     r.   r¬   ÚFlavaITMHead.forward  s$   € ØK‰K˜‹NˆØ×!Ñ! !Ó$ˆØˆr6   )rk   r•  rl  r^  r´   s   @r.   rj  rj    s   ø† õA÷ð r6   rj  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚFlavaGlobalContrastiveHeadi"  c                 óP   >• [         TU ]  5         Xl        UR                  U l        g rd   )rr   rs   rk   Úglobal_backprop_contrastiverá   s     €r.   rs   Ú#FlavaGlobalContrastiveHead.__init__#  s!   ø€ Ü‰ÑÔØŒØ+1×+MÑ+MˆÕ(r6   c                 ó@  • [         R                  " U5      n[         R                  R                  5       (       a#  [         R                  R	                  5       (       d6  [         R
                  " UR                  S5      UR                  S9nU/nU/nGOUR                  S5      n[         R                  R                  5       n	U R                  (       ag  [         R                  R                  R                  R                  U5      n[         R                  R                  R                  R                  U5      nOš[        U	5       V
s/ sH  n
[         R                  " U5      PM     nn
[        U	5       V
s/ sH  n
[         R                  " U5      PM     nn
[         R                  R                  Xa5        [         R                  R                  Xr5        U[         R                  R                  5       -  [         R
                  " XR                  S9-   n[         R                   " U5      n[         R                   " U5      n[         R"                  " XR%                  SS5      5      U-  n[         R"                  " X&R%                  SS5      5      U-  nX¼U4$ s  sn
f s  sn
f )Nr   rÇ  r   )r=   ÚexpÚdistributedÚis_availableÚis_initializedrß   r‰   rå   Úget_world_sizers  r   r“   Ú
all_gatherrV  Ú
zeros_likeÚget_rankr–   r  rÄ   )r-   r   r!   r‡  ÚtemperatureÚlabelsÚimage_embeddings_allÚtext_embeddings_allÚlocal_batch_sizeÚ
world_sizer¨   Úlogits_per_imageÚlogits_per_texts                r.   r¬   Ú"FlavaGlobalContrastiveHead.forward(  s  € Ü—i’i Ó,ˆÜ× Ñ ×-Ñ-×/Ñ/´u×7HÑ7H×7WÑ7W×7YÑ7YÜ—\’\Ð"2×"7Ñ"7¸Ó":ÐCS×CZÑCZÑ[ˆFØ$4Ð#5Ð Ø#2Ð"3Òà/×4Ñ4°QÓ7ÐÜ×*Ñ*×9Ñ9Ó;ˆJà×/×/ô (-×'8Ñ'8×';Ñ';×'FÑ'F×'QÑ'QÐRbÓ'cÐ$Ü&+×&7Ñ&7×&:Ñ&:×&EÑ&E×&PÑ&PÐQ`Ó&aÑ#äSXÐYcÔSdÓ'eÑSdÈa¬×(8Ò(8¸Ö(IÑSdÐ$Ð'eÜSXÐYcÔSdÓ&eÑSdÈa¤u×'7Ò'7Ð8HÖ'IÑSdÐ#Ð&eÜ×!Ñ!×,Ñ,Ð-AÔTÜ×!Ñ!×,Ñ,Ð-@ÔRà%¬×(9Ñ(9×(BÑ(BÓ(DÑDÄuÇ|Â|Ø ×)@Ñ)@ñHñ ˆFô  %ŸyšyÐ)=Ó>ÐÜ#ŸišiÐ(;Ó<Ðä Ÿ<š<Ð(8×:WÑ:WÐXYÐ[\Ó:]Ó^ÐalÑlÐÜŸ,š, ×8VÑ8VÐWXÐZ[Ó8\Ó]Ð`kÑkˆà°&Ð8Ð8ùò (fùÚ&es   ÅJÅ5J)rk   rs  r^  r´   s   @r.   rq  rq  "  s   ø† õN÷
9ð 9r6   rq  zk
    The FLAVA model for pretraining which outputs losses, embeddings, logits and transformer outputs.
    c            (       ór  ^ • \ rS rSr/ SQrSS\S\\R                     4U 4S jjjr	S\
R                  4S jr\                 SS\\
R                     S	\\
R                     S
\\
R                     S\\
R                     S\\
R                     S\\
R                     S\\
R                     S\\
R                     S\\
R                     S\\   S\\
R                     S\\
R                     S\\
R                     S\\   S\S\\   S\\   S\\\
R                     \4   4$S jj5       rSrU =r$ )ÚFlavaForPreTrainingiJ  )zmmm_text_head.decoder.biaszmmm_image_head.decoder.biaszmlm_head.decoder.biaszmim_head.decoder.biasrk   Úimage_codebookc                 ól  >• [         TU ]  U5        [        U5      U l        X l        U R                  c+  UR
                  (       a  [        UR                  5      U l        [        UR                  5      U l
        [        UR                  5      U l        [        U5      U l        [        UR                  5      U l        [        UR                  5      U l        [#        U5      U l        UR                  R&                  U l        UR                  R&                  U l        UR,                  U l        UR.                  U l        UR0                  U l        UR2                  U l        UR4                  U l        UR6                  U l        UR8                  U l        UR:                  U l        U R=                  5         g)zÒ
image_codebook ([`nn.Module`]):
    If passed, the image codebook will be set to this. Otherwise, it will be initialized using the
    image_codebook_config defined in the config first as the first parameter.
N)rr   rs   r†  rx  r‰  Úinit_codebookr3  Úimage_codebook_configrƒ  rØ  Úmim_headrÕ  Úmlm_headrj  Úitm_headÚmmm_image_headÚmmm_text_headrq  Úglobal_contrastive_headrÖ   Úimage_vocab_sizeÚtext_vocab_sizeÚ
mlm_weightÚ
mim_weightÚglobal_contrastive_weightÚce_ignore_indexÚ
itm_weightÚmmm_image_weightÚmmm_text_weightÚ skip_unmasked_multimodal_encoderr–  )r-   rk   r‰  r€   s      €r.   rs   ÚFlavaForPreTraining.__init__X  sO  ø€ ô 	‰Ñ˜Ô Ü Ó'ˆŒ
à,ÔØ×ÑÑ&¨6×+?×+?Ü"4°V×5QÑ5QÓ"RˆDÔô 2°&×2EÑ2EÓFˆŒÜ1°&×2DÑ2DÓEˆŒÜ$ VÓ,ˆŒÜ7¸×8KÑ8KÓLˆÔÜ6°v×7IÑ7IÓJˆÔÜ'AÀ&Ó'IˆÔ$à &× 3Ñ 3× >Ñ >ˆÔØ%×1Ñ1×<Ñ<ˆÔØ ×+Ñ+ˆŒØ ×+Ñ+ˆŒØ)/×)IÑ)IˆÔ&Ø%×5Ñ5ˆÔØ ×+Ñ+ˆŒØ &× 7Ñ 7ˆÔØ%×5Ñ5ˆÔØ06×0WÑ0WˆÔ-à‰Õr6   rÅ   c                 óp   • UR                  5       S:”  a!  UR                  UR                  S5      S5      nU$ )Nr‡   r   r†   )r   r•   r‰   r  s     r.   Ú_resize_to_2dÚ!FlavaForPreTraining._resize_to_2d{  s,   € Ø5‰5‹7Q‹;Ø—‘q—v‘v˜a“y "Ó%ˆAØˆr6   rã   Úinput_ids_maskedrŸ   Úcodebook_pixel_valuesrÿ   rÓ   r    rÑ   rñ  rœ  Ú
mlm_labelsÚ
mim_labelsÚ
itm_labelsr  r[  r\  Úreturn_lossr%   c                 óŒ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU
b  U
OU R                  n
Uc  Ub  [        R                  S5        UnU R                  UUUUUU	U
UUSS9
nU R                  UUUUU	UUUSS9	nSnUR                  nUR                  nUR                  nUR                  nUR                  nS=n=n=n=n=n=nn S=n!=n"=n#n$S=n%=n&n'Uc  UbK  UcH  U(       aA  U R                  c  [        S5      eUc  [        S5      eU R                  R                  U5      nU R                  S:”  Ga  UGb  UGc  Un(Ub÷  U R                  U5      nU R                  U5      nU R                   XÇR#                  S5      '   U(SS2UR%                  S	5      * S2SS24   n(UR#                  U R                   5      n)UU)   n*U(U)SS24   n(U R'                  U(5      n!U(       aX  [(        R*                  R-                  U!R/                  S
U R0                  5      U*R/                  S
5      5      nUU R                  -  nOU R'                  U(5      n!U R2                  S:”  aå  Ubâ  Ucß  Un+UbÉ  U R                  U5      nU+SS2UR%                  S	5      * S2SS24   n+UR#                  U R                   5      n)UU)   n,U+U)SS24   n+U R5                  U+5      n"U(       aX  [(        R*                  R-                  U"R/                  S
U R6                  5      U,R/                  S
5      5      nUU R2                  -  nOU R5                  U+5      n"U R8                  S:”  a±  Ub®  U R;                  U5      n%Ubš  UR#                  S5      n-[<        R>                  " U-RA                  5       U-U-RC                  S/5      5      nU(       a/  [(        R*                  R-                  U%U5      n U U R8                  -  n Ub  UU   nUb  UU   nUb
  UU   nUU   nUGb%  U RD                  S:”  Ga  Un(UR%                  S	5      S	-
  n.U(SS2SSU.-   2SS24   n(UbÙ  U R                  U5      nU R                  U5      nU R                   XÇR#                  S5      '   UR#                  U R                   5      n)UU)   n*U(U)SS24   n(U RG                  U(5      n$U(       aX  [(        R*                  R-                  U$R/                  S
U R0                  5      U*R/                  S
5      5      nUU RD                  -  nOU RG                  U(5      n$Ubï  U RH                  S:”  aß  Un+U+SS2UR%                  S	5      * S2SS24   n+Ub«  U R                  U5      nUR#                  U R                   5      n)UU)   n,U+U)SS24   n+U RK                  U+5      n#U(       aX  [(        R*                  R-                  U#R/                  S
U R6                  5      U,R/                  S
5      5      nUU RH                  -  nOU RK                  U+5      n#UGbn  UGbj  U RL                  S:”  GaY  U R                  RO                  USS2SSS24   5      n/[(        R*                  RQ                  U/S
S9n/U R                  RS                  USS2SSS24   5      n0[(        R*                  RQ                  U0S
S9n0U R                  RT                  RV                  RY                  [Z        [\        5        U R_                  U0U/U R                  RT                  5      u  n&n'n1Ub  U&U   n&U'U   n'U1U   n1U(       aW  [(        R*                  R-                  U&U15      n2[(        R*                  R-                  U'U15      n3U2U3-   S-  nUU RL                  -  n[a        UUU UUUS9n4U(       a5  U4Rc                  5       (       d   [e        S U4Rg                  5        5       5      nU(       Gd>  UURh                  b  URh                  Rk                  5       OSUURl                  b  URl                  Rk                  5       OSUR                  URn                  b  URn                  Rk                  5       OSUURh                  b  URh                  Rk                  5       OSUURl                  b  URl                  Rk                  5       OSUURn                  b  URn                  Rk                  5       OSU!U"U%U&U&U$U#4n5U(       a  U4Rc                  5       (       d  UU44U5-   n5[q        S U5 5       5      $ [s        S%0 SU_SU4_SU_SURh                  _SU_SURl                  _SUR                  _SURn                  _SU_SURh                  _SU_SURl                  _SU_SURn                  _SU!_SU"_S U%_S!U&_S"U'_S#U$_S$U#_6$ )&a‡  
input_ids (`torch.LongTensor` of shape `(batch_size, text_seq_len)`):
    Indices of input sequence tokens in the vocabulary. Indices can be obtained using [`AutoTokenizer`]. See
    [`PreTrainedTokenizer.encode`] and [`PreTrainedTokenizer.__call__`] for details. [What are input
    IDs?](../glossary#input-ids)
input_ids_masked (`torch.LongTensor` of shape `(batch_size, text_seq_len)`):
    Indices of input sequence tokens in the vocabulary. These ones are the masked version of the original task
    to be used with MLM. Indices can be obtained using [`AutoTokenizer`] along with
    [`DataCollatorForMaskedLanguageModeling`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details. [What are input IDs?](../glossary#input-ids)
codebook_pixel_values (`torch.FloatTensor` of shape `(batch_size, num_image_patches, patch_size, patch_size, 3)`, *optional*):
    Pixel values for image patches that are used to compute the image codebook labels for masked image modeling.
token_type_ids (`torch.LongTensor` of shape `(batch_size, text_seq_len)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,
    1]`:
    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.
    [What are token type IDs?](../glossary#token-type-ids)
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, image_num_patches)`):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0).
image_attention_mask (`torch.FloatTensor` of shape `(batch_size, image_num_patches)`, *optional*):
    Mask to avoid performing attention on padding token indices specifically for images. Mask values selected
    in `[0, 1]`:
    - 1 for tokens that are **not masked**,
    - 0 for tokens that are **masked**.
    [What are attention masks?](../glossary#attention-mask)
skip_unmasked_multimodal_encoder (*bool*, *optional*):
    Skip any calculations for multimodal encoder for unmasked inputs. FLAVA pretraining doesn't need unmasked
    multimodal embeddings or outputs as of now.
mlm_labels (`torch.LongTensor` of shape `(batch_size, text_seq_len)`, *optional*):
    Labels for computing the left-to-right language and multimodal masked modeling loss (next word prediction).
    Indices should be in `[-100, 0, ..., text_config.vocab_size - 1]` (see `input_ids` docstring). Tokens with
    indices set to `-100` are ignored (masked), the loss is only computed for the tokens with labels in `[0,
    ..., text_config.vocab_size - 1]`.
mim_labels (`torch.LongTensor` of shape `(batch_size, image_num_patches)`, *optional*):
    Labels for computing the image and multimodal masked modeling loss. Indices should be in `[-100, 0, ...,
    image_config.vocab_size - 1]`. Tokens with indices set to `-100` are ignored (masked), the loss is only
    computed for the tokens with labels in `[0, ..., image_config.vocab_size - 1]`. If not passed, they are
    generated automatically using the image codebook assigned to the model. By default, it uses
    [`FlavaImageCodebook`]. See [`FlavaImageCodebook`] to understand how to generate mim_labels.
itm_labels (`torch.LongTensor` of shape `(batch_size, 1)`, *optional*):
    Labels for computing the image-text matching loss. 0 means the pairs don't match and 1 means they match.
    The pairs with 0 will be skipped for calculation of MMM and global contrastive losses as well.
return_loss (`bool`, *optional*, default to None):
    Whether to return calculated loss or not.

Examples:
```python
>>> from PIL import Image
>>> import requests
>>> from transformers import FlavaForPreTraining, AutoProcessor

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> model = FlavaForPreTraining.from_pretrained("facebook/flava-full")
>>> processor = AutoProcessor.from_pretrained("facebook/flava-full")

>>> text = ["a photo of a cat"]

>>> inputs = processor(
...     images=[image],
...     text=text,
...     return_masks=True,
...     return_codebook_pixels=True,
...     padding=True,
...     max_length=77,
...     return_tensors="pt",
... )


>>> output = model(**inputs)
```
Nzð`input_ids_masked` isn't passed which means MLM loss won't be calculated correctlySetting it to `input_ids` so that model can work. Please pass it if this is unintentional. This is usually OKAY if you are doing inference on unmasked text...T)
rã   rŸ   rÿ   rÓ   rÑ   rñ  rò  r  r[  r\  )	rã   rŸ   rÿ   rÓ   rñ  r    r  r[  r\  zÊ`return_loss` is set to True but the image codebook is not initialized and no `mim_labels`  have been passed. Reinstantiate the model with `init_codebook` set to True or pass in your custom `mim_labels`z`codebook_pixel_value` are required to generate `mim_labels` if loss is expected. Call `AutoProcessor` with `return_codebook_pixels` set to Truer   r   r†   r‡   rŒ   )rD   rE   rF   rG   rH   rI   c              3   ó,   #   • U H  ob  UOSv •  M     g 7frr  r7   )r+   rS   s     r.   r/   Ú.FlavaForPreTraining.forward.<locals>.<genexpr>³  s   é € Ð_ÑI^ÀÑ%5™T¸1Ô<ÒI^ùs   ‚c              3   ó,   #   • U H  ob  M  Uv •  M     g 7frd   r7   )r+   rÅ   s     r.   r/   r©  Ô  s   é € Ð8¡F˜qŸ™¢Fùr`  rS   rT   r   r    r!   r"   r#   r$   rU   rV   rW   rX   rY   rZ   r[   r\   r]   r^   r_   r`   ra   r7   ):rk   r®  r¦  rœ  ÚloggerÚwarningrx  r   r!   r#   r‰  ÚRuntimeErrorrÂ   rO  r–  rŸ  r˜  Úner‰   r  r   r“   Úcross_entropyr•   r“  r•  rŽ  r”  r™  r  r=   ÚwhereÚanyÚnewrš  r  r›  r‘  r—  râ  Ú	normalizerá  r‡  r~  Úclamp_ÚLOGIT_SCALE_CLAMP_MINÚLOGIT_SCALE_CLAMP_MAXr’  rB   rL   ÚsumrK   r    r*   r"   r$   r2   rQ   )6r-   rã   r¡  rŸ   r¢  rÿ   rÓ   r    rÑ   rñ  rœ  r£  r¤  r¥  r  r[  r\  r¦  Úflava_outputÚflava_masked_outputÚpos_maskr   r!   rU   rW   rY   Ú
total_lossÚmim_lossÚmlm_lossÚmmm_text_lossÚmmm_image_lossÚgc_lossÚitm_lossr[   r\   ra   r`   r]   r„  r…  Úsequence_for_imageÚmasked_tokensÚmim_labels_filteredÚsequence_for_textÚmlm_labels_filteredÚ	pos_pairsÚ	end_indexÚtext_embeddingÚimage_embeddingÚ	gc_labelsÚgc_loss_imageÚgc_loss_textÚflava_lossesr"  s6                                                         r.   r¬   ÚFlavaForPreTraining.forward€  s‹
  € ð~ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ%0Ñ%<‘kÀ$Ç+Á+×BYÑBYˆð 0Ñ;ñ -à×6Ñ6ð 	)ð Ñ#¨	Ñ(=ÜN‰Nð?ôð
  )Ðà—z‘zØØ%Ø)Ø)Ø%Ø!5ð %EØ/Ø!5àð "ð 
ˆð  #Ÿj™jØ&Ø%Ø)Ø)Ø!5Ø+Ø/Ø!5Øð )ð 

Ðð ˆà'×8Ñ8ÐØ&×6Ñ6ˆØ"5×"FÑ"FÐØ!4×!DÑ!DÐØ':×'PÑ'PÐ$àaeÐeˆ
ÐeXÐe Ðe¨=Ðe¸>ÐeÈGÐV^ØGKÐKˆ
ÐKZÐK /Ð4DØ:>Ð>ˆ
Ð>Ð%¨ð #Ñ.Ð2NÑ2ZØÑ!¦kØ×&Ñ&Ñ.Ü&ð;óð ð
 )Ñ0Ü$ðYóð ð "×0Ñ0×EÑEÐF[Ó\
ð ?‰?˜QÔÐ#:Ò#FÐKgÒKoØ!8ÐàÑ%Ø!×/Ñ/°
Ó;
Ø"&×"4Ñ"4°_Ó"EØ7;×7KÑ7K
×-Ñ-¨dÓ3Ñ4à%7º¸J¿O¹OÈAÓ<NÐ;NÑ;PÒRSÐ8SÑ%TÐ"Ø *§¡¨d×.BÑ.BÓ CØ&0°Ñ&?Ð#Ø%7¸ÂqÐ8HÑ%IÐ"Ø!Ÿ]™]Ð+=Ó>
ÞÜ!Ÿ}™}×:Ñ:Ø"Ÿ™¨¨D×,AÑ,AÓBÐDW×D\ÑD\Ð]_ÓD`ó Hð  §¡Ñ/Høà!Ÿ]™]Ð+=Ó>
ð ?‰?˜QÓÐ#9Ñ#EÐJfÑJnØ 6ÐØÑ%Ø!×/Ñ/°
Ó;
Ø$5²a¸*¿/¹/È!Ó:LÐ9LÑ9NÒPQÐ6QÑ$RÐ!Ø *§¡¨d×.BÑ.BÓ CØ&0°Ñ&?Ð#Ø$5°mÂQÐ6FÑ$GÐ!Ø!Ÿ]™]Ð+<Ó=
ÞÜ!Ÿ}™}×:Ñ:Ø"Ÿ™¨¨D×,@Ñ,@ÓAÐCV×C[ÑC[Ð\^ÓC_ó Hð  §¡Ñ/Høà!Ÿ]™]Ð+<Ó=
ð ?‰?˜QÓÐ#?Ñ#KØŸ™Ð'CÓDˆJàÑ%Ø&ŸM™M¨!Ó,	Ü Ÿ;š; y§}¡}£¸	À9Ç=Á=ÐRVÐQWÓCXÓYÞÜ!Ÿ}™}×:Ñ:¸:ÀzÓRHØ §¡Ñ/Hà/Ñ;Ø3OÐPXÑ3YÐ0àÑ)Ø!+¨HÑ!5JàÑ)Ø!+¨HÑ!5JØ&5°hÑ&?Oð (Ò3¸×8MÑ8MÐPQÔ8QØ!=ÐØ/×4Ñ4°QÓ7¸!Ñ;ˆIØ!3²A°q¸1¸y¹=Ð7HÊ!Ð4KÑ!LÐàÑ%Ø!×/Ñ/°
Ó;
Ø"&×"4Ñ"4°_Ó"EØ7;×7KÑ7K
×-Ñ-¨dÓ3Ñ4à *§¡¨d×.BÑ.BÓ CØ&0°Ñ&?Ð#Ø%7¸ÂqÐ8HÑ%IÐ"Ø#'×#6Ñ#6Ð7IÓ#JÐ ÞÜ%'§]¡]×%@Ñ%@Ø(×-Ñ-¨b°$×2GÑ2GÓHÐJ]×JbÑJbÐceÓJfó&Nð # d×&;Ñ&;Ñ;Nøà#'×#6Ñ#6Ð7IÓ#JÐ ð (Ñ3¸×8LÑ8LÈqÓ8PØ <ÐØ 1²!Ð6L×6QÑ6QÐRSÓ6TÐ5TÑ5VÒXYÐ2YÑ ZÐàÑ%Ø!×/Ñ/°
Ó;
Ø *§¡¨d×.BÑ.BÓ CØ&0°Ñ&?Ð#Ø$5°mÂQÐ6FÑ$GÐ!Ø"&×"4Ñ"4Ð5FÓ"GÞÜ$&§M¡M×$?Ñ$?Ø'×,Ñ,¨R°×1EÑ1EÓFÐH[×H`ÑH`ÐacÓHdó%Mð " T×%9Ñ%9Ñ9Møà"&×"4Ñ"4Ð5FÓ"Gð Ò'¨OÒ,GÈD×LjÑLjÐmnÔLnØ!ŸZ™Z×7Ñ7¸ÊÈ1ÊaÈÑ8PÓQˆNÜŸ]™]×4Ñ4°^ÈÐ4ÐLˆNà"Ÿj™j×9Ñ9Ð:JÊ1ÈaÒQRÈ7Ñ:SÓTˆOÜ Ÿm™m×5Ñ5°oÈ2Ð5ÐNˆOàJ‰J×"Ñ"×'Ñ'×.Ñ.Ô/DÔF[Ô\à;?×;WÑ;WØ °·±×1GÑ1Gó<Ñ8Ð˜o¨yð
 Ñ#Ø#3°HÑ#=Ð Ø"1°(Ñ";Ø% hÑ/	æÜ "§¡× ;Ñ ;Ð<LÈiÓ XÜ!Ÿ}™}×:Ñ:¸?ÈIÓVØ(¨<Ñ7¸1Ñ<Ø˜4×9Ñ9Ñ9ä"ØØØØ&Ø$Ø"ñ
ˆö ˜|×4Ñ4×6Ñ6ÜÑ_È×I\ÑI\ÔI^Ó_Ó_ˆJçà Ø8D×8QÑ8QÑ8]×)Ñ)×2Ñ2Ô4ÐcgØØ7C×7OÑ7OÑ7[×(Ñ(×1Ñ1Ô3ÐaeØ×2Ñ2Ø=I×=[Ñ=[Ñ=g×.Ñ.×7Ñ7Ô9ÐmqØ'Ø?R×?_Ñ?_Ñ?kÐ#×0Ñ0×9Ñ9Ô;ÐquØ&Ø>Q×>]Ñ>]Ñ>iÐ#×/Ñ/×8Ñ8Ô:ÐosØ,à&×8Ñ8ÑDð $×5Ñ5×>Ñ>Ô@àØØØØ Ø Ø Øð+ˆFö.  <×#8Ñ#8×#:Ñ#:àØ ðð ñô Ñ8¡FÓ8Ó8Ð8ä(ò 
Ùð
á"ð
ñ .ð
ð &×2Ò2ð	
ñ
 ,ð
ð %×0Ò0ð
ð #/×"DÒ"Dð
ð +×<Ò<ð
ñ %<ð
ð !4× @Ò @ð
ñ $:ð
ð  3×>Ò>ð
ñ *Fð
ð &9×%JÒ%Jð
ñ "ð
ñ  "ð!
ñ" "ð#
ñ$ *:ð%
ñ& )8ð'
ñ( .ð)
ñ* ,ð+
ð 	
r6   )r˜  rx  r’  r—  r‰  r“  r  r™  r  r–  rŽ  r•  r  rš  r‘  r›  rœ  r”  rd   )NNNNNNNNNNNNNNTNN)r8   r9   r:   r;   Ú_tied_weights_keysr   r   r   r¸  rs   r=   r°   rŸ  r   rü  r>   rO   r   r2   rQ   r¬   r@   r³   r´   s   @r.   rˆ  rˆ  J  sæ  ø† òÐñ!˜{ð !¸HÀRÇYÁYÑ<O÷ !ð !ðF˜uŸ|™|ô ð
 ð 15Ø7;Ø48Ø=AØ15Ø15Ø26Ø37Ø7;Ø;?Ø-1Ø-1Ø-1Ø,0Ø%)Ø&*Ø&*ñ%k
à˜E×,Ñ,Ñ-ðk
ð # 5×#3Ñ#3Ñ4ðk
ð ˜u×0Ñ0Ñ1ð	k
ð
  (¨×(9Ñ(9Ñ:ðk
ð ! §¡Ñ.ðk
ð ! §¡Ñ.ðk
ð " %§,¡,Ñ/ðk
ð ˜u×/Ñ/Ñ0ðk
ð ' u§|¡|Ñ4ðk
ð +3°4©.ðk
ð ˜UŸ\™\Ñ*ðk
ð ˜UŸ\™\Ñ*ðk
ð ˜UŸ\™\Ñ*ðk
ð $ D™>ðk
ð  #ð!k
ð" ˜d‘^ð#k
ð$ ˜d‘^ð%k
ð& 
ˆuU—\‘\Ñ"Ð$=Ð=Ñ	>ô'k
ó ök
r6   rˆ  )rˆ  r3  rŽ  r†  r„  rw  r¼  )Hr<   rº   r  r   Údataclassesr   Útypingr   r   r   r=   Útorch.utils.checkpointr   Úactivationsr
   Úmodeling_layersr   Úmodeling_outputsr   r   Úmodeling_utilsr   r   r   Úutilsr   r   r   r   Úconfiguration_flavar   r   r   r   r   Ú
get_loggerr8   r«  rK  rµ  r¶  r  r   rB   rQ   r¸  ri   ry   rÊ   rî   r  r  r3  r@  rF  rS  rl  rw  rŽ  r¼  r„  r†  rþ  r  r%  r3  rX  rƒ  rj  rq  rˆ  Ú__all__r7   r6   r.   Ú<module>rÜ     s0  ðñ ã Û Ý #Ý !ß 'Ñ 'ã Û Ý å !Ý 9ß Kß cÑ cß DÓ D÷õ ð 
×	Ò	˜HÓ	%€à>Ð àÐ ØÐ à˜_Ð.>Ð@UÐUÑVÐ ð Ùðñô
{ó 
óó ð
ð< Ùðñô
+ó óó ððD ÙðñôWt ó Wtóó ðWtôx_˜2Ÿ9™9ô _ôH!b—i‘iô !ôH6˜"Ÿ)™)ô 6ôrF˜Ÿ™ô FôRb—i‘iô ô$'R—Y‘Yô 'ôT˜Ÿ	™	ô ô""—)‘)ô ô +Ð+ô +ô\'
2—9‘9ô '
ôT"—)‘)ô ð ôN˜?ó Nó ðNðD ô]
Ð*ó ]
ó ð]
ð@ ôm
Ð)ó m
ó ðm
ð` ô\
Ð/ó \
ó ð\
ð~ ôh
Ð%ó h
ó ðh
ôV	 §	¡	ô ô*C˜bŸi™iô Cô" 2§9¡9ô ñ( ðñôr)Ð-ó r)óðr)ôj 2§9¡9ô ô" §	¡	ô ô,
2—9‘9ô 
ô%9 §¡ô %9ñP ðñô
]
Ð.ó ]
óð
]
ò@r6   