ó
    <±hwb  ã                   óÞ  • S r SSKrSSKJr  SSKJr  SSKrSSKJs  J	r
  SSKJrJr  SSKJr  SSKJr  SS	KJr  SS
KJrJrJr  SSKJrJrJrJr  SSKJrJr  SSKJr  SSK J!r!  \RD                  " \#5      r$ " S S\!5      r%\\" SS9 " S S\5      5       5       r& " S S\5      r' " S S\5      r( " S S\\RR                  5      r* " S S\5      r+ " S S\5      r, " S  S!\5      r- " S" S#\R\                  5      r/ " S$ S%\RR                  5      r0 " S& S'\RR                  5      r1 " S( S)\RR                  5      r2\ " S* S+\5      5       r3\" S,S9 " S- S.\\RR                  5      5       r4/ S/Qr5g)0zPyTorch EoMT model.é    N)Ú	dataclass)ÚOptional)ÚTensorÚnné   )ÚACT2FN)ÚModelOutput)ÚPreTrainedModel)Úauto_docstringÚcan_return_tupleÚloggingé   )ÚDinov2EmbeddingsÚDinov2LayerÚDinov2LayerScaleÚDinov2PatchEmbeddings)Ú#Mask2FormerForUniversalSegmentationÚMask2FormerLoss)ÚSiglipAttention)Ú	ViTConfigc                   óˆ   ^ • \ rS rSrSrSr                          SS\S\S\S\S\S	\S
\4U 4S jjjrSr	U =r
$ )Ú
EomtConfigé1   aï  
This is the configuration class to store the configuration of a [`EomtForUniversalSegmentation`]. It is used to instantiate an EoMT model
according to the specified arguments, defining the model architecture. Instantiating a configuration with the
defaults will yield a similar configuration to that of the EoMT
[tue-mps/coco_panoptic_eomt_large_640](https://huggingface.co/tue-mps/coco_panoptic_eomt_large_640)
architecture.

Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
documentation from [`PretrainedConfig`] for more information.

Args:
    hidden_size (`int`, *optional*, defaults to 1024):
        Dimensionality of the hidden representations.
    num_hidden_layers (`int`, *optional*, defaults to 24):
        Number of hidden layers in the Transformer encoder.
    num_attention_heads (`int`, *optional*, defaults to 16):
        Number of attention heads in each attention layer.
    mlp_ratio (`int`, *optional*, defaults to 4):
        Ratio of the MLP hidden dimensionality to the hidden size.
    hidden_act (`str` or `function`, *optional*, defaults to `"gelu"`):
        The non-linear activation function (function or string) in the encoder.
    hidden_dropout_prob (`float`, *optional*, defaults to 0.0):
        The dropout probability for all fully connected layers in the embeddings and encoder.
    initializer_range (`float`, *optional*, defaults to 0.02):
        The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
    layer_norm_eps (`float`, *optional*, defaults to 1e-06):
        The epsilon used by the layer normalization layers.
    image_size (`int`, *optional*, defaults to 640):
        The size (resolution) of each input image.
    patch_size (`int`, *optional*, defaults to 16):
        The size (resolution) of each patch.
    num_channels (`int`, *optional*, defaults to 3):
        The number of input channels.
    layerscale_value (`float`, *optional*, defaults to 1.0):
        Initial value for the LayerScale parameter.
    drop_path_rate (`float`, *optional*, defaults to 0.0):
        The stochastic depth rate (drop path) used during training.
    num_upscale_blocks (`int`, *optional*, defaults to 2):
        Number of upsampling blocks used in the decoder or segmentation head.
    attention_dropout (`float`, *optional*, defaults to 0.0):
        Dropout probability applied after attention projection.
    use_swiglu_ffn (`bool`, *optional*, defaults to `False`):
        Whether to use the SwiGLU feedforward neural network.
    num_blocks (`int`, *optional*, defaults to 4):
        Number of feature blocks or stages in the architecture.
    no_object_weight (`float`, *optional*, defaults to 0.1):
        Loss weight for the 'no object' class in panoptic/instance segmentation.
    class_weight (`float`, *optional*, defaults to 2.0):
        Loss weight for classification targets.
    mask_weight (`float`, *optional*, defaults to 5.0):
        Loss weight for mask prediction.
    dice_weight (`float`, *optional*, defaults to 5.0):
        Loss weight for the dice loss component.
    train_num_points (`int`, *optional*, defaults to 12544):
        Number of points to sample for mask loss computation during training.
    oversample_ratio (`float`, *optional*, defaults to 3.0):
        Oversampling ratio used in point sampling for mask training.
    importance_sample_ratio (`float`, *optional*, defaults to 0.75):
        Ratio of points to sample based on importance during training.
    num_queries (`int`, *optional*, defaults to 200):
        Number of object queries in the Transformer.
    num_register_tokens (`int`, *optional*, defaults to 4):
        Number of learnable register tokens added to the transformer input.

Example:

```python
>>> from transformers import EomtConfig, EomtForUniversalSegmentation

>>> # Initialize configuration
>>> config = EomtConfig()

>>> # Initialize model
>>> model = EomtForUniversalSegmentation(config)

>>> # Access config
>>> config = model.config
```ÚeomtÚno_object_weightÚclass_weightÚmask_weightÚdice_weightÚtrain_num_pointsÚoversample_ratioÚimportance_sample_ratioc                 ó*  >• [         TU ]  " SUUUUUUUU	U
US.
UD6  U ?U ?U ?U ?U ?U ?X@l        Xðl	        XÀl
        XÐl        Xàl        UU l        UU l        UU l        UU l        UU l        UU l        UU l        UU l        UU l        UU l        UU l        g )N)
Úhidden_sizeÚnum_hidden_layersÚnum_attention_headsÚhidden_dropout_probÚ
hidden_actÚinitializer_rangeÚlayer_norm_epsÚ
image_sizeÚ
patch_sizeÚnum_channels© )ÚsuperÚ__init__Úintermediate_sizeÚqkv_biasÚ
pooler_actÚpooler_output_sizeÚencoder_strideÚattention_probs_dropout_probÚ	mlp_ratioÚattention_dropoutÚlayerscale_valueÚdrop_path_rateÚnum_upscale_blocksÚuse_swiglu_ffnÚ
num_blocksr   r   r   r   r   r    r!   Únum_queriesÚnum_register_tokens)Úselfr#   r$   r%   r6   r'   r&   r(   r)   r*   r+   r,   r8   r9   r:   r7   r;   r<   r   r   r   r   r   r    r!   r=   r>   ÚkwargsÚ	__class__s                               €Ú]/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/eomt/modular_eomt.pyr/   ÚEomtConfig.__init__ƒ   s×   ø€ ô< 	‰Òð 	
Ø#Ø/Ø 3Ø 3Ø!Ø/Ø)Ø!Ø!Ø%ñ	
ð ò	
ð Ð"ØˆMØˆOØÐ#ØÐØÐ-à"ŒØ!2ÔØ 0ÔØ,ÔØ"4ÔØ,ˆÔØ$ˆŒØ 0ˆÔØ(ˆÔØ&ˆÔØ&ˆÔØ 0ˆÔØ 0ˆÔØ'>ˆÔ$Ø&ˆÔØ#6ˆÕ ó    )r7   r   r   r9   r!   r8   r   r6   r   r<   r=   r>   r:   r    r   r;   )i   é   é   é   Úgeluç        g{®Gáz”?çíµ ÷Æ°>i€  rF   r   ç      ð?rI   r   rI   FrG   gš™™™™™¹?g       @ç      @rL   i 1  g      @g      è?éÈ   rG   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Ú
model_typeÚfloatÚintr/   Ú__static_attributes__Ú__classcell__©rA   s   @rB   r   r   1   sº   ø† ñMð^ €Jð ØØØØØØØØØØØØØØØØØ"%Ø!Ø Ø Ø %Ø"%Ø)-ØØñ7B7ð&  ð'B7ð( ð)B7ð* ð+B7ð, ð-B7ð. ð/B7ð0  ð1B7ð2 "'÷3B7ö B7rD   r   a˜  
    Class for outputs of [`EomtForUniversalSegmentationOutput`].

    This output can be directly passed to [`~EomtImageProcessor.post_process_semantic_segmentation`] or
    [`~EomtImageProcessor.post_process_instance_segmentation`] or
    [`~EomtImageProcessor.post_process_panoptic_segmentation`] to compute final segmentation maps. Please, see
    [`~EomtImageProcessor] for details regarding usage.
    )Úcustom_introc                   óD  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S	'   Sr\\\R$                        \	S
'   Srg)Ú"EomtForUniversalSegmentationOutputrM   aß  
loss (`torch.Tensor`, *optional*):
    The computed loss, returned when labels are present.
class_queries_logits (`torch.FloatTensor`):
    A tensor of shape `(batch_size, num_queries, num_labels + 1)` representing the proposed classes for each
    query. Note the `+ 1` is needed because we incorporate the null class.
masks_queries_logits (`torch.FloatTensor`):
    A tensor of shape `(batch_size, num_queries, height, width)` representing the proposed masks for each
    query.
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, num_channels, height, width)`):
    Last hidden states (final feature map) of the last layer.
hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each stage) of
    shape `(batch_size, sequence_length, hidden_size)`. Hidden-states all layers of the model.
attentions (`tuple(tuple(torch.FloatTensor))`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
    Tuple of `tuple(torch.FloatTensor)` (one for each layer) of shape `(batch_size, num_heads, sequence_length,
    sequence_length)`. Self and Cross Attentions weights from transformer decoder.
patch_offsets (`list[torch.Tensor]`, *optional*):
    list of tuples indicating the image index and start and end positions of patches for semantic segementation.
NÚlossÚclass_queries_logitsÚmasks_queries_logitsÚlast_hidden_stateÚhidden_statesÚ
attentionsÚpatch_offsetsr-   )rN   rO   rP   rQ   rR   r\   r   ÚtorchÚFloatTensorÚ__annotations__r]   r^   r_   r`   Útuplera   rb   Úlistr   rV   r-   rD   rB   r[   r[   È   s¬   ‡ ñð* )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø8<Ð˜( 5×#4Ñ#4Ñ5Ó<Ø8<Ð˜( 5×#4Ñ#4Ñ5Ó<Ø59Ðx × 1Ñ 1Ñ2Ó9Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ó9Ø26€M8˜D §¡Ñ.Ñ/Ö6rD   r[   c                   ó   • \ rS rSrSrg)ÚEomtLosséò   r-   N©rN   rO   rP   rQ   rV   r-   rD   rB   ri   ri   ò   ó   † ÚrD   ri   c                   ó   • \ rS rSrSrg)ÚEomtPatchEmbeddingséö   r-   Nrk   r-   rD   rB   rn   rn   ö   rl   rD   rn   c                   óf   • \ rS rSrS\SS4S jrS rS\R                  S\R                  4S jr	S	r
g)
ÚEomtEmbeddingséú   ÚconfigÚreturnNc                 óÒ  • [        5       R                  5         Xl        UR                  U l        [        R
                  " [        R                  " SSUR                  5      5      U l	        [        R
                  " [        R                  " SUR                  UR                  5      5      U l        [        U5      U l        U R                  R                  n[        R                   " UR"                  5      U l        SUR                  -   U l        [        R(                  " X!R                  5      U l        U R-                  S[        R.                  " U5      R1                  S5      SS9  g )Né   Úposition_ids)rv   éÿÿÿÿF)Ú
persistent)r   r/   rs   r+   r   Ú	Parameterrc   Úrandnr#   Ú	cls_tokenÚzerosr>   Úregister_tokensrn   Úpatch_embeddingsÚnum_patchesÚDropoutr&   ÚdropoutÚnum_prefix_tokensÚ	EmbeddingÚposition_embeddingsÚregister_bufferÚarangeÚexpand)r?   rs   r€   s      rB   r/   ÚEomtEmbeddings.__init__û   sù   € ÜÓ×#Ñ#Ô%àŒØ ×+Ñ+ˆŒäŸš¤e§k¢k°!°Q¸×8JÑ8JÓ&KÓLˆŒÜ!Ÿ|š|¬E¯KªK¸¸6×;UÑ;UÐW]×WiÑWiÓ,jÓkˆÔä 3°FÓ ;ˆÔØ×+Ñ+×7Ñ7ˆÜ—z’z &×"<Ñ"<Ó=ˆŒØ!" V×%?Ñ%?Ñ!?ˆÔÜ#%§<¢<°×=OÑ=OÓ#PˆÔ Ø×Ñ˜^¬U¯\ª\¸+Ó-F×-MÑ-MÈgÓ-VÐchÐÒirD   c                 ó   • [        S5      e)NzNot needed for Eomt Model©ÚAttributeError©r?   s    rB   Úinterpolate_pos_encodingÚ'EomtEmbeddings.interpolate_pos_encoding  s   € ÜÐ8Ó9Ð9rD   Úpixel_valuesc                 ó¶  • UR                   u  n    nU R                  R                  R                  R                  nU R                  UR                  US95      nU R                  R                  USS5      nU R                  R                  USS5      nXPR                  U R                  5      -   n[        R                  " XgU/SS9nU R                  U5      nU$ )N)Údtyperx   rv   ©Údim)Úshaper   Ú
projectionÚweightr’   Útor|   rˆ   r~   r…   rw   rc   Úcatr‚   )r?   r   Ú
batch_sizeÚ_Útarget_dtypeÚ
embeddingsÚ
cls_tokensr~   s           rB   ÚforwardÚEomtEmbeddings.forward  sÂ   € Ø*×0Ñ0Ñˆ
Aq˜!Ø×,Ñ,×7Ñ7×>Ñ>×DÑDˆØ×*Ñ*¨<¯?©?À¨?Ð+NÓOˆ
à—^‘^×*Ñ*¨:°r¸2Ó>ˆ
Ø×.Ñ.×5Ñ5°jÀ"ÀbÓIˆà×":Ñ":¸4×;LÑ;LÓ"MÑMˆ
Ü—Y’Y 
¸ZÐHÈaÑPˆ
à—\‘\ *Ó-ˆ
àÐrD   )r|   rs   r‚   rƒ   r   r+   r…   r~   )rN   rO   rP   rQ   r   r/   rŽ   rc   r   rŸ   rV   r-   rD   rB   rq   rq   ú   s8   † ðj˜zð j¨dô jò :ð E§L¡Lð °U·\±\÷ rD   rq   c                   ó   • \ rS rSrSrg)ÚEomtAttentioni  r-   Nrk   r-   rD   rB   r¢   r¢     rl   rD   r¢   c                   ó   • \ rS rSrSrg)ÚEomtLayerScalei"  r-   Nrk   r-   rD   rB   r¤   r¤   "  rl   rD   r¤   c                   ó   • \ rS rSrSrg)Ú	EomtLayeri&  r-   Nrk   r-   rD   rB   r¦   r¦   &  rl   rD   r¦   c                   óf   ^ • \ rS rSrSU 4S jjrS\R                  S\R                  4S jrSrU =r	$ )ÚEomtLayerNorm2di*  c                 ó"   >• [         TU ]  XUS9  g )N)ÚepsÚelementwise_affine)r.   r/   )r?   r,   rª   ÚaffinerA   s       €rB   r/   ÚEomtLayerNorm2d.__init__+  s   ø€ Ü‰Ñ˜À6ÐÒJrD   Úhidden_statert   c                 óØ   • UR                  SSSS5      n[        R                  " XR                  U R                  U R
                  U R                  5      nUR                  SSSS5      nU$ )Nr   r   r   rv   )ÚpermuteÚFÚ
layer_normÚnormalized_shaper—   Úbiasrª   )r?   r®   s     rB   rŸ   ÚEomtLayerNorm2d.forward.  s`   € Ø#×+Ñ+¨A¨q°!°QÓ7ˆÜ—|’| L×2GÑ2GÈÏÉÐVZ×V_ÑV_Ðae×aiÑaiÓjˆØ#×+Ñ+¨A¨q°!°QÓ7ˆØÐrD   r-   )rJ   T)
rN   rO   rP   rQ   r/   rc   r   rŸ   rV   rW   rX   s   @rB   r¨   r¨   *  s)   ø† ÷Kð E§L¡Lð °U·\±\÷ ò rD   r¨   c                   ój   ^ • \ rS rSrS\4U 4S jjrS\R                  S\R                  4S jr	Sr
U =r$ )ÚEomtScaleLayeri5  rs   c           	      óü   >• [         TU ]  5         UR                  n[        R                  " X"SSS9U l        [        UR                     U l        [        R                  " UUSSUSS9U l
        [        U5      U l        g )Nr   )Úkernel_sizeÚstrider   rv   F)r¹   ÚpaddingÚgroupsr´   )r.   r/   r#   r   ÚConvTranspose2dÚconv1r   r'   Ú
activationÚConv2dÚconv2r¨   Úlayernorm2d©r?   rs   r#   rA   s      €rB   r/   ÚEomtScaleLayer.__init__6  ss   ø€ Ü‰ÑÔØ×(Ñ(ˆÜ×'Ò'¨ÈaÐXYÑZˆŒ
Ü  ×!2Ñ!2Ñ3ˆŒÜ—Y’YØØØØØØñ
ˆŒ
ô +¨;Ó7ˆÕrD   r`   rt   c                 óŽ   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ ©N)r¾   r¿   rÁ   rÂ   ©r?   r`   s     rB   rŸ   ÚEomtScaleLayer.forwardF  sB   € ØŸ
™
 =Ó1ˆØŸ™¨Ó6ˆØŸ
™
 =Ó1ˆØ×(Ñ(¨Ó7ˆØÐrD   )r¿   r¾   rÁ   rÂ   )rN   rO   rP   rQ   r   r/   rc   Útensorr   rŸ   rV   rW   rX   s   @rB   r·   r·   5  s/   ø† ð8˜z÷ 8ð  U§\¡\ð °e·l±l÷ ò rD   r·   c                   ój   ^ • \ rS rSrS\4U 4S jjrS\R                  S\R                  4S jrSr	U =r
$ )ÚEomtScaleBlockiN  rs   c                 óÜ   >• [         TU ]  5         UR                  U l        [        R
                  " [        U R                  5       Vs/ sH  n[        U5      PM     sn5      U l        g s  snf rÆ   )	r.   r/   r:   r<   r   Ú
ModuleListÚranger·   Úblock)r?   rs   r›   rA   s      €rB   r/   ÚEomtScaleBlock.__init__O  sM   ø€ Ü‰ÑÔØ ×3Ñ3ˆŒÜ—]’]ÄEÈ$Ï/É/ÔDZÓ#[ÑDZ¸q¤N°6Ö$:ÑDZÑ#[Ó\ˆ
ùÒ#[s   ÁA)r`   rt   c                 ó<   • U R                    H  nU" U5      nM     U$ rÆ   )rÏ   )r?   r`   rÏ   s      rB   rŸ   ÚEomtScaleBlock.forwardT  s    € Ø—Z”ZˆEÙ! -Ó0ŠMñ  àÐrD   )rÏ   r<   ©rN   rO   rP   rQ   r   r/   rc   r   rŸ   rV   rW   rX   s   @rB   rË   rË   N  s1   ø† ð]˜z÷ ]ð
 U§\¡\ð °e·l±l÷ ò rD   rË   c                   ój   ^ • \ rS rSrS\4U 4S jjrS\R                  S\R                  4S jrSr	U =r
$ )ÚEomtMaskHeadiZ  rs   c                 ó  >• [         TU ]  5         UR                  n[        R                  " X"5      U l        [        R                  " X"5      U l        [        R                  " X"5      U l        [        UR                     U l
        g rÆ   )r.   r/   r#   r   ÚLinearÚfc1Úfc2Úfc3r   r'   r¿   rÃ   s      €rB   r/   ÚEomtMaskHead.__init__[  s[   ø€ Ü‰ÑÔà×(Ñ(ˆÜ—9’9˜[Ó6ˆŒÜ—9’9˜[Ó6ˆŒÜ—9’9˜[Ó6ˆŒÜ  ×!2Ñ!2Ñ3ˆrD   r`   rt   c                 ó¨   • U R                  U R                  U5      5      nU R                  U R                  U5      5      nU R                  U5      nU$ rÆ   ©r¿   rØ   rÙ   rÚ   rÇ   s     rB   rŸ   ÚEomtMaskHead.forwardd  sD   € ØŸ™¨¯©°Ó(?Ó@ˆØŸ™¨¯©°Ó(?Ó@ˆØŸ™ Ó/ˆØÐrD   rÝ   rÓ   rX   s   @rB   rÕ   rÕ   Z  s/   ø† ð4˜z÷ 4ð U§\¡\ð °e·l±l÷ ò rD   rÕ   c                   ód   • \ rS rSr% Sr\\S'   SrSrSr	S/r
SrSrS	\R                  S
S4S jrSrg)ÚEomtPreTrainedModelik  zz
An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained
models.
rs   r   r   Fr¦   TÚmodulert   Nc                 óD  • U R                   R                  n[        U[        R                  [        R
                  [        R                  45      (       aÃ  [        R                  R                  UR                  [        R                  " S5      S9  UR                  by  [        R                  R                  UR                  5      u  p4US:”  a  S[        R                  " U5      -  OSn[        R                  R                  UR                  U* U5        g g [        U[        R                  5      (       aJ  UR                  R                   R#                  S5        UR                  R                   R%                  5         g [        U[        R&                  5      (       ad  UR                  R                   R)                  SSS9  UR*                  b2  UR                  R                   UR*                     R%                  5         g g [        U[,        5      (       aL  [/        US5      (       a:  UR0                  R                   R#                  U R                   R2                  5        g g [        U[4        5      (       a§  [        R                  R7                  UR8                  R                   R;                  [<        R>                  5      SUS9R;                  UR8                  R@                  5      UR8                  l        URB                  R                   R%                  5         g g )	Né   )Úar   rv   rK   rI   )ÚmeanÚstdÚlambda1)"rs   r(   Ú
isinstancer   r×   rÀ   r½   ÚinitÚkaiming_uniform_r—   ÚmathÚsqrtr´   Ú_calculate_fan_in_and_fan_outÚuniform_Ú	LayerNormÚdataÚfill_Úzero_r„   Únormal_Úpadding_idxr¤   Úhasattrrç   r8   rq   Útrunc_normal_r|   r˜   rc   Úfloat32r’   r~   )r?   rá   ræ   Úfan_inr›   Úbounds         rB   Ú_init_weightsÚ!EomtPreTrainedModel._init_weightsz  s!  € Øk‰k×+Ñ+ˆÜfœrŸy™y¬"¯)©)´R×5GÑ5GÐH×IÑIÜG‰G×$Ñ$ V§]¡]´d·i²iÀ³lÐ$ÑCØ{‰{Ñ&ÜŸG™G×AÑAÀ&Ç-Á-ÓP‘	Ø17¸!³˜œDŸIšI fÓ-Ò-ÀÜ—‘× Ñ  §¡¨u¨f°eÕ<ð 'ô ˜¤§¡×-Ñ-ØM‰M×Ñ×$Ñ$ SÔ)ØK‰K×Ñ×"Ñ"Õ$Ü˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°QÐ&Ñ7Ø×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤×/Ñ/Üv˜y×)Ñ)Ø—‘×#Ñ#×)Ñ)¨$¯+©+×*FÑ*FÕGð *ä˜¤×/Ñ/Ü$&§G¡G×$9Ñ$9Ø× Ñ ×%Ñ%×(Ñ(¬¯©Ó7¸cÀsð %:ð %ç‰b×!Ñ!×'Ñ'Ó(ð ×ÑÔ!ð ×"Ñ"×'Ñ'×-Ñ-Õ/ð	 0rD   r-   )rN   rO   rP   rQ   rR   r   re   Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_sdpaÚ_supports_flash_attnr   ÚModulerú   rV   r-   rD   rB   rà   rà   k  sJ   ‡ ñð
 ÓØÐØ$€OØ&+Ð#Ø$˜ÐØ€NØÐð0 B§I¡Ið 0°$÷ 0rD   rà   zV
    The EoMT Model with head on top for instance/semantic/panoptic segmentation.
    c                   óØ   • \ rS rSrS\SS4S jrS rS rS\R                  4S	 jr
\S
 5       r\\     SS\	S\\\	      S\\\	      S\\   S\\   S\\\	      4S jj5       5       rSrg)ÚEomtForUniversalSegmentationi“  rs   rt   Nc                 ó  • [         R                  " 5       R                  U5        Xl        UR                  U l        [        U5      U l        [         R                  " UR                  UR                  S9U l
        [         R                  " UR                  UR                  5      U l        [         R                  " [        UR                  5       Vs/ sH  n[!        U5      PM     sn5      U l        [%        U5      U l        [)        U5      U l        [         R,                  " UR                  UR.                  S-   5      U l        UR2                  UR4                  -  UR2                  UR4                  -  4U l        UR8                  UR:                  UR<                  S.U l        [A        XR>                  S9U l!        U RE                  S[F        RH                  " URJ                  5      5        U RM                  5         g s  snf )N)rª   rv   )Úloss_cross_entropyÚ	loss_maskÚ	loss_dice)rs   Úweight_dictÚattn_mask_probs)'r   r  r/   rs   r$   rq   r   rï   r#   r)   Ú	layernormr„   r=   ÚqueryrÍ   rÎ   r¦   ÚlayersrË   Úupscale_blockrÕ   Ú	mask_headr×   Ú
num_labelsÚclass_predictorr*   r+   Ú	grid_sizer   r   r   r	  ri   Ú	criterionr†   rc   Úonesr<   Ú	post_init)r?   rs   r›   s      rB   r/   Ú%EomtForUniversalSegmentation.__init__™  sx  € Ü
	Š	‹×Ñ˜VÔ$ØŒØ!'×!9Ñ!9ˆÔÜ(¨Ó0ˆŒÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒä—\’\ &×"4Ñ"4°f×6HÑ6HÓIˆŒ
Ü—m’mÄÀf×F^ÑF^Ô@_Ó$`Ñ@_¸1¤Y¨vÖ%6Ñ@_Ñ$`ÓaˆŒä+¨FÓ3ˆÔÜ% fÓ-ˆŒä!Ÿyšy¨×);Ñ);¸V×=NÑ=NÐQRÑ=RÓSˆÔà ×+Ñ+¨v×/@Ñ/@Ñ@À&×BSÑBSÐW]×WhÑWhÑBhÐiˆŒà"(×"5Ñ"5Ø×+Ñ+Ø×+Ñ+ñ.
ˆÔô "¨×=MÑ=MÑNˆŒà×ÑÐ.´·
²
¸6×;LÑ;LÓ0MÔNà‰Õùò% %as   ÃG=c                 ó.   • U R                   R                  $ rÆ   )r   r   r   s    rB   Úget_input_embeddingsÚ1EomtForUniversalSegmentation.get_input_embeddingsµ  s   € Ø‰×/Ñ/Ð/rD   c                 ó   • [        S5      e)NzNote needed for Eomt Model.r‹   r   s    rB   Úget_auxiliary_logitsÚ1EomtForUniversalSegmentation.get_auxiliary_logits¸  s   € ÜÐ:Ó;Ð;rD   Úlogitsc                 óÌ  • US S 2S U R                   R                  2S S 24   nU R                  U5      nUS S 2U R                   R                  U R                  R                  -   S 2S S 24   nUR                  SS5      nUR                  " UR                  S   S/U R                  Q76 nU R                  U5      nU R                  U5      n[        R                  " SX$5      nXS4$ )Nrv   r   r   rx   zbqc, bchw -> bqhw)rs   r=   r  r   rƒ   Ú	transposeÚreshaper•   r  r  r  rc   Úeinsum)r?   r  Úquery_tokensÚclass_logitsÚprefix_tokensÚmask_logitss         rB   ÚpredictÚ$EomtForUniversalSegmentation.predict»  sÑ   € ØšaÐ!: 4§;¡;×#:Ñ#:Ð!:ºAÐ=Ñ>ˆØ×+Ñ+¨LÓ9ˆàšq $§+¡+×"9Ñ"9¸D¿O¹O×<]Ñ<]Ñ"]Ñ"_ÒabÐbÑcˆØ%×/Ñ/°°1Ó5ˆà%×-Ò-¨m×.AÑ.AÀ!Ñ.DÀbÐZÈ4Ï>É>ÒZˆà—~‘~ lÓ3ˆØ×*Ñ*¨=Ó9ˆä—l’lÐ#6¸ÓTˆàÐ(Ð(rD   c                 ó~   • US:  a6  [         R                  " U R                  S   X$S9U:„  nSU S S 2S U2US 24   U'   U $ )Nrv   r   )Údevice)rc   Úrandr•   )Ú	attn_maskÚprobÚnum_query_tokensÚencoder_start_tokensr)  Úrandom_queriess         rB   Ú_disable_attention_maskÚ4EomtForUniversalSegmentation._disable_attention_maskË  sT   € à!‹8ä"ŸZšZ¨	¯©¸Ñ(:Ð<LÑ\Ð_cÑcˆNð VWˆI’aÐ*Ð*Ð*Ð,@Ñ,AÐAÑBÀ>ÑRàÐrD   r   Úmask_labelsÚclass_labelsÚoutput_hidden_statesÚoutput_attentionsrb   c           
      ó  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU(       a  SOSnU(       a  SOSnSu  pšSnUc  [        S5      eU R	                  U5      n[        U R                  5       GHì  u  pÞU(       a  X|4-  nXÐR                  U R                   R                  -
  :X  am  U R                  R                  SSS2SS24   R                  UR                  S   SS5      R                  UR                  5      n[        R                   " Xü4SS9nXÐR                  U R                   R                  -
  :¼  Gaÿ  U R"                  (       d7  U R$                  XÐR                  -
  U R                   R                  -      S:”  Ga·  U R'                  U5      nU R)                  U5      u  nnU	U4-  n	U
U4-  n
[        R*                  " UR                  S   UR                  S   UR                  S   UR                  [        R,                  S	9n[.        R0                  " UU R2                  S
S9nUR5                  UR7                  S5      UR7                  S5      S5      nU R                   R8                  nUU R                  R:                  -   nUS:„  USS2SU2US24'   U R=                  UU R$                  XÐR                  -
  U R                   R                  -      UUUR                  S9nUSS2SS4   R                  SU R                   R>                  SS5      nURA                  5       RC                  U) S5      nU" XËU5      nUS   nU(       d  GMã  UUS   4-  nGMï     U R'                  U5      nU(       a  UU4-  nU R)                  U5      u  nnU	U4-  n	U
U4-  n
SnUbA  Ub>  Sn[E        Xš5       H-  u  nnU RG                  UUUUSS9nUU RI                  U5      -  nM/     [K        UUUUUUUS9$ )a(  
mask_labels (`list[torch.Tensor]`, *optional*):
    list of mask labels of shape `(num_labels, height, width)` to be fed to a model
class_labels (`list[torch.LongTensor]`, *optional*):
    list of target class labels of shape `(num_labels, height, width)` to be fed to a model. They identify the
    labels of `mask_labels`, e.g. the label of `mask_labels[i][j]` if `class_labels[i][j]`.
patch_offsets (`list[torch.Tensor]`, *optional*):
    list of tuples indicating the image index and start and end positions of patches for semantic segementation.
Nr-   )r-   r-   z You have to specify pixel_valuesr   rx   rv   r“   )r)  r’   Úbilinear)ÚsizeÚmode)r,  r-  r.  r)  .g    eÍÍÁrI   )r^   r]   r2  r3  Úauxiliary_predictions)r\   r^   r]   r_   r`   ra   rb   )&rs   r4  r5  Ú
ValueErrorr   Ú	enumerater  r$   r<   r  r—   rˆ   r•   r˜   r)  rc   r™   Útrainingr
  r  r&  r  Úboolr±   Úinterpolater  Úviewr8  r=   rƒ   r0  r%   rT   Úmasked_fillÚzipÚget_loss_dictÚget_lossr[   )r?   r   r2  r3  r4  r5  rb   Úall_hidden_statesÚall_attentionsÚmasks_queries_logits_per_layerÚclass_queries_logits_per_layerÚattention_maskr`   ÚidxÚlayer_moduler  Únorm_hidden_statesr^   r]   Úinterpolated_logitsr-  r.  Úlayer_outputsÚsequence_outputr\   Ú	loss_dicts                             rB   rŸ   Ú$EomtForUniversalSegmentation.forwardÖ  s9  € ð* %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐæ"6™B¸DÐÞ0™°dˆàIOÑFÐ&ØˆàÑÜÐ?Ó@Ð@àŸ™¨Ó5ˆä!*¨4¯;©;×!7ÑˆCÞ#Ø!Ð%5Ñ5Ð!à×,Ñ,¨t¯{©{×/EÑ/EÑEÓEØŸ
™
×)Ñ)¨$²²1¨*Ñ5×<Ñ<¸]×=PÑ=PÐQRÑ=SÐUWÐY[Ó\×_Ñ_Ð`m×`tÑ`tÓuÜ %§	¢	¨5Ð*@ÀaÑ Hà×,Ñ,¨t¯{©{×/EÑ/EÑEÔEØ—— ×!5Ñ!5°c×<RÑ<RÑ6RÐUY×U`ÑU`×UkÑUkÑ6kÑ!lÐopÔ!pà%)§^¡^°MÓ%BÐ"Ø=A¿\¹\ÐJ\Ó=]Ñ:Ð$Ð&:à.Ð3GÐ2IÑIÐ.Ø.Ð3GÐ2IÑIÐ.ä!&§¢Ø!×'Ñ'¨Ñ*Ø!×'Ñ'¨Ñ*Ø!×'Ñ'¨Ñ*Ø(×/Ñ/ÜŸ*™*ñ"ô '(§m¢mÐ4HÈtÏ~É~ÐdnÑ&oÐ#Ø&9×&>Ñ&>Ø'×,Ñ,¨QÓ/Ð1D×1IÑ1IÈ!Ó1LÈbó'Ð#ð $(§;¡;×#:Ñ#:Ð Ø'7¸$¿/¹/×:[Ñ:[Ñ'[Ð$ð ObÐdeÑNešqÐ"3Ð#3Ð"3Ð5IÑ5JÐJÑKð "&×!=Ñ!=Ø"Ø×-Ñ-¨c×4JÑ4JÑ.JÈTÏ[É[×McÑMcÑ.cÑdØ%5Ø)=Ø)×0Ñ0ð ">ð "ð "0²°4¸°Ñ!=×!DÑ!DÀRÈÏÉ×IhÑIhÐjlÐnpÓ!qØ!/×!5Ñ!5Ó!7×!CÑ!CÀ^ÀOÐUYÓ!Zá(¨ÐHYÓZˆMØ)¨!Ñ,ˆMç Ñ Ø =°Ñ#3Ð"5Ñ5“ñk "8ðn Ÿ.™.¨Ó7ˆÞØ /Ð!3Ñ3Ðà59·\±\À/Ó5RÑ2ÐÐ2Ø&Ð+?Ð*AÑAÐ&Ø&Ð+?Ð*AÑAÐ&àˆØÑ" |Ñ'?ØˆDÜ>AØ.ö?Ñ:Ð$Ð&:ð !×.Ñ.Ø)=Ø)=Ø +Ø!-Ø*.ð /ð 	ð ˜Ÿ™ iÓ0Ñ0’ñ?ô 2ØØ!5Ø!5Ø-Ø+Ø%Ø'ñ
ð 	
rD   )r  rs   r  r   r  r  r  r  r$   r  r  r	  )NNNNN)rN   rO   rP   rQ   r   r/   r  r  rc   r   r&  Ústaticmethodr0  r   r   r   rg   r>  rŸ   rV   r-   rD   rB   r  r  “  sÕ   † ð˜zð ¨dô ò80ò<ð)˜eŸl™lô )ð  ñó ðð Øð /3Ø/3Ø/3Ø,0Ø04ñx
àðx
ð ˜d 6™lÑ+ðx
ð ˜t F™|Ñ,ð	x
ð
 ' t™nðx
ð $ D™>ðx
ð    V¡Ñ-ôx
ó ó óx
rD   r  )r   rà   r  )6rR   rë   Údataclassesr   Útypingr   rc   Útorch.nn.functionalr   Ú
functionalr±   r   Úactivationsr   Ú
file_utilsr	   Úmodeling_utilsr
   Úutilsr   r   r   Údinov2.modeling_dinov2r   r   r   r   Ú mask2former.modeling_mask2formerr   r   Úsiglip.modeling_siglipr   Úvit.configuration_vitr   Ú
get_loggerrN   Úloggerr   r[   ri   rn   r  rq   r¢   r¤   r¦   rï   r¨   r·   rË   rÕ   rà   r  Ú__all__r-   rD   rB   Ú<module>rb     s€  ðñ ã Ý !Ý ã ß Ð ß å !õõ .÷ñ ÷
ó ÷ dÝ 4Ý -ð 
×	Ò	˜HÓ	%€ôT7ô T7ðn Ùðñ	ô7¨ó 7ó	ó ð7ô>	ˆô 	ô	Ð/ô 	ô!Ð% r§y¡yô !ôH	Oô 	ô	Ð%ô 	ô	ô 	ôb—l‘lô ôR—Y‘Yô ô2	R—Y‘Yô 	ô2—9‘9ô ð" ô$0˜/ó $0ó ð$0ñN ðñô
x
Ð#FÈÏ	É	ó x
óð
x
òv PrD   