ó
    <±hz)  ã                   ó¼  • S r SSKJr  SSKJr  SSKrSSKJr  SSKJr  SSK	J
r
Jr  SS	KJr  S
SKJr  \\" SS9 " S S\
5      5       5       r\ " S S\5      5       r " S S\R$                  5      r " S S\R$                  5      r " S S\R$                  5      r " S S\R$                  5      r " S S\R$                  5      r\" SS9 " S S\5      5       rSS/rg)zPyTorch ViTMatte model.é    )Ú	dataclass)ÚOptionalN)Únné   )ÚPreTrainedModel)ÚModelOutputÚauto_docstring)Úload_backboneé   )ÚVitMatteConfigz4
    Class for outputs of image matting models.
    )Úcustom_introc                   óÆ   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Srg)	ÚImageMattingOutputé   a‘  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
    Loss.
alphas (`torch.FloatTensor` of shape `(batch_size, num_channels, height, width)`):
    Estimated alpha values.
hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings, if the model has an embedding layer, +
    one for the output of each stage) of shape `(batch_size, sequence_length, hidden_size)`. Hidden-states
    (also called feature maps) of the model at the output of each stage.
NÚlossÚalphasÚhidden_statesÚ
attentions© )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   r   ÚtorchÚFloatTensorÚ__annotations__r   r   Útupler   Ú__static_attributes__r   ó    Úf/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/vitmatte/modeling_vitmatte.pyr   r      sg   ‡ ñ	ð )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø*.€FˆHU×&Ñ&Ñ'Ó.Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ö9r    r   c                   óN   • \ rS rSr% \\S'   SrSr/ rS\	R                  4S jrSrg)	ÚVitMattePreTrainedModelé5   ÚconfigÚpixel_valuesTÚmodulec                 ó8  • [        U[        R                  [        R                  45      (       ak  UR                  R
                  R                  SU R                  R                  S9  UR                  b%  UR                  R
                  R                  5         g g g )Ng        )ÚmeanÚstd)Ú
isinstancer   ÚConv2dÚBatchNorm2dÚweightÚdataÚnormal_r%   Úinitializer_rangeÚbiasÚzero_)Úselfr'   s     r!   Ú_init_weightsÚ%VitMattePreTrainedModel._init_weights<   sm   € ÜfœrŸy™y¬"¯.©.Ð9×:Ñ:ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ð ;r    r   N)r   r   r   r   r   r   Úmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesr   ÚModuler5   r   r   r    r!   r#   r#   5   s)   ‡ àÓØ$€OØ&*Ð#ØÐð) B§I¡I÷ )r    r#   c                   ó6   ^ • \ rS rSrSrSU 4S jjrS rSrU =r$ )ÚVitMatteBasicConv3x3éC   zH
Basic convolution layers including: Conv3x3, BatchNorm2d, ReLU layers.
c           	      óØ   >• [         TU ]  5         [        R                  " UUSUUSS9U l        [        R
                  " X1R                  S9U l        [        R                  " 5       U l	        g )Nr   F)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚpaddingr2   )Úeps)
ÚsuperÚ__init__r   r,   Úconvr-   Úbatch_norm_epsÚ
batch_normÚReLUÚrelu)r4   r%   r?   r@   rB   rC   Ú	__class__s         €r!   rF   ÚVitMatteBasicConv3x3.__init__H   sU   ø€ Ü‰ÑÔÜ—I’IØ#Ø%ØØØØñ
ˆŒ	ô Ÿ.š.¨×;PÑ;PÑQˆŒÜ—G’G“Iˆ	r    c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ ©N)rG   rI   rK   ©r4   Úhidden_states     r!   ÚforwardÚVitMatteBasicConv3x3.forwardU   s2   € Ø—y‘y Ó.ˆØ—‘ |Ó4ˆØ—y‘y Ó.ˆàÐr    )rI   rG   rK   )é   r   ©	r   r   r   r   r   rF   rR   r   Ú__classcell__©rL   s   @r!   r<   r<   C   s   ø† ñ÷÷ð r    r<   c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚVitMatteConvStreamé]   z[
Simple ConvStream containing a series of basic conv3x3 layers to extract detail features.
c                 óª  >• [         TU ]  5         SnUR                  b  UR                  R                  nUR                  n[
        R                  " 5       U l        U/U-   U l        [        [        U R                  5      S-
  5       HI  nU R                  U   nU R                  US-      nU R                  R                  [        XU5      5        MK     g )Né   r   )rE   rF   Úbackbone_configÚnum_channelsÚconvstream_hidden_sizesr   Ú
ModuleListÚconvsÚ
conv_chansÚrangeÚlenÚappendr<   )r4   r%   r?   r@   ÚiÚin_chan_Ú	out_chan_rL   s          €r!   rF   ÚVitMatteConvStream.__init__b   s¯   ø€ Ü‰ÑÔð ˆØ×!Ñ!Ñ-Ø ×0Ñ0×=Ñ=ˆKà×5Ñ5ˆä—]’]“_ˆŒ
Ø&˜-¨,Ñ6ˆŒä”s˜4Ÿ?™?Ó+¨aÑ/Ö0ˆAØ—‘ qÑ)ˆHØŸ™¨¨A©Ñ.ˆIØJ‰J×ÑÔ2°6ÀYÓOÖPò 1r    c                 ó°   • SU0nUn[        [        U R                  5      5       H-  nU R                  U   " U5      nS[        US-   5      -   nX2U'   M/     U$ )NÚdetailed_feature_map_0Údetailed_feature_map_r   )rc   rd   ra   Ústr)r4   r&   Úout_dictÚ
embeddingsrf   Úname_s         r!   rR   ÚVitMatteConvStream.forwardu   sZ   € Ø,¨lÐ;ˆØ!ˆ
Ü”s˜4Ÿ:™:“Ö'ˆAØŸ™ Aš zÓ2ˆJØ+¬c°!°a±%«jÑ8ˆEØ(U‹Oñ (ð
 ˆr    )rb   ra   rU   rW   s   @r!   rY   rY   ]   s   ø† ñõQ÷&ð r    rY   c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚVitMatteFusionBlocké€   zT
Simple fusion block to fuse features from ConvStream and Plain Vision Transformer.
c                 óD   >• [         TU ]  5         [        XUSSS9U l        g )Nr   )rB   rC   )rE   rF   r<   rG   )r4   r%   r?   r@   rL   s       €r!   rF   ÚVitMatteFusionBlock.__init__…   s"   ø€ Ü‰ÑÔÜ(¨¸lÐSTÐ^_Ñ`ˆ	r    c                 ó”   • [         R                  R                  USSSS9n[        R                  " X#/SS9nU R                  U5      nU$ )NrT   ÚbilinearF)Úscale_factorÚmodeÚalign_cornersr   )Údim)r   Ú
functionalÚinterpolater   ÚcatrG   )r4   ÚfeaturesÚdetailed_feature_mapÚupscaled_featuresÚouts        r!   rR   ÚVitMatteFusionBlock.forward‰   sH   € ÜŸM™M×5Ñ5°hÈQÐU_ÐotÐ5ÐuÐÜiŠiÐ-ÐAÀqÑIˆØi‰i˜‹nˆàˆ
r    )rG   rU   rW   s   @r!   rs   rs   €   s   ø† ñõa÷ð r    rs   c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚVitMatteHeadé‘   zB
Simple Matting Head, containing only conv3x3 and conv1x1 layers.
c                 ó&  >• [         TU ]  5         UR                  S   nSn[        R                  " [        R
                  " X#SSSS9[        R                  " U5      [        R                  " S5      [        R
                  " USSSSS95      U l        g )Néÿÿÿÿé   r   r   )rA   rB   rC   Tr   )	rE   rF   Úfusion_hidden_sizesr   Ú
Sequentialr,   r-   rJ   Úmatting_convs)r4   r%   r?   Úmid_channelsrL   s       €r!   rF   ÚVitMatteHead.__init__–   sr   ø€ Ü‰ÑÔà×0Ñ0°Ñ4ˆØˆäŸ]š]ÜIŠIk¸QÀqÐRSÑTÜNŠN˜<Ó(ÜGŠGD‹MÜIŠIl A°1¸QÈÑJó	
ˆÕr    c                 ó(   • U R                  U5      nU$ rO   ©r   rP   s     r!   rR   ÚVitMatteHead.forward£   s   € Ø×)Ñ)¨,Ó7ˆàÐr    r‘   rU   rW   s   @r!   r†   r†   ‘   s   ø† ñõ
÷ð r    r†   c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚVitMatteDetailCaptureModuleé©   z?
Simple and lightweight Detail Capture Module for ViT Matting.
c           
      ó„  >• [         TU ]  5         [        UR                  5      [        UR                  5      S-   :w  a  [        S5      eXl        [        U5      U l        U R                  R                  U l	        [        R                  " 5       U l        UR                  /UR                  -   U l        [        [        U R                  5      S-
  5       HX  nU R                  R!                  [#        UU R                  U   U R                  US-   *    -   U R                  US-      S95        MZ     [%        U5      U l        g )Nr   z_The length of fusion_hidden_sizes should be equal to the length of convstream_hidden_sizes + 1.)r%   r?   r@   )rE   rF   rd   r‹   r_   Ú
ValueErrorr%   rY   Ú
convstreamrb   r   r`   Úfusion_blocksÚhidden_sizeÚfusion_channelsrc   re   rs   r†   Úmatting_head)r4   r%   rf   rL   s      €r!   rF   Ú$VitMatteDetailCaptureModule.__init__®   s  ø€ Ü‰ÑÔÜˆv×)Ñ)Ó*¬c°&×2PÑ2PÓ.QÐTUÑ.UÓUÜØqóð ð ŒÜ,¨VÓ4ˆŒØŸ/™/×4Ñ4ˆŒäŸ]š]›_ˆÔØ &× 2Ñ 2Ð3°f×6PÑ6PÑPˆÔä”s˜4×/Ñ/Ó0°1Ñ4Ö5ˆAØ×Ñ×%Ñ%Ü#Ø!Ø $× 4Ñ 4°QÑ 7¸$¿/¹/ÈAÐPQÉEÈ(Ñ:SÑ SØ!%×!5Ñ!5°a¸!±eÑ!<ñöñ 6ô )¨Ó0ˆÕr    c                 ó:  • U R                  U5      n[        [        U R                  5      5       HB  nS[	        [        U R                  5      U-
  S-
  5      -   nU R                  U   " XU   5      nMD     [
        R                  " U R                  U5      5      nU$ )Nrl   r   )r˜   rc   rd   r™   rm   r   Úsigmoidrœ   )r4   r€   r&   Údetail_featuresrf   Údetailed_feature_map_namer   s          r!   rR   Ú#VitMatteDetailCaptureModule.forwardÇ   sŒ   € ØŸ/™/¨,Ó7ˆÜ”s˜4×-Ñ-Ó.Ö/ˆAØ(?Ä#ÄcÈ$×J\ÑJ\ÓF]Ð`aÑFaÐdeÑFeÓBfÑ(fÐ%Ø×)Ñ)¨!Ò,¨XÐG`Ñ7aÓbŠHñ 0ô —’˜t×0Ñ0°Ó:Ó;ˆàˆr    )r%   rb   r˜   r™   r›   rœ   rU   rW   s   @r!   r”   r”   ©   s   ø† ñõ1÷2ð r    r”   zX
    ViTMatte framework leveraging any vision backbone e.g. for ADE20k, CityScapes.
    c                   ó¤   ^ • \ rS rSrU 4S jr\     S
S\\R                     S\\	   S\\	   S\\R                     S\\	   4
S jj5       r
S	rU =r$ )ÚVitMatteForImageMattingéÒ   c                 ó   >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        U R                  5         g rO   )rE   rF   r%   r
   Úbackboner”   ÚdecoderÚ	post_init)r4   r%   rL   s     €r!   rF   Ú VitMatteForImageMatting.__init__Ø   s9   ø€ Ü‰Ñ˜Ô ØŒä% fÓ-ˆŒÜ2°6Ó:ˆŒð 	‰Õr    r&   Úoutput_attentionsÚoutput_hidden_statesÚlabelsÚreturn_dictc                 ó®  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nSnUb  [	        S5      eU R
                  R                  XUS9nUR                  S   nU R                  X5      n	U(       d  U	4USS -   n
Ub  U4U
-   $ U
$ [        UU	UR                  UR                  S9$ )ap  
labels (`torch.LongTensor` of shape `(batch_size, height, width)`, *optional*):
    Ground truth image matting for computing the loss.

Examples:

```python
>>> from transformers import VitMatteImageProcessor, VitMatteForImageMatting
>>> import torch
>>> from PIL import Image
>>> from huggingface_hub import hf_hub_download

>>> processor = VitMatteImageProcessor.from_pretrained("hustvl/vitmatte-small-composition-1k")
>>> model = VitMatteForImageMatting.from_pretrained("hustvl/vitmatte-small-composition-1k")

>>> filepath = hf_hub_download(
...     repo_id="hf-internal-testing/image-matting-fixtures", filename="image.png", repo_type="dataset"
... )
>>> image = Image.open(filepath).convert("RGB")
>>> filepath = hf_hub_download(
...     repo_id="hf-internal-testing/image-matting-fixtures", filename="trimap.png", repo_type="dataset"
... )
>>> trimap = Image.open(filepath).convert("L")

>>> # prepare image + trimap for the model
>>> inputs = processor(images=image, trimaps=trimap, return_tensors="pt")

>>> with torch.no_grad():
...     alphas = model(**inputs).alphas
>>> print(alphas.shape)
torch.Size([1, 1, 640, 960])
```NzTraining is not yet supported)r¬   r«   r‰   r   )r   r   r   r   )r%   Úuse_return_dictr¬   r«   ÚNotImplementedErrorr§   Úforward_with_filtered_kwargsÚfeature_mapsr¨   r   r   r   )r4   r&   r«   r¬   r­   r®   r   Úoutputsr€   r   Úoutputs              r!   rR   ÚVitMatteForImageMatting.forwardâ   sú   € ðR &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐàˆØÑÜ%Ð&EÓFÐFà—-‘-×<Ñ<ØÐWhð =ð 
ˆð ×'Ñ'¨Ñ+ˆØ—‘˜hÓ5ˆæØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä!ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r    )r§   r%   r¨   )NNNNN)r   r   r   r   rF   r	   r   r   ÚTensorÚboolrR   r   rV   rW   s   @r!   r¤   r¤   Ò   s‚   ø† õð ð 04Ø,0Ø/3Ø)-Ø&*ñB
à˜uŸ|™|Ñ,ðB
ð $ D™>ðB
ð ' t™nð	B
ð
 ˜Ÿ™Ñ&ðB
ð ˜d‘^ôB
ó öB
r    r¤   )r   Údataclassesr   Útypingr   r   r   Úmodeling_utilsr   Úutilsr   r	   Úutils.backbone_utilsr
   Úconfiguration_vitmatter   r   r#   r:   r<   rY   rs   r†   r”   r¤   Ú__all__r   r    r!   Ú<module>rÀ      só   ðñ å !Ý ã Ý å -ß 0Ý 1Ý 2ð Ùðñô
:˜ó :óó ð:ð$ ô
)˜oó 
)ó ð
)ô˜2Ÿ9™9ô ô4 ˜Ÿ™ô  ôF˜"Ÿ)™)ô ô"2—9‘9ô ô0& "§)¡)ô &ñR ðñô
N
Ð5ó N
óð
N
ðb %Ð&?Ð
@r    