ó
    <±hñ8  ã                   ó–  • S r SSKJrJr  SSKrSSKJr  SSKJr  SSKJ	r	  SSK
Jr  SS	KJr  SS
KJr  SSKJr   " S S\R$                  5      r " S S\R$                  5      r " S S\R$                  5      r " S S\R$                  5      r " S S\R$                  5      r\ " S S\5      5       r\" SS9 " S S\5      5       rSS/rg)zrPyTorch UperNet model. Based on OpenMMLab's implementation, found in https://github.com/open-mmlab/mmsegmentation.é    )ÚOptionalÚUnionN)Únn)ÚCrossEntropyLossé   )ÚSemanticSegmenterOutput)ÚPreTrainedModel)Úauto_docstring)Úload_backboneé   )ÚUperNetConfigc                   óÎ   ^ • \ rS rSrSr   SS\S\S\\\\\4   4   S\\\\\4   \4   S\	S\\\\\4   4   S	S
4U 4S jjjr
S\R                  S	\R                  4S jrSrU =r$ )ÚUperNetConvModuleé   z×
A convolutional block that bundles conv/norm/activation layers. This block simplifies the usage of convolution
layers, which are commonly used with a norm layer (e.g., BatchNorm) and activation layer (e.g., ReLU).
Úin_channelsÚout_channelsÚkernel_sizeÚpaddingÚbiasÚdilationÚreturnNc           	      óÈ   >• [         TU ]  5         [        R                  " UUUUUUS9U l        [        R
                  " U5      U l        [        R                  " 5       U l        g )N)r   r   r   r   r   r   )	ÚsuperÚ__init__r   ÚConv2dÚconvÚBatchNorm2dÚ
batch_normÚReLUÚ
activation)Úselfr   r   r   r   r   r   Ú	__class__s          €Úd/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/upernet/modeling_upernet.pyr   ÚUperNetConvModule.__init__$   sQ   ø€ ô 	‰ÑÔÜ—I’IØ#Ø%Ø#ØØØñ
ˆŒ	ô Ÿ.š.¨Ó6ˆŒÜŸ'š'›)ˆó    Úinputc                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ ©N)r   r   r    )r!   r&   Úoutputs      r#   ÚforwardÚUperNetConvModule.forward9   s1   € Ø—‘˜5Ó!ˆØ—‘ Ó(ˆØ—‘ Ó(ˆàˆr%   )r    r   r   )r   Fr   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Úintr   ÚtupleÚstrÚboolr   ÚtorchÚTensorr*   Ú__static_attributes__Ú__classcell__©r"   s   @r#   r   r      s¹   ø† ñð 56ØØ01ñ$àð$ð ð$ð ˜3  c¨3 h¡Ð/Ñ0ð	$ð
 s˜E # s (™O¨SÐ0Ñ1ð$ð ð$ð ˜˜U 3¨ 8™_Ð,Ñ-ð$ð 
÷$ð $ð*˜UŸ\™\ð ¨e¯l©l÷ ò r%   r   c                   óv   ^ • \ rS rSrS\S\S\SS4U 4S jjrS\R                  S\R                  4S	 jrS
r	U =r
$ )ÚUperNetPyramidPoolingBlockéA   Ú
pool_scaler   Úchannelsr   Nc                 óÞ   >• [         TU ]  5         [        R                  " U5      [	        X#SS9/U l        [        U R
                  5       H   u  pEU R                  [        U5      U5        M"     g )Nr   ©r   )	r   r   r   ÚAdaptiveAvgPool2dr   ÚlayersÚ	enumerateÚ
add_moduler3   )r!   r=   r   r>   ÚiÚlayerr"   s         €r#   r   Ú#UperNetPyramidPoolingBlock.__init__B   sX   ø€ Ü‰ÑÔä× Ò  Ó,Ü˜kÀÑCð
ˆŒô " $§+¡+Ö.‰HˆAØO‰OœC ›F EÖ*ò /r%   r&   c                 ó@   • UnU R                    H  nU" U5      nM     U$ r(   ©rB   )r!   r&   Úhidden_staterF   s       r#   r*   Ú"UperNetPyramidPoolingBlock.forwardK   s%   € ØˆØ—[”[ˆEÙ  Ó.ŠLñ !àÐr%   rI   )r,   r-   r.   r/   r1   r   r5   r6   r*   r7   r8   r9   s   @r#   r;   r;   A   sD   ø† ð+ 3ð +°Sð +ÀCð +ÈD÷ +ð˜UŸ\™\ð ¨e¯l©l÷ ò r%   r;   c            
       óŽ   ^ • \ rS rSrSrS\\S4   S\S\S\SS	4
U 4S
 jjrS\	R                  S\\	R                     4S jrSrU =r$ )ÚUperNetPyramidPoolingModuleéR   aQ  
Pyramid Pooling Module (PPM) used in PSPNet.

Args:
    pool_scales (`tuple[int]`):
        Pooling scales used in Pooling Pyramid Module.
    in_channels (`int`):
        Input channels.
    channels (`int`):
        Channels after modules, before conv_seg.
    align_corners (`bool`):
        align_corners argument of F.interpolate.
Úpool_scales.r   r>   Úalign_cornersr   Nc                 ó  >• [         TU ]  5         Xl        X@l        X l        X0l        / U l        [        U5       HE  u  pV[        XbUS9nU R                  R                  U5        U R                  [        U5      U5        MG     g )N)r=   r   r>   )r   r   rO   rP   r   r>   ÚblocksrC   r;   ÚappendrD   r3   )	r!   rO   r   r>   rP   rE   r=   Úblockr"   s	           €r#   r   Ú$UperNetPyramidPoolingModule.__init__a   sn   ø€ Ü‰ÑÔØ&ÔØ*ÔØ&ÔØ ŒØˆŒÜ& {Ö3‰MˆAÜ.¸*ÐhpÑqˆEØK‰K×Ñ˜uÔ%ØO‰OœC ›F EÖ*ò 4r%   Úxc                 óÖ   • / nU R                    HV  nU" U5      n[        R                  R                  XAR	                  5       SS  SU R
                  S9nUR                  U5        MX     U$ )Né   Úbilinear©ÚsizeÚmoderP   )rR   r   Ú
functionalÚinterpolater[   rP   rS   )r!   rV   Úppm_outsÚppmÚppm_outÚupsampled_ppm_outs         r#   r*   Ú#UperNetPyramidPoolingModule.forwardm   sg   € ØˆØ—;”;ˆCÙ˜!“fˆGÜ "§¡× 9Ñ 9ØŸf™f›h q r˜l°È4×K]ÑK]ð !:ð !Ðð O‰OÐ-Ö.ñ ð ˆr%   )rP   rR   r>   r   rO   )r,   r-   r.   r/   r0   r2   r1   r4   r   r5   r6   Úlistr*   r7   r8   r9   s   @r#   rM   rM   R   s`   ø† ñð
+ E¨#¨s¨(¡Oð 
+À#ð 
+ÐQTð 
+Ðeið 
+Ðnr÷ 
+ð˜Ÿ™ð ¨$¨u¯|©|Ñ*<÷ ò r%   rM   c                   ól   ^ • \ rS rSrSrU 4S jrS rS\R                  S\R                  4S jr	Sr
U =r$ )	ÚUperNetHeadéx   z
Unified Perceptual Parsing for Scene Understanding. This head is the implementation of
[UPerNet](https://huggingface.co/papers/1807.10221).
c                 óÖ  >• [         TU ]  5         Xl        UR                  U l        X l        UR
                  U l        SU l        [        R                  " U R                  UR                  SS9U l        [        U R                  U R                  S   U R                  U R                  S9U l        [        U R                  S   [        U R                  5      U R                  -  -   U R                  SSS9U l        [        R"                  " 5       U l        [        R"                  " 5       U l        U R                  S S  Hm  n[        X R                  SS9n[        U R                  U R                  SSS9nU R$                  R)                  U5        U R&                  R)                  U5        Mo     [        [        U R                  5      U R                  -  U R                  SSS9U l        g )NFr   r@   éÿÿÿÿ)rP   r   ©r   r   )r   r   ÚconfigrO   r   Úhidden_sizer>   rP   r   r   Ú
num_labelsÚ
classifierrM   Úpsp_modulesr   ÚlenÚ
bottleneckÚ
ModuleListÚlateral_convsÚ	fpn_convsrS   Úfpn_bottleneck)r!   rk   r   Úl_convÚfpn_convr"   s        €r#   r   ÚUperNetHead.__init__~   sŠ  ø€ Ü‰ÑÔàŒØ!×-Ñ-ˆÔØ&ÔØ×*Ñ*ˆŒØ"ˆÔÜŸ)š) D§M¡M°6×3DÑ3DÐRSÑTˆŒô 7Ø×ÑØ×Ñ˜RÑ ØM‰MØ×,Ñ,ñ	
ˆÔô ,Ø×Ñ˜RÑ ¤3 t×'7Ñ'7Ó#8¸4¿=¹=Ñ#HÑHØM‰MØØñ	
ˆŒô  Ÿ]š]›_ˆÔÜŸš›ˆŒØ×+Ñ+¨C¨RÓ0ˆKÜ& {·M±MÈqÑQˆFÜ(¨¯©¸¿¹ÐSTÐ^_Ñ`ˆHØ×Ñ×%Ñ% fÔ-ØN‰N×!Ñ! (Ö+ñ	 1ô 0Ü× Ñ Ó! D§M¡MÑ1ØM‰MØØñ	
ˆÕr%   c                 ó¢   • US   nU/nUR                  U R                  U5      5        [        R                  " USS9nU R	                  U5      nU$ )Nri   r   ©Údim)Úextendro   r5   Úcatrq   )r!   ÚinputsrV   Úpsp_outsr)   s        r#   Úpsp_forwardÚUperNetHead.psp_forward¥   sL   € Ø2‰JˆØ3ˆØ‰˜×(Ñ(¨Ó+Ô,Ü—9’9˜X¨1Ñ-ˆØ—‘ Ó*ˆàˆr%   Úencoder_hidden_statesr   c           	      ó<  • [        U R                  5       VVs/ sH  u  p#U" X   5      PM     nnnUR                  U R                  U5      5        [	        U5      n[        US-
  SS5       HP  nXBS-
     R                  SS  nXBS-
     [        R                  R                  XB   USU R                  S9-   XBS-
  '   MR     [        US-
  5       Vs/ sH  o R                  U   " XB   5      PM     nnUR                  US   5        [        US-
  SS5       HA  n[        R                  R                  Xr   US   R                  SS  SU R                  S9Xr'   MC     [        R                  " USS9nU R                  U5      nU R                  U5      nU$ s  snnf s  snf )Nr   r   ri   rX   rY   rZ   rz   )rC   rs   rS   r€   rp   ÚrangeÚshaper   r]   r^   rP   rt   r5   r}   ru   rn   )	r!   r‚   rE   Úlateral_convÚlateralsÚused_backbone_levelsÚ
prev_shapeÚfpn_outsr)   s	            r#   r*   ÚUperNetHead.forward®   s  € äR[Ð\`×\nÑ\nÔRoÔpÑRo¹¸q‘LÐ!6Ñ!9Ö:ÑRoˆÑpà‰˜×(Ñ(Ð)>Ó?Ô@ô  # 8›}ÐÜÐ+¨aÑ/°°BÖ7ˆAØ! a¡%™×.Ñ.¨q¨rÐ2ˆJØ&¨1¡u™o´·±×0IÑ0IØ‘ *°:ÈT×M_ÑM_ð 1Jð 1ñ ˆH˜‘U‹Oñ 8ô =BÐBVÐYZÑBZÔ<[Ó\Ñ<[°q—N‘N 1Ò% h¡kÖ2Ñ<[ˆÐ\à‰˜ ™Ô%äÐ+¨aÑ/°°BÖ7ˆAÜŸ-™-×3Ñ3Ø‘ (¨1¡+×"3Ñ"3°A°BÐ"7¸jÐX\×XjÑXjð 4ð ˆH‹Kñ 8ô —9’9˜X¨1Ñ-ˆØ×$Ñ$ XÓ.ˆØ—‘ Ó(ˆàˆùó3 qùò ]s   ™FÃF)rP   rq   r>   rn   rk   ru   rt   r   rs   rO   ro   )r,   r-   r.   r/   r0   r   r€   r5   r6   r*   r7   r8   r9   s   @r#   rf   rf   x   s3   ø† ñõ
%
òNð¨U¯\©\ð ¸e¿l¹l÷ ò r%   rf   c                   ó”   ^ • \ rS rSrSr SS\S\S\\\\\4   4   SS4U 4S jjjrS	\	R                  S\	R                  4S
 jrSrU =r$ )ÚUperNetFCNHeadéÌ   a”  
Fully Convolution Networks for Semantic Segmentation. This head is the implementation of
[FCNNet](https://huggingface.co/papers/1411.4038>).

Args:
    config:
        Configuration.
    in_channels (int):
        Number of input channels.
    kernel_size (int):
        The kernel size for convs in the head. Default: 3.
    dilation (int):
        The dilation rate for convs in the head. Default: 1.
Úin_indexr   r   r   Nc                 ó`  >• [         T	U ]  5         Xl        UR                  c  X#   OUR                  U l        UR
                  U l        UR                  U l        UR                  U l
        X0l        US-  U-  n/ nUR                  [        U R                  U R                  XFUS95        [        U R                  S-
  5       H2  nUR                  [        U R                  U R                  XFUS95        M4     U R                  S:X  a  [        R                   " 5       U l        O[        R$                  " U6 U l        U R                  (       a4  [        U R                  U R                  -   U R                  XDS-  S9U l        [        R(                  " U R                  UR*                  SS9U l        g )NrX   )r   r   r   r   r   rj   r@   )r   r   rk   Úauxiliary_in_channelsr   Úauxiliary_channelsr>   Úauxiliary_num_convsÚ	num_convsÚauxiliary_concat_inputÚconcat_inputr   rS   r   r„   r   ÚIdentityÚconvsÚ
SequentialÚconv_catr   rm   rn   )
r!   rk   r   r   r   r   Úconv_paddingr˜   rE   r"   s
            €r#   r   ÚUperNetFCNHead.__init__Ü   sb  ø€ ô 	‰ÑÔàŒà%+×%AÑ%AÑ%IˆKÒ!Èv×OkÑOkð 	Ôð ×1Ñ1ˆŒØ×3Ñ3ˆŒØ"×9Ñ9ˆÔØ Œà# qÑ(¨HÑ4ˆØˆØ‰ÜØ× Ñ  $§-¡-¸[Ðiqñô	
ô
 t—~‘~¨Ñ)Ö*ˆAØL‰LÜ!Ø—M‘M 4§=¡=¸kÐjrñöñ +ð >‰>˜QÓÜŸš›ˆDJäŸš¨Ð.ˆDŒJØ××Ü-Ø× Ñ  4§=¡=Ñ0°$·-±-È[ÐqrÑbrñˆDŒMô Ÿ)š) D§M¡M°6×3DÑ3DÐRSÑTˆr%   r‚   c                 óÒ   • XR                      nU R                  U5      nU R                  (       a%  U R                  [        R
                  " X#/SS95      nU R                  U5      nU$ )Nr   rz   )r   r˜   r–   rš   r5   r}   rn   )r!   r‚   Úhidden_statesr)   s       r#   r*   ÚUperNetFCNHead.forward  sT   € à-¯m©mÑ<ˆØ—‘˜MÓ*ˆØ××Ø—]‘]¤5§9¢9¨mÐ-DÈ!Ñ#LÓMˆFØ—‘ Ó(ˆØˆr%   )	r>   rn   r–   rk   rš   r˜   r   r   r”   )rX   r   r   )r,   r-   r.   r/   r0   r1   r   r2   r   r5   r6   r*   r7   r8   r9   s   @r#   r   r   Ì   sx   ø† ñð  uvñ$UØ-0ð$UØCFð$UØV[Ð\_ÐafÐgjÐloÐgoÑapÐ\pÑVqð$Uà	÷$Uð $UðL¨U¯\©\ð ¸e¿l¹l÷ ò r%   r   c                   ó.   • \ rS rSr% \\S'   Sr/ rS rSr	g)ÚUperNetPreTrainedModeli  rk   Úpixel_valuesc                 óê  • [        U[        R                  5      (       ak  UR                  R                  R                  SU R                  R                  S9  UR                  b%  UR                  R                  R                  5         g g [        U[        R                  5      (       aJ  UR                  R                  R                  S5        UR                  R                  R                  5         g g )Ng        )ÚmeanÚstdg      ð?)Ú
isinstancer   r   ÚweightÚdataÚnormal_rk   Úinitializer_ranger   Úzero_r   Úfill_)r!   Úmodules     r#   Ú_init_weightsÚ$UperNetPreTrainedModel._init_weights  s£   € ÜfœbŸi™i×(Ñ(ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×/Ñ/ØM‰M×Ñ×$Ñ$ SÔ)ØK‰K×Ñ×"Ñ"Õ$ð 0r%   © N)
r,   r-   r.   r/   r   Ú__annotations__Úmain_input_nameÚ_no_split_modulesr®   r7   r°   r%   r#   r¡   r¡     s   ‡ àÓØ$€OØÐõ%r%   r¡   zW
    UperNet framework leveraging any vision backbone e.g. for ADE20k, CityScapes.
    )Úcustom_introc                   ó²   ^ • \ rS rSrU 4S jr\     SS\\R                     S\\	   S\\	   S\\R                     S\\	   S\
\\4   4S	 jj5       rS
rU =r$ )ÚUperNetForSemanticSegmentationi  c                 ó  >• [         TU ]  U5        [        U5      U l        [	        XR                  R
                  S9U l        UR                  (       a  [        XR                  R
                  S9OS U l	        U R                  5         g )N)r   )r   r   r   Úbackbonerf   r>   Údecode_headÚuse_auxiliary_headr   Úauxiliary_headÚ	post_init)r!   rk   r"   s     €r#   r   Ú'UperNetForSemanticSegmentation.__init__"  sf   ø€ Ü‰Ñ˜Ô ä% fÓ-ˆŒô ' v¿=¹=×;QÑ;QÑRˆÔàJP×Jc×JcŒN˜6¯}©}×/EÑ/EÒFÐimð 	Ôð
 	‰Õr%   r¢   Úoutput_attentionsÚoutput_hidden_statesÚlabelsÚreturn_dictr   c                 óŠ  • Ub%  U R                   R                  S:X  a  [        S5      eUb  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R
                  nU R                  R                  XUS9nUR                  nU R                  U5      n[        R                  R                  XR                  SS SSS9nSn	U R                  b=  U R                  U5      n	[        R                  R                  X‘R                  SS SSS9n	Sn
UbK  [        U R                   R                   S	9nU" X„5      n
U	b#  U" X”5      nX R                   R"                  U-  -  n
U(       d%  U(       a
  U4USS -   nO	U4USS -   nU
b  U
4U-   $ U$ [%        U
UUR&                  UR(                  S
9$ )a(  
labels (`torch.LongTensor` of shape `(batch_size, height, width)`, *optional*):
    Ground truth semantic segmentation maps for computing the loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels > 1`, a classification loss is computed (Cross-Entropy).

Examples:
```python
>>> from transformers import AutoImageProcessor, UperNetForSemanticSegmentation
>>> from PIL import Image
>>> from huggingface_hub import hf_hub_download

>>> image_processor = AutoImageProcessor.from_pretrained("openmmlab/upernet-convnext-tiny")
>>> model = UperNetForSemanticSegmentation.from_pretrained("openmmlab/upernet-convnext-tiny")

>>> filepath = hf_hub_download(
...     repo_id="hf-internal-testing/fixtures_ade20k", filename="ADE_val_00000001.jpg", repo_type="dataset"
... )
>>> image = Image.open(filepath).convert("RGB")

>>> inputs = image_processor(images=image, return_tensors="pt")

>>> outputs = model(**inputs)

>>> logits = outputs.logits  # shape (batch_size, num_labels, height, width)
>>> list(logits.shape)
[1, 150, 512, 512]
```Nr   z/The number of labels should be greater than one)r¿   r¾   rX   rY   FrZ   )Úignore_index)ÚlossÚlogitsrž   Ú
attentions)rk   rm   Ú
ValueErrorÚuse_return_dictr¿   r¾   r¸   Úforward_with_filtered_kwargsÚfeature_mapsr¹   r   r]   r^   r…   r»   r   Úloss_ignore_indexÚauxiliary_loss_weightr   rž   rÆ   )r!   r¢   r¾   r¿   rÀ   rÁ   ÚoutputsÚfeaturesrÅ   Úauxiliary_logitsrÄ   Úloss_fctÚauxiliary_lossr)   s                 r#   r*   Ú&UperNetForSemanticSegmentation.forward0  sç  € ðH Ñ $§+¡+×"8Ñ"8¸AÓ"=ÜÐNÓOÐOà%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà—-‘-×<Ñ<ØÐWhð =ð 
ˆð ×'Ñ'ˆà×!Ñ! (Ó+ˆÜ—‘×*Ñ*¨6×8JÑ8JÈ1È2Ð8NÐU_ÐotÐ*ÐuˆàÐØ×ÑÑ*Ø#×2Ñ2°8Ó<ÐÜ!Ÿ}™}×8Ñ8Ø ×'9Ñ'9¸!¸"Ð'=ÀJÐ^cð  9ð  Ðð ˆØÑä'°T·[±[×5RÑ5RÑSˆHÙ˜FÓ+ˆDØÑ+Ù!)Ð*:Ó!CØŸ™×9Ñ9¸NÑJÑJæÞ#Ø ˜ W¨Q¨R [Ñ0‘à ˜ W¨Q¨R [Ñ0Ø)-Ñ)9TG˜fÑ$ÐE¸vÐEä&ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r%   )r»   r¸   r¹   )NNNNN)r,   r-   r.   r/   r   r
   r   r5   r6   r4   r   r2   r   r*   r7   r8   r9   s   @r#   r¶   r¶     s˜   ø† õð ð 04Ø,0Ø/3Ø)-Ø&*ñP
à˜uŸ|™|Ñ,ðP
ð $ D™>ðP
ð ' t™nð	P
ð
 ˜Ÿ™Ñ&ðP
ð ˜d‘^ðP
ð 
ˆuÐ-Ð-Ñ	.ôP
ó öP
r%   r¶   )r0   Útypingr   r   r5   r   Útorch.nnr   Úmodeling_outputsr   Úmodeling_utilsr	   Úutilsr
   Úutils.backbone_utilsr   Úconfiguration_upernetr   ÚModuler   r;   rM   rf   r   r¡   r¶   Ú__all__r°   r%   r#   Ú<module>rÜ      sÎ   ðñ yç "ã Ý Ý %å 7Ý -Ý #Ý 1Ý 0ô ˜Ÿ	™	ô  ôF §¡ô ô"# "§)¡)ô #ôLQ"—)‘)ô Qôh=R—Y‘Yô =ð@ ô%˜_ó %ó ð%ñ ðñô
`
Ð%;ó `
óð
`
ðF ,Ð-EÐ
Fr%   