ó
    <±hè  ã                   ó”  • S r SSKrSSKrSSKJr  SSKJrJrJrJ	r	  SSK
r
SSKr
SSK
Jr  SSKJr  SSKJrJr  SS	KJr  SS
KJrJr  SSKJrJr  SSKJrJrJrJrJr  SSK J!r!J"r"J#r#  \RH                  " \%5      r&S\
RN                  S\
RN                  4S jr(S\
RN                  S\
RN                  4S jr)\\ " S S\5      5       5       r*\\ " S S\5      5       5       r+\\ " S S\5      5       5       r, " S S\RZ                  5      r. " S S\RZ                  5      r/ SCS\RZ                  S\
RN                  S \
RN                  S!\
RN                  S"\\
RN                     S#\0S$\04S% jjr1 " S& S'\RZ                  5      r2 " S( S)\RZ                  5      r3 " S* S+\5      r4\ " S, S-\5      5       r5 " S. S/\RZ                  5      r6 " S0 S1\RZ                  5      r7 " S2 S3\55      r8 " S4 S5\RZ                  5      r9 " S6 S7\55      r:\ " S8 S9\55      5       r; " S: S;\RZ                  5      r< " S< S=\55      r=\" S>S?9 " S@ SA\55      5       r>/ SBQr?g)DzPyTorch CLIPSeg model.é    N)Ú	dataclass)ÚAnyÚCallableÚOptionalÚUnion)Únné   )ÚACT2FN)Ú _create_4d_causal_attention_maskÚ_prepare_4d_attention_mask)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPooling)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚModelOutputÚauto_docstringÚcan_return_tupleÚloggingÚ	torch_inté   )ÚCLIPSegConfigÚCLIPSegTextConfigÚCLIPSegVisionConfigÚlogitsÚreturnc                 óŽ   • [         R                  R                  U [        R                  " [        U 5      U R                  S95      $ )N©Údevice)r   Ú
functionalÚcross_entropyÚtorchÚarangeÚlenr   )r   s    Úd/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/clipseg/modeling_clipseg.pyÚcontrastive_lossr&   (   s/   € Ü=‰=×&Ñ& v¬u¯|ª|¼CÀ»KÐPV×P]ÑP]Ñ/^Ó_Ð_ó    Ú
similarityc                 óX   • [        U 5      n[        U R                  5       5      nX-   S-  $ )Ng       @)r&   Út)r(   Úcaption_lossÚ
image_losss      r%   Úclipseg_lossr-   -   s*   € Ü# JÓ/€LÜ! *§,¡,£.Ó1€JØÑ%¨Ñ,Ð,r'   c                   ó  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\	S	'   Sr\\	S
'   S\\   4S jrSrg)ÚCLIPSegOutputé3   aq  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `return_loss` is `True`):
    Contrastive loss for image-text similarity.
logits_per_image (`torch.FloatTensor` of shape `(image_batch_size, text_batch_size)`):
    The scaled dot product scores between `image_embeds` and `text_embeds`. This represents the image-text
    similarity scores.
logits_per_text (`torch.FloatTensor` of shape `(text_batch_size, image_batch_size)`):
    The scaled dot product scores between `text_embeds` and `image_embeds`. This represents the text-image
    similarity scores.
text_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`):
    The text embeddings obtained by applying the projection layer to the pooled output of [`CLIPSegTextModel`].
image_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`):
    The image embeddings obtained by applying the projection layer to the pooled output of [`CLIPSegVisionModel`].
text_model_output (`BaseModelOutputWithPooling`):
    The output of the [`CLIPSegTextModel`].
vision_model_output (`BaseModelOutputWithPooling`):
    The output of the [`CLIPSegVisionModel`].
NÚlossÚlogits_per_imageÚlogits_per_textÚtext_embedsÚimage_embedsÚtext_model_outputÚvision_model_outputr   c                 óJ   ^ • [        U 4S jT R                  5        5       5      $ )Nc              3   ól   >#   • U H*  nUS ;  a  TU   O[        TU5      R                  5       v •  M,     g7f))r6   r7   N©ÚgetattrÚto_tuple©Ú.0ÚkÚselfs     €r%   Ú	<genexpr>Ú)CLIPSegOutput.to_tuple.<locals>.<genexpr>S   s<   øé € ð 
á ð Ð LÓLˆDŠGÔRYÐZ^Ð`aÓRb×RkÑRkÓRmÔmÚ ùó   ƒ14©ÚtupleÚkeys©r@   s   `r%   r<   ÚCLIPSegOutput.to_tupleR   ó#   ø€ Üô 
à—Y‘Y”[ó
ó 
ð 	
r'   © )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r1   r   r"   ÚFloatTensorÚ__annotations__r2   r3   r4   r5   r6   r   r7   rE   r   r<   Ú__static_attributes__rJ   r'   r%   r/   r/   3   s›   ‡ ñð& )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø37€OX˜e×/Ñ/Ñ0Ó7Ø/3€K˜%×+Ñ+Ñ,Ó3Ø04€L(˜5×,Ñ,Ñ-Ó4Ø48ÐÐ1Ó8Ø6:ÐÐ3Ó:ð
˜% ™*÷ 
r'   r/   c                   óž   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\\R                        \	S'   Sr\\\R                        \	S'   Srg)ÚCLIPSegDecoderOutputéY   zp
logits (`torch.FloatTensor` of shape `(batch_size, height, width)`):
    Classification scores for each pixel.
Nr   Úhidden_statesÚ
attentionsrJ   )rK   rL   rM   rN   rO   r   r   r"   rP   rQ   rV   rE   rW   rR   rJ   r'   r%   rT   rT   Y   sR   ‡ ñð
 +/€FˆHU×&Ñ&Ñ'Ó.Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ö9r'   rT   c                   óê   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\	S'   Sr\\	S	'   S
\\   4S jrSrg)ÚCLIPSegImageSegmentationOutputéf   a²  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
    Binary cross entropy loss for segmentation.
logits (`torch.FloatTensor` of shape `(batch_size, height, width)`):
    Classification scores for each pixel.
conditional_embeddings (`torch.FloatTensor` of shape `(batch_size, projection_dim)`):
    Conditional embeddings used for segmentation.
pooled_output (`torch.FloatTensor` of shape `(batch_size, embed_dim)`):
    Pooled output of the [`CLIPSegVisionModel`].
vision_model_output (`BaseModelOutputWithPooling`):
    The output of the [`CLIPSegVisionModel`].
decoder_output (`CLIPSegDecoderOutput`):
    The output of the [`CLIPSegDecoder`].
Nr1   r   Úconditional_embeddingsÚpooled_outputr7   Údecoder_outputr   c                 óJ   ^ • [        U 4S jT R                  5        5       5      $ )Nc              3   ól   >#   • U H*  nUS ;  a  TU   O[        TU5      R                  5       v •  M,     g7f))r7   r]   Nr:   r=   s     €r%   rA   Ú:CLIPSegImageSegmentationOutput.to_tuple.<locals>.<genexpr>€   s;   øé € ð 
á ð Ð IÓIˆDŠGÌwÐW[Ð]^ÓO_×OhÑOhÓOjÔjÚ ùrC   rD   rG   s   `r%   r<   Ú'CLIPSegImageSegmentationOutput.to_tuple   rI   r'   rJ   )rK   rL   rM   rN   rO   r1   r   r"   rP   rQ   r   r[   r\   r7   r   r]   rT   rE   r   r<   rR   rJ   r'   r%   rY   rY   f   s…   ‡ ñð )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø*.€FˆHU×&Ñ&Ñ'Ó.Ø:>Ð˜H U×%6Ñ%6Ñ7Ó>Ø15€M8˜E×-Ñ-Ñ.Ó5Ø6:ÐÐ3Ó:Ø+/€NÐ(Ó/ð
˜% ™*÷ 
r'   rY   c                   ó°   ^ • \ rS rSrS\4U 4S jjrS\R                  S\S\S\R                  4S jr	SS	\R                  S\R                  4S
 jjrSrU =r$ )ÚCLIPSegVisionEmbeddingsé†   Úconfigc                 óÖ  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        UR                  U l        [        R                  " [        R                  " U R                  5      5      U l        [        R                  " UR                  U R                  U R                  U R                  SS9U l        U R
                  U R                  -  S-  U l        U R                  S-   U l        [        R"                  " U R                   U R                  5      U l        U R'                  S[        R(                  " U R                   5      R+                  S5      SS9  g )NF)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚbiasé   r   Úposition_ids©r   éÿÿÿÿ©Ú
persistent)ÚsuperÚ__init__re   Úhidden_sizeÚ	embed_dimÚ
image_sizeÚ
patch_sizer   Ú	Parameterr"   ÚrandnÚclass_embeddingÚConv2dÚnum_channelsÚpatch_embeddingÚnum_patchesÚnum_positionsÚ	EmbeddingÚposition_embeddingÚregister_bufferr#   Úexpand©r@   re   Ú	__class__s     €r%   rs   Ú CLIPSegVisionEmbeddings.__init__ˆ   s  ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ ×+Ñ+ˆŒØ ×+Ñ+ˆŒä!Ÿ|š|¬E¯KªK¸¿¹Ó,GÓHˆÔä!ŸyšyØ×+Ñ+ØŸ™ØŸ™Ø—?‘?Øñ 
ˆÔð !ŸO™O¨t¯©Ñ>À1ÑDˆÔØ!×-Ñ-°Ñ1ˆÔÜ"$§,¢,¨t×/AÑ/AÀ4Ç>Á>Ó"RˆÔØ×Ñ˜^¬U¯\ª\¸$×:LÑ:LÓ-M×-TÑ-TÐU\Ó-]ÐjoÐÒpr'   Ú
embeddingsÚheightÚwidthr   c                 óÈ  • UR                   S   S-
  nU R                  R                  R                  S5      nUR                   S   S-
  n[        R
                  R                  5       (       d%  XF:X  a   X#:X  a  U R                  U R                  5      $ USS2SS24   nUSS2SS24   nUR                   S   n	X R                  -  n
X0R                  -  n[        US-  5      nUR                  SXÌU	5      nUR                  SSSS5      n[        R                  R                  UX«4SS	S
9nUR                  SSSS5      R                  SSU	5      n[        R                   " Xx4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   r   Nro   g      à?r	   rl   ÚbicubicF)ÚsizeÚmodeÚalign_corners©Údim)Úshaper   ÚweightÚ	unsqueezer"   ÚjitÚ
is_tracingrm   rw   r   ÚreshapeÚpermuter   r    ÚinterpolateÚviewÚcat)r@   r‡   rˆ   r‰   r~   r   r   Úclass_pos_embedÚpatch_pos_embedr   Ú
new_heightÚ	new_widthÚsqrt_num_positionss                r%   Úinterpolate_pos_encodingÚ0CLIPSegVisionEmbeddings.interpolate_pos_encodingž   si  € ð !×&Ñ& qÑ)¨AÑ-ˆØ!×4Ñ4×;Ñ;×EÑEÀaÓHÐØ*×0Ñ0°Ñ3°aÑ7ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×*Ñ*¨4×+<Ñ+<Ó=Ð=à,ªQ°°°¨UÑ3ˆØ,ªQ°±¨UÑ3ˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ
ØŸ_™_Ñ,ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr'   Úpixel_valuesc                 ó  • UR                   u  p4pVU(       dJ  XPR                  :w  d  X`R                  :w  a,  [        SU SU SU R                   SU R                   S3	5      eU R                  U5      nUR	                  S5      R                  SS5      nU R                  R                  USS5      n[        R                  " X‡/SS9n	U(       a  XR                  X•U5      -   n	U	$ XR                  U R                  5      -   n	U	$ )	NzInput image size (Ú*z) doesn't match model (ú).rl   r   ro   r   )r‘   rv   Ú
ValueErrorr}   ÚflattenÚ	transposerz   rƒ   r"   rš   r    r   rm   )
r@   r¢   r    Ú
batch_sizeÚ_rˆ   r‰   Úpatch_embedsÚclass_embedsr‡   s
             r%   ÚforwardÚCLIPSegVisionEmbeddings.forwardÇ   s  € Ø'3×'9Ñ'9Ñ$ˆ
vÞ'¨V·±Ó-FÈ%×SbÑSbÓJbÜØ$ V H¨A¨e¨WÐ4KÈDÏOÉOÐK\Ð\]Ð^b×^mÑ^mÐ]nÐnpÐqóð ð ×+Ñ+¨LÓ9ˆØ#×+Ñ+¨AÓ.×8Ñ8¸¸AÓ>ˆà×+Ñ+×2Ñ2°:¸qÀ"ÓEˆÜ—Y’Y Ð;ÀÑCˆ
Þ#Ø#×&CÑ&CÀJÐX]Ó&^Ñ^ˆJð Ðð $×&=Ñ&=¸d×>OÑ>OÓ&PÑPˆJØÐr'   )	rz   re   ru   rv   r~   r   r}   rw   r   )T)rK   rL   rM   rN   r   rs   r"   ÚTensorÚintr    rP   r­   rR   Ú__classcell__©r…   s   @r%   rc   rc   †   sj   ø† ðqÐ2÷ qð,'D°5·<±<ð 'DÈð 'DÐUXð 'DÐ]b×]iÑ]iô 'DñR E×$5Ñ$5ð ÐY^×YeÑYe÷ ó r'   rc   c            	       ó¶   ^ • \ rS rSrS\4U 4S jjr   S
S\\R                     S\\R                     S\\R                     S\R                  4S jjrS	rU =r$ )ÚCLIPSegTextEmbeddingséÚ   re   c                 óN  >• [         TU ]  5         UR                  n[        R                  " UR
                  U5      U l        [        R                  " UR                  U5      U l        U R                  S[        R                  " UR                  5      R                  S5      SS9  g )Nrm   rn   Frp   )rr   rs   rt   r   r€   Ú
vocab_sizeÚtoken_embeddingÚmax_position_embeddingsr   r‚   r"   r#   rƒ   ©r@   re   ru   r…   s      €r%   rs   ÚCLIPSegTextEmbeddings.__init__Û   sƒ   ø€ Ü‰ÑÔØ×&Ñ&ˆ	ä!Ÿ|š|¨F×,=Ñ,=¸yÓIˆÔÜ"$§,¢,¨v×/MÑ/MÈyÓ"YˆÔð 	×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð 	ò 	
r'   Ú	input_idsrm   Úinputs_embedsr   c                 ó<  • Ub  UR                   S   OUR                   S   nU R                  R                  R                   S   nXE:”  a  [        SU SU 35      eUc  U R                  S S 2S U24   nUc  U R                  U5      nU R                  U5      nX6-   nU$ )Nro   éþÿÿÿr   zRSequence length must be less than max_position_embeddings (got `sequence length`: z and max_position_embeddings: )r‘   r   r’   r¦   rm   r¸   )r@   r¼   rm   r½   Ú
seq_lengthÚmax_position_embeddingÚposition_embeddingsr‡   s           r%   r­   ÚCLIPSegTextEmbeddings.forwardç   sÁ   € ð -6Ñ,AY—_‘_ RÒ(À}×GZÑGZÐ[]ÑG^ˆ
Ø!%×!8Ñ!8×!?Ñ!?×!EÑ!EÀaÑ!HÐàÓ.ÜØdØ,Ð<Ð=SÐ<TðVóð ð
 ÑØ×,Ñ,ªQ°°°¨^Ñ<ˆLàÑ Ø ×0Ñ0°Ó;ˆMà"×5Ñ5°lÓCÐØ"Ñ8ˆ
àÐr'   )r   r¸   )NNN)rK   rL   rM   rN   r   rs   r   r"   Ú
LongTensorrP   r¯   r­   rR   r±   r²   s   @r%   r´   r´   Ú   sp   ø† ð

Ð0÷ 

ð 15Ø37Ø59ñ	à˜E×,Ñ,Ñ-ðð ˜u×/Ñ/Ñ0ðð   × 1Ñ 1Ñ2ð	ð
 
‰÷ó r'   r´   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutc                 ó°  • [         R                  " XR                  SS5      5      U-  nUb  X„-   n[        R                  R                  US[         R                  S9R                  UR                  5      n[        R                  R                  X†U R                  S9n[         R                  " Xƒ5      n	U	R                  SS5      R                  5       n	X˜4$ )Nro   r¿   )r   Údtype)ÚpÚtrainingr   rl   )r"   Úmatmulr¨   r   r    ÚsoftmaxÚfloat32ÚtorÍ   rË   rÏ   Ú
contiguous)
rÅ   rÆ   rÇ   rÈ   rÉ   rÊ   rË   ÚkwargsÚattn_weightsÚattn_outputs
             r%   Úeager_attention_forwardrØ     s°   € ô —<’< §}¡}°R¸Ó'<Ó=ÀÑG€LØÑ!Ø#Ñ4ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€Lä—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r'   c                   óì   ^ • \ rS rSrSrS\\\4   4U 4S jjr   SS\	R                  S\\	R                     S\\	R                     S\\   S	\\	R                  \\	R                     4   4
S
 jjrSrU =r$ )ÚCLIPSegAttentioni  z=Multi-headed attention from 'Attention Is All You Need' paperre   c                 ó   >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        U R                  U R                  -  U l        U R                  U R                  -  U R                  :w  a&  [        SU R                   SU R                   S35      eU R                  S-  U l	        UR                  U l        SU l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: r¥   ç      à¿F)rr   rs   re   rt   ru   Únum_attention_headsÚ	num_headsÚhead_dimr¦   ÚscaleÚattention_dropoutrË   Ú	is_causalr   ÚLinearÚk_projÚv_projÚq_projÚout_projr„   s     €r%   rs   ÚCLIPSegAttention.__init__  s  ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒØ=‰=˜4Ÿ>™>Ñ)¨T¯^©^Ó;ÜØMÈdÏnÉnÐM]ð ^Ø—N‘NÐ# 2ð'óð ð —]‘] DÑ(ˆŒ
Ø×/Ñ/ˆŒØˆŒä—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜŸ	š	 $§.¡.°$·.±.ÓAˆr'   rV   rÉ   Úcausal_attention_maskÚoutput_attentionsr   c                 ó  • UR                   u  pVnU R                  U5      nU R                  U5      n	U R                  U5      n
UR	                  XVU R
                  U R                  5      R                  SS5      nU	R	                  XVU R
                  U R                  5      R                  SS5      n	U
R	                  XVU R
                  U R                  5      R                  SS5      n
U R                  R                  S:w  a  Ub  Ub  X#-   nOUb  UnO	USLU l
        [        nU R                  R                  S:w  aT  U R                  R                  S:X  a  U(       a  [        R                  S5        O[        U R                  R                     nU" U UU	U
UU R                  U R                  U R                   (       d  SOU R"                  S	9u  pÍUR%                  XVU5      R'                  5       nU R)                  U5      nU(       d  SnXÍ4$ )
z#Input shape: Batch x Time x Channelr   rl   Úflash_attention_2NÚeagerÚsdpazã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.ç        )râ   rÊ   rË   )r‘   ræ   rä   rå   r™   rÞ   rß   r¨   re   Ú_attn_implementationrâ   rØ   ÚloggerÚwarning_oncer   rà   rÏ   rË   r–   rÔ   rç   )r@   rV   rÉ   ré   rê   r©   rÀ   ru   ÚqueriesrF   ÚvaluesÚattention_interfacer×   rÖ   s                 r%   r­   ÚCLIPSegAttention.forward1  sÇ  € ð -:×,?Ñ,?Ñ)ˆ
 	à—+‘+˜mÓ,ˆØ{‰{˜=Ó)ˆØ—‘˜]Ó+ˆà—,‘,˜z°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØy‰y˜°·±ÀÇÁÓO×YÑYÐZ[Ð]^Ó_ˆØ—‘˜Z°T·^±^ÀTÇ]Á]ÓS×]Ñ]Ð^_ÐabÓcˆð ;‰;×+Ñ+Ð/BÓBØÑ)Ð.CÑ.OØ!/Ñ!G‘Ø&Ñ2Ø!6øà2¸$Ð>ˆDŒNä(?ÐØ;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9Ö>OÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#á$7ØØØØØØ—n‘nØ—J‘JØ#Ÿ}Ÿ}‘C°$·,±,ñ	%
Ñ!ˆð "×)Ñ)¨*À)ÓL×WÑWÓYˆØ—m‘m KÓ0ˆÞ ØˆLàÐ(Ð(r'   )re   rË   ru   rß   râ   rä   rÞ   rç   ræ   rà   rå   )NNF)rK   rL   rM   rN   rO   r   r   r   rs   r"   r¯   r   ÚboolrE   r­   rR   r±   r²   s   @r%   rÚ   rÚ     s–   ø† ÙGðB˜uÐ%8Ð:KÐ%KÑL÷ Bð. 26Ø8<Ø,1ñ6)à—|‘|ð6)ð ! §¡Ñ.ð6)ð  (¨¯©Ñ5ð	6)ð
 $ D™>ð6)ð 
ˆu|‰|˜X e§l¡lÑ3Ð3Ñ	4÷6)ó 6)r'   rÚ   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )Ú
CLIPSegMLPik  c                 ó  >• [         TU ]  5         Xl        [        UR                     U l        [        R                  " UR                  UR                  5      U l
        [        R                  " UR                  UR                  5      U l        g ©N)rr   rs   re   r
   Ú
hidden_actÚactivation_fnr   rã   rt   Úintermediate_sizeÚfc1Úfc2r„   s     €r%   rs   ÚCLIPSegMLP.__init__l  sb   ø€ Ü‰ÑÔØŒÜ# F×$5Ñ$5Ñ6ˆÔÜ—9’9˜V×/Ñ/°×1IÑ1IÓJˆŒÜ—9’9˜V×5Ñ5°v×7IÑ7IÓJˆr'   rV   r   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ rû   )rÿ   rý   r   )r@   rV   s     r%   r­   ÚCLIPSegMLP.forwards  s4   € ØŸ™ Ó/ˆØ×*Ñ*¨=Ó9ˆØŸ™ Ó/ˆØÐr'   )rý   re   rÿ   r   )
rK   rL   rM   rN   rs   r"   r¯   r­   rR   r±   r²   s   @r%   rù   rù   k  s)   ø† õKð U§\¡\ð °e·l±l÷ ò r'   rù   c                   ó°   ^ • \ rS rSrS\4U 4S jjr SS\R                  S\R                  S\R                  S\\	   S\
\R                     4
S	 jjrS
rU =r$ )ÚCLIPSegEncoderLayeri{  re   c                 ó<  >• [         TU ]  5         UR                  U l        [	        U5      U l        [        R                  " U R                  UR                  S9U l	        [        U5      U l        [        R                  " U R                  UR                  S9U l        g ©N)Úeps©rr   rs   rt   ru   rÚ   Ú	self_attnr   Ú	LayerNormÚlayer_norm_epsÚlayer_norm1rù   ÚmlpÚlayer_norm2r„   s     €r%   rs   ÚCLIPSegEncoderLayer.__init__|  óm   ø€ Ü‰ÑÔØ×+Ñ+ˆŒÜ)¨&Ó1ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÔÜ˜fÓ%ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÕr'   rV   rÉ   ré   rê   r   c                 óÊ   • UnU R                  U5      nU R                  UUUUS9u  pXQ-   nUnU R                  U5      nU R                  U5      nXQ-   nU4nU(       a  Xv4-  nU$ ©a  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
        `(config.encoder_attention_heads,)`.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)rV   rÉ   ré   rê   )r  r
  r  r  ©r@   rV   rÉ   ré   rê   ÚresidualrÖ   Úoutputss           r%   r­   ÚCLIPSegEncoderLayer.forward„  sŠ   € ð" !ˆà×(Ñ(¨Ó7ˆØ&*§n¡nØ'Ø)Ø"7Ø/ð	 '5ð '
Ñ#ˆð !Ñ0ˆà ˆØ×(Ñ(¨Ó7ˆØŸ™ Ó/ˆØ Ñ0ˆà Ð"ˆæØÑ&ˆGàˆr'   ©ru   r  r  r  r
  ©F)rK   rL   rM   rN   r   rs   r"   r¯   r   r÷   rE   rP   r­   rR   r±   r²   s   @r%   r  r  {  sk   ø† ðS˜}÷ Sð -2ñ&à—|‘|ð&ð Ÿ™ð&ð  %Ÿ|™|ð	&ð
 $ D™>ð&ð 
ˆu× Ñ Ñ	!÷&ó &r'   r  c                   ó.   • \ rS rSr% \\S'   SrSrS rSr	g)ÚCLIPSegPreTrainedModeli­  re   ÚclipTc                 óF
  • U R                   R                  n[        U[        5      (       ad  UR                  R
                  R                  R                  SUS-  S9  UR                  R
                  R                  R                  SUS-  S9  GOØ[        U[        5      (       aã  U R                   R                  n[        R                  R                  UR                  SUR                  S-  U-  S9  [        R                  R                  UR                  R
                  UR                   R                  U-  S9  [        R                  R                  UR                  R
                  UR                   R                  U-  S9  GOà[        U[         5      (       Ga!  U R                   R                  nUR                  S-  SUR                   R"                  -  S-  -  U-  nUR                  S-  U-  n[        R                  R                  UR$                  R
                  US9  [        R                  R                  UR&                  R
                  US9  [        R                  R                  UR(                  R
                  US9  [        R                  R                  UR*                  R
                  US9  GO©[        U[,        5      (       aÓ  U R                   R                  nUR                   R.                  S-  SUR                   R"                  -  S-  -  U-  nSUR                   R.                  -  S-  U-  n[        R                  R                  UR0                  R
                  US9  [        R                  R                  UR2                  R
                  US9  OÁ[        U[4        5      (       a¬  [        R                  R                  UR6                  R
                  UR8                  S-  U R                   R                  -  S9  [        R                  R                  UR:                  R
                  UR<                  S-  U R                   R                  -  S9  [        U[        R>                  5      (       aI  UR@                  R                  RC                  5         UR
                  R                  RE                  S5        [        U[        RF                  5      (       a3  UR@                  b%  UR@                  R                  RC                  5         ggg)	zInitialize the weightsrï   g{®Gáz”?)ÚmeanÚstdrÜ   )r  rl   g      ð?N)$re   Úinitializer_factorÚ
isinstancer´   r¸   r’   ÚdataÚnormal_r   rc   r   Úinitrz   ru   r}   Úinitializer_rangerÚ   Únum_hidden_layersræ   rä   rå   rç   rù   rt   rÿ   r   ÚCLIPSegModelÚtext_projectionÚtext_embed_dimÚvisual_projectionÚvision_embed_dimr  rk   Úzero_Úfill_rã   )r@   rÅ   ÚfactorÚin_proj_stdÚout_proj_stdÚfc_stds         r%   Ú_init_weightsÚ$CLIPSegPreTrainedModel._init_weights³  s¬  € à—‘×/Ñ/ˆÜfÔ3×4Ñ4Ø×"Ñ"×)Ñ)×.Ñ.×6Ñ6¸CÀVÈdÁ]Ð6ÑSØ×%Ñ%×,Ñ,×1Ñ1×9Ñ9¸sÈÐQUÉÐ9ÓVÜ˜Ô 7×8Ñ8Ø—[‘[×3Ñ3ˆFÜG‰GO‰O˜F×2Ñ2¸À&×BRÑBRÐTXÑBXÐ[aÑBaˆOÑbÜG‰GO‰O˜F×2Ñ2×9Ñ9¸v¿}¹}×?^Ñ?^ÐagÑ?gˆOÑhÜG‰GO‰O˜F×5Ñ5×<Ñ<À&Ç-Á-×BaÑBaÐdjÑBjˆOÓkÜ˜Ô 0×1Ò1Ø—[‘[×3Ñ3ˆFØ!×+Ñ+¨TÑ1°q¸6¿=¹=×;ZÑ;ZÑ7ZÐ_cÑ6cÑdÐgmÑmˆKØ"×,Ñ,¨dÑ2°fÑ<ˆLÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸO™O×2Ñ2¸ˆOÓEÜ˜¤
×+Ñ+Ø—[‘[×3Ñ3ˆFØ!Ÿ=™=×4Ñ4°dÑ:ÀÀFÇMÁM×DcÑDcÑ@cÐhlÑ?lÑmÐpvÑvˆKØ˜&Ÿ-™-×3Ñ3Ñ3¸Ñ<¸vÑEˆFÜG‰GO‰O˜FŸJ™J×-Ñ-°6ˆOÑ:ÜG‰GO‰O˜FŸJ™J×-Ñ-°;ˆOÒ?Ü˜¤×-Ñ-ÜG‰GO‰OØ×&Ñ&×-Ñ-Ø×)Ñ)¨4Ñ/°$·+±+×2PÑ2PÑPð ñ ô G‰GO‰OØ×(Ñ(×/Ñ/Ø×+Ñ+¨TÑ1°D·K±K×4RÑ4RÑRð ñ ô
 fœbŸl™l×+Ñ+ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÔ)ÜfœbŸi™i×(Ñ(¨V¯[©[Ñ-DØK‰K×Ñ×"Ñ"Õ$ð .EÐ(r'   rJ   N)
rK   rL   rM   rN   r   rQ   Úbase_model_prefixÚsupports_gradient_checkpointingr2  rR   rJ   r'   r%   r  r  ­  s   ‡ àÓØÐØ&*Ð#õ'%r'   r  c                   ó¾   ^ • \ rS rSrSrS\4U 4S jjr\     SS\\	R                     S\\	R                     S\\   S\\   S	\\   S
\\\4   4S jj5       rSrU =r$ )ÚCLIPSegEncoderiÞ  zŸ
Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a
[`CLIPSegEncoderLayer`].

Args:
    config: CLIPSegConfig
re   c                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf )NF)
rr   rs   re   r   Ú
ModuleListÚranger&  r  ÚlayersÚgradient_checkpointing)r@   re   rª   r…   s      €r%   rs   ÚCLIPSegEncoder.__init__ç  sT   ø€ Ü‰ÑÔØŒÜ—m’mÌ%ÐPV×PhÑPhÔJiÓ$jÑJiÀQÔ%8¸Ö%@ÑJiÑ$jÓkˆŒØ&+ˆÕ#ùò %ks   ½A%rÉ   ré   rê   Úoutput_hidden_statesÚreturn_dictr   c                 ó’  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU(       a  SOSnU(       a  SOSnUn	[	        U R
                  5       H0  u  p«U(       a  Xy4-   nU" U	UUUS9nUS   n	U(       d  M(  XŒS   4-   nM2     U(       a  Xy4-   n[        X—US9$ )a  
Args:
    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
        Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.
        This is useful if you want more control over how to convert `input_ids` indices into associated vectors
        than the model's internal embedding lookup matrix.
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    causal_attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Causal mask for the text model. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
NrJ   )rê   r   r   )Úlast_hidden_staterV   rW   )re   rê   r>  Úuse_return_dictÚ	enumerater;  r   )r@   r½   rÉ   ré   rê   r>  r?  Úencoder_statesÚall_attentionsrV   ÚidxÚencoder_layerÚlayer_outputss                r%   r­   ÚCLIPSegEncoder.forwardí  sé   € ðN 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆæ3™¸ˆÞ0™°dˆà%ˆÜ"+¨D¯K©KÖ"8ÑˆCÞ#Ø!/Ð2BÑ!BÙ)ØØØ%Ø"3ñ	ˆMð *¨!Ñ,ˆMç Ð Ø!/ÀÑ3CÐ2EÑ!E’ñ #9ö  Ø+Ð.>Ñ>ˆNäØ+ÐVdñ
ð 	
r'   )re   r<  r;  ©NNNNN)rK   rL   rM   rN   rO   r   rs   r   r   r"   r¯   r÷   r   rE   r   r­   rR   r±   r²   s   @r%   r7  r7  Þ  s¥   ø† ñð,˜}÷ ,ð ð 26Ø8<Ø,0Ø/3Ø&*ñC
ð ! §¡Ñ.ðC
ð  (¨¯©Ñ5ð	C
ð
 $ D™>ðC
ð ' t™nðC
ð ˜d‘^ðC
ð 
ˆuoÐ%Ñ	&ôC
ó öC
r'   r7  c                   óÚ   ^ • \ rS rSrS\4U 4S jjr\      SS\\R                     S\\R                     S\\R                     S\\
   S\\
   S	\\
   S
\\\4   4S jj5       rSrU =r$ )ÚCLIPSegTextTransformeri4  re   c                 óî   >• [         TU ]  5         Xl        UR                  n[	        U5      U l        [        U5      U l        [        R                  " X!R                  S9U l        UR                  U l        g r  )rr   rs   re   rt   r´   r‡   r7  Úencoderr   r  r  Úfinal_layer_normÚeos_token_idrº   s      €r%   rs   ÚCLIPSegTextTransformer.__init__5  s]   ø€ Ü‰ÑÔØŒØ×&Ñ&ˆ	Ü/°Ó7ˆŒÜ% fÓ-ˆŒÜ "§¢¨Y×<QÑ<QÑ RˆÔð #×/Ñ/ˆÕr'   r¼   rÉ   rm   rê   r>  r?  r   c           	      ó0  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eUR                  5       nUR                  SUS   5      nU R                  XS9n[        XxR                  UR                  S9n	Ub  [        X(R                  5      nU R                  UUU	UUUS9n
U
S   nU R                  U5      nU R                  S:X  ae  U[        R                   " UR"                  S   UR                  S9UR%                  [        R&                  UR                  S9R)                  SS	94   nOU[        R                   " UR"                  S   UR                  S9UR%                  [        R&                  UR                  S9U R                  :H  R'                  5       R)                  SS	94   nU(       d	  X¼4U
S
S  -   $ [+        UUU
R,                  U
R.                  S9$ )NzYou have to specify input_idsro   )r¼   rm   r   )r½   rÉ   ré   rê   r>  r?  r   rl   )rÍ   r   r   r   ©rA  Úpooler_outputrV   rW   )re   rê   r>  rB  r¦   rŒ   r™   r‡   r   rÍ   r   r   rN  rO  rP  r"   r#   r‘   rÓ   r°   Úargmaxr   rV   rW   )r@   r¼   rÉ   rm   rê   r>  r?  Úinput_shaperV   ré   Úencoder_outputsrA  r\   s                r%   r­   ÚCLIPSegTextTransformer.forward@  s&  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ<Ó=Ð=à—n‘nÓ&ˆØ—N‘N 2 {°2¡Ó7ˆ	àŸ™°)˜ÐWˆô !AØ×,Ñ,°]×5IÑ5Iñ!
Ðð Ñ%ä7¸×H[ÑH[Ó\ˆNàŸ,™,Ø'Ø)Ø"7Ø/Ø!5Ø#ð 'ð 
ˆð ,¨AÑ.ÐØ ×1Ñ1Ð2CÓDÐà×Ñ Ó!ð .Ü—’Ð.×4Ñ4°QÑ7Ð@Q×@XÑ@XÑYØ—‘¤5§9¡9Ð5F×5MÑ5MÐN×UÑUÐZ\ÐUÐ]ð_ñ‰Mð .Ü—’Ð.×4Ñ4°QÑ7Ð@Q×@XÑ@XÑYð —‘¤E§I¡IÐ6G×6NÑ6NÐOÐSW×SdÑSdÑdß‘“ß‘˜Bð!ñˆMö Ø%Ð5¸ÈÈÐ8KÑKÐKä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r'   )re   r‡   rN  rP  rO  ©NNNNNN)rK   rL   rM   rN   r   rs   r   r   r"   r¯   r÷   r   rE   r   r­   rR   r±   r²   s   @r%   rL  rL  4  s·   ø† ð	0Ð0÷ 	0ð ð -1Ø15Ø/3Ø,0Ø/3Ø&*ñK
à˜EŸL™LÑ)ðK
ð ! §¡Ñ.ðK
ð ˜uŸ|™|Ñ,ð	K
ð
 $ D™>ðK
ð ' t™nðK
ð ˜d‘^ðK
ð 
ˆuÐ0Ð0Ñ	1ôK
ó öK
r'   rL  c                   ó  ^ • \ rS rSr% \\S'   SS/rS\4U 4S jjrS\R                  4S jr
S r\      SS	\\R                     S
\\R                     S\\R                     S\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚCLIPSegTextModeli  re   r´   r  c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g rû   )rr   rs   rL  Ú
text_modelÚ	post_initr„   s     €r%   rs   ÚCLIPSegTextModel.__init__”  s&   ø€ Ü‰Ñ˜Ô Ü0°Ó8ˆŒà‰Õr'   r   c                 óB   • U R                   R                  R                  $ rû   ©r]  r‡   r¸   rG   s    r%   Úget_input_embeddingsÚ%CLIPSegTextModel.get_input_embeddingsš  s   € Ø‰×)Ñ)×9Ñ9Ð9r'   c                 ó8   • XR                   R                  l        g rû   ra  )r@   rÈ   s     r%   Úset_input_embeddingsÚ%CLIPSegTextModel.set_input_embeddings  s   € Ø5:‰×"Ñ"Õ2r'   r¼   rÉ   rm   rê   r>  r?  c           	      ó*   • U R                  UUUUUUS9$ )aë  
Examples:

```python
>>> from transformers import AutoTokenizer, CLIPSegTextModel

>>> tokenizer = AutoTokenizer.from_pretrained("CIDAS/clipseg-rd64-refined")
>>> model = CLIPSegTextModel.from_pretrained("CIDAS/clipseg-rd64-refined")

>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled (EOS token) states
```©r¼   rÉ   rm   rê   r>  r?  ©r]  )r@   r¼   rÉ   rm   rê   r>  r?  s          r%   r­   ÚCLIPSegTextModel.forward   s,   € ð2 ‰ØØ)Ø%Ø/Ø!5Ø#ð ð 
ð 	
r'   ri  rY  )rK   rL   rM   rN   r   rQ   Ú_no_split_modulesrs   r   ÚModulerb  re  r   r   r"   r¯   r÷   r   rE   r   r­   rR   r±   r²   s   @r%   r[  r[    sÕ   ø‡ ØÓà0Ð2GÐHÐðÐ0÷ ð: b§i¡iô :ò;ð ð -1Ø15Ø/3Ø,0Ø/3Ø&*ñ
à˜EŸL™LÑ)ð
ð ! §¡Ñ.ð
ð ˜uŸ|™|Ñ,ð	
ð
 $ D™>ð
ð ' t™nð
ð ˜d‘^ð
ð 
ˆuÐ0Ð0Ñ	1ô
ó ö
r'   r[  c                   ó¤   ^ • \ rS rSrS\4U 4S jjr\    SS\\R                     S\\
   S\\
   S\\
   S\\
   S	\\\4   4S
 jj5       rSrU =r$ )ÚCLIPSegVisionTransformeriÃ  re   c                 ó  >• [         TU ]  5         Xl        UR                  n[	        U5      U l        [        R                  " X!R                  S9U l	        [        U5      U l        [        R                  " X!R                  S9U l        g r  )rr   rs   re   rt   rc   r‡   r   r  r  Úpre_layrnormr7  rN  Úpost_layernormrº   s      €r%   rs   Ú!CLIPSegVisionTransformer.__init__Å  sd   ø€ Ü‰ÑÔØŒØ×&Ñ&ˆ	ä1°&Ó9ˆŒÜŸLšL¨×8MÑ8MÑNˆÔÜ% fÓ-ˆŒÜ Ÿlšl¨9×:OÑ:OÑPˆÕr'   r¢   rê   r>  r?  r    r   c                 ó¬  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  XS9nU R                  U5      nU R                  UUUUS9nUS   nUS S 2SS S 24   n	U R                  U	5      n	U(       d	  X‰4USS  -   $ [        UU	UR                  UR                  S9$ )N)r    )r½   rê   r>  r?  r   r   rS  )re   rê   r>  rB  r‡   rp  rN  rq  r   rV   rW   )
r@   r¢   rê   r>  r?  r    rV   rW  rA  r\   s
             r%   r­   Ú CLIPSegVisionTransformer.forwardÏ  sû   € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàŸ™¨˜ÐhˆØ×)Ñ)¨-Ó8ˆàŸ,™,Ø'Ø/Ø!5Ø#ð	 'ð 
ˆð ,¨AÑ.ÐØ)ª!¨Q²¨'Ñ2ˆØ×+Ñ+¨MÓ:ˆæØ%Ð5¸ÈÈÐ8KÑKÐKä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r'   )re   r‡   rN  rq  rp  )NNNT)rK   rL   rM   rN   r   rs   r   r   r"   rP   r÷   r   rE   r   r­   rR   r±   r²   s   @r%   rn  rn  Ã  s”   ø† ðQÐ2÷ Qð ð -1Ø/3Ø&*Ø37ñ$
à˜u×0Ñ0Ñ1ð$
ð $ D™>ð$
ð ' t™nð	$
ð
 ˜d‘^ð$
ð #+¨4¡.ð$
ð 
ˆuÐ0Ð0Ñ	1ô$
ó ö$
r'   rn  c                   óØ   ^ • \ rS rSr% \\S'   SrS\4U 4S jjrS\R                  4S jr
\     SS\\R                     S\\   S\\   S	\\   S
\\   S\\\4   4S jj5       rSrU =r$ )ÚCLIPSegVisionModeli÷  re   r¢   c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g rû   )rr   rs   rn  Úvision_modelr^  r„   s     €r%   rs   ÚCLIPSegVisionModel.__init__û  s'   ø€ Ü‰Ñ˜Ô Ü4°VÓ<ˆÔà‰Õr'   r   c                 óB   • U R                   R                  R                  $ rû   )rx  r‡   r}   rG   s    r%   rb  Ú'CLIPSegVisionModel.get_input_embeddings  s   € Ø× Ñ ×+Ñ+×;Ñ;Ð;r'   rê   r>  r    r?  c                 ó(   • U R                  UUUUUS9$ )aj  
Examples:

```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, CLIPSegVisionModel

>>> processor = AutoProcessor.from_pretrained("CIDAS/clipseg-rd64-refined")
>>> model = CLIPSegVisionModel.from_pretrained("CIDAS/clipseg-rd64-refined")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled CLS states
```©r¢   rê   r>  r    r?  ©rx  )r@   r¢   rê   r>  r    r?  s         r%   r­   ÚCLIPSegVisionModel.forward  s+   € ð: × Ñ Ø%Ø/Ø!5Ø%=Ø#ð !ð 
ð 	
r'   r~  ©NNNTN)rK   rL   rM   rN   r   rQ   Úmain_input_namers   r   rl  rb  r   r   r"   rP   r÷   r   rE   r   r­   rR   r±   r²   s   @r%   rv  rv  ÷  s°   ø‡ ØÓØ$€OðÐ2÷ ð< b§i¡iô <ð ð 59Ø,0Ø/3Ø37Ø&*ñ"
à˜u×0Ñ0Ñ1ð"
ð $ D™>ð"
ð ' t™nð	"
ð
 #+¨4¡.ð"
ð ˜d‘^ð"
ð 
ˆuÐ0Ð0Ñ	1ô"
ó ö"
r'   rv  c                   óF  ^ • \ rS rSr% \\S'   S\4U 4S jjr\      SS\\	R                     S\\	R                     S\\	R                     S\\   S\\   S	\\   S
\	R                  4S jj5       r\     SS\\	R                     S\\   S\\   S\S	\\   S
\	R                  4S jj5       r\         SS\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\   S\\   S\\   S\S	\\   S
\\\4   4S jj5       rSrU =r$ )r'  i*  re   c                 ó¤  >• [         TU ]  U5        [        UR                  [        5      (       d"  [        S[        UR                  5       S35      e[        UR                  [        5      (       d"  [        S[        UR                  5       S35      eUR                  nUR                  nUR                  Ul	        UR                  Ul	        UR                  U l
        UR                  U l        UR                  U l        [        U5      U l        [!        U5      U l        [$        R&                  " U R                  U R                  SS9U l        [$        R&                  " U R                  U R                  SS9U l        [$        R,                  " [.        R0                  " U R2                  R4                  5      5      U l        U R9                  5         g )NzNconfig.text_config is expected to be of type CLIPSegTextConfig but is of type Ú.zRconfig.vision_config is expected to be of type CLIPSegVisionConfig but is of type F)rk   )rr   rs   r!  Útext_configr   Ú	TypeErrorÚtypeÚvision_configr   rð   Úprojection_dimrt   r)  r+  rL  r]  rn  rx  r   rã   r*  r(  rx   r"   Útensorre   Úlogit_scale_init_valueÚlogit_scaler^  )r@   re   r…  rˆ  r…   s       €r%   rs   ÚCLIPSegModel.__init__.  sy  ø€ Ü‰Ñ˜Ô ä˜&×,Ñ,Ô.?×@Ñ@ÜðÜ˜×+Ñ+Ó,Ð-¨Qð0óð ô
 ˜&×.Ñ.Ô0C×DÑDÜðÜ˜×-Ñ-Ó.Ð/¨qð2óð ð
 ×(Ñ(ˆØ×,Ñ,ˆà+1×+FÑ+FˆÔ(à-3×-HÑ-HˆÔ*à$×3Ñ3ˆÔØ)×5Ñ5ˆÔØ -× 9Ñ 9ˆÔä0°Ó=ˆŒÜ4°]ÓCˆÔä!#§¢¨4×+@Ñ+@À$×BUÑBUÐ\aÑ!bˆÔÜ!Ÿyšy¨×)<Ñ)<¸d×>QÑ>QÐX]Ñ^ˆÔÜŸ<š<¬¯ª°T·[±[×5WÑ5WÓ(XÓYˆÔð 	‰Õr'   r¼   rÉ   rm   rê   r>  r?  r   c           	      óü   • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  UUUUUUS9nUS   nU R                  U5      n	U	$ )aG  
Returns:
    text_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by
    applying the projection layer to the pooled output of [`CLIPSegTextModel`].

Examples:

```python
>>> from transformers import AutoTokenizer, CLIPSegModel

>>> tokenizer = AutoTokenizer.from_pretrained("CIDAS/clipseg-rd64-refined")
>>> model = CLIPSegModel.from_pretrained("CIDAS/clipseg-rd64-refined")

>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")
>>> text_features = model.get_text_features(**inputs)
```rh  r   )re   rê   r>  rB  r]  r(  )
r@   r¼   rÉ   rm   rê   r>  r?  Útext_outputsr\   Útext_featuress
             r%   Úget_text_featuresÚCLIPSegModel.get_text_featuresR  s˜   € ð6 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—‘ØØ)Ø%Ø/Ø!5Ø#ð 'ð 
ˆð % Q™ˆØ×,Ñ,¨]Ó;ˆàÐr'   r¢   r    c                 óú   • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  UUUUUS9nUS   nU R                  U5      nU$ )aÑ  
Returns:
    image_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by
    applying the projection layer to the pooled output of [`CLIPSegVisionModel`].

Examples:

```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, CLIPSegModel

>>> processor = AutoProcessor.from_pretrained("CIDAS/clipseg-rd64-refined")
>>> model = CLIPSegModel.from_pretrained("CIDAS/clipseg-rd64-refined")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> image_features = model.get_image_features(**inputs)
```r}  r   )re   rê   r>  rB  rx  r*  )	r@   r¢   rê   r>  r    r?  Úvision_outputsr\   Úimage_featuress	            r%   Úget_image_featuresÚCLIPSegModel.get_image_features  s™   € ð@ 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×*Ñ*Ø%Ø/Ø!5Ø%=Ø#ð +ð 
ˆð ' qÑ)ˆØ×/Ñ/°Ó>ˆàÐr'   Úreturn_lossc
           
      ó®  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU	b  U	OU R                   R                  n	U R	                  UUUUU	S9n
U R                  UUUUUU	S9nU
S   nU R                  U5      nUS   nU R                  U5      nXÌR                  SSSS9-  nXÝR                  SSSS9-  nU R                  R                  5       n[        R                  " XÜR                  5       5      U-  nUR                  5       nSnU(       a  [        U5      nU	(       d  UXýXËU
4nUb  U4U-   $ U$ [        UUUUUUU
S	9$ )
aO  
return_loss (`bool`, *optional*):
    Whether or not to return the contrastive loss.

Examples:

```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, CLIPSegModel

>>> processor = AutoProcessor.from_pretrained("CIDAS/clipseg-rd64-refined")
>>> model = CLIPSegModel.from_pretrained("CIDAS/clipseg-rd64-refined")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(
...     text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True
... )

>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities
```Nr}  rh  r   rl   ro   T)rÎ   r   Úkeepdim)r1   r2   r3   r4   r5   r6   r7   )re   rê   r>  rB  rx  r]  r*  r(  ÚnormrŒ  Úexpr"   rÐ   r*   r-   r/   )r@   r¼   r¢   rÉ   rm   r˜  rê   r>  r    r?  r”  r  r5   r4   rŒ  r3   r2   r1   Úoutputs                      r%   r­   ÚCLIPSegModel.forward´  s¥  € ðN 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×*Ñ*Ø%Ø/Ø!5Ø%=Ø#ð +ð 
ˆð —‘ØØ)Ø%Ø/Ø!5Ø#ð 'ð 
ˆð & aÑ(ˆØ×-Ñ-¨lÓ;ˆà" 1‘oˆØ×*Ñ*¨;Ó7ˆð $×&7Ñ&7¸!ÀÈTÐ&7Ð&RÑRˆØ!×$4Ñ$4°q¸bÈ$Ð$4Ð$OÑOˆð ×&Ñ&×*Ñ*Ó,ˆÜŸ,š, {·N±NÓ4DÓEÈÑSˆØ*×,Ñ,Ó.ÐàˆÞÜ Ó0ˆDæØ&¨ÀlÐbpÐqˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEäØØ-Ø+Ø#Ø%Ø*Ø .ñ
ð 	
r'   )rŒ  r‰  r)  r]  r(  r+  rx  r*  rY  r€  )	NNNNNNNTN)rK   rL   rM   rN   r   rQ   rs   r   r   r"   r¯   r÷   rP   r‘  r–  rÄ   r   rE   r/   r­   rR   r±   r²   s   @r%   r'  r'  *  s  ø‡ àÓð"˜}÷ "ðH ð -1Ø15Ø/3Ø,0Ø/3Ø&*ñ,à˜EŸL™LÑ)ð,ð ! §¡Ñ.ð,ð ˜uŸ|™|Ñ,ð	,ð
 $ D™>ð,ð ' t™nð,ð ˜d‘^ð,ð 
×	Ñ	ô,ó ð,ð\ ð 59Ø,0Ø/3Ø)-Ø&*ñ0à˜u×0Ñ0Ñ1ð0ð $ D™>ð0ð ' t™nð	0ð
 #'ð0ð ˜d‘^ð0ð 
×	Ñ	ô0ó ð0ðd ð 15Ø48Ø15Ø37Ø&*Ø,0Ø/3Ø)-Ø&*ñ\
à˜E×,Ñ,Ñ-ð\
ð ˜u×0Ñ0Ñ1ð\
ð ! §¡Ñ.ð	\
ð
 ˜u×/Ñ/Ñ0ð\
ð ˜d‘^ð\
ð $ D™>ð\
ð ' t™nð\
ð #'ð\
ð ˜d‘^ð\
ð 
ˆumÐ#Ñ	$ô\
ó ö\
r'   r'  c                   ó´   ^ • \ rS rSrSrS\4U 4S jjr SS\R                  S\R                  S\R                  S\	\
   S	\\R                     4
S
 jjrSrU =r$ )ÚCLIPSegDecoderLayeri  z˜
CLIPSeg decoder layer, which is identical to `CLIPSegEncoderLayer`, except that normalization is applied after
self-attention/MLP, rather than before.
re   c                 ó<  >• [         TU ]  5         UR                  U l        [	        U5      U l        [        R                  " U R                  UR                  S9U l	        [        U5      U l        [        R                  " U R                  UR                  S9U l        g r  r	  r„   s     €r%   rs   ÚCLIPSegDecoderLayer.__init__  r  r'   rV   rÉ   ré   rê   r   c                 óÊ   • UnU R                  UUUUS9u  pXQ-   nU R                  U5      nUnU R                  U5      nXQ-   nU R                  U5      nU4nU(       a  Xv4-  nU$ r  )r
  r  r  r  r  s           r%   r­   ÚCLIPSegDecoderLayer.forward#  sŠ   € ð" !ˆà&*§n¡nØ'Ø)Ø"7Ø/ð	 '5ð '
Ñ#ˆð !Ñ0ˆØ×(Ñ(¨Ó7ˆà ˆØŸ™ Ó/ˆØ Ñ0ˆØ×(Ñ(¨Ó7ˆà Ð"ˆæØÑ&ˆGàˆr'   r  r  )rK   rL   rM   rN   rO   r   rs   r"   r¯   r   r÷   rE   rP   r­   rR   r±   r²   s   @r%   r   r     sp   ø† ñðS˜}÷ Sð -2ñ'à—|‘|ð'ð Ÿ™ð'ð  %Ÿ|™|ð	'ð
 $ D™>ð'ð 
ˆu× Ñ Ñ	!÷'ó 'r'   r   c                   ó˜   ^ • \ rS rSrS\4U 4S jjr   SS\\R                     S\R                  S\	\
   S\	\
   S\	\
   4
S	 jjrS
rU =r$ )ÚCLIPSegDecoderiM  re   c                 ó  >• [         TU ]  U5        UR                  U l        [        R                  " UR
                  UR                  5      U l        [        R                  " UR
                  UR                  5      U l        UR                  (       aû  UR                  R                  S-  UR                  R                  S-  4n[        R                  " [        R                  " UR                  UR                  SSS9[        R                  " 5       [        R                  " UR                  UR                  S-  US   US   S9[        R                  " 5       [        R                  " UR                  S-  SUS   US   S95      U l        ON[        R                  " UR                  SUR                  R                  UR                  R                  S9U l        [#        UR$                  5      n[        R&                  " [)        U5       Vs/ sH8  n[        R                  " UR                  R*                  UR                  5      PM:     sn5      U l        [.        R0                  " UR                  5      nUR                  Ul        UR2                  Ul        UR6                  Ul        S	Ul        [        R&                  " [)        [#        UR$                  5      5       Vs/ sH  n[=        U5      PM     sn5      U l        g s  snf s  snf )
Né   r	   r   )ri   Úpaddingrl   r   )ri   rj   )rj   Úrelu) rr   rs   Úconditional_layerr   rã   r‰  Ú
reduce_dimÚfilm_mulÚfilm_addÚ"use_complex_transposed_convolutionrˆ  rw   Ú
Sequentialr{   ÚReLUÚConvTranspose2dÚtransposed_convolutionr$   Úextract_layersr9  r:  rt   ÚreducesÚcopyÚdeepcopyÚdecoder_num_attention_headsrÝ   Údecoder_intermediate_sizerþ   rü   r   r;  )r@   re   Útransposed_kernelsÚdepthrª   Údecoder_configr…   s         €r%   rs   ÚCLIPSegDecoder.__init__N  s]  ø€ Ü‰Ñ˜Ô à!'×!9Ñ!9ˆÔäŸ	š	 &×"7Ñ"7¸×9JÑ9JÓKˆŒÜŸ	š	 &×"7Ñ"7¸×9JÑ9JÓKˆŒà×4×4Ø"(×"6Ñ"6×"AÑ"AÀQÑ"FÈ×H\ÑH\×HgÑHgÐklÑHlÐ!mÐä*,¯-ª-Ü—	’	˜&×+Ñ+¨V×->Ñ->ÈAÐWXÑYÜ—’“	Ü×"Ò"Ø×%Ñ%Ø×%Ñ%¨Ñ*Ø 2°1Ñ 5Ø-¨aÑ0ñ	ô —’“	Ü×"Ò"Ø×%Ñ%¨Ñ*¨AÐ;MÈaÑ;PÐYkÐlmÑYnñó+ˆDÕ'ô +-×*<Ò*<Ø×!Ñ! 1 f×&:Ñ&:×&EÑ&EÈf×NbÑNb×NmÑNmñ+ˆDÔ'ô F×)Ñ)Ó*ˆÜ—}’}ÜUZÐ[`ÔUaÓbÑUaÐPQŒRYŠYv×+Ñ+×7Ñ7¸×9JÑ9JÖKÑUaÑbó
ˆŒô Ÿš v×';Ñ';Ó<ˆØ%+×%6Ñ%6ˆÔ"Ø-3×-OÑ-OˆÔ*Ø+1×+KÑ+KˆÔ(Ø$*ˆÔ!Ü—m’mÔRWÔX[Ð\b×\qÑ\qÓXrÔRsÓ$tÑRsÈQÔ%8¸Ö%HÑRsÑ$tÓuˆùò cùò %us   È>LË"LrV   r[   rê   r>  r?  c                 ód  • U(       a  SOS nU(       a  SOS nUS S S2   nS n	[        [        X€R                  U R                  5      5       H¤  u  n
u  p¼nU	b  U" U5      U	-   n	OU" U5      n	X R                  :X  aJ  U R                  U5      U	R                  SSS5      -  U R                  U5      -   n	U	R                  SSS5      n	U" U	S S US9nUS   n	U(       a  Xi4-  nU(       d  Mœ  X~S   4-  nM¦     U	S S 2SS 2S S 24   R                  SSS5      n	[        [        R                  " U	R                  S   5      5      nUR                  S   nU	R                  UU	R                  S   Xÿ5      n	U R                  U	5      R                  S5      nU(       d  [        S UXg4 5       5      $ [!        UUUS9$ )	NrJ   ro   r   r   rl   )rÉ   ré   rê   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frû   rJ   )r>   Úvs     r%   rA   Ú)CLIPSegDecoder.forward.<locals>.<genexpr>¨  s   é € ÐaÑ$O˜qŸ™Ò$Oùs   ‚‹	)r   rV   rW   )rC  Úzipr;  rµ  r«  r­  r—   r®  r°   ÚmathÚsqrtr‘   r™   r³  ÚsqueezerE   rT   )r@   rV   r[   rê   r>  r?  Úall_hidden_statesrE  Úactivationsr  ÚiÚ
activationÚlayerÚreducerH  rŒ   r©   r   s                     r%   r­   ÚCLIPSegDecoder.forwardx  sÇ  € ö #7™B¸DÐÞ0™°dˆà#¡D b DÑ)ˆàˆÜ.7¼¸KÏÉÐVZ×VbÑVbÓ8cÖ.dÑ*ˆAÑ*
 6ØÑ!Ù 
Ó+¨fÑ4‘á 
Ó+à×*Ñ*Ó*ØŸ™Ð'=Ó>ÀÇÁÐPQÐSTÐVWÓAXÑXÐ[_×[hÑ[hØ*ó\ñ ð  Ÿ™¨¨1¨aÓ0á!Ø tÀ4Ð[lñˆMð # 1Ñ%ˆFæ#Ø! YÑ.Ð!ç Ð Ø°Ñ#3Ð"5Ñ5’ñ- /eð0 š˜1™2šq˜Ñ!×)Ñ)¨!¨Q°Ó2ˆä”4—9’9˜VŸ\™\¨!™_Ó-Ó.ˆà+×1Ñ1°!Ñ4ˆ
Ø—‘˜Z¨¯©°a©¸$ÓEˆà×,Ñ,¨VÓ4×<Ñ<¸QÓ?ˆæÜÑa VÐ->Ñ$OÓaÓaÐaä#ØØ+Ø%ñ
ð 	
r'   )r«  r®  r­  r;  rµ  r³  )NNT)rK   rL   rM   rN   r   rs   rE   r"   r¯   r   r÷   r­   rR   r±   r²   s   @r%   r¦  r¦  M  sp   ø† ð(v˜}÷ (vð\ -1Ø/3Ø&*ñ6
à˜UŸ\™\Ñ*ð6
ð !&§¡ð6
ð $ D™>ð	6
ð
 ' t™nð6
ð ˜d‘^÷6
ó 6
r'   r¦  zn
    CLIPSeg model with a Transformer-based decoder on top for zero-shot and one-shot image segmentation.
    )Úcustom_introc                   ó  ^ • \ rS rSr% \\S'   S\4U 4S jjr     SS\\   S\\	R                     S\\	R                     S\\	R                     S\\	R                     4
S	 jjr\           SS\\	R                     S
\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\   S\\   S\S\\   S\\\4   4S jj5       rSrU =r$ )ÚCLIPSegForImageSegmentationi±  re   c                 ó²   >• [         TU ]  U5        Xl        [        U5      U l        UR
                  U l        [        U5      U l        U R                  5         g rû   )	rr   rs   re   r'  r  r´  r¦  Údecoderr^  r„   s     €r%   rs   Ú$CLIPSegForImageSegmentation.__init__¹  sG   ø€ Ü‰Ñ˜Ô àŒä  Ó(ˆŒ	Ø$×3Ñ3ˆÔä% fÓ-ˆŒð 	‰Õr'   r©   r¼   rÉ   rm   Úconditional_pixel_valuesc                 ó¾  • UbT  [        U5      U:w  a  [        S5      e[        R                  " 5          U R                  R                  X#US9nS S S 5        U$ UbU  [        U5      U:w  a  [        S5      e[        R                  " 5          U R                  R                  U5      nS S S 5        U$ [        S5      e! , (       d  f       W$ = f! , (       d  f       W$ = f)Nz@Make sure to pass as many prompt texts as there are query images)rÉ   rm   zAMake sure to pass as many prompt images as there are query imagesz[Invalid conditional, should be either provided as `input_ids` or `conditional_pixel_values`)r$   r¦   r"   Úno_gradr  r‘  r–  )r@   r©   r¼   rÉ   rm   rÓ  r[   s          r%   Úget_conditional_embeddingsÚ6CLIPSegForImageSegmentation.get_conditional_embeddingsÆ  sØ   € ð Ñ ä9‹~ Ó+Ü Ð!cÓdÐdÜ—’•Ø)-¯©×)DÑ)DØÈ<ð *Eð *Ð&÷ !ð &Ð%ð &Ñ1äÐ+Ó,°
Ó:Ü Ð!dÓeÐeÜ—’•Ø)-¯©×)EÑ)EÐF^Ó)_Ð&÷ !ð &Ð%ô	 Ømóð ÷ !”ð &Ð%ú÷ !”ð &Ð%ús   ³B;Â
CÂ;
C
Ã
Cr¢   r[   Úlabelsrê   r>  r    r?  r   c           	      ó\  • Ub  UOU R                   R                  n[        R                  " 5          U R                  R                  UUSU
US9nU R                  R                  US   5      nU(       a  UR                  OUS   nU R                   Vs/ sH
  oþUS-      PM     nnU(       a>  [        UR                  UR                  U	(       a  UR                  OSUR                  S9nOU	(       d  USS USS -   OUnSSS5        Uc!  U R                  UR                  S   UUUUS	9nO]UR                  S   UR                  S   :w  a  [        S
5      eUR                  S   U R                   R                   :w  a  [        S5      eU R#                  WUUU	US9nU(       a  UR$                  OUS   nSnUb9  UR'                  UR(                  5      n[*        R,                  " 5       nU" UU5      nU(       d  UUWWU4nUb  U4U-   $ U$ [/        UUUWWUS9$ s  snf ! , (       d  f       GN%= f)a  
conditional_pixel_values (`torch.FloatTensor`, *optional*):
    The pixel values of the conditional images.
conditional_embeddings (`torch.FloatTensor` of shape `(batch_size, config.projection_dim)`, *optional*):
    The conditional embeddings for the query images. If provided, the model will use this instead of computing
    the embeddings from the conditional_pixel_values.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

Examples:

```python
>>> from transformers import AutoProcessor, CLIPSegForImageSegmentation
>>> from PIL import Image
>>> import requests

>>> processor = AutoProcessor.from_pretrained("CIDAS/clipseg-rd64-refined")
>>> model = CLIPSegForImageSegmentation.from_pretrained("CIDAS/clipseg-rd64-refined")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["a cat", "a remote", "a blanket"]
>>> inputs = processor(text=texts, images=[image] * len(texts), padding=True, return_tensors="pt")

>>> outputs = model(**inputs)

>>> logits = outputs.logits
>>> print(logits.shape)
torch.Size([3, 352, 352])
```NTr}  r   rl   rS  r	   r   )r©   r¼   rÉ   rm   rÓ  zWMake sure to pass as many conditional embeddings as there are query images in the batchzcMake sure that the feature dimension of the conditional embeddings matches `config.projection_dim`.)rê   r>  r?  )r1   r   r[   r\   r7   r]   )re   rB  r"   rÕ  r  rx  r*  rV   r´  r   rA  rT  rW   rÖ  r‘   r¦   r‰  rÑ  r   rÓ   r   r   ÚBCEWithLogitsLossrY   )r@   r¼   r¢   rÓ  r[   rÉ   rm   rØ  rê   r>  r    r?  r”  r\   rV   rÈ  rÇ  Údecoder_outputsr   r1   Úloss_fnr  s                         r%   r­   Ú#CLIPSegForImageSegmentation.forwardã  sg  € ð^ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆô ]Š]_Ø!ŸY™Y×3Ñ3Ø)Ø"3Ø%)Ø)AØ'ð 4ð ˆNð !ŸI™I×7Ñ7¸ÀqÑ8IÓJˆMæ<G˜N×8Ò8È^Ð\]ÑM^ˆMà9=×9LÒ9LÓMÑ9L°A¨¨Q©Ô/Ñ9LˆKÐMö Ü!;Ø&4×&FÑ&FØ"0×">Ñ">ÞBV .×">Ò">Ð\`Ø-×8Ñ8ñ	"‘ö DXN 2 AÐ&¨¸¸Ð);Ò;Ð]kð ÷/ ð8 "Ñ)Ø%)×%DÑ%DØ'×-Ñ-¨aÑ0Ø#Ø-Ø)Ø)Að &Eð &Ñ"ð &×+Ñ+¨AÑ.°,×2DÑ2DÀQÑ2GÓGÜ Ømóð ð &×+Ñ+¨AÑ.°$·+±+×2LÑ2LÓLÜ ð0óð ð Ÿ,™,ØØ"Ø/Ø!5Ø#ð 'ð 
ˆö ,7×'Ò'¸OÈAÑ<NˆàˆØÑà—Y‘Y˜vŸ}™}Ó-ˆFÜ×*Ò*Ó,ˆGÙ˜6 6Ó*ˆDæØÐ4°mÀ^ÐUdÐeˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä-ØØØ#9Ø'Ø .Ø*ñ
ð 	
ùòq N÷ Ž_ús   ±A"HÂHÂ#AHÈHÈ
H+)r  re   rÑ  r´  rJ  )NNNNNNNNNTN)rK   rL   rM   rN   r   rQ   rs   r   r°   r"   r¯   rÖ  r   rP   rÄ   r÷   r   rE   r/   r­   rR   r±   r²   s   @r%   rÏ  rÏ  ±  s¡  ø‡ ð Óð˜}÷ ð %)Ø,0Ø15Ø/3Ø;?ñ&à˜S‘Mð&ð ˜EŸL™LÑ)ð&ð ! §¡Ñ.ð	&ð
 ˜uŸ|™|Ñ,ð&ð #+¨5¯<©<Ñ"8õ&ð: ð 26Ø48Ø@DØ>BØ15Ø37Ø-1Ø,0Ø/3Ø)-Ø&*ñ|
à˜E×-Ñ-Ñ.ð|
ð ˜u×0Ñ0Ñ1ð|
ð #+¨5×+<Ñ+<Ñ"=ð	|
ð
 !)¨×):Ñ):Ñ ;ð|
ð ! §¡Ñ.ð|
ð ˜u×/Ñ/Ñ0ð|
ð ˜×)Ñ)Ñ*ð|
ð $ D™>ð|
ð ' t™nð|
ð #'ð|
ð ˜d‘^ð|
ð 
ˆumÐ#Ñ	$ô|
ó ö|
r'   rÏ  )r'  r  r[  rv  rÏ  )rï   )@rO   r¶  rÃ  Údataclassesr   Útypingr   r   r   r   r"   Útorch.utils.checkpointr   rÇ  r
   Úmodeling_attn_mask_utilsr   r   Úmodeling_layersr   Úmodeling_outputsr   r   Úmodeling_utilsr   r   Úutilsr   r   r   r   r   Úconfiguration_clipsegr   r   r   Ú
get_loggerrK   rñ   r¯   r&   r-   r/   rT   rY   rl  rc   r´   ÚfloatrØ   rÚ   rù   r  r  r7  rL  r[  rn  rv  r'  r   r¦  rÏ  Ú__all__rJ   r'   r%   Ú<module>rê     s  ðñ ã Û Ý !ß 1Ó 1ã Û Ý å !ß dÝ 9ß Kß Fß VÕ Vß XÑ Xð 
×	Ò	˜HÓ	%€ð
`˜UŸ\™\ð `¨e¯l©lô `ð
-˜UŸ\™\ð -¨e¯l©lô -ð Øô 
Kó  
ó ó ð 
ðF Øô:˜;ó :ó ó ð:ð Øô
 [ó 
ó ó ð
ô<P˜bŸi™iô Pôh%˜BŸI™Iô %ð` ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô.M)r—y‘yô M)ôb—‘ô ô /Ð4ô /ðd ô,%˜_ó ,%ó ð,%ô`S
R—Y‘Yô S
ôlX
˜RŸY™Yô X
ôv1
Ð-ô 1
ôh1
˜rŸy™yô 1
ôh0
Ð/ô 0
ðf ôf
Ð)ó f
ó ðf
ôR6˜"Ÿ)™)ô 6ôra
Ð+ô a
ñH ðñô
j
Ð"8ó j
óð
j
òZr'   