ó <±h´Àãó¢•SrSSKrSSKrSSKJr SSKJrJrJrJ r SSK rSSKrSSKJ r SSKJrJrJr SSKJr SS KJr SS KJr SSKJr SSKJrJrJr SS KJrJ r SSK!J"r"J#r#J$r$J%r% SSK&J'r'J(r(J)r) Sr*SMS\RVS\,S\,S\,S\,S\RV4Sjjr-SNSjr.Sr/Sr0\\#"SS9"SS\"555r1\\#"S S9"S!S"\"555r2\\#"S#S$\"555r3"S%S&\ Rh5r5"S'S(\ Rh5r6SOS)\ RhS*\RVS+\RVS,\RVS-\\RVS.\,S/\,4S0jjr7"S1S2\ Rh5r8"S3S4\ Rh5r9"S5S6\5r:\#"S7S8\ 55r;"S9S:\ Rh5r<"S;S<\ Rh5r=\#"S=S9"S>S?\;55r>"S@SA\ Rh5r?"SBSC\ Rh5r@\#"SDS9"SESF\;55rA\#"SGSH\;55rB\#"SIS9"SJSK\;55rC/SLQrDg)PzPyTorch Siglip model.éN)Ú dataclass)ÚAnyÚCallableÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELoss)Ú_calculate_fan_in_and_fan_outé)ÚACT2FN)Ú_prepare_4d_attention_mask)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPoolingÚImageClassifierOutput)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚModelOutputÚauto_docstringÚcan_return_tupleÚ torch_inté)ÚSiglipConfigÚSiglipTextConfigÚSiglipVisionConfigcó€•SnXSU-- :dXSU--:”a[R"SSS9 U"X1- U-5nU"XA- U-5nURSU-S- SU-S- 5 UR5 UR U[ R"S5-5 URU5 URX4S9 g)Ncóh•S[R"U[R"S5-5-S-$)Nçð?ç@)ÚmathÚerfÚsqrt)Úxs Úb/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/siglip/modeling_siglip.pyÚnorm_cdfÚ _trunc_normal_..norm_cdf(s(€à”d—h’h˜q¤4§9¢9¨S£>Ñ1Ó2Ñ2°cÑ9Ð9óézjmean is more than 2 std from [a, b] in nn.init.trunc_normal_. The distribution of values may be incorrect.)Ú stacklevelrr!)ÚminÚmax) ÚwarningsÚwarnÚuniform_Úerfinv_Úmul_r"r$Úadd_Úclamp_)ÚtensorÚmeanÚstdÚaÚbr'ÚlÚus r&Ú_trunc_normal_r<%s¿€ò:ð 1s‘7‰{Ó ¨1¨s©7¡{Ó 2Ü Š ð ;àò ñ !‘(˜cÑ!Ó"€AÙ!‘(˜cÑ!Ó"€Að‡OOA˜‘E˜A‘I˜q 1™u q™yÔ)ð‡NNÔð‡KK”d—i’i “nÑ$Ô%Ø ‡KKÔð‡MMa€MÒr)r5r6r7r8r9Úreturncó¾•[R"5 [USSX45 URU5R U5 SSS5 g!,(df g=f)a=Fills the input Tensor with values drawn from a truncated normal distribution. The values are effectively drawn from the normal distribution :math:`\mathcal{N}( ext{mean}, ext{std}^2)` with values outside :math:`[a, b]` redrawn until they are within the bounds. The method used for generating the random values works best when :math:`a \leq ext{mean} \leq b`. NOTE: this 'tf' variant behaves closer to Tensorflow / JAX impl where the bounds [a, b] are applied when sampling the normal distribution with mean=0, std=1.0 and the result is subsequently scaled and shifted by the mean and std args. Args: tensor: an n-dimensional `torch.Tensor` mean: the mean of the normal distribution std: the standard deviation of the normal distribution a: the minimum cutoff value b: the maximum cutoff value rr N)ÚtorchÚno_gradr<r2r3)r5r6r7r8r9s r&Útrunc_normal_tf_rAIs<€ô* ŠÜv˜q # qÔ,Ø‰CÓ×Ñ˜dÔ#÷ Žús–/AÁ AcóF•[U5upEUS:XaUnOUS:XaUnO US:XaXE-S-nUW-nUS:Xa"[U[R"U5S-S9 gUS:XaB[R "5 UR [R"U5S9 SSS5 gUS :XaK[R"S U-5n[R "5 URU*U5 SSS5 g[SU35e!,(df g=f!,(df g=f)NÚfan_inÚfan_outÚfan_avgr*Útruncated_normalg©Û¶ä%ì?©r7ÚnormalÚuniformr zinvalid distribution ) rrAr"r$r?r@Únormal_r0Ú ValueError) r5ÚscaleÚmodeÚdistributionrCrDÚdenomÚvarianceÚbounds r&Úvariance_scaling_rRcsö€Ü3°FÓ;O€FØˆxÓØ‰Ø Ó Ø‰Ø Ó ØÑ! QÑ&ˆàu‰}€HàÐ)Ó)ä˜¤T§Y¢Y¨xÓ%8Ð;NÑ%NÓOØ ˜Ó !Ü ]Š]_ØN‰NœtŸyšy¨Ó2ˆNÑ3÷ˆ_à ˜Ó "Ü— ’ ˜!˜h™,Ó'ˆÜ ]Š]_ØO‰O˜U˜F EÔ*÷ˆ_ôÐ0°°Ð?Ó@Ð@÷_ú÷_úsÁ5$DÃDÄ DÄ D có•[USSS9 g)NrCrF©rMrN©rR©r5s r&Ú lecun_normal_rW|s€Üf 8Ð:LÓMr)có•[USSS9 g)NrCrHrTrUrVs r&Údefault_flax_embed_initrY€s€Üf 8¸(ÓCr)z} Base class for vision model's outputs that also contains image embeddings of the pooling of the last hidden states. )Úcustom_introcóÎ•\rSrSr%SrSr\\R\ S'Sr \\R\ S'Sr\\\RS4\ S'Sr \\\RS4\ S'S rg) ÚSiglipVisionModelOutputé„zì image_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim)` *optional* returned when model is initialized with `with_projection=True`): The image embeddings obtained by applying the projection layer to the pooler_output. NÚimage_embedsÚlast_hidden_state.Ú hidden_statesÚ attentions©)Ú__name__Ú __module__Ú__qualname__Ú__firstlineno__Ú__doc__r^rr?ÚFloatTensorÚ__annotations__r_r`ÚtupleraÚ__static_attributes__rbr)r&r\r\„sr‡ñð 15€L(˜5×,Ñ,Ñ-Ó4Ø59Ðx × 1Ñ 1Ñ2Ó9Ø=A€M8˜E %×"3Ñ"3°SÐ"8Ñ9Ñ:ÓAØ:>€J˜˜u×0Ñ0°#Ð5Ñ6Ñ7Ö>r)r\ze Base class for text model's outputs that also contains a pooling of the last hidden states. cóÎ•\rSrSr%SrSr\\R\ S'Sr \\R\ S'Sr\\\RS4\ S'Sr \\\RS4\ S'S rg) ÚSiglipTextModelOutputé—zê text_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim)` *optional* returned when model is initialized with `with_projection=True`): The text embeddings obtained by applying the projection layer to the pooler_output. NÚtext_embedsr_.r`rarb)rcrdrerfrgrorr?rhrir_r`rjrarkrbr)r&rmrm—sr‡ñð 04€K˜%×+Ñ+Ñ,Ó3Ø59Ðx × 1Ñ 1Ñ2Ó9Ø=A€M8˜E %×"3Ñ"3°SÐ"8Ñ9Ñ:ÓAØ:>€J˜˜u×0Ñ0°#Ð5Ñ6Ñ7Ö>r)rmcó•\rSrSr%SrSr\\R\ S'Sr \\R\ S'Sr\\R\ S'Sr\\R\ S'Sr \\R\ S'Sr\\ S 'Sr\\ S 'S\\4SjrS rg)ÚSiglipOutputéªam loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `return_loss` is `True`): Contrastive loss for image-text similarity. logits_per_image (`torch.FloatTensor` of shape `(image_batch_size, text_batch_size)`): The scaled dot product scores between `image_embeds` and `text_embeds`. This represents the image-text similarity scores. logits_per_text (`torch.FloatTensor` of shape `(text_batch_size, image_batch_size)`): The scaled dot product scores between `text_embeds` and `image_embeds`. This represents the text-image similarity scores. text_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by applying the projection layer to the pooled output of [`SiglipTextModel`]. image_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by applying the projection layer to the pooled output of [`SiglipVisionModel`]. text_model_output (`BaseModelOutputWithPooling`): The output of the [`SiglipTextModel`]. vision_model_output (`BaseModelOutputWithPooling`): The output of the [`SiglipVisionModel`]. NÚlossÚlogits_per_imageÚlogits_per_textror^Útext_model_outputÚvision_model_outputr=cóJ^•[U4SjTR555$)Nc3ól># •UH*nUS;aTUO[TU5R5v• M, g7f))rvrwN)ÚgetattrÚto_tuple)Ú.0ÚkÚselfs €r&Ú Ú(SiglipOutput.to_tuple..Ês<øé€ð á ðÐ LÓLˆDŠGÔRYÐZ^Ð`aÓRb×RkÑRkÓRmÔmÚ ùsƒ14)rjÚkeys©r~s`r&r{ÚSiglipOutput.to_tupleÉs#ø€Üô à—Y‘Y”[ó ó ð r)rb)rcrdrerfrgrsrr?rhrirtruror^rvrrwrjrr{rkrbr)r&rqrqªs›‡ñð&)-€Dˆ(5×$Ñ$Ñ %Ó,Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø37€OX˜e×/Ñ/Ñ0Ó7Ø/3€K˜%×+Ñ+Ñ,Ó3Ø04€L(˜5×,Ñ,Ñ-Ó4Ø48ÐÐ1Ó8Ø6:ÐÐ3Ó:ð ˜% ™*÷ r)rqcó°^•\rSrSrS\4U4SjjrS\RS\S\S\R4Sjr SS \RS\R4S jjrSrU=r $) ÚSiglipVisionEmbeddingséÐÚconfigcó^>•[TU]5 XlURUlUR UlURUl[R"URURURURSS9Ul UR UR-S-UlURUl[R"URUR5UlURS[ R""UR5R%S5SS9 g)NÚvalid)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚpaddingr*Úposition_ids©réÿÿÿÿF©Ú persistent)ÚsuperÚ__init__r‡Úhidden_sizeÚ embed_dimÚ image_sizeÚ patch_sizerÚConv2dÚnum_channelsÚpatch_embeddingÚnum_patchesÚ num_positionsÚ EmbeddingÚposition_embeddingÚregister_bufferr?ÚarangeÚexpand©r~r‡Ú __class__s €r&r•ÚSiglipVisionEmbeddings.__init__Ñsäø€Ü ‰ÑÔØŒØ×+Ñ+ˆŒØ ×+Ñ+ˆŒØ ×+Ñ+ˆŒä!ŸyšyØ×+Ñ+ØŸ™ØŸ™Ø—?‘?Øñ ˆÔð!ŸO™O¨t¯©Ñ>À1ÑDˆÔØ!×-Ñ-ˆÔÜ"$§,¢,¨t×/AÑ/AÀ4Ç>Á>Ó"RˆÔØ×Ñ˜^¬U¯\ª\¸$×:LÑ:LÓ-M×-TÑ-TÐU\Ó-]ÐjoÐÒpr)Ú embeddingsÚheightÚwidthr=có•URSnURRRSn[RR5(d%XE:Xa X#:XaURUR5$URRRS5nURSnX R-nX0R-n [US-5n URSXªU5nURSSSS5n[RRUX‰4SSS 9nURSSSS5RSSU5nU$) aè This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution images. This method is also adapted to support torch.jit tracing and no class embeddings. Adapted from: - https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and - https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211 rrr‘gà?r r*ÚbicubicF)ÚsizerMÚ align_corners)Úshaper Úweightr?ÚjitÚ is_tracingrÚ unsqueezer™rÚreshapeÚpermuterÚ functionalÚinterpolateÚview)r~r§r¨r©rržÚpatch_pos_embedÚdimÚ new_heightÚ new_widthÚsqrt_num_positionss r&Úinterpolate_pos_encodingÚ/SiglipVisionEmbeddings.interpolate_pos_encodingås:€ð!×&Ñ& qÑ)ˆØ×/Ñ/×6Ñ6×<Ñ<¸QÑ?ˆ ôy‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×*Ñ*¨4×+<Ñ+<Ó=Ð=à×1Ñ1×8Ñ8×BÑBÀ1ÓEˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ ØŸ_™_Ñ,ˆ ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð 4ð ˆð*×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆØÐr)Úpixel_valuescóX•URu p4nURRRnURUR US95nURS5R SS5nU(aX€RX„U5-nU$X€RUR5-nU$)N)Údtyper*r) r®rœr¯rÁÚtoÚflattenÚ transposer½r r) r~r¿r½Ú_r¨r©Útarget_dtypeÚpatch_embedsr§s r&ÚforwardÚSiglipVisionEmbeddings.forwards¥€Ø*×0Ñ0Ñˆˆ1eØ×+Ñ+×2Ñ2×8Ñ8ˆØ×+Ñ+¨L¯O©OÀ,¨OÐ,OÓPˆØ!×)Ñ)¨!Ó,×6Ñ6°q¸!Ó<ˆ æ#Ø#×&CÑ&CÀJÐX]Ó&^Ñ^ˆJðÐð$×&=Ñ&=¸d×>OÑ>OÓ&PÑPˆJØÐr))r‡r—r˜rržrœr™r ©F)rcrdrerfrr•r?ÚTensorÚintr½rhrÈrkÚ __classcell__©r¥s@r&r…r…Ðseø†ðqÐ1÷qð($°5·<±<ð$Èð$ÐUXð$Ð]b×]iÑ]iô$ñL E×$5Ñ$5ð ÐZ_×ZfÑZf÷ ó r)r…c ó¶^•\rSrSrS\4U4SjjrS S\\RS\\RS\\RS\R4SjjrS rU=r $)ÚSiglipTextEmbeddingsir‡cóN>•[TU]5 URn[R"UR U5Ul[R"URU5UlURS[R"UR5RS5SS9 g)NrrFr’) r”r•r–rrŸÚ vocab_sizeÚtoken_embeddingÚmax_position_embeddingsr r¡r?r¢r£©r~r‡r—r¥s €r&r•ÚSiglipTextEmbeddings.__init__sƒø€Ü ‰ÑÔØ×&Ñ&ˆ ä!Ÿ|š|¨F×,=Ñ,=¸yÓIˆÔÜ"$§,¢,¨v×/MÑ/MÈyÓ"YˆÔð ×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð ò r)Ú input_idsrÚ inputs_embedsr=có<•UbURSOURSnURRRSnXE:”a[SUSU35eUcURSS2SU24nUcURU5nURU5nX6-nU$)Nr‘éþÿÿÿrzRSequence length must be less than max_position_embeddings (got `sequence length`: z and max_position_embeddings: )r®r r¯rKrrÓ)r~r×rrØÚ seq_lengthÚmax_position_embeddingÚposition_embeddingsr§s r&rÈÚSiglipTextEmbeddings.forward&sÁ€ð-6Ñ,AY—_‘_ RÒ(À}×GZÑGZÐ[]ÑG^ˆ Ø!%×!8Ñ!8×!?Ñ!?×!EÑ!EÀaÑ!HÐàÓ.ÜØdØ,Ð<Ð=SÐ•[TU]5 XlURUlUR UlURUR-UlURUR-UR:wa&[SURSURS35eURS-Ul URUlSUl[R"URUR5Ul[R"URUR5Ul[R"URUR5Ul[R"URUR5Ulg)Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).çà¿F)r”r•r‡r–r—Únum_attention_headsÚ num_headsÚhead_dimrKrLÚattention_dropoutrçÚ is_causalrÚLinearÚk_projÚv_projÚq_projÚout_projr¤s €r&r•ÚSiglipAttention.__init__[sø€Ü ‰ÑÔØŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒ Ø=‰=˜4Ÿ>™>Ñ)¨T¯^©^Ó;ÜØMÈdÏnÉnÐM]ð^Ø—N‘NÐ# 2ð'óð ð—]‘] DÑ(ˆŒ Ø×/Ñ/ˆŒØˆŒä—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜŸ š $§.¡.°$·.±.ÓAˆ r)r`rår=có2•URupEnURU5nURU5nURU5n UR XEUR UR5RSS5nUR XEUR UR5RSS5nU R XEUR UR5RSS5n [n URRS:wa[URRn U "UUUU UURURUR(dSOURS9up¼UR!XEU5R#5nUR%U5nX¼4$)z#Input shape: Batch x Time x Channelrr*Úeagerç)rûrærç)r®rÿrýrþr·rørùrÄròr‡Ú_attn_implementationrrûrLrêrçr³rîr) r~r`rårïÚ batch_sizerÛr—ÚqueriesrÚvaluesÚattention_interfacerñrðs r&rÈÚSiglipAttention.forwardosS€ð-:×,?Ñ,?Ñ)ˆ à—+‘+˜mÓ,ˆØ{‰{˜=Ó)ˆØ—‘˜]Ó+ˆà—,‘,˜z°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØy‰y˜°·±ÀÇÁÓO×YÑYÐZ[Ð]^Ó_ˆØ—‘˜Z°T·^±^ÀTÇ]Á]ÓS×]Ñ]Ð^_ÐabÓcˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØØ—n‘nØ—J‘JØ#Ÿ}Ÿ}‘C°$·,±,ñ % Ñ!ˆð"×)Ñ)¨*À)ÓL×WÑWÓYˆØ—m‘m KÓ0ˆàÐ(Ð(r))r‡rçr—rùrûrýrørrÿrLrþ©N) rcrdrerfrgr•r?rËrrjrÈrkrÍrÎs@r&rôrôXs[ø†ÙGõBð.26ñ$)à—|‘|ð$)ð! §¡Ñ.ð$)ð ˆu|‰|˜X e§l¡lÑ3Ð3Ñ 4÷$)ó$)r)rôcób^•\rSrSrU4SjrS\RS\R4SjrSrU=r $)Ú SiglipMLPi—có>•[TU]5 Xl[URUl[R"URUR5Ul [R"URUR5Ulgr)r”r•r‡rÚ hidden_actÚ activation_fnrrür–Úintermediate_sizeÚfc1Úfc2r¤s €r&r•ÚSiglipMLP.__init__˜sbø€Ü ‰ÑÔØŒÜ# F×$5Ñ$5Ñ6ˆÔÜ—9’9˜V×/Ñ/°×1IÑ1IÓJˆŒÜ—9’9˜V×5Ñ5°v×7IÑ7IÓJˆr)r`r=cól•URU5nURU5nURU5nU$r)rrr)r~r`s r&rÈÚSiglipMLP.forwardŸs4€ØŸ™ Ó/ˆ Ø×*Ñ*¨=Ó9ˆ ØŸ™ Ó/ˆ ØÐr))rr‡rr) rcrdrerfr•r?rËrÈrkrÍrÎs@r&r r —s)ø†õKð U§\¡\ð°e·l±l÷òr)r c ó¢^•\rSrSrS\\\44U4SjjrS S\RS\RS\ \S\\R4SjjrS rU=r$)ÚSiglipEncoderLayeri¦r‡có<>•[TU]5 URUl[R "URURS9Ul[U5Ul [R "URURS9Ul [U5Ulg)N©Úeps) r”r•r–r—rÚ LayerNormÚlayer_norm_epsÚlayer_norm1rôÚ self_attnÚlayer_norm2r Úmlpr¤s €r&r•ÚSiglipEncoderLayer.__init__§smø€Ü ‰ÑÔØ×+Ñ+ˆŒÜŸ<š<¨¯©¸F×ð $ð ˆu× Ñ Ñ !÷$ó$r)rcóF•\rSrSr%\\S'SrSr/SQrSr Sr SrSrSr Srg) ÚSiglipPreTrainedModeliÖr‡ÚsiglipT)rÐr…rÚ#SiglipMultiheadAttentionPoolingHeadcóV•[U[5(aŸ[UR[5(a URRR OURR n[RRURRS[R"U5-S9 g[U[R5(a[UR5 g[U[5(Ga™[RR!UR"R5 [RR!UR$R5 [RR!UR&R5 [RR!UR(R5 [RR+UR"R,5 [RR+UR$R,5 [RR+UR&R,5 [RR+UR(R,5 g[U[.5(aË[RR!UR0R5 [RR!UR2R5 [RRUR0R,SS9 [RRUR2R,SS9 g[U[45(a®[RR!UR6R85 [RR!UR:R<R85 [RR+UR:R>R85 g[U[@5(at[BRD"[BRF"S55nURHR8RKU5 URLR8RO5 g[U[P5(ak[RRURRRURRR S-URRT-S9 g[U[RV[RX45(aM[[UR5 UR,b*[RR+UR,5 gg[U[R\5(aJUR,R8RO5 URR8RKS5 gg)zInitialize the weightsrrGgíµ ÷Æ°>r röN)/Ú isinstancer…r‡rÚ vision_configr–rÚinitrJr r¯Únpr$rŸrYrôÚxavier_uniform_rÿrýrþrÚzeros_Úbiasr rrr,ÚprobeÚdataÚ attentionÚin_proj_weightÚin_proj_biasÚSiglipModelr?Úlogr5Úlogit_scaleÚfill_Ú logit_biasÚzero_ÚSiglipForImageClassificationÚ classifierÚinitializer_factorrüršrWr)r~rár©Úlogit_scale_inits r&Ú _init_weightsÚ#SiglipPreTrainedModel._init_weightsçs¨€äfÔ4×5Ñ5ô˜dŸk™k¬<×8Ñ8ð—‘×)Ñ)×5Ò5à—[‘[×,Ñ,ð ô G‰GO‰O˜F×5Ñ5×<Ñ<À!ÄbÇgÂgÈeÃnÑBTˆOÒUÜ ˜¤§¡× -Ñ -Ü# F§M¡MÕ2Ü ˜¤× 0Ò 0ÜG‰G×#Ñ# F§M¡M×$8Ñ$8Ô9ÜG‰G×#Ñ# F§M¡M×$8Ñ$8Ô9ÜG‰G×#Ñ# F§M¡M×$8Ñ$8Ô9ÜG‰G×#Ñ# F§O¡O×$:Ñ$:Ô;ÜG‰GN‰N˜6Ÿ=™=×-Ñ-Ô.ÜG‰GN‰N˜6Ÿ=™=×-Ñ-Ô.ÜG‰GN‰N˜6Ÿ=™=×-Ñ-Ô.ÜG‰GN‰N˜6Ÿ?™?×/Ñ/Õ0Ü ˜¤ × *Ñ *ÜG‰G×#Ñ# F§J¡J×$5Ñ$5Ô6ÜG‰G×#Ñ# F§J¡J×$5Ñ$5Ô6ÜG‰GO‰O˜FŸJ™JŸO™O°ˆOÑ6ÜG‰GO‰O˜FŸJ™JŸO™O°ˆOÒ6Ü ˜Ô C× DÑ DÜG‰G×#Ñ# F§L¡L×$5Ñ$5Ô6ÜG‰G×#Ñ# F×$4Ñ$4×$CÑ$C×$HÑ$HÔIÜG‰GN‰N˜6×+Ñ+×8Ñ8×=Ñ=Õ>Ü ˜¤× ,Ñ ,Ü$Ÿyšy¬¯ª°cÓ):Ó;ÐØ×Ñ×#Ñ#×)Ñ)Ð*:Ô;Ø×Ñ×"Ñ"×(Ñ(Õ*Ü ˜Ô <× =Ñ =ÜG‰GO‰OØ×!Ñ!×(Ñ(Ø—K‘K×-Ñ-×9Ñ9¸4Ñ?À$Ç+Á+×B`ÑB`Ñ`ð ò ô˜¤§¡¬B¯I©IÐ 6× 7Ñ 7Ü˜&Ÿ-™-Ô(Ø{‰{Ñ&Ü—‘—‘˜vŸ{™{Õ+ð'ä ˜¤§¡× -Ñ -ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)ð.r)rbN)rcrdrerfrriÚbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnÚ_supports_attention_backendrDrkrbr)r&r*r*Ös:‡àÓØ ÐØ&*Ð#òÐð ÐØ€NØÐØ"&Ðõ,*r)r*c óˆ^•\rSrSrSrS\4U4Sjjr\SS\\ RS\\S\\S\4S jj5r S rU=r$)Ú SiglipEncoderiz Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a [`SiglipEncoderLayer`]. Args: config: SiglipConfig r‡cóÔ>•[TU]5 Xl[R"[UR5Vs/sHn[U5PM sn5UlSUl gs snf)NF) r”r•r‡rÚ ModuleListÚrangeÚnum_hidden_layersrÚlayersÚgradient_checkpointing)r~r‡rÅr¥s €r&r•ÚSiglipEncoder.__init__ sSø€Ü ‰ÑÔØŒÜ—m’mÌÈv×OgÑOgÔIhÓ$iÑIhÀAÔ%7¸Ö%?ÑIhÑ$iÓjˆŒØ&+ˆÕ#ùò%js½A%rår#Úoutput_hidden_statesr=cóF•UbUOURRnUbUOURRnU(aSOSnU(aSOSnUnURH-nU(aXW4-nU"UUUS9n U SnU(dM%XiS4-nM/ U(aXW4-n[ UUUS9$)aÌ Args: inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`): Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This is useful if you want more control over how to convert `input_ids` indices into associated vectors than the model's internal embedding lookup matrix. attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*): Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`: - 1 for tokens that are **not masked**, - 0 for tokens that are **masked**. [What are attention masks?](../glossary#attention-mask) output_attentions (`bool`, *optional*): Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned tensors for more detail. output_hidden_states (`bool`, *optional*): Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for more detail. return_dict (`bool`, *optional*): Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple. Nrb)r#rr)r_r`ra)r‡r#rVrSr) r~rØrår#rVÚencoder_statesÚall_attentionsr`Ú encoder_layerÚ layer_outputss r&rÈÚSiglipEncoder.forward'sÊ€ð<2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ö 4™¸ˆÞ0™°dˆà%ˆ Ø!Ÿ[œ[ˆMÞ#Ø!/Ð2BÑ!Bá)ØØØ"3ñˆMð*¨!Ñ,ˆMç Ð Ø!/ÀÑ3CÐ2EÑ!E’ñ)ö Ø+Ð.>Ñ>ˆNäØ+Ø(Ø%ñ ð r))r‡rTrSrß)rcrdrerfrgrr•rrr?rËr(rrÈrkrÍrÎs@r&rNrNslø†ñð,˜|÷,ðð26Ø,0Ø/3ñ< ð! §¡Ñ.ð< ð$ D™>ð < ð ' t™nð< ð ô < óö< r)rNcóÎ^•\rSrSrS\4U4Sjjr\\SS\\ RS\\ RS\\ RS\\S\\S \4S jj55r SrU=r$) ÚSiglipTextTransformerigr‡có>>•[TU]5 XlURn[ U5Ul[ U5Ul[R"X!RS9Ul[R"X!R5UlURS:HUlg)NrÚflash_attention_2)r”r•r‡r–rÐr§rNÚencoderrrrÚfinal_layer_normrüÚprojection_sizeÚheadrÚ_use_flash_attention_2rÕs €r&r•ÚSiglipTextTransformer.__init__hswø€Ü ‰ÑÔØŒØ×&Ñ&ˆ Ü.¨vÓ6ˆŒÜ$ VÓ,ˆŒÜ "§¢¨Y×ð. ð' t™nð . ð $ô. óóö. r)r^zK The text model from SigLIP without any head or projection on top. có^•\rSrSr%\\S'S\4U4SjjrS\R4Sjr Sr \\SS\ \RS\ \RS \ \RS \ \S\ \S\4Sjj55rS rU=r$)ÚSiglipTextModeli¦r‡cód>•[TU]U5 [U5UlUR 5 gr)r”r•r^Ú text_modelÚ post_initr¤s €r&r•ÚSiglipTextModel.__init__®s&ø€Ü ‰Ñ˜Ô Ü/°Ó7ˆŒà‰Õr)r=cóB•URRR$r©rrr§rÓr‚s r&Úget_input_embeddingsÚ$SiglipTextModel.get_input_embeddings´s€Ø‰×)Ñ)×9Ñ9Ð9r)có8•XRRlgrrv)r~räs r&Úset_input_embeddingsÚ$SiglipTextModel.set_input_embeddings·s€Ø5:‰×"Ñ"Õ2r)r×rårr#rVcó(•URUUUUUS9$)aT Examples: ```python >>> from transformers import AutoTokenizer, SiglipTextModel >>> model = SiglipTextModel.from_pretrained("google/siglip-base-patch16-224") >>> tokenizer = AutoTokenizer.from_pretrained("google/siglip-base-patch16-224") >>> # important: make sure to set padding="max_length" as that's how the model was trained >>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding="max_length", return_tensors="pt") >>> outputs = model(**inputs) >>> last_hidden_state = outputs.last_hidden_state >>> pooled_output = outputs.pooler_output # pooled (EOS token) states ```©r×rårr#rV©rr)r~r×rårr#rVs r&rÈÚSiglipTextModel.forwardºs)€ð6‰ØØ)Ø%Ø/Ø!5ðð ð r)r~rn)rcrdrerfrrir•rÚModulerwrzrrrr?rËr(rrÈrkrÍrÎs@r&rprp¦s·ø‡ð ÓðÐ/÷ð: b§i¡iô:ò;ðØð-1Ø15Ø/3Ø,0Ø/3ñ à˜EŸL™LÑ)ð ð! §¡Ñ.ð ð˜uŸ|™|Ñ,ð ð $ D™>ð ð' t™nð ð $ô óóö r)rpcóz^•\rSrSrS\4U4Sjjr\\S S\\ S\\ S\\ S\ 4Sjj55rS rU=r $)ÚSiglipVisionTransformeriÞr‡cóX>•[TU]5 XlURn[ U5Ul[ U5Ul[R"X!RS9Ul[US5(dSOURUlUR(a[U5Ulgg)NrÚvision_use_headT)r”r•r‡r–r…r§rNrarrrÚpost_layernormÚhasattrr„Úuse_headr,rdrÕs €r&r•Ú SiglipVisionTransformer.__init__ßsø€Ü ‰ÑÔØŒØ×&Ñ&ˆ ä0°Ó8ˆŒÜ$ VÓ,ˆŒÜ Ÿlšl¨9×:OÑ:OÑPˆÔÜ$+¨FÐ4E×$FÑ$F™ÈF×LbÑLbˆŒ Ø==Ü;¸FÓCˆDIðr)r#rVr½r=cóp•UbUOURRnUbUOURRnURXS9nUR UUUS9nUR nUR U5nUR(aURU5OSn[UUURURS9$)N)r½)rØr#rVrh)r‡r#rVr§rar_r…r‡rdrr`ra) r~r¿r#rVr½r`rkr_ris r&rÈÚSiglipVisionTransformer.forwardësÄ€ð2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ðŸ™¨˜Ðhˆ à+/¯<©<Ø'Ø/Ø!5ð,8ð, ˆð,×=Ñ=ÐØ ×/Ñ/Ð0AÓBÐà8<¿ ¿ ˜Ÿ ™ Ð"3Ô4È4ˆ ä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ ð r))r‡r§rardr…r‡©NNF)rcrdrerfrr•rrrr(rrÈrkrÍrÎs@r&r‚r‚Þsmø†ð DÐ1÷ DðØð-1Ø/3Ø38ñ ð$ D™>ð ð' t™nð ð #+¨4¡.ð ð $ô óóö r)r‚có:^•\rSrSrSrS\4U4SjjrSrSrU=r $)r,izMultihead Attention Pooling.r‡có„>•[TU]5 [R"[R "SSUR55Ul[RRURURSS9Ul [R"URURS9Ul [U5Ulg)NrT)Úbatch_firstr)r”r•rÚ Parameterr?Úrandnr–r5ÚMultiheadAttentionr÷r7rrÚ layernormr r!r¤s €r&r•Ú,SiglipMultiheadAttentionPoolingHead.__init__s…ø€Ü ‰ÑÔä—\’\¤%§+¢+¨a°°F×4FÑ4FÓ"GÓHˆŒ ÜŸ™×4Ñ4°V×5GÑ5GÈ×IcÑIcÐquÐ4ÐvˆŒÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ˜VÓ$ˆr)cóâ•URSnURRUSS5nURX1U5SnUnUR U5nX@RU5-nUSS2S4$)Nrr)r®r5Úrepeatr7r’r!)r~Úhidden_staterr5r%s r&rÈÚ+SiglipMultiheadAttentionPoolingHead.forwardsr€Ø!×'Ñ'¨Ñ*ˆ Ø— ‘ ×!Ñ! *¨a°Ó3ˆà—~‘~ e¸<ÓHÈÑKˆàˆØ—~‘~ lÓ3ˆØ§(¡(¨<Ó"8Ñ8ˆàšA˜q˜DÑ!Ð!r))r7r’r!r5) rcrdrerfrgrr•rÈrkrÍrÎs@r&r,r,sø†Ù&ð%Ð1÷%÷ "ð "r)r,zM The vision model from SigLIP without any head or projection on top. có¦^•\rSrSr%\\S'SrS\4U4SjjrS\R4Sjr \\SS\ \S\ \S \S\4S jj55rSrU=r$) ÚSiglipVisionModeli&r‡r¿cód>•[TU]U5 [U5UlUR 5 gr)r”r•r‚Úvision_modelrsr¤s €r&r•ÚSiglipVisionModel.__init__/s)ø€Ü ‰Ñ˜Ô ä3°FÓ;ˆÔð ‰Õr)r=cóB•URRR$r)r›r§rœr‚s r&rwÚ&SiglipVisionModel.get_input_embeddings7s€Ø× Ñ ×+Ñ+×;Ñ;Ð;r)r#rVr½có&•URUUUUS9$)an Examples: ```python >>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, SiglipVisionModel >>> model = SiglipVisionModel.from_pretrained("google/siglip-base-patch16-224") >>> processor = AutoProcessor.from_pretrained("google/siglip-base-patch16-224") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor(images=image, return_tensors="pt") >>> outputs = model(**inputs) >>> last_hidden_state = outputs.last_hidden_state >>> pooled_output = outputs.pooler_output # pooled features ```©r¿r#rVr½©r›)r~r¿r#rVr½s r&rÈÚSiglipVisionModel.forward:s(€ð<× Ñ Ø%Ø/Ø!5Ø%=ð !ð ð r)r¡r‹)rcrdrerfrriÚmain_input_namer•rr€rwrrrr(rrÈrkrÍrÎs@r&r™r™&s„ø‡ð ÓØ$€OðÐ1÷ð< b§i¡iô<ðØð-1Ø/3Ø).ñ! ð$ D™>ð! ð' t™nð ! ð #'ð! ð $ô ! óóö! r)r™có"^•\rSrSr%\\S'S\4U4Sjjr\SS\\ RS\\ RS\\ RS\\S\\S \ R4S jj5r \SS\\ RS\\S\\S\S \ R4 S jj5r\\SS\\ R S\\ RS\\ RS\\ R S\\S\\S\\S\S \4Sjj55rSrU=r$)r:i`r‡cóÌ>•[TU]U5 [UR[5(d"[S[ UR5S35e[UR[5(d"[S[ UR5S35eURnURn[RU5n[RU5nURUlURUl [R"[ R""S55Ul[R"[ R""S55UlUR)5 g)NzMconfig.text_config is expected to be of type SiglipTextConfig but is of type Ú.zQconfig.vision_config is expected to be of type SiglipVisionConfig but is of type r)r”r•r.Útext_configrÚ TypeErrorÚtyper/rrpÚ_from_configr™rrr›rrr?rr<r>rs)r~r‡r§r/rrr›r¥s €r&r•ÚSiglipModel.__init__ds"ø€Ü ‰Ñ˜Ô ä˜&×,Ñ,Ô.>×?Ñ?ÜðÜ˜×+Ñ+Ó,Ð-¨Qð0óð ô ˜&×.Ñ.Ô0B×CÑCÜðÜ˜×-Ñ-Ó.Ð/¨qð2óð ð ×(Ñ(ˆØ×,Ñ,ˆ ô%×1Ñ1°+Ó>ˆ Ü(×5Ñ5°mÓDˆð%×/Ñ/ˆŒØ(×5Ñ5ˆÔäŸ<š<¬¯ª°A«Ó7ˆÔÜŸ,š,¤u§{¢{°1£~Ó6ˆŒð ‰Õr)r×rårr#rVr=có°•UbUOURRnUbUOURRnURUUUUUS9nURnU$)aÚ Returns: text_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by applying the projection layer to the pooled output of [`SiglipTextModel`]. Examples: ```python >>> from transformers import AutoTokenizer, AutoModel >>> import torch >>> model = AutoModel.from_pretrained("google/siglip-base-patch16-224") >>> tokenizer = AutoTokenizer.from_pretrained("google/siglip-base-patch16-224") >>> # important: make sure to set padding="max_length" as that's how the model was trained >>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding="max_length", return_tensors="pt") >>> with torch.no_grad(): ... text_features = model.get_text_features(**inputs) ```r})r‡r#rVrrri)r~r×rårr#rVÚtext_outputsrls r&Úget_text_featuresÚSiglipModel.get_text_features„sr€ð:2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ð48·?±?ØØ)Ø%Ø/Ø!5ð4Cð4 ˆð%×2Ñ2ˆ àÐr)r¿r½có®•UbUOURRnUbUOURRnURUUUUS9nURnU$)a Returns: image_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by applying the projection layer to the pooled output of [`SiglipVisionModel`]. Examples: ```python >>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, AutoModel >>> import torch >>> model = AutoModel.from_pretrained("google/siglip-base-patch16-224") >>> processor = AutoProcessor.from_pretrained("google/siglip-base-patch16-224") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor(images=image, return_tensors="pt") >>> with torch.no_grad(): ... image_features = model.get_image_features(**inputs) ```r )r‡r#rVr›ri)r~r¿r#rVr½Úvision_outputsrls r&Úget_image_featuresÚSiglipModel.get_image_features²sr€ðB2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ð6:×5FÑ5FØ%Ø/Ø!5Ø%=ð 6Gð6 ˆð'×4Ñ4ˆ àÐr)Úreturn_lossc óô•UbUOURRnUbUOURRnURUUUUS9n UR UUUUUS9n U R nU R nX»R SSSS9-nXÌR SSSS9-n[R"XËR5RUR55n URRUR5URRUR5pþXÞR5-U-n U R5nSnU(a[R"U R!S5U RS 9n[R""U 5*SU--n[R$R&R)UU -5n[R*"USS 9*nUR-5n[/UUU UUU U S9$)a return_loss (`bool`, *optional*): Whether or not to return the contrastive loss. Examples: ```python >>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, AutoModel >>> import torch >>> model = AutoModel.from_pretrained("google/siglip-base-patch16-224") >>> processor = AutoProcessor.from_pretrained("google/siglip-base-patch16-224") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> texts = ["a photo of 2 cats", "a photo of 2 dogs"] >>> # important: we pass `padding=max_length` since the model was trained with this >>> inputs = processor(text=texts, images=image, padding="max_length", return_tensors="pt") >>> with torch.no_grad(): ... outputs = model(**inputs) >>> logits_per_image = outputs.logits_per_image >>> probs = torch.sigmoid(logits_per_image) # these are the probabilities >>> print(f"{probs[0][0]:.1%} that image 0 is '{texts[0]}'") 31.9% that image 0 is 'a photo of 2 cats' ```Nr r}r*r‘T)rér¹Úkeepdimr)Údevice©r¹)rsrtruror^rvrw)r‡r#rVr›rrriÚnormr?rëÚtrÂr·r<r>ÚexpÚeyer¬Ú ones_likerrµÚ logsigmoidÚsumr6rq)r~r×r¿rårr´r#rVr½r±rr^rorur<r>rtrsr¼Úm1_diag1ÚloglikÚnlls r&rÈÚSiglipModel.forwardãsó€ðX2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ð6:×5FÑ5FØ%Ø/Ø!5Ø%=ð 6Gð6 ˆð48·?±?ØØ)Ø%Ø/Ø!5ð4Cð4 ˆð&×3Ñ3ˆØ"×0Ñ0ˆð$×&7Ñ&7¸!ÀÈTÐ&7Ð&RÑRˆØ!×$4Ñ$4°q¸bÈ$Ð$4Ð$OÑOˆô Ÿ,š, {·N±NÓ4D×4GÑ4GÈ×HZÑHZÓ4[Ó\ˆà"&×"2Ñ"2×"5Ñ"5°k×6HÑ6HÓ"IÈ4Ï?É?×K]ÑK]Ð^i×^pÑ^pÓKqZØ)¯O©OÓ,=Ñ=À ÑJˆà*×,Ñ,Ó.ÐàˆÞä—)’)˜O×0Ñ0°Ó3¸O×r<rrr›rn)NNNF)NNNNNNNF)rcrdrerfrrir•rrr?rËr(rhr®r²rràrqrÈrkrÍrÎs@r&r:r:`sÚø‡àÓð˜|÷ð@ð-1Ø15Ø/3Ø,0Ø/3ñ +à˜EŸL™LÑ)ð+ð! §¡Ñ.ð+ð˜uŸ|™|Ñ,ð +ð $ D™>ð+ð' t™nð +ð × Ñ ô+óð+ðZð59Ø,0Ø/3Ø).ñ.à˜u×0Ñ0Ñ1ð.ð$ D™>ð.ð' t™nð .ð #'ð.ð × Ñ ô .óð.ð`Øð15Ø48Ø15Ø37Ø&*Ø,0Ø/3Ø).ñ^ à˜E×,Ñ,Ñ-ð^ ð˜u×0Ñ0Ñ1ð^ ð! §¡Ñ.ð ^ ð ˜u×/Ñ/Ñ0ð^ ð˜d‘^ð ^ ð$ D™>ð^ ð' t™nð^ ð#'ð^ ð ô^ óóö^ r)r:z SigLIP vision encoder with an image classification head on top (a linear layer on top of the pooled final hidden states of the patch tokens) e.g. for ImageNet. có¼^•\rSrSrSrS\SS4U4Sjjr\\S S\ \ RS\ \ RS\ \S \ \S \S\ 4Sjj55rSrU=r$)r@iFr¿r‡r=Ncó„>•[TU]U5 URUl[R UR 5nURUlURS:”a5[R"UR RUR5O[R"5UlUR5 g)Nr) r”r•Ú num_labelsr™rªr/r›rrür–ÚIdentityrArs)r~r‡r›r¥s €r&r•Ú%SiglipForImageClassification.__init__Os”ø€Ü ‰Ñ˜Ô à ×+Ñ+ˆŒô)×5Ñ5°f×6JÑ6JÓKˆØ(×5Ñ5ˆÔðOU×N_ÑN_ÐbcÓNcŒBIŠIf×*Ñ*×6Ñ6¸×8IÑ8IÔJÔik×itÒitÓivð Œð ‰Õr)Úlabelsr#rVr½có”•UbUOURRnUbUOURRnURUUUUS9nURn[ R"USS9nURU5nSn UGb©URUR5nURRc‘URS:XaSURl OoURS:”aNUR[ R:XdUR[ R:XaSURl OSURl URRS:XaI[5n URS:Xa&U "UR!5UR!55n OŒU "X‚5n OƒURRS:Xa=[#5n U "UR%SUR5UR%S55n O,URRS:Xa['5n U "X‚5n [)U UUR*UR,S 9$) a\ labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*): Labels for computing the image classification/regression loss. Indices should be in `[0, ..., config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If `config.num_labels > 1` a classification loss is computed (Cross-Entropy). Examples: ```python >>> from transformers import AutoImageProcessor, SiglipForImageClassification >>> import torch >>> from PIL import Image >>> import requests >>> torch.manual_seed(3) # doctest: +IGNORE_RESULT >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> # note: we are loading a `SiglipModel` from the hub here, >>> # so the head will be randomly initialized, hence the predictions will be random if seed is not set above. >>> image_processor = AutoImageProcessor.from_pretrained("google/siglip-base-patch16-224") >>> model = SiglipForImageClassification.from_pretrained("google/siglip-base-patch16-224") >>> inputs = image_processor(images=image, return_tensors="pt") >>> outputs = model(**inputs) >>> logits = outputs.logits >>> # model predicts one of the two classes >>> predicted_class_idx = logits.argmax(-1).item() >>> print("Predicted class:", model.config.id2label[predicted_class_idx]) Predicted class: LABEL_1 ```N)r#rVr½rr¸Ú regressionÚsingle_label_classificationÚmulti_label_classificationr‘)rsÚlogitsr`ra)r‡r#rVr›r_r?r6rArÂr·Úproblem_typerÆrÁÚlongrÌrÚsqueezer r·r rr`ra)r~r¿rÉr#rVr½r&Úsequence_outputrÎrsÚloss_fcts r&rÈÚ$SiglipForImageClassification.forwardasç€ðR2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ð/3×.?Ñ.?ØØ/Ø!5Ø%=ð /@ð/ ˆð"×3Ñ3ˆô Ÿ*š* _¸!Ñ<ˆà—‘ Ó1ˆàˆØÒà—Y‘Y˜vŸ}™}Ó-ˆFØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/ä$ØØØ!×/Ñ/Ø×)Ñ)ñ ð r))rArÆr›)NNNNF)rcrdrerfr£rr•rrrr?rËr(rrÈrkrÍrÎs@r&r@r@Fs¦ø†ð%€Oð˜|ð°÷ð$Øð04Ø)-Ø,0Ø/3Ø).ñ X à˜uŸ|™|Ñ,ðX ð˜Ÿ™Ñ&ðX ð$ D™>ð X ð ' t™nðX ð#'ð X ð ôX óóöX r)r@)r:r*rpr™r@)rr gÀr!)r rCrH)r)Ergr"r.ÚdataclassesrÚtypingrrrrÚnumpyr1r?rÚtorch.nnr r rÚ torch.nn.initrÚactivationsrÚmodeling_attn_mask_utilsrÚmodeling_layersrÚmodeling_outputsrrrÚmodeling_utilsrrÚutilsrrrrÚconfiguration_sigliprrrr<rËÚfloatrArRrWrYr\rmrqr€r…rÐròrôr rr*rNr^rpr‚r,r™r:r@Ú__all__rbr)r&ÚrãsÛðñãÛÝ!ß1Ó1ãÛÝßAÑAÝ7å!ÝBÝ9ßbÑbßFßMÓMßTÑTò! ðJ\_ñ$ØL‰Lð$Ø %ð$Ø27ð$ØBGð$ØSXð$à ‡\\õ$ô4Aò2NòDðÙðñô ?˜kó ?ó óð ?ðÙðñô ?˜Kó ?ó óð ?ðØô ;ó óóð ôFE˜RŸY™YôEôR%˜2Ÿ9™9ô%ð^ñ%ØI‰Ið%à<‰<ð%ð ‰ð%ð<‰<ð %ð ˜UŸ\™\Ñ*ð%ðð %ðõ%ô.;)b—i‘iô;)ô~— ‘ ôô-Ð3ô-ð`ô<*˜Oó<*óð<*ô@M B—I‘IôM ô`< ˜BŸI™Iô< ñ~ðñô 0 Ð+ó0 óð 0 ôf- ˜bŸi™iô- ô`"¨"¯)©)ô"ñ0ðñô 2 Ð-ó2 óð 2 ðjôb Ð'ób óðb ñJðñôo Ð#8óo ó ðo òdr)