ó <±h<‚ãó®•SSKrSSKJr SSKJrJrJr SSKrSSKJ s J r SSKJ r SSKJ r SSKJr SSKJr SS KJr SS KJrJr SSKJrJr SSKJrJrJr S SKJrJ r J!r! \\"SS\555r"\"S5"SS\ RF55r$"SS\ RF5r%"SS\ RF5r&"SS\ RF5r'S9S\ RFS\RPS\RPS\RPS\\RPS\)S \)4S!jjr*"S"S#\ RF5r+"S$S%\5r,"S&S'\ RF5r-"S(S)\ RF5r.\"S*S+\55r/\"S,S-9"S.S/\/55r0\"S0S-9"S1S2\/55r1S3\RPS4\RP4S5jr2\"S6S7\/55r3/S8Qr4g):éN)Ú dataclass)ÚAnyÚCallableÚOptional)Únné)ÚACT2FN)Úuse_kernel_forward_from_hub)Úcreate_causal_mask)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPooling)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚModelOutputÚauto_docstringÚcan_return_tupleé)ÚAimv2ConfigÚAimv2TextConfigÚAimv2VisionConfigcó•\rSrSr%SrSr\\R\ S'Sr \\R\ S'Sr\\R\ S'Sr\\R\ S'Sr \\R\ S'Sr\\ S 'Sr\\ S 'S\\4SjrS rg)ÚAimv2Outputé)ai loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `return_loss` is `True`): Contrastive loss for image-text similarity. logits_per_image (`torch.FloatTensor` of shape `(image_batch_size, text_batch_size)`): The scaled dot product scores between `image_embeds` and `text_embeds`. This represents the image-text similarity scores. logits_per_text (`torch.FloatTensor` of shape `(text_batch_size, image_batch_size)`): The scaled dot product scores between `text_embeds` and `image_embeds`. This represents the text-image similarity scores. text_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by applying the projection layer to the pooled output of [`Aimv2TextModel`]. image_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by applying the projection layer to the pooled output of [`Aimv2VisionModel`]. text_model_output (`BaseModelOutputWithPooling`): The output of the [`Aimv2TextModel`]. vision_model_output (`BaseModelOutputWithPooling`): The output of the [`Aimv2VisionModel`]. NÚlossÚlogits_per_imageÚlogits_per_textÚtext_embedsÚimage_embedsÚtext_model_outputÚvision_model_outputÚreturncóJ^•[U4SjTR555$)Nc3ól># •UH*nUS;aTUO[TU5R5v• M, g7f))r r!N)ÚgetattrÚto_tuple)Ú.0ÚkÚselfs €Ú`/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/aimv2/modeling_aimv2.pyÚ Ú'Aimv2Output.to_tuple..Hs<øé€ð á ðÐ LÓLˆDŠGÔRYÐZ^Ð`aÓRb×RkÑRkÓRmÔmÚ ùsƒ14)ÚtupleÚkeys©r)s`r*r&ÚAimv2Output.to_tupleGs#ø€Üô à—Y‘Y”[ó ó ð ó©)Ú__name__Ú __module__Ú__qualname__Ú__firstlineno__Ú__doc__rrÚtorchÚFloatTensorÚ__annotations__rrrrr rr!r-rr&Ú__static_attributes__r2r1r*rr)s›‡ñð&)-€Dˆ(5×$Ñ$Ñ %Ó,Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø37€OX˜e×/Ñ/Ñ0Ó7Ø/3€K˜%×+Ñ+Ñ,Ó3Ø04€L(˜5×,Ñ,Ñ-Ó4Ø48ÐÐ1Ó8Ø6:ÐÐ3Ó:ð ˜% ™*÷ r1rÚRMSNormcó8^•\rSrSrSU4SjjrSrSrSrU=r$)ÚAimv2RMSNorméNcóŒ>•[TU]5 [R"[R "U55UlX lg)z+ Aimv2RMSNorm is equivalent to T5LayerNorm N)ÚsuperÚ__init__rÚ Parameterr8ÚonesÚweightÚvariance_epsilon)r)Úhidden_sizeÚepsÚ __class__s €r*rBÚAimv2RMSNorm.__init__Ps/ø€ô ‰ÑÔÜ—l’l¤5§:¢:¨kÓ#:Ó;ˆŒØ #Õr1có•URnUR[R5nUR S5RSSS9nU[R"X0R-5-nURURU5-$)NééÿÿÿÿT)Úkeepdim) ÚdtypeÚtor8Úfloat32ÚpowÚmeanÚrsqrtrFrE)r)Ú hidden_statesÚinput_dtypeÚvariances r*ÚforwardÚAimv2RMSNorm.forwardXsw€Ø#×)Ñ)ˆØ%×(Ñ(¬¯©Ó7ˆ Ø ×$Ñ$ QÓ'×,Ñ,¨R¸Ð,Ð>ˆØ%¬¯ª°H×?TÑ?TÑ4TÓ(UÑUˆ Ø{‰{˜]×-Ñ-¨kÓ:Ñ:Ð:r1có^•[URR5SUR3$)Nz, eps=)r-rEÚshaperFr/s r*Ú extra_reprÚAimv2RMSNorm.extra_repr_s*€Ü˜Ÿ™×)Ñ)Ó*Ð+¨6°$×2GÑ2GÐ1HÐIÐIr1)rFrE)gíµ ÷Æ°>) r3r4r5r6rBrXr\r;Ú __classcell__©rIs@r*r>r>Nsø†÷$ò;÷JðJr1r>có.^•\rSrSrU4SjrSrSrU=r$)ÚAimv2MLPéccóø>•[TU]5 XlURUlURUl[ R"URURURS9Ul[ R"URURURS9Ul [ R"URURURS9Ul [URUl g)N©Úbias)rArBÚconfigrGÚintermediate_sizerÚLinearÚmlp_biasÚ gate_projÚup_projÚ down_projr Ú hidden_actÚact_fn©r)rfrIs €r*rBÚAimv2MLP.__init__ds¶ø€Ü ‰ÑÔØŒØ!×-Ñ-ˆÔØ!'×!9Ñ!9ˆÔÜŸš 4×#3Ñ#3°T×5KÑ5KÐRX×RaÑRaÑbˆŒÜ—y’y ×!1Ñ!1°4×3IÑ3IÐPV×P_ÑP_Ñ`ˆŒÜŸš 4×#9Ñ#9¸4×;KÑ;KÐRX×RaÑRaÑbˆŒÜ˜V×.Ñ.Ñ/ˆr1cóˆ•URURURU55URU5-5nU$©N)rlrnrjrk)r)Úxrls r*rXÚAimv2MLP.forwardns6€Ø—N‘N 4§;¡;¨t¯~©~¸aÓ/@Ó#AÀDÇLÁLÐQRÃOÑ#SÓTˆ ØÐr1)rnrfrlrjrGrgrk)r3r4r5r6rBrXr;r^r_s@r*raracsø†õ0÷ðr1racó¶^•\rSrSrS\4U4Sjjr\SSS\R4S\R4Sjj5r S \RS\R4S jrSrU=r $)ÚAimv2VisionEmbeddingsésrfcóB>•[TU]5 XlURUl[R "URURURURS9Ul[URUR5UlURUR-S-nURR(d%[R"X!R5UlUR!S["R$"U5R'S5SS9 g)N)Úkernel_sizeÚstriderLÚposition_ids©rrMF©Ú persistent)rArBrfÚ patch_sizerÚConv2dÚnum_channelsrGÚpatch_embedr>Úrms_norm_epsÚrms_normÚ image_sizeÚ is_nativeÚ EmbeddingÚposition_embeddingÚregister_bufferr8ÚarangeÚexpand)r)rfÚnum_patchesrIs €r*rBÚAimv2VisionEmbeddings.__init__tsØø€Ü ‰ÑÔØŒØ ×+Ñ+ˆŒÜŸ9š9Ø×Ñ ×!3Ñ!3À×ARÑARÐ[a×[lÑ[lñ ˆÔô% V×%7Ñ%7¸×9LÑ9LÓMˆŒ à×(Ñ(¨F×,=Ñ,=Ñ=À!ÑCˆØ{‰{×$×$Ü&(§l¢l°;×@RÑ@RÓ&SˆDÔ#Ø×Ñ˜^¬U¯\ª\¸+Ó-F×-MÑ-MÈgÓ-VÐchÐÒir1égˆÃ@Úcpur"có•[R"[U5XTS9n[R"[U5XTS9n[R"XgSS9upvUS-n[R"X…US9U-n SX9--n UR 5SU SSS24-n UR 5SU SSS24-n[R "U R 5U R5UR 5UR5/SS9SSS2SS24$) N©rOÚdeviceÚxy)Úindexingégð?).Nr©Údim)r8rŠÚintÚmeshgridÚflattenÚconcatÚsinÚcos)ÚheightÚwidthÚ embed_dimÚtemperaturer’rOÚgrid_wÚgrid_hÚpos_dimÚomegaÚout_hÚout_ws r*Ú"build_2d_sincos_position_embeddingÚ8Aimv2VisionEmbeddings.build_2d_sincos_position_embedding‚sç€ô—’œc %›j°ÑEˆÜ—’œc &›k°ÑFˆÜŸš¨ÀÑF‰ˆà˜q‘.ˆÜ—’˜W¸&ÑAÀGÑKˆØ{Ñ)Ñ*ˆà—‘Ó Ñ+¨e°Dº!°G©nÑ<ˆØ—‘Ó Ñ+¨e°Dº!°G©nÑ<ˆä|Š|˜UŸY™Y›[¨%¯)©)«+°u·y±y³{ÀEÇIÁIÃKÐPÐVWÑXÐY]Ò_`ÒbcÐYcÑdÐdr1Úpixel_valuescóÌ•UR5u p#nURU5RS5RSS5nUR U5nUR R(aTURX0R-X@R-UR RURURS9nOURUR5nXV-nU$)NrLr)r r’rO)Úsizer‚ršÚ transposer„rfr†r¨rrGr’rOrˆr{)r)rªÚ_ržrŸrUÚ pos_embeds r*rXÚAimv2VisionEmbeddings.forward“sÉ€Ø*×/Ñ/Ó1Ñˆˆ1eØ×(Ñ(¨Ó6×>Ñ>¸qÓA×KÑKÈAÈqÓQˆ ØŸ ™ mÓ4ˆ à;‰;× × Ø×?Ñ?ØŸ/™/Ñ)ØŸ™Ñ(ØŸ+™+×1Ñ1Ø$×+Ñ+Ø#×)Ñ)ð@ð‰Ið×/Ñ/°×0AÑ0AÓBˆIà%Ñ1ˆ ØÐr1)rfr‚rrˆr„)r3r4r5r6rrBÚstaticmethodr8rQÚTensorr¨rXr;r^r_s@r*rvrvssbø†ðjÐ0÷jðà!$°'À%ÈuÏ}É}ñeà ‰ôeóðeð E§L¡Lð°U·\±\÷òr1rvc ó¶^•\rSrSrS\4U4SjjrS S\\RS\\RS\\RS\R4SjjrS rU=r $)ÚAimv2TextEmbeddingsé§rfcóN>•[TU]5 URn[R"UR U5Ul[R"URU5UlURS[R"UR5RS5SS9 g)Nr{r|Fr}) rArBrGrr‡Ú vocab_sizeÚtoken_embeddingÚmax_position_embeddingsrˆr‰r8rŠr‹)r)rfr rIs €r*rBÚAimv2TextEmbeddings.__init__¨sƒø€Ü ‰ÑÔØ×&Ñ&ˆ ä!Ÿ|š|¨F×,=Ñ,=¸yÓIˆÔÜ"$§,¢,¨v×/MÑ/MÈyÓ"YˆÔð ×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð ò r1Ú input_idsr{Ú inputs_embedsr"có<•UbURSOURSnURRRSnXE:”a[SUSU35eUcURSS2SU24nUcURU5nURU5nX6-nU$)NrMéþÿÿÿrzRSequence length must be less than max_position_embeddings (got `sequence length`: z and max_position_embeddings: )r[rˆrEÚ ValueErrorr{r¸)r)r»r{r¼Ú seq_lengthÚmax_position_embeddingÚposition_embeddingsÚ embeddingss r*rXÚAimv2TextEmbeddings.forward´sÁ€ð-6Ñ,AY—_‘_ RÒ(À}×GZÑGZÐ[]ÑG^ˆ Ø!%×!8Ñ!8×!?Ñ!?×!EÑ!EÀaÑ!HÐàÓ.ÜØdØ,Ð<Ð=SÐ•[TU]5 XlURUlUR UlURUR-UlURUR-UR:wa&[SURSURS35eURS-Ul URUlSUl[R"URURURS9Ul[R"URURURS9Ul[R"URURURS9Ul[R"URURURS9Ulg)Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).gà¿Frd)rArBrfrGr Únum_attention_headsÚ num_headsÚhead_dimr¿ÚscaleÚattention_dropoutrÍÚ is_causalrrhÚqkv_biasÚk_projÚv_projÚq_projÚout_projros €r*rBÚAimv2Attention.__init__és0ø€Ü ‰ÑÔØŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒ Ø=‰=˜4Ÿ>™>Ñ)¨T¯^©^Ó;ÜØMÈdÏnÉnÐM]ð^Ø—N‘NÐ# 2ð'óð ð—]‘] DÑ(ˆŒ Ø×/Ñ/ˆŒØˆŒÜ—i’i §¡°·±ÀVÇ_Á_ÑUˆŒÜ—i’i §¡°·±ÀVÇ_Á_ÑUˆŒÜ—i’i §¡°·±ÀVÇ_Á_ÑUˆŒÜŸ š $§.¡.°$·.±.ÀvÇÁÑWˆ r1rUrËr"có2•URupEnURU5nURU5nURU5n UR XEUR UR5RSS5nUR XEUR UR5RSS5nU R XEUR UR5RSS5n [n URRS:wa[URRn U "UUUU UURURUR(dSOURS9up¼UR!XEU5R#5nUR%U5nX¼4$)z#Input shape: Batch x Time x ChannelrrLÚeagerç)rârÌrÍ)r[ræräråÚviewrÞrßrrØrfÚ_attn_implementationrrâràrÐrÍÚreshaperÔrç) r)rUrËrÕÚ batch_sizerÀr Úqueriesr.ÚvaluesÚattention_interfacer×rÖs r*rXÚAimv2Attention.forwardüsS€ð-:×,?Ñ,?Ñ)ˆ à—+‘+˜mÓ,ˆØ{‰{˜=Ó)ˆØ—‘˜]Ó+ˆà—,‘,˜z°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØy‰y˜°·±ÀÇÁÓO×YÑYÐZ[Ð]^Ó_ˆØ—‘˜Z°T·^±^ÀTÇ]Á]ÓS×]Ñ]Ð^_ÐabÓcˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØØ—n‘nØ—J‘JØ#Ÿ}Ÿ}‘C°$·,±,ñ % Ñ!ˆð"×)Ñ)¨*À)ÓL×WÑWÓYˆØ—m‘m KÓ0ˆàÐ(Ð(r1)rfrÍr rßrârärÞrçræràrårr) r3r4r5r6r7rBr8r²rr-rXr;r^r_s@r*rÚrÚæs[ø†ÙGõXð,26ñ$)à—|‘|ð$)ð! §¡Ñ.ð$)ð ˆu|‰|˜X e§l¡lÑ3Ð3Ñ 4÷$)ó$)r1rÚcó¸^•\rSrSrS\4U4SjjrS S\RS\\RS\\ S\ \R\R44SjjrS rU=r $)ÚAimv2EncoderLayeri#rfcóö>•[TU]5 [U5Ul[ U5Ul[ URUR5Ul [ URUR5Ul grr)rArBrÚÚ attentionraÚffnr>rGrƒÚ rms_norm1Ú rms_norm2ros €r*rBÚAimv2EncoderLayer.__init__$sZø€Ü ‰ÑÔÜ'¨Ó/ˆŒÜ˜FÓ#ˆŒÜ% f×&8Ñ&8¸&×:MÑ:MÓNˆŒÜ% f×&8Ñ&8¸&×:MÑ:MÓNˆr1rUrËÚoutput_attentionsr"có¶•URU5nURXBS9upVX-nURU5nURU5nX-nU(aX4$US4$)N)rUrË)rùr÷rúrø)r)rUrËrüÚnorm_hidden_statesr×rÖÚ mlp_outputs r*rXÚAimv2EncoderLayer.forward+sk€ð"Ÿ^™^¨MÓ:ÐØ$(§N¡NÐAS NÐ$sÑ!ˆà%Ñ3ˆ Ø!Ÿ^™^¨MÓ:ÐØ—X‘XÐ0Ó1ˆ à%Ñ2ˆ Þ0A Ð,Ð\È ÐW[ÐG\Ð\r1)r÷rørùrú©NF)r3r4r5r6rrBr8r²rÚboolr-rXr;r^r_s@r*rõrõ#ssø†ðOÐ0÷Oð26Ø,1ñ ]à—|‘|ð]ð! §¡Ñ.ð]ð$ D™>ð ]ð ˆu|‰|˜UŸ\™\Ð)Ñ *÷]ó]r1rõc óˆ^•\rSrSrSrS\4U4Sjjr\SS\\ RS\\S\\S\4S jj5r S rU=r$)ÚAimv2Encoderi<z› Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a [`Aimv2EncoderLayer`]. Args: config: Aimv2Config rfcóÔ>•[TU]5 Xl[R"[UR5Vs/sHn[U5PM sn5UlSUl gs snfr) rArBrfrÚ ModuleListÚrangeÚnum_hidden_layersrõÚlayersÚgradient_checkpointing)r)rfr®rIs €r*rBÚAimv2Encoder.__init__EsSø€Ü ‰ÑÔØŒÜ—m’mÌÈf×NfÑNfÔHgÓ$hÑHgÀ1Ô%6°vÖ%>ÑHgÑ$hÓiˆŒØ&+ˆÕ#ùò%is½A%rËrüÚoutput_hidden_statesr"cóF•UbUOURRnUbUOURRnU(aSOSnU(aSOSnUnURH-nU(aXW4-nU"UUUS9n U SnU(dM%XiS4-nM/ U(aXW4-n[ UUUS9$)aÌ Args: inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`): Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This is useful if you want more control over how to convert `input_ids` indices into associated vectors than the model's internal embedding lookup matrix. attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*): Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`: - 1 for tokens that are **not masked**, - 0 for tokens that are **masked**. [What are attention masks?](../glossary#attention-mask) output_attentions (`bool`, *optional*): Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned tensors for more detail. output_hidden_states (`bool`, *optional*): Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for more detail. return_dict (`bool`, *optional*): Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple. Nr2)rürr)Úlast_hidden_staterUÚ attentions)rfrürr r ) r)r¼rËrürÚencoder_statesÚall_attentionsrUÚ encoder_layerÚ layer_outputss r*rXÚAimv2Encoder.forwardLsÊ€ð<2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ö 4™¸ˆÞ0™°dˆà%ˆ Ø!Ÿ[œ[ˆMÞ#Ø!/Ð2BÑ!Bá)ØØØ"3ñˆMð*¨!Ñ,ˆMç Ð Ø!/ÀÑ3CÐ2EÑ!E’ñ)ö Ø+Ð.>Ñ>ˆNäØ+Ø(Ø%ñ ð r1)rfr r rÅ)r3r4r5r6r7rrBrrr8r²rr rXr;r^r_s@r*rr<slø†ñð,˜{÷,ðð26Ø,0Ø/3ñ< ð! §¡Ñ.ð< ð$ D™>ð < ð ' t™nð< ð ô < óö< r1rcój^•\rSrSrS\4U4SjjrS\RS\R4SjrSr U=r $)ÚAimv2AttentionPoolingHeadiŒrfcó>•[TU]5 URUlURUl[ R"URURURS9Ul[ R"URURURS9Ul [ R"[R"SSUR55Ul [ R"URURSS9Ulg)NrdrT)rArBrGrÝrÞrrhrãrärårCr8ÚzerosÚ cls_tokenÚoutput_projros €r*rBÚ"Aimv2AttentionPoolingHead.__init__sµø€Ü ‰ÑÔØ!×-Ñ-ˆÔØ×3Ñ3ˆŒä—i’i × 0Ñ 0°$×2BÑ2BÈÏÉÑYˆŒÜ—i’i × 0Ñ 0°$×2BÑ2BÈÏÉÑYˆŒäŸš¤e§k¢k°!°Q¸×8HÑ8HÓ&IÓJˆŒÜŸ9š9 T×%5Ñ%5°t×7GÑ7GÈdÑSˆÕr1rUr"có¾•URup#nURRUSS5nURU5R X#UR X@R -5nUR U5R X#UR X@R -5nUR USUR X@R -5nURSSSS5nURSSSS5nURSSSS5n[R"X†U5n U RSS5R USU5n U RSS9n URU 5n U $)NrMrrrLrr–) r[rr‹rärîrÞråÚpermuteÚFÚscaled_dot_product_attentionrrSr)r)rUrïÚseq_lenÚ hidden_dimrrÉrÊrÈr×Úoutputs r*rXÚ!Aimv2AttentionPoolingHead.forward˜s8€Ø*7×*=Ñ*=Ñ'ˆ ˜Zà—N‘N×)Ñ)¨*°b¸"Ó=ˆ àk‰k˜-Ó(×0Ñ0°ÀdÇnÁnÐV`×drÑdrÑVrÓsˆØ—‘˜MÓ*×2Ñ2°:ÈÏÉÐXb×ftÑftÑXtÓuˆØ×!Ñ! *¨a°·±ÀÏ~É~ÑA]Ó^ˆàk‰k˜!˜Q 1Ó%ˆØ— ‘ ˜a A qÓ)ˆØ— ‘ ˜a A qÓ)ˆä×4Ò4°UÀÓGˆà!×+Ñ+¨A¨qÓ1×9Ñ9¸*ÀaÈÓTˆØ!×&Ñ&¨1Ð&Ð-ˆà×!Ñ! +Ó.ˆØˆ r1)rrGrärÞrrå)r3r4r5r6rrBr8r²rXr;r^r_s@r*rrŒs2ø†ð TÐ0÷ Tð U§\¡\ð°e·l±l÷òr1rcóT^•\rSrSr%Sr\\S'SrSr/SQr Sr SrSrU4Sjr SrU=r$) ÚAimv2PreTrainedModeli®zÃ An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained models. The model is only intended for inference and doesn't support finetuning. rfÚaimv2T)rõrrvr´cóª>•[TU]U5 [US5(ad[UR[ R5(a:URRR[R"S55 gg[U[5(a9URRRSURRS9 gg)NÚlogit_scaleg$I’$I’,@rë)rSÚstd)rAÚ _init_weightsÚhasattrÚ isinstancer(rrCÚdataÚfill_ÚmathÚlogrrÚnormal_rfÚinitializer_range)r)rÇrIs €r*r*Ú"Aimv2PreTrainedModel._init_weightsÂs˜ø€Ü ‰Ñ˜fÔ%Ü6˜=×)Ñ)Ü˜&×,Ñ,¬b¯l©l×;Ñ;Ø×"Ñ"×'Ñ'×-Ñ-¬d¯hªh°xÓ.@ÕAð<ä ˜Ô 9× :Ñ :Ø×Ñ×!Ñ!×)Ñ)¨s¸¿¹×8UÑ8UÐ)ÒVð;r1r2)r3r4r5r6r7rr:Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_sdpaÚ_supports_flash_attnÚ_supports_flex_attnr*r;r^r_s@r*r%r%®sCø‡ñð ÓØÐØ&*Ð#òÐð€NØÐØÐ÷WóWr1r%zL The Vision model from AIMv2 without any head or projection on top. )Úcustom_introcóÀ^•\rSrSr%\\S'SrS\4U4SjjrS\R4Sjr \\SS\ \RS\ \S \ \S\4S jj55rSrU=r$) ÚAimv2VisionModeliËrfrªcó>>•[TU]U5 Xl[U5Ul[U5Ul[URUR5Ul URUlUR(a[U5Ul UR5 grr)rArBrfrvrÃrÚencoderr>rGrƒr„Úuse_headrÚheadÚ post_initros €r*rBÚAimv2VisionModel.__init__Ôsoø€Ü ‰Ñ˜Ô ØŒÜ/°Ó7ˆŒÜ# FÓ+ˆŒä$ V×%7Ñ%7¸×9LÑ9LÓMˆŒ àŸ™ˆŒ Ø==Ü1°&Ó9ˆDŒIà‰Õr1r"có.•URR$rr)rÃr‚r/s r*Úget_input_embeddingsÚ%Aimv2VisionModel.get_input_embeddingsâs€Ø‰×*Ñ*Ð*r1rËrürcóf•UbUOURRnUbUOURRnURU5nUR UUUS9nUSnURU5nUR(aURU5OSn[UUURURS9$)ar Examples: ```python >>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, Siglip2VisionModel >>> model = Aimv2VisionModel.from_pretrained("apple/aimv2-large-patch14-native") >>> processor = AutoProcessor.from_pretrained("apple/aimv2-large-patch14-native") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor(images=image, return_tensors="pt") >>> outputs = model(**inputs) >>> last_hidden_state = outputs.last_hidden_state >>> pooled_output = outputs.pooler_output # pooled features ```N)r¼rürr©rÚ pooler_outputrUr)rfrürrÃr>r„r?r@rrUr) r)rªrËrürrUÚencoder_outputsrrHs r*rXÚAimv2VisionModel.forwardås¿€ð:2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ðŸ™¨Ó5ˆ àŸ,™,Ø'Ø/Ø!5ð'ð ˆð,¨AÑ.ÐØ ŸM™MÐ*;Ó<Ðà8<¿ ¿ ˜Ÿ ™ Ð"3Ô4È4ˆ ä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ ð r1)rfrÃr>r@r„r?rÅ)r3r4r5r6rr:Úmain_input_namerBrÚModulerDrrrr8r²rrrXr;r^r_s@r*r<r<Ësø‡ð ÓØ$€OðÐ0÷ð+ b§i¡iô+ðØð26Ø,0Ø/3ñ2 ð! §¡Ñ.ð2 ð$ D™>ð 2 ð ' t™nð2 ð $ô 2 óóö2 r1r<zJ The text model from AIMv2 without any head or projection on top. cóº^•\rSrSrSrS\4U4SjjrS\R4Sjr Sr \\S S\ \RS \ \S \ \S\4Sjj55rSrU=r$)ÚAimv2TextModelir»rfcóü>•[TU]U5 Xl[U5Ul[U5Ul[URUR5Ul URUlUR5 grr) rArBrfr´rÃrr>r>rGrƒr„Úeos_token_idrAros €r*rBÚAimv2TextModel.__init__$s_ø€Ü ‰Ñ˜Ô ØŒÜ-¨fÓ5ˆŒÜ# FÓ+ˆŒÜ$ V×%7Ñ%7¸×9LÑ9LÓMˆŒ à"×/Ñ/ˆÔà‰Õr1r"có.•URR$rr©rÃr¸r/s r*rDÚ#Aimv2TextModel.get_input_embeddings/s€Ø‰×.Ñ.Ð.r1có$•XRlgrrrS)r)rÊs r*Úset_input_embeddingsÚ#Aimv2TextModel.set_input_embeddings2s€Ø*/‰Õ'r1rËrürc ó•UbUOURRnUbUOURRnURU5nURupgn[ R"U[ RURS9n U RS5RUS5n Ub[URUU UU SS9nURUUUUS9nUSnURU5nU[ R"URSURS9UR[ RURS9UR :HR5R#SS94n [%UU UR&UR(S9$) Nr‘rrM)rfÚinput_embedsr{rËÚcache_positionÚpast_key_values)r¼rËrür)r’r–rG)rfrürrÃr[r8rŠÚlongr’Ú unsqueezer‹rr>r„rPr˜rPÚargmaxrrUr)r)r»rËrürrUrïr r®rZr{rIrÚ pooled_outputs r*rXÚAimv2TextModel.forward5s€ð2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ðŸ™¨ Ó2ˆ Ø!.×!4Ñ!4Ñˆ ˜QäŸš g´U·Z±ZÈ ×H\ÑH\Ñ]ˆØ%×/Ñ/°Ó2×9Ñ9¸*ÀbÓIˆØÑ%Ü/Ø—{‘{Ø*Ø)Ø-Ø-Ø $ñ ˆNðŸ,™,Ø'Ø)Ø/Ø!5ð 'ð ˆð,¨AÑ.ÐØ ŸM™MÐ*;Ó<Ðð*ÜLŠLÐ*×0Ñ0°Ñ3ÐrPr„rÅ)r3r4r5r6rKrrBrrLrDrVrrrr8r²rrrXr;r^r_s@r*rNrNs‹ø†ð"€Oð ˜÷ ð/ b§i¡iô/ò0ðØð26Ø,0Ø/3ñ0 ð! §¡Ñ.ð0 ð$ D™>ð 0 ð ' t™nð0 ð $ô 0 óóö0 r1rNÚtensorr"cóŽ•[R"US5n[R"USSS9n[R"US5nU$)z± This method is equivalent to tensor.norm(p=2, dim=-1, keepdim=True) and used to make model `executorch` exportable. See issue https://github.com/pytorch/executorch/issues/3566 rLrMT)r—rNgà?)r8rRÚsum)raÚ square_tensorÚ sum_tensorÚ normed_tensors r*Ú_get_vector_normrgjs<€ô —I’I˜f aÓ(€MÜ—’˜=¨b¸$Ñ?€JÜ—I’I˜j¨#Ó.€MØÐr1cóø^•\rSrSr%\\S'/SQrS\4U4Sjjr\SS\ \ RS\ \ RS\ \ RS\ \S \ \S \ R4Sjj5r\SS\ \ RS\ \S \ \S \S \ R4 Sjj5r\\SS\ \ R"S\ \ RS\ \ RS\ \S \ \S \4Sjj55rSrU=r$)Ú Aimv2Modeliurf)r´rõrvcóî>•[TU]U5 URUlURRUlURRUl[RUR5Ul [RUR5Ul[R"UR URSS9Ul[R"URURSS9Ul[R""[$R&"UR(R*55Ul[.R0"UR25UlUR75 g)NFrd)rArBÚprojection_dimÚ vision_configrGÚvision_embed_dimÚtext_configÚtext_embed_dimr<Ú_from_configÚvision_modelrNÚ text_modelrrhÚvisual_projectionÚtext_projectionrCr8rarfÚlogit_scale_init_valuer(r/r0Úmax_logit_scaleÚmax_log_logit_scalerAros €r*rBÚAimv2Model.__init__zsø€Ü ‰Ñ˜Ô à$×3Ñ3ˆÔØ &× 4Ñ 4× @Ñ @ˆÔØ$×0Ñ0×<Ñ<ˆÔä,×9Ñ9¸&×:NÑ:NÓOˆÔÜ(×5Ñ5°f×6HÑ6HÓIˆŒä!#§¢¨4×+@Ñ+@À$×BUÑBUÐ\aÑ!bˆÔÜ!Ÿyšy¨×)<Ñ)<¸d×>QÑ>QÐX]Ñ^ˆÔäŸ<š<¬¯ª°T·[±[×5WÑ5WÓ(XÓYˆÔÜ#'§8¢8¨F×,BÑ,BÓ#CˆÔ à‰Õr1r»rËr{rürr"cóÒ•UbUOURRnUbUOURRnURUUUUUS9nURnURU5nU$)aG Returns: text_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by applying the projection layer to the pooled output of [`Aimv2TextModel`]. Examples: ```python >>> from transformers import AutoTokenizer, Aimv2Model >>> model = Aimv2Model.from_pretrained("openai/aimv2-vit-base-patch32") >>> tokenizer = AutoTokenizer.from_pretrained("openai/aimv2-vit-base-patch32") >>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt") >>> text_features = model.get_text_features(**inputs) ```)r»rËr{rür)rfrürrrrHrt) r)r»rËr{rürÚtext_outputsr_Ú text_featuress r*Úget_text_featuresÚAimv2Model.get_text_featuresŒs‚€ð42CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ð48·?±?ØØ)Ø%Ø/Ø!5ð4Cð4 ˆð%×2Ñ2ˆ Ø×,Ñ,¨]Ó;ˆ àÐr1rªÚinterpolate_pos_encodingcóÐ•UbUOURRnUbUOURRnURUUUUS9nURnURU5nU$)aÑ Returns: image_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by applying the projection layer to the pooled output of [`Aimv2VisionModel`]. Examples: ```python >>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, Aimv2Model >>> model = Aimv2Model.from_pretrained("openai/aimv2-vit-base-patch32") >>> processor = AutoProcessor.from_pretrained("openai/aimv2-vit-base-patch32") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor(images=image, return_tensors="pt") >>> image_features = model.get_image_features(**inputs) ```)rªrürr~)rfrürrqrHrs)r)rªrürr~Úvision_outputsr_Úimage_featuress r*Úget_image_featuresÚAimv2Model.get_image_features¸s€ð>2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ð6:×5FÑ5FØ%Ø/Ø!5Ø%=ð 6Gð6 ˆð'×4Ñ4ˆ Ø×/Ñ/° Ó>ˆàÐr1c ó`•UbUOURRnUbUOURRnURUUUS9nUR UUUUS9nUR nUR U5nUR n URU 5n U[U5-nU [U 5-n URRSUR5R5RU R5n X©-UR5-nUR5n[!UUU UUUS9$)a Examples: ```python >>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, Aimv2Model >>> model = Aimv2Model.from_pretrained("apple/aimv2-large-patch14-224-lit") >>> processor = AutoProcessor.from_pretrained("apple/aimv2-large-patch14-224-lit") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor( ... text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True ... ) >>> outputs = model(**inputs) >>> logits_per_image = outputs.logits_per_image # this is the image-text similarity score >>> probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities ```)rªrür)r»rËrürrë)rrrrr r!)rfrürrqrrrHrsrtrgr(ÚclamprwÚexprPr’Útr) r)r»rªrËrürr€rzrrr(rrs r*rXÚAimv2Model.forwardèsS€ðB2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ð6:×5FÑ5FØ%Ø/Ø!5ð6Gð6 ˆð48·?±?ØØ)Ø/Ø!5ð 4Cð4 ˆð&×3Ñ3ˆØ×-Ñ-¨lÓ;ˆà"×0Ñ0ˆØ×*Ñ*¨;Ó7ˆð$Ô&6°|Ó&DÑDˆØ!Ô$4°[Ó$AÑAˆà×&Ñ&×,Ñ,¨S°$×2JÑ2JÓK×OÑOÓQ×TÑTÐU`×UgÑUgÓhˆØ&Ñ4¸¿¹Ó8HÑHˆØ*×,Ñ,Ó.ÐäØ-Ø+Ø#Ø%Ø*Ø .ñ ð r1) r(rwrkrorrrtrmrqrs)NNNNN)NNNF)r3r4r5r6rr:r6rBrrr8r²rr9r|r‚rrÆrrXr;r^r_s@r*ririus¦ø‡àÓÚ]Ðð˜{÷ð$ð-1Ø15Ø/3Ø,0Ø/3ñ )à˜EŸL™LÑ)ð)ð! §¡Ñ.ð)ð˜uŸ|™|Ñ,ð )ð $ D™>ð)ð' t™nð )ð × Ñ ô)óð)ðVð59Ø,0Ø/3Ø).ñ-à˜u×0Ñ0Ñ1ð-ð$ D™>ð-ð' t™nð -ð #'ð-ð × Ñ ô -óð-ð^Øð15Ø48Ø15Ø,0Ø/3ñ F à˜E×,Ñ,Ñ-ðF ð˜u×0Ñ0Ñ1ðF ð! §¡Ñ.ð F ð $ D™>ðF ð' t™nð F ð ôF óóöF r1ri)r<rir%rN)rë)5r/ÚdataclassesrÚtypingrrrr8Útorch.nn.functionalrrÒrÚactivationsr Úintegrationsr Ú masking_utilsrÚmodeling_layersrÚmodeling_outputsr rÚmodeling_utilsrrÚutilsrrrÚconfiguration_aimv2rrrrrLr>rarvr´r²ÚfloatrØrÚrõrrr%r<rNrgriÚ__all__r2r1r*Úr–sðó.Ý!ß*Ñ*ãßÐÝå!Ý7Ý/Ý9ßKßFßBÑBßPÑPðØô +ó óóð ñF˜YÓ'ôJ2—9‘9óJó(ðJô( ˆry‰yô ô 1˜BŸI™Iô1ôh%˜"Ÿ)™)ô%ð^ñ%ØI‰Ið%à<‰<ð%ð ‰ð%ð<‰<ð %ð ˜UŸ\™\Ñ*ð%ðð %ðõ%ô.:)R—Y‘Yô:)ôz]Ð2ô]ô2M 2—9‘9ôM ô` § ¡ ôðDôW˜?óWóðWñ8ðñô I Ð+óI óð I ñXðñô F Ð)óF óð F ðR˜UŸ\™\ð¨e¯l©lôðôz Ð%óz óðz òzWr1