ó
    <±hW4 ã                   ó\  • S r SSKJr  SSKJr  SSKJrJrJr  SSK	r	SSK
r	SSK	JrJr  SSKJr  SS	KJrJr  SS
KJr  SSKJrJr  SSKJr  SSKJrJrJrJrJr  SSKJ r J!r!J"r"  \" 5       (       a  SSK#J$r$  \RJ                  " \&5      r'S\	R                  S\	R                  4S jr(S\	R                  S\	R                  4S jr)\\ " S S\5      5       5       r*S\S\4S jr+S\S\4S jr,S r-S r.\\" SS9 " S  S!\5      5       5       r/\\" S"S9 " S# S$\5      5       5       r0 " S% S&\Rb                  5      r2 " S' S(\Rb                  5      r3 " S) S*\Rb                  5      r4 " S+ S,\Rb                  5      r5 " S- S.\5      r6\ " S/ S0\5      5       r7 " S1 S2\Rb                  5      r8 " S3 S4\Rb                  5      r9 " S5 S6\75      r: " S7 S8\Rb                  5      r; " S9 S:\75      r<\ " S; S<\75      5       r= " S= S>\Rb                  5      r> " S? S@\Rb                  5      r? " SA SB\75      r@/ SCQrAg)DzPyTorch OWLv2 model.é    )Ú	dataclass)Ú	lru_cache)ÚAnyÚOptionalÚUnionN)ÚTensorÚnné   )ÚACT2FN)Ú _create_4d_causal_attention_maskÚ_prepare_4d_attention_mask)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPooling)ÚPreTrainedModel)ÚModelOutputÚauto_docstringÚis_vision_availableÚloggingÚ	torch_inté   )ÚOwlv2ConfigÚOwlv2TextConfigÚOwlv2VisionConfig)Úcenter_to_corners_formatÚlogitsÚreturnc                 óŽ   • [         R                  R                  U [        R                  " [        U 5      U R                  S95      $ )N©Údevice)r	   Ú
functionalÚcross_entropyÚtorchÚarangeÚlenr    )r   s    Ú`/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/owlv2/modeling_owlv2.pyÚcontrastive_lossr'   -   s/   € Ü=‰=×&Ñ& v¬u¯|ª|¼CÀ»KÐPV×P]ÑP]Ñ/^Ó_Ð_ó    Ú
similarityc                 óX   • [        U 5      n[        U R                  5       5      nX-   S-  $ )Ng       @)r'   Út)r)   Úcaption_lossÚ
image_losss      r&   Ú
owlv2_lossr.   2   s*   € Ü# JÓ/€LÜ! *§,¡,£.Ó1€JØÑ%¨Ñ,Ð,r(   c                   ó  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\	S	'   Sr\\	S
'   S\\   4S jrSrg)ÚOwlv2Outputé8   a‹  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `return_loss` is `True`):
    Contrastive loss for image-text similarity.
logits_per_image (`torch.FloatTensor` of shape `(image_batch_size, text_batch_size)`):
    The scaled dot product scores between `image_embeds` and `text_embeds`. This represents the image-text
    similarity scores.
logits_per_text (`torch.FloatTensor` of shape `(text_batch_size, image_batch_size)`):
    The scaled dot product scores between `text_embeds` and `image_embeds`. This represents the text-image
    similarity scores.
text_embeds (`torch.FloatTensor` of shape `(batch_size * num_max_text_queries, output_dim`):
    The text embeddings obtained by applying the projection layer to the pooled output of [`Owlv2TextModel`].
image_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`):
    The image embeddings obtained by applying the projection layer to the pooled output of
    [`Owlv2VisionModel`].
text_model_output (tuple[`BaseModelOutputWithPooling`]):
    The output of the [`Owlv2TextModel`].
vision_model_output (`BaseModelOutputWithPooling`):
    The output of the [`Owlv2VisionModel`].
NÚlossÚlogits_per_imageÚlogits_per_textÚtext_embedsÚimage_embedsÚtext_model_outputÚvision_model_outputr   c                 óJ   ^ • [        U 4S jT R                  5        5       5      $ )Nc              3   ól   >#   • U H*  nUS ;  a  TU   O[        TU5      R                  5       v •  M,     g7f©)r7   r8   N©ÚgetattrÚto_tuple©Ú.0ÚkÚselfs     €r&   Ú	<genexpr>Ú'Owlv2Output.to_tuple.<locals>.<genexpr>X   ó<   øé € ð 
á ð Ð LÓLˆDŠGÔRYÐZ^Ð`aÓRb×RkÑRkÓRmÔmÚ ùó   ƒ14©ÚtupleÚkeys©rB   s   `r&   r>   ÚOwlv2Output.to_tupleW   ó#   ø€ Üô 
à—Y‘Y”[ó
ó 
ð 	
r(   © )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r2   r   r#   ÚFloatTensorÚ__annotations__r3   r4   r5   r6   r7   r   r8   rH   r   r>   Ú__static_attributes__rM   r(   r&   r0   r0   8   s›   ‡ ñð( )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø37€OX˜e×/Ñ/Ñ0Ó7Ø/3€K˜%×+Ñ+Ñ,Ó3Ø04€L(˜5×,Ñ,Ñ-Ó4Ø48ÐÐ1Ó8Ø6:ÐÐ3Ó:ð
˜% ™*÷ 
r(   r0   r+   c                 ó,  • U R                  5       (       a@  U R                  [        R                  [        R                  4;   a  U $ U R                  5       $ U R                  [        R                  [        R                  4;   a  U $ U R                  5       $ ©N)	Úis_floating_pointÚdtyper#   Úfloat32Úfloat64ÚfloatÚint32Úint64Úint)r+   s    r&   Ú_upcastr`   _   sc   € à×Ñ×ÑØ—G‘G¤§¡¬u¯}©}Ð=Ó=ˆqÐLÀ1Ç7Á7Ã9ÐLà—G‘G¤§¡¬U¯[©[Ð9Ó9ˆqÐF¸q¿u¹u»wÐFr(   Úboxesc                 óf   • [        U 5      n U SS2S4   U SS2S4   -
  U SS2S4   U SS2S4   -
  -  $ )a”  
Computes the area of a set of bounding boxes, which are specified by its (x1, y1, x2, y2) coordinates.

Args:
    boxes (`torch.FloatTensor` of shape `(number_of_boxes, 4)`):
        Boxes for which the area will be computed. They are expected to be in (x1, y1, x2, y2) format with `0 <= x1
        < x2` and `0 <= y1 < y2`.

Returns:
    `torch.FloatTensor`: a tensor containing the area for each box.
Né   r   r
   r   )r`   )ra   s    r&   Úbox_areard   h   sB   € ô E‹N€EØ’!Q$‰K˜%¢ 1 ™+Ñ%¨%²°1°©+¸ºaÀ¸d¹Ñ*CÑDÐDr(   c                 óV  • [        U 5      n[        U5      n[        R                  " U S S 2S S S24   US S 2S S24   5      n[        R                  " U S S 2S SS 24   US S 2SS 24   5      nXT-
  R	                  SS9nUS S 2S S 2S4   US S 2S S 2S4   -  nUS S 2S 4   U-   U-
  nXx-  n	X˜4$ )Nrc   r   ©Úminr   )rd   r#   Úmaxrg   Úclamp)
Úboxes1Úboxes2Úarea1Úarea2Úleft_topÚright_bottomÚwidth_heightÚinterÚunionÚious
             r&   Úbox_iourt   y   sÄ   € ÜVÓ€EÜVÓ€EäyŠy˜¢ 4¨¨!¨ Ñ,¨f²Q¸¸¸°U©mÓ<€HÜ—9’9˜V¢A t¨Q©R KÑ0°&º¸A¹B¸±-Ó@€Là Ñ+×2Ñ2°qÐ2Ð9€LØššA˜q˜Ñ! L²²A°q°Ñ$9Ñ9€Eà’!T'‰N˜UÑ" UÑ*€Eà
‰-€CØˆ:Ðr(   c                 ó  • U SS2SS24   U SS2SS24   :¬  R                  5       (       d  [        SU  35      eUSS2SS24   USS2SS24   :¬  R                  5       (       d  [        SU 35      e[        X5      u  p#[        R                  " U SS2SSS24   USS2SS24   5      n[        R
                  " U SS2SSS24   USS2SS24   5      nXT-
  R                  SS9nUSS2SS2S4   USS2SS2S4   -  nX'U-
  U-  -
  $ )zÒ
Generalized IoU from https://giou.stanford.edu/. The boxes should be in [x0, y0, x1, y1] (corner) format.

Returns:
    `torch.FloatTensor`: a [N, M] pairwise matrix, where N = len(boxes1) and M = len(boxes2)
Nrc   z<boxes1 must be in [x0, y0, x1, y1] (corner) format, but got z<boxes2 must be in [x0, y0, x1, y1] (corner) format, but got r   rf   r   )ÚallÚ
ValueErrorrt   r#   rg   rh   ri   )rj   rk   rs   rr   Útop_leftÚbottom_rightrp   Úareas           r&   Úgeneralized_box_iour{   Š   s(  € ð ’1a‘b5‰M˜V¢A r¨ r E™]Ñ*×/Ñ/×1Ñ1ÜÐWÐX^ÐW_Ð`ÓaÐaØ’1a‘b5‰M˜V¢A r¨ r E™]Ñ*×/Ñ/×1Ñ1ÜÐWÐX^ÐW_Ð`ÓaÐaÜ˜Ó(J€CäyŠy˜¢ 4¨¨!¨ Ñ,¨f²Q¸¸¸°U©mÓ<€HÜ—9’9˜V¢A t¨Q©R KÑ0°&º¸A¹B¸±-Ó@€Là Ñ+×2Ñ2°qÐ2Ð9€LØšš1˜a˜Ñ  <²²1°a°Ñ#8Ñ8€Dà˜‘, $Ñ&Ñ&Ð&r(   z5
    Output type of [`Owlv2ForObjectDetection`].
    )Úcustom_introc                   óv  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\   \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S	'   Sr\\R                     \	S
'   Sr\\R                     \	S'   Sr\\	S'   Sr\\	S'   S\\   4S jrSrg)ÚOwlv2ObjectDetectionOutputé¢   aj  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` are provided)):
    Total loss as a linear combination of a negative log-likehood (cross-entropy) for class prediction and a
    bounding box loss. The latter is defined as a linear combination of the L1 loss and the generalized
    scale-invariant IoU loss.
loss_dict (`Dict`, *optional*):
    A dictionary containing the individual losses. Useful for logging.
logits (`torch.FloatTensor` of shape `(batch_size, num_patches, num_queries)`):
    Classification logits (including no-object) for all queries.
objectness_logits (`torch.FloatTensor` of shape `(batch_size, num_patches, 1)`):
    The objectness logits of all image patches. OWL-ViT represents images as a set of image patches where the
    total number of patches is (image_size / patch_size)**2.
pred_boxes (`torch.FloatTensor` of shape `(batch_size, num_patches, 4)`):
    Normalized boxes coordinates for all queries, represented as (center_x, center_y, width, height). These
    values are normalized in [0, 1], relative to the size of each individual image in the batch (disregarding
    possible padding). You can use [`~Owlv2ImageProcessor.post_process_object_detection`] to retrieve the
    unnormalized bounding boxes.
text_embeds (`torch.FloatTensor` of shape `(batch_size, num_max_text_queries, output_dim`):
    The text embeddings obtained by applying the projection layer to the pooled output of [`Owlv2TextModel`].
image_embeds (`torch.FloatTensor` of shape `(batch_size, patch_size, patch_size, output_dim`):
    Pooled output of [`Owlv2VisionModel`]. OWLv2 represents images as a set of image patches and computes image
    embeddings for each patch.
class_embeds (`torch.FloatTensor` of shape `(batch_size, num_patches, hidden_size)`):
    Class embeddings of all image patches. OWLv2 represents images as a set of image patches where the total
    number of patches is (image_size / patch_size)**2.
text_model_output (tuple[`BaseModelOutputWithPooling`]):
    The output of the [`Owlv2TextModel`].
vision_model_output (`BaseModelOutputWithPooling`):
    The output of the [`Owlv2VisionModel`].
Nr2   Ú	loss_dictr   Úobjectness_logitsÚ
pred_boxesr5   r6   Úclass_embedsr7   r8   r   c                 óJ   ^ • [        U 4S jT R                  5        5       5      $ )Nc              3   ól   >#   • U H*  nUS ;  a  TU   O[        TU5      R                  5       v •  M,     g7fr;   r<   r?   s     €r&   rC   Ú6Owlv2ObjectDetectionOutput.to_tuple.<locals>.<genexpr>Ô   rE   rF   rG   rJ   s   `r&   r>   Ú#Owlv2ObjectDetectionOutput.to_tupleÓ   rL   r(   rM   )rN   rO   rP   rQ   rR   r2   r   r#   rS   rT   r€   Údictr   r   r‚   r5   r6   rƒ   r7   r   r8   rH   r   r>   rU   rM   r(   r&   r~   r~   ¢   sÓ   ‡ ñð> )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø $€Iˆx˜‰~Ó$Ø*.€FˆHU×&Ñ&Ñ'Ó.Ø59Ðx × 1Ñ 1Ñ2Ó9Ø.2€J˜×*Ñ*Ñ+Ó2Ø/3€K˜%×+Ñ+Ñ,Ó3Ø04€L(˜5×,Ñ,Ñ-Ó4Ø04€L(˜5×,Ñ,Ñ-Ó4Ø48ÐÐ1Ó8Ø6:ÐÐ3Ó:ð
˜% ™*÷ 
r(   r~   zL
    Output type of [`Owlv2ForObjectDetection.image_guided_detection`].
    c                   ó:  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S	'   Sr\\	S
'   Sr\\	S'   S\\   4S jrSrg)Ú%Owlv2ImageGuidedObjectDetectionOutputéÚ   a©  
logits (`torch.FloatTensor` of shape `(batch_size, num_patches, num_queries)`):
    Classification logits (including no-object) for all queries.
image_embeds (`torch.FloatTensor` of shape `(batch_size, patch_size, patch_size, output_dim`):
    Pooled output of [`Owlv2VisionModel`]. OWLv2 represents images as a set of image patches and computes
    image embeddings for each patch.
query_image_embeds (`torch.FloatTensor` of shape `(batch_size, patch_size, patch_size, output_dim`):
    Pooled output of [`Owlv2VisionModel`]. OWLv2 represents images as a set of image patches and computes
    image embeddings for each patch.
target_pred_boxes (`torch.FloatTensor` of shape `(batch_size, num_patches, 4)`):
    Normalized boxes coordinates for all queries, represented as (center_x, center_y, width, height). These
    values are normalized in [0, 1], relative to the size of each individual target image in the batch
    (disregarding possible padding). You can use [`~Owlv2ImageProcessor.post_process_object_detection`] to
    retrieve the unnormalized bounding boxes.
query_pred_boxes (`torch.FloatTensor` of shape `(batch_size, num_patches, 4)`):
    Normalized boxes coordinates for all queries, represented as (center_x, center_y, width, height). These
    values are normalized in [0, 1], relative to the size of each individual query image in the batch
    (disregarding possible padding). You can use [`~Owlv2ImageProcessor.post_process_object_detection`] to
    retrieve the unnormalized bounding boxes.
class_embeds (`torch.FloatTensor` of shape `(batch_size, num_patches, hidden_size)`):
    Class embeddings of all image patches. OWLv2 represents images as a set of image patches where the total
    number of patches is (image_size / patch_size)**2.
text_model_output (tuple[`BaseModelOutputWithPooling`]):
    The output of the [`Owlv2TextModel`].
vision_model_output (`BaseModelOutputWithPooling`):
    The output of the [`Owlv2VisionModel`].
Nr   r6   Úquery_image_embedsÚtarget_pred_boxesÚquery_pred_boxesrƒ   r7   r8   r   c                 óJ   ^ • [        U 4S jT R                  5        5       5      $ )Nc              3   ól   >#   • U H*  nUS ;  a  TU   O[        TU5      R                  5       v •  M,     g7fr;   r<   r?   s     €r&   rC   ÚAOwlv2ImageGuidedObjectDetectionOutput.to_tuple.<locals>.<genexpr>  rE   rF   rG   rJ   s   `r&   r>   Ú.Owlv2ImageGuidedObjectDetectionOutput.to_tuple  rL   r(   rM   )rN   rO   rP   rQ   rR   r   r   r#   rS   rT   r6   rŒ   r   rŽ   rƒ   r7   r   r8   rH   r   r>   rU   rM   r(   r&   rŠ   rŠ   Ú   s²   ‡ ñð8 +/€FˆHU×&Ñ&Ñ'Ó.Ø04€L(˜5×,Ñ,Ñ-Ó4Ø6:Ð˜ ×!2Ñ!2Ñ3Ó:Ø59Ðx × 1Ñ 1Ñ2Ó9Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø04€L(˜5×,Ñ,Ñ-Ó4Ø48ÐÐ1Ó8Ø6:ÐÐ3Ó:ð
˜% ™*÷ 
r(   rŠ   c                   ó´   ^ • \ rS rSrS\4U 4S jjrS\R                  S\S\S\R                  4S jr	SS	\R                  S
\S\R                  4S jjrSrU =r$ )ÚOwlv2VisionEmbeddingsi  Úconfigc                 ó´  >• [         TU ]  5         UR                  U l        Xl        UR                  U l        [        R                  " [        R                  " UR                  5      5      U l
        [        R                  " UR                  U R
                  UR                  UR                  SS9U l        UR                  UR                  -  S-  U l        U R                  S-   U l        [        R"                  " U R                   U R
                  5      U l        U R'                  S[        R(                  " U R                   5      R+                  S5      SS9  g )NF)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚbiasrc   r   Úposition_ids©r   éÿÿÿÿ©Ú
persistent)ÚsuperÚ__init__Ú
patch_sizer•   Úhidden_sizeÚ	embed_dimr	   Ú	Parameterr#   ÚrandnÚclass_embeddingÚConv2dÚnum_channelsÚpatch_embeddingÚ
image_sizeÚnum_patchesÚnum_positionsÚ	EmbeddingÚposition_embeddingÚregister_bufferr$   Úexpand©rB   r•   Ú	__class__s     €r&   r¢   ÚOwlv2VisionEmbeddings.__init__  s  ø€ Ü‰ÑÔØ ×+Ñ+ˆŒØŒØ×+Ñ+ˆŒÜ!Ÿ|š|¬E¯KªK¸×8JÑ8JÓ,KÓLˆÔä!ŸyšyØ×+Ñ+ØŸ™Ø×)Ñ)Ø×$Ñ$Øñ 
ˆÔð #×-Ñ-°×1BÑ1BÑBÀqÑHˆÔØ!×-Ñ-°Ñ1ˆÔÜ"$§,¢,¨t×/AÑ/AÀ4Ç>Á>Ó"RˆÔØ×Ñ˜^¬U¯\ª\¸$×:LÑ:LÓ-M×-TÑ-TÐU\Ó-]ÐjoÐÒpr(   Ú
embeddingsÚheightÚwidthr   c                 óÈ  • UR                   S   S-
  nU R                  R                  R                  S5      nUR                   S   S-
  n[        R
                  R                  5       (       d%  XF:X  a   X#:X  a  U R                  U R                  5      $ USS2SS24   nUSS2SS24   nUR                   S   n	X R                  -  n
X0R                  -  n[        US-  5      nUR                  SXÌU	5      nUR                  SSSS5      n[        R                  R                  UX«4SS	S
9nUR                  SSSS5      R                  SSU	5      n[        R                   " Xx4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   r   Nrž   g      à?r
   rc   ÚbicubicF)ÚsizeÚmodeÚalign_corners©Údim)Úshaper°   ÚweightÚ	unsqueezer#   ÚjitÚ
is_tracingrœ   r£   r   ÚreshapeÚpermuter	   r!   ÚinterpolateÚviewÚcat)rB   r¶   r·   r¸   r­   r°   r®   Úclass_pos_embedÚpatch_pos_embedr¿   Ú
new_heightÚ	new_widthÚsqrt_num_positionss                r&   Úinterpolate_pos_encodingÚ.Owlv2VisionEmbeddings.interpolate_pos_encoding%  si  € ð !×&Ñ& qÑ)¨AÑ-ˆØ!×4Ñ4×;Ñ;×EÑEÀaÓHÐØ*×0Ñ0°Ñ3°aÑ7ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×*Ñ*¨4×+<Ñ+<Ó=Ð=à,ªQ°°°¨UÑ3ˆØ,ªQ°±¨UÑ3ˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ
ØŸ_™_Ñ,ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr(   Úpixel_valuesrÏ   c                 ób  • UR                   u  p4pVU R                  U5      nUR                  S5      R                  SS5      nU R                  R                  USS5      n[        R                  " X‡/SS9n	U(       a  XR                  X•U5      -   n	U	$ XR                  U R                  5      -   n	U	$ )Nrc   r   rž   r¾   )rÀ   r«   ÚflattenÚ	transposer¨   r²   r#   rÉ   rÏ   r°   rœ   )
rB   rÑ   rÏ   Ú
batch_sizeÚ_r·   r¸   Úpatch_embedsrƒ   r¶   s
             r&   ÚforwardÚOwlv2VisionEmbeddings.forwardN  s®   € Ø'3×'9Ñ'9Ñ$ˆ
vØ×+Ñ+¨LÓ9ˆØ#×+Ñ+¨AÓ.×8Ñ8¸¸AÓ>ˆà×+Ñ+×2Ñ2°:¸qÀ"ÓEˆÜ—Y’Y Ð;ÀÑCˆ
Þ#Ø#×&CÑ&CÀJÐX]Ó&^Ñ^ˆJð Ðð $×&=Ñ&=¸d×>OÑ>OÓ&PÑPˆJØÐr(   )r¨   r•   r¥   r­   r®   r«   r£   r°   ©F)rN   rO   rP   rQ   r   r¢   r#   r   r_   rÏ   rS   ÚboolrØ   rU   Ú__classcell__©r´   s   @r&   r”   r”     sr   ø† ðqÐ0÷ qð*'D°5·<±<ð 'DÈð 'DÐUXð 'DÐ]b×]iÑ]iô 'DñR E×$5Ñ$5ð ÐQUð Ðbg×bnÑbn÷ ó r(   r”   c            	       ó¶   ^ • \ rS rSrS\4U 4S jjr   S
S\\R                     S\\R                     S\\R                     S\R                  4S jjrS	rU =r$ )ÚOwlv2TextEmbeddingsi]  r•   c                 ó^  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR                  UR
                  5      U l        U R                  S[        R                  " UR                  5      R                  S5      SS9  g )Nrœ   r   FrŸ   )r¡   r¢   r	   r¯   Ú
vocab_sizer¤   Útoken_embeddingÚmax_position_embeddingsr°   r±   r#   r$   r²   r³   s     €r&   r¢   ÚOwlv2TextEmbeddings.__init__^  s„   ø€ Ü‰ÑÔÜ!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÓRˆÔÜ"$§,¢,¨v×/MÑ/MÈv×OaÑOaÓ"bˆÔð 	×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð 	ò 	
r(   Ú	input_idsrœ   Úinputs_embedsr   c                 óÊ   • Ub  UR                   S   OUR                   S   nUc  U R                  S S 2S U24   nUc  U R                  U5      nU R                  U5      nX5-   nU$ )Nrž   éþÿÿÿ)rÀ   rœ   râ   r°   )rB   rå   rœ   ræ   Ú
seq_lengthÚposition_embeddingsr¶   s          r&   rØ   ÚOwlv2TextEmbeddings.forwardh  sx   € ð -6Ñ,AY—_‘_ RÒ(À}×GZÑGZÐ[]ÑG^ˆ
àÑØ×,Ñ,ªQ°°°¨^Ñ<ˆLàÑ Ø ×0Ñ0°Ó;ˆMà"×5Ñ5°lÓCÐØ"Ñ8ˆ
àÐr(   )r°   râ   )NNN)rN   rO   rP   rQ   r   r¢   r   r#   Ú
LongTensorrS   r   rØ   rU   rÜ   rÝ   s   @r&   rß   rß   ]  so   ø† ð
˜÷ 
ð 15Ø37Ø59ñ	à˜E×,Ñ,Ñ-ðð ˜u×/Ñ/Ñ0ðð   × 1Ñ 1Ñ2ð	ð
 
‰÷ó r(   rß   c                   ó&  ^ • \ rS rSrSrU 4S jrS\R                  S\S\4S jr	   SS\R                  S	\
\R                     S
\
\R                     S\
\   S\\R                  \
\R                     \
\\R                        4   4
S jjrSrU =r$ )ÚOwlv2Attentioni}  z=Multi-headed attention from 'Attention Is All You Need' paperc                 ó  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        U R                  U R                  -  U l        U R                  U R                  -  U R                  :w  a&  [        SU R                   SU R                   S35      eU R                  S-  U l	        UR                  U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).ç      à¿)r¡   r¢   r•   r¤   r¥   Únum_attention_headsÚ	num_headsÚhead_dimrw   ÚscaleÚattention_dropoutÚdropoutr	   ÚLinearÚk_projÚv_projÚq_projÚout_projr³   s     €r&   r¢   ÚOwlv2Attention.__init__€  s  ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒØ=‰=˜4Ÿ>™>Ñ)¨T¯^©^Ó;ÜØMÈdÏnÉnÐM]ð ^Ø—N‘NÐ# 2ð'óð ð —]‘] DÑ(ˆŒ
Ø×/Ñ/ˆŒä—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜŸ	š	 $§.¡.°$·.±.ÓAˆr(   ÚtensorÚseq_lenÚbszc                 óŒ   • UR                  X2U R                  U R                  5      R                  SS5      R	                  5       $ )Nr   rc   )rÈ   rò   ró   rÔ   Ú
contiguous)rB   rý   rþ   rÿ   s       r&   Ú_shapeÚOwlv2Attention._shape“  s5   € Ø{‰{˜3¨¯©¸¿¹ÓG×QÑQÐRSÐUVÓW×bÑbÓdÐdr(   Úhidden_statesÚattention_maskÚcausal_attention_maskÚoutput_attentionsr   c                 ó–  • UR                  5       u  pVnU R                  U5      U R                  -  nU R                  U R	                  U5      SU5      n	U R                  U R                  U5      SU5      n
XPR                  -  SU R                  4nU R                  X†U5      R                  " U6 nU	R                  " U6 n	U
R                  " U6 n
U	R                  S5      n[        R                  " X‰R                  SS5      5      nUR                  5       XPR                  -  Xl4:w  a-  [        SXPR                  -  Xl4 SUR                  5        35      eUbv  UR                  5       USXl4:w  a"  [        SUSXl4 SUR                  5        35      eUR                  XPR                  Xl5      U-   nUR                  XPR                  -  Xl5      nUbv  UR                  5       USXl4:w  a"  [        SUSXl4 SUR                  5        35      eUR                  XPR                  Xl5      U-   nUR                  XPR                  -  Xl5      n[        R                  R                  USS9nU(       a;  UR                  XPR                  Xl5      nUR                  XPR                  -  Xl5      nOSn[        R                  R!                  XÐR                   U R"                  S	9nUR%                  U
R&                  5      n[        R                  " Xú5      nUR                  5       XPR                  -  X`R                  4:w  a5  [        S
XPR                  X`R                  4 SUR                  5        35      eUR                  XPR                  X`R                  5      nUR                  SS5      nUR)                  XVU5      nU R+                  U5      nUU4$ )z#Input shape: Batch x Time x Channelrž   r   rc   z$Attention weights should be of size z	, but is Nz!Attention mask should be of size r¾   )ÚpÚtrainingz `attn_output` should be of size )r»   rú   rô   r  rø   rù   rò   ró   rÈ   r#   ÚbmmrÔ   rw   r	   r!   Úsoftmaxrö   r
  ÚtorY   rÅ   rû   )rB   r  r  r  r  rÿ   Útgt_lenr¥   Úquery_statesÚ
key_statesÚvalue_statesÚ
proj_shapeÚsrc_lenÚattn_weightsÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                    r&   rØ   ÚOwlv2Attention.forward–  sŸ  € ð #0×"4Ñ"4Ó"6Ñˆið —{‘{ =Ó1°D·J±JÑ>ˆØ—[‘[ §¡¨]Ó!;¸RÀÓEˆ
Ø—{‘{ 4§;¡;¨}Ó#=¸rÀ3ÓGˆàŸN™NÑ*¨B°·±Ð>ˆ
Ø—{‘{ <¸#Ó>×CÒCÀZÐPˆØ—_’_ jÐ1ˆ
Ø#×(Ò(¨*Ð5ˆà—/‘/ !Ó$ˆÜ—y’y ×/CÑ/CÀAÀqÓ/IÓJˆà×ÑÓ 3¯©Ñ#7¸Ð"JÓJÜØ6¸¿n¹nÑ8LÈgÐ7_Ð6`ð aØ ×%Ñ%Ó'Ð(ð*óð ð !Ñ,Ø$×)Ñ)Ó+°°Q¸Ð/IÓIÜ Ø7¸¸aÀÐ8RÐ7Sð TØ-×2Ñ2Ó4Ð5ð7óð ð (×,Ñ,¨S·.±.À'ÓSÐVkÑkˆLØ'×,Ñ,¨S·>±>Ñ-AÀ7ÓTˆLàÑ%Ø×"Ñ"Ó$¨¨a°Ð(BÓBÜ Ø7¸¸aÀÐ8RÐ7SÐS\Ð]k×]pÑ]pÓ]rÐ\sÐtóð ð (×,Ñ,¨S·.±.À'ÓSÐVdÑdˆLØ'×,Ñ,¨S·>±>Ñ-AÀ7ÓTˆLä—}‘}×,Ñ,¨\¸rÐ,ÐBˆæð
 %1×$5Ñ$5°c¿>¹>È7Ó$\Ð!Ø0×5Ñ5°c¿N¹NÑ6JÈGÓ]‰Là$(Ð!ä—]‘]×*Ñ*¨<¿<¹<ÐRV×R_ÑR_Ð*Ð`ˆ
ð  —]‘] <×#5Ñ#5Ó6ˆ
ä—i’i 
Ó9ˆà×ÑÓ #¯©Ñ"6¸ÇÁÐ!OÓOÜØ2°C¿¹È×R_ÑR_Ð3`Ð2að bØ×$Ñ$Ó&Ð'ð)óð ð
 "×&Ñ& s¯N©N¸GÇ]Á]ÓSˆØ!×+Ñ+¨A¨qÓ1ˆØ!×)Ñ)¨#¸	ÓBˆà—m‘m KÓ0ˆàÐ1Ð1Ð1r(   )
r•   rö   r¥   ró   rø   rò   rû   rú   rô   rù   ©NNF)rN   rO   rP   rQ   rR   r¢   r#   r   r_   r  r   rÛ   rH   rØ   rU   rÜ   rÝ   s   @r&   rî   rî   }  s»   ø† ÙGõBð&e˜UŸ\™\ð e°Cð e¸cô eð 26Ø8<Ø,1ñO2à—|‘|ðO2ð ! §¡Ñ.ðO2ð  (¨¯©Ñ5ð	O2ð
 $ D™>ðO2ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷O2ó O2r(   rî   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚOwlv2MLPié  c                 ó  >• [         TU ]  5         Xl        [        UR                     U l        [        R                  " UR                  UR                  5      U l
        [        R                  " UR                  UR                  5      U l        g rW   )r¡   r¢   r•   r   Ú
hidden_actÚactivation_fnr	   r÷   r¤   Úintermediate_sizeÚfc1Úfc2r³   s     €r&   r¢   ÚOwlv2MLP.__init__ê  sb   ø€ Ü‰ÑÔØŒÜ# F×$5Ñ$5Ñ6ˆÔÜ—9’9˜V×/Ñ/°×1IÑ1IÓJˆŒÜ—9’9˜V×5Ñ5°v×7IÑ7IÓJˆr(   r  r   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ rW   )r   r  r!  )rB   r  s     r&   rØ   ÚOwlv2MLP.forwardñ  s4   € ØŸ™ Ó/ˆØ×*Ñ*¨=Ó9ˆØŸ™ Ó/ˆØÐr(   )r  r•   r   r!  )
rN   rO   rP   rQ   r¢   r#   r   rØ   rU   rÜ   rÝ   s   @r&   r  r  é  s)   ø† õKð U§\¡\ð °e·l±l÷ ò r(   r  c                   ó°   ^ • \ rS rSrS\4U 4S jjr SS\R                  S\R                  S\R                  S\\	   S\
\R                     4
S	 jjrS
rU =r$ )ÚOwlv2EncoderLayeriù  r•   c                 ó<  >• [         TU ]  5         UR                  U l        [	        U5      U l        [        R                  " U R                  UR                  S9U l	        [        U5      U l        [        R                  " U R                  UR                  S9U l        g ©N©Úeps)r¡   r¢   r¤   r¥   rî   Ú	self_attnr	   Ú	LayerNormÚlayer_norm_epsÚlayer_norm1r  ÚmlpÚlayer_norm2r³   s     €r&   r¢   ÚOwlv2EncoderLayer.__init__ú  sm   ø€ Ü‰ÑÔØ×+Ñ+ˆŒÜ'¨Ó/ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÔÜ˜FÓ#ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÕr(   r  r  r  r  r   c                 óÊ   • UnU R                  U5      nU R                  UUUUS9u  pXQ-   nUnU R                  U5      nU R                  U5      nXQ-   nU4nU(       a  Xv4-  nU$ )a  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
        `(config.encoder_attention_heads,)`.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)r  r  r  r  )r.  r+  r0  r/  )rB   r  r  r  r  Úresidualr  Úoutputss           r&   rØ   ÚOwlv2EncoderLayer.forward  sŠ   € ð" !ˆà×(Ñ(¨Ó7ˆØ&*§n¡nØ'Ø)Ø"7Ø/ð	 '5ð '
Ñ#ˆð !Ñ0ˆà ˆØ×(Ñ(¨Ó7ˆØŸ™ Ó/ˆØ Ñ0ˆà Ð"ˆæØÑ&ˆGàˆr(   )r¥   r.  r0  r/  r+  rÚ   )rN   rO   rP   rQ   r   r¢   r#   r   r   rÛ   rH   rS   rØ   rU   rÜ   rÝ   s   @r&   r&  r&  ù  sk   ø† ðS˜{÷ Sð -2ñ&à—|‘|ð&ð Ÿ™ð&ð  %Ÿ|™|ð	&ð
 $ D™>ð&ð 
ˆu× Ñ Ñ	!÷&ó &r(   r&  c                   óP   • \ rS rSr% \\S'   SrSrS/rS\	R                  4S jrSrg	)
ÚOwlv2PreTrainedModeli+  r•   Úowlv2Tr&  Úmodulec                 ó,
  • U R                   R                  n[        U[        5      (       ad  UR                  R
                  R                  R                  SUS-  S9  UR                  R
                  R                  R                  SUS-  S9  GO§[        U[        5      (       aÍ  [        R                  R                  UR                  SUR                  S-  U-  S9  [        R                  R                  UR                  R
                  UR                   R                  U-  S9  [        R                  R                  UR                  R
                  UR                   R                  U-  S9  GOÅ[        U[         5      (       Ga  UR                  S-  SUR                   R"                  -  S-  -  U-  nUR                  S-  U-  n[        R                  R                  UR$                  R
                  US9  [        R                  R                  UR&                  R
                  US9  [        R                  R                  UR(                  R
                  US9  [        R                  R                  UR*                  R
                  US9  GO¤[        U[,        5      (       a½  UR                   R.                  S-  SUR                   R"                  -  S-  -  U-  nSUR                   R.                  -  S-  U-  n[        R                  R                  UR0                  R
                  US9  [        R                  R                  UR2                  R
                  US9  OÒ[        U[4        5      (       a½  [        R                  R                  UR6                  R
                  UR8                  S-  U-  S9  [        R                  R                  UR:                  R
                  UR<                  S-  U-  S9  UR>                  R                  RA                  U R                   RB                  5        [        U[        RD                  5      (       aI  URF                  R                  RI                  5         UR
                  R                  RA                  S5        [        U[        RJ                  5      (       aW  UR
                  R                  R                  SUS9  URF                  b%  URF                  R                  RI                  5         ggg)	zInitialize the weightsç        g{®Gáz”?)ÚmeanÚstdrð   )r=  rc   ç      ð?N)&r•   Úinitializer_factorÚ
isinstancerß   râ   rÁ   ÚdataÚnormal_r°   r”   r	   Úinitr¨   r¥   r«   Úinitializer_rangerî   Únum_hidden_layersrú   rø   rù   rû   r  r¤   r   r!  Ú
Owlv2ModelÚtext_projectionÚtext_embed_dimÚvisual_projectionÚvision_embed_dimÚlogit_scaleÚfill_Úlogit_scale_init_valuer,  r›   Úzero_r÷   )rB   r9  ÚfactorÚin_proj_stdÚout_proj_stdÚfc_stds         r&   Ú_init_weightsÚ"Owlv2PreTrainedModel._init_weights3  s­  € à—‘×/Ñ/ˆÜfÔ1×2Ñ2Ø×"Ñ"×)Ñ)×.Ñ.×6Ñ6¸CÀVÈdÁ]Ð6ÑSØ×%Ñ%×,Ñ,×1Ñ1×9Ñ9¸sÈÐQUÉÐ9ÓVÜ˜Ô 5×6Ñ6ÜG‰GO‰O˜F×2Ñ2¸À&×BRÑBRÐTXÑBXÐ[aÑBaˆOÑbÜG‰GO‰O˜F×2Ñ2×9Ñ9¸v¿}¹}×?^Ñ?^ÐagÑ?gˆOÑhÜG‰GO‰O˜F×5Ñ5×<Ñ<À&Ç-Á-×BaÑBaÐdjÑBjˆOÓkÜ˜¤×/Ò/Ø!×+Ñ+¨TÑ1°q¸6¿=¹=×;ZÑ;ZÑ7ZÐ_cÑ6cÑdÐgmÑmˆKØ"×,Ñ,¨dÑ2°fÑ<ˆLÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸO™O×2Ñ2¸ˆOÓEÜ˜¤×)Ñ)Ø!Ÿ=™=×4Ñ4°dÑ:ÀÀFÇMÁM×DcÑDcÑ@cÐhlÑ?lÑmÐpvÑvˆKØ˜&Ÿ-™-×3Ñ3Ñ3¸Ñ<¸vÑEˆFÜG‰GO‰O˜FŸJ™J×-Ñ-°6ˆOÑ:ÜG‰GO‰O˜FŸJ™J×-Ñ-°;ˆOÒ?Ü˜¤
×+Ñ+ÜG‰GO‰OØ×&Ñ&×-Ñ-Ø×)Ñ)¨4Ñ/°&Ñ8ð ñ ô G‰GO‰OØ×(Ñ(×/Ñ/Ø×+Ñ+¨TÑ1°FÑ:ð ñ ð ×Ñ×#Ñ#×)Ñ)¨$¯+©+×*LÑ*LÔMÜfœbŸl™l×+Ñ+ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÔ)ÜfœbŸi™i×(Ñ(ØM‰M×Ñ×&Ñ&¨C°VÐ&Ñ<Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ð )r(   rM   N)rN   rO   rP   rQ   r   rT   Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesr	   ÚModulerS  rU   rM   r(   r&   r7  r7  +  s/   ‡ ð ÓØÐØ&*Ð#Ø,Ð-Ðð&) B§I¡I÷ &)r(   r7  c                   ó´   ^ • \ rS rSrSrS\4U 4S jjr     SS\\R                     S\\R                     S\\
   S\\
   S	\\
   S
\\\4   4S jjrSrU =r$ )ÚOwlv2Encoderi]  z›
Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a
[`Owlv2EncoderLayer`].

Args:
    config: Owlv2Config
r•   c                 óÈ   >• [         TU ]  5         [        R                  " [	        UR
                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l        g s  snf )NF)	r¡   r¢   r	   Ú
ModuleListÚrangerE  r&  ÚlayersÚgradient_checkpointing)rB   r•   rÖ   r´   s      €r&   r¢   ÚOwlv2Encoder.__init__f  sN   ø€ Ü‰ÑÔÜ—m’mÌÈf×NfÑNfÔHgÓ$hÑHgÀ1Ô%6°vÖ%>ÑHgÑ$hÓiˆŒØ&+ˆÕ#ùò %is   ·Ar  r  r  Úoutput_hidden_statesÚreturn_dictr   c                 ó²  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU(       a  SOSnU(       a  SOSnUn	U R                   H.  n
U(       a  Xy4-   nU
" U	UUUS9nUS   n	U(       d  M&  X‹S   4-   nM0     U(       a  Xy4-   nU(       d  [        S X—U4 5       5      $ [        X—US9$ )a÷  
Args:
    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`).
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:
        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.
        [What are attention masks?](../glossary#attention-mask)
    causal_attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Causal mask for the text model. Mask values selected in `[0, 1]`:
        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.
        [What are attention masks?](../glossary#attention-mask)
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
NrM   )r  r   r   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frW   rM   )r@   Úvs     r&   rC   Ú'Owlv2Encoder.forward.<locals>.<genexpr>§  s   é € ÐeÑ$S˜qŸ™Ò$Sùó   ‚‹	)Úlast_hidden_stater  Ú
attentions)r•   r  ra  Úuse_return_dictr^  rH   r   )rB   ræ   r  r  r  ra  rb  Úencoder_statesÚall_attentionsr  Úencoder_layerÚlayer_outputss               r&   rØ   ÚOwlv2Encoder.forwardk  sù   € ð> 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆæ3™¸ˆÞ0™°dˆà%ˆØ!Ÿ[œ[ˆMÞ#Ø!/Ð2BÑ!BÙ)ØØØ%Ø"3ñ	ˆMð *¨!Ñ,ˆMç Ð Ø!/ÀÑ3CÐ2EÑ!E’ñ )ö  Ø+Ð.>Ñ>ˆNæÜÑe ]ÀNÑ$SÓeÓeÐeÜØ+ÐVdñ
ð 	
r(   )r_  r^  ©NNNNN)rN   rO   rP   rQ   rR   r   r¢   r   r#   r   rÛ   r   rH   r   rØ   rU   rÜ   rÝ   s   @r&   rZ  rZ  ]  s“   ø† ñð,˜{÷ ,ð 26Ø8<Ø,0Ø/3Ø&*ñ?
ð ! §¡Ñ.ð?
ð  (¨¯©Ñ5ð	?
ð
 $ D™>ð?
ð ' t™nð?
ð ˜d‘^ð?
ð 
ˆuoÐ%Ñ	&÷?
ó ?
r(   rZ  c                   óÒ   ^ • \ rS rSrS\4U 4S jjr\     SS\R                  S\	\R                     S\	\R                     S\	\
   S\	\
   S	\	\
   S
\\\4   4S jj5       rSrU =r$ )ÚOwlv2TextTransformeri®  r•   c                 óÌ   >• [         TU ]  5         Xl        UR                  n[	        U5      U l        [        U5      U l        [        R                  " X!R                  S9U l        g r(  )r¡   r¢   r•   r¤   rß   r¶   rZ  Úencoderr	   r,  r-  Úfinal_layer_norm)rB   r•   r¥   r´   s      €r&   r¢   ÚOwlv2TextTransformer.__init__¯  sM   ø€ Ü‰ÑÔØŒØ×&Ñ&ˆ	Ü-¨fÓ5ˆŒÜ# FÓ+ˆŒÜ "§¢¨Y×<QÑ<QÑ RˆÕr(   rå   r  rœ   r  ra  rb  r   c           	      ó  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUR	                  5       nUR                  SUS   5      nU R                  XS9n[        XxR                  UR                  S9n	Ub  [        X(R                  5      nU R                  UUU	UUUS9n
U
S   nU R                  U5      nU[        R                  " UR                  S   UR                  S9UR!                  [        R"                  5      R%                  SS9R!                  UR                  5      4   nU(       d	  X¼4U
SS -   $ ['        UUU
R(                  U
R*                  S	9$ )
aT  
input_ids (`torch.LongTensor` of shape `(batch_size * num_max_text_queries, sequence_length)`):
    Indices of input sequence tokens in the vocabulary. Indices can be obtained using [`AutoTokenizer`]. See
    [`PreTrainedTokenizer.encode`] and [`PreTrainedTokenizer.__call__`] for details. [What are input
    IDs?](../glossary#input-ids)
Nrž   )rå   rœ   r   )ræ   r  r  r  ra  rb  r   r¾   r   ©rh  Úpooler_outputr  ri  )r•   r  ra  rj  r»   rÈ   r¶   r   rY   r    r   rt  ru  r#   r$   rÀ   r  r_   Úargmaxr   r  ri  )rB   rå   r  rœ   r  ra  rb  Úinput_shaper  r  Úencoder_outputsrh  Úpooled_outputs                r&   rØ   ÚOwlv2TextTransformer.forward·  sŸ  € ð  2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—n‘nÓ&ˆØ—N‘N 2 {°2¡Ó7ˆ	ØŸ™°)˜ÐWˆô
 !AØ×,Ñ,°]×5IÑ5Iñ!
Ðð Ñ%ä7¸×H[ÑH[Ó\ˆNàŸ,™,Ø'Ø)Ø"7Ø/Ø!5Ø#ð 'ð 
ˆð ,¨AÑ.ÐØ ×1Ñ1Ð2CÓDÐð *ÜLŠLÐ*×0Ñ0°Ñ3Ð<M×<TÑ<TÑUØL‰LœŸ™Ó#×*Ñ*¨rÐ*Ð2×5Ñ5Ð6G×6NÑ6NÓOðQñ
ˆö
 Ø%Ð5¸ÈÈÐ8KÑKÐKä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r(   )r•   r¶   rt  ru  rp  )rN   rO   rP   rQ   r   r¢   r   r#   r   r   rÛ   r   rH   r   rØ   rU   rÜ   rÝ   s   @r&   rr  rr  ®  s§   ø† ðS˜÷ Sð ð 26Ø/3Ø,0Ø/3Ø&*ñ?
à—<‘<ð?
ð ! §¡Ñ.ð?
ð ˜uŸ|™|Ñ,ð	?
ð
 $ D™>ð?
ð ' t™nð?
ð ˜d‘^ð?
ð 
ˆuÐ0Ð0Ñ	1ô?
ó ö?
r(   rr  c                   óæ   ^ • \ rS rSr% \\S'   S\4U 4S jjrS\R                  4S jr	S r
\    SS\R                  S\\R                     S	\\   S
\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚOwlv2TextModeliû  r•   c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g rW   )r¡   r¢   rr  Ú
text_modelÚ	post_initr³   s     €r&   r¢   ÚOwlv2TextModel.__init__þ  s&   ø€ Ü‰Ñ˜Ô Ü.¨vÓ6ˆŒà‰Õr(   r   c                 óB   • U R                   R                  R                  $ rW   ©r‚  r¶   râ   rJ   s    r&   Úget_input_embeddingsÚ#Owlv2TextModel.get_input_embeddings  s   € Ø‰×)Ñ)×9Ñ9Ð9r(   c                 ó8   • XR                   R                  l        g rW   r†  )rB   Úvalues     r&   Úset_input_embeddingsÚ#Owlv2TextModel.set_input_embeddings  s   € Ø5:‰×"Ñ"Õ2r(   rå   r  r  ra  rb  c                 ó(   • U R                  UUUUUS9$ )aW  
input_ids (`torch.LongTensor` of shape `(batch_size * num_max_text_queries, sequence_length)`):
    Indices of input sequence tokens in the vocabulary. Indices can be obtained using [`AutoTokenizer`]. See
    [`PreTrainedTokenizer.encode`] and [`PreTrainedTokenizer.__call__`] for details. [What are input
    IDs?](../glossary#input-ids)

Examples:
```python
>>> from transformers import AutoProcessor, Owlv2TextModel

>>> model = Owlv2TextModel.from_pretrained("google/owlv2-base-patch16")
>>> processor = AutoProcessor.from_pretrained("google/owlv2-base-patch16")
>>> inputs = processor(
...     text=[["a photo of a cat", "a photo of a dog"], ["photo of a astranaut"]], return_tensors="pt"
... )
>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled (EOS token) states
```©rå   r  r  ra  rb  ©r‚  )rB   rå   r  r  ra  rb  s         r&   rØ   ÚOwlv2TextModel.forward
  s)   € ð< ‰ØØ)Ø/Ø!5Ø#ð ð 
ð 	
r(   r  )NNNN)rN   rO   rP   rQ   r   rT   r¢   r	   rX  r‡  r‹  r   r#   r   r   rÛ   r   rH   r   rØ   rU   rÜ   rÝ   s   @r&   r€  r€  û  sª   ø‡ ØÓð˜÷ ð: b§i¡iô :ò;ð ð 26Ø,0Ø/3Ø&*ñ#
à—<‘<ð#
ð ! §¡Ñ.ð#
ð $ D™>ð	#
ð
 ' t™nð#
ð ˜d‘^ð#
ð 
ˆuÐ0Ð0Ñ	1ô#
ó ö#
r(   r€  c                   óž   ^ • \ rS rSrS\4U 4S jjr\    SS\R                  S\	\
   S\	\
   S\	\
   S\	\
   S	\\\4   4S
 jj5       rSrU =r$ )ÚOwlv2VisionTransformeri2  r•   c                 ó&  >• [         TU ]  5         Xl        [        U5      U l        [
        R                  " UR                  UR                  S9U l	        [        U5      U l        [
        R                  " UR                  UR                  S9U l        g r(  )r¡   r¢   r•   r”   r¶   r	   r,  r¤   r-  Úpre_layernormrZ  rt  Úpost_layernormr³   s     €r&   r¢   ÚOwlv2VisionTransformer.__init__3  si   ø€ Ü‰ÑÔØŒä/°Ó7ˆŒÜŸ\š\¨&×*<Ñ*<À&×BWÑBWÑXˆÔÜ# FÓ+ˆŒÜ Ÿlšl¨6×+=Ñ+=À6×CXÑCXÑYˆÕr(   rÑ   r  ra  rÏ   rb  r   c                 ó"  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R                  R
                  R                  R                  nUR                  U5      nU R	                  XS9nU R                  U5      nU R                  UUUUS9nUS   n	U	S S 2SS S 24   n
U R                  U
5      n
U(       d	  Xš4USS  -   $ [        U	U
UR                  UR                  S9$ )N)rÏ   )ræ   r  ra  rb  r   r   rx  )r•   r  ra  rj  r¶   r«   rÁ   rY   r  r”  rt  r•  r   r  ri  )rB   rÑ   r  ra  rÏ   rb  Úexpected_input_dtyper  r|  rh  r}  s              r&   rØ   ÚOwlv2VisionTransformer.forward<  s(  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð  $Ÿ™×>Ñ>×EÑE×KÑKÐØ#—‘Ð';Ó<ˆàŸ™¨˜ÐhˆØ×*Ñ*¨=Ó9ˆàŸ,™,Ø'Ø/Ø!5Ø#ð	 'ð 
ˆð ,¨AÑ.ÐØ)ª!¨Q²¨'Ñ2ˆà×+Ñ+¨MÓ:ˆæØ%Ð5¸ÈÈÐ8KÑKÐKä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r(   )r•   r¶   rt  r•  r”  )NNFN)rN   rO   rP   rQ   r   r¢   r   r#   rS   r   rÛ   r   rH   r   rØ   rU   rÜ   rÝ   s   @r&   r’  r’  2  s   ø† ðZÐ0÷ Zð ð -1Ø/3Ø38Ø&*ñ)
à×'Ñ'ð)
ð $ D™>ð)
ð ' t™nð	)
ð
 #+¨4¡.ð)
ð ˜d‘^ð)
ð 
ˆuÐ0Ð0Ñ	1ô)
ó ö)
r(   r’  c                   óÒ   ^ • \ rS rSr% \\S'   SrS\4U 4S jjrS\R                  4S jr
\     SS\\R                     S\\   S\\   S	\S
\\   S\\\4   4S jj5       rSrU =r$ )ÚOwlv2VisionModelij  r•   rÑ   c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g rW   )r¡   r¢   r’  Úvision_modelrƒ  r³   s     €r&   r¢   ÚOwlv2VisionModel.__init__n  s'   ø€ Ü‰Ñ˜Ô Ü2°6Ó:ˆÔà‰Õr(   r   c                 óB   • U R                   R                  R                  $ rW   )r  r¶   r«   rJ   s    r&   r‡  Ú%Owlv2VisionModel.get_input_embeddingst  s   € Ø× Ñ ×+Ñ+×;Ñ;Ð;r(   r  ra  rÏ   rb  c                 ó(   • U R                  UUUUUS9$ )ab  
Examples:
```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, Owlv2VisionModel

>>> model = Owlv2VisionModel.from_pretrained("google/owlv2-base-patch16")
>>> processor = AutoProcessor.from_pretrained("google/owlv2-base-patch16")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled CLS states
```©rÑ   r  ra  rÏ   rb  ©r  )rB   rÑ   r  ra  rÏ   rb  s         r&   rØ   ÚOwlv2VisionModel.forwardw  s+   € ð6 × Ñ Ø%Ø/Ø!5Ø%=Ø#ð !ð 
ð 	
r(   r£  ©NNNFN)rN   rO   rP   rQ   r   rT   Úmain_input_namer¢   r	   rX  r‡  r   r   r#   rS   rÛ   r   rH   r   rØ   rU   rÜ   rÝ   s   @r&   r›  r›  j  s¬   ø‡ ØÓØ$€OðÐ0÷ ð< b§i¡iô <ð ð 59Ø,0Ø/3Ø).Ø&*ñ 
à˜u×0Ñ0Ñ1ð 
ð $ D™>ð 
ð ' t™nð	 
ð
 #'ð 
ð ˜d‘^ð 
ð 
ˆuÐ0Ð0Ñ	1ô 
ó ö 
r(   r›  c                   ó  ^ • \ rS rSr% \\S'   S\4U 4S jjr\     SS\\	R                     S\\	R                     S\\   S\\   S\\   S	\	R                  4S
 jj5       r\     SS\\	R                     S\\   S\\   S\S\\   S	\	R                  4S jj5       r\         SS\\	R                     S\\	R                     S\\	R                     S\\   S\\   S\\   S\S\\   S\\   S	\\\4   4S jj5       rSrU =r$ )rF  i›  r•   c                 óL  >• [         TU ]  U5        [        UR                  [        5      (       d"  [        S[        UR                  5       S35      e[        UR                  [        5      (       d"  [        S[        UR                  5       S35      eUR                  nUR                  nUR                  U l	        UR                  U l        UR                  U l        [        U5      U l        [        U5      U l        ["        R$                  " U R                  U R                  SS9U l        ["        R$                  " U R                  U R                  SS9U l        ["        R*                  " [,        R.                  " UR0                  5      5      U l        U R5                  5         g )NzLconfig.text_config is expected to be of type Owlv2TextConfig but is of type Ú.zPconfig.vision_config is expected to be of type Owlv2VisionConfig but is of type F)r›   )r¡   r¢   r@  Útext_configr   Ú	TypeErrorÚtypeÚvision_configr   Úprojection_dimr¤   rH  rJ  rr  r‚  r’  r  r	   r÷   rI  rG  r¦   r#   rý   rM  rK  rƒ  )rB   r•   rª  r­  r´   s       €r&   r¢   ÚOwlv2Model.__init__   sX  ø€ Ü‰Ñ˜Ô ä˜&×,Ñ,¬o×>Ñ>ÜðÜ˜×+Ñ+Ó,Ð-¨Qð0óð ô
 ˜&×.Ñ.Ô0A×BÑBÜðÜ˜×-Ñ-Ó.Ð/¨qð2óð ð
 ×(Ñ(ˆØ×,Ñ,ˆà$×3Ñ3ˆÔØ)×5Ñ5ˆÔØ -× 9Ñ 9ˆÔä.¨{Ó;ˆŒÜ2°=ÓAˆÔä!#§¢¨4×+@Ñ+@À$×BUÑBUÐ\aÑ!bˆÔÜ!Ÿyšy¨×)<Ñ)<¸d×>QÑ>QÐX]Ñ^ˆÔÜŸ<š<¬¯ª°V×5RÑ5RÓ(SÓTˆÔð 	‰Õr(   rå   r  r  ra  rb  r   c                 óˆ   • Ub  UOU R                   R                  nU R                  XUS9nUS   nU R                  U5      nU$ )aÄ  
input_ids (`torch.LongTensor` of shape `(batch_size * num_max_text_queries, sequence_length)`):
    Indices of input sequence tokens in the vocabulary. Indices can be obtained using [`AutoTokenizer`]. See
    [`PreTrainedTokenizer.encode`] and [`PreTrainedTokenizer.__call__`] for details. [What are input
    IDs?](../glossary#input-ids)

Returns:
    text_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by
    applying the projection layer to the pooled output of [`Owlv2TextModel`].

Examples:
```python
>>> from transformers import AutoProcessor, Owlv2Model

>>> model = Owlv2Model.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> processor = AutoProcessor.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> inputs = processor(
...     text=[["a photo of a cat", "a photo of a dog"], ["photo of a astranaut"]], return_tensors="pt"
... )
>>> text_features = model.get_text_features(**inputs)
```)rå   r  rb  r   )r•   rj  r‚  rG  )	rB   rå   r  r  ra  rb  Útext_outputr}  Útext_featuress	            r&   Úget_text_featuresÚOwlv2Model.get_text_featuresÀ  sN   € ð> &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð —o‘o°	ÐfqoÐrˆØ# A™ˆØ×,Ñ,¨]Ó;ˆàÐr(   rÑ   rÏ   c                 óú   • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  UUUUUS9nUS   nU R                  U5      nU$ )a×  
Returns:
    image_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by
    applying the projection layer to the pooled output of [`Owlv2VisionModel`].

Examples:
```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, Owlv2Model

>>> model = Owlv2Model.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> processor = AutoProcessor.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(images=image, return_tensors="pt")
>>> image_features = model.get_image_features(**inputs)
```r¢  r   )r•   r  ra  rj  r  rI  )	rB   rÑ   r  ra  rÏ   rb  Úvision_outputsr}  Úimage_featuress	            r&   Úget_image_featuresÚOwlv2Model.get_image_featuresè  s˜   € ð8 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×*Ñ*Ø%Ø/Ø!5Ø%=Ø#ð +ð 
ˆð ' qÑ)ˆØ×/Ñ/°Ó>ˆàÐr(   Úreturn_lossÚreturn_base_image_embedsc
           
      ó"  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU	b  U	OU R                   R                  n	U R	                  UUUUU	S9n
U R                  UUUUU	S9nUS   nU R                  U5      nU
S   nU R                  U5      nU[        R                  R                  USSSS9-  nU[        R                  R                  USSSS9-  nU R                  R                  5       R                  UR                  5      n[        R                  " XíR!                  5       5      U-  nUR!                  5       nSnU(       a  [#        U5      nUnU	(       d  UUXÍXº4nUb  U4U-   $ U$ [%        UUUUUUU
S	9$ )
a¤  
return_loss (`bool`, *optional*):
    Whether or not to return the contrastive loss.
return_base_image_embeds (`bool`, *optional*):
    Whether or not to return the base image embeddings.

Examples:
```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, Owlv2Model

>>> model = Owlv2Model.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> processor = AutoProcessor.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(text=[["a photo of a cat", "a photo of a dog"]], images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities
```Nr¢  rŽ  r   rc   rž   T)Úordr¿   Úkeepdim)r2   r3   r4   r5   r6   r7   r8   )r•   r  ra  rj  r  r‚  rG  rI  r#   ÚlinalgÚnormrK  Úexpr  r    Úmatmulr+   r.   r0   )rB   rå   rÑ   r  rº  r  ra  rÏ   r»  rb  r¶  Útext_outputsr5   r6   Útext_embeds_normrK  r4   r3   r2   Úoutputs                       r&   rØ   ÚOwlv2Model.forward  sÎ  € ðF 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×*Ñ*Ø%Ø/Ø!5Ø%=Ø#ð +ð 
ˆð —‘ØØ)Ø/Ø!5Ø#ð 'ð 
ˆð # 1‘oˆØ×*Ñ*¨;Ó7ˆØ% aÑ(ˆØ×-Ñ-¨lÓ;ˆð $¤e§l¡l×&7Ñ&7¸È!ÐQSÐ]aÐ&7Ð&bÑbˆØ&¬¯©×):Ñ):¸;ÈAÐSUÐ_cÐ):Ð)dÑdÐð ×&Ñ&×*Ñ*Ó,×/Ñ/°×0CÑ0CÓDˆäŸ,š,Ð'7¿¹Ó9IÓJÈ[ÑXˆØ*×,Ñ,Ó.ÐàˆÞÜ˜oÓ.ˆDà&ˆæØ&¨¸ÐT`ÐqˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEäØØ-Ø+Ø#Ø%Ø*Ø .ñ
ð 	
r(   )rK  r®  rH  r‚  rG  rJ  r  rI  rp  r¥  )	NNNNNNFNN)rN   rO   rP   rQ   r   rT   r¢   r   r   r#   r   rÛ   rS   r³  r¸  rì   r   rH   r0   rØ   rU   rÜ   rÝ   s   @r&   rF  rF  ›  sõ  ø‡ ð Óð˜{÷ ð@ ð -1Ø15Ø,0Ø/3Ø&*ñ%à˜EŸL™LÑ)ð%ð ! §¡Ñ.ð%ð $ D™>ð	%ð
 ' t™nð%ð ˜d‘^ð%ð 
×	Ñ	ô%ó ð%ðN ð 59Ø,0Ø/3Ø).Ø&*ñ,à˜u×0Ñ0Ñ1ð,ð $ D™>ð,ð ' t™nð	,ð
 #'ð,ð ˜d‘^ð,ð 
×	Ñ	ô,ó ð,ð\ ð 15Ø48Ø15Ø&*Ø,0Ø/3Ø).Ø37Ø&*ñZ
à˜E×,Ñ,Ñ-ðZ
ð ˜u×0Ñ0Ñ1ðZ
ð ! §¡Ñ.ð	Z
ð
 ˜d‘^ðZ
ð $ D™>ðZ
ð ' t™nðZ
ð #'ðZ
ð #+¨4¡.ðZ
ð ˜d‘^ðZ
ð 
ˆukÐ!Ñ	"ôZ
ó öZ
r(   rF  c                   ór   ^ • \ rS rSrS	S\S\4U 4S jjjrS\R                  S\R                  4S jr
SrU =r$ )
ÚOwlv2BoxPredictionHeadiv  r•   Úout_dimc                 ó$  >• [         TU ]  5         UR                  R                  n[        R
                  " X35      U l        [        R
                  " X35      U l        [        R                  " 5       U l	        [        R
                  " X25      U l
        g rW   )r¡   r¢   r­  r¤   r	   r÷   Údense0Údense1ÚGELUÚgeluÚdense2)rB   r•   rÉ  r¸   r´   s       €r&   r¢   ÚOwlv2BoxPredictionHead.__init__w  s\   ø€ Ü‰ÑÔà×$Ñ$×0Ñ0ˆÜ—i’i Ó-ˆŒÜ—i’i Ó-ˆŒÜ—G’G“IˆŒ	Ü—i’i Ó/ˆr(   r·  r   c                 ó°   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ rW   )rË  rÎ  rÌ  rÏ  )rB   r·  rÅ  s      r&   rØ   ÚOwlv2BoxPredictionHead.forward€  sM   € Ø—‘˜^Ó,ˆØ—‘˜6Ó"ˆØ—‘˜VÓ$ˆØ—‘˜6Ó"ˆØ—‘˜VÓ$ˆØˆr(   )rË  rÌ  rÏ  rÎ  )é   )rN   rO   rP   rQ   r   r_   r¢   r#   r   rS   rØ   rU   rÜ   rÝ   s   @r&   rÈ  rÈ  v  s=   ø† ñ0˜{ð 0°S÷ 0ð 0ð e§l¡lð °u×7HÑ7H÷ ò r(   rÈ  c            	       ó¬   ^ • \ rS rSrS\4U 4S jjrS\R                  S\\R                     S\\R                     S\
\R                     4S jrS	rU =r$ )
ÚOwlv2ClassPredictionHeadiŠ  r•   c                 óœ  >• [         TU ]  5         UR                  R                  nUR                  R                  U l        [        R                  " U R
                  U5      U l        [        R                  " U R
                  S5      U l	        [        R                  " U R
                  S5      U l
        [        R                  " 5       U l        g )Nr   )r¡   r¢   rª  r¤   r­  Ú	query_dimr	   r÷   rË  Úlogit_shiftrK  ÚELUÚelu)rB   r•   rÉ  r´   s      €r&   r¢   Ú!Owlv2ClassPredictionHead.__init__‹  sƒ   ø€ Ü‰ÑÔà×$Ñ$×0Ñ0ˆØ×-Ñ-×9Ñ9ˆŒä—i’i §¡°Ó8ˆŒÜŸ9š9 T§^¡^°QÓ7ˆÔÜŸ9š9 T§^¡^°QÓ7ˆÔÜ—6’6“8ˆr(   r6   Úquery_embedsÚ
query_maskr   c                 ó"  • U R                  U5      nUcQ  UR                  nUR                  S S u  pg[        R                  " XgU R
                  45      R                  U5      nX„4$ U[        R                  R                  USSS9S-   -  nU[        R                  R                  USSS9S-   -  n[        R                  " SXB5      nU R                  U5      n	U R                  U5      n
U R                  U
5      S-   n
X‰-   U
-  nUb‡  UR                  S:”  a  [        R                  " USS	9n[        R                  " US
:H  [        R                   " UR"                  5      R$                  U5      nUR                  [        R&                  5      nX„4$ )Nrc   rž   T)r¿   r¾  gíµ ÷Æ°>z...pd,...qd->...pqr   rè   r¾   r   )rË  r    rÀ   r#   Úzerosr×  r  r¿  rÀ  ÚeinsumrØ  rK  rÚ  ÚndimrÂ   ÚwhereÚfinforY   rg   rZ   )rB   r6   rÜ  rÝ  Úimage_class_embedsr    rÕ   r­   Úpred_logitsrØ  rK  s              r&   rØ   Ú Owlv2ClassPredictionHead.forward–  sw  € ð "Ÿ[™[¨Ó6ÐØÑØ'×.Ñ.ˆFØ&8×&>Ñ&>¸rÀÐ&BÑ#ˆJÜŸ+š+ zÀÇÁÐ&OÓP×SÑSÐTZÓ[ˆKØÐ4Ð4ð 0´5·<±<×3DÑ3DÐEWÐ]_ÐimÐ3DÐ3nÐquÑ3uÑvÐØ#¤u§|¡|×'8Ñ'8¸È2ÐW[Ð'8Ð'\Ð_cÑ'cÑdˆô —l’lÐ#7Ð9KÓZˆð ×&Ñ& |Ó4ˆØ×&Ñ& |Ó4ˆØ—h‘h˜{Ó+¨aÑ/ˆØ"Ñ0°KÑ?ˆàÑ!Ø‰ Ó"Ü"Ÿ_š_¨Z¸RÑ@
äŸ+š+ j°A¡o´u·{²{À;×CTÑCTÓ7U×7YÑ7YÐ[fÓgˆKØ%Ÿ.™.¬¯©Ó7ˆKàÐ0Ð0r(   )rË  rÚ  rK  rØ  r×  )rN   rO   rP   rQ   r   r¢   r#   rS   r   r   rH   rØ   rU   rÜ   rÝ   s   @r&   rÕ  rÕ  Š  sd   ø† ð	˜{÷ 	ð!1à×'Ñ'ð!1ð ˜u×0Ñ0Ñ1ð!1ð ˜UŸ\™\Ñ*ð	!1ð
 
ˆu× Ñ Ñ	!÷!1ò !1r(   rÕ  c                   óN  ^ • \ rS rSr% \\S'   S\4U 4S jjr\S\S\S\	R                  4S j5       rS\	R                  S\	R                  4S	 jr\" S
S9 S#S\S\S\\	R                     S\	R                  4S jj5       r S$S\	R                  S\	R                  S\S\	R                  4S jjr  S%S\	R                  S\\	R                     S\\	R                     S\\	R                     4S jjr   S&S\	R                  S\	R                  S\	R                  S\\   S\\   S\S\\	R                     4S jjr   S&S\	R                  S\\   S\\   S\S\\	R                     4
S jjr S$S\	R                  S\	R                  S\S\	R                  4S jjr\     S'S\	R                  S\\	R                     S\\   S\\   S\S\\   S\4S  jj5       r\     S'S\	R                  S\	R                  S\\	R                     S\\   S\\   S\S\\   S\4S! jj5       rS"rU =r$ )(ÚOwlv2ForObjectDetectioniº  r•   c                 óô  >• [         TU ]  U5        [        U5      U l        [	        U5      U l        [        U5      U l        [        USS9U l        [        R                  " UR                  R                  UR                  R                  S9U l        [        R                  " 5       U l        Xl        U R"                  R                  R$                  U R"                  R                  R&                  -  U l        U R"                  R                  R$                  U R"                  R                  R&                  -  U l        U R-                  U R(                  U R*                  5      U l        U R1                  5         g )Nr   )rÉ  r)  )r¡   r¢   rF  r8  rÕ  Ú
class_headrÈ  Úbox_headÚobjectness_headr	   r,  r­  r¤   r-  Ú
layer_normÚSigmoidÚsigmoidr•   r¬   r£   Únum_patches_heightÚnum_patches_widthÚcompute_box_biasÚbox_biasrƒ  r³   s     €r&   r¢   Ú Owlv2ForObjectDetection.__init__½  s  ø€ Ü‰Ñ˜Ô ä Ó'ˆŒ
Ü2°6Ó:ˆŒÜ.¨vÓ6ˆŒÜ5°fÀaÑHˆÔäŸ,š, v×';Ñ';×'GÑ'GÈV×MaÑMa×MpÑMpÑqˆŒÜ—z’z“|ˆŒØŒØ"&§+¡+×";Ñ";×"FÑ"FÈ$Ï+É+×JcÑJc×JnÑJnÑ"nˆÔØ!%§¡×!:Ñ!:×!EÑ!EÈÏÉ×IbÑIb×ImÑImÑ!mˆÔØ×-Ñ-¨d×.EÑ.EÀt×G]ÑG]Ó^ˆŒð 	‰Õr(   rð  rñ  r   c                 óT  • [         R                  " SUS-   [         R                  S9n[         R                  " SU S-   [         R                  S9n[         R                  " X#SS9u  pE[         R                  " XE4SS9nUS==   U-  ss'   US==   U -  ss'   UR                  SS	5      nU$ )
Nr   )rY   Úxy)Úindexingrž   r¾   ©.r   ©.r   rc   )r#   r$   rZ   ÚmeshgridÚstackrÈ   )rð  rñ  Úx_coordinatesÚy_coordinatesÚxxÚyyÚbox_coordinatess          r&   Ú!normalize_grid_corner_coordinatesÚ9Owlv2ForObjectDetection.normalize_grid_corner_coordinatesÏ  sž   € ô Ÿš QÐ(9¸AÑ(=ÄUÇ]Á]ÑSˆÜŸš QÐ(:¸QÑ(>ÄeÇmÁmÑTˆÜ—’ ÀtÑL‰ˆô  Ÿ+š+ r h°BÑ7ˆØ˜ÓÐ#4Ñ4ÓØ˜ÓÐ#5Ñ5Óð *×.Ñ.¨r°1Ó5ˆàÐr(   r·  c                 óR   • UR                  5       nU R                  U5      nUS   nU$ )zóPredicts the probability that each image feature token is an object.

Args:
    image_features (`torch.FloatTensor` of shape `(batch_size, num_patches, hidden_dim)`)):
        Features extracted from the image.
Returns:
    Objectness scores.
rø  )Údetachrì  )rB   r·  r   s      r&   Úobjectness_predictorÚ,Owlv2ForObjectDetection.objectness_predictorá  s4   € ð (×.Ñ.Ó0ˆØ ×0Ñ0°Ó@ÐØ-¨fÑ5ÐØ Ð r(   rc   )ÚmaxsizeÚfeature_mapc                 óÒ  • Ub  [        S5      eU R                  X5      n[        R                  " USS5      n[        R                  " US-   5      [        R
                  " U* S-   5      -
  n[        R                  " US5      nUS==   U-  ss'   US==   U-  ss'   [        R                  " US-   5      [        R
                  " U* S-   5      -
  n[        R                  " XW/SS9nU$ )	NzOfeature_map has been deprecated as an input. Please pass in num_patches insteadr;  r>  g-Cëâ6?rø  rù  rž   r¾   )rw   r  r#   ÚclipÚlogÚlog1pÚ	full_likerÉ   )	rB   rð  rñ  r  r   Úbox_coord_biasÚbox_sizeÚbox_size_biasró  s	            r&   rò  Ú(Owlv2ForObjectDetection.compute_box_biasï  sÚ   € ð
 Ñ"ÜÐnÓoÐoà×@Ñ@ÐASÓgˆÜŸ*š* _°c¸3Ó?ˆô Ÿš ?°TÑ#9Ó:¼U¿[º[È/ÐIYÐ\`ÑI`Ó=aÑaˆô —?’? >°3Ó7ˆØÓÐ-Ñ-ÓØÓÐ.Ñ.ÓÜŸ	š	 (¨T¡/Ó2´U·[²[À(ÀÈTÑAQÓ5RÑRˆô —9’9˜nÐ<À"ÑEˆØˆr(   Úimage_featsrÏ   c                 óð   • U R                  U5      nU(       a!  UR                  u  pVpuU R                  Xg5      nOU R                  nUR	                  UR
                  5      nXH-  nU R                  U5      nU$ )a»  
Args:
    image_feats:
        Features extracted from the image, returned by the `image_text_embedder` method.
    feature_map:
        A spatial re-arrangement of image_features, also returned by the `image_text_embedder` method.
    interpolate_pos_encoding:
        Whether to interpolate the pre-trained position encodings.
Returns:
    pred_boxes:
        List of predicted boxes (cxcywh normalized to 0, 1) nested within a dictionary.
)rë  rÀ   rò  ró  r  r    rï  )	rB   r  r  rÏ   r‚   rÖ   rð  rñ  ró  s	            r&   Úbox_predictorÚ%Owlv2ForObjectDetection.box_predictor  sr   € ð& —]‘] ;Ó/ˆ
ö $Ø:E×:KÑ:KÑ7ˆAÐ#4Ø×,Ñ,Ð-?ÓS‰Hà—}‘}ˆHà—;‘;˜{×1Ñ1Ó2ˆØÑˆ
Ø—\‘\ *Ó-ˆ
ØÐr(   rÜ  rÝ  c                 ó0   • U R                  XU5      u  pEXE4$ )zø
Args:
    image_feats:
        Features extracted from the `image_text_embedder`.
    query_embeds:
        Text query embeddings.
    query_mask:
        Must be provided with query_embeddings. A mask indicating which query embeddings are valid.
)rê  )rB   r  rÜ  rÝ  rå  rä  s         r&   Úclass_predictorÚ'Owlv2ForObjectDetection.class_predictor*  s!   € ð -1¯O©O¸KÐWaÓ,bÑ)ˆàÐ0Ð0r(   rå   rÑ   r  r  ra  c           
      ó   • U R                  UUUUUUSS9nU(       aU  UR                  u    p‰n
XR                  R                  R                  -  nX R                  R                  R                  -  nOU R
                  nU R                  nUR                  S   nU R                   R                  R                  U5      n[        R                  " US S 2S S2S S 24   US S 2S S24   R                  5      nUS S 2SS 2S S 24   U-  nU R                  U5      nUR                  S   UUUR                  S   4nUR                  U5      nUS   nUXç4$ )NT)rÑ   rå   r  r  ra  rÏ   rb  r   r   rž   éüÿÿÿ)r8  rÀ   r•   r­  r£   rð  rñ  r8   r  r•  r#   Úbroadcast_torí  rÅ   )rB   rå   rÑ   r  r  ra  rÏ   r4  rÖ   r·   r¸   rð  rñ  rh  r6   Úclass_token_outÚnew_sizer5   s                     r&   Úimage_text_embedderÚ+Owlv2ForObjectDetection.image_text_embedder>  sn  € ð —*‘*Ø%ØØ)Ø/Ø!5Ø%=Øð ð 
ˆö $Ø".×"4Ñ"4ÑˆAˆq˜%Ø!'¯;©;×+DÑ+D×+OÑ+OÑ!OÐØ %¯©×)BÑ)B×)MÑ)MÑ MÑà!%×!8Ñ!8ÐØ $× 6Ñ 6Ðð $×7Ñ7¸Ñ:ÐØ—z‘z×.Ñ.×=Ñ=Ð>OÓPˆô  ×,Ò,¨\º!¸R¸a¸RÂ¸(Ñ-CÀ\ÒRSÐUXÐVXÐUXÐRXÑEY×E_ÑE_Ó`ˆð $¢A q¡rª1 HÑ-°Ñ?ˆØ—‘ |Ó4ˆð ×Ñ˜qÑ!ØØØ×Ñ˜rÑ"ð	
ˆð $×+Ñ+¨HÓ5ˆØ˜b‘kˆà˜\Ð3Ð3r(   c                 óŠ  • U R                   R                  XSS9nU(       aU  UR                  u    pgnXpR                  R                  R
                  -  n	X€R                  R                  R
                  -  n
OU R                  n	U R                  n
US   nU R                   R                  R                  U5      n[        R                  " US S 2S S2S S 24   US S 2S S24   R                  5      nUS S 2SS 2S S 24   U-  nU R                  U5      nUR                  S   U	U
UR                  S   4nUR                  U5      nXÅ4$ )NT)rÑ   rÏ   rb  r   r   rž   )r8  r  rÀ   r•   r­  r£   rð  rñ  r•  r#   r  rí  rÅ   )rB   rÑ   r  ra  rÏ   r¶  rÖ   r·   r¸   rð  rñ  rh  r6   r  r  s                  r&   Úimage_embedderÚ&Owlv2ForObjectDetection.image_embedderr  sT  € ð Ÿ™×0Ñ0Ø%Ðfjð 1ð 
ˆö $Ø".×"4Ñ"4ÑˆAˆq˜%Ø!'¯;©;×+DÑ+D×+OÑ+OÑ!OÐØ %¯©×)BÑ)B×)MÑ)MÑ MÑà!%×!8Ñ!8ÐØ $× 6Ñ 6Ðð +¨1Ñ-ÐØ—z‘z×.Ñ.×=Ñ=Ð>OÓPˆô  ×,Ò,¨\º!¸R¸a¸RÂ¸(Ñ-CÀ\ÒRSÐUXÐVXÐUXÐRXÑEY×E_ÑE_Ó`ˆð $¢A q¡rª1 HÑ-°Ñ?ˆØ—‘ |Ó4ˆð ×Ñ˜qÑ!ØØØ×Ñ˜rÑ"ð	
ˆð $×+Ñ+¨HÓ5ˆàÐ-Ð-r(   Úquery_image_featuresÚquery_feature_mapc                 ó€  • U R                  U5      u  pEU R                  XU5      n[        U5      n/ n/ n	UR                  n
[	        UR
                  S   5       GH$  n[        R                  " / SQ/U
S9nX{   n[        XÍ5      u  pä[        R                  " US   S:H  5      (       a  [        XÍ5      n[        R                  " U5      S-  nUS   U:¬  R                  5       nUR                  5       (       d  MŸ  X[   UR                  S5         n[        R                  " X[   SS9n[        R                   " SUU5      nU[        R"                  " U5         nUR%                  X[   U   5        U	R%                  U5        GM'     U(       a-  [        R&                  " U5      n[        R&                  " U	5      nOS	u  nnUUU4$ )
Nr   )r   r   r   r   r   r;  gš™™™™™é?r   )Úaxiszd,id->i©NN)r  r  r   r    r]  rÀ   r#   rý   rt   rv   r{   rh   ÚnonzeroÚnumelÚsqueezer<  rà  ÚargminÚappendrû  )rB   r#  r$  rÏ   rÖ   rƒ   r‚   Úpred_boxes_as_cornersÚbest_class_embedsÚbest_box_indicesÚpred_boxes_deviceÚiÚeach_query_boxÚeach_query_pred_boxesÚiousÚiou_thresholdÚselected_indsÚselected_embeddingsÚmean_embedsÚmean_simÚbest_box_indrÜ  Úbox_indicess                          r&   Úembed_image_queryÚ)Owlv2ForObjectDetection.embed_image_query  s  € ð ×.Ñ.Ð/CÓD‰ˆØ×'Ñ'Ð(<ÐQiÓjˆ
Ü 8¸Ó DÐð ÐØÐØ1×8Ñ8ÐäÐ+×1Ñ1°!Ñ4×5ˆAÜ"Ÿ\š\ª<¨.ÐARÑSˆNØ$9Ñ$<Ð!Ü˜nÓD‰GˆDô yŠy˜˜a™ C™×(Ñ(Ü*¨>ÓQô "ŸIšI d›O¨cÑ1ˆMà! !™W¨Ñ5×>Ñ>Ó@ˆMØ×"Ñ"×$Ó$Ø&2¡o°m×6KÑ6KÈAÓ6NÑ&OÐ#Ü#Ÿjšj¨©¸qÑAÜ Ÿ<š<¨	°;Ð@SÓTØ,¬U¯\ª\¸(Ó-CÑDØ!×(Ñ(¨©¸Ñ)FÔGØ ×'Ñ'¨×5ñ' 6ö* Ü Ÿ;š;Ð'8Ó9ˆLÜŸ+š+Ð&6Ó7‰Kà(2Ñ%ˆL˜+à˜[¨*Ð4Ð4r(   Úquery_pixel_valuesrb  c                 ó’  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  X%S9S   nU R	                  UUUUS9u  p‰UR
                  u  p«pÍ[        R                  " XŠX¼-  U45      nUR
                  u  p«pÍ[        R                  " XzX¼-  U45      nU R                  X÷U5      u  nnnU R                  UUS9u  nnU R                  XèU5      nU(       d+  UUUUUUU	R                  5       4n[        S U 5       5      nU$ [        UUUUUUSU	S9$ )aÂ
  
query_pixel_values (`torch.FloatTensor` of shape `(batch_size, num_channels, height, width)`):
    Pixel values of query image(s) to be detected. Pass in one query image per target image.

Examples:
```python
>>> import requests
>>> from PIL import Image
>>> import torch
>>> from transformers import AutoProcessor, Owlv2ForObjectDetection

>>> processor = AutoProcessor.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-ensemble")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> query_url = "http://images.cocodataset.org/val2017/000000001675.jpg"
>>> query_image = Image.open(requests.get(query_url, stream=True).raw)
>>> inputs = processor(images=image, query_images=query_image, return_tensors="pt")

>>> # forward pass
>>> with torch.no_grad():
...     outputs = model.image_guided_detection(**inputs)

>>> target_sizes = torch.Tensor([image.size[::-1]])

>>> # Convert outputs (bounding boxes and class logits) to Pascal VOC format (xmin, ymin, xmax, ymax)
>>> results = processor.post_process_image_guided_detection(
...     outputs=outputs, threshold=0.9, nms_threshold=0.3, target_sizes=target_sizes
... )
>>> i = 0  # Retrieve predictions for the first image
>>> boxes, scores = results[i]["boxes"], results[i]["scores"]
>>> for box, score in zip(boxes, scores):
...     box = [round(i, 2) for i in box.tolist()]
...     print(f"Detected similar object with confidence {round(score.item(), 3)} at location {box}")
Detected similar object with confidence 0.938 at location [327.31, 54.94, 547.39, 268.06]
Detected similar object with confidence 0.959 at location [5.78, 360.65, 619.12, 366.39]
Detected similar object with confidence 0.902 at location [2.85, 360.01, 627.63, 380.8]
Detected similar object with confidence 0.985 at location [176.98, -29.45, 672.69, 182.83]
Detected similar object with confidence 1.0 at location [6.53, 14.35, 624.87, 470.82]
Detected similar object with confidence 0.998 at location [579.98, 29.14, 615.49, 489.05]
Detected similar object with confidence 0.985 at location [206.15, 10.53, 247.74, 466.01]
Detected similar object with confidence 0.947 at location [18.62, 429.72, 646.5, 457.72]
Detected similar object with confidence 0.996 at location [523.88, 20.69, 586.84, 483.18]
Detected similar object with confidence 0.998 at location [3.39, 360.59, 617.29, 499.21]
Detected similar object with confidence 0.969 at location [4.47, 449.05, 614.5, 474.76]
Detected similar object with confidence 0.966 at location [31.44, 463.65, 654.66, 471.07]
Detected similar object with confidence 0.924 at location [30.93, 468.07, 635.35, 475.39]
```N)rÑ   rÏ   r   )rÑ   r  ra  rÏ   )r  rÜ  c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frW   rM   ©r@   Úxs     r&   rC   ÚAOwlv2ForObjectDetection.image_guided_detection.<locals>.<genexpr>1  ó   é € Ð>¡f Ÿ1™1¢fùrg  )r6   rŒ   r   rŽ   r   rƒ   r7   r8   )r•   r  ra  rb  r!  rÀ   r#   rÅ   r<  r  r  r>   rH   rŠ   )rB   rÑ   r>  r  ra  rÏ   rb  r$  r  r¶  rÕ   rð  rñ  Ú
hidden_dimr  Úquery_image_featsrÜ  r/  rŽ   rå  rƒ   r   rÅ  s                          r&   Úimage_guided_detectionÚ.Owlv2ForObjectDetection.image_guided_detectionÉ  s³  € ðv 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆð !×/Ñ/Ø+ð 0ð 
à
ñÐð '+×&9Ñ&9Ø%Ø/Ø!5Ø%=ð	 ':ð '
Ñ#ˆð IT×HYÑHYÑEˆ
Ð(9Ü—m’m KÐ>PÑ>dÐfpÐ1qÓrˆàHY×H_ÑH_ÑEˆ
Ð(9Ü!ŸMšMØÐ,>Ñ,RÐT^Ð_ó
Ðð <@×;QÑ;QØÐ2Jó<
Ñ8ˆÐ&Ð(8ð
 '+×&:Ñ&:À{ÐamÐ&:Ð&nÑ#ˆlð !×.Ñ.¨{ÐIaÓbÐæàØ!Ø!Ø ØØØ×'Ñ'Ó)ðˆFô Ñ>¡fÓ>Ó>ˆFØˆMä4Ø$Ø0Ø/Ø-ØØ%Ø"Ø .ñ	
ð 		
r(   c                 ó   • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  UUUUUUS9u  p‰n
U
R
                  nU
R                  nU	R                  u  pÞnn[        R                  " XXï-  U45      nUR                  S   U-  nUR                  UUUR                  S   5      nUR                  UUUR                  S   5      nUS   S:„  nU R                  UUU5      u  nnU R                  U5      nU R                  UX–5      nU(       d:  UUUUU	UUR                  5       UR                  5       4n[        S U 5       5      nU$ [        U	UUUUUUUS9$ )a”  
input_ids (`torch.LongTensor` of shape `(batch_size * num_max_text_queries, sequence_length)`, *optional*):
    Indices of input sequence tokens in the vocabulary. Indices can be obtained using [`AutoTokenizer`]. See
    [`PreTrainedTokenizer.encode`] and [`PreTrainedTokenizer.__call__`] for details. [What are input
    IDs?](../glossary#input-ids).
output_hidden_states (`bool`, *optional*):
    Whether or not to return the last hidden state. See `text_model_last_hidden_state` and
    `vision_model_last_hidden_state` under returned tensors for more detail.

Examples:
```python
>>> import requests
>>> from PIL import Image
>>> import torch

>>> from transformers import Owlv2Processor, Owlv2ForObjectDetection

>>> processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-ensemble")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text_labels = [["a photo of a cat", "a photo of a dog"]]
>>> inputs = processor(text=text_labels, images=image, return_tensors="pt")
>>> outputs = model(**inputs)

>>> # Target image sizes (height, width) to rescale box predictions [batch_size, 2]
>>> target_sizes = torch.tensor([(image.height, image.width)])
>>> # Convert outputs (bounding boxes and class logits) to Pascal VOC format (xmin, ymin, xmax, ymax)
>>> results = processor.post_process_grounded_object_detection(
...     outputs=outputs, target_sizes=target_sizes, threshold=0.1, text_labels=text_labels
... )
>>> # Retrieve predictions for the first image for the corresponding text queries
>>> result = results[0]
>>> boxes, scores, text_labels = result["boxes"], result["scores"], result["text_labels"]
>>> for box, score, text_label in zip(boxes, scores, text_labels):
...     box = [round(i, 2) for i in box.tolist()]
...     print(f"Detected {text_label} with confidence {round(score.item(), 3)} at location {box}")
Detected a photo of a cat with confidence 0.614 at location [341.67, 23.39, 642.32, 371.35]
Detected a photo of a cat with confidence 0.665 at location [6.75, 51.96, 326.62, 473.13]
```)rå   rÑ   r  r  ra  rÏ   r   rž   rø  c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frW   rM   rA  s     r&   rC   Ú2Owlv2ForObjectDetection.forward.<locals>.<genexpr>¦  rD  rg  )r6   r5   r‚   r   r   rƒ   r7   r8   )r•   r  ra  rb  r  r7   r8   rÀ   r#   rÅ   r  r  r  r>   rH   r~   )rB   rå   rÑ   r  r  ra  rÏ   rb  rÜ  r  r4  rÃ  r¶  rÕ   rð  rñ  rE  r  Úmax_text_queriesrÝ  rå  rƒ   r   r‚   rÅ  s                            r&   rØ   ÚOwlv2ForObjectDetection.forward?  sá  € ðh 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆð .2×-EÑ-EØØ%Ø)Ø/Ø!5Ø%=ð .Fð .
Ñ*ˆ 7ð ×0Ñ0ˆØ ×4Ñ4ˆàHS×HYÑHYÑEˆ
Ð(9¸:Ü—m’m KÐ>PÑ>dÐfpÐ1qÓrˆð %Ÿ?™?¨1Ñ-°Ñ;ÐØ#×+Ñ+¨JÐ8HÈ,×J\ÑJ\Ð]_ÑJ`Óaˆð ×%Ñ% jÐ2BÀIÇOÁOÐTVÑDWÓXˆ	Ø˜vÑ&¨Ñ*ˆ
ð '+×&:Ñ&:¸;ÈÐV`Ó&aÑ#ˆlð !×5Ñ5°kÓBÐð ×'Ñ'¨°[Ó[ˆ
æàØ!ØØØØØ×%Ñ%Ó'Ø×'Ñ'Ó)ð	ˆFô Ñ>¡fÓ>Ó>ˆFØˆMä)Ø$Ø$Ø!ØØ/Ø%Ø*Ø .ñ	
ð 		
r(   )
ró  rë  rê  r•   rí  rð  rñ  rì  r8  rï  rW   rÚ   r'  r  r¥  )rN   rO   rP   rQ   r   rT   r¢   Ústaticmethodr_   r#   r   r  rS   r  r   r   rò  rÛ   r  rH   r  r  r!  r<  r   rŠ   rG  r~   rØ   rU   rÜ   rÝ   s   @r&   rè  rè  º  s  ø‡ ØÓð˜{÷ ð$ ð¸cð ÐVYð Ð^c×^jÑ^jó ó ðð !°5×3DÑ3Dð !È×IZÑIZô !ñ qÑð koñØ"%ðØ:=ðØLTÐUZ×UfÑUfÑLgðà	‰ôó ðð6 */ñ	à×&Ñ&ðð ×&Ñ&ðð #'ð	ð
 
×	Ñ	õðJ 59Ø-1ñ	1à×&Ñ&ð1ð ˜u×0Ñ0Ñ1ð1ð ˜UŸ\™\Ñ*ð	1ð
 
ˆu× Ñ Ñ	!õ1ð2 -1Ø/3Ø).ñ14à—<‘<ð14ð ×'Ñ'ð14ð Ÿ™ð	14ð
 $ D™>ð14ð ' t™nð14ð #'ð14ð 
ˆu× Ñ Ñ	!õ14ðn -1Ø/3Ø).ñ(.à×'Ñ'ð(.ð $ D™>ð(.ð ' t™nð	(.ð
 #'ð(.ð 
ˆu× Ñ Ñ	!õ(.ð^ */ñ	*5à#×/Ñ/ð*5ð !×,Ñ,ð*5ð #'ð	*5ð
 
×	Ñ	õ*5ðX ð ;?Ø,0Ø/3Ø).Ø&*ñs
à×'Ñ'ðs
ð % U×%6Ñ%6Ñ7ðs
ð $ D™>ð	s
ð
 ' t™nðs
ð #'ðs
ð ˜d‘^ðs
ð 
/ôs
ó ðs
ðj ð
 26Ø,0Ø/3Ø).Ø&*ñr
à—<‘<ðr
ð ×'Ñ'ðr
ð ! §¡Ñ.ð	r
ð
 $ D™>ðr
ð ' t™nðr
ð #'ðr
ð ˜d‘^ðr
ð 
$ôr
ó ör
r(   rè  )rF  r7  r€  r›  rè  )BrR   Údataclassesr   Ú	functoolsr   Útypingr   r   r   r#   Útorch.utils.checkpointr   r	   Úactivationsr   Úmodeling_attn_mask_utilsr   r   Úmodeling_layersr   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   r   r   r   Úconfiguration_owlv2r   r   r   Útransformers.image_transformsr   Ú
get_loggerrN   Úloggerr'   r.   r0   r`   rd   rt   r{   r~   rŠ   rX  r”   rß   rî   r  r&  r7  rZ  rr  r€  r’  r›  rF  rÈ  rÕ  rè  Ú__all__rM   r(   r&   Ú<module>r^     sf  ðñ å !Ý ß 'Ñ 'ã Û ß å !ß dÝ 9ß KÝ -ß YÕ Yß PÑ Pñ ×ÑÝFð 
×	Ò	˜HÓ	%€ð`˜UŸ\™\ð `¨e¯l©lô `ð
-˜5Ÿ<™<ð -¨E¯L©Lô -ð Øô!
+ó !
ó ó ð!
ðJGˆvð G˜&ô GðEFð E˜vô Eò"ò"'ð0 Ùðñô
/
 ó /
óó ð/
ðd Ùðñô*
¨Kó *
óó ð*
ô\J˜BŸI™Iô Jô\˜"Ÿ)™)ô ô@h2R—Y‘Yô h2ôXˆry‰yô ô /Ð2ô /ðd ô,)˜?ó ,)ó ð,)ô`M
2—9‘9ô M
ôbI
˜2Ÿ9™9ô I
ôZ3
Ð)ô 3
ôn4
˜RŸY™Yô 4
ôp.
Ð+ô .
ðb ôU
Ð%ó U
ó ðU
ôr˜RŸY™Yô ô(-1˜rŸy™yô -1ô`x
Ð2ô x
òv rr(   