ó
    <±h‘ð  ã                   ó  • S r SSKrSSKJr  SSKJrJrJrJr  SSK	r	SSK
Jr  SSKr	SSKJr  SSKJr  SSKJrJrJrJr  SS	KJrJr  SS
KJrJrJr  SSKJrJrJ r J!r!J"r"  SSK#J$r$J%r%J&r&  \!RN                  " \(5      r)S\	RT                  S\	RT                  4S jr+S\	RT                  S\	RT                  4S jr,\\ " S S\5      5       5       r- " S S\R\                  5      r/ " S S\R\                  5      r0 " S S\R\                  5      r1S\00r2 " S S\R\                  5      r3 " S S\R\                  5      r4 " S  S!\R\                  5      r5 " S" S#\5      r6 " S$ S%\R\                  5      r7 " S& S'\R\                  5      r8 SJS(\R\                  S)\	RT                  S*\	RT                  S+\	RT                  S,\\	RT                     S-\9S.\94S/ jjr: " S0 S1\R\                  5      r; " S2 S3\R\                  5      r< " S4 S5\5      r= " S6 S7\R\                  5      r> " S8 S9\R\                  5      r?\ " S: S;\5      5       r@ " S< S=\R\                  5      rA " S> S?\@5      rB\" S@SA9 " SB SC\@5      5       rC " SD SE\@5      rD " SF SG\@5      rESKSH jrF/ SIQrGg)LzPyTorch AltCLIP model.é    N)Ú	dataclass)ÚAnyÚCallableÚOptionalÚUnioné   )ÚACT2FN)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPoolingÚ,BaseModelOutputWithPoolingAndCrossAttentionsÚ'BaseModelOutputWithPoolingAndProjection)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)Úapply_chunking_to_forwardÚ find_pruneable_heads_and_indicesÚprune_linear_layer)ÚModelOutputÚauto_docstringÚcan_return_tupleÚloggingÚ	torch_inté   )ÚAltCLIPConfigÚAltCLIPTextConfigÚAltCLIPVisionConfigÚlogitsÚreturnc                 óŽ   • [         R                  R                  U [        R                  " [        U 5      U R                  S95      $ )N©Údevice)ÚnnÚ
functionalÚcross_entropyÚtorchÚarangeÚlenr!   )r   s    Úd/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/altclip/modeling_altclip.pyÚcontrastive_lossr)   ,   s/   € Ü=‰=×&Ñ& v¬u¯|ª|¼CÀ»KÐPV×P]ÑP]Ñ/^Ó_Ð_ó    Ú
similarityc                 óX   • [        U 5      n[        U R                  5       5      nX-   S-  $ )Ng       @)r)   Út)r+   Úcaption_lossÚ
image_losss      r(   Ú	clip_lossr0   0   s*   € Ü# JÓ/€LÜ! *§,¡,£.Ó1€JØÑ%¨Ñ,Ð,r*   c                   ó  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\R                     \	S'   Sr\\	S	'   Sr\\	S
'   S\\   4S jrSrg)ÚAltCLIPOutputé6   aq  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `return_loss` is `True`):
    Contrastive loss for image-text similarity.
logits_per_image (`torch.FloatTensor` of shape `(image_batch_size, text_batch_size)`):
    The scaled dot product scores between `image_embeds` and `text_embeds`. This represents the image-text
    similarity scores.
logits_per_text (`torch.FloatTensor` of shape `(text_batch_size, image_batch_size)`):
    The scaled dot product scores between `text_embeds` and `image_embeds`. This represents the text-image
    similarity scores.
text_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`):
    The text embeddings obtained by applying the projection layer to the pooled output of [`AltCLIPTextModel`].
image_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`):
    The image embeddings obtained by applying the projection layer to the pooled output of [`AltCLIPVisionModel`].
text_model_output (`BaseModelOutputWithPooling`):
    The output of the [`AltCLIPTextModel`].
vision_model_output (`BaseModelOutputWithPooling`):
    The output of the [`AltCLIPVisionModel`].
NÚlossÚlogits_per_imageÚlogits_per_textÚtext_embedsÚimage_embedsÚtext_model_outputÚvision_model_outputr   c                 óJ   ^ • [        U 4S jT R                  5        5       5      $ )Nc              3   ól   >#   • U H*  nUS ;  a  TU   O[        TU5      R                  5       v •  M,     g7f))r9   r:   N)ÚgetattrÚto_tuple)Ú.0ÚkÚselfs     €r(   Ú	<genexpr>Ú)AltCLIPOutput.to_tuple.<locals>.<genexpr>V   s<   øé € ð 
á ð Ð LÓLˆDŠGÔRYÐZ^Ð`aÓRb×RkÑRkÓRmÔmÚ ùs   ƒ14)ÚtupleÚkeys©rA   s   `r(   r>   ÚAltCLIPOutput.to_tupleU   s#   ø€ Üô 
à—Y‘Y”[ó
ó 
ð 	
r*   © )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r4   r   r%   ÚFloatTensorÚ__annotations__r5   r6   r7   r8   r9   r   r:   rD   r   r>   Ú__static_attributes__rH   r*   r(   r2   r2   6   s›   ‡ ñð& )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø37€OX˜e×/Ñ/Ñ0Ó7Ø/3€K˜%×+Ñ+Ñ,Ó3Ø04€L(˜5×,Ñ,Ñ-Ó4Ø48ÐÐ1Ó8Ø6:ÐÐ3Ó:ð
˜% ™*÷ 
r*   r2   c                   ó>   ^ • \ rS rSrSrU 4S jr SS jrS rSrU =r	$ )ÚAltRobertaEmbeddingsé]   zN
Same as BertEmbeddings with a tiny tweak for positional embeddings indexing.
c                 óÂ  >• [         TU ]  5         [        R                  " UR                  UR
                  UR                  S9U l        [        R                  " UR                  UR
                  5      U l	        [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                  5      U l        [#        USS5      U l        U R'                  S[(        R*                  " UR                  5      R-                  S5      SS9  U R'                  S	[(        R.                  " U R0                  R3                  5       [(        R4                  S
9SS9  UR                  U l        [        R                  " UR                  UR
                  U R6                  S9U l	        g )N)Úpadding_idx©ÚepsÚposition_embedding_typeÚabsoluteÚposition_ids©r   éÿÿÿÿF©Ú
persistentÚtoken_type_ids©Údtype)ÚsuperÚ__init__r"   Ú	EmbeddingÚ
vocab_sizeÚhidden_sizeÚpad_token_idÚword_embeddingsÚmax_position_embeddingsÚposition_embeddingsÚtype_vocab_sizeÚtoken_type_embeddingsÚ	LayerNormÚlayer_norm_epsÚDropoutÚhidden_dropout_probÚdropoutr=   rX   Úregister_bufferr%   r&   ÚexpandÚzerosrZ   ÚsizeÚlongrU   ©rA   ÚconfigÚ	__class__s     €r(   rc   ÚAltRobertaEmbeddings.__init__c   si  ø€ Ü‰ÑÔÜ!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ#%§<¢<°×0NÑ0NÐPV×PbÑPbÓ#cˆÔ Ü%'§\¢\°&×2HÑ2HÈ&×J\ÑJ\Ó%]ˆÔ"ô Ÿš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒä'.¨vÐ7PÐR\Ó']ˆÔ$Ø×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð 	ñ 	
ð 	×ÑØœeŸkšk¨$×*;Ñ*;×*@Ñ*@Ó*BÌ%Ï*É*ÑUÐbgð 	ñ 	
ð
 "×.Ñ.ˆÔÜ#%§<¢<Ø×*Ñ*¨F×,>Ñ,>ÈD×L\ÑL\ñ$
ˆÕ r*   c                 óŒ  • Uc+  Ub  [        XR                  U5      nOU R                  U5      nUb  UR                  5       nOUR                  5       S S nUS   nUcv  [	        U S5      (       a-  U R
                  S S 2S U24   nUR                  US   U5      n	U	nO8[        R                  " U[        R                  U R                  R                  S9nUc  U R                  U5      nU R                  U5      n
XJ-   nU R                  S:X  a  U R                  U5      nX¼-  nU R!                  U5      nU R#                  U5      nU$ )Nr\   r   r_   r   ©ra   r!   rY   )Ú"create_position_ids_from_input_idsrU   Ú&create_position_ids_from_inputs_embedsru   Úhasattrr_   rs   r%   rt   rv   rZ   r!   rh   rl   rX   rj   rm   rq   )rA   Ú	input_idsr_   rZ   Úinputs_embedsÚpast_key_values_lengthÚinput_shapeÚ
seq_lengthÚbuffered_token_type_idsÚ buffered_token_type_ids_expandedrl   Ú
embeddingsrj   s                r(   ÚforwardÚAltRobertaEmbeddings.forward|   sM  € ð ÑØÑ$äAÀ)×M]ÑM]Ð_uÓv‘à#×JÑJÈ=ÓYàÑ Ø#Ÿ.™.Ó*‰Kà'×,Ñ,Ó.¨s°Ð3ˆKà  ‘^ˆ
ð
 Ñ!ÜtÐ-×.Ñ.Ø*.×*=Ñ*=ºaÀÀ*À¸nÑ*MÐ'Ø3J×3QÑ3QÐR]Ð^_ÑR`ÐblÓ3mÐ0Ø!A‘ä!&§¢¨[ÄÇ
Á
ÐSW×SdÑSd×SkÑSkÑ!làÑ Ø ×0Ñ0°Ó;ˆMØ $× :Ñ :¸>Ó JÐà"Ñ:ˆ
Ø×'Ñ'¨:Ó5Ø"&×":Ñ":¸<Ó"HÐØÑ-ˆJØ—^‘^ JÓ/ˆ
Ø—\‘\ *Ó-ˆ
ØÐr*   c                 ó  • UR                  5       SS nUS   n[        R                  " U R                  S-   X0R                  -   S-   [        R                  UR
                  S9nUR                  S5      R                  U5      $ )z¯
We are provided embeddings directly. We cannot infer which are padded so just generate sequential position ids.

Args:
    inputs_embeds: torch.Tensor

Returns: torch.Tensor
Nr\   r   r|   r   )ru   r%   r&   rU   rv   r!   Ú	unsqueezers   )rA   r   rƒ   Úsequence_lengthrZ   s        r(   r~   Ú;AltRobertaEmbeddings.create_position_ids_from_inputs_embeds¤   s~   € ð $×(Ñ(Ó*¨3¨BÐ/ˆØ% a™.ˆä—|’|Ø×Ñ˜qÑ  /×4DÑ4DÑ"DÀqÑ"HÔPU×PZÑPZÐcp×cwÑcwñ
ˆð ×%Ñ% aÓ(×/Ñ/°Ó<Ð<r*   )rm   rq   rU   rX   rj   rl   rh   )NNNNr   )
rI   rJ   rK   rL   rM   rc   rˆ   r~   rP   Ú__classcell__©ry   s   @r(   rR   rR   ]   s$   ø† ñõ

ð4 rsô&÷P=ð =r*   rR   c                   ó¼   ^ • \ rS rSrS
U 4S jjr   SS\R                  S\\R                     S\\R                     S\\	   S\
\R                     4
S jjrS	rU =r$ )ÚAltRobertaSelfAttentioné¶   c                 óæ  >• [         TU ]  5         UR                  UR                  -  S:w  a7  [	        US5      (       d&  [        SUR                   SUR                   S35      eUR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  5      U l        U=(       d    [#        USS5      U l        U R$                  S:X  d  U R$                  S	:X  aH  UR&                  U l        [        R(                  " S
UR&                  -  S-
  U R                  5      U l        g g )Nr   Úembedding_sizezThe hidden size (z6) is not a multiple of the number of attention heads (Ú)rX   rY   Úrelative_keyÚrelative_key_queryé   r   )rb   rc   rf   Únum_attention_headsr   Ú
ValueErrorÚintÚattention_head_sizeÚall_head_sizer"   ÚLinearÚqueryÚkeyÚvaluero   Úattention_probs_dropout_probrq   r=   rX   ri   rd   Údistance_embedding©rA   rx   rX   ry   s      €r(   rc   Ú AltRobertaSelfAttention.__init__·   s™  ø€ Ü‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ# F×$6Ñ$6Ð#7ð 8Ø ×4Ñ4Ð5°Qð8óð ð
 $*×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔä—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÓDˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
ä—z’z &×"EÑ"EÓFˆŒØ'>÷ (
Ä'ØÐ-¨zóC
ˆÔ$ð ×'Ñ'¨>Ó9¸T×=YÑ=YÐ]qÓ=qØ+1×+IÑ+IˆDÔ(Ü&(§l¢l°1°v×7UÑ7UÑ3UÐXYÑ3YÐ[_×[sÑ[sÓ&tˆDÕ#ð >rr*   Úhidden_statesÚattention_maskÚ	head_maskÚoutput_attentionsr   c                 óH  • UR                   S S n/ UQSPU R                  P7nU R                  U5      R                  U5      R	                  SS5      nU R                  U5      R                  U5      R	                  SS5      nU R                  U5      R                  U5      R	                  SS5      n	[        R                  " XxR	                  SS5      5      n
U R                  S:X  d  U R                  S:X  GaL  UR                   S   UR                   S   pË[        R                  " U[        R                  UR                  S9R                  SS5      n[        R                  " U[        R                  UR                  S9R                  SS5      nXÞ-
  nU R                  XðR                  -   S-
  5      nUR                  UR                   S9nU R                  S:X  a  [        R"                  " S	UU5      nU
U-   n
OHU R                  S:X  a8  [        R"                  " S	UU5      n[        R"                  " S
UU5      nU
U-   U-   n
U
[$        R&                  " U R                  5      -  n
Ub  X¢-   n
[(        R*                  R-                  U
SS9nU R/                  U5      nUb  UU-  n[        R                  " UU	5      nUR1                  SSSS5      R3                  5       nUR5                  5       S S U R6                  4-   nUR                  U5      nU(       a  UU4nU$ U4nU$ )Nr\   r   r˜   éþÿÿÿr–   r—   r|   r`   zbhld,lrd->bhlrzbhrd,lrd->bhlr©Údimr   r   )Úshaperœ   rŸ   ÚviewÚ	transposer    r¡   r%   ÚmatmulrX   r&   rv   r!   r£   ri   Útora   ÚeinsumÚmathÚsqrtr"   r#   Úsoftmaxrq   ÚpermuteÚ
contiguousru   r   )rA   r¦   r§   r¨   r©   rƒ   Úhidden_shapeÚquery_layerÚ	key_layerÚvalue_layerÚattention_scoresÚquery_lengthÚ
key_lengthÚposition_ids_lÚposition_ids_rÚdistanceÚpositional_embeddingÚrelative_position_scoresÚrelative_position_scores_queryÚrelative_position_scores_keyÚattention_probsÚcontext_layerÚnew_context_layer_shapeÚoutputss                           r(   rˆ   ÚAltRobertaSelfAttention.forwardÏ   sú  € ð $×)Ñ)¨#¨2Ð.ˆØC˜ÐC bÐC¨$×*BÑ*BÑCˆà—j‘j Ó/×4Ñ4°\ÓB×LÑLÈQÐPQÓRˆØ—H‘H˜]Ó+×0Ñ0°Ó>×HÑHÈÈAÓNˆ	Ø—j‘j Ó/×4Ñ4°\ÓB×LÑLÈQÐPQÓRˆô !Ÿ<š<¨×5HÑ5HÈÈRÓ5PÓQÐà×'Ñ'¨>Ó9¸T×=YÑ=YÐ]qÔ=qØ'2×'8Ñ'8¸Ñ';¸Y¿_¹_ÈQÑ=O˜*Ü"Ÿ\š\¨,¼e¿j¹jÐQ^×QeÑQeÑf×kÑkÐlnÐpqÓrˆNÜ"Ÿ\š\¨*¼E¿J¹JÈ}×OcÑOcÑd×iÑiÐjkÐmoÓpˆNØ%Ñ6ˆHà#'×#:Ñ#:¸8×FbÑFbÑ;bÐefÑ;fÓ#gÐ Ø#7×#:Ñ#:À×ARÑARÐ#:Ð#SÐ à×+Ñ+¨~Ó=Ü+0¯<ª<Ð8HÈ+ÐWkÓ+lÐ(Ø#3Ð6NÑ#NÑ Ø×-Ñ-Ð1EÓEÜ16·²Ð>NÐP[Ð]qÓ1rÐ.Ü/4¯|ª|Ð<LÈiÐYmÓ/nÐ,Ø#3Ð6TÑ#TÐWsÑ#sÐ à+¬d¯iªi¸×8PÑ8PÓ.QÑQÐØÑ%à/Ñ@Ðô Ÿ-™-×/Ñ/Ð0@ÀbÐ/ÐIˆð Ÿ,™, Ó7ˆð Ñ Ø-°	Ñ9ˆOäŸš _°kÓBˆà%×-Ñ-¨a°°A°qÓ9×DÑDÓFˆØ"/×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×*Ñ*Ð+BÓCˆæ6G= /Ð2ˆàˆð O\ÐM]ˆàˆr*   )
r   rœ   r£   rq   r    ri   r™   rX   rŸ   r¡   ©N©NNF)rI   rJ   rK   rL   rc   r%   ÚTensorr   rN   ÚboolrD   rˆ   rP   rŽ   r   s   @r(   r‘   r‘   ¶   su   ø† ÷uð6 7;Ø15Ø,1ñ:à—|‘|ð:ð ! ×!2Ñ!2Ñ3ð:ð ˜E×-Ñ-Ñ.ð	:ð
 $ D™>ð:ð 
ˆu|‰|Ñ	÷:ó :r*   r‘   c                   óz   ^ • \ rS rSrU 4S jrS\R                  S\R                  S\R                  4S jrSrU =r	$ )ÚAltRobertaSelfOutputi  c                 ó(  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  5      U l
        g ©NrV   )rb   rc   r"   rž   rf   Údenserm   rn   ro   rp   rq   rw   s     €r(   rc   ÚAltRobertaSelfOutput.__init__  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆr*   r¦   Úinput_tensorr   c                 óp   • U R                  U5      nU R                  U5      nU R                  X-   5      nU$ rÌ   ©rÔ   rq   rm   ©rA   r¦   rÖ   s      r(   rˆ   ÚAltRobertaSelfOutput.forward  ó5   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆØŸ™ }Ñ'CÓDˆØÐr*   ©rm   rÔ   rq   ©
rI   rJ   rK   rL   rc   r%   rÎ   rˆ   rP   rŽ   r   s   @r(   rÑ   rÑ     ó6   ø† õ>ð U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r*   rÑ   Úeagerc                   óÂ   ^ • \ rS rSrSU 4S jjrS r   SS\R                  S\\R                     S\\R                     S\\
   S\\R                     4
S	 jjrS
rU =r$ )ÚAltRobertaAttentioni   c                 ó˜   >• [         TU ]  5         [        UR                     " XS9U l        [        U5      U l        [        5       U l        g )N)rX   )	rb   rc   Ú"ALT_ROBERTA_SELF_ATTENTION_CLASSESÚ_attn_implementationrA   rÑ   ÚoutputÚsetÚpruned_headsr¤   s      €r(   rc   ÚAltRobertaAttention.__init__!  s@   ø€ Ü‰ÑÔÜ6°v×7RÑ7RÒSØñ
ˆŒ	ô +¨6Ó2ˆŒÜ›EˆÕr*   c                 ó6  • [        U5      S:X  a  g [        XR                  R                  U R                  R                  U R
                  5      u  p[        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l	        [        U R                  R                  USS9U R                  l        U R                  R                  [        U5      -
  U R                  l        U R                  R                  U R                  R                  -  U R                  l        U R
                  R                  U5      U l        g )Nr   r   r¬   )r'   r   rA   r™   rœ   rç   r   rŸ   r    r¡   rå   rÔ   r   Úunion)rA   ÚheadsÚindexs      r(   Úprune_headsÚAltRobertaAttention.prune_heads)  s  € Üˆu‹:˜‹?ØÜ7Ø—9‘9×0Ñ0°$·)±)×2OÑ2OÐQU×QbÑQbó
‰ˆô
 -¨T¯Y©Y¯_©_¸eÓDˆ	‰	ŒÜ*¨4¯9©9¯=©=¸%Ó@ˆ	‰	ŒÜ,¨T¯Y©Y¯_©_¸eÓDˆ	‰	ŒÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð )-¯	©	×(EÑ(EÌÈEË
Ñ(Rˆ	‰	Ô%Ø"&§)¡)×"?Ñ"?À$Ç)Á)×B_ÑB_Ñ"_ˆ	‰	ÔØ ×-Ñ-×3Ñ3°EÓ:ˆÕr*   r¦   r§   r¨   r©   r   c                 óf   • U R                  UUUUS9nU R                  US   U5      nU4USS  -   nU$ ©N)r§   r¨   r©   r   r   )rA   rå   )rA   r¦   r§   r¨   r©   Úself_outputsÚattention_outputrÊ   s           r(   rˆ   ÚAltRobertaAttention.forward;  sS   € ð —y‘yØØ)ØØ/ð	 !ð 
ˆð  Ÿ;™; |°A¡¸ÓFÐØ#Ð%¨°Q°RÐ(8Ñ8ˆØˆr*   )rå   rç   rA   rÌ   rÍ   )rI   rJ   rK   rL   rc   rí   r%   rÎ   r   rN   rÏ   rD   rˆ   rP   rŽ   r   s   @r(   rá   rá      sy   ø† ÷"ò;ð* 7;Ø15Ø,1ñà—|‘|ðð ! ×!2Ñ!2Ñ3ðð ˜E×-Ñ-Ñ.ð	ð
 $ D™>ðð 
ˆu|‰|Ñ	÷ó r*   rá   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚAltRobertaIntermediateiN  c                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g rÌ   )rb   rc   r"   rž   rf   Úintermediate_sizerÔ   Ú
isinstanceÚ
hidden_actÚstrr	   Úintermediate_act_fnrw   s     €r(   rc   ÚAltRobertaIntermediate.__init__O  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$r*   r¦   r   c                 óJ   • U R                  U5      nU R                  U5      nU$ rÌ   ©rÔ   rû   ©rA   r¦   s     r(   rˆ   ÚAltRobertaIntermediate.forwardW  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆØÐr*   rþ   rÝ   r   s   @r(   rõ   rõ   N  s(   ø† õ9ð U§\¡\ð °e·l±l÷ ò r*   rõ   c                   óz   ^ • \ rS rSrU 4S jrS\R                  S\R                  S\R                  4S jrSrU =r	$ )ÚAltRobertaOutputi^  c                 ó(  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                  5      U l        g rÓ   )rb   rc   r"   rž   r÷   rf   rÔ   rm   rn   ro   rp   rq   rw   s     €r(   rc   ÚAltRobertaOutput.__init___  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆr*   r¦   rÖ   r   c                 óp   • U R                  U5      nU R                  U5      nU R                  X-   5      nU$ rÌ   rØ   rÙ   s      r(   rˆ   ÚAltRobertaOutput.forwarde  rÛ   r*   rÜ   rÝ   r   s   @r(   r  r  ^  rÞ   r*   r  c                   ó¾   ^ • \ rS rSrU 4S jr   SS\R                  S\\R                     S\\R                     S\\	   S\
\R                     4
S jjrS	 rS
rU =r$ )ÚAltRobertaLayerim  c                 ó²   >• [         TU ]  5         UR                  U l        SU l        [	        U5      U l        [        U5      U l        [        U5      U l	        g )Nr   )
rb   rc   Úchunk_size_feed_forwardÚseq_len_dimrá   Ú	attentionrõ   Úintermediater  rå   rw   s     €r(   rc   ÚAltRobertaLayer.__init__n  sI   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ,¨VÓ4ˆŒÜ2°6Ó:ˆÔÜ& vÓ.ˆr*   r¦   r§   r¨   r©   r   c                 ó¬   • U R                   " U4UUUS.UD6nUS   nUSS  n[        U R                  U R                  U R                  U5      n	U	4U-   nU$ rð   )r  r   Úfeed_forward_chunkr
  r  )
rA   r¦   r§   r¨   r©   ÚkwargsÚself_attention_outputsrò   rÊ   Úlayer_outputs
             r(   rˆ   ÚAltRobertaLayer.forwardv  s€   € ð "&§¢Øð"
à)ØØ/ñ	"
ð
 ñ"
Ðð 2°!Ñ4Ðà(¨¨Ð,ˆÜ0Ø×#Ñ# T×%AÑ%AÀ4×CSÑCSÐUeó
ˆð  / GÑ+ˆàˆr*   c                 óJ   • U R                  U5      nU R                  X!5      nU$ rÌ   )r  rå   )rA   rò   Úintermediate_outputr  s       r(   r  Ú"AltRobertaLayer.feed_forward_chunk  s)   € Ø"×/Ñ/Ð0@ÓAÐØ—{‘{Ð#6ÓIˆØÐr*   )r  r
  r  rå   r  rÍ   )rI   rJ   rK   rL   rc   r%   rÎ   r   rN   rÏ   rD   rˆ   r  rP   rŽ   r   s   @r(   r  r  m  sy   ø† õ/ð 7;Ø15Ø,1ñà—|‘|ðð ! ×!2Ñ!2Ñ3ðð ˜E×-Ñ-Ñ.ð	ð
 $ D™>ðð 
ˆu|‰|Ñ	õ÷2ð r*   r  c                   óä   ^ • \ rS rSrU 4S jr\     SS\R                  S\\R                     S\\R                     S\\
   S\\
   S\\
   S	\\\R                     \4   4S
 jj5       rSrU =r$ )ÚAltRobertaEncoderi–  c                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf ©NF)
rb   rc   rx   r"   Ú
ModuleListÚrangeÚnum_hidden_layersr  ÚlayerÚgradient_checkpointing)rA   rx   Úiry   s      €r(   rc   ÚAltRobertaEncoder.__init__—  sR   ø€ Ü‰ÑÔØŒÜ—]’]ÄUÈ6×KcÑKcÔEdÓ#eÑEdÀ¤O°FÖ$;ÑEdÑ#eÓfˆŒ
Ø&+ˆÕ#ùò $fó   ½A%r¦   r§   r¨   r©   Úoutput_hidden_statesÚreturn_dictr   c           	      ó  • U(       a  SOS nU(       a  SOS n	[        U R                  5       H=  u  p«U(       a  X4-   nUb  X:   OS nU" SUUUUS.UD6nUS   nU(       d  M5  XS   4-   n	M?     U(       a  X4-   n[        UUU	S9$ )NrH   )r¦   r§   r¨   r©   r   r   ©Úlast_hidden_stater¦   Ú
attentions)Ú	enumerater  r   )rA   r¦   r§   r¨   r©   r$  r%  r  Úall_hidden_statesÚall_self_attentionsr!  Úlayer_moduleÚlayer_head_maskÚlayer_outputss                 r(   rˆ   ÚAltRobertaEncoder.forward  s¹   € ö #7™B¸DÐÞ$5™b¸4Ðä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜išlÈˆOá(ð Ø+Ø-Ø)Ø"3ñ	ð
 ñˆMð *¨!Ñ,ˆMß Ð Ø&9È1Ñ=MÐ<OÑ&OÒ#ñ!  5ö$  Ø 1Ð4DÑ DÐäØ+Ø+Ø*ñ
ð 	
r*   )rx   r   r  )NNFFT)rI   rJ   rK   rL   rc   r   r%   rÎ   r   rN   rÏ   r   rD   r   rˆ   rP   rŽ   r   s   @r(   r  r  –  sª   ø† õ,ð ð 7;Ø15Ø,1Ø/4Ø&*ñ&
à—|‘|ð&
ð ! ×!2Ñ!2Ñ3ð&
ð ˜E×-Ñ-Ñ.ð	&
ð
 $ D™>ð&
ð ' t™nð&
ð ˜d‘^ð&
ð 
ˆuU—\‘\Ñ" OÐ3Ñ	4ô&
ó ö&
r*   r  c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚAltRobertaPooleriÈ  c                 ó¶   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " 5       U l        g rÌ   )rb   rc   r"   rž   rf   rÔ   ÚTanhÚ
activationrw   s     €r(   rc   ÚAltRobertaPooler.__init__É  s9   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ'š'›)ˆr*   r¦   r   c                 ó\   • US S 2S4   nU R                  U5      nU R                  U5      nU$ )Nr   )rÔ   r5  )rA   r¦   Úfirst_token_tensorÚpooled_outputs       r(   rˆ   ÚAltRobertaPooler.forwardÎ  s6   € ð +ª1¨a¨4Ñ0ÐØŸ
™
Ð#5Ó6ˆØŸ™¨Ó6ˆØÐr*   )r5  rÔ   rÝ   r   s   @r(   r2  r2  È  s(   ø† õ$ð
 U§\¡\ð °e·l±l÷ ò r*   r2  ÚmodulerŸ   r    r¡   r§   Úscalingrq   c                 ó°  • [         R                  " XR                  SS5      5      U-  nUb  X„-   n[        R                  R                  US[         R                  S9R                  UR                  5      n[        R                  R                  X†U R                  S9n[         R                  " Xƒ5      n	U	R                  SS5      R                  5       n	X˜4$ )Nr\   r«   )r­   ra   )ÚpÚtrainingr   r˜   )r%   r±   r°   r"   r#   r¶   Úfloat32r²   ra   rq   r?  r¸   )
r;  rŸ   r    r¡   r§   r<  rq   r  Úattn_weightsÚattn_outputs
             r(   Úeager_attention_forwardrC  Ø  s°   € ô —<’< §}¡}°R¸Ó'<Ó=ÀÑG€LØÑ!Ø#Ñ4ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€Lä—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r*   c                   óÚ   ^ • \ rS rSrSrU 4S jr   SS\R                  S\\R                     S\\R                     S\\	   S\
\R                  \\R                     4   4
S	 jjrS
rU =r$ )ÚAltCLIPAttentioniï  z=Multi-headed attention from 'Attention Is All You Need' paperc                 ó   >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        U R                  U R                  -  U l        U R                  U R                  -  U R                  :w  a&  [        SU R                   SU R                   S35      eU R                  S-  U l	        UR                  U l        SU l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: ú).ç      à¿F)rb   rc   rx   rf   Ú	embed_dimr™   Ú	num_headsÚhead_dimrš   ÚscaleÚattention_dropoutrq   Ú	is_causalr"   rž   Úk_projÚv_projÚq_projÚout_projrw   s     €r(   rc   ÚAltCLIPAttention.__init__ò  s  ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒØ=‰=˜4Ÿ>™>Ñ)¨T¯^©^Ó;ÜØMÈdÏnÉnÐM]ð ^Ø—N‘NÐ# 2ð'óð ð —]‘] DÑ(ˆŒ
Ø×/Ñ/ˆŒØˆŒä—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜŸ	š	 $§.¡.°$·.±.ÓAˆr*   r¦   r§   Úcausal_attention_maskr©   r   c                 ó  • UR                   u  pVnU R                  U5      nU R                  U5      n	U R                  U5      n
UR	                  XVU R
                  U R                  5      R                  SS5      nU	R	                  XVU R
                  U R                  5      R                  SS5      n	U
R	                  XVU R
                  U R                  5      R                  SS5      n
U R                  R                  S:w  a  Ub  Ub  X#-   nOUb  UnO	USLU l
        [        nU R                  R                  S:w  aT  U R                  R                  S:X  a  U(       a  [        R                  S5        O[        U R                  R                     nU" U UU	U
UU R                  U R                  U R                   (       d  SOU R"                  S	9u  pÍUR%                  XVU5      R'                  5       nU R)                  U5      nU(       d  SnXÍ4$ )
z#Input shape: Batch x Time x Channelr   r˜   Úflash_attention_2Nrß   Úsdpazã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.ç        )rN  r<  rq   )r®   rQ  rO  rP  r¯   rJ  rK  r°   rx   rä   rN  rC  ÚloggerÚwarning_oncer   rL  r?  rq   Úreshaper¸   rR  )rA   r¦   r§   rT  r©   Ú
batch_sizer„   rI  ÚqueriesrE   ÚvaluesÚattention_interfacerB  rA  s                 r(   rˆ   ÚAltCLIPAttention.forward  sÇ  € ð -:×,?Ñ,?Ñ)ˆ
 	à—+‘+˜mÓ,ˆØ{‰{˜=Ó)ˆØ—‘˜]Ó+ˆà—,‘,˜z°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØy‰y˜°·±ÀÇÁÓO×YÑYÐZ[Ð]^Ó_ˆØ—‘˜Z°T·^±^ÀTÇ]Á]ÓS×]Ñ]Ð^_ÐabÓcˆð ;‰;×+Ñ+Ð/BÓBØÑ)Ð.CÑ.OØ!/Ñ!G‘Ø&Ñ2Ø!6øà2¸$Ð>ˆDŒNä(?ÐØ;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9Ö>OÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#á$7ØØØØØØ—n‘nØ—J‘JØ#Ÿ}Ÿ}‘C°$·,±,ñ	%
Ñ!ˆð "×)Ñ)¨*À)ÓL×WÑWÓYˆØ—m‘m KÓ0ˆÞ ØˆLØÐ(Ð(r*   )rx   rq   rI  rK  rN  rO  rJ  rR  rQ  rL  rP  rÍ   )rI   rJ   rK   rL   rM   rc   r%   rÎ   r   rÏ   rD   rˆ   rP   rŽ   r   s   @r(   rE  rE  ï  s‚   ø† ÙGõBð. 26Ø8<Ø,1ñ5)à—|‘|ð5)ð ! §¡Ñ.ð5)ð  (¨¯©Ñ5ð	5)ð
 $ D™>ð5)ð 
ˆu|‰|˜X e§l¡lÑ3Ð3Ñ	4÷5)ó 5)r*   rE  c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )Ú
AltCLIPMLPi?  c                 ó  >• [         TU ]  5         Xl        [        UR                     U l        [        R                  " UR                  UR                  5      U l
        [        R                  " UR                  UR                  5      U l        g rÌ   )rb   rc   rx   r	   rù   Úactivation_fnr"   rž   rf   r÷   Úfc1Úfc2rw   s     €r(   rc   ÚAltCLIPMLP.__init__@  sb   ø€ Ü‰ÑÔØŒÜ# F×$5Ñ$5Ñ6ˆÔÜ—9’9˜V×/Ñ/°×1IÑ1IÓJˆŒÜ—9’9˜V×5Ñ5°v×7IÑ7IÓJˆr*   r¦   r   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ rÌ   )re  rd  rf  rÿ   s     r(   rˆ   ÚAltCLIPMLP.forwardG  s4   € ØŸ™ Ó/ˆØ×*Ñ*¨=Ó9ˆØŸ™ Ó/ˆØÐr*   )rd  rx   re  rf  rÝ   r   s   @r(   rb  rb  ?  s)   ø† õKð U§\¡\ð °e·l±l÷ ò r*   rb  c                   ó°   ^ • \ rS rSrS\4U 4S jjr SS\R                  S\R                  S\R                  S\\	   S\
\R                     4
S	 jjrS
rU =r$ )ÚAltCLIPEncoderLayeriN  rx   c                 ó<  >• [         TU ]  5         UR                  U l        [	        U5      U l        [        R                  " U R                  UR                  S9U l	        [        U5      U l        [        R                  " U R                  UR                  S9U l        g rÓ   )rb   rc   rf   rI  rE  Ú	self_attnr"   rm   rn   Úlayer_norm1rb  ÚmlpÚlayer_norm2rw   s     €r(   rc   ÚAltCLIPEncoderLayer.__init__O  sm   ø€ Ü‰ÑÔØ×+Ñ+ˆŒÜ)¨&Ó1ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÔÜ˜fÓ%ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÕr*   r¦   r§   rT  r©   r   c                 óÊ   • UnU R                  U5      nU R                  UUUUS9u  pXQ-   nUnU R                  U5      nU R                  U5      nXQ-   nU4nU(       a  Xv4-  nU$ )a  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
        `(config.encoder_attention_heads,)`.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)r¦   r§   rT  r©   )rn  rm  rp  ro  )rA   r¦   r§   rT  r©   ÚresidualrA  rÊ   s           r(   rˆ   ÚAltCLIPEncoderLayer.forwardW  sŠ   € ð" !ˆà×(Ñ(¨Ó7ˆØ&*§n¡nØ'Ø)Ø"7Ø/ð	 '5ð '
Ñ#ˆð !Ñ0ˆà ˆØ×(Ñ(¨Ó7ˆØŸ™ Ó/ˆØ Ñ0ˆà Ð"ˆæØÑ&ˆGàˆr*   )rI  rn  rp  ro  rm  ©F)rI   rJ   rK   rL   r   rc   r%   rÎ   r   rÏ   rD   rN   rˆ   rP   rŽ   r   s   @r(   rk  rk  N  sk   ø† ðS˜}÷ Sð -2ñ&à—|‘|ð&ð Ÿ™ð&ð  %Ÿ|™|ð	&ð
 $ D™>ð&ð 
ˆu× Ñ Ñ	!÷&ó &r*   rk  c                   ó¾   ^ • \ rS rSrSrS\4U 4S jjr\     SS\\	R                     S\\	R                     S\\   S\\   S	\\   S
\\\4   4S jj5       rSrU =r$ )ÚAltCLIPEncoderi€  zŸ
Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a
[`AltCLIPEncoderLayer`].

Args:
    config: AltCLIPConfig
rx   c                 óÔ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        U5      PM     sn5      U l        SU l	        g s  snf r  )
rb   rc   rx   r"   r  r  r  rk  Úlayersr   )rA   rx   Ú_ry   s      €r(   rc   ÚAltCLIPEncoder.__init__‰  sT   ø€ Ü‰ÑÔØŒÜ—m’mÌ%ÐPV×PhÑPhÔJiÓ$jÑJiÀQÔ%8¸Ö%@ÑJiÑ$jÓkˆŒØ&+ˆÕ#ùò %kr#  r§   rT  r©   r$  r%  r   c                 ó’  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU(       a  SOSnU(       a  SOSnUn	[	        U R
                  5       H0  u  p«U(       a  Xy4-   nU" U	UUUS9nUS   n	U(       d  M(  XŒS   4-   nM2     U(       a  Xy4-   n[        X—US9$ )a  
Args:
    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
        Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.
        This is useful if you want more control over how to convert `input_ids` indices into associated vectors
        than the model's internal embedding lookup matrix.
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    causal_attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Causal mask for the text model. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
NrH   )r©   r   r   r'  )rx   r©   r$  Úuse_return_dictr*  ry  r   )rA   r   r§   rT  r©   r$  r%  Úencoder_statesÚall_attentionsr¦   ÚidxÚencoder_layerr/  s                r(   rˆ   ÚAltCLIPEncoder.forward  sé   € ðN 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆæ3™¸ˆÞ0™°dˆà%ˆÜ"+¨D¯K©KÖ"8ÑˆCÞ#Ø!/Ð2BÑ!BÙ)ØØØ%Ø"3ñ	ˆMð *¨!Ñ,ˆMç Ð Ø!/ÀÑ3CÐ2EÑ!E’ñ #9ö  Ø+Ð.>Ñ>ˆNäØ+ÐVdñ
ð 	
r*   )rx   r   ry  )NNNNN)rI   rJ   rK   rL   rM   r   rc   r   r   r%   rÎ   rÏ   r   rD   r   rˆ   rP   rŽ   r   s   @r(   rw  rw  €  s¥   ø† ñð,˜}÷ ,ð ð 26Ø8<Ø,0Ø/3Ø&*ñD
ð ! §¡Ñ.ðD
ð  (¨¯©Ñ5ð	D
ð
 $ D™>ðD
ð ' t™nðD
ð ˜d‘^ðD
ð 
ˆuoÐ%Ñ	&ôD
ó öD
r*   rw  c                   ó°   ^ • \ rS rSrS\4U 4S jjrS\R                  S\S\S\R                  4S jr	SS	\R                  S\R                  4S
 jjrSrU =r$ )ÚAltCLIPVisionEmbeddingsiØ  rx   c                 óÖ  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        UR                  U l        [        R                  " [        R                  " U R                  5      5      U l        [        R                  " UR                  U R                  U R                  U R                  SS9U l        U R
                  U R                  -  S-  U l        U R                  S-   U l        [        R"                  " U R                   U R                  5      U l        U R'                  S[        R(                  " U R                   5      R+                  S5      SS9  g )NF)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚbiasr˜   r   rZ   r[   r]   )rb   rc   rx   rf   rI  Ú
image_sizeÚ
patch_sizer"   Ú	Parameterr%   ÚrandnÚclass_embeddingÚConv2dÚnum_channelsÚpatch_embeddingÚnum_patchesÚnum_positionsrd   Úposition_embeddingrr   r&   rs   rw   s     €r(   rc   Ú AltCLIPVisionEmbeddings.__init__Ù  s  ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ ×+Ñ+ˆŒØ ×+Ñ+ˆŒä!Ÿ|š|¬E¯KªK¸¿¹Ó,GÓHˆÔä!ŸyšyØ×+Ñ+ØŸ™ØŸ™Ø—?‘?Øñ 
ˆÔð !ŸO™O¨t¯©Ñ>À1ÑDˆÔØ!×-Ñ-°Ñ1ˆÔÜ"$§,¢,¨t×/AÑ/AÀ4Ç>Á>Ó"RˆÔØ×Ñ˜^¬U¯\ª\¸$×:LÑ:LÓ-M×-TÑ-TÐU\Ó-]ÐjoÐÒpr*   r‡   ÚheightÚwidthr   c                 óÈ  • UR                   S   S-
  nU R                  R                  R                  S5      nUR                   S   S-
  n[        R
                  R                  5       (       d%  XF:X  a   X#:X  a  U R                  U R                  5      $ USS2SS24   nUSS2SS24   nUR                   S   n	X R                  -  n
X0R                  -  n[        US-  5      nUR                  SXÌU	5      nUR                  SSSS5      n[        R                  R                  UX«4SS	S
9nUR                  SSSS5      R                  SSU	5      n[        R                   " Xx4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   r   Nr\   g      à?r   r˜   ÚbicubicF)ru   ÚmodeÚalign_cornersr¬   )r®   r•  Úweightr‹   r%   ÚjitÚ
is_tracingrZ   rŒ  r   r[  r·   r"   r#   Úinterpolater¯   Úcat)rA   r‡   r—  r˜  r“  r•  r”  Úclass_pos_embedÚpatch_pos_embedr­   Ú
new_heightÚ	new_widthÚsqrt_num_positionss                r(   Úinterpolate_pos_encodingÚ0AltCLIPVisionEmbeddings.interpolate_pos_encodingï  si  € ð !×&Ñ& qÑ)¨AÑ-ˆØ!×4Ñ4×;Ñ;×EÑEÀaÓHÐØ*×0Ñ0°Ñ3°aÑ7ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×*Ñ*¨4×+<Ñ+<Ó=Ð=à,ªQ°°°¨UÑ3ˆØ,ªQ°±¨UÑ3ˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ
ØŸ_™_Ñ,ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr*   Úpixel_valuesc                 ó^  • UR                   u  p4pVU(       dJ  XPR                  :w  d  X`R                  :w  a,  [        SU SU SU R                   SU R                   S3	5      eU R                  R                  R
                  nU R                  UR                  US95      nUR                  S5      R                  SS5      nU R                  R                  USS5      n	[        R                  " X˜/SS	9n
U(       a  X R                  X¥U5      -   n
U
$ X R                  U R                  5      -   n
U
$ )
NzInput image size (Ú*z) doesn't match model (rG  r`   r˜   r   r\   r¬   )r®   r‹  rš   r’  r  ra   r²   Úflattenr°   r  rs   r%   r¡  r§  r•  rZ   )rA   r©  r§  r\  rz  r—  r˜  Útarget_dtypeÚpatch_embedsÚclass_embedsr‡   s              r(   rˆ   ÚAltCLIPVisionEmbeddings.forward  s$  € Ø'3×'9Ñ'9Ñ$ˆ
vÞ'¨V·±Ó-FÈ%×SbÑSbÓJbÜØ$ V H¨A¨e¨WÐ4KÈDÏOÉOÐK\Ð\]Ð^b×^mÑ^mÐ]nÐnpÐqóð ð ×+Ñ+×2Ñ2×8Ñ8ˆØ×+Ñ+¨L¯O©OÀ,¨OÐ,OÓPˆØ#×+Ñ+¨AÓ.×8Ñ8¸¸AÓ>ˆà×+Ñ+×2Ñ2°:¸qÀ"ÓEˆÜ—Y’Y Ð;ÀÑCˆ
Þ#Ø#×&CÑ&CÀJÐX]Ó&^Ñ^ˆJð Ðð $×&=Ñ&=¸d×>OÑ>OÓ&PÑPˆJØÐr*   )	r  rx   rI  r‹  r“  r”  r’  rŒ  r•  ru  )rI   rJ   rK   rL   r   rc   r%   rÎ   r›   r§  rN   rˆ   rP   rŽ   r   s   @r(   r„  r„  Ø  sj   ø† ðqÐ2÷ qð,'D°5·<±<ð 'DÈð 'DÐUXð 'DÐ]b×]iÑ]iô 'DñR E×$5Ñ$5ð ÐZ_×ZfÑZf÷ ó r*   r„  c                   ó2   • \ rS rSr% \\S'   SrSr/ rS r	Sr
g)ÚAltCLIPPreTrainedModeli+  rx   ÚaltclipTc                 ó6  • U R                   R                  n[        U[        5      (       aâ  U R                   R                  n[        R
                  R                  UR                  SUR                  S-  U-  S9  [        R
                  R                  UR                  R                  UR                   R                  U-  S9  [        R
                  R                  UR                  R                  UR                   R                  U-  S9  g[        U[        5      (       Ga   U R                   R                  nUR                  S-  SUR                   R                  -  S-  -  U-  nUR                  S-  U-  n[        R
                  R                  UR                  R                  US9  [        R
                  R                  UR                   R                  US9  [        R
                  R                  UR"                  R                  US9  [        R
                  R                  UR$                  R                  US9  g[        U[&        5      (       aÓ  U R                   R                  nUR                   R(                  S-  SUR                   R                  -  S-  -  U-  nSUR                   R(                  -  S-  U-  n[        R
                  R                  UR*                  R                  US9  [        R
                  R                  UR,                  R                  US9  g[        U[.        5      (       aÏ  [        R
                  R                  UR0                  R                  UR2                  S-  U R                   R                  -  S9  SUR0                  l        [        R
                  R                  UR6                  R                  UR8                  S-  U R                   R                  -  S9  SUR6                  l        g[        U[        R:                  5      (       aJ  UR<                  R>                  RA                  5         UR                  R>                  RC                  S5        g[        U[        RD                  5      (       ak  UR                  R>                  R                  SU R                   R                  S9  UR<                  b%  UR<                  R>                  RA                  5         gg[        U[        RF                  5      (       ax  UR                  R>                  R                  SU R                   R                  S9  URH                  b2  UR                  R>                  URH                     RA                  5         ggg)	zInitialize the weightsrX  rH  )ÚmeanÚstd)r¶  r˜   Tg      ð?N)%rx   Úinitializer_factorrø   r„  r"   ÚinitÚnormal_r  rI  r’  r  Úinitializer_ranger•  rE  r  rQ  rO  rP  rR  rb  rf   re  rf  ÚAltCLIPModelÚtext_projectionÚtext_embed_dimÚ_is_hf_initializedÚvisual_projectionÚvision_embed_dimrm   rŠ  ÚdataÚzero_Úfill_rž   rd   rU   )rA   r;  ÚfactorÚin_proj_stdÚout_proj_stdÚfc_stds         r(   Ú_init_weightsÚ$AltCLIPPreTrainedModel._init_weights2  sú  € à—‘×/Ñ/ˆÜfÔ5×6Ñ6Ø—[‘[×3Ñ3ˆFÜG‰GO‰O˜F×2Ñ2¸À&×BRÑBRÐTXÑBXÐ[aÑBaˆOÑbÜG‰GO‰O˜F×2Ñ2×9Ñ9¸v¿}¹}×?^Ñ?^ÐagÑ?gˆOÑhÜG‰GO‰O˜F×5Ñ5×<Ñ<À&Ç-Á-×BaÑBaÐdjÑBjˆOÒkÜ˜Ô 0×1Ò1Ø—[‘[×3Ñ3ˆFØ!×+Ñ+¨TÑ1°q¸6¿=¹=×;ZÑ;ZÑ7ZÐ_cÑ6cÑdÐgmÑmˆKØ"×,Ñ,¨dÑ2°fÑ<ˆLÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸO™O×2Ñ2¸ˆOÒEÜ˜¤
×+Ñ+Ø—[‘[×3Ñ3ˆFØ!Ÿ=™=×4Ñ4°dÑ:ÀÀFÇMÁM×DcÑDcÑ@cÐhlÑ?lÑmÐpvÑvˆKØ˜&Ÿ-™-×3Ñ3Ñ3¸Ñ<¸vÑEˆFÜG‰GO‰O˜FŸJ™J×-Ñ-°6ˆOÑ:ÜG‰GO‰O˜FŸJ™J×-Ñ-°;ˆOÒ?Ü˜¤×-Ñ-ÜG‰GO‰OØ×&Ñ&×-Ñ-Ø×)Ñ)¨4Ñ/°$·+±+×2PÑ2PÑPð ñ ð 9=ˆF×"Ñ"Ô5ÜG‰GO‰OØ×(Ñ(×/Ñ/Ø×+Ñ+¨TÑ1°D·K±K×4RÑ4RÑRð ñ ð ;?ˆF×$Ñ$Õ7Ü˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤§	¡	×*Ñ*ØM‰M×Ñ×&Ñ&¨C°T·[±[×5SÑ5SÐ&ÑTØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5SÑ5SÐ&ÑTØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ð .r*   rH   N)rI   rJ   rK   rL   r   rO   Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulerÈ  rP   rH   r*   r(   r²  r²  +  s   ‡ àÓØ!ÐØ&*Ð#ØÐõ+?r*   r²  c                   ó°   ^ • \ rS rSrS\4U 4S jjr\\     SS\\	R                     S\\   S\\   S\\   S\\   S	\\\4   4S
 jj5       5       rSrU =r$ )ÚAltCLIPVisionTransformeri`  rx   c                 ó  >• [         TU ]  5         Xl        UR                  n[	        U5      U l        [        R                  " X!R                  S9U l	        [        U5      U l        [        R                  " X!R                  S9U l        g rÓ   )rb   rc   rx   rf   r„  r‡   r"   rm   rn   Úpre_layrnormrw  ÚencoderÚpost_layernorm)rA   rx   rI  ry   s      €r(   rc   Ú!AltCLIPVisionTransformer.__init__a  sd   ø€ Ü‰ÑÔØŒØ×&Ñ&ˆ	ä1°&Ó9ˆŒÜŸLšL¨×8MÑ8MÑNˆÔÜ% fÓ-ˆŒÜ Ÿlšl¨9×:OÑ:OÑPˆÕr*   r©  r©   r$  r%  r§  r   c                 ó¨  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eU R                  XS9nU R                  U5      nU R                  UUUSS9nUS   nUS S 2SS S 24   n	U R                  U	5      n	[        UU	UR                  UR                  S9$ )Nz You have to specify pixel_values)r§  T)r   r©   r$  r%  r   ©r(  Úpooler_outputr¦   r)  )rx   r©   r$  r}  rš   r‡   rÐ  rÑ  rÒ  r   r¦   r)  )
rA   r©  r©   r$  r%  r§  r¦   Úencoder_outputsr(  r9  s
             r(   rˆ   Ú AltCLIPVisionTransformer.forwardk  sõ   € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ?Ó@Ð@àŸ™¨˜ÐhˆØ×)Ñ)¨-Ó8ˆàŸ,™,Ø'Ø/Ø!5Øð	 'ð 
ˆð ,¨AÑ.ÐØ)ª!¨Q²¨'Ñ2ˆØ×+Ñ+¨MÓ:ˆä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r*   )rx   r‡   rÑ  rÒ  rÐ  )NNNNF)rI   rJ   rK   rL   r   rc   r   r   r   r%   rN   rÏ   r   rD   r   rˆ   rP   rŽ   r   s   @r(   rÎ  rÎ  `  sŸ   ø† ðQÐ2÷ Qð Øð 59Ø,0Ø/3Ø&*Ø38ñ$
à˜u×0Ñ0Ñ1ð$
ð $ D™>ð$
ð ' t™nð	$
ð
 ˜d‘^ð$
ð #+¨4¡.ð$
ð 
ˆuÐ0Ð0Ñ	1ô$
ó ó ö$
r*   rÎ  c                   óÒ   ^ • \ rS rSr% \\S'   SrS\4U 4S jjrS\R                  4S jr
\     SS\\R                     S\\   S\\   S	\S
\\   S\\\4   4S jj5       rSrU =r$ )ÚAltCLIPVisionModeli”  rx   r©  c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g rÌ   )rb   rc   rÎ  Úvision_modelÚ	post_initrw   s     €r(   rc   ÚAltCLIPVisionModel.__init__˜  s'   ø€ Ü‰Ñ˜Ô Ü4°VÓ<ˆÔà‰Õr*   r   c                 óB   • U R                   R                  R                  $ rÌ   )rÜ  r‡   r’  rF   s    r(   Úget_input_embeddingsÚ'AltCLIPVisionModel.get_input_embeddingsž  s   € Ø× Ñ ×+Ñ+×;Ñ;Ð;r*   r©   r$  r§  r%  c                 ó^   • Ub  UOU R                   R                  nU R                  UUUUUS9$ )aN  
Examples:

```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AltCLIPVisionModel

>>> model = AltCLIPVisionModel.from_pretrained("BAAI/AltCLIP")
>>> processor = AutoProcessor.from_pretrained("BAAI/AltCLIP")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled CLS states
```©r©  r©   r$  r§  r%  )rx   r}  rÜ  )rA   r©  r©   r$  r§  r%  s         r(   rˆ   ÚAltCLIPVisionModel.forward¡  sA   € ð: &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà× Ñ Ø%Ø/Ø!5Ø%=Ø#ð !ð 
ð 	
r*   )rÜ  ©NNNFN)rI   rJ   rK   rL   r   rO   Úmain_input_namerc   r"   ÚModulerà  r   r   r%   rN   rÏ   r   rD   r   rˆ   rP   rŽ   r   s   @r(   rÚ  rÚ  ”  s¬   ø‡ ØÓØ$€OðÐ2÷ ð< b§i¡iô <ð ð 59Ø,0Ø/3Ø).Ø&*ñ$
à˜u×0Ñ0Ñ1ð$
ð $ D™>ð$
ð ' t™nð	$
ð
 #'ð$
ð ˜d‘^ð$
ð 
ˆuÐ0Ð0Ñ	1ô$
ó ö$
r*   rÚ  a=  
    The model behaves as an encoder following the architecture described in *Attention is
    all you need*_ by Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz
    Kaiser and Illia Polosukhin.

    .. _*Attention is all you need*: https://arxiv.org/abs/1706.03762
    )Úcustom_introc                   ón  ^ • \ rS rSr% \\S'   SU 4S jjrS rS rS r	\
         SS\\R                     S\\R                     S	\\R                     S
\\R                     S\\R                     S\\R                     S\\   S\\   S\\   S\\\R                     \4   4S jj5       rSrU =r$ )ÚAltRobertaModeliÉ  rx   c                 óÂ   >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        U(       a  [        U5      OSU l        U R                  5         g)z^
add_pooling_layer (bool, *optional*, defaults to `True`):
    Whether to add a pooling layer
N)
rb   rc   rx   rR   r‡   r  rÑ  r2  ÚpoolerrÝ  )rA   rx   Úadd_pooling_layerry   s      €r(   rc   ÚAltRobertaModel.__init__Ö  sL   ø€ ô
 	‰Ñ˜Ô ØŒä.¨vÓ6ˆŒÜ(¨Ó0ˆŒæ2CÔ& vÔ.ÈˆŒð 	‰Õr*   c                 ó.   • U R                   R                  $ rÌ   ©r‡   rh   rF   s    r(   rà  Ú$AltRobertaModel.get_input_embeddingsæ  s   € Ø‰×.Ñ.Ð.r*   c                 ó$   • XR                   l        g rÌ   rð  ©rA   r¡   s     r(   Úset_input_embeddingsÚ$AltRobertaModel.set_input_embeddingsé  s   € Ø*/‰Õ'r*   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)ÚitemsrÑ  r  r  rí   )rA   Úheads_to_pruner  rë   s       r(   Ú_prune_headsÚAltRobertaModel._prune_headsì  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r*   r€   r§   r_   rZ   r¨   r   r©   r$  r%  r   c
           	      óð  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU	b  U	OU R                   R                  n	Ub  Ub  [	        S5      eUb"  U R                  X5        UR                  5       n
O"Ub  UR                  5       S S n
O[	        S5      eU
u  p¼Ub  UR                  OUR                  nUc  [        R                  " X¼4US9nUcr  [        U R                  S5      (       a3  U R                  R                  S S 2S U24   nUR                  X¼5      nUnO$[        R                  " U
[        R                  US9nU R!                  X*5      nU R#                  XPR                   R$                  5      nU R                  UUUUS9nU R'                  UUUUUSS	9nUS
   nU R(                  b  U R)                  U5      OS n[+        UUUR,                  UR.                  S9$ )NzDYou cannot specify both input_ids and inputs_embeds at the same timer\   z5You have to specify either input_ids or inputs_embedsr    r_   r|   )r€   rZ   r_   r   T)r§   r¨   r©   r$  r%  r   rÕ  )rx   r©   r$  r}  rš   Ú%warn_if_padding_and_no_attention_maskru   r!   r%   Úonesr   r‡   r_   rs   rt   rv   Úget_extended_attention_maskÚget_head_maskr  rÑ  rì  r   r¦   r)  )rA   r€   r§   r_   rZ   r¨   r   r©   r$  r%  rƒ   r\  r„   r!   r…   r†   Úextended_attention_maskÚembedding_outputr×  Úsequence_outputr9  s                        r(   rˆ   ÚAltRobertaModel.forwardô  s  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*‰KØÑ&Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUà!,Ñˆ
Ø%.Ñ%:×!Ò!À×@TÑ@TˆàÑ!Ü"ŸZšZ¨*Ð)AÈ6ÑRˆNàÑ!Üt—‘Ð(8×9Ñ9Ø*.¯/©/×*HÑ*HÊÈKÈZÈKÈÑ*XÐ'Ø3J×3QÑ3QÐR\Ó3iÐ0Ø!A‘ä!&§¢¨[ÄÇ
Á
ÐSYÑ!Zð 15×0PÑ0PÐQ_Ó0mÐð ×&Ñ& y·+±+×2OÑ2OÓPˆ	àŸ?™?ØØ%Ø)Ø'ð	 +ð 
Ðð Ÿ,™,ØØ2ØØ/Ø!5Øð 'ð 
ˆð *¨!Ñ,ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆä)Ø-Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r*   )rx   r‡   rÑ  rì  )T©	NNNNNNNNN)rI   rJ   rK   rL   r   rO   rc   rà  rô  rù  r   r   r%   rÎ   rÏ   r   rD   r   rˆ   rP   rŽ   r   s   @r(   rê  rê  É  s  ø‡ ð Ó÷ò /ò0òCð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø,0Ø/3Ø&*ñG
à˜EŸL™LÑ)ðG
ð ! §¡Ñ.ðG
ð ! §¡Ñ.ð	G
ð
 ˜uŸ|™|Ñ,ðG
ð ˜EŸL™LÑ)ðG
ð   §¡Ñ-ðG
ð $ D™>ðG
ð ' t™nðG
ð ˜d‘^ðG
ð 
ˆuU—\‘\Ñ"Ð$PÐPÑ	QôG
ó öG
r*   rê  c                   óÆ  ^ • \ rS rSr% \\S'   U 4S jrS\R                  4S jr	S\R                  SS4S jrSS	\\   S\R                  4U 4S
 jjjr\\         SS\\R$                     S\\R$                     S\\R$                     S\\R$                     S\\R$                     S\\R$                     S\\   S\\   S\\   S\\\4   4S jj5       5       rSrU =r$ )ÚAltCLIPTextModeli@  rx   c                 ó  >• [         TU ]  U5        [        USS9U l        [        R
                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  S9U l        U R                  5         g )NF)rí  rV   )rb   rc   rê  Úrobertar"   rž   rf   Úproject_dimÚtransformationrm   rn   Úpre_LNrÝ  rw   s     €r(   rc   ÚAltCLIPTextModel.__init__C  se   ø€ Ü‰Ñ˜Ô Ü& vÀÑGˆŒÜ Ÿiši¨×(:Ñ(:¸F×<NÑ<NÓOˆÔÜ—l’l 6×#5Ñ#5¸6×;PÑ;PÑQˆŒØ‰Õr*   r   c                 óB   • U R                   R                  R                  $ rÌ   ©r  r‡   rh   rF   s    r(   rà  Ú%AltCLIPTextModel.get_input_embeddingsJ  s   € Ø|‰|×&Ñ&×6Ñ6Ð6r*   r¡   Nc                 ó8   • XR                   R                  l        g rÌ   r  ró  s     r(   rô  Ú%AltCLIPTextModel.set_input_embeddingsM  s   € Ø27‰×ÑÕ/r*   Únew_num_tokensc                 ó"   >• [         TU ]  U5      $ rÌ   )rb   Úresize_token_embeddings)rA   r  ry   s     €r(   r  Ú(AltCLIPTextModel.resize_token_embeddingsP  s   ø€ Ü‰wÑ.¨~Ó>Ð>r*   r€   r§   r_   rZ   r¨   r   r©   r%  r$  c
                 ó  • Ub  UOU R                   R                  nU R                  UUUUUUUU	SS9	n
U
S   nU R                  U5      nU R	                  U5      nUSS2S4   n[        UUU
R                  U
R                  S9$ )aÓ  
Examples:

```python
>>> from transformers import AutoProcessor, AltCLIPTextModel

>>> model = AltCLIPTextModel.from_pretrained("BAAI/AltCLIP")
>>> processor = AutoProcessor.from_pretrained("BAAI/AltCLIP")

>>> texts = ["it's a cat", "it's a dog"]

>>> inputs = processor(text=texts, padding=True, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled CLS states
```NT)	r€   r§   r_   rZ   r¨   r   r©   r$  r%  r   rÕ  )rx   r}  r  r  r
  r   r¦   r)  )rA   r€   r§   r_   rZ   r¨   r   r©   r%  r$  rÊ   r  Úprojection_staterÖ  s                 r(   rˆ   ÚAltCLIPTextModel.forwardS  sª   € ð@ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØ)Ø)Ø%ØØ'Ø/Ø!5Øð ð 

ˆð " !™*ˆð Ÿ+™+ oÓ6ˆð  ×.Ñ.¨Ó?ÐØ(ª¨A¨Ñ.ˆä6Ø.Ø'Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
r*   )r  r  r
  rÌ   r  )rI   rJ   rK   rL   r   rO   rc   r"   rç  rà  rd   rô  r   r›   r  r   r   r%   rÎ   rÏ   r   rD   r   rˆ   rP   rŽ   r   s   @r(   r  r  @  s=  ø‡ ØÓõð7 b§i¡iô 7ð8¨"¯,©,ð 8¸4ô 8ñ?°h¸s±mð ?ÈrÏ|É|÷ ?ð ?ð Øð -1Ø15Ø15Ø/3Ø,0Ø04Ø,0Ø&*Ø/3ñ;
à˜EŸL™LÑ)ð;
ð ! §¡Ñ.ð;
ð ! §¡Ñ.ð	;
ð
 ˜uŸ|™|Ñ,ð;
ð ˜EŸL™LÑ)ð;
ð   §¡Ñ-ð;
ð $ D™>ð;
ð ˜d‘^ð;
ð ' t™nð;
ð 
ˆuÐ=Ð=Ñ	>ô;
ó ó ö;
r*   r  c                   óh  ^ • \ rS rSr% \\S'   S\4U 4S jjr\       SS\\	R                     S\\	R                     S\\	R                     S\\   S\\   S	\\   S
\	R                  4S jj5       r\     SS\\	R                     S\\   S\\   S\S	\\   S
\	R                  4S jj5       r\          SS\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\   S\\   S\\   S\S	\\   S
\\\4   4S jj5       rSrU =r$ )r»  i“  rx   c                 ó‚  >• [         TU ]  U5        [        UR                  [        5      (       d"  [        S[        UR                  5       S35      e[        UR                  [        5      (       d"  [        S[        UR                  5       S35      eUR                  nUR                  nUR                  Ul	        UR                  U l
        UR                  U l        UR                  U l        [        U5      U l        [#        U5      U l        [&        R(                  " U R                  U R                  SS9U l        [&        R(                  " U R                  U R                  SS9U l        [&        R.                  " [0        R2                  " U R4                  R6                  5      5      U l        U R;                  5         g )NzRconfig.vision_config is expected to be of type AltCLIPVisionConfig but is of type Ú.zNconfig.text_config is expected to be of type AltCLIPTextConfig but is of type F)rŠ  )rb   rc   rø   Úvision_configr   Ú	TypeErrorÚtypeÚtext_configr   rä   Úprojection_dimr	  r½  rf   rÀ  r  Ú
text_modelrÎ  rÜ  r"   rž   r¿  r¼  r  r%   Útensorrx   Úlogit_scale_init_valueÚlogit_scalerÝ  )rA   rx   r  r  ry   s       €r(   rc   ÚAltCLIPModel.__init__–  sk  ø€ Ü‰Ñ˜Ô ä˜&×.Ñ.Ô0C×DÑDÜðÜ˜×-Ñ-Ó.Ð/¨qð2óð ô ˜&×,Ñ,Ô.?×@Ñ@ÜðÜ˜×+Ñ+Ó,Ð-¨Qð0óð ð
 ×(Ñ(ˆØ×,Ñ,ˆà-3×-HÑ-HˆÔ*à$×3Ñ3ˆÔØ)×5Ñ5ˆÔØ -× 9Ñ 9ˆÔä*¨;Ó7ˆŒÜ4°]ÓCˆÔä!#§¢¨4×+@Ñ+@À$×BUÑBUÐ\aÑ!bˆÔÜ!Ÿyšy¨×)<Ñ)<¸d×>QÑ>QÐX]Ñ^ˆÔÜŸ<š<¬¯ª°T·[±[×5WÑ5WÓ(XÓYˆÔð 	‰Õr*   r€   r§   rZ   r©   r$  r%  r   c           
      óþ   • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  UUUUUUUS9nUS   n	U R                  U	5      n
U
$ )a/  
Returns:
    text_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by
    applying the projection layer to the pooled output of [`AltCLIPTextModel`].

Examples:

```python
>>> from transformers import AutoProcessor, AltCLIPModel

>>> model = AltCLIPModel.from_pretrained("BAAI/AltCLIP")
>>> processor = AutoProcessor.from_pretrained("BAAI/AltCLIP")
>>> inputs = processor(text=["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")
>>> text_features = model.get_text_features(**inputs)
```)r€   r§   rZ   r_   r©   r$  r%  r   )rx   r©   r$  r}  r!  r¼  )rA   r€   r§   rZ   r_   r©   r$  r%  Útext_outputsr9  Útext_featuress              r(   Úget_text_featuresÚAltCLIPModel.get_text_features·  s›   € ð6 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—‘ØØ)Ø%Ø)Ø/Ø!5Ø#ð 'ð 
ˆð % Q™ˆØ×,Ñ,¨]Ó;ˆàÐr*   r©  r§  c                 óú   • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  UUUUUS9nUS   nU R                  U5      nU$ )a²  
Returns:
    image_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by
    applying the projection layer to the pooled output of [`AltCLIPVisionModel`].

Examples:

```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AltCLIPModel

>>> model = AltCLIPModel.from_pretrained("BAAI/AltCLIP")
>>> processor = AutoProcessor.from_pretrained("BAAI/AltCLIP")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(images=image, return_tensors="pt")
>>> image_features = model.get_image_features(**inputs)
```rã  r   )rx   r©   r$  r}  rÜ  r¿  )	rA   r©  r©   r$  r§  r%  Úvision_outputsr9  Úimage_featuress	            r(   Úget_image_featuresÚAltCLIPModel.get_image_featuresæ  s˜   € ð: 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×*Ñ*Ø%Ø/Ø!5Ø%=Ø#ð +ð 
ˆð ' qÑ)ˆØ×/Ñ/°Ó>ˆàÐr*   r_   Úreturn_lossc           
      ó¨  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU
b  U
OU R                   R                  n
U R	                  UUUUUUU
S9nU R                  UUUU	U
S9nUS   nU R                  U5      nUS   nU R                  U5      nXÝR                  SSSS9-  nXîR                  SSSS9-  nU R                  R                  5       n[        R                  " XíR                  5       5      U-  nUR                  nSnU(       a  [        U5      nU
(       d  UUXíX¼4nUb  U4U-   $ U$ [!        UUUUUUUS	9$ )
a0  
return_loss (`bool`, *optional*):
    Whether or not to return the contrastive loss.

Examples:

```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AltCLIPModel

>>> model = AltCLIPModel.from_pretrained("BAAI/AltCLIP")
>>> processor = AutoProcessor.from_pretrained("BAAI/AltCLIP")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(
...     text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True
... )
>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities
```N)r€   r§   r_   rZ   r©   r$  r%  rã  r   r˜   r\   T)r>  r­   Úkeepdim)r4   r5   r6   r7   r8   r9   r:   )rx   r©   r$  r}  r!  rÜ  r¿  r¼  Únormr$  Úexpr%   r±   r-   ÚTr0   r2   )rA   r€   r©  r§   rZ   r_   r0  r©   r$  r§  r%  r'  r,  r8   r7   r$  r6   r5   r4   rå   s                       r(   rˆ   ÚAltCLIPModel.forward  s¥  € ðJ 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—‘ØØ)Ø)Ø%Ø/Ø!5Ø#ð 'ð 
ˆð ×*Ñ*Ø%Ø/Ø!5Ø%=Ø#ð +ð 
ˆð & aÑ(ˆØ×-Ñ-¨lÓ;ˆà" 1‘oˆØ×*Ñ*¨;Ó7ˆð $×&7Ñ&7¸!ÀÈTÐ&7Ð&RÑRˆØ!×$4Ñ$4°q¸bÈ$Ð$4Ð$OÑOˆð ×&Ñ&×*Ñ*Ó,ˆÜŸ,š, {·N±NÓ4DÓEÈÑSˆØ*×,Ñ,ÐàˆÞÜ˜_Ó-ˆDæØ&¨¸ÐT`ÐqˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEäØØ-Ø+Ø#Ø%Ø*Ø .ñ
ð 	
r*   )r$  r   r½  r!  r¼  rÀ  rÜ  r¿  )NNNNNNNrå  )
NNNNNNNNFN)rI   rJ   rK   rL   r   rO   rc   r   r   r%   rÎ   rÏ   rN   r)  r.  Ú
LongTensorr   rD   r2   rˆ   rP   rŽ   r   s   @r(   r»  r»  “  s*  ø‡ ØÓð˜}÷ ðB ð -1Ø15Ø/3ØØ,0Ø/3Ø&*ñ,à˜EŸL™LÑ)ð,ð ! §¡Ñ.ð,ð ˜uŸ|™|Ñ,ð	,ð $ D™>ð,ð ' t™nð,ð ˜d‘^ð,ð 
×	Ñ	ô,ó ð,ð\ ð 59Ø,0Ø/3Ø).Ø&*ñ-à˜u×0Ñ0Ñ1ð-ð $ D™>ð-ð ' t™nð	-ð
 #'ð-ð ˜d‘^ð-ð 
×	Ñ	ô-ó ð-ð^ ð 15Ø48Ø15Ø37Ø15Ø&*Ø,0Ø/3Ø).Ø&*ñ[
à˜E×,Ñ,Ñ-ð[
ð ˜u×0Ñ0Ñ1ð[
ð ! §¡Ñ.ð	[
ð
 ˜u×/Ñ/Ñ0ð[
ð ! §¡Ñ.ð[
ð ˜d‘^ð[
ð $ D™>ð[
ð ' t™nð[
ð #'ð[
ð ˜d‘^ð[
ð 
ˆumÐ#Ñ	$ô[
ó ö[
r*   r»  c                 óº   • U R                  U5      R                  5       n[        R                  " USS9R	                  U5      U-   U-  nUR                  5       U-   $ )zí
Replace non-padding symbols with their position numbers. Position numbers begin at padding_idx+1. Padding symbols
are ignored. This is modified from fairseq's `utils.make_positions`.

Args:
    x: torch.Tensor x:

Returns: torch.Tensor
r   r¬   )Úner›   r%   ÚcumsumÚtype_asrv   )r€   rU   r‚   ÚmaskÚincremental_indicess        r(   r}   r}   v  sW   € ð <‰<˜Ó$×(Ñ(Ó*€DÜ Ÿ<š<¨°!Ñ4×<Ñ<¸TÓBÐE[Ñ[Ð_cÑcÐØ×#Ñ#Ó%¨Ñ3Ð3r*   )r²  rÚ  r  r»  )rX  )r   )HrM   r´   Údataclassesr   Útypingr   r   r   r   r%   Útorch.nnr"   Útorch.utils.checkpointÚactivationsr	   Úmodeling_layersr
   Úmodeling_outputsr   r   r   r   Úmodeling_utilsr   r   Úpytorch_utilsr   r   r   Úutilsr   r   r   r   r   Úconfiguration_altclipr   r   r   Ú
get_loggerrI   rY  rÎ   r)   r0   r2   rç  rR   r‘   rÑ   rã   rá   rõ   r  r  r  r2  ÚfloatrC  rE  rb  rk  rw  r„  r²  rÎ  rÚ  rê  r  r»  r}   Ú__all__rH   r*   r(   Ú<module>rL     sª  ðñ ã Ý !ß 1Ó 1ã Ý Û å !Ý 9÷ó ÷ Gß lÑ lß VÕ Vß XÑ Xð 
×	Ò	˜HÓ	%€ð
`˜UŸ\™\ð `¨e¯l©lô `ð-˜%Ÿ,™,ð -¨5¯<©<ô -ð Øô 
Kó  
ó ó ð 
ôHV=˜2Ÿ9™9ô V=ôrS˜bŸi™iô Sôn˜2Ÿ9™9ô ð Ð$ð&Ð "ô
*˜"Ÿ)™)ô *ô\˜RŸY™Yô ô r—y‘yô ô%Ð0ô %ôR.
˜Ÿ	™	ô .
ôdr—y‘yô ð. ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô.L)r—y‘yô L)ô`—‘ô ô/Ð4ô /ôdT
R—Y‘Yô T
ôpP˜bŸi™iô Pðf ô1?˜_ó 1?ó ð1?ôh1
˜rŸy™yô 1
ôh2
Ð/ô 2
ñj ðñôk
Ð,ó k
óðk
ô\P
Ð-ô P
ôf_
Ð)ô _
ôF4ò  _r*   