ó
    <±hál  ã                   óð  • S r SSKJr  SSKJrJr  SSKrSSKrSSKJr  SSK	J
r
JrJr  SSKJr  SS	KJr  SS
KJr  SSKJr  SSKJr  SSKJrJrJrJrJr  SSKJr  SSKJ r   \RB                  " \"5      r#\\" SS9 " S S\5      5       5       r$\\" SS9 " S S\5      5       5       r% " S S\RL                  5      r'\ " S S\5      5       r(\" SS9 " S S\(5      5       r)\" S S9 " S! S"\(\5      5       r*/ S#Qr+g)$zPyTorch PaliGemmamodel.é    )Ú	dataclass)ÚOptionalÚUnionN)Únné   )ÚCacheÚHybridCacheÚStaticCache)ÚGenerationMixin)ÚFlashAttentionKwargs)ÚBaseModelOutputWithPast)ÚPreTrainedModel)ÚUnpack)ÚModelOutputÚTransformersKwargsÚauto_docstringÚcan_return_tupleÚloggingé   )Ú	AutoModelé   )ÚPaliGemmaConfigzN
    Base class for Paligemma outputs, with hidden states and attentions.
    )Úcustom_introc                   óB   • \ rS rSr% SrSr\\R                     \	S'   Sr
g)ÚPaligemmaModelOutputWithPasté,   aÔ  
past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of shape
    `(batch_size, num_heads, sequence_length, embed_size_per_head)`)

    Contains pre-computed hidden-states (key and values in the self-attention blocks) that can be used (see
    `past_key_values` input) to speed up sequential decoding.
image_hidden_states (`torch.FloatTensor`, *optional*):
    A `torch.FloatTensor` of size `(batch_size, num_images, sequence_length, hidden_size)`.
    image_hidden_states of the model produced by the vision encoder and after projecting the last hidden state.
NÚimage_hidden_states© )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   r   ÚtorchÚFloatTensorÚ__annotations__Ú__static_attributes__r   ó    Úh/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/paligemma/modeling_paligemma.pyr   r   ,   s   ‡ ñ
ð 8<Ð˜ %×"3Ñ"3Ñ4Ö;r(   r   zU
    Base class for PaliGemma causal language model (or autoregressive) outputs.
    c                   ó&  • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\\\R                     \4      \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   Sr\\R                     \	S	'   S
rg)ÚPaliGemmaCausalLMOutputWithPastéB   a-  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
    Language modeling loss (for next-token prediction).
logits (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.text_config.vocab_size)`):
    Prediction scores of the language modeling head (scores for each vocabulary token before SoftMax).
past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of shape
    `(batch_size, num_heads, sequence_length, embed_size_per_head)`)

    Contains pre-computed hidden-states (key and values in the self-attention blocks) that can be used (see
    `past_key_values` input) to speed up sequential decoding.
image_hidden_states (`torch.FloatTensor`, *optional*):
    A `torch.FloatTensor` of size `(batch_size, num_images, sequence_length, hidden_size)`.
    image_hidden_states of the model produced by the vision encoder after projecting last hidden state.
NÚlossÚlogitsÚpast_key_valuesÚhidden_statesÚ
attentionsr   r   )r   r    r!   r"   r#   r-   r   r$   r%   r&   r.   r/   r   Úlistr   r0   Útupler1   r   r'   r   r(   r)   r+   r+   B   s¡   ‡ ñð  )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø*.€FˆHU×&Ñ&Ñ'Ó.ØGK€OX˜e D¨×):Ñ):Ñ$;¸UÐ$BÑCÑDÓKØ8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ó9Ø7;Ð˜ %×"3Ñ"3Ñ4Ö;r(   r+   c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )ÚPaliGemmaMultiModalProjectoréa   Úconfigc                 ó¨   >• [         TU ]  5         [        R                  " UR                  R
                  UR                  R                  SS9U l        g )NT©Úbias)ÚsuperÚ__init__r   ÚLinearÚvision_configÚhidden_sizeÚprojection_dimÚlinear©Úselfr7   Ú	__class__s     €r)   r<   Ú%PaliGemmaMultiModalProjector.__init__b   s;   ø€ Ü‰ÑÔÜ—i’i × 4Ñ 4× @Ñ @À&×BVÑBV×BeÑBeÐlpÑqˆr(   c                 ó(   • U R                  U5      nU$ ©N©rA   )rC   Úimage_featuresr0   s      r)   ÚforwardÚ$PaliGemmaMultiModalProjector.forwardf   s   € ØŸ™ NÓ3ˆàÐr(   rH   )	r   r    r!   r"   r   r<   rJ   r'   Ú__classcell__©rD   s   @r)   r5   r5   a   s   ø† ðr˜÷ r÷ð r(   r5   c                   óL   • \ rS rSr% \\S'   SrSrS/rSr	Sr
SrSrSrSrS rSrg	)
ÚPaliGemmaPreTrainedModelél   r7   Ú Tr5   r/   c                 ób  • [        U R                  SU R                  R                  5       R                  5      n[	        U[
        R                  5      (       aW  UR                  R                  R                  SUS9  UR                  b%  UR                  R                  R                  5         g g g )NÚinitializer_rangeç        )ÚmeanÚstd)Úgetattrr7   Úget_text_configrS   Ú
isinstancer   r=   ÚweightÚdataÚnormal_r:   Úzero_)rC   ÚmodulerV   s      r)   Ú_init_weightsÚ&PaliGemmaPreTrainedModel._init_weightsz   s‚   € ô d—k‘kÐ#6¸¿¹×8SÑ8SÓ8U×8gÑ8gÓhˆäfœbŸi™i×(Ñ(ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ð )r(   r   N)r   r    r!   r"   r   r&   Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_skip_keys_device_placementÚ_can_compile_fullgraphÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnÚ_supports_attention_backendr_   r'   r   r(   r)   rO   rO   l   sE   ‡ àÓØÐØ&*Ð#Ø7Ð8ÐØ"3Ðà!ÐØÐØ€NØÐØ"&Ðõ)r(   rO   z{
    The Base Paligemma model which consists of a vision backbone and a language model withou language modeling head.,
    c            #       óx  ^ • \ rS rSrSS0rSrS\4U 4S jjrS rS r	S	 r
S
 r     S!S\\   4S jjrS\R                   4S jrS\R$                  S\R                   S\R                   4S jr\\             S"S\R$                  S\R                   S\\R,                     S\\R$                     S\\\\R                      \4      S\\R$                     S\\R$                     S\\R                      S\\R$                     S\\   S\\   S\\   S\\   S\\   S\\\4   4S jj5       5       rS rU =r $ )#ÚPaliGemmaModelé…   zlanguage_model.modelÚlanguage_modelFr7   c                 ó  >• [         TU ]  U5        [        R                  " UR                  S9U l        [        U5      U l        UR                  R                  U l	        [        R                  " UR                  S9nX l
        U R                  R                  b  U R                  R                  OSU l        U R                  5         g )N)r7   éÿÿÿÿ)r;   r<   r   Úfrom_configr>   Úvision_towerr5   Úmulti_modal_projectorÚtext_configÚ
vocab_sizerm   r7   Úpad_token_idÚ	post_init)rC   r7   rm   rD   s      €r)   r<   ÚPaliGemmaModel.__init__   s“   ø€ Ü‰Ñ˜Ô Ü%×1Ò1¸×9MÑ9MÑNˆÔÜ%AÀ&Ó%IˆÔ"Ø ×,Ñ,×7Ñ7ˆŒä"×.Ò.°f×6HÑ6HÑIˆØ,Ôà8<¿¹×8PÑ8PÑ8\˜DŸK™K×4Ò4ÐbdˆÔØ‰Õr(   c                 ó6   • U R                   R                  5       $ rG   )rm   Úget_input_embeddings©rC   s    r)   ry   Ú#PaliGemmaModel.get_input_embeddingsœ   s   € Ø×"Ñ"×7Ñ7Ó9Ð9r(   c                 ó:   • U R                   R                  U5        g rG   )rm   Úset_input_embeddings©rC   Úvalues     r)   r}   Ú#PaliGemmaModel.set_input_embeddings    s   € Ø×Ñ×0Ñ0°Õ7r(   c                 ó   • Xl         g rG   ©rm   ©rC   Údecoders     r)   Úset_decoderÚPaliGemmaModel.set_decoder£   s   € Ø%Õr(   c                 ó   • U R                   $ rG   r‚   rz   s    r)   Úget_decoderÚPaliGemmaModel.get_decoder¦   s   € Ø×"Ñ"Ð"r(   Úis_trainingc                 ó”  • U R                   R                  R                  S:X  a  Ub  SU;   a  U$ g Ub  UOU R                  n[	        U[
        5      n[        R                  " U R                  5      R                  nUc  UnUR                  S S u  pšU(       a  UR                  5       nO_[	        U[        5      (       a  UR                  5       nO9[	        U[        R                  5      (       a  UR                  S   O
US   U
-   S-   nUb  UR                  5       S:X  a  U$ [        R                  " X«4X€R                  UR                   S9nU
S:w  a(  U(       a  [        R"                  " USS	9nOSUS S 2S U
24'   U[        R$                  " X´R                   S
9UR'                  SS5      :„  -  nUS S S S 2S S 24   R)                  U	SSS5      nUb÷  UR+                  5       nUR                  S   nU(       ae  Uc  [-        S5      eUS S 2S S 2S S 2S U24   R/                  US S 2S S S S 24   R1                  UR                   5      S:H  S5      US S 2S S 2S S 2S U24'   US S 2S S 2S S 2S U24   US S 2S S S S 24   R1                  UR                   5      -   nUS:H  nUS S 2S S 2S S 2S U24   R/                  Xè5      US S 2S S 2S S 2S U24'   U$ )NÚflash_attention_2rT   r   ro   r   r   é   ©Ú
fill_valueÚdtypeÚdevice©Údiagonal©r‘   z/Token type ids must be provided during training)r7   rs   Ú_attn_implementationÚtrainingrY   r
   r$   Úfinfor   ÚminÚshapeÚget_max_cache_shaper	   ÚTensorÚdimÚfullr‘   ÚtriuÚarangeÚreshapeÚexpandÚcloneÚ
ValueErrorÚmasked_fillÚto)rC   Úattention_maskÚtoken_type_idsr/   Úcache_positionÚinput_tensorrŠ   Úusing_static_cacheÚ	min_dtypeÚinputs_lead_dimÚsequence_lengthÚtarget_lengthÚcausal_maskÚmask_lengthÚpadding_masks                  r)   Ú_update_causal_maskÚ"PaliGemmaModel._update_causal_mask©   s×  € ð ;‰;×"Ñ"×7Ñ7Ð;NÓNØÑ)¨c°^Ó.CØ%Ð%ØØ%0Ñ%<‘kÀ$Ç-Á-ˆÜ'¨¼ÓEÐÜ—K’K §
¡
Ó+×/Ñ/ˆ	ØÑØ)ˆLà+7×+=Ñ+=¸b¸qÐ+AÑ(ˆÞØ+×?Ñ?ÓA‰MÜ˜¬×5Ñ5Ø+×?Ñ?ÓA‰Mô ˜n¬e¯l©l×;Ñ;ð ×$Ñ$ RÒ(à# AÑ&¨Ñ8¸1Ñ<ð ð Ñ%¨.×*<Ñ*<Ó*>À!Ó*Cà!Ð!ä—j’jØÐ,¸Ï*É*Ð]k×]rÑ]rñ
ˆð ˜aÓÞÜ#Ÿjšj¨¸qÑA‘à36šAÐ/ Ð/Ð/Ñ0à”u—|’| M×:OÑ:OÑPÐSa×SiÑSiÐjlÐnoÓSpÑpÑpˆØ! $¨ªa²Ð"2Ñ3×:Ñ:¸?ÈAÈrÐSUÓVˆØÑ%Ø%×+Ñ+Ó-ˆKØ(×.Ñ.¨rÑ2ˆKö Ø!Ñ)Ü$Ð%VÓWÐWØ5@ÂÂAÂqÈ,È;È,ÐAVÑ5W×5cÑ5cØ"¢1 d¨D²!Ð#3Ñ4×7Ñ7¸×8JÑ8JÓKÈqÑPÐRSó6šAšq¢! \ k \Ð1Ñ2ð
 '¢qª!ªQ°°°Ð'<Ñ=ÀÊqÐRVÐX\Ò^_ÐO_Ñ@`×@cÑ@cÐdo×dvÑdvÓ@wÑwˆLØ'¨1Ñ,ˆLØ1<ºQÂÂ1ÀlÀ{ÀlÐ=RÑ1S×1_Ñ1_Øó2ˆKšš1ša  + Ð-Ñ.ð Ðr(   Úpixel_valuesc                 ó¬   • U R                  U5      nUR                  nU R                  U5      nX@R                  R                  R
                  S-  -  nU$ )ae  
Obtains image last hidden states from the vision tower and apply multimodal projection.

Args:
    pixel_values (`torch.FloatTensor]` of shape `(batch_size, channels, height, width)`)
       The tensors corresponding to the input images.
Returns:
    image_features (`torch.Tensor`): Image feature tensor of shape `(num_images, image_length, embed_dim)`).
g      à?)rq   Úlast_hidden_staterr   r7   rs   r?   )rC   r´   Úimage_outputsÚselected_image_featurerI   s        r)   Úget_image_featuresÚ!PaliGemmaModel.get_image_featuresí   sU   € ð ×)Ñ)¨,Ó7ˆØ!.×!@Ñ!@ÐØ×3Ñ3Ð4JÓKˆØ'¯;©;×+BÑ+B×+NÑ+NÐPSÑ+SÑTˆØÐr(   Ú	input_idsÚinputs_embedsrI   c           	      óJ  • Ucj  X R                  5       " [        R                  " U R                  R                  [        R
                  UR                  S95      :H  nUR                  S5      nOXR                  R                  :H  nUR                  5       nUR                  S5      R                  U5      R                  UR                  5      nUR                  S   UR                  S   -  nX$   R                  5       UR                  5       :w  a  [        SU SU 35      eU$ )zÖ
Obtains multimodal placeholdr mask from `input_ids` or `inputs_embeds`, and checks that the placeholder token count is
equal to the length of multimodal features. If the lengths are different, an error is raised.
)r   r‘   ro   r   r   z6Image features and image tokens do not match: tokens: z, features )ry   r$   Útensorr7   Úimage_token_idÚlongr‘   ÚallÚsumÚ	unsqueezeÚ	expand_asr¥   r™   Únumelr£   )rC   r»   r¼   rI   Úspecial_image_maskÚn_image_tokensÚn_image_featuress          r)   Úget_placeholder_maskÚ#PaliGemmaModel.get_placeholder_maský   s  € ð ÑØ!.×2KÑ2KÔ2MÜ—’˜TŸ[™[×7Ñ7¼u¿z¹zÐR_×RfÑRfÑgó3ñ "Ðð "4×!7Ñ!7¸Ó!;Ñà!*¯k©k×.HÑ.HÑ!HÐà+×/Ñ/Ó1ˆØ/×9Ñ9¸"Ó=×GÑGÈÓV×YÑYÐZg×ZnÑZnÓoÐØ)×/Ñ/°Ñ2°^×5IÑ5IÈ!Ñ5LÑLÐØÑ,×2Ñ2Ó4¸×8LÑ8LÓ8NÓNÜØHÈÐHXÐXcÐdtÐcuÐvóð ð "Ð!r(   r¦   Úposition_idsr/   r§   r¨   ÚlabelsÚ	use_cacheÚoutput_attentionsÚoutput_hidden_statesÚreturn_dictÚkwargsÚreturnc                 ó   • USL USL-  (       a  [        S5      eUb  UOU R                  R                  nUb  UOU R                  R                  nUb  UOU R                  R                  nUSL=(       a    U	SLnUbR  U R                  R
                  U R                  :¼  a.  XR                  R
                  :H  nUR                  5       nSUU'   OUnUc  U R                  5       " U5      nUcE  Ub  UR                  5       OSn[        R                  " UUUR                  S   -   UR                  S9nUc  UR                  S5      S-   nUbY  U R                  U5      nUR!                  UR                  UR"                  5      nU R%                  XUS9nUR'                  UU5      nU R)                  X6XWX5      nU R*                  " S
UUUUU
UUSUS.	UD6n[-        UR.                  UR0                  UR2                  UR4                  Ub  WS	9$ SS	9$ )áÉ  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.text_config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.text_config.vocab_size]`.

Example:

```python
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, PaliGemmaForConditionalGeneration

>>> model = PaliGemmaForConditionalGeneration.from_pretrained("google/paligemma2-3b-mix-224")
>>> processor = AutoProcessor.from_pretrained("google/paligemma2-3b-mix-224")

>>> prompt = "Where is the cat standing?"
>>> url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, text=prompt,  return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(**inputs,)
>>> processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Where is the cat standing?\nsnow"
```Nz:You must specify exactly one of input_ids or inputs_embedsr   r   r”   )r¼   rI   T)	r¦   rË   r/   r¼   rÍ   rÎ   rÏ   rÐ   r¨   )r¶   r/   r0   r1   r   r   )r£   r7   rÎ   rÏ   Úuse_return_dictr¿   rt   r¢   ry   Úget_seq_lengthr$   rŸ   r™   r‘   rÃ   r¹   r¥   r   rÉ   Úmasked_scatterr²   rm   r   r¶   r/   r0   r1   )rC   r»   r´   r¦   rË   r/   r§   r¨   r¼   rÌ   rÍ   rÎ   rÏ   rÐ   rÑ   rŠ   rÆ   Úllm_input_idsÚpast_seen_tokensrI   r¯   Úoutputss                         r)   rJ   ÚPaliGemmaModel.forward  sU  € ð^ ˜Ð -°tÐ";×<ÜÐYÓZÐZà1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$¨DÐ0×G°VÀ4Ð5Gˆð Ñ  T§[¡[×%?Ñ%?À4Ç?Á?Ó%RØ!*¯k©k×.HÑ.HÑ!HÐØ%ŸO™OÓ-ˆMØ01ˆMÐ,Ò-à%ˆMàÑ Ø ×5Ñ5Ô7¸ÓFˆMàÑ!ØCRÑC^˜×=Ñ=Ô?ÐdeÐÜ"Ÿ\š\Ø Ð"2°]×5HÑ5HÈÑ5KÑ"KÐTa×ThÑThñˆNð ÑØ)×3Ñ3°AÓ6¸Ñ:ˆLð Ñ#Ø!×4Ñ4°\ÓBˆNØ+×.Ñ.¨}×/CÑ/CÀ]×EXÑEXÓYˆNØ!%×!:Ñ!:ØÀ~ð ";ð "Ðð *×8Ñ8Ð9KÈ^Ó\ˆMà×.Ñ.Ø¨OÈ]ó
ˆð ×%Ò%ð 
Ø&Ø%Ø+Ø'ØØ/Ø!5ØØ)ñ
ð ñ
ˆô ,Ø%×7Ñ7Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø2>Ñ2J ñ
ð 	
ð
 QUñ
ð 	
r(   )rm   rr   ru   rq   rt   )NNNNN)NNNNNNNNNNNNN)!r   r    r!   r"   Ú_checkpoint_conversion_mappingÚaccepts_loss_kwargsr   r<   ry   r}   r…   rˆ   r   Úboolr²   r$   r%   r¹   Ú
LongTensorrÉ   r   r   r›   r   r2   r   r   r   r3   r   rJ   r'   rL   rM   s   @r)   rk   rk   …   s  ø† ð '=Ð>NÐ%OÐ"àÐð
˜÷ 
ò:ò8ò&ò#ð ØØØØ&*ñBð ˜d‘^õBðH¨u×/@Ñ/@ô ð "Ø×)Ñ)ð"Ø:?×:KÑ:Kð"Ø]b×]nÑ]nô"ð0 Øð '+Ø*.Ø15Ø37ØKOØ59Ø59Ø59Ø-1Ø$(Ø,0Ø/3Ø&*ñk
à×#Ñ#ðk
ð ×'Ñ'ðk
ð ! §¡Ñ.ð	k
ð
 ˜u×/Ñ/Ñ0ðk
ð " %¨¨U×->Ñ->Ñ(?ÀÐ(FÑ"GÑHðk
ð ! ×!1Ñ!1Ñ2ðk
ð ! ×!1Ñ!1Ñ2ðk
ð   × 1Ñ 1Ñ2ðk
ð ˜×)Ñ)Ñ*ðk
ð ˜D‘>ðk
ð $ D™>ðk
ð ' t™nðk
ð ˜d‘^ðk
ð Ð-Ñ.ðk
ð  
ˆuÐ2Ð2Ñ	3ô!k
ó ó ök
r(   rk   z|
    The Base Paligemma model which consists of a vision backbone and a language model without language modeling head.,
    c            %       óÐ  ^ • \ rS rSrSSSSS.rS/rS\4U 4S	 jjrS
 rS r	S r
S rS r\S 5       r\S 5       r\S 5       r\\              S*S\R(                  S\R*                  S\\R.                     S\\R(                     S\\\\R*                     \4      S\\R(                     S\\R(                     S\\R*                     S\\R(                     S\\   S\\   S\\   S\\   S\\\R.                  4   S \\   S!\\\ 4   4 S" jj5       5       r!          S+U 4S# jjr"\#S\R.                  S$\S%\S&\RH                  S\R.                  S'\4S( j5       r%S)r&U =r'$ ),Ú!PaliGemmaForConditionalGenerationi…  zmodel.language_modelzmodel.vision_towerzmodel.multi_modal_projectorÚlm_head)z^language_model.modelz^vision_towerz^multi_modal_projectorz^language_model.lm_headzlm_head.weightr7   c                 óê   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  R                  UR                  R                  SS9U l	        U R                  5         g )NFr9   )r;   r<   rk   Úmodelr   r=   rs   r?   rt   râ   rv   rB   s     €r)   r<   Ú*PaliGemmaForConditionalGeneration.__init__“  sS   ø€ Ü‰Ñ˜Ô Ü# FÓ+ˆŒ
Ü—y’y ×!3Ñ!3×!?Ñ!?À×ASÑAS×A^ÑA^ÐejÑkˆŒØ‰Õr(   c                 ó6   • U R                   R                  5       $ rG   )rä   ry   rz   s    r)   ry   Ú6PaliGemmaForConditionalGeneration.get_input_embeddings™  s   € Øz‰z×.Ñ.Ó0Ð0r(   c                 ó:   • U R                   R                  U5        g rG   )rä   r}   r~   s     r)   r}   Ú6PaliGemmaForConditionalGeneration.set_input_embeddingsœ  s   € Ø
‰
×'Ñ'¨Õ.r(   c                 ó:   • U R                   R                  U5        g rG   )rä   r…   rƒ   s     r)   r…   Ú-PaliGemmaForConditionalGeneration.set_decoderŸ  s   € Ø
‰
×Ñ˜wÕ'r(   c                 ó6   • U R                   R                  5       $ rG   )rä   rˆ   rz   s    r)   rˆ   Ú-PaliGemmaForConditionalGeneration.get_decoder¢  s   € Øz‰z×%Ñ%Ó'Ð'r(   c                 ó8   • U R                   R                  U5      $ rG   )rä   r¹   )rC   r´   s     r)   r¹   Ú4PaliGemmaForConditionalGeneration.get_image_features¥  s   € Øz‰z×,Ñ,¨\Ó:Ð:r(   c                 ó.   • U R                   R                  $ rG   )rä   rm   rz   s    r)   rm   Ú0PaliGemmaForConditionalGeneration.language_model©  s   € àz‰z×(Ñ(Ð(r(   c                 ó.   • U R                   R                  $ rG   )rä   rq   rz   s    r)   rq   Ú.PaliGemmaForConditionalGeneration.vision_tower­  s   € àz‰z×&Ñ&Ð&r(   c                 ó.   • U R                   R                  $ rG   )rä   rr   rz   s    r)   rr   Ú7PaliGemmaForConditionalGeneration.multi_modal_projector±  s   € àz‰z×/Ñ/Ð/r(   r»   r´   r¦   rË   r/   r§   r¨   r¼   rÌ   rÍ   rÎ   rÏ   rÐ   Úlogits_to_keeprÑ   rÒ   c                 óH  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R                  " SUUUUUUUU
U	UUSUS.UD6nUS   n[        U[        5      (       a  [        U* S5      OUnU R                  USS2USS24   5      nSnU	b3  U R                  " SUXR                   R                  R                  S.UD6n[        UUUR                  UR                  UR                  UR                   S9$ )rÔ   NT)r»   r´   r§   r¦   rË   r/   r¼   rÍ   rÌ   rÎ   rÏ   rÐ   r¨   r   )r.   rÌ   rt   )r-   r.   r/   r0   r1   r   r   )r7   rÎ   rÏ   rÕ   rä   rY   ÚintÚslicerâ   Úloss_functionrs   rt   r+   r/   r0   r1   r   )rC   r»   r´   r¦   rË   r/   r§   r¨   r¼   rÌ   rÍ   rÎ   rÏ   rÐ   rö   rÑ   rÚ   r0   Úslice_indicesr.   r-   s                        r)   rJ   Ú)PaliGemmaForConditionalGeneration.forwardµ  sP  € ð^ 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—*’*ð 
ØØ%Ø)Ø)Ø%Ø+Ø'ØØØ/Ø!5ØØ)ñ
ð ñ
ˆð"   ™
ˆä8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆàˆØÑØ×%Ò%ð Ø f¿¹×9PÑ9P×9[Ñ9[ñØ_eñˆDô /ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø '× ;Ñ ;ñ
ð 	
r(   c                 ó@  >• [         TU ]  " U4UUUUUU	U
US.UD6nUR                  S5      b  US==   S-  ss'   US   S:X  a  XmS'   US L=(       a    US LnUS   S:X  a>  [        U[        5      (       a)  Ub  UOUnU R
                  R                  XxX$Xþ5      nUUS'   U$ )N)r/   r¼   r¦   rË   r¨   rÍ   rö   r§   rË   r   r   r´   r¦   )r;   Úprepare_inputs_for_generationÚgetrY   r	   rä   r²   )rC   r»   r/   r¼   r¨   rË   r´   r¦   r§   rÍ   rö   rÌ   rÑ   Úmodel_inputsrŠ   r©   r¯   rD   s                    €r)   rþ   Ú?PaliGemmaForConditionalGeneration.prepare_inputs_for_generation  sà   ø€ ô  ‘wÒ<Øð
à+Ø'Ø)Ø%Ø)ØØ)Ø)ñ
ð ñ
ˆð ×Ñ˜NÓ+Ñ7Ø˜Ó(¨AÑ-Ó(ð ˜!Ñ Ó!Ø+7˜Ñ(Ø$¨DÐ0×G°VÀ4Ð5GˆØ˜!Ñ Ó!¤j°Ä+×&NÑ&NØ,9Ñ,E™=È9ˆLØŸ*™*×8Ñ8Ø°ÐQ]óˆKð .9ˆLÐ)Ñ*àÐr(   r­   r®   r   Ú
batch_sizec                 ó¶  • U b  U R                  5       S:X  a  U nU$ [        R                  " U5      R                  n[        R                  " X4XƒUR
                  S9nUS:w  a  [        R                  " USS9nU[        R                  " X$R
                  S9UR                  SS5      :„  -  nUSSSS2SS24   R                  USSS5      nU b‹  UR                  5       nU R                  S   n	USS2SS2SS2SU	24   U SS2SSSS24   R                  UR
                  5      -   n
U
S:H  n
USS2SS2SS2SU	24   R                  X¨5      USS2SS2SS2SU	24'   U$ )	a½  
Creates a causal 4D mask of shape `(batch_size, 1, query_length, key_value_length)` from a 2D mask of shape
`(batch_size, key_value_length)`, or if the input `attention_mask` is already 4D, do nothing.

Args:
    attention_mask (`torch.Tensor`):
        A 2D attention mask of shape `(batch_size, key_value_length)` or a 4D attention mask of shape
        `(batch_size, 1, query_length, key_value_length)`.
    sequence_length (`int`):
        The sequence length being processed.
    target_length (`int`):
        The target length: when generating with static cache, the mask should be as long as the static cache,
        to account for the 0 padding, the part of the cache that is not filled yet.
    dtype (`torch.dtype`):
        The dtype to use for the 4D attention mask.
    cache_position (`torch.Tensor`):
        Indices depicting the position of the input sequence tokens in the sequence.
    batch_size (`torch.Tensor`):
        Batch size.
Nr   rŽ   r   r’   r”   ro   r   )rœ   r$   r—   r˜   r   r‘   rž   rŸ   r    r¡   r¢   r™   r¥   r¤   )r¦   r­   r®   r   r¨   r  rÑ   r¯   r«   r°   r±   s              r)   Ú5_prepare_4d_causal_attention_mask_with_cache_positionÚWPaliGemmaForConditionalGeneration._prepare_4d_causal_attention_mask_with_cache_position=  s}  € ð> Ñ%¨.×*<Ñ*<Ó*>À!Ó*Cà(ˆKð* Ðô' Ÿš EÓ*×.Ñ.ˆIÜŸ*š*Ø Ð0¸YÐ\j×\qÑ\qñˆKð  !Ó#Ü#Ÿjšj¨¸qÑAØœ5Ÿ<š<¨×>SÑ>SÑTÐWe×WmÑWmÐnpÐrsÓWtÑtÑtˆKØ% d¨D²!²QÐ&6Ñ7×>Ñ>¸zÈ1ÈbÐRTÓUˆKØÑ)Ø)×/Ñ/Ó1Ø,×2Ñ2°2Ñ6Ø*ª1ªa²°L°[°LÐ+@ÑAÀNÒSTÐVZÐ\`ÒbcÐScÑDd×DgÑDgØ×&Ñ&óEñ  ð  ,¨qÑ0Ø5@ÂÂAÂqÈ,È;È,ÐAVÑ5W×5cÑ5cØ ó6šAšq¢! \ k \Ð1Ñ2ð Ðr(   )râ   rä   )NNNNNNNNNNNNNr   )
NNNNNNNTNN)(r   r    r!   r"   rÜ   Ú_tied_weights_keysr   r<   ry   r}   r…   rˆ   r¹   Úpropertyrm   rq   rr   r   r   r$   rß   r%   r   r›   r   r2   r   rÞ   rø   r   r   r3   r+   rJ   rþ   Ústaticmethodr   r  r'   rL   rM   s   @r)   rá   rá   …  s‘  ø† ð "8Ø-Ø"?Ø#,ñ	&Ð"ð +Ð+Ðð˜÷ ò1ò/ò(ò(ò;ð ñ)ó ð)ð ñ'ó ð'ð ñ0ó ð0ð Øð '+Ø*.Ø15Ø37ØKOØ59Ø59Ø59Ø-1Ø$(Ø,0Ø/3Ø&*Ø34ñV
à×#Ñ#ðV
ð ×'Ñ'ðV
ð ! §¡Ñ.ð	V
ð
 ˜u×/Ñ/Ñ0ðV
ð " %¨¨U×->Ñ->Ñ(?ÀÐ(FÑ"GÑHðV
ð ! ×!1Ñ!1Ñ2ðV
ð ! ×!1Ñ!1Ñ2ðV
ð   × 1Ñ 1Ñ2ðV
ð ˜×)Ñ)Ñ*ðV
ð ˜D‘>ðV
ð $ D™>ðV
ð ' t™nðV
ð ˜d‘^ðV
ð ˜c 5§<¡<Ð/Ñ0ðV
ð  Ð+Ñ,ð!V
ð" 
ˆuÐ5Ð5Ñ	6ô#V
ó ó ðV
ðv ØØØØØØØØØ÷,ð\ ð4ØŸ™ð4àð4ð ð4ð {‰{ð	4ð
 Ÿ™ð4ð ó4ó ö4r(   rá   )rá   rO   rk   ),r#   Údataclassesr   Útypingr   r   r$   Útorch.utils.checkpointr   Úcache_utilsr   r	   r
   Ú
generationr   Úmodeling_flash_attention_utilsr   Úmodeling_outputsr   Úmodeling_utilsr   Úprocessing_utilsr   Úutilsr   r   r   r   r   Úautor   Úconfiguration_paligemmar   Ú
get_loggerr   Úloggerr   r+   ÚModuler5   rO   rk   rá   Ú__all__r   r(   r)   Ú<module>r     s6  ðñ å !ß "ã Û Ý ç :Ñ :Ý )Ý BÝ 7Ý -Ý &÷õ õ Ý 4ð 
×	Ò	˜HÓ	%€ð Ùðñô
<Ð#:ó <óó ð<ð  Ùðñô
< kó <óó ð<ô2 2§9¡9ô ð ô)˜ó )ó ð)ñ0 ðñô
x
Ð-ó x
óð
x
ñv ðñô
iÐ(@À/ó ióð
iòX ^r(   