ó
    <±h0  ã                   ó<  • S SK JrJr  S SKrS SKJr  S SKJrJrJrJ	r	J
r
  SSKJr  SSKJr  SSKJrJr  S	S
KJr  \R(                  " \5      r " S S\	5      r " S S\5      r " S S\R2                  5      r " S S\
5      r " S S\5      r " S S\5      r/ SQrg)é    )ÚOptionalÚUnionN)Únn)ÚLlavaCausalLMOutputWithPastÚLlavaForConditionalGenerationÚ
LlavaModelÚLlavaModelOutputWithPastÚLlavaPreTrainedModelé   )ÚACT2FN)ÚCache)Úauto_docstringÚloggingé   )ÚVipLlavaConfigc                   ó   • \ rS rSrSrg)ÚVipLlavaModelOutputWithPasté&   © N©Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__static_attributes__r   ó    Úe/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/vipllava/modular_vipllava.pyr   r   &   ó   † Úr   r   c                   ó   • \ rS rSrSrg)ÚVipLlavaCausalLMOutputWithPasté*   r   Nr   r   r   r   r    r    *   r   r   r    c                   ó6   ^ • \ rS rSrS\4U 4S jjrS rSrU =r$ )ÚVipLlavaMultiModalProjectoré.   Úconfigc                 óB  >• [         TU ]  5         [        UR                  [        5      (       a  SO[        UR                  5      n[        R                  " X!R                  R                  -  UR                  S9U l        [        R                  " X!R                  R                  -  UR                  R                  SS9U l        [        UR                      U l        [        R                  " UR                  R                  UR                  R                  SS9U l        g )Nr   )ÚepsT)Úbias)ÚsuperÚ__init__Ú
isinstanceÚvision_feature_layersÚintÚlenr   Ú	LayerNormÚvision_configÚhidden_sizeÚprojector_layernorm_epsÚprojector_layernormÚLinearÚtext_configÚlinear_1r   Úprojector_hidden_actÚactÚlinear_2)Úselfr%   Únum_feature_layersÚ	__class__s      €r   r*   Ú$VipLlavaMultiModalProjector.__init__/   s×   ø€ Ü‰ÑÔÜ",¨V×-IÑ-IÌ3×"OÑ"O™QÔUXÐY_×YuÑYuÓUvÐÜ#%§<¢<Ø×!5Ñ!5×!AÑ!AÑAÀv×GeÑGeñ$
ˆÔ ô Ÿ	š	Ø×!5Ñ!5×!AÑ!AÑAØ×Ñ×*Ñ*Øñ
ˆŒô
 ˜&×5Ñ5Ñ6ˆŒÜŸ	š	 &×"4Ñ"4×"@Ñ"@À&×BTÑBT×B`ÑB`ÐgkÑlˆr   c                 óŽ   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ ©N)r3   r6   r8   r9   )r:   Úhidden_statess     r   ÚforwardÚ#VipLlavaMultiModalProjector.forward>   sB   € Ø×0Ñ0°Ó?ˆØŸ™ mÓ4ˆØŸ™ Ó/ˆØŸ™ mÓ4ˆØÐr   )r8   r6   r9   r3   )	r   r   r   r   r   r*   rA   r   Ú__classcell__)r<   s   @r   r#   r#   .   s   ø† ðm˜~÷ m÷ð r   r#   c                   ó   • \ rS rSrSrg)ÚVipLlavaPreTrainedModeléF   r   Nr   r   r   r   rE   rE   F   r   r   rE   c                   óˆ  • \ rS rSr SS\R
                  S\\\\	\   4      4S jjr
\            SS\R                  S\R
                  S\\R                     S\\R                     S	\\   S
\\R
                     S\\\\	\   4      S\\   S\\   S\\   S\\   S\\R                     S\\\4   4S jj5       rSrg)ÚVipLlavaModeléJ   NÚpixel_valuesr,   c                 óZ  • Ub  UOU R                   R                  nU R                  USS9n[        U[        5      (       a  UR
                  U   SS2SS24   nO;U Vs/ sH  oSR
                  U   SS2SS24   PM     nn[        R                  " USS9nU R                  U5      nU$ s  snf )a  
Obtains image last hidden states from the vision tower and apply multimodal projection.

Args:
    pixel_values (`torch.FloatTensor]` of shape `(batch_size, channels, height, width)`)
       The tensors corresponding to the input images.
    vision_feature_layers (`Union[int, list[int]]`):
        The vision feature layer, or the list of indexes of the layers to select
        the vision feature.
Returns:
    image_features (`torch.Tensor`): Image feature tensor of shape `(num_images, image_length, embed_dim)`).
NT)Úoutput_hidden_statesr   éÿÿÿÿ)Údim)	r%   r,   Úvision_towerr+   r-   r@   ÚtorchÚcatÚmulti_modal_projector)r:   rJ   r,   Úimage_outputsÚimage_featuresÚindexs         r   Úget_image_featuresÚ VipLlavaModel.get_image_featuresK   s¿   € ð  &;Ñ%FÑ!ÈDÏKÉK×LmÑLmð 	ð ×)Ñ)¨,ÈTÐ)ÐRˆô Ð+¬S×1Ñ1Ø*×8Ñ8Ð9NÑOÒPQÐSTÑSUÐPUÑV‰Nñ VkÓkÑUjÈE×9Ñ9¸%Ñ@ÂÀAÁBÀÔGÑUjˆNÐkÜ"ŸYšY ~¸2Ñ>ˆNØ×3Ñ3°NÓCˆØÐùò ls   Á B(Ú	input_idsÚattention_maskÚposition_idsÚpast_key_valuesÚinputs_embedsÚ	use_cacheÚoutput_attentionsrL   Úreturn_dictÚcache_positionÚreturnc                 óÎ  • U	b  U	OU R                   R                  n	U
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  UOU R                   R                  nUSL USL-  (       a  [        S5      eUc  U R                  5       " U5      nUbV  U R                  X'S9nUR                  UR                  UR                  5      nU R                  XUS9nUR                  Xþ5      nU R                  " SUUUUUU	U
SUS.	UD6n[        UR                  UR                   UR"                  UR$                  Ub  WOSS9nU(       a  U$ UR'                  5       $ )	z£
vision_feature_layers (`Union[int, list[int]]`, *optional*):
    The vision feature layer, or the list of indexes of the layers to select
    the vision feature.
Nz:You must specify exactly one of input_ids or inputs_embeds©rJ   r,   )r\   rT   T)	rY   rZ   r[   r\   r]   r^   rL   r_   r`   )Úlast_hidden_stater[   r@   Ú
attentionsÚimage_hidden_statesr   )r%   r^   rL   Úuse_return_dictr,   Ú
ValueErrorÚget_input_embeddingsrV   ÚtoÚdeviceÚdtypeÚget_placeholder_maskÚmasked_scatterÚlanguage_modelr   rd   r[   r@   re   Úto_tuple)r:   rX   rJ   rY   rZ   r[   r\   r,   r]   r^   rL   r_   r`   Ú	lm_kwargsrT   Úspecial_image_maskÚoutputsÚoutputs                     r   rA   ÚVipLlavaModel.forwardj   sœ  € ð, 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà%:Ñ%FÑ!ÈDÏKÉK×LmÑLmð 	ð ˜Ð -°tÐ";×<ÜÐYÓZÐZàÑ Ø ×5Ñ5Ô7¸	ÓBˆMàÑ#Ø!×4Ñ4Ø)ð 5ð ˆNð ,×.Ñ.¨}×/CÑ/CÀ]×EXÑEXÓYˆNØ!%×!:Ñ!:ØÀ~ð ";ð "Ðð *×8Ñ8Ð9KÓ\ˆMà×%Ò%ð 
Ø)Ø%Ø+Ø'ØØ/Ø!5ØØ)ñ
ð ñ
ˆô -Ø%×7Ñ7Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø2>Ñ2J¡ÐPTñ
ˆö %ˆvÐ;¨&¯/©/Ó*;Ð;r   r   r?   )NNNNNNNNNNNN)r   r   r   r   rP   ÚFloatTensorr   r   r-   ÚlistrV   r   Ú
LongTensorÚTensorr   ÚboolÚtupler   rA   r   r   r   r   rH   rH   J   sg  † àhlñØ!×-Ñ-ðØFNÈuÐUXÐZ^Ð_bÑZcÐUcÑOdÑFeõð> ð '+Ø*.Ø15Ø37Ø+/Ø59ØAEØ$(Ø,0Ø/3Ø&*Ø59ñB<à×#Ñ#ðB<ð ×'Ñ'ðB<ð ! §¡Ñ.ð	B<ð
 ˜u×/Ñ/Ñ0ðB<ð " %™ðB<ð   × 1Ñ 1Ñ2ðB<ð  (¨¨c°4¸±9¨nÑ(=Ñ>ðB<ð ˜D‘>ðB<ð $ D™>ðB<ð ' t™nðB<ð ˜d‘^ðB<ð ! ×!1Ñ!1Ñ2ðB<ð 
ˆuÐ1Ð1Ñ	2ôB<ó óB<r   rH   c            !       óÂ  • \ rS rSr SS\R
                  S\\\\	\   4      4S jjr
              SS\R                  S\R
                  S\\R                     S\\R                     S	\\   S
\\R
                     S\\\\	\   4      S\\R                     S\\   S\\   S\\   S\\   S\\R                     S\\\R                  4   S\\\4   4S jjrSrg)Ú VipLlavaForConditionalGenerationé°   NrJ   r,   c                 ó4   • U R                   R                  XS9$ )Nrc   )ÚmodelrV   )r:   rJ   r,   s      r   rV   Ú3VipLlavaForConditionalGeneration.get_image_features±   s   € ð z‰z×,Ñ,¸,Ð,ÐtÐtr   rX   rY   rZ   r[   r\   Úlabelsr]   r^   rL   r_   r`   Úlogits_to_keepra   c                 ór  • U
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R
                  " SUUUUUUU	UU
USUS.UD6nUS   n[        U[        5      (       a  [        U* S5      OUnU R                  USS2USS24   5      nSnUb.  U R                  UX€R                   R                  R                  S9n[        UUUR                  UR                  UR                   UR"                  S9$ )aØ  
vision_feature_layers (`Union[int, list[int]]`, *optional*):
    The vision feature layer, or the list of indexes of the layers to select
    the vision feature.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>>> import torch
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, VipLlavaForConditionalGeneration

>>> model = VipLlavaForConditionalGeneration.from_pretrained("llava-hf/vip-llava-7b-hf", device_map="auto", torch_dtype=torch.float16)
>>> processor = AutoProcessor.from_pretrained("llava-hf/vip-llava-7b-hf")

>>> prompt = "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.###Human: <image>\n{}###Assistant:"
>>> question = "Can you please describe this image?"
>>> prompt = prompt.format(question)
>>> url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/compel-neg.png"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(text=text, images=image, return_tensors="pt").to(0, torch.float16)

>>> # Generate
>>> generate_ids = model.generate(**inputs, max_new_tokens=20)
>>> processor.decode(generate_ids[0][len(inputs["input_ids"][0]):], skip_special_tokens=True)
The image features a brown and white cat sitting on a green surface, with a red ball in its
```NT)rX   rJ   rY   rZ   r[   r\   r]   r,   r^   rL   r_   r`   r   )Úlogitsr‚   Ú
vocab_size)Úlossr…   r[   r@   re   rf   r   )r%   r^   rL   rg   r,   r€   r+   r-   ÚsliceÚlm_headÚloss_functionr5   r†   r    r[   r@   re   rf   )r:   rX   rJ   rY   rZ   r[   r\   r,   r‚   r]   r^   rL   r_   r`   rƒ   rq   rs   r@   Úslice_indicesr…   r‡   s                        r   rA   Ú(VipLlavaForConditionalGeneration.forward¶   sZ  € ðh 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà%:Ñ%FÑ!ÈDÏKÉK×LmÑLmð 	ð —*’*ð 
ØØ%Ø)Ø%Ø+Ø'ØØ"7Ø/Ø!5ØØ)ñ
ð ñ
ˆð    ™
ˆä8BÀ>ÔSV×8WÑ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆàˆØÑØ×%Ñ%¨V¸FÏ{É{×OfÑOf×OqÑOqÐ%ÐrˆDä-ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø '× ;Ñ ;ñ
ð 	
r   r   r?   )NNNNNNNNNNNNNr   )r   r   r   r   rP   rv   r   r   r-   rw   rV   rx   ry   r   rz   r{   r    rA   r   r   r   r   r}   r}   °   s•  † àhlñuØ!×-Ñ-ðuØFNÈuÐUXÐZ^Ð_bÑZcÐUcÑOdÑFeõuð '+Ø*.Ø15Ø37Ø+/Ø59ØAEØ-1Ø$(Ø,0Ø/3Ø&*Ø59Ø34ñ]
à×#Ñ#ð]
ð ×'Ñ'ð]
ð ! §¡Ñ.ð	]
ð
 ˜u×/Ñ/Ñ0ð]
ð " %™ð]
ð   × 1Ñ 1Ñ2ð]
ð  (¨¨c°4¸±9¨nÑ(=Ñ>ð]
ð ˜×)Ñ)Ñ*ð]
ð ˜D‘>ð]
ð $ D™>ð]
ð ' t™nð]
ð ˜d‘^ð]
ð ! ×!1Ñ!1Ñ2ð]
ð ˜c 5§<¡<Ð/Ñ0ð]
ð" 
ˆuÐ4Ð4Ñ	5÷#]
ð ]
r   r}   )rH   r}   rE   )Útypingr   r   rP   r   Ú(transformers.models.llava.modeling_llavar   r   r   r	   r
   Úactivationsr   Úcache_utilsr   Úutilsr   r   Úconfiguration_vipllavar   Ú
get_loggerr   Úloggerr   r    ÚModuler#   rE   rH   r}   Ú__all__r   r   r   Ú<module>r—      s˜   ð÷  #ã Ý ÷õ õ "Ý  ß ,Ý 2ð 
×	Ò	˜HÓ	%€ô	Ð":ô 	ô	Ð%@ô 	ô "§)¡)ô ô0	Ð2ô 	ôc<Jô c<ôLc
Ð'Dô c
òL [r   