ó
    <±hÏ  ã                   óÌ  • S r SSKJrJr  SSKrSSKJr  SSKJr  SSK	J
r
  SSKJr  SS	KJr  SS
KJrJr  SSKJr  SSKJr  SSKJrJrJrJrJrJrJrJrJrJ r   SSK!J"r"  \RF                  " \$5      r%Sr& " S S\5      r' " S S\5      r( " S S\5      r) " S S\5      r* " S S\5      r+ " S S\5      r, " S S\5      r- " S  S!\5      r. " S" S#\5      r/ " S$ S%\5      r0/ S&Qr1g)'zPyTorch Qwen3 model.é    )ÚCallableÚOptionalNé   )ÚCache)ÚFlashAttentionKwargs)ÚCausalLMOutputWithPast)ÚALL_ATTENTION_FUNCTIONS)ÚUnpack)ÚTransformersKwargsÚloggingé   )ÚGemmaMLP)ÚLlamaAttention)
ÚQwen2DecoderLayerÚQwen2ForCausalLMÚQwen2ForQuestionAnsweringÚQwen2ForSequenceClassificationÚQwen2ForTokenClassificationÚ
Qwen2ModelÚQwen2PreTrainedModelÚQwen2RMSNormÚapply_rotary_pos_embÚeager_attention_forwardé   )ÚQwen3ConfigzQwen/Qwen3-8Bc                   ó   • \ rS rSrSrg)ÚQwen3RMSNormé3   © N©Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__static_attributes__r   ó    Ú_/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/qwen3/modular_qwen3.pyr   r   3   ó   † Úr&   r   c                   ó   • \ rS rSrSrg)ÚQwen3MLPé7   r   Nr    r   r&   r'   r*   r*   7   r(   r&   r*   c                   óB  ^ • \ rS rSrS\S\4U 4S jjr  SS\R                  S\	\R                  \R                  4   S\
\R                     S\
\   S	\
\R                     S
\\   S\	\R                  \
\R                     \
\	\R                        4   4S jjrSrU =r$ )ÚQwen3Attentioné;   ÚconfigÚ	layer_idxc                 ó  >• [         TU ]  X5        [        U R                  UR                  S9U l        [        U R                  UR                  S9U l        UR                  U   S:X  a  UR                  U l        g S U l        g )N)ÚepsÚsliding_attention)	ÚsuperÚ__init__r   Úhead_dimÚrms_norm_epsÚq_normÚk_normÚlayer_typesÚsliding_window)Úselfr/   r0   Ú	__class__s      €r'   r5   ÚQwen3Attention.__init__<   si   ø€ Ü‰Ñ˜Ô+Ü" 4§=¡=°f×6IÑ6IÑJˆŒÜ" 4§=¡=°f×6IÑ6IÑJˆŒØ7=×7IÑ7IÈ)Ñ7TÐXkÓ7k˜f×3Ñ3ˆÕÐquˆÕr&   Úhidden_statesÚposition_embeddingsÚattention_maskÚpast_key_valueÚcache_positionÚkwargsÚreturnc                 ó†  • UR                   S S n/ UQSPU R                  P7nU R                  U R                  U5      R	                  U5      5      R                  SS5      n	U R                  U R                  U5      R	                  U5      5      R                  SS5      n
U R                  U5      R	                  U5      R                  SS5      nUu  pÍ[        XšXÍ5      u  pšUb$  XÜUS.nUR                  X«U R                  U5      u  p«[        nU R                  R                  S:w  a  [        U R                  R                     nU" U U	U
UU4U R                   (       d  SOU R"                  U R$                  U R&                  S.UD6u  nnUR(                  " / UQSP76 R+                  5       nU R-                  U5      nUU4$ )Néÿÿÿÿr   r   )ÚsinÚcosrC   Úeagerg        )ÚdropoutÚscalingr;   )Úshaper6   r8   Úq_projÚviewÚ	transposer9   Úk_projÚv_projr   Úupdater0   r   r/   Ú_attn_implementationr	   ÚtrainingÚattention_dropoutrL   r;   ÚreshapeÚ
contiguousÚo_proj)r<   r?   r@   rA   rB   rC   rD   Úinput_shapeÚhidden_shapeÚquery_statesÚ
key_statesÚvalue_statesrI   rH   Úcache_kwargsÚattention_interfaceÚattn_outputÚattn_weightss                     r'   ÚforwardÚQwen3Attention.forwardB   s¶  € ð $×)Ñ)¨#¨2Ð.ˆØ8˜Ð8 bÐ8¨$¯-©-Ñ8ˆà—{‘{ 4§;¡;¨}Ó#=×#BÑ#BÀ<Ó#PÓQ×[Ñ[Ð\]Ð_`ÓaˆØ—[‘[ §¡¨]Ó!;×!@Ñ!@ÀÓ!NÓO×YÑYÐZ[Ð]^Ó_ˆ
Ø—{‘{ =Ó1×6Ñ6°|ÓD×NÑNÈqÐRSÓTˆà&‰ˆÜ#7¸ÐRUÓ#[Ñ ˆàÑ%à#&ÀnÑUˆLØ'5×'<Ñ'<¸ZÐW[×WeÑWeÐgsÓ'tÑ$ˆJä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð
%
ð  $Ÿ}Ÿ}‘C°$×2HÑ2HØ—L‘LØ×.Ñ.ñ
%
ð ñ
%
Ñ!ˆ\ð "×)Ò)Ð;¨;Ð;¸Ò;×FÑFÓHˆØ—k‘k +Ó.ˆØ˜LÐ(Ð(r&   )r9   r8   r;   )NN)r!   r"   r#   r$   r   Úintr5   ÚtorchÚTensorÚtupler   r   Ú
LongTensorr
   r   rc   r%   Ú__classcell__©r=   s   @r'   r-   r-   ;   sÊ   ø† ðv˜{ð v°s÷ vð +/Ø59ñ*)à—|‘|ð*)ð # 5§<¡<°·±Ð#=Ñ>ð*)ð ! §¡Ñ.ð	*)ð
 ! ™ð*)ð ! ×!1Ñ!1Ñ2ð*)ð Ð-Ñ.ð*)ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷*)ó *)r&   r-   c                   ó   • \ rS rSrSrg)ÚQwen3DecoderLayeréo   r   Nr    r   r&   r'   rm   rm   o   r(   r&   rm   c                   ó   • \ rS rSrSrg)ÚQwen3PreTrainedModelés   r   Nr    r   r&   r'   rp   rp   s   r(   r&   rp   c                   ó   • \ rS rSrSrg)Ú
Qwen3Modeléw   r   Nr    r   r&   r'   rs   rs   w   r(   r&   rs   c                   ó:   ^ • \ rS rSrS\\   S\4U 4S jjrSrU =r	$ )ÚQwen3ForCausalLMé{   Úsuper_kwargsrE   c                 ó$   >• [         TU ]  " S0 UD6$ )aÞ  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>>> from transformers import AutoTokenizer, Qwen3ForCausalLM

>>> model = Qwen3ForCausalLM.from_pretrained("Qwen/Qwen3-8B")
>>> tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-8B")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
```r   )r4   rc   )r<   rx   r=   s     €r'   rc   ÚQwen3ForCausalLM.forward|   s   ø€ ô4 ‰wŠÑ. Ñ.Ð.r&   r   )
r!   r"   r#   r$   r
   r   r   rc   r%   rj   rk   s   @r'   rv   rv   {   s%   ø† ð/àÐ1Ñ2ð/ð 
 ÷/õ /r&   rv   c                   ó   • \ rS rSrSrg)ÚQwen3ForSequenceClassificationé™   r   Nr    r   r&   r'   r|   r|   ™   r(   r&   r|   c                   ó   • \ rS rSrSrg)ÚQwen3ForTokenClassificationé   r   Nr    r   r&   r'   r   r      r(   r&   r   c                   ó   • \ rS rSrSrg)ÚQwen3ForQuestionAnsweringé¡   r   Nr    r   r&   r'   r‚   r‚   ¡   r(   r&   r‚   )rv   r‚   rp   rs   r|   r   )2Ú__doc__Útypingr   r   rf   Úcache_utilsr   Úmodeling_flash_attention_utilsr   Úmodeling_outputsr   Úmodeling_utilsr	   Úprocessing_utilsr
   Úutilsr   r   Úgemma.modeling_gemmar   Úllama.modeling_llamar   Úqwen2.modeling_qwen2r   r   r   r   r   r   r   r   r   r   Úconfiguration_qwen3r   Ú
get_loggerr!   ÚloggerÚ_CHECKPOINT_FOR_DOCr   r*   r-   rm   rp   rs   rv   r|   r   r‚   Ú__all__r   r&   r'   Ú<module>r”      sÜ   ðñ ç %ã å  Ý BÝ 6Ý 5Ý &ß 0Ý +õ÷÷ ÷ õ -ð 
×	Ò	˜HÓ	%€à%Ð ô	<ô 	ô	ˆxô 	ô1)^ô 1)ôh	Ð)ô 	ô	Ð/ô 	ô	ô 	ô/Ð'ô /ô<	Ð%Cô 	ô	Ð"=ô 	ô	Ð 9ô 	òr&   