ó
    <±hËƒ  ã                   ó2  • S r SSKrSSKJrJr  SSKrSSKJr  SSKrSSKJ	r	J
r
Jr  SSKJr  SSKJrJr  SSKJr  SS	KJr  SS
KJrJrJrJr  SSKJr  SSKJr  SSKJrJ r J!r!J"r"  SSK#J$r$J%r%J&r&  SSK'J(r(  SSK)J*r*  \!" 5       (       a  SSK+J,r,J-r-   " S S\(5      r. " S S\&5      r/ " S S\$5      r0 " S S\%5      r1\  " S S\5      5       r2\  " S S\25      5       r3\ " S S!9 " S" S#\2\5      5       r4\  " S$ S%\25      5       r5\ " S&S!9 " S' S(\25      5       r6/ S)Qr7g)*zPyTorch BioGPT model.é    N)ÚOptionalÚUnion)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)ÚAttentionMaskConverter)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentionsÚ SequenceClassifierOutputWithPastÚTokenClassifierOutput)ÚPreTrainedModel)ÚUnpack)ÚTransformersKwargsÚauto_docstringÚis_torch_flex_attn_availableÚloggeré   )ÚBartAttentionÚBartDecoderLayerÚBartScaledWordEmbedding)ÚOPTLearnedPositionalEmbeddingé   )ÚBioGptConfig)Ú	BlockMaskÚmake_flex_block_causal_maskc                   ón   ^ • \ rS rSr  SS\R
                  S\S\\R
                     4U 4S jjjrSr	U =r
$ )Ú BioGptLearnedPositionalEmbeddingé:   Úattention_maskÚpast_key_values_lengthÚposition_idsc                 ó&   >• [         TU ]  XU5        g)z3`input_ids_shape` is expected to be [bsz x seqlen].N)ÚsuperÚforward)Úselfr$   r%   r&   Ú	__class__s       €Úa/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/biogpt/modular_biogpt.pyr)   Ú(BioGptLearnedPositionalEmbedding.forward;   s   ø€ ô 	‰‰˜ÀÕMó    © )r   N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__ÚtorchÚ
LongTensorÚintr   r)   Ú__static_attributes__Ú__classcell__©r+   s   @r,   r"   r"   :   sG   ø† ð '(Ø37ñ	Nà×(Ñ(ðNð !$ðNð ˜u×/Ñ/Ñ0÷	Nö Nr.   r"   c                   ó   • \ rS rSrSrg)ÚBioGptScaledWordEmbeddingéE   r/   N©r0   r1   r2   r3   r7   r/   r.   r,   r;   r;   E   ó   † Úr.   r;   c                   ó   • \ rS rSrSrg)ÚBioGptAttentionéI   r/   Nr=   r/   r.   r,   r@   r@   I   r>   r.   r@   c                   ól  ^ • \ rS rSrSS\S\\   4U 4S jjjr       SS\R                  S\\R                     S\\R                     S\\
   S	\\   S
\\   S\\R                     S\\R                     S\\   S\\R                   \\\R                   \R                   4      4   4S jjrSrU =r$ )ÚBioGptDecoderLayeréM   ÚconfigÚ	layer_idxc           
      óÄ  >• [         TU ]  U5        UR                  U l        [	        U R                  UR
                  UR                  SSUUS9U l        UR                  U l	        [        UR                     U l        [        R                  " U R                  UR                  5      U l        [        R                  " UR                  U R                  5      U l        U ?U ?g )NT)Ú	embed_dimÚ	num_headsÚdropoutÚ
is_decoderÚ	is_causalrE   rF   )r(   Ú__init__Úhidden_sizerH   r@   Únum_attention_headsÚattention_probs_dropout_probÚ	self_attnÚhidden_dropout_probrJ   r	   Ú
hidden_actÚactivation_fnÚnnÚLinearÚintermediate_sizeÚfc1Úfc2Úencoder_attnÚencoder_attn_layer_norm)r*   rE   rF   r+   s      €r,   rM   ÚBioGptDecoderLayer.__init__N   s´   ø€ Ü‰Ñ˜Ô Ø×+Ñ+ˆŒä(Ø—n‘nØ×0Ñ0Ø×7Ñ7ØØØØñ
ˆŒð ×1Ñ1ˆŒÜ# F×$5Ñ$5Ñ6ˆÔä—9’9˜TŸ^™^¨V×-EÑ-EÓFˆŒÜ—9’9˜V×5Ñ5°t·~±~ÓFˆŒàÐØÑ(r.   Úhidden_statesr$   Úlayer_head_maskÚpast_key_valueÚoutput_attentionsÚ	use_cacher&   Úcache_positionÚkwargsÚreturnc	                 óJ  • Un
U R                  U5      nU R                  " SUUUUUUUS.U	D6u  p[        R                  R	                  XR                  U R
                  S9nX¡-   nUn
U R                  U5      nU R                  U5      nU R                  U5      n[        R                  R	                  XR                  U R
                  S9nU R                  U5      n[        R                  R	                  XR                  U R
                  S9nX¡-   nU4nU(       a  XË4-  nU$ )ay  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
        `(encoder_attention_heads,)`.
    past_key_value (`Tuple(torch.FloatTensor)`): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence. It is used to update the
        cache in the correct position and to infer the complete sequence length.
)r]   r_   r$   r^   r`   r&   rb   ©ÚpÚtrainingr/   )Úself_attn_layer_normrQ   rU   Ú
functionalrJ   rh   Úfinal_layer_normrX   rT   Úactivation_dropoutrY   )r*   r]   r$   r^   r_   r`   ra   r&   rb   rc   ÚresidualÚself_attn_weightsÚoutputss                r,   r)   ÚBioGptDecoderLayer.forwardd   s.  € ð< !ˆà×1Ñ1°-Ó@ˆð ,0¯>ª>ð 	,
Ø'Ø)Ø)Ø+Ø/Ø%Ø)ñ	,
ð ñ	,
Ñ(ˆô Ÿ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆð !ˆØ×-Ñ-¨mÓ<ˆØŸ™ Ó/ˆØ×*Ñ*¨=Ó9ˆÜŸ™×-Ñ-¨m×?VÑ?VÐae×anÑanÐ-ÐoˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆà Ð"ˆæØÐ+Ñ+ˆGàˆr.   )rT   rJ   rH   rX   rY   rQ   ©N)NNNFTNN)r0   r1   r2   r3   r   r   r6   rM   r4   ÚTensorr
   Úboolr5   r   r   ÚtupleÚFloatTensorr)   r7   r8   r9   s   @r,   rC   rC   M   s	  ø† ñ)˜|ð )¸À¹÷ )ð )ð2 26Ø26Ø*.Ø,1Ø$(Ø37Ø15ñ?à—|‘|ð?ð ! §¡Ñ.ð?ð " %§,¡,Ñ/ð	?ð
 ! ™ð?ð $ D™>ð?ð ˜D‘>ð?ð ˜u×/Ñ/Ñ0ð?ð ! §¡Ñ.ð?ð Ð+Ñ,ð?ð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷?ó ?r.   rC   c                   ó  • \ rS rSr% \\S'   SrSrSrSr	Sr
SrS\\\R                  S4      S\R                  S\R                  S	\4S
 jr\S\R                  S\S\S\R(                  S\R                  S\4S j5       rSrg)ÚBioGptPreTrainedModelé¦   rE   ÚbiogptTr$   r   Úinput_tensorrb   Úpast_key_valuesc           	      ó\  • U R                   R                  S:X  au  [        U[        R                  5      (       a  [        U5      nU$ UcD  [        [        R                  " UR                  S   UR                  S   4UR                  S95      nU$ U R                   R                  S:X  a  Ub  US:H  R                  5       (       a  U$ g Ub  UR                  5       OSnUb  UR                  OSnU R                   R                  S:X  a.  U(       d'  [        R                  " UUUU R                  S	9(       a  g UR                  nUR                  S   nU(       a  UR!                  5       n	O5[        U[        R                  5      (       a  UR                  S
   OXX-   S-   n	U R#                  UUU	UUUR                  S   S9n
U R                   R                  S:X  aS  UbP  UR                  R$                  S;   a6  [        R&                  " U5      R(                  n[        R*                  " X«5      n
U
$ )NÚflex_attentionr   r   )ÚsizeÚdeviceÚflash_attention_2g        FÚsdpa)Úinputs_embedsr%   Úis_trainingéÿÿÿÿ)Úsequence_lengthÚtarget_lengthÚdtyperb   Ú
batch_size)ÚcudaÚxpuÚnpu)rE   Ú_attn_implementationÚ
isinstancer4   rr   r    ÚonesÚshaper   ÚanyÚget_seq_lengthÚis_compileabler   Ú_ignore_causal_mask_sdparh   r‡   Úget_max_cache_shapeÚ5_prepare_4d_causal_attention_mask_with_cache_positionÚtypeÚfinfoÚminÚ_unmask_unattended)r*   r$   rz   rb   r{   Úpast_seen_tokensÚusing_compilable_cacher‡   r…   r†   Úcausal_maskÚ	min_dtypes               r,   Ú_update_causal_maskÚ)BioGptPreTrainedModel._update_causal_mask²   s  € ð ;‰;×+Ñ+Ð/?Ó?Ü˜.¬%¯,©,×7Ñ7Ü!<¸^Ó!Lð "Ð!ð  Ñ'Ü!<Ü—J’JØ*×0Ñ0°Ñ3°\×5GÑ5GÈÑ5JÐKØ-×4Ñ4ñó"ð "Ð!à;‰;×+Ñ+Ð/BÓBØÑ)¨~ÀÑ/D×.IÑ.I×.KÑ.KØ%Ð%Øð
 @OÑ?Z˜?×9Ñ9Ô;Ð`aÐØCRÑC^ ×!?Ò!?ÐdiÐð ;‰;×+Ñ+¨vÓ5Ö>TÜ%×>Ò>ØØ*Ø'7Ø ŸM™M÷	ð à×"Ñ"ˆØ&×,Ñ,¨QÑ/ˆÞ!Ø+×?Ñ?ÓA‰Mô ˜n¬e¯l©l×;Ñ;ð ×$Ñ$ RÒ(à%Ñ7¸!Ñ;ð ð ×PÑPØØ+Ø'ØØ)Ø#×)Ñ)¨!Ñ,ð Qð 
ˆð K‰K×,Ñ,°Ó6ØÑ*Ø×%Ñ%×*Ñ*Ð.DÓDô
 Ÿš EÓ*×.Ñ.ˆIÜ0×CÒCÀKÓ[ˆKàÐr.   r…   r†   r‡   rˆ   c                 ó¶  • U b  U R                  5       S:X  a  U nU$ [        R                  " U5      R                  n[        R                  " X4XƒUR
                  S9nUS:w  a  [        R                  " USS9nU[        R                  " X$R
                  S9UR                  SS5      :„  -  nUSSSS2SS24   R                  USSS5      nU b‹  UR                  5       nU R                  S   n	USS2SS2SS2SU	24   U SS2SSSS24   R                  UR
                  5      -   n
U
S:H  n
USS2SS2SS2SU	24   R                  X¨5      USS2SS2SS2SU	24'   U$ )	a½  
Creates a causal 4D mask of shape `(batch_size, 1, query_length, key_value_length)` from a 2D mask of shape
`(batch_size, key_value_length)`, or if the input `attention_mask` is already 4D, do nothing.

Args:
    attention_mask (`torch.Tensor`):
        A 2D attention mask of shape `(batch_size, key_value_length)` or a 4D attention mask of shape
        `(batch_size, 1, query_length, key_value_length)`.
    sequence_length (`int`):
        The sequence length being processed.
    target_length (`int`):
        The target length: when generating with static cache, the mask should be as long as the static cache,
        to account for the 0 padding, the part of the cache that is not filled yet.
    dtype (`torch.dtype`):
        The dtype to use for the 4D attention mask.
    cache_position (`torch.Tensor`):
        Indices depicting the position of the input sequence tokens in the sequence.
    batch_size (`torch.Tensor`):
        Batch size.
Né   )Ú
fill_valuer‡   r   r   )Údiagonal©r   r„   r   )Údimr4   r—   r˜   Úfullr   ÚtriuÚarangeÚreshapeÚexpandÚcloner   ÚtoÚmasked_fill)r$   r…   r†   r‡   rb   rˆ   rc   rœ   r   Úmask_lengthÚpadding_masks              r,   r•   ÚKBioGptPreTrainedModel._prepare_4d_causal_attention_mask_with_cache_positionþ   s}  € ð> Ñ%¨.×*<Ñ*<Ó*>À!Ó*Cà(ˆKð* Ðô' Ÿš EÓ*×.Ñ.ˆIÜŸ*š*Ø Ð0¸YÐ\j×\qÑ\qñˆKð  !Ó#Ü#Ÿjšj¨¸qÑAØœ5Ÿ<š<¨×>SÑ>SÑTÐWe×WmÑWmÐnpÐrsÓWtÑtÑtˆKØ% d¨D²!²QÐ&6Ñ7×>Ñ>¸zÈ1ÈbÐRTÓUˆKØÑ)Ø)×/Ñ/Ó1Ø,×2Ñ2°2Ñ6Ø*ª1ªa²°L°[°LÐ+@ÑAÀNÒSTÐVZÐ\`ÒbcÐScÑDd×DgÑDgØ×&Ñ&óEñ  ð  ,¨qÑ0Ø5@ÂÂAÂqÈ,È;È,ÐAVÑ5W×5cÑ5cØ ó6šAšq¢! \ k \Ð1Ñ2ð Ðr.   r/   N)r0   r1   r2   r3   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnÚ_can_compile_fullgraphr   r   r4   rr   r
   rž   Ústaticmethodr6   r‡   r•   r7   r/   r.   r,   rw   rw   ¦   sÏ   ‡ àÓØ ÐØ&*Ð#ØÐØ€NØÐà!ÐðJà   u§|¡|°[Ð'@Ñ!AÑBðJð —l‘lðJð Ÿ™ð	Jð
 ôJðX ð4ØŸ™ð4àð4ð ð4ð {‰{ð	4ð
 Ÿ™ð4ð ó4ó ó4r.   rw   c                   ó|  ^ • \ rS rSrS\4U 4S jjr\           SS\\R                     S\\R                     S\\R                     S\\R                     S\\\\R                           S	\\   S
\\R                     S\\   S\\   S\\   S\\R                     S\\   S\\\4   4S jj5       rSrU =r$ )ÚBioGptModeli7  rE   c           
      óÒ  >• [         TU ]  U5        Xl        UR                  U l        UR                  U l        UR                  U l        UR                  U l	        UR                  (       a   [        R                  " UR                  5      OSn[        UR                  U R                  U R                  US9U l        [!        UR"                  U R                  5      U l        [&        R(                  " [+        UR,                  5       Vs/ sH  n[/        XS9PM     sn5      U l        [&        R2                  " U R                  5      U l        SU l        U R9                  5         g s  snf )Ng      ð?)Úembed_scale)rF   F)r(   rM   rE   Ú	layerdroprR   rJ   rN   rH   Úpad_token_idÚpadding_idxÚscale_embeddingÚmathÚsqrtr;   Ú
vocab_sizeÚembed_tokensr"   Úmax_position_embeddingsÚembed_positionsrU   Ú
ModuleListÚrangeÚnum_hidden_layersrC   ÚlayersÚ	LayerNormÚ
layer_normÚgradient_checkpointingÚ	post_init)r*   rE   r¼   Úir+   s       €r,   rM   ÚBioGptModel.__init__9  s  ø€ Ü‰Ñ˜Ô ØŒØ×)Ñ)ˆŒØ×1Ñ1ˆŒØ×+Ñ+ˆŒØ!×.Ñ.ˆÔØ7=×7M×7M”d—i’i × 2Ñ 2Ô3ÐSVˆä5Ø×Ñ˜tŸ~™~¨t×/?Ñ/?È[ñ
ˆÔô  @À×@^Ñ@^Ð`d×`nÑ`nÓoˆÔä—m’mÔV[Ð\b×\tÑ\tÔVuÓ$vÑVuÐQRÔ%7¸Ô%LÑVuÑ$vÓwˆŒÜŸ,š, t§~¡~Ó6ˆŒà&+ˆÔ#à‰Õùò %ws   Ä	E$Ú	input_idsr$   Ú	head_maskr‚   r{   ra   r&   r`   Úoutput_hidden_statesÚreturn_dictrb   rc   rd   c                 óö  • Ub  UOU R                   R                  nU	b  U	OU R                   R                  n	Ub  UOU R                   R                  nU
b  U
OU R                   R                  n
US L US L-  (       a  [        S5      eUb$  UnUR                  nUR                  SUS   5      nO.Ub   UR                  5       S S nUS S 2S S 2S4   nO[        S5      eUc  U R                  U5      nU R                  (       a0  U R                  (       a  U(       a  [        R                  " S5        SnSnU(       aC  [        U[        5      (       d.  Sn[        R                  " S5        [         R"                  " U5      nUR                  5       S S u  nnUb  UR%                  5       OSnUc#  [&        R(                  " UUU-   UR*                  S	9nUc%  UU-   n[&        R,                  " UUUR*                  S	9n[        U[         5      (       a  UR.                  OUnU R1                  UUUU5      nUc5  [&        R2                  " US
S9nXr-  S
-
  R5                  5       nUS S 2US 24   nU R7                  UUUS9nUU-   n[8        R:                  R=                  UU R<                  U R                  S9nU R                  (       a0  U R                  (       a  U(       a  [        R                  " S5        SnU	(       a  SOS nU(       a  SOS nS n[?        U R@                  5       H|  u  nnU	(       a  UU4-  nU R                  (       a(  [&        RB                  " / 5      nUU RD                  :  a  ML  U" U4UUb  UU   OS UUUUUS.UD6nUS   nU(       d  Ms  UUS
   4-  nM~     U	(       a  UU4-  nU RG                  U5      nU(       a  URI                  5       nU
(       d  [K        S UUUUU4 5       5      $ [M        UUUUUS9$ )NzTYou cannot specify both decoder_input_ids and decoder_inputs_embeds at the same timer„   zEYou have to specify either decoder_input_ids or decoder_inputs_embedsz[`use_cache=True` is incompatible with gradient checkpointing`. Setting `use_cache=False`...FTzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.r   r¤   r   )r¥   )r&   rf   zZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...r/   )r$   r^   r_   r`   ra   r&   rb   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7frq   r/   )Ú.0Úvs     r,   Ú	<genexpr>Ú&BioGptModel.forward.<locals>.<genexpr>Û  s   é € ð árAØ÷ ‘Úrùs   ‚Œ	)Úlast_hidden_stater{   r]   Ú
attentionsÚcross_attentions)'rE   r`   rÓ   ra   Úuse_return_dictÚ
ValueErrorr   Úviewr~   rÄ   rÍ   rh   r   Úwarning_oncer   r
   r   Úfrom_legacy_cacher‘   r4   r¨   r   rŽ   Úself_attention_cacherž   ÚcumsumÚlongrÆ   rU   rj   rJ   Ú	enumeraterÊ   Úrandr½   rÌ   Úto_legacy_cachert   r   )r*   rÑ   r$   rÒ   r‚   r{   ra   r&   r`   rÓ   rÔ   rb   rc   ÚinputÚinput_shapeÚreturn_legacy_cacherˆ   Ú
seq_lengthr%   Úmask_seq_lengthÚself_attn_cacherœ   Ú	positionsr]   Úall_hidden_statesÚall_self_attnsÚall_cross_attentionsÚidxÚdecoder_layerÚdropout_probabilityÚlayer_outputss                                  r,   r)   ÚBioGptModel.forwardN  s"  € ð  2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð ˜Ð -°tÐ";×<ÜÐsÓtÐtØÑ"ØˆEØŸ+™+ˆKØ!Ÿ™ r¨;°r©?Ó;‰IØÑ&Ø'×,Ñ,Ó.¨s°Ð3ˆKØ!¢!¢Q¨ (Ñ+‰EäÐdÓeÐeàÑ Ø ×-Ñ-¨eÓ4ˆMà×&×&¨4¯=¯=ÞÜ×#Ò#Øqôð "	ð $ÐÞœZ¨¼×?Ñ?Ø"&ÐÜ×Òð\ôô
 2×CÒCÀOÓTˆOà!.×!3Ñ!3Ó!5°c°rÐ!:Ñˆ
JØETÑE` ×!?Ñ!?Ô!AÐfgÐØÑ!Ü"Ÿ\š\Ø&Ð(>ÀÑ(KÐTa×ThÑThñˆNð Ñ!à4°zÑAˆOÜ"ŸZšZ¨
°OÈM×L`ÑL`ÑaˆNô ˜/Ô+>×?Ñ?ð ×0Ò0à ð 	ð ×.Ñ.ØØØØó	
ˆð Ñä Ÿ<š<¨¸AÑ>ˆLØ(Ñ9¸AÑ=×CÑCÓEˆLà'ªÐ+AÑ+BÐ(BÑCˆLà×(Ñ(¨Ð9OÐ^jÐ(Ðkˆ	Ø%¨	Ñ1ˆÜŸ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-Ðdˆà×&×&¨4¯=¯=ÞÜ×#Ò#Øpôð "	æ"6™B¸DÐÞ0™°dˆØ#Ðä"+¨D¯K©KÖ"8ÑˆCæ#Ø! mÐ%5Ñ5Ð!Ø}}Ü&+§j¢j°£nÐ#Ø&¨¯©Ó7Ùá)Øð
à*Ø3<Ñ3H ¨3¢ÈdØ.Ø"3Ø#Ø)Ø-ñ
ð ñ
ˆMð *¨!Ñ,ˆMç Ð Ø =°Ñ#3Ð"5Ñ5’ñ1 #9ö6  Ø -Ð!1Ñ1ÐàŸ™¨Ó6ˆæØ-×=Ñ=Ó?ˆOæÜñ à'¨Ð:KÈ^Ð]qÑróó ð ô
 9Ø+Ø+Ø+Ø%Ø1ñ
ð 	
r.   )
rE   rJ   rH   rÆ   rÄ   rÍ   rÌ   r½   rÊ   r¿   )NNNNNNNNNNN)r0   r1   r2   r3   r   rM   r   r   r4   r5   ru   rt   rr   rs   r   r   r   r   r)   r7   r8   r9   s   @r,   rº   rº   7  sI  ø† ð˜|÷ ð* ð 15Ø6:Ø15Ø59Ø@DØ$(Ø37Ø,0Ø/3Ø&*Ø15ñW
à˜E×,Ñ,Ñ-ðW
ð ! ×!2Ñ!2Ñ3ðW
ð ˜E×-Ñ-Ñ.ð	W
ð
   × 1Ñ 1Ñ2ðW
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðW
ð ˜D‘>ðW
ð ˜u×/Ñ/Ñ0ðW
ð $ D™>ðW
ð ' t™nðW
ð ˜d‘^ðW
ð ! §¡Ñ.ðW
ð Ð+Ñ,ðW
ð 
ˆuÐ?Ð?Ñ	@ôW
ó öW
r.   rº   zR
    BioGPT Model with a `language modeling` head on top for CLM fine-tuning.
    )Úcustom_introc                    ó¦  ^ • \ rS rSrS/rU 4S jrS rS r\            SS\	\
R                     S\	\
R                     S\	\
R                     S	\	\
R                     S
\	\\\
R                           S\	\
R                     S\	\   S\	\
R                     S\	\   S\	\   S\	\   S\	\
R                     S\\   S\\\4   4S jj5       rSrU =r$ )ÚBioGptForCausalLMié  zoutput_projection.weightc                 óÂ   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  UR                  SS9U l        U R                  5         g ©NF)Úbias)
r(   rM   rº   ry   rU   rV   rN   rÃ   Úoutput_projectionrÎ   ©r*   rE   r+   s     €r,   rM   ÚBioGptForCausalLM.__init__ñ  sJ   ø€ Ü‰Ñ˜Ô ä! &Ó)ˆŒÜ!#§¢¨6×+=Ñ+=¸v×?PÑ?PÐW\Ñ!]ˆÔð 	‰Õr.   c                 ó   • U R                   $ rq   ©rþ   ©r*   s    r,   Úget_output_embeddingsÚ'BioGptForCausalLM.get_output_embeddingsú  s   € Ø×%Ñ%Ð%r.   c                 ó   • Xl         g rq   r  )r*   Únew_embeddingss     r,   Úset_output_embeddingsÚ'BioGptForCausalLM.set_output_embeddingsý  s   € Ø!/Õr.   rÑ   r$   rÒ   r‚   r{   Úlabelsra   r&   r`   rÓ   rÔ   rb   rc   rd   c                 ó   • Ub  UOU R                   R                  nU R                  " U4UUUUUUU	U
UUS.
UD6nUS   nU R                  U5      nSnUb*  U R                  " UU4SU R                   R
                  0UD6nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  S9$ )a‹  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for language modeling. Note that the labels **are shifted** inside the model, i.e. you can set
    `labels = input_ids` Indices are selected in `[-100, 0, ..., config.vocab_size]` All labels set to `-100`
    are ignored (masked), the loss is only computed for labels in `[0, ..., config.vocab_size]`
N)
r$   rÒ   r‚   r{   ra   r&   r`   rÓ   rÔ   rb   r   rÃ   r   )ÚlossÚlogitsr{   r]   rÜ   rÝ   )rE   rÞ   ry   rþ   Úloss_functionrÃ   r   r{   r]   rÜ   rÝ   )r*   rÑ   r$   rÒ   r‚   r{   r
  ra   r&   r`   rÓ   rÔ   rb   rc   ro   Úsequence_outputÚprediction_scoresÚlm_lossÚoutputs                      r,   r)   ÚBioGptForCausalLM.forward   s  € ð. &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—+’+Øð
à)ØØ'Ø+ØØ%Ø/Ø!5Ø#Ø)ñ
ð ñ
ˆð " !™*ˆØ ×2Ñ2°?ÓCÐàˆØÑØ×(Ò(Ø!Øñð  Ÿ;™;×1Ñ1ðð ñ	ˆGö Ø'Ð)¨G°A°B¨KÑ7ˆFØ,3Ñ,?WJ Ñ'ÐKÀVÐKä0ØØ$Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ñ
ð 	
r.   )ry   rþ   ©NNNNNNNNNNNN)r0   r1   r2   r3   Ú_tied_weights_keysrM   r  r  r   r   r4   r5   ru   rt   rr   rs   r   r   r   r   r)   r7   r8   r9   s   @r,   rú   rú   é  s`  ø† ð 5Ð5Ðõò&ò0ð ð 15Ø6:Ø15Ø59Ø@DØ-1Ø$(Ø37Ø,0Ø/3Ø&*Ø15ñ>
à˜E×,Ñ,Ñ-ð>
ð ! ×!2Ñ!2Ñ3ð>
ð ˜E×-Ñ-Ñ.ð	>
ð
   × 1Ñ 1Ñ2ð>
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ð>
ð ˜×)Ñ)Ñ*ð>
ð ˜D‘>ð>
ð ˜u×/Ñ/Ñ0ð>
ð $ D™>ð>
ð ' t™nð>
ð ˜d‘^ð>
ð ! §¡Ñ.ð>
ð Ð+Ñ,ð>
ð 
ˆuÐ7Ð7Ñ	8ô>
ó ö>
r.   rú   c                    óª  ^ • \ rS rSrU 4S jr\             SS\\R                     S\\R                     S\\R                     S\\R                     S\\
\
\R                           S\\R                     S	\\R                     S
\\   S\\R                     S\\   S\\   S\\   S\\R                     S\\
\4   4S jj5       rSrU =r$ )ÚBioGptForTokenClassificationiB  c                 óŠ  >• [         TU ]  U5        UR                  U l        [        U5      U l        [        US5      (       a  UR                  b  UR                  nOUR                  n[        R                  " U5      U l
        [        R                  " UR                  UR                  5      U l        U R                  5         g )NÚclassifier_dropout)r(   rM   Ú
num_labelsrº   ry   Úhasattrr  rR   rU   ÚDropoutrJ   rV   rN   Ú
classifierrÎ   )r*   rE   r  r+   s      €r,   rM   Ú%BioGptForTokenClassification.__init__D  s“   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä! &Ó)ˆŒÜ6Ð/×0Ñ0°V×5NÑ5NÑ5ZØ!'×!:Ñ!:Ñà!'×!;Ñ!;ÐÜ—z’zÐ"4Ó5ˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒà‰Õr.   rÑ   Útoken_type_idsr$   rÒ   r{   r‚   r
  ra   r&   r`   rÓ   rÔ   rb   rd   c                 óÒ  • Ub  UOU R                   R                  nU R                  UUUUUUU	U
UUUS9nUS   nU R                  U5      nU R	                  U5      nSnUbÍ  [        5       nUbŽ  UR                  S5      S:H  nUR                  SU R                  5      n[        R                  " UUR                  S5      [        R                  " UR                  5      R                  U5      5      nU" UU5      nO2U" UR                  SU R                  5      UR                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )áe  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
N©
r{   r$   rÒ   r‚   ra   r&   r`   rÓ   rÔ   rb   r   r„   r   r   )r  r  r]   rÜ   )rE   rÞ   ry   rJ   r  r   rà   r  r4   ÚwhereÚtensorÚignore_indexÚtype_asr   r]   rÜ   )r*   rÑ   r  r$   rÒ   r{   r‚   r
  ra   r&   r`   rÓ   rÔ   rb   Útransformer_outputsr]   r  r  Úloss_fctÚactive_lossÚactive_logitsÚactive_labelsr  s                          r,   r)   Ú$BioGptForTokenClassification.forwardR  su  € ð. &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"Ÿk™kØØ+Ø)ØØ'ØØ%Ø/Ø!5Ø#Ø)ð *ð 
Ðð ,¨AÑ.ˆØŸ™ ]Ó3ˆØ—‘ Ó/ˆàˆØÑÜ'Ó)ˆHàÑ)Ø,×1Ñ1°"Ó5¸Ñ:Ø &§¡¨B°·±Ó @Ü %§¢Ø §¡¨R£´%·,²,¸x×?TÑ?TÓ2U×2]Ñ2]Ð^dÓ2eó!ñ   ¨}Ó=‘á §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓRæØYÐ!4°Q°RÐ!8Ñ8ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ-×;Ñ;Ø*×5Ñ5ñ	
ð 	
r.   )ry   r  rJ   r  )NNNNNNNNNNNNN)r0   r1   r2   r3   rM   r   r   r4   r5   ru   rt   rr   rs   r   r   r)   r7   r8   r9   s   @r,   r  r  B  sc  ø† õð ð 15Ø59Ø6:Ø15Ø@DØ59Ø-1Ø$(Ø37Ø,0Ø/3Ø&*Ø15ñA
à˜E×,Ñ,Ñ-ðA
ð ! ×!1Ñ!1Ñ2ðA
ð ! ×!2Ñ!2Ñ3ð	A
ð
 ˜E×-Ñ-Ñ.ðA
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðA
ð   × 1Ñ 1Ñ2ðA
ð ˜×)Ñ)Ñ*ðA
ð ˜D‘>ðA
ð ˜u×/Ñ/Ñ0ðA
ð $ D™>ðA
ð ' t™nðA
ð ˜d‘^ðA
ð ! §¡Ñ.ðA
ð 
ˆuÐ+Ð+Ñ	,ôA
ó öA
r.   r  aÛ  
    The BioGpt Model transformer with a sequence classification head on top (linear layer).

    [`BioGptForSequenceClassification`] uses the last token in order to do the classification, as other causal models
    (e.g. GPT-2) do.

    Since it does classification on the last token, it is required to know the position of the last token. If a
    `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in each row. If
    no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot guess the
    padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last value in
    each row of the batch).
    c                   óž  ^ • \ rS rSrS\4U 4S jjr\            SS\\R                     S\\R                     S\\R                     S\\\\R                           S\\R                     S	\\R                     S
\\   S\\R                     S\\   S\\   S\\   S\\R                     S\\\4   4S jj5       rS rS rSrU =r$ )ÚBioGptForSequenceClassificationi—  rE   c                 óä   >• [         TU ]  U5        UR                  U l        [        U5      U l        [
        R                  " UR                  U R                  SS9U l        U R                  5         g rü   )
r(   rM   r  rº   ry   rU   rV   rN   ÚscorerÎ   rÿ   s     €r,   rM   Ú(BioGptForSequenceClassification.__init__¦  sS   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒÜ! &Ó)ˆŒÜ—Y’Y˜v×1Ñ1°4·?±?ÈÑOˆŒ
ð 	‰Õr.   rÑ   r$   rÒ   r{   r‚   r
  ra   r&   r`   rÓ   rÔ   rb   rd   c                 ó*  • Ub  UOU R                   R                  nU R                  UUUUUUUU	U
UUS9nUS   nU R                  U5      nUb  UR                  SS u  nnOUR                  SS u  nnU R                   R
                  c  SnOˆUbV  [        R                  " XR                   R
                  5      R                  S5      S-
  R                  UR                  5      nO/Sn[        R                  " U R                  R                   S35        U[        R                  " UUR                  S9U4   nSnUGb  U R                   R                   c‘  U R"                  S:X  a  S	U R                   l        OoU R"                  S:”  aN  UR$                  [        R&                  :X  d  UR$                  [        R(                  :X  a  S
U R                   l        OSU R                   l        U R                   R                   S	:X  aJ  [+        5       nU R"                  S:X  a&  U" UR-                  5       UR-                  5       5      nOŽU" UU5      nO„U R                   R                   S
:X  a=  [/        5       nU" UR1                  SU R"                  5      UR1                  S5      5      nO-U R                   R                   S:X  a  [3        5       nU" UU5      nU(       d  U4USS -   nUb  U4U-   $ U$ [5        UUUR6                  UR8                  UR:                  S9$ )r!  Nr"  r   r   r„   r   zŠ will not detect padding tokens in `inputs_embeds`. Results may be unexpected if using padding tokens in conjunction with `inputs_embeds.`r¤   Ú
regressionÚsingle_label_classificationÚmulti_label_classification)r  r  r{   r]   rÜ   )rE   rÞ   ry   r0  r   r¾   r4   ÚneÚsumr¬   r   r   rá   r+   r0   r¨   Úproblem_typer  r‡   rå   r6   r   Úsqueezer   rà   r   r   r{   r]   rÜ   )r*   rÑ   r$   rÒ   r{   r‚   r
  ra   r&   r`   rÓ   rÔ   rb   r'  r]   r  rˆ   r…   Úpooled_logitsr  r(  r  s                         r,   r)   Ú'BioGptForSequenceClassification.forward¯  sË  € ð, &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"Ÿk™kØØ+Ø)ØØ'ØØ%Ø/Ø!5Ø#Ø)ð *ð 
Ðð ,¨AÑ.ˆØ—‘˜MÓ*ˆàÑ Ø*3¯/©/¸"¸1Ð*=Ñ'ˆJ™à*7×*=Ñ*=¸b¸qÐ*AÑ'ˆJ˜à;‰;×#Ñ#Ñ+Ø ‰OàÑ$Ü#(§8¢8¨I·{±{×7OÑ7OÓ#P×#TÑ#TÐUWÓ#XÐ[\Ñ#\×"`Ñ"`Ðag×anÑanÓ"o‘à"$Ü×#Ò#Ø—~‘~×.Ñ.Ð/ð 0^ð ^ôð
 œuŸ|š|¨J¸v¿}¹}ÑMÈÐ^Ñ_ˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# M×$9Ñ$9Ó$;¸V¿^¹^Ó=MÓN‘Dá# M°6Ó:‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù × 2Ñ 2°2°t·±Ó GÈÏÉÐUWËÓY‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù ¨vÓ6ÞØ#Ð%Ð(;¸A¸BÐ(?Ñ?ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä/ØØ Ø/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ñ
ð 	
r.   c                 ó.   • U R                   R                  $ rq   ©ry   rÄ   r  s    r,   Úget_input_embeddingsÚ4BioGptForSequenceClassification.get_input_embeddings  s   € Ø{‰{×'Ñ'Ð'r.   c                 ó$   • XR                   l        g rq   r=  )r*   Úvalues     r,   Úset_input_embeddingsÚ4BioGptForSequenceClassification.set_input_embeddings  s   € Ø#(‰Õ r.   )ry   r  r0  r  )r0   r1   r2   r3   r   rM   r   r   r4   r5   ru   rt   rr   rs   r   r   r)   r>  rB  r7   r8   r9   s   @r,   r.  r.  —  sa  ø† ð˜|÷ ð ð 15Ø6:Ø15Ø@DØ59Ø-1Ø$(Ø37Ø,0Ø/3Ø&*Ø15ñZ
à˜E×,Ñ,Ñ-ðZ
ð ! ×!2Ñ!2Ñ3ðZ
ð ˜E×-Ñ-Ñ.ð	Z
ð
 " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðZ
ð   × 1Ñ 1Ñ2ðZ
ð ˜×)Ñ)Ñ*ðZ
ð ˜D‘>ðZ
ð ˜u×/Ñ/Ñ0ðZ
ð $ D™>ðZ
ð ' t™nðZ
ð ˜d‘^ðZ
ð ! §¡Ñ.ðZ
ð 
ˆuÐ6Ð6Ñ	7ôZ
ó ðZ
òx(÷)ð )r.   r.  )rú   r  r.  rº   rw   )8Ú__doc__rÁ   Útypingr   r   r4   Útorch.nnrU   Útorch.utils.checkpointr   r   r   Úactivationsr	   Úcache_utilsr
   r   Ú
generationr   Úmodeling_attn_mask_utilsr   Úmodeling_outputsr   r   r   r   Úmodeling_utilsr   Úprocessing_utilsr   Úutilsr   r   r   r   Úbart.modeling_bartr   r   r   Úopt.modeling_optr   Úconfiguration_biogptr   Úintegrations.flex_attentionr   r    r"   r;   r@   rC   rw   rº   rú   r  r.  Ú__all__r/   r.   r,   Ú<module>rU     s]  ðñ ã ß "ã Ý Û ß AÑ Aå !ß 5Ý )õ÷ó õ .Ý &÷ó ÷ñ õ
 =Ý .ñ  ×!Ñ!ßUôNÐ'Dô Nô	Ð 7ô 	ô	mô 	ôVÐ)ô Vðr ôM˜Oó Mó ðMð` ôn
Ð'ó n
ó ðn
ñb ðñô
Q
Ð-¨ó Q
óð
Q
ðh ôQ
Ð#8ó Q
ó ðQ
ñh ðñôk)Ð&;ó k)óðk)ò\r.   