ó
    <±há¤  ã                   óD  • S SK r S SKJrJrJr  S SKrS SKJr  S SKJrJ	r	J
r
  SSKJr  SSKJrJr  SSKJr  SSKJr  SS	KJr  SS
KJr  SSKJrJrJrJr  SSKJrJr  SSK J!r!  SSK"J#r#J$r$J%r%J&r&  SSK'J(r(  \%" 5       (       a  SSK)J*r*J+r+  \&RX                  " \-5      r. " S S\R^                  5      r0 " S S\R^                  5      r1   S1S\Rd                  S\Rf                  S\Rf                  S\Rf                  S\\Rf                     S\\4   S\4S\\Rf                     4S jjr5 " S S \Rd                  5      r6 " S! S"\5      r7\$ " S# S$\5      5       r8\$ " S% S&\85      5       r9\$" S'S(9 " S) S*\8\5      5       r:\$ " S+ S,\85      5       r;\$" S-S(9 " S. S/\85      5       r</ S0Qr=g)2é    N)ÚCallableÚOptionalÚUnion)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)ÚAttentionMaskConverter)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentionsÚ SequenceClassifierOutputWithPastÚTokenClassifierOutput)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)ÚTransformersKwargsÚauto_docstringÚis_torch_flex_attn_availableÚloggingé   )ÚBioGptConfig)Ú	BlockMaskÚmake_flex_block_causal_maskc                   óŠ   ^ • \ rS rSrSrS\S\4U 4S jjr  SS\R                  S\S\	\R                     4U 4S	 jjjr
S
rU =r$ )Ú BioGptLearnedPositionalEmbeddingé6   zF
This module learns positional embeddings up to a fixed maximum size.
Únum_embeddingsÚembedding_dimc                 óL   >• SU l         [        TU ]	  XR                   -   U5        g )Né   )ÚoffsetÚsuperÚ__init__)Úselfr#   r$   Ú	__class__s      €Úb/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/biogpt/modeling_biogpt.pyr)   Ú)BioGptLearnedPositionalEmbedding.__init__;   s"   ø€ ð ˆŒÜ‰Ñ˜¯+©+Ñ5°}ÕEó    Úattention_maskÚpast_key_values_lengthÚposition_idsc                 óª   >• Uc5  [         R                  " USS9nX1-  S-
  R                  5       nUSS2US24   n[        TU ]  X0R
                  -   5      $ )z3`input_ids_shape` is expected to be [bsz x seqlen].Nr   ©Údim)ÚtorchÚcumsumÚlongr(   Úforwardr'   )r*   r/   r0   r1   r+   s       €r,   r8   Ú(BioGptLearnedPositionalEmbedding.forwardA   sZ   ø€ ð ÑÜ Ÿ<š<¨¸AÑ>ˆLØ(Ñ9¸AÑ=×CÑCÓEˆLà'ªÐ+AÑ+BÐ(BÑCˆLä‰w‰˜|¯k©kÑ9Ó:Ð:r.   )r'   )r   N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Úintr)   r5   Ú
LongTensorr   r8   Ú__static_attributes__Ú__classcell__©r+   s   @r,   r!   r!   6   s]   ø† ñðF sð F¸3÷ Fð '(Ø37ñ	;à×(Ñ(ð;ð !$ð;ð ˜u×/Ñ/Ñ0÷	;ö ;r.   r!   c            
       ór   ^ • \ rS rSrSrSS\S\S\S\\   4U 4S jjjrS\	R                  4U 4S	 jjrS
rU =r$ )ÚBioGptScaledWordEmbeddingéR   zT
This module overrides nn.Embeddings' forward by multiplying with embeddings scale.
r#   r$   Úpadding_idxÚembed_scalec                 ó2   >• [         TU ]  XU5        X@l        g ©N)r(   r)   rH   )r*   r#   r$   rG   rH   r+   s        €r,   r)   Ú"BioGptScaledWordEmbedding.__init__W   s   ø€ Ü‰Ñ˜¸ÔDØ&Õr.   Ú	input_idsc                 ó<   >• [         TU ]  U5      U R                  -  $ rJ   )r(   r8   rH   )r*   rL   r+   s     €r,   r8   Ú!BioGptScaledWordEmbedding.forward[   s   ø€ Ü‰w‰˜yÓ)¨D×,<Ñ,<Ñ<Ð<r.   ©rH   )ç      ð?)r:   r;   r<   r=   r>   r?   r   Úfloatr)   r5   ÚTensorr8   rA   rB   rC   s   @r,   rE   rE   R   sJ   ø† ññ' sð '¸3ð 'ÈSð 'Ð_gÐhmÑ_n÷ 'ð 'ð= §¡÷ =õ =r.   rE   ÚmoduleÚqueryÚkeyÚvaluer/   ÚscalingÚdropoutÚ	head_maskc                 óÀ  • Uc  UR                  S5      S-  n[        R                  " XR                  SS5      5      U-  n	Ub  X”-   n	[        R
                  R                  U	SS9n	Ub  X—R                  SSSS5      -  n	[        R
                  R                  X–U R                  S9n	[        R                  " X“5      n
U
R                  SS5      R                  5       n
X©4$ )Néÿÿÿÿç      à¿r&   r	   r3   r   ©ÚpÚtraining)Úsizer5   ÚmatmulÚ	transposeÚnnÚ
functionalÚsoftmaxÚviewrX   r_   Ú
contiguous)rS   rT   rU   rV   r/   rW   rX   rY   ÚkwargsÚattn_weightsÚattn_outputs              r,   Úeager_attention_forwardrk   _   sÌ   € ð Ø—*‘*˜R“. DÑ(ˆä—<’< §}¡}°Q¸Ó':Ó;¸gÑE€LØÑ!Ø#Ñ4ˆä—=‘=×(Ñ(¨¸2Ð(Ð>€LàÑØ#§n¡n°Q¸¸A¸qÓ&AÑAˆä—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r.   c                   óŒ  ^ • \ rS rSrSr      SS\S\S\S\S\S\S	\\	   S
\\   4U 4S jjjr
      SS\R                  S\\R                     S\\   S\\R                     S\\R                     S\S\\R                     S\\   S\\R                  \\R                     \\\R                        4   4S jjrSrU =r$ )ÚBioGptAttentioné}   z=Multi-headed attention from 'Attention Is All You Need' paperÚ	embed_dimÚ	num_headsrX   Ú
is_decoderÚbiasÚ	is_causalÚconfigÚ	layer_idxc	                 ót  >• [         T	U ]  5         Xl        X l        X0l        X-  U l        Xpl        U R
                  U-  U R                  :w  a  [        SU R                   SU S35      eU R
                  S-  U l        X@l	        X`l
        X€l        Uc>  U R                  (       a-  [        R                  SU R                  R                   S35        [         R"                  " XUS9U l        [         R"                  " XUS9U l        [         R"                  " XUS9U l        [         R"                  " XUS9U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).r\   zInstantiating a decoder z¸ without passing `layer_idx` is not recommended and will lead to errors during the forward call, if caching is used. Please make sure to provide a `layer_idx` when creating this class.©rr   )r(   r)   ro   rp   rX   Úhead_dimrt   Ú
ValueErrorrW   rq   rs   ru   ÚloggerÚwarning_oncer+   r:   rc   ÚLinearÚk_projÚv_projÚq_projÚout_proj)
r*   ro   rp   rX   rq   rr   rs   rt   ru   r+   s
            €r,   r)   ÚBioGptAttention.__init__€   s  ø€ ô 	‰ÑÔØ"ŒØ"ŒØŒØ!Ñ.ˆŒØŒàM‰M˜IÑ%¨$¯.©.Ó8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ŒØ"ŒØ"ŒØÑ §§Ü×ÑØ*¨4¯>©>×+BÑ+BÐ*Cð D,ð ,ôô —i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜŸ	š	 )¸TÑBˆr.   Úhidden_statesÚkey_value_statesÚpast_key_valuer/   Úlayer_head_maskÚoutput_attentionsÚcache_positionrh   Úreturnc                 ó8  • USLn	UR                   SS u  p«U	(       a  UR                   S   OUnX«SU R                  4nX¬SU R                  4nU R                  U5      R                  " U6 R	                  SS5      nUb]  [        U[        5      (       aF  UR                  R                  U R                  5      nU	(       a  UR                  nOUR                  nOUnU	(       a  UOUnU	(       aQ  UbN  W(       aG  WR                  U R                     R                  nUR                  U R                     R                  nO±U R                  U5      nU R!                  U5      nUR                  " U6 R	                  SS5      nUR                  " U6 R	                  SS5      nUbN  U	(       d  UOSnWR#                  UUU R                  SU05      u  nnU	(       a  SUR                  U R                  '   [$        nU R&                  R(                  S:w  a  [*        U R&                  R(                     nU" U UUUU4U R,                  (       d  SOU R.                  U R0                  UUS	.UD6u  nnUR3                  X«S5      R5                  5       nU R7                  U5      nUU4$ )
z#Input shape: Batch x Time x ChannelNr[   r   r&   r‡   TÚeagerç        )rX   rW   r†   rY   )Úshaperx   r   rf   rb   Ú
isinstancer   Ú
is_updatedÚgetru   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesr}   r~   Úupdaterk   rt   Ú_attn_implementationr   r_   rX   rW   Úreshaperg   r€   )r*   r‚   rƒ   r„   r/   r…   r†   r‡   rh   Úis_cross_attentionÚbszÚtgt_lenÚsrc_lenÚq_input_shapeÚkv_input_shapeÚquery_statesrŽ   Úcurr_past_key_valueÚcurrent_statesÚ
key_statesÚvalue_statesÚattention_interfacerj   ri   s                           r,   r8   ÚBioGptAttention.forward§   sn  € ð" .°TÐ9Ðð %×*Ñ*¨3¨BÐ/‰ˆÞ/AÐ"×(Ñ(¨Ò+Àwˆà r¨4¯=©=Ð9ˆØ¨¨D¯M©MÐ:ˆð —{‘{ =Ó1×6Ò6¸ÐF×PÑPÐQRÐTUÓVˆàÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ-?Ñ)À]ˆÞ .Ñ"<Æà,×3Ñ3°D·N±NÑC×HÑHˆJØ.×5Ñ5°d·n±nÑE×LÑL‰LàŸ™ ^Ó4ˆJØŸ;™; ~Ó6ˆLØ#Ÿš¨.Ð9×CÑCÀAÀqÓIˆJØ'×,Ò,¨nÐ=×GÑGÈÈ1ÓMˆLàÑ)æ7I¡ÈtØ+>×+EÑ+EØ ¨d¯n©nÐ?OÐQ_Ð>`ó,Ñ(
˜Lö &Ø@DN×-Ñ-¨d¯n©nÑ=ä(?ÐØ;‰;×+Ñ+¨wÓ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØð%
ð  $Ÿ}Ÿ}‘C°$·,±,Ø—L‘LØ/Ø%ñ%
ð ñ%
Ñ!ˆ\ð "×)Ñ)¨#¸Ó;×FÑFÓHˆØ—m‘m KÓ0ˆà˜LÐ(Ð(r.   )rt   rX   ro   rx   rs   rq   r}   ru   rp   r€   r   rW   r~   )r‹   FTFNN)NNNNFN)r:   r;   r<   r=   r>   r?   rQ   Úboolr   r   r)   r5   rR   r   r   r   Útupler8   rA   rB   rC   s   @r,   rm   rm   }   s`  ø† ÙGð Ø ØØØ)-Ø#'ñ%Càð%Cð ð%Cð ð	%Cð
 ð%Cð ð%Cð ð%Cð ˜Ñ&ð%Cð ˜C‘=÷%Cð %CðT 48Ø*.Ø15Ø26Ø"'Ø15ñQ)à—|‘|ðQ)ð # 5§<¡<Ñ0ðQ)ð ! ™ð	Q)ð
 ! §¡Ñ.ðQ)ð " %§,¡,Ñ/ðQ)ð  ðQ)ð ! §¡Ñ.ðQ)ð Ð-Ñ.ðQ)ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷Q)ó Q)r.   rm   c                   ól  ^ • \ rS rSrSS\S\\   4U 4S jjjr       SS\R                  S\\R                     S\\R                     S\\
   S	\\   S
\\   S\\R                     S\\R                     S\\   S\\R                   \\\R                   \R                   4      4   4S jjrSrU =r$ )ÚBioGptDecoderLayeréû   rt   ru   c           
      óp  >• [         TU ]  5         UR                  U l        [	        U R                  UR
                  UR                  SSUUS9U l        UR                  U l	        [        UR                     U l        UR                  U l        [        R                  " U R                  5      U l        [        R"                  " U R                  UR$                  5      U l        [        R"                  " UR$                  U R                  5      U l        [        R                  " U R                  5      U l        g )NT)ro   rp   rX   rq   rs   rt   ru   )r(   r)   Úhidden_sizero   rm   Únum_attention_headsÚattention_probs_dropout_probÚ	self_attnÚhidden_dropout_probrX   r
   Ú
hidden_actÚactivation_fnÚactivation_dropoutrc   Ú	LayerNormÚself_attn_layer_normr|   Úintermediate_sizeÚfc1Úfc2Úfinal_layer_norm)r*   rt   ru   r+   s      €r,   r)   ÚBioGptDecoderLayer.__init__ü   sÞ   ø€ Ü‰ÑÔØ×+Ñ+ˆŒä(Ø—n‘nØ×0Ñ0Ø×7Ñ7ØØØØñ
ˆŒð ×1Ñ1ˆŒÜ# F×$5Ñ$5Ñ6ˆÔØ"(×";Ñ";ˆÔä$&§L¢L°·±Ó$@ˆÔ!ä—9’9˜TŸ^™^¨V×-EÑ-EÓFˆŒÜ—9’9˜V×5Ñ5°t·~±~ÓFˆŒÜ "§¢¨T¯^©^Ó <ˆÕr.   r‚   r/   r…   r„   r†   Ú	use_cacher1   r‡   rh   rˆ   c	                 óJ  • Un
U R                  U5      nU R                  " SUUUUUUUS.U	D6u  p[        R                  R	                  XR                  U R
                  S9nX¡-   nUn
U R                  U5      nU R                  U5      nU R                  U5      n[        R                  R	                  XR                  U R
                  S9nU R                  U5      n[        R                  R	                  XR                  U R
                  S9nX¡-   nU4nU(       a  XË4-  nU$ )ay  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
        `(encoder_attention_heads,)`.
    past_key_value (`Tuple(torch.FloatTensor)`): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence. It is used to update the
        cache in the correct position and to infer the complete sequence length.
)r‚   r„   r/   r…   r†   r1   r‡   r]   © )r´   r®   rc   rd   rX   r_   r¸   r¶   r±   r²   r·   )r*   r‚   r/   r…   r„   r†   rº   r1   r‡   rh   ÚresidualÚself_attn_weightsÚoutputss                r,   r8   ÚBioGptDecoderLayer.forward  s.  € ð< !ˆà×1Ñ1°-Ó@ˆð ,0¯>ª>ð 	,
Ø'Ø)Ø)Ø+Ø/Ø%Ø)ñ	,
ð ñ	,
Ñ(ˆô Ÿ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆð !ˆØ×-Ñ-¨mÓ<ˆØŸ™ Ó/ˆØ×*Ñ*¨=Ó9ˆÜŸ™×-Ñ-¨m×?VÑ?VÐae×anÑanÐ-ÐoˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆà Ð"ˆæØÐ+Ñ+ˆGàˆr.   )	r²   r±   rX   ro   r¶   r·   r¸   r®   r´   rJ   )NNNFTNN)r:   r;   r<   r=   r   r   r?   r)   r5   rR   r   r¥   r@   r   r   r¦   ÚFloatTensorr8   rA   rB   rC   s   @r,   r¨   r¨   û   s	  ø† ñ=˜|ð =¸À¹÷ =ð =ð4 26Ø26Ø*.Ø,1Ø$(Ø37Ø15ñ?à—|‘|ð?ð ! §¡Ñ.ð?ð " %§,¡,Ñ/ð	?ð
 ! ™ð?ð $ D™>ð?ð ˜D‘>ð?ð ˜u×/Ñ/Ñ0ð?ð ! §¡Ñ.ð?ð Ð+Ñ,ð?ð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷?ó ?r.   r¨   c                   ó  • \ rS rSr% \\S'   SrSrSrSr	Sr
SrS\\\R                  S4      S\R                  S\R                  S	\4S
 jr\S\R                  S\S\S\R(                  S\R                  S\4S j5       rSrg)ÚBioGptPreTrainedModeliU  rt   ÚbiogptTr/   r   Úinput_tensorr‡   Úpast_key_valuesc           	      ó\  • U R                   R                  S:X  au  [        U[        R                  5      (       a  [        U5      nU$ UcD  [        [        R                  " UR                  S   UR                  S   4UR                  S95      nU$ U R                   R                  S:X  a  Ub  US:H  R                  5       (       a  U$ g Ub  UR                  5       OSnUb  UR                  OSnU R                   R                  S:X  a.  U(       d'  [        R                  " UUUU R                  S	9(       a  g UR                  nUR                  S   nU(       a  UR!                  5       n	O5[        U[        R                  5      (       a  UR                  S
   OXX-   S-   n	U R#                  UUU	UUUR                  S   S9n
U R                   R                  S:X  aS  UbP  UR                  R$                  S;   a6  [        R&                  " U5      R(                  n[        R*                  " X«5      n
U
$ )NÚflex_attentionr   r   )r`   ÚdeviceÚflash_attention_2r‹   FÚsdpa)Úinputs_embedsr0   Úis_trainingr[   )Úsequence_lengthÚtarget_lengthÚdtyper‡   Ú
batch_size)ÚcudaÚxpuÚnpu)rt   r–   r   r5   rR   r   ÚonesrŒ   rÉ   ÚanyÚget_seq_lengthÚis_compileabler   Ú_ignore_causal_mask_sdpar_   rÐ   Úget_max_cache_shapeÚ5_prepare_4d_causal_attention_mask_with_cache_positionÚtypeÚfinfoÚminÚ_unmask_unattended)r*   r/   rÅ   r‡   rÆ   Úpast_seen_tokensÚusing_compilable_cacherÐ   rÎ   rÏ   Úcausal_maskÚ	min_dtypes               r,   Ú_update_causal_maskÚ)BioGptPreTrainedModel._update_causal_maska  s  € ð ;‰;×+Ñ+Ð/?Ó?Ü˜.¬%¯,©,×7Ñ7Ü!<¸^Ó!Lð "Ð!ð  Ñ'Ü!<Ü—J’JØ*×0Ñ0°Ñ3°\×5GÑ5GÈÑ5JÐKØ-×4Ñ4ñó"ð "Ð!à;‰;×+Ñ+Ð/BÓBØÑ)¨~ÀÑ/D×.IÑ.I×.KÑ.KØ%Ð%Øð
 @OÑ?Z˜?×9Ñ9Ô;Ð`aÐØCRÑC^ ×!?Ò!?ÐdiÐð ;‰;×+Ñ+¨vÓ5Ö>TÜ%×>Ò>ØØ*Ø'7Ø ŸM™M÷	ð à×"Ñ"ˆØ&×,Ñ,¨QÑ/ˆÞ!Ø+×?Ñ?ÓA‰Mô ˜n¬e¯l©l×;Ñ;ð ×$Ñ$ RÒ(à%Ñ7¸!Ñ;ð ð ×PÑPØØ+Ø'ØØ)Ø#×)Ñ)¨!Ñ,ð Qð 
ˆð K‰K×,Ñ,°Ó6ØÑ*Ø×%Ñ%×*Ñ*Ð.DÓDô
 Ÿš EÓ*×.Ñ.ˆIÜ0×CÒCÀKÓ[ˆKàÐr.   rÎ   rÏ   rÐ   rÑ   c                 ó¶  • U b  U R                  5       S:X  a  U nU$ [        R                  " U5      R                  n[        R                  " X4XƒUR
                  S9nUS:w  a  [        R                  " USS9nU[        R                  " X$R
                  S9UR                  SS5      :„  -  nUSSSS2SS24   R                  USSS5      nU b‹  UR                  5       nU R                  S   n	USS2SS2SS2SU	24   U SS2SSSS24   R                  UR
                  5      -   n
U
S:H  n
USS2SS2SS2SU	24   R                  X¨5      USS2SS2SS2SU	24'   U$ )	a½  
Creates a causal 4D mask of shape `(batch_size, 1, query_length, key_value_length)` from a 2D mask of shape
`(batch_size, key_value_length)`, or if the input `attention_mask` is already 4D, do nothing.

Args:
    attention_mask (`torch.Tensor`):
        A 2D attention mask of shape `(batch_size, key_value_length)` or a 4D attention mask of shape
        `(batch_size, 1, query_length, key_value_length)`.
    sequence_length (`int`):
        The sequence length being processed.
    target_length (`int`):
        The target length: when generating with static cache, the mask should be as long as the static cache,
        to account for the 0 padding, the part of the cache that is not filled yet.
    dtype (`torch.dtype`):
        The dtype to use for the 4D attention mask.
    cache_position (`torch.Tensor`):
        Indices depicting the position of the input sequence tokens in the sequence.
    batch_size (`torch.Tensor`):
        Batch size.
Né   )Ú
fill_valuerÐ   rÉ   r   )Údiagonal©rÉ   r[   r   )r4   r5   rÝ   rÞ   ÚfullrÉ   ÚtriuÚaranger—   ÚexpandÚclonerŒ   ÚtoÚmasked_fill)r/   rÎ   rÏ   rÐ   r‡   rÑ   rh   râ   rã   Úmask_lengthÚpadding_masks              r,   rÛ   ÚKBioGptPreTrainedModel._prepare_4d_causal_attention_mask_with_cache_position­  s}  € ð> Ñ%¨.×*<Ñ*<Ó*>À!Ó*Cà(ˆKð* Ðô' Ÿš EÓ*×.Ñ.ˆIÜŸ*š*Ø Ð0¸YÐ\j×\qÑ\qñˆKð  !Ó#Ü#Ÿjšj¨¸qÑAØœ5Ÿ<š<¨×>SÑ>SÑTÐWe×WmÑWmÐnpÐrsÓWtÑtÑtˆKØ% d¨D²!²QÐ&6Ñ7×>Ñ>¸zÈ1ÈbÐRTÓUˆKØÑ)Ø)×/Ñ/Ó1Ø,×2Ñ2°2Ñ6Ø*ª1ªa²°L°[°LÐ+@ÑAÀNÒSTÐVZÐ\`ÒbcÐScÑDd×DgÑDgØ×&Ñ&óEñ  ð  ,¨qÑ0Ø5@ÂÂAÂqÈ,È;È,ÐAVÑ5W×5cÑ5cØ ó6šAšq¢! \ k \Ð1Ñ2ð Ðr.   r¼   N)r:   r;   r<   r=   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnÚ_can_compile_fullgraphr   r   r5   rR   r   rä   Ústaticmethodr?   rÐ   rÛ   rA   r¼   r.   r,   rÃ   rÃ   U  sÏ   ‡ àÓØ ÐØ&*Ð#ØÐØ€NØÐà!ÐðJà   u§|¡|°[Ð'@Ñ!AÑBðJð —l‘lðJð Ÿ™ð	Jð
 ôJðX ð4ØŸ™ð4àð4ð ð4ð {‰{ð	4ð
 Ÿ™ð4ð ó4ó ó4r.   rÃ   c                   ó|  ^ • \ rS rSrS\4U 4S jjr\           SS\\R                     S\\R                     S\\R                     S\\R                     S\\\\R                           S	\\   S
\\R                     S\\   S\\   S\\   S\\R                     S\\   S\\\4   4S jj5       rSrU =r$ )ÚBioGptModeliæ  rt   c           
      óÒ  >• [         TU ]  U5        Xl        UR                  U l        UR                  U l        UR                  U l        UR                  U l	        UR                  (       a   [        R                  " UR                  5      OSn[        UR                  U R                  U R                  US9U l        [!        UR"                  U R                  5      U l        [&        R(                  " [+        UR,                  5       Vs/ sH  n[/        XS9PM     sn5      U l        [&        R2                  " U R                  5      U l        SU l        U R9                  5         g s  snf )NrP   rO   )ru   F)r(   r)   rt   Ú	layerdropr¯   rX   r«   ro   Úpad_token_idrG   Úscale_embeddingÚmathÚsqrtrE   Ú
vocab_sizeÚembed_tokensr!   Úmax_position_embeddingsÚembed_positionsrc   Ú
ModuleListÚrangeÚnum_hidden_layersr¨   r’   r³   Ú
layer_normÚgradient_checkpointingÚ	post_init)r*   rt   rH   Úir+   s       €r,   r)   ÚBioGptModel.__init__è  s  ø€ Ü‰Ñ˜Ô ØŒØ×)Ñ)ˆŒØ×1Ñ1ˆŒØ×+Ñ+ˆŒØ!×.Ñ.ˆÔØ7=×7M×7M”d—i’i × 2Ñ 2Ô3ÐSVˆä5Ø×Ñ˜tŸ~™~¨t×/?Ñ/?È[ñ
ˆÔô  @À×@^Ñ@^Ð`d×`nÑ`nÓoˆÔä—m’mÔV[Ð\b×\tÑ\tÔVuÓ$vÑVuÐQRÔ%7¸Ô%LÑVuÑ$vÓwˆŒÜŸ,š, t§~¡~Ó6ˆŒà&+ˆÔ#à‰Õùò %ws   Ä	E$rL   r/   rY   rÌ   rÆ   rº   r1   r†   Úoutput_hidden_statesÚreturn_dictr‡   rh   rˆ   c                 óð  • Ub  UOU R                   R                  nU	b  U	OU R                   R                  n	Ub  UOU R                   R                  nU
b  U
OU R                   R                  n
US L US L-  (       a  [        S5      eUb$  UnUR                  nUR                  SUS   5      nO.Ub   UR                  5       S S nUS S 2S S 2S4   nO[        S5      eUc  U R                  U5      nU R                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnSnU(       aB  [        U[        5      (       d-  Sn[        R                  S5        [         R"                  " U5      nUR                  5       S S u  nnUb  UR%                  5       OSnUc#  [&        R(                  " UUU-   UR*                  S	9nUc%  UU-   n[&        R,                  " UUUR*                  S	9n[        U[         5      (       a  UR.                  OUnU R1                  UUUU5      nUc5  [&        R2                  " US
S9nXr-  S
-
  R5                  5       nUS S 2US 24   nU R7                  UUUS9nUU-   n[8        R:                  R=                  UU R<                  U R                  S9nU R                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnU	(       a  SOS nU(       a  SOS nS n[?        U R@                  5       H|  u  nnU	(       a  UU4-  nU R                  (       a(  [&        RB                  " / 5      nUU RD                  :  a  ML  U" U4UUb  UU   OS UUUUUS.UD6nUS   nU(       d  Ms  UUS
   4-  nM~     U	(       a  UU4-  nU RG                  U5      nU(       a  URI                  5       nU
(       d  [K        S UUUUU4 5       5      $ [M        UUUUUS9$ )NzTYou cannot specify both decoder_input_ids and decoder_inputs_embeds at the same timer[   zEYou have to specify either decoder_input_ids or decoder_inputs_embedsz[`use_cache=True` is incompatible with gradient checkpointing`. Setting `use_cache=False`...FTzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.r   rê   r   r3   )r1   r]   zZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...r¼   )r/   r…   r„   r†   rº   r1   r‡   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7frJ   r¼   )Ú.0Úvs     r,   Ú	<genexpr>Ú&BioGptModel.forward.<locals>.<genexpr>Š  s   é € ð árAØ÷ ‘Úrùs   ‚Œ	)Úlast_hidden_staterÆ   r‚   Ú
attentionsÚcross_attentions)'rt   r†   r  rº   Úuse_return_dictry   rŒ   rf   r`   r  r  r_   rz   r{   r   r   r   Úfrom_legacy_cacher×   r5   rí   rÉ   rÕ   r‘   rä   r6   r7   r  rc   rd   rX   Ú	enumerater’   Úrandr   r  Úto_legacy_cacher¦   r   )r*   rL   r/   rY   rÌ   rÆ   rº   r1   r†   r  r  r‡   rh   ÚinputÚinput_shapeÚreturn_legacy_cacherÑ   Ú
seq_lengthr0   Úmask_seq_lengthÚself_attn_cacherâ   Ú	positionsr‚   Úall_hidden_statesÚall_self_attnsÚall_cross_attentionsÚidxÚdecoder_layerÚdropout_probabilityÚlayer_outputss                                  r,   r8   ÚBioGptModel.forwardý  s"  € ð  2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð ˜Ð -°tÐ";×<ÜÐsÓtÐtØÑ"ØˆEØŸ+™+ˆKØ!Ÿ™ r¨;°r©?Ó;‰IØÑ&Ø'×,Ñ,Ó.¨s°Ð3ˆKØ!¢!¢Q¨ (Ñ+‰EäÐdÓeÐeàÑ Ø ×-Ñ-¨eÓ4ˆMà×&×&¨4¯=¯=ÞÜ×#Ñ#Øqôð "	ð $ÐÞœZ¨¼×?Ñ?Ø"&ÐÜ×Ñð\ôô
 2×CÒCÀOÓTˆOà!.×!3Ñ!3Ó!5°c°rÐ!:Ñˆ
JØETÑE` ×!?Ñ!?Ô!AÐfgÐØÑ!Ü"Ÿ\š\Ø&Ð(>ÀÑ(KÐTa×ThÑThñˆNð Ñ!à4°zÑAˆOÜ"ŸZšZ¨
°OÈM×L`ÑL`ÑaˆNô ˜/Ô+>×?Ñ?ð ×0Ò0à ð 	ð ×.Ñ.ØØØØó	
ˆð Ñä Ÿ<š<¨¸AÑ>ˆLØ(Ñ9¸AÑ=×CÑCÓEˆLà'ªÐ+AÑ+BÐ(BÑCˆLà×(Ñ(¨Ð9OÐ^jÐ(Ðkˆ	Ø%¨	Ñ1ˆÜŸ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-Ðdˆà×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	æ"6™B¸DÐÞ0™°dˆØ#Ðä"+¨D¯K©KÖ"8ÑˆCæ#Ø! mÐ%5Ñ5Ð!Ø}}Ü&+§j¢j°£nÐ#Ø&¨¯©Ó7Ùá)Øð
à*Ø3<Ñ3H ¨3¢ÈdØ.Ø"3Ø#Ø)Ø-ñ
ð ñ
ˆMð *¨!Ñ,ˆMç Ð Ø =°Ñ#3Ð"5Ñ5’ñ1 #9ö6  Ø -Ð!1Ñ1ÐàŸ™¨Ó6ˆæØ-×=Ñ=Ó?ˆOæÜñ à'¨Ð:KÈ^Ð]qÑróó ð ô
 9Ø+Ø+Ø+Ø%Ø1ñ
ð 	
r.   )
rt   rX   ro   r  r  r  r  r   r’   rG   )NNNNNNNNNNN)r:   r;   r<   r=   r   r)   r   r   r5   r@   rÁ   r¦   rR   r¥   r   r   r   r   r8   rA   rB   rC   s   @r,   rþ   rþ   æ  sI  ø† ð˜|÷ ð* ð 15Ø6:Ø15Ø59Ø@DØ$(Ø37Ø,0Ø/3Ø&*Ø15ñW
à˜E×,Ñ,Ñ-ðW
ð ! ×!2Ñ!2Ñ3ðW
ð ˜E×-Ñ-Ñ.ð	W
ð
   × 1Ñ 1Ñ2ðW
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðW
ð ˜D‘>ðW
ð ˜u×/Ñ/Ñ0ðW
ð $ D™>ðW
ð ' t™nðW
ð ˜d‘^ðW
ð ! §¡Ñ.ðW
ð Ð+Ñ,ðW
ð 
ˆuÐ?Ð?Ñ	@ôW
ó öW
r.   rþ   zR
    BioGPT Model with a `language modeling` head on top for CLM fine-tuning.
    )Úcustom_introc                    ó¦  ^ • \ rS rSrS/rU 4S jrS rS r\            SS\	\
R                     S\	\
R                     S\	\
R                     S	\	\
R                     S
\	\\\
R                           S\	\
R                     S\	\   S\	\
R                     S\	\   S\	\   S\	\   S\	\
R                     S\\   S\\\4   4S jj5       rSrU =r$ )ÚBioGptForCausalLMi˜  zoutput_projection.weightc                 óÂ   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  UR                  SS9U l        U R                  5         g ©NFrw   )
r(   r)   rþ   rÄ   rc   r|   r«   r  Úoutput_projectionr  ©r*   rt   r+   s     €r,   r)   ÚBioGptForCausalLM.__init__   sJ   ø€ Ü‰Ñ˜Ô ä! &Ó)ˆŒÜ!#§¢¨6×+=Ñ+=¸v×?PÑ?PÐW\Ñ!]ˆÔð 	‰Õr.   c                 ó   • U R                   $ rJ   ©r5  ©r*   s    r,   Úget_output_embeddingsÚ'BioGptForCausalLM.get_output_embeddings©  s   € Ø×%Ñ%Ð%r.   c                 ó   • Xl         g rJ   r9  )r*   Únew_embeddingss     r,   Úset_output_embeddingsÚ'BioGptForCausalLM.set_output_embeddings¬  s   € Ø!/Õr.   rL   r/   rY   rÌ   rÆ   Úlabelsrº   r1   r†   r  r  r‡   rh   rˆ   c                 ó   • Ub  UOU R                   R                  nU R                  " U4UUUUUUU	U
UUS.
UD6nUS   nU R                  U5      nSnUb*  U R                  " UU4SU R                   R
                  0UD6nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  S9$ )a‹  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for language modeling. Note that the labels **are shifted** inside the model, i.e. you can set
    `labels = input_ids` Indices are selected in `[-100, 0, ..., config.vocab_size]` All labels set to `-100`
    are ignored (masked), the loss is only computed for labels in `[0, ..., config.vocab_size]`
N)
r/   rY   rÌ   rÆ   rº   r1   r†   r  r  r‡   r   r  r   )ÚlossÚlogitsrÆ   r‚   r  r  )rt   r  rÄ   r5  Úloss_functionr  r   rÆ   r‚   r  r  )r*   rL   r/   rY   rÌ   rÆ   rA  rº   r1   r†   r  r  r‡   rh   r¿   Úsequence_outputÚprediction_scoresÚlm_lossÚoutputs                      r,   r8   ÚBioGptForCausalLM.forward¯  s  € ð. &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—+’+Øð
à)ØØ'Ø+ØØ%Ø/Ø!5Ø#Ø)ñ
ð ñ
ˆð " !™*ˆØ ×2Ñ2°?ÓCÐàˆØÑØ×(Ò(Ø!Øñð  Ÿ;™;×1Ñ1ðð ñ	ˆGö Ø'Ð)¨G°A°B¨KÑ7ˆFØ,3Ñ,?WJ Ñ'ÐKÀVÐKä0ØØ$Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ñ
ð 	
r.   )rÄ   r5  ©NNNNNNNNNNNN)r:   r;   r<   r=   Ú_tied_weights_keysr)   r;  r?  r   r   r5   r@   rÁ   r¦   rR   r¥   r   r   r   r   r8   rA   rB   rC   s   @r,   r2  r2  ˜  s`  ø† ð 5Ð5Ðõò&ò0ð ð 15Ø6:Ø15Ø59Ø@DØ-1Ø$(Ø37Ø,0Ø/3Ø&*Ø15ñ>
à˜E×,Ñ,Ñ-ð>
ð ! ×!2Ñ!2Ñ3ð>
ð ˜E×-Ñ-Ñ.ð	>
ð
   × 1Ñ 1Ñ2ð>
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ð>
ð ˜×)Ñ)Ñ*ð>
ð ˜D‘>ð>
ð ˜u×/Ñ/Ñ0ð>
ð $ D™>ð>
ð ' t™nð>
ð ˜d‘^ð>
ð ! §¡Ñ.ð>
ð Ð+Ñ,ð>
ð 
ˆuÐ7Ð7Ñ	8ô>
ó ö>
r.   r2  c                    óª  ^ • \ rS rSrU 4S jr\             SS\\R                     S\\R                     S\\R                     S\\R                     S\\
\
\R                           S\\R                     S	\\R                     S
\\   S\\R                     S\\   S\\   S\\   S\\R                     S\\
\4   4S jj5       rSrU =r$ )ÚBioGptForTokenClassificationiñ  c                 óŠ  >• [         TU ]  U5        UR                  U l        [        U5      U l        [        US5      (       a  UR                  b  UR                  nOUR                  n[        R                  " U5      U l
        [        R                  " UR                  UR                  5      U l        U R                  5         g )NÚclassifier_dropout)r(   r)   Ú
num_labelsrþ   rÄ   ÚhasattrrP  r¯   rc   ÚDropoutrX   r|   r«   Ú
classifierr  )r*   rt   rP  r+   s      €r,   r)   Ú%BioGptForTokenClassification.__init__ó  s“   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä! &Ó)ˆŒÜ6Ð/×0Ñ0°V×5NÑ5NÑ5ZØ!'×!:Ñ!:Ñà!'×!;Ñ!;ÐÜ—z’zÐ"4Ó5ˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒà‰Õr.   rL   Útoken_type_idsr/   rY   rÆ   rÌ   rA  rº   r1   r†   r  r  r‡   rˆ   c                 óÒ  • Ub  UOU R                   R                  nU R                  UUUUUUU	U
UUUS9nUS   nU R                  U5      nU R	                  U5      nSnUbÍ  [        5       nUbŽ  UR                  S5      S:H  nUR                  SU R                  5      n[        R                  " UUR                  S5      [        R                  " UR                  5      R                  U5      5      nU" UU5      nO2U" UR                  SU R                  5      UR                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )áe  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
N©
rÆ   r/   rY   rÌ   rº   r1   r†   r  r  r‡   r   r[   r   r&   )rC  rD  r‚   r  )rt   r  rÄ   rX   rT  r   rf   rQ  r5   ÚwhereÚtensorÚignore_indexÚtype_asr   r‚   r  )r*   rL   rV  r/   rY   rÆ   rÌ   rA  rº   r1   r†   r  r  r‡   Útransformer_outputsr‚   rD  rC  Úloss_fctÚactive_lossÚactive_logitsÚactive_labelsrI  s                          r,   r8   Ú$BioGptForTokenClassification.forward  su  € ð. &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"Ÿk™kØØ+Ø)ØØ'ØØ%Ø/Ø!5Ø#Ø)ð *ð 
Ðð ,¨AÑ.ˆØŸ™ ]Ó3ˆØ—‘ Ó/ˆàˆØÑÜ'Ó)ˆHàÑ)Ø,×1Ñ1°"Ó5¸Ñ:Ø &§¡¨B°·±Ó @Ü %§¢Ø §¡¨R£´%·,²,¸x×?TÑ?TÓ2U×2]Ñ2]Ð^dÓ2eó!ñ   ¨}Ó=‘á §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓRæØYÐ!4°Q°RÐ!8Ñ8ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ-×;Ñ;Ø*×5Ñ5ñ	
ð 	
r.   )rÄ   rT  rX   rQ  )NNNNNNNNNNNNN)r:   r;   r<   r=   r)   r   r   r5   r@   rÁ   r¦   rR   r¥   r   r   r8   rA   rB   rC   s   @r,   rN  rN  ñ  sc  ø† õð ð 15Ø59Ø6:Ø15Ø@DØ59Ø-1Ø$(Ø37Ø,0Ø/3Ø&*Ø15ñA
à˜E×,Ñ,Ñ-ðA
ð ! ×!1Ñ!1Ñ2ðA
ð ! ×!2Ñ!2Ñ3ð	A
ð
 ˜E×-Ñ-Ñ.ðA
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðA
ð   × 1Ñ 1Ñ2ðA
ð ˜×)Ñ)Ñ*ðA
ð ˜D‘>ðA
ð ˜u×/Ñ/Ñ0ðA
ð $ D™>ðA
ð ' t™nðA
ð ˜d‘^ðA
ð ! §¡Ñ.ðA
ð 
ˆuÐ+Ð+Ñ	,ôA
ó öA
r.   rN  aÛ  
    The BioGpt Model transformer with a sequence classification head on top (linear layer).

    [`BioGptForSequenceClassification`] uses the last token in order to do the classification, as other causal models
    (e.g. GPT-2) do.

    Since it does classification on the last token, it is required to know the position of the last token. If a
    `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in each row. If
    no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot guess the
    padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last value in
    each row of the batch).
    c                   óž  ^ • \ rS rSrS\4U 4S jjr\            SS\\R                     S\\R                     S\\R                     S\\\\R                           S\\R                     S	\\R                     S
\\   S\\R                     S\\   S\\   S\\   S\\R                     S\\\4   4S jj5       rS rS rSrU =r$ )ÚBioGptForSequenceClassificationiF  rt   c                 óä   >• [         TU ]  U5        UR                  U l        [        U5      U l        [
        R                  " UR                  U R                  SS9U l        U R                  5         g r4  )
r(   r)   rQ  rþ   rÄ   rc   r|   r«   Úscorer  r6  s     €r,   r)   Ú(BioGptForSequenceClassification.__init__U  sS   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒÜ! &Ó)ˆŒÜ—Y’Y˜v×1Ñ1°4·?±?ÈÑOˆŒ
ð 	‰Õr.   rL   r/   rY   rÆ   rÌ   rA  rº   r1   r†   r  r  r‡   rˆ   c                 ó(  • Ub  UOU R                   R                  nU R                  UUUUUUUU	U
UUS9nUS   nU R                  U5      nUb  UR                  SS u  nnOUR                  SS u  nnU R                   R
                  c  SnO‡UbV  [        R                  " XR                   R
                  5      R                  S5      S-
  R                  UR                  5      nO.Sn[        R                  U R                  R                   S35        U[        R                  " UUR                  S9U4   nSnUGb  U R                   R                   c‘  U R"                  S:X  a  S	U R                   l        OoU R"                  S:”  aN  UR$                  [        R&                  :X  d  UR$                  [        R(                  :X  a  S
U R                   l        OSU R                   l        U R                   R                   S	:X  aJ  [+        5       nU R"                  S:X  a&  U" UR-                  5       UR-                  5       5      nOŽU" UU5      nO„U R                   R                   S
:X  a=  [/        5       nU" UR1                  SU R"                  5      UR1                  S5      5      nO-U R                   R                   S:X  a  [3        5       nU" UU5      nU(       d  U4USS -   nUb  U4U-   $ U$ [5        UUUR6                  UR8                  UR:                  S9$ )rX  NrY  r   r&   r[   r   zŠ will not detect padding tokens in `inputs_embeds`. Results may be unexpected if using padding tokens in conjunction with `inputs_embeds.`rê   Ú
regressionÚsingle_label_classificationÚmulti_label_classification)rC  rD  rÆ   r‚   r  )rt   r  rÄ   rg  rŒ   r  r5   ÚneÚsumrð   rÉ   rz   r{   r+   r:   rí   Úproblem_typerQ  rÐ   r7   r?   r   Úsqueezer   rf   r   r   rÆ   r‚   r  )r*   rL   r/   rY   rÆ   rÌ   rA  rº   r1   r†   r  r  r‡   r^  r‚   rD  rÑ   rÎ   Úpooled_logitsrC  r_  rI  s                         r,   r8   Ú'BioGptForSequenceClassification.forward^  sË  € ð, &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"Ÿk™kØØ+Ø)ØØ'ØØ%Ø/Ø!5Ø#Ø)ð *ð 
Ðð ,¨AÑ.ˆØ—‘˜MÓ*ˆàÑ Ø*3¯/©/¸"¸1Ð*=Ñ'ˆJ™à*7×*=Ñ*=¸b¸qÐ*AÑ'ˆJ˜à;‰;×#Ñ#Ñ+Ø ‰OàÑ$Ü#(§8¢8¨I·{±{×7OÑ7OÓ#P×#TÑ#TÐUWÓ#XÐ[\Ñ#\×"`Ñ"`Ðag×anÑanÓ"o‘à"$Ü×#Ñ#Ø—~‘~×.Ñ.Ð/ð 0^ð ^ôð
 œuŸ|š|¨J¸v¿}¹}ÑMÈÐ^Ñ_ˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# M×$9Ñ$9Ó$;¸V¿^¹^Ó=MÓN‘Dá# M°6Ó:‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù × 2Ñ 2°2°t·±Ó GÈÏÉÐUWËÓY‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù ¨vÓ6ÞØ#Ð%Ð(;¸A¸BÐ(?Ñ?ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä/ØØ Ø/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ñ
ð 	
r.   c                 ó.   • U R                   R                  $ rJ   ©rÄ   r  r:  s    r,   Úget_input_embeddingsÚ4BioGptForSequenceClassification.get_input_embeddings»  s   € Ø{‰{×'Ñ'Ð'r.   c                 ó$   • XR                   l        g rJ   rt  )r*   rV   s     r,   Úset_input_embeddingsÚ4BioGptForSequenceClassification.set_input_embeddings¾  s   € Ø#(‰Õ r.   )rÄ   rQ  rg  rK  )r:   r;   r<   r=   r   r)   r   r   r5   r@   rÁ   r¦   rR   r¥   r   r   r8   ru  rx  rA   rB   rC   s   @r,   re  re  F  sa  ø† ð˜|÷ ð ð 15Ø6:Ø15Ø@DØ59Ø-1Ø$(Ø37Ø,0Ø/3Ø&*Ø15ñZ
à˜E×,Ñ,Ñ-ðZ
ð ! ×!2Ñ!2Ñ3ðZ
ð ˜E×-Ñ-Ñ.ð	Z
ð
 " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðZ
ð   × 1Ñ 1Ñ2ðZ
ð ˜×)Ñ)Ñ*ðZ
ð ˜D‘>ðZ
ð ˜u×/Ñ/Ñ0ðZ
ð $ D™>ðZ
ð ' t™nðZ
ð ˜d‘^ðZ
ð ! §¡Ñ.ðZ
ð 
ˆuÐ6Ð6Ñ	7ôZ
ó ðZ
òx(÷)ð )r.   re  )r2  rN  re  rþ   rÃ   )Nr‹   N)>r  Útypingr   r   r   r5   Útorch.nnrc   r   r   r   Úactivationsr
   Úcache_utilsr   r   Ú
generationr   Úmodeling_attn_mask_utilsr   Úmodeling_flash_attention_utilsr   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   r   Úconfiguration_biogptr   Úintegrations.flex_attentionr   r   Ú
get_loggerr:   rz   Ú	Embeddingr!   rE   ÚModulerR   rQ   rk   rm   r¨   rÃ   rþ   r2  rN  re  Ú__all__r¼   r.   r,   Ú<module>rŒ     së  ðó, ß ,Ñ ,ã Ý ß AÑ Aå !ß 5Ý )Ý >Ý BÝ 9÷ó ÷ GÝ &ß ^Ó ^Ý .ñ  ×!Ñ!ßUð 
×	Ò	˜HÓ	%€ô; r§|¡|ô ;ô8
= §¡ô 
=ð&  $ØØ(,ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð e‰_ð%ð ð%ð ˜Ÿ™Ñ%õ%ô<{)b—i‘iô {)ô|WÐ3ô Wðt ôM˜Oó Mó ðMð` ôn
Ð'ó n
ó ðn
ñb ðñô
Q
Ð-¨ó Q
óð
Q
ðh ôQ
Ð#8ó Q
ó ðQ
ñh ðñôk)Ð&;ó k)óðk)ò\r.   