ó
    <±h¢2 ã                   óR  • S r SSKrSSKrSSKrSSKJr  SSKJrJr  SSK	r	SSK
r	SSKJr  SSK	Jr  SSKJrJrJr  SS	KJr  SS
KJrJr  SSKJr  SSKJrJr  SSKJr  SSKJrJ r J!r!J"r"J#r#J$r$J%r%J&r&J'r'  SSK(J)r)  SSK*J+r+J,r,J-r-  SSK.J/r/J0r0J1r1J2r2  SSK3J4r4  \2Rj                  " \65      r7S r8 " S S\Rr                  5      r: " S S\Rr                  5      r; " S S\;5      r< " S S\Rr                  5      r=\;\<S.r> " S S\Rr                  5      r? " S  S!\Rr                  5      r@ " S" S#\Rr                  5      rA " S$ S%\5      rB " S& S'\Rr                  5      rC " S( S)\Rr                  5      rD " S* S+\Rr                  5      rE " S, S-\Rr                  5      rF " S. S/\Rr                  5      rG " S0 S1\Rr                  5      rH " S2 S3\Rr                  5      rI\0 " S4 S5\)5      5       rJ\\0" S6S79 " S8 S9\/5      5       5       rK\0" S:S79 " S; S<\J5      5       rL\0" S=S79 " S> S?\J5      5       rM\0" S@S79 " SA SB\J\5      5       rN\0 " SC SD\J5      5       rO\0" SES79 " SF SG\J5      5       rP\0" SHS79 " SI SJ\J5      5       rQ\0 " SK SL\J5      5       rR\0 " SM SN\J5      5       rS\0 " SO SP\J5      5       rT/ SQQrUg)RzPyTorch BERT model.é    N)Ú	dataclass)ÚOptionalÚUnion)Úversion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)Ú#_prepare_4d_attention_mask_for_sdpaÚ*_prepare_4d_causal_attention_mask_for_sdpa)ÚGradientCheckpointingLayer)	Ú)BaseModelOutputWithPastAndCrossAttentionsÚ,BaseModelOutputWithPoolingAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentionsÚMaskedLMOutputÚMultipleChoiceModelOutputÚNextSentencePredictorOutputÚQuestionAnsweringModelOutputÚSequenceClassifierOutputÚTokenClassifierOutput)ÚPreTrainedModel)Úapply_chunking_to_forwardÚ find_pruneable_heads_and_indicesÚprune_linear_layer)ÚModelOutputÚauto_docstringÚget_torch_versionÚloggingé   )Ú
BertConfigc           	      ó„  •  SSK nSSKnSSKn[        R                  R                  U5      n[        R                  SU 35        UR                  R                  U5      n/ n/ n	U H]  u  p«[        R                  SU
 SU 35        UR                  R                  Xj5      nUR                  U
5        U	R                  U5        M_     [        X‰5       GHÎ  u  p¬U
R                  S5      n
[!        S U
 5       5      (       a)  [        R                  S	SR#                  U
5       35        MW  U nU
 HÍ  nUR%                  S
U5      (       a  UR                  SU5      nOU/nUS   S:X  d	  US   S:X  a  ['        US5      nOZUS   S:X  d	  US   S:X  a  ['        US5      nO;US   S:X  a  ['        US5      nO%US   S:X  a  ['        US5      nO ['        XßS   5      n[+        U5      S:¼  d  Mº  [-        US   5      nUU   nMÏ     WSS S:X  a  ['        US5      nOUS:X  a  UR/                  U5      n UR0                  UR0                  :w  a&  [3        SUR0                   SUR0                   S35      e [        R                  SU
 35        [6        R8                  " U5      Ul        GMÑ     U $ ! [         a    [        R                  S5        e f = f! [(         a,    [        R                  S	SR#                  U
5       35         GMÓ  f = f! [2         a1  nU=R4                  UR0                  UR0                  4-  sl        e SnAff = f)z'Load tf checkpoints in a pytorch model.r   Nz™Loading a TensorFlow model in PyTorch, requires TensorFlow to be installed. Please see https://www.tensorflow.org/install/ for installation instructions.z&Converting TensorFlow checkpoint from zLoading TF weight z with shape Ú/c              3   ó*   #   • U H
  nUS ;   v •  M     g7f))Úadam_vÚadam_mÚAdamWeightDecayOptimizerÚAdamWeightDecayOptimizer_1Úglobal_stepN© )Ú.0Úns     Ú^/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/bert/modeling_bert.pyÚ	<genexpr>Ú*load_tf_weights_in_bert.<locals>.<genexpr>T   s   é € ð 
áð ÐnÖnÚùs   ‚z	Skipping z[A-Za-z]+_\d+z_(\d+)ÚkernelÚgammaÚweightÚoutput_biasÚbetaÚbiasÚoutput_weightsÚsquadÚ
classifieré   r$   iõÿÿÿÚ_embeddingszPointer shape z and array shape z mismatchedzInitialize PyTorch weight )ÚreÚnumpyÚ
tensorflowÚImportErrorÚloggerÚerrorÚosÚpathÚabspathÚinfoÚtrainÚlist_variablesÚload_variableÚappendÚzipÚsplitÚanyÚjoinÚ	fullmatchÚgetattrÚAttributeErrorÚlenÚintÚ	transposeÚshapeÚ
ValueErrorÚargsÚtorchÚ
from_numpyÚdata)ÚmodelÚconfigÚtf_checkpoint_pathr?   ÚnpÚtfÚtf_pathÚ	init_varsÚnamesÚarraysÚnamerW   ÚarrayÚpointerÚm_nameÚscope_namesÚnumÚes                     r1   Úload_tf_weights_in_bertrm   7   s  € ð
ÛãÛô g‰go‰oÐ0Ó1€GÜ
‡KKÐ8¸¸	ÐBÔCà—‘×'Ñ'¨Ó0€IØ€EØ€FÛ ‰ˆÜ‰Ð(¨¨¨l¸5¸'ÐBÔCØ—‘×&Ñ& wÓ5ˆØ‰TÔØ‰eÖñ	 !ô ˜5×)‰ˆØz‰z˜#‹ˆô ñ 
áó
÷ 
ñ 
ô K‰K˜) C§H¡H¨T£NÐ#3Ð4Ô5ÙØˆÛˆFØ|‰|Ð,¨f×5Ñ5Ø Ÿh™h y°&Ó9‘à%˜hØ˜1‰~ Ó)¨[¸©^¸wÓ-FÜ! '¨8Ó4‘Ø˜Q‘ =Ó0°KÀ±NÀfÓ4LÜ! '¨6Ó2‘Ø˜Q‘Ð#3Ó3Ü! '¨8Ó4‘Ø˜Q‘ 7Ó*Ü! '¨<Ó8‘ðÜ% g¸1©~Ó>Gô ;Ó 1Õ$Ü˜+ a™.Ó)Ø! #™,’ñ+ ð, #$ˆ<˜=Ó(Ü˜g xÓ0‰GØxÓØ—L‘L Ó'ˆEð	Ø}‰} §¡Ó+Ü  >°'·-±-°Ð@QÐRW×R]ÑR]ÐQ^Ð^iÐ!jÓkÐkð ,ô
 	‰Ð0°°Ð7Ô8Ü×'Ò'¨Ó.ˆñY *ðZ €Løô ó Ü‰ðQô	
ð 	ðûôZ &ó Ü—K‘K )¨C¯H©H°T«NÐ+;Ð <Ô=Ûðûô ó 	ØFŠFw—}‘} e§k¡kÐ2Ñ2FØûð	ús6   ‚J' ÇKÈ,A LÊ'!KË1LÌ LÌ
L?Ì,L:Ì:L?c                   óØ   ^ • \ rS rSrSrU 4S jr     SS\\R                     S\\R                     S\\R                     S\\R                     S\
S	\R                  4S
 jjrSrU =r$ )ÚBertEmbeddingsé€   zGConstruct the embeddings from word, position and token_type embeddings.c                 ó.  >• [         TU ]  5         [        R                  " UR                  UR
                  UR                  S9U l        [        R                  " UR                  UR
                  5      U l	        [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                  5      U l        [#        USS5      U l        U R'                  S[(        R*                  " UR                  5      R-                  S5      SS9  U R'                  S	[(        R.                  " U R0                  R3                  5       [(        R4                  S
9SS9  g )N)Úpadding_idx©ÚepsÚposition_embedding_typeÚabsoluteÚposition_ids)r$   éÿÿÿÿF)Ú
persistentÚtoken_type_ids©Údtype)ÚsuperÚ__init__r   Ú	EmbeddingÚ
vocab_sizeÚhidden_sizeÚpad_token_idÚword_embeddingsÚmax_position_embeddingsÚposition_embeddingsÚtype_vocab_sizeÚtoken_type_embeddingsÚ	LayerNormÚlayer_norm_epsÚDropoutÚhidden_dropout_probÚdropoutrR   ru   Úregister_bufferrZ   ÚarangeÚexpandÚzerosrw   ÚsizeÚlong©Úselfr^   Ú	__class__s     €r1   r~   ÚBertEmbeddings.__init__ƒ   s/  ø€ Ü‰ÑÔÜ!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ#%§<¢<°×0NÑ0NÐPV×PbÑPbÓ#cˆÔ Ü%'§\¢\°&×2HÑ2HÈ&×J\ÑJ\Ó%]ˆÔ"ô Ÿš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒä'.¨vÐ7PÐR\Ó']ˆÔ$Ø×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð 	ñ 	
ð 	×ÑØœeŸkšk¨$×*;Ñ*;×*@Ñ*@Ó*BÌ%Ï*É*ÑUÐbgð 	ò 	
ó    Ú	input_idsrz   rw   Úinputs_embedsÚpast_key_values_lengthÚreturnc                 ód  • Ub  UR                  5       nOUR                  5       S S nUS   nUc  U R                  S S 2XWU-   24   nUcv  [        U S5      (       a-  U R                  S S 2S U24   nUR	                  US   U5      n	U	nO8[
        R                  " U[
        R                  U R                  R                  S9nUc  U R                  U5      nU R                  U5      n
XJ-   nU R                  S:X  a  U R                  U5      nX¼-  nU R                  U5      nU R                  U5      nU$ )Nrx   r$   rz   r   ©r|   Údevicerv   )r‘   rw   Úhasattrrz   r   rZ   r   r’   rž   rƒ   r‡   ru   r…   rˆ   rŒ   )r”   r˜   rz   rw   r™   rš   Úinput_shapeÚ
seq_lengthÚbuffered_token_type_idsÚ buffered_token_type_ids_expandedr‡   Ú
embeddingsr…   s                r1   ÚforwardÚBertEmbeddings.forward–   sC  € ð Ñ Ø#Ÿ.™.Ó*‰Kà'×,Ñ,Ó.¨s°Ð3ˆKà  ‘^ˆ
àÑØ×,Ñ,ªQÐ0FÐVlÑIlÐ0lÐ-lÑmˆLð
 Ñ!ÜtÐ-×.Ñ.Ø*.×*=Ñ*=ºaÀÀ*À¸nÑ*MÐ'Ø3J×3QÑ3QÐR]Ð^_ÑR`ÐblÓ3mÐ0Ø!A‘ä!&§¢¨[ÄÇ
Á
ÐSW×SdÑSd×SkÑSkÑ!làÑ Ø ×0Ñ0°Ó;ˆMØ $× :Ñ :¸>Ó JÐà"Ñ:ˆ
Ø×'Ñ'¨:Ó5Ø"&×":Ñ":¸<Ó"HÐØÑ-ˆJØ—^‘^ JÓ/ˆ
Ø—\‘\ *Ó-ˆ
ØÐr—   )rˆ   rŒ   ru   r…   r‡   rƒ   )NNNNr   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r~   r   rZ   Ú
LongTensorÚFloatTensorrU   ÚTensorr¥   Ú__static_attributes__Ú__classcell__©r•   s   @r1   ro   ro   €   s   ø† ÙQõ
ð* 15Ø59Ø37Ø59Ø&'ñ'à˜E×,Ñ,Ñ-ð'ð ! ×!1Ñ!1Ñ2ð'ð ˜u×/Ñ/Ñ0ð	'ð
   × 1Ñ 1Ñ2ð'ð !$ð'ð 
‰÷'ó 'r—   ro   c                   ó  ^ • \ rS rSrSU 4S jjr      SS\R                  S\\R                     S\\R                     S\\R                     S\\	   S\\
   S	\\R                     S
\\R                     4S jjrSrU =r$ )ÚBertSelfAttentionéÀ   c                 ó  >• [         TU ]  5         UR                  UR                  -  S:w  a7  [	        US5      (       d&  [        SUR                   SUR                   S35      eUR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  U R                  5      U l        [        R                  " UR                  5      U l        U=(       d    [#        USS5      U l        U R$                  S:X  d  U R$                  S	:X  aG  UR&                  U l        [        R(                  " S
UR&                  -  S-
  U R                  5      U l        UR,                  U l        X0l        g )Nr   Úembedding_sizezThe hidden size (z6) is not a multiple of the number of attention heads (Ú)ru   rv   Úrelative_keyÚrelative_key_queryr=   r$   )r}   r~   r   Únum_attention_headsrŸ   rX   rU   Úattention_head_sizeÚall_head_sizer   ÚLinearÚqueryÚkeyÚvaluerŠ   Úattention_probs_dropout_probrŒ   rR   ru   r„   r   Údistance_embeddingÚ
is_decoderÚ	layer_idx©r”   r^   ru   rÄ   r•   s       €r1   r~   ÚBertSelfAttention.__init__Á   s¥  ø€ Ü‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ# F×$6Ñ$6Ð#7ð 8Ø ×4Ñ4Ð5°Qð8óð ð
 $*×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔä—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÓDˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÓFˆŒ
ä—z’z &×"EÑ"EÓFˆŒØ'>÷ (
Ä'ØÐ-¨zóC
ˆÔ$ð ×'Ñ'¨>Ó9¸T×=YÑ=YÐ]qÓ=qØ+1×+IÑ+IˆDÔ(Ü&(§l¢l°1°v×7UÑ7UÑ3UÐXYÑ3YÐ[_×[sÑ[sÓ&tˆDÔ#à ×+Ñ+ˆŒØ"r—   Úhidden_statesÚattention_maskÚ	head_maskÚencoder_hidden_statesÚpast_key_valueÚoutput_attentionsÚcache_positionr›   c                 ó`	  • UR                   u  p‰n
U R                  U5      nUR                  USU R                  U R                  5      R                  SS5      nUS LnUb]  [        U[        5      (       aF  UR                  R                  U R                  5      nU(       a  UR                  nOUR                  nOUnU(       a  UOUnU(       aQ  UbN  W(       aG  WR                  U R                     R                  nUR                  U R                     R                  nOãU R!                  U5      nUR                  USU R                  U R                  5      R                  SS5      nU R#                  U5      nUR                  USU R                  U R                  5      R                  SS5      nUbN  U(       d  UOS nWR%                  UUU R                  SU05      u  nnU(       a  SUR                  U R                  '   [&        R(                  " UUR                  SS5      5      nU R*                  S:X  d  U R*                  S:X  Ga”  UR                   S   UR                   S   nnUbB  [&        R,                  " US-
  [&        R.                  UR0                  S	9R                  SS5      nO>[&        R2                  " U[&        R.                  UR0                  S	9R                  SS5      n[&        R2                  " U[&        R.                  UR0                  S	9R                  SS5      nUU-
  nU R5                  UU R6                  -   S-
  5      nUR9                  UR:                  S
9nU R*                  S:X  a  [&        R<                  " SUU5      nUU-   nOHU R*                  S:X  a8  [&        R<                  " SUU5      n[&        R<                  " SUU5      nUU-   U-   nU[>        R@                  " U R                  5      -  nUb  UU-   n[B        RD                  RG                  USS9nU RI                  U5      nUb  UU-  n[&        R(                  " UU5      nURK                  SSSS5      RM                  5       nURO                  5       S S U RP                  4-   nUR                  U5      nUU4$ )Nrx   r$   r=   rÍ   Téþÿÿÿr¸   r¹   r   r{   zbhld,lrd->bhlrzbhrd,lrd->bhlr©Údimr   r   ))rW   r¾   Úviewrº   r»   rV   Ú
isinstancer   Ú
is_updatedÚgetrÄ   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesr¿   rÀ   ÚupdaterZ   Úmatmulru   Útensorr’   rž   rŽ   rÂ   r„   Útor|   ÚeinsumÚmathÚsqrtr   Ú
functionalÚsoftmaxrŒ   ÚpermuteÚ
contiguousr‘   r¼   )r”   rÇ   rÈ   rÉ   rÊ   rË   rÌ   rÍ   Ú
batch_sizer¡   Ú_Úquery_layerÚis_cross_attentionrÔ   Úcurr_past_key_valueÚcurrent_statesÚ	key_layerÚvalue_layerÚattention_scoresÚquery_lengthÚ
key_lengthÚposition_ids_lÚposition_ids_rÚdistanceÚpositional_embeddingÚrelative_position_scoresÚrelative_position_scores_queryÚrelative_position_scores_keyÚattention_probsÚcontext_layerÚnew_context_layer_shapes                                  r1   r¥   ÚBertSelfAttention.forwardÜ   sO  € ð %2×$7Ñ$7Ñ!ˆ
 Ø—j‘j Ó/ˆØ!×&Ñ& z°2°t×7OÑ7OÐQU×QiÑQiÓj×tÑtØˆqó
ˆð 3¸$Ð>ÐØÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ2DÑ.È-ˆÞ .Ñ"<Æà+×2Ñ2°4·>±>ÑB×GÑGˆIØ-×4Ñ4°T·^±^ÑD×KÑK‰KàŸ™ Ó0ˆIØ!Ÿ™ z°2°t×7OÑ7OÐQU×QiÑQiÓj×tÑtØ1óˆIð Ÿ*™* ^Ó4ˆKØ%×*Ñ*Ø˜B × 8Ñ 8¸$×:RÑ:Róç‰i˜˜1‹oð ð Ñ)æ7I¡ÈtØ)<×)CÑ)CØ˜{¨D¯N©NÐ=MÈ~Ð<^ó*Ñ&	˜;ö &Ø@DN×-Ñ-¨d¯n©nÑ=ô !Ÿ<š<¨°Y×5HÑ5HÈÈRÓ5PÓQÐà×'Ñ'¨>Ó9¸T×=YÑ=YÐ]qÔ=qØ'2×'8Ñ'8¸Ñ';¸Y¿_¹_ÈQÑ=O˜*ˆLØÑ)Ü!&§¢¨j¸1©nÄEÇJÁJÐWd×WkÑWkÑ!l×!qÑ!qØ˜ó"‘ô "'§¢¨lÄ%Ç*Á*ÐUb×UiÑUiÑ!j×!oÑ!oÐprÐtuÓ!vÜ"Ÿ\š\¨*¼E¿J¹JÈ}×OcÑOcÑd×iÑiÐjkÐmoÓpˆNØ%¨Ñ6ˆHà#'×#:Ñ#:¸8Àd×FbÑFbÑ;bÐefÑ;fÓ#gÐ Ø#7×#:Ñ#:À×ARÑARÐ#:Ð#SÐ à×+Ñ+¨~Ó=Ü+0¯<ª<Ð8HÈ+ÐWkÓ+lÐ(Ø#3Ð6NÑ#NÑ Ø×-Ñ-Ð1EÓEÜ16·²Ð>NÐP[Ð]qÓ1rÐ.Ü/4¯|ª|Ð<LÈiÐYmÓ/nÐ,Ø#3Ð6TÑ#TÐWsÑ#sÐ à+¬d¯iªi¸×8PÑ8PÓ.QÑQÐØÑ%à/°.Ñ@Ðô Ÿ-™-×/Ñ/Ð0@ÀbÐ/ÐIˆð Ÿ,™, Ó7ˆð Ñ Ø-°	Ñ9ˆOäŸš _°kÓBˆà%×-Ñ-¨a°°A°qÓ9×DÑDÓFˆØ"/×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×*Ñ*Ð+BÓCˆà˜oÐ-Ð-r—   )r¼   r»   rÂ   rŒ   rÃ   r¿   rÄ   r„   rº   ru   r¾   rÀ   ©NN©NNNNFN©r§   r¨   r©   rª   r~   rZ   r®   r   r­   r   ÚboolÚtupler¥   r¯   r°   r±   s   @r1   r³   r³   À   s½   ø† ÷#ð< 7;Ø15Ø=AØ*.Ø,1Ø15ñd.à—|‘|ðd.ð ! ×!2Ñ!2Ñ3ðd.ð ˜E×-Ñ-Ñ.ð	d.ð
  (¨×(9Ñ(9Ñ:ðd.ð ! ™ðd.ð $ D™>ðd.ð ! §¡Ñ.ðd.ð 
ˆu|‰|Ñ	÷d.ó d.r—   r³   c                   ó  ^ • \ rS rSrSU 4S jjr      SS\R                  S\\R                     S\\R                     S\\R                     S\\	   S\\
   S	\\R                     S
\\R                     4U 4S jjjrSrU =r$ )ÚBertSdpaSelfAttentioniC  c                 ó¸   >• [         TU ]  XUS9  UR                  U l        [        R
                  " [        5       5      [        R
                  " S5      :  U l        g )N©ru   rÄ   z2.2.0)r}   r~   rÁ   Údropout_probr   Úparser"   Úrequire_contiguous_qkvrÅ   s       €r1   r~   ÚBertSdpaSelfAttention.__init__D  sH   ø€ Ü‰Ñ˜Ð\eÐÑfØ"×?Ñ?ˆÔÜ&-§m¢mÔ4EÓ4GÓ&HÌ7Ï=Ê=ÐY`ÓKaÑ&aˆÕ#r—   rÇ   rÈ   rÉ   rÊ   rË   rÌ   rÍ   r›   c           	      ó¶  >• U R                   S:w  d
  U(       d  Ub*  [        R                  S5        [        TU ]  UUUUUUU5      $ UR                  5       u  p‰n
U R                  U5      R                  USU R                  U R                  5      R                  SS5      nUS LnU(       a  UOUnUb]  [        U[        5      (       aF  UR                  R                  U R                  5      nU(       a  UR                   nOUR"                  nOUnU(       a  UOUnU(       aQ  UbN  W(       aG  WR$                  U R                     R&                  nUR$                  U R                     R(                  nOßU R+                  U5      R                  USU R                  U R                  5      R                  SS5      nU R-                  U5      R                  USU R                  U R                  5      R                  SS5      nUbN  U(       d  UOS nWR/                  UUU R                  SU05      u  nnU(       a  SUR                  U R                  '   U R0                  (       aM  UR2                  R4                  S:X  a3  Ub0  UR7                  5       nUR7                  5       nUR7                  5       nU R8                  =(       a    U(       + =(       a    US L =(       a    U	S:„  n[:        R<                  R>                  RA                  UUUUU RB                  (       a  U RD                  OS	US
9nUR                  SS5      nURG                  X‰U RH                  5      nUS 4$ )Nrv   a¶  BertSdpaSelfAttention is used but `torch.nn.functional.scaled_dot_product_attention` does not support non-absolute `position_embedding_type` or `output_attentions=True` or `head_mask`. Falling back to the manual attention implementation, but specifying the manual implementation will be required from Transformers version v5.0.0 onwards. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.rx   r$   r=   rÍ   TÚcudaç        )Ú	attn_maskÚ	dropout_pÚ	is_causal)%ru   rC   Úwarning_oncer}   r¥   r‘   r¾   rÒ   rº   r»   rV   rÓ   r   rÔ   rÕ   rÄ   rÖ   r×   rØ   rÙ   rÚ   r¿   rÀ   rÛ   r  rž   Útyperå   rÃ   rZ   r   râ   Úscaled_dot_product_attentionÚtrainingr  Úreshaper¼   )r”   rÇ   rÈ   rÉ   rÊ   rË   rÌ   rÍ   ÚbszÚtgt_lenrç   rè   ré   rë   rÔ   rê   rì   rí   r  Úattn_outputr•   s                       €r1   r¥   ÚBertSdpaSelfAttention.forwardJ  s  ø€ ð ×'Ñ'¨:Ó5Ö9JÈiÑNcä×ÑðHôô ‘7‘?ØØØØ%ØØ!Øóð ð (×,Ñ,Ó.‰ˆað J‰J}Ó%×*Ñ*¨3°°D×4LÑ4LÈd×NfÑNfÓg×qÑqÐrsÐuvÓwð 	ð 3¸$Ð>ÐÞ2DÑ.È-ˆØÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ2DÑ.È-ˆÞ .Ñ"<Æà+×2Ñ2°4·>±>ÑB×GÑGˆIØ-×4Ñ4°T·^±^ÑD×KÑK‰Kð —‘˜Ó(ß‘c˜2˜t×7Ñ7¸×9QÑ9QÓRß‘˜1˜a“ð ð —
‘
˜>Ó*ß‘c˜2˜t×7Ñ7¸×9QÑ9QÓRß‘˜1˜a“ð ð Ñ)æ7I¡ÈtØ)<×)CÑ)CØ˜{¨D¯N©NÐ=MÈ~Ð<^ó*Ñ&	˜;ö &Ø@DN×-Ñ-¨d¯n©nÑ=ð
 ×&×&¨;×+=Ñ+=×+BÑ+BÀfÓ+LÐQ_ÑQkØ%×0Ñ0Ó2ˆKØ!×,Ñ,Ó.ˆIØ%×0Ñ0Ó2ˆKð —O‘O×iÐ,>Ô(>×iÀ>ÐUYÐCY×iÐ^eÐhiÑ^iˆ	ä—h‘h×)Ñ)×FÑFØØØØ$Ø+/¯=¯=d×'Ò'¸cØð Gð 
ˆð "×+Ñ+¨A¨qÓ1ˆØ!×)Ñ)¨#¸×8JÑ8JÓKˆà˜DÐ Ð r—   )r  r  rü   rý   rþ   r±   s   @r1   r  r  C  s¼   ø† ÷bð 26Ø15Ø=AØ*.Ø,1Ø15ñe!à—|‘|ðe!ð ! §¡Ñ.ðe!ð ˜E×-Ñ-Ñ.ð	e!ð
  (¨×(9Ñ(9Ñ:ðe!ð ! ™ðe!ð $ D™>ðe!ð ! §¡Ñ.ðe!ð 
ˆu|‰|Ñ	÷e!ö e!r—   r  c                   óz   ^ • \ rS rSrU 4S jrS\R                  S\R                  S\R                  4S jrSrU =r	$ )ÚBertSelfOutputi²  c                 ó(  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  S9U l        [        R                  " UR                  5      U l
        g ©Nrs   )r}   r~   r   r½   r   Údenserˆ   r‰   rŠ   r‹   rŒ   r“   s     €r1   r~   ÚBertSelfOutput.__init__³  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆr—   rÇ   Úinput_tensorr›   c                 óp   • U R                  U5      nU R                  U5      nU R                  X-   5      nU$ ©N©r  rŒ   rˆ   ©r”   rÇ   r  s      r1   r¥   ÚBertSelfOutput.forward¹  ó5   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆØŸ™ }Ñ'CÓDˆØÐr—   ©rˆ   r  rŒ   ©
r§   r¨   r©   rª   r~   rZ   r®   r¥   r¯   r°   r±   s   @r1   r  r  ²  ó6   ø† õ>ð U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r—   r  )ÚeagerÚsdpac                   ó  ^ • \ rS rSrSU 4S jjrS r      SS\R                  S\\R                     S\\R                     S\\R                     S\\
   S	\\   S
\\R                     S\\R                     4S jjrSrU =r$ )ÚBertAttentioniÆ  c                 óœ   >• [         TU ]  5         [        UR                     " UUUS9U l        [        U5      U l        [        5       U l        g )Nr  )	r}   r~   ÚBERT_SELF_ATTENTION_CLASSESÚ_attn_implementationr”   r  ÚoutputÚsetÚpruned_headsrÅ   s       €r1   r~   ÚBertAttention.__init__Ç  sF   ø€ Ü‰ÑÔÜ/°×0KÑ0KÒLØØ$;Øñ
ˆŒ	ô
 % VÓ,ˆŒÜ›EˆÕr—   c                 ó6  • [        U5      S:X  a  g [        XR                  R                  U R                  R                  U R
                  5      u  p[        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l	        [        U R                  R                  USS9U R                  l        U R                  R                  [        U5      -
  U R                  l        U R                  R                  U R                  R                  -  U R                  l        U R
                  R                  U5      U l        g )Nr   r$   rÐ   )rT   r   r”   rº   r»   r1  r   r¾   r¿   rÀ   r/  r  r¼   Úunion)r”   ÚheadsÚindexs      r1   Úprune_headsÚBertAttention.prune_headsÑ  s  € Üˆu‹:˜‹?ØÜ7Ø—9‘9×0Ñ0°$·)±)×2OÑ2OÐQU×QbÑQbó
‰ˆô
 -¨T¯Y©Y¯_©_¸eÓDˆ	‰	ŒÜ*¨4¯9©9¯=©=¸%Ó@ˆ	‰	ŒÜ,¨T¯Y©Y¯_©_¸eÓDˆ	‰	ŒÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð )-¯	©	×(EÑ(EÌÈEË
Ñ(Rˆ	‰	Ô%Ø"&§)¡)×"?Ñ"?À$Ç)Á)×B_ÑB_Ñ"_ˆ	‰	ÔØ ×-Ñ-×3Ñ3°EÓ:ˆÕr—   rÇ   rÈ   rÉ   rÊ   rË   rÌ   rÍ   r›   c           
      ól   • U R                  UUUUUUUS9nU R                  US   U5      n	U	4USS  -   n
U
$ )N©rÈ   rÉ   rÊ   rË   rÌ   rÍ   r   r$   )r”   r/  )r”   rÇ   rÈ   rÉ   rÊ   rË   rÌ   rÍ   Úself_outputsÚattention_outputÚoutputss              r1   r¥   ÚBertAttention.forwardã  s\   € ð —y‘yØØ)ØØ"7Ø)Ø/Ø)ð !ð 
ˆð  Ÿ;™; |°A¡¸ÓFÐØ#Ð%¨°Q°RÐ(8Ñ8ˆØˆr—   )r/  r1  r”   rü   rý   )r§   r¨   r©   rª   r~   r7  rZ   r®   r   r­   r   rÿ   r   r¥   r¯   r°   r±   s   @r1   r+  r+  Æ  s¸   ø† ÷"ò;ð* 7;Ø15Ø=AØ*.Ø,1Ø15ñà—|‘|ðð ! ×!2Ñ!2Ñ3ðð ˜E×-Ñ-Ñ.ð	ð
  (¨×(9Ñ(9Ñ:ðð ! ™ðð $ D™>ðð ! §¡Ñ.ðð 
ˆu|‰|Ñ	÷ó r—   r+  c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚBertIntermediateiû  c                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        UR                  [        5      (       a  [        UR                     U l        g UR                  U l        g r   )r}   r~   r   r½   r   Úintermediate_sizer  rÓ   Ú
hidden_actÚstrr   Úintermediate_act_fnr“   s     €r1   r~   ÚBertIntermediate.__init__ü  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$r—   rÇ   r›   c                 óJ   • U R                  U5      nU R                  U5      nU$ r   ©r  rE  ©r”   rÇ   s     r1   r¥   ÚBertIntermediate.forward  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆØÐr—   rH  r&  r±   s   @r1   r@  r@  û  s(   ø† õ9ð U§\¡\ð °e·l±l÷ ò r—   r@  c                   óz   ^ • \ rS rSrU 4S jrS\R                  S\R                  S\R                  4S jrSrU =r	$ )Ú
BertOutputi
  c                 ó(  >• [         TU ]  5         [        R                  " UR                  UR
                  5      U l        [        R                  " UR
                  UR                  S9U l        [        R                  " UR                  5      U l        g r  )r}   r~   r   r½   rB  r   r  rˆ   r‰   rŠ   r‹   rŒ   r“   s     €r1   r~   ÚBertOutput.__init__  s`   ø€ Ü‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆr—   rÇ   r  r›   c                 óp   • U R                  U5      nU R                  U5      nU R                  X-   5      nU$ r   r!  r"  s      r1   r¥   ÚBertOutput.forward  r$  r—   r%  r&  r±   s   @r1   rL  rL  
  r'  r—   rL  c                   ó.  ^ • \ rS rSrSU 4S jjr       SS\R                  S\\R                     S\\R                     S\\R                     S\\R                     S\\	   S	\\
   S
\\R                     S\\R                     4S jjrS rSrU =r$ )Ú	BertLayeri  c                 ór  >• [         TU ]  5         UR                  U l        SU l        [	        XS9U l        UR                  U l        UR                  U l        U R                  (       a/  U R                  (       d  [        U  S35      e[	        USUS9U l	        [        U5      U l        [        U5      U l        g )Nr$   ©rÄ   z> should be used as a decoder model if cross attention is addedrv   r  )r}   r~   Úchunk_size_feed_forwardÚseq_len_dimr+  Ú	attentionrÃ   Úadd_cross_attentionrX   Úcrossattentionr@  ÚintermediaterL  r/  )r”   r^   rÄ   r•   s      €r1   r~   ÚBertLayer.__init__  sš   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ& vÑCˆŒØ ×+Ñ+ˆŒØ#)×#=Ñ#=ˆÔ Ø×#×#Ø—?—?Ü  D 6Ð)gÐ!hÓiÐiÜ"/°ÐPZÐfoÑ"pˆDÔÜ,¨VÓ4ˆÔÜ  Ó(ˆr—   rÇ   rÈ   rÉ   rÊ   Úencoder_attention_maskrË   rÌ   rÍ   r›   c	           
      óP  • U R                  UUUUUUS9n	U	S   n
U	SS  nU R                  (       aD  UbA  [        U S5      (       d  [        SU  S35      eU R	                  U
UUUUUUS9nUS   n
X¼SS  -   n[        U R                  U R                  U R                  U
5      nU4U-   nU$ )N)rÈ   rÉ   rÌ   rË   rÍ   r   r$   rY  z'If `encoder_hidden_states` are passed, z` has to be instantiated with cross-attention layers by setting `config.add_cross_attention=True`r:  )	rW  rÃ   rŸ   rX   rY  r   Úfeed_forward_chunkrU  rV  )r”   rÇ   rÈ   rÉ   rÊ   r\  rË   rÌ   rÍ   Úself_attention_outputsr<  r=  Úcross_attention_outputsÚlayer_outputs                 r1   r¥   ÚBertLayer.forward'  s  € ð "&§¡ØØ)ØØ/Ø)Ø)ð "0ð "
Ðð 2°!Ñ4ÐØ(¨¨Ð,ˆà??Ð4Ñ@Ü˜4Ð!1×2Ñ2Ü Ø=¸d¸Vð DDð Dóð ð
 '+×&9Ñ&9Ø Ø5Ø#Ø&;Ø-Ø"3Ø-ð ':ð 'Ð#ð  7°qÑ9ÐØ¸¸Ð ;Ñ;ˆGä0Ø×#Ñ# T×%AÑ%AÀ4×CSÑCSÐUeó
ˆð  / GÑ+ˆàˆr—   c                 óJ   • U R                  U5      nU R                  X!5      nU$ r   )rZ  r/  )r”   r<  Úintermediate_outputra  s       r1   r^  ÚBertLayer.feed_forward_chunkW  s)   € Ø"×/Ñ/Ð0@ÓAÐØ—{‘{Ð#6ÓIˆØÐr—   )rX  rW  rU  rY  rZ  rÃ   r/  rV  r   )NNNNNFN)r§   r¨   r©   rª   r~   rZ   r®   r   r­   r   rÿ   r   r¥   r^  r¯   r°   r±   s   @r1   rR  rR    sÑ   ø† ÷)ð" 7;Ø15Ø=AØ>BØ*.Ø,1Ø15ñ.à—|‘|ð.ð ! ×!2Ñ!2Ñ3ð.ð ˜E×-Ñ-Ñ.ð	.ð
  (¨×(9Ñ(9Ñ:ð.ð !)¨×):Ñ):Ñ ;ð.ð ! ™ð.ð $ D™>ð.ð ! §¡Ñ.ð.ð 
ˆu|‰|Ñ	õ.÷`ð r—   rR  c                   óv  ^ • \ rS rSrSU 4S jjr          SS\R                  S\\R                     S\\R                     S\\R                     S\\R                     S\\	\	\R                           S	\\
   S
\\
   S\\
   S\\
   S\\R                     S\\	\R                     \4   4S jjrSrU =r$ )ÚBertEncoderi]  c           
      óÐ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ sH  n[        XS9PM     sn5      U l        SU l	        g s  snf )NrT  F)
r}   r~   r^   r   Ú
ModuleListÚrangeÚnum_hidden_layersrR  ÚlayerÚgradient_checkpointing)r”   r^   rÄ   Úir•   s       €r1   r~   ÚBertEncoder.__init__^  sS   ø€ Ü‰ÑÔØŒÜ—]’]ÌEÐRX×RjÑRjÔLkÓ#lÑLkÀq¤I¨fÔ$BÑLkÑ#lÓmˆŒ
Ø&+ˆÕ#ùò $ms   ½A#rÇ   rÈ   rÉ   rÊ   r\  Úpast_key_valuesÚ	use_cacherÌ   Úoutput_hidden_statesÚreturn_dictrÍ   r›   c                 ó`  • U	(       a  SOS nU(       a  SOS nU(       a  U R                   R                  (       a  SOS nU R                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnSnU(       a]  U R                   R                  (       aB  [        U[        5      (       d-  [        R                  S5        Sn[        R                  " U5      n[        U R                  5       Hf  u  nnU	(       a  XÁ4-   nUb  UU   OS nU" UUUUUUUUS9nUS   nU(       d  M7  UUS   4-   nU R                   R                  (       d  M]  UUS	   4-   nMh     U	(       a  XÁ4-   nU(       a  UR                  5       nU
(       d  [        S
 UUUUU4 5       5      $ [        UUUUUS9$ )Nr.   zZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...FzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.T)r\  rË   rÌ   rÍ   r   r$   r=   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7fr   r.   )r/   Úvs     r1   r2   Ú&BertEncoder.forward.<locals>.<genexpr>¥  s"   é € ð 
ñAð ÷ ‘òùs   ‚Œ	)Úlast_hidden_staterp  rÇ   Ú
attentionsÚcross_attentions)r^   rX  rm  r  rC   r  rÃ   rÓ   r   r   Úfrom_legacy_cacheÚ	enumeraterl  Úto_legacy_cacher   r   )r”   rÇ   rÈ   rÉ   rÊ   r\  rp  rq  rÌ   rr  rs  rÍ   Úall_hidden_statesÚall_self_attentionsÚall_cross_attentionsÚreturn_legacy_cachern  Úlayer_moduleÚlayer_head_maskÚlayer_outputss                       r1   r¥   ÚBertEncoder.forwardd  s¸  € ö #7™B¸DÐÞ$5™b¸4ÐÞ%6¸4¿;¹;×;Z×;Z™rÐ`dÐà×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	à#ÐÞ˜Ÿ™×/×/¼
À?ÔTY×8ZÑ8ZÜ×Ñð\ôð
 #'ÐÜ1×CÒCÀOÓTˆOä(¨¯©Ö4‰OˆAˆ|Þ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜i¨šlÈˆOá(ØØØØ%Ø'=Ø.Ø"3Ø-ñ	ˆMð *¨!Ñ,ˆMß Ð Ø&9¸]È1Ñ=MÐ<OÑ&OÐ#Ø—;‘;×2×2Ñ2Ø+?À=ÐQRÑCSÐBUÑ+UÒ(ñ+  5ö.  Ø 1Ð4DÑ DÐæØ-×=Ñ=Ó?ˆOæÜñ 
ð "Ø#Ø%Ø'Ø(ñó
ó 
ð 
ô 9Ø+Ø+Ø+Ø*Ø1ñ
ð 	
r—   )r^   rm  rl  r   )
NNNNNNFFTN)r§   r¨   r©   rª   r~   rZ   r®   r   r­   r   rÿ   r   r   r¥   r¯   r°   r±   s   @r1   rg  rg  ]  s(  ø† ÷,ð 7;Ø15Ø=AØ>BØEIØ$(Ø,1Ø/4Ø&*Ø15ñR
à—|‘|ðR
ð ! ×!2Ñ!2Ñ3ðR
ð ˜E×-Ñ-Ñ.ð	R
ð
  (¨×(9Ñ(9Ñ:ðR
ð !)¨×):Ñ):Ñ ;ðR
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðR
ð ˜D‘>ðR
ð $ D™>ðR
ð ' t™nðR
ð ˜d‘^ðR
ð ! §¡Ñ.ðR
ð 
ˆuU—\‘\Ñ"Ð$MÐMÑ	N÷R
ó R
r—   rg  c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )Ú
BertPooleri¹  c                 ó¶   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " 5       U l        g r   )r}   r~   r   r½   r   r  ÚTanhÚ
activationr“   s     €r1   r~   ÚBertPooler.__init__º  s9   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ'š'›)ˆr—   rÇ   r›   c                 ó\   • US S 2S4   nU R                  U5      nU R                  U5      nU$ )Nr   )r  rŠ  )r”   rÇ   Úfirst_token_tensorÚpooled_outputs       r1   r¥   ÚBertPooler.forward¿  s6   € ð +ª1¨a¨4Ñ0ÐØŸ
™
Ð#5Ó6ˆØŸ™¨Ó6ˆØÐr—   )rŠ  r  r&  r±   s   @r1   r‡  r‡  ¹  s(   ø† õ$ð
 U§\¡\ð °e·l±l÷ ò r—   r‡  c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚBertPredictionHeadTransformiÈ  c                 óp  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        UR                  [        5      (       a  [        UR                     U l
        OUR                  U l
        [        R                  " UR                  UR                  S9U l        g r  )r}   r~   r   r½   r   r  rÓ   rC  rD  r   Útransform_act_fnrˆ   r‰   r“   s     €r1   r~   Ú$BertPredictionHeadTransform.__init__É  s~   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
Üf×'Ñ'¬×-Ñ-Ü$*¨6×+<Ñ+<Ñ$=ˆDÕ!à$*×$5Ñ$5ˆDÔ!ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆr—   rÇ   r›   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ r   )r  r“  rˆ   rI  s     r1   r¥   Ú#BertPredictionHeadTransform.forwardÒ  s4   € ØŸ
™
 =Ó1ˆØ×-Ñ-¨mÓ<ˆØŸ™ }Ó5ˆØÐr—   )rˆ   r  r“  r&  r±   s   @r1   r‘  r‘  È  s)   ø† õUð U§\¡\ð °e·l±l÷ ò r—   r‘  c                   ó4   ^ • \ rS rSrU 4S jrS rS rSrU =r$ )ÚBertLMPredictionHeadiÙ  c                 óH  >• [         TU ]  5         [        U5      U l        [        R
                  " UR                  UR                  SS9U l        [        R                  " [        R                  " UR                  5      5      U l        U R                  U R                  l        g )NF)r9   )r}   r~   r‘  Ú	transformr   r½   r   r€   ÚdecoderÚ	ParameterrZ   r   r9   r“   s     €r1   r~   ÚBertLMPredictionHead.__init__Ú  sm   ø€ Ü‰ÑÔÜ4°VÓ<ˆŒô —y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒä—L’L¤§¢¨V×->Ñ->Ó!?Ó@ˆŒ	ð !ŸI™Iˆ‰Õr—   c                 ó:   • U R                   U R                  l         g r   )r9   r›  ©r”   s    r1   Ú_tie_weightsÚ!BertLMPredictionHead._tie_weightsç  s   € Ø ŸI™Iˆ‰Õr—   c                 óJ   • U R                  U5      nU R                  U5      nU$ r   )rš  r›  rI  s     r1   r¥   ÚBertLMPredictionHead.forwardê  s$   € ØŸ™ }Ó5ˆØŸ™ ]Ó3ˆØÐr—   )r9   r›  rš  )	r§   r¨   r©   rª   r~   r   r¥   r¯   r°   r±   s   @r1   r˜  r˜  Ù  s   ø† õ&ò&÷ð r—   r˜  c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚBertOnlyMLMHeadið  c                 óB   >• [         TU ]  5         [        U5      U l        g r   )r}   r~   r˜  Úpredictionsr“   s     €r1   r~   ÚBertOnlyMLMHead.__init__ñ  s   ø€ Ü‰ÑÔÜ/°Ó7ˆÕr—   Úsequence_outputr›   c                 ó(   • U R                  U5      nU$ r   ©r§  )r”   r©  Úprediction_scoress      r1   r¥   ÚBertOnlyMLMHead.forwardõ  s   € Ø ×,Ñ,¨_Ó=ÐØ Ð r—   r«  r&  r±   s   @r1   r¥  r¥  ð  s(   ø† õ8ð! u§|¡|ð !¸¿¹÷ !ò !r—   r¥  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚBertOnlyNSPHeadiú  c                 ón   >• [         TU ]  5         [        R                  " UR                  S5      U l        g ©Nr=   )r}   r~   r   r½   r   Úseq_relationshipr“   s     €r1   r~   ÚBertOnlyNSPHead.__init__û  s'   ø€ Ü‰ÑÔÜ "§	¢	¨&×*<Ñ*<¸aÓ @ˆÕr—   c                 ó(   • U R                  U5      nU$ r   ©r²  )r”   rŽ  Úseq_relationship_scores      r1   r¥   ÚBertOnlyNSPHead.forwardÿ  s   € Ø!%×!6Ñ!6°}Ó!EÐØ%Ð%r—   rµ  ©r§   r¨   r©   rª   r~   r¥   r¯   r°   r±   s   @r1   r¯  r¯  ú  s   ø† õA÷&ð &r—   r¯  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚBertPreTrainingHeadsi  c                 óŽ   >• [         TU ]  5         [        U5      U l        [        R
                  " UR                  S5      U l        g r±  )r}   r~   r˜  r§  r   r½   r   r²  r“   s     €r1   r~   ÚBertPreTrainingHeads.__init__  s4   ø€ Ü‰ÑÔÜ/°Ó7ˆÔÜ "§	¢	¨&×*<Ñ*<¸aÓ @ˆÕr—   c                 óL   • U R                  U5      nU R                  U5      nX44$ r   ©r§  r²  )r”   r©  rŽ  r¬  r¶  s        r1   r¥   ÚBertPreTrainingHeads.forward
  s-   € Ø ×,Ñ,¨_Ó=ÐØ!%×!6Ñ!6°}Ó!EÐØ Ð8Ð8r—   r¾  r¸  r±   s   @r1   rº  rº    s   ø† õA÷
9ð 9r—   rº  c                   ó6   • \ rS rSr% \\S'   \rSrSr	Sr
S rSrg)ÚBertPreTrainedModeli  r^   ÚbertTc                 óŒ  • [        U[        R                  5      (       ak  UR                  R                  R                  SU R                  R                  S9  UR                  b%  UR                  R                  R                  5         gg[        U[        R                  5      (       ax  UR                  R                  R                  SU R                  R                  S9  UR                  b2  UR                  R                  UR                     R                  5         gg[        U[        R                  5      (       aJ  UR                  R                  R                  5         UR                  R                  R                  S5        g[        U[        5      (       a%  UR                  R                  R                  5         gg)zInitialize the weightsr  )ÚmeanÚstdNg      ð?)rÓ   r   r½   r6   r\   Únormal_r^   Úinitializer_ranger9   Úzero_r   rr   rˆ   Úfill_r˜  )r”   Úmodules     r1   Ú_init_weightsÚ!BertPreTrainedModel._init_weights  s3  € äfœbŸi™i×(Ñ(ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜Ô 4×5Ñ5ØK‰K×Ñ×"Ñ"Õ$ð 6r—   r.   N)r§   r¨   r©   rª   r%   Ú__annotations__rm   Úload_tf_weightsÚbase_model_prefixÚsupports_gradient_checkpointingÚ_supports_sdparË  r¯   r.   r—   r1   rÁ  rÁ    s#   ‡ àÓØ-€OØÐØ&*Ð#Ø€Nõ%r—   rÁ  z0
    Output type of [`BertForPreTraining`].
    )Úcustom_introc                   óî   • \ rS rSr% SrSr\\R                     \	S'   Sr
\\R                     \	S'   Sr\\R                     \	S'   Sr\\\R                        \	S'   Sr\\\R                        \	S'   S	rg)
ÚBertForPreTrainingOutputi+  ar  
loss (*optional*, returned when `labels` is provided, `torch.FloatTensor` of shape `(1,)`):
    Total loss as the sum of the masked language modeling loss and the next sequence prediction
    (classification) loss.
prediction_logits (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.vocab_size)`):
    Prediction scores of the language modeling head (scores for each vocabulary token before SoftMax).
seq_relationship_logits (`torch.FloatTensor` of shape `(batch_size, 2)`):
    Prediction scores of the next sequence prediction (classification) head (scores of True/False continuation
    before SoftMax).
NÚlossÚprediction_logitsÚseq_relationship_logitsrÇ   ry  r.   )r§   r¨   r©   rª   r«   rÕ  r   rZ   r­   rÍ  rÖ  r×  rÇ   r   ry  r¯   r.   r—   r1   rÔ  rÔ  +  s~   ‡ ñ	ð )-€Dˆ(5×$Ñ$Ñ
%Ó,Ø59Ðx × 1Ñ 1Ñ2Ó9Ø;?Ð˜X e×&7Ñ&7Ñ8Ó?Ø8<€M8˜E %×"3Ñ"3Ñ4Ñ5Ó<Ø59€J˜˜u×0Ñ0Ñ1Ñ2Ö9r—   rÔ  a
  
    The model can behave as an encoder (with only self-attention) as well as a decoder, in which case a layer of
    cross-attention is added between the self-attention layers, following the architecture described in [Attention is
    all you need](https://huggingface.co/papers/1706.03762) by Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit,
    Llion Jones, Aidan N. Gomez, Lukasz Kaiser and Illia Polosukhin.

    To behave as an decoder the model needs to be initialized with the `is_decoder` argument of the configuration set
    to `True`. To be used in a Seq2Seq model, the model needs to initialized with both `is_decoder` argument and
    `add_cross_attention` set to `True`; an `encoder_hidden_states` is then expected as an input to the forward pass.
    c            "       óü  ^ • \ rS rSrSS/rSU 4S jjrS rS rS r\	              SS\
\R                     S	\
\R                     S
\
\R                     S\
\R                     S\
\R                     S\
\R                     S\
\R                     S\
\R                     S\
\\R                        S\
\   S\
\   S\
\   S\
\   S\
\R                     S\\\R                     \4   4S jj5       rSrU =r$ )Ú	BertModeliD  ro   rR  c                 ó  >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        U(       a  [        U5      OSU l        UR                  U l
        UR                  U l        U R                  5         g)z^
add_pooling_layer (bool, *optional*, defaults to `True`):
    Whether to add a pooling layer
N)r}   r~   r^   ro   r¤   rg  Úencoderr‡  Úpoolerr.  Úattn_implementationru   Ú	post_init)r”   r^   Úadd_pooling_layerr•   s      €r1   r~   ÚBertModel.__init__S  sg   ø€ ô
 	‰Ñ˜Ô ØŒä(¨Ó0ˆŒÜ" 6Ó*ˆŒæ,=”j Ô(À4ˆŒà#)×#>Ñ#>ˆÔ Ø'-×'EÑ'EˆÔ$ð 	‰Õr—   c                 ó.   • U R                   R                  $ r   ©r¤   rƒ   rŸ  s    r1   Úget_input_embeddingsÚBertModel.get_input_embeddingsf  s   € Ø‰×.Ñ.Ð.r—   c                 ó$   • XR                   l        g r   râ  )r”   rÀ   s     r1   Úset_input_embeddingsÚBertModel.set_input_embeddingsi  s   € Ø*/‰Õ'r—   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)ÚitemsrÛ  rl  rW  r7  )r”   Úheads_to_prunerl  r5  s       r1   Ú_prune_headsÚBertModel._prune_headsl  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r—   r˜   rÈ   rz   rw   rÉ   r™   rÊ   r\  rp  rq  rÌ   rr  rs  rÍ   r›   c                 óž  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R                   R                  (       a  U
b  U
OU R                   R
                  n
OSn
Ub  Ub  [        S5      eUb"  U R                  X5        UR                  5       nO"Ub  UR                  5       S S nO[        S5      eUu  nnUb  UR                  OUR                  nSnU	b:  [        U	[        5      (       d  U	S   S   R                  S   OU	R                  5       nUcs  [        U R                  S5      (       a4  U R                  R                   S S 2S U24   nUR#                  UU5      nUnO$[$        R&                  " U[$        R(                  US9nU R                  UUUUUS	9nUc  [$        R*                  " UUU-   4US
9nU R,                  S:H  =(       a(    U R.                  S:H  =(       a    US L =(       a    U(       + nU(       aT  UR1                  5       S:X  a@  U R                   R                  (       a  [3        UUUU5      nO'[5        UUR6                  US9nOU R9                  X/5      nU R                   R                  (       av  Ubs  UR                  5       u  nnnUU4nUc  [$        R*                  " UUS
9nU(       a*  UR1                  5       S:X  a  [5        UUR6                  US9nOU R;                  U5      nOS nU R=                  XPR                   R>                  5      nU RA                  UUUUUU	U
UUUUS9nUS   nU RB                  b  U RC                  U5      OS n U(       d
  UU 4USS  -   $ [E        UU URF                  URH                  URJ                  URL                  S9$ )NFzDYou cannot specify both input_ids and inputs_embeds at the same timerx   z5You have to specify either input_ids or inputs_embedsr   rÏ   rz   r   )r˜   rw   rz   r™   rš   )rž   r)  rv   r=   )r  )
rÈ   rÉ   rÊ   r\  rp  rq  rÌ   rr  rs  rÍ   r$   )rx  Úpooler_outputrp  rÇ   ry  rz  )'r^   rÌ   rr  Úuse_return_dictrÃ   rq  rX   Ú%warn_if_padding_and_no_attention_maskr‘   rž   rÓ   r   rW   Úget_seq_lengthrŸ   r¤   rz   r   rZ   r   r’   ÚonesrÝ  ru   rÑ   r   r   r|   Úget_extended_attention_maskÚinvert_attention_maskÚget_head_maskrk  rÛ  rÜ  r   rp  rÇ   ry  rz  )!r”   r˜   rÈ   rz   rw   rÉ   r™   rÊ   r\  rp  rq  rÌ   rr  rs  rÍ   r    ræ   r¡   rž   rš   r¢   r£   Úembedding_outputÚuse_sdpa_attention_masksÚextended_attention_maskÚencoder_batch_sizeÚencoder_sequence_lengthrç   Úencoder_hidden_shapeÚencoder_extended_attention_maskÚencoder_outputsr©  rŽ  s!                                    r1   r¥   ÚBertModel.forwardt  sý  € ð$ 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà;‰;×!×!Ø%.Ñ%:™	ÀÇÁ×@UÑ@U‰IàˆIàÑ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*‰KØÑ&Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUà!,Ñˆ
JØ%.Ñ%:×!Ò!À×@TÑ@Tˆà!"ÐØÑ&ô " /´5×9Ñ9ð   Ñ" 1Ñ%×+Ñ+¨BÒ/à$×3Ñ3Ó5ð #ð Ñ!Üt—‘Ð(8×9Ñ9Ø*.¯/©/×*HÑ*HÊÈKÈZÈKÈÑ*XÐ'Ø3J×3QÑ3QÐR\Ð^hÓ3iÐ0Ø!A‘ä!&§¢¨[ÄÇ
Á
ÐSYÑ!ZàŸ?™?ØØ%Ø)Ø'Ø#9ð +ð 
Ðð Ñ!Ü"ŸZšZ¨°ZÐBXÑ5XÐ(YÐbhÑiˆNð ×$Ñ$¨Ñ.÷ &Ø×,Ñ,°
Ñ:÷&à˜TÐ!÷&ð &Ô%ð	 	!ö $¨×(:Ñ(:Ó(<ÀÓ(Að {‰{×%×%Ü*TØ"ØØ$Ø*ó	+Ñ'ô +NØ"Ð$4×$:Ñ$:ÀJñ+Ñ'ð '+×&FÑ&FÀ~Ó&cÐ#ð ;‰;×!×!Ð&;Ñ&GØ=R×=WÑ=WÓ=YÑ:ÐÐ 7¸Ø$6Ð8OÐ#PÐ Ø%Ñ-Ü).¯ªÐ4HÐQWÑ)XÐ&æ'Ð,B×,FÑ,FÓ,HÈAÓ,Mô 3VØ*Ð,<×,BÑ,BÈJñ3Ñ/ð 37×2LÑ2LÐMcÓ2dÑ/à.2Ð+ð ×&Ñ& y·+±+×2OÑ2OÓPˆ	àŸ,™,ØØ2ØØ"7Ø#BØ+ØØ/Ø!5Ø#Ø)ð 'ð 
ˆð *¨!Ñ,ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆæØ# ]Ð3°oÀaÀbÐ6IÑIÐIä;Ø-Ø'Ø+×;Ñ;Ø)×7Ñ7Ø&×1Ñ1Ø,×=Ñ=ñ
ð 	
r—   )rÝ  r^   r¤   rÛ  rÜ  ru   )T)NNNNNNNNNNNNNN)r§   r¨   r©   rª   Ú_no_split_modulesr~   rã  ræ  rë  r!   r   rZ   r®   Úlistr­   rÿ   r   r   r   r¥   r¯   r°   r±   s   @r1   rÙ  rÙ  D  s  ø† ð *¨;Ð7Ð÷ò&/ò0òCð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø8<Ø9=Ø=AØ$(Ø,0Ø/3Ø&*Ø15ñS
à˜EŸL™LÑ)ðS
ð ! §¡Ñ.ðS
ð ! §¡Ñ.ð	S
ð
 ˜uŸ|™|Ñ,ðS
ð ˜EŸL™LÑ)ðS
ð   §¡Ñ-ðS
ð  (¨¯©Ñ5ðS
ð !)¨¯©Ñ 6ðS
ð " $ u×'8Ñ'8Ñ"9Ñ:ðS
ð ˜D‘>ðS
ð $ D™>ðS
ð ' t™nðS
ð ˜d‘^ðS
ð ! §¡Ñ.ðS
ð  
ˆuU—\‘\Ñ"Ð$PÐPÑ	Qô!S
ó öS
r—   rÙ  z¨
    Bert Model with two heads on top as done during the pretraining: a `masked language modeling` head and a `next
    sentence prediction (classification)` head.
    c                   ó   ^ • \ rS rSrSS/rU 4S jrS rS r\           SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\\\
R                     \4   4S jj5       rSrU =r$ )ÚBertForPreTrainingi  úpredictions.decoder.biasúcls.predictions.decoder.weightc                 ó„   >• [         TU ]  U5        [        U5      U l        [	        U5      U l        U R                  5         g r   )r}   r~   rÙ  rÂ  rº  ÚclsrÞ  r“   s     €r1   r~   ÚBertForPreTraining.__init__  s4   ø€ Ü‰Ñ˜Ô ä˜fÓ%ˆŒ	Ü'¨Ó/ˆŒð 	‰Õr—   c                 óB   • U R                   R                  R                  $ r   ©r  r§  r›  rŸ  s    r1   Úget_output_embeddingsÚ(BertForPreTraining.get_output_embeddings  ó   € Øx‰x×#Ñ#×+Ñ+Ð+r—   c                 ó‚   • XR                   R                  l        UR                  U R                   R                  l        g r   ©r  r§  r›  r9   ©r”   Únew_embeddingss     r1   Úset_output_embeddingsÚ(BertForPreTraining.set_output_embeddings   ó*   € Ø'5‰×ÑÔ$Ø$2×$7Ñ$7ˆ‰×ÑÕ!r—   r˜   rÈ   rz   rw   rÉ   r™   ÚlabelsÚnext_sentence_labelrÌ   rr  rs  r›   c                 ó  • Ub  UOU R                   R                  nU R                  UUUUUUU	U
US9	nUSS u  pÞU R                  XÞ5      u  nnSnUbv  Ubs  [	        5       nU" UR                  SU R                   R                  5      UR                  S5      5      nU" UR                  SS5      UR                  S5      5      nUU-   nU(       d  UU4USS -   nUb  U4U-   $ U$ [        UUUUR                  UR                  S9$ )aÅ  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should be in `[-100, 0, ...,
    config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are ignored (masked),
    the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`
next_sentence_label (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the next sequence prediction (classification) loss. Input should be a sequence
    pair (see `input_ids` docstring) Indices should be in `[0, 1]`:

    - 0 indicates sequence B is a continuation of sequence A,
    - 1 indicates sequence B is a random sequence.

Example:

```python
>>> from transformers import AutoTokenizer, BertForPreTraining
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-uncased")
>>> model = BertForPreTraining.from_pretrained("google-bert/bert-base-uncased")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> prediction_logits = outputs.prediction_logits
>>> seq_relationship_logits = outputs.seq_relationship_logits
```
N©rÈ   rz   rw   rÉ   r™   rÌ   rr  rs  r=   rx   )rÕ  rÖ  r×  rÇ   ry  )
r^   rï  rÂ  r  r	   rÒ   r€   rÔ  rÇ   ry  )r”   r˜   rÈ   rz   rw   rÉ   r™   r  r  rÌ   rr  rs  r=  r©  rŽ  r¬  r¶  Ú
total_lossÚloss_fctÚmasked_lm_lossÚnext_sentence_lossr/  s                         r1   r¥   ÚBertForPreTraining.forward$  sC  € ðV &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—)‘)ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 

ˆð *1°°!¨Ñ&ˆØ48·H±H¸_Ó4\Ñ1ÐÐ1àˆ
ØÑÐ"5Ñ"AÜ'Ó)ˆHÙ%Ð&7×&<Ñ&<¸RÀÇÁ×AWÑAWÓ&XÐZ`×ZeÑZeÐfhÓZiÓjˆNÙ!)Ð*@×*EÑ*EÀbÈ!Ó*LÐNa×NfÑNfÐgiÓNjÓ!kÐØ'Ð*<Ñ<ˆJæØ'Ð)?Ð@À7È1È2À;ÑNˆFØ/9Ñ/EZM FÑ*ÐQÈ6ÐQä'ØØ/Ø$:Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r—   ©rÂ  r  ©NNNNNNNNNNN)r§   r¨   r©   rª   Ú_tied_weights_keysr~   r
  r  r!   r   rZ   r®   rÿ   r   r   rÔ  r¥   r¯   r°   r±   s   @r1   r  r    sC  ø† ð 5Ð6VÐWÐõò,ò8ð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø)-Ø6:Ø,0Ø/3Ø&*ñL
à˜EŸL™LÑ)ðL
ð ! §¡Ñ.ðL
ð ! §¡Ñ.ð	L
ð
 ˜uŸ|™|Ñ,ðL
ð ˜EŸL™LÑ)ðL
ð   §¡Ñ-ðL
ð ˜Ÿ™Ñ&ðL
ð & e§l¡lÑ3ðL
ð $ D™>ðL
ð ' t™nðL
ð ˜d‘^ðL
ð 
ˆuU—\‘\Ñ"Ð$<Ð<Ñ	=ôL
ó öL
r—   r  zP
    Bert Model with a `language modeling` head on top for CLM fine-tuning.
    c            $       ó  ^ • \ rS rSrSS/rU 4S jrS rS r\               SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\\
R                        S\	\   S\	\   S\	\   S\	\   S\	\
R                     S\\\
R                     \4   4 S jj5       rSrU =r$ )ÚBertLMHeadModelit  zcls.predictions.decoder.biasr  c                 óÎ   >• [         TU ]  U5        UR                  (       d  [        R	                  S5        [        USS9U l        [        U5      U l        U R                  5         g )NzLIf you want to use `BertLMHeadModel` as a standalone, add `is_decoder=True.`F©rß  ©
r}   r~   rÃ   rC   ÚwarningrÙ  rÂ  r¥  r  rÞ  r“   s     €r1   r~   ÚBertLMHeadModel.__init__|  sL   ø€ Ü‰Ñ˜Ô à× × ÜN‰NÐiÔjä˜f¸Ñ>ˆŒ	Ü" 6Ó*ˆŒð 	‰Õr—   c                 óB   • U R                   R                  R                  $ r   r	  rŸ  s    r1   r
  Ú%BertLMHeadModel.get_output_embeddingsˆ  r  r—   c                 ó‚   • XR                   R                  l        UR                  U R                   R                  l        g r   r  r  s     r1   r  Ú%BertLMHeadModel.set_output_embeddings‹  r  r—   r˜   rÈ   rz   rw   rÉ   r™   rÊ   r\  r  rp  rq  rÌ   rr  rs  rÍ   r›   c                 ó¢  • Ub  UOU R                   R                  nU	b  SnU R                  UUUUUUUUU
UUUUUS9nUS   nU R                  U5      nSnU	b(  U R                  " UXR                   R
                  40 UD6nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  S9$ )a—  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the left-to-right language modeling loss (next word prediction). Indices should be in
    `[-100, 0, ..., config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are
    ignored (masked), the loss is only computed for the tokens with labels n `[0, ..., config.vocab_size]`
NF)rÈ   rz   rw   rÉ   r™   rÊ   r\  rp  rq  rÌ   rr  rs  rÍ   r   r=   )rÕ  Úlogitsrp  rÇ   ry  rz  )r^   rï  rÂ  r  Úloss_functionr€   r   rp  rÇ   ry  rz  )r”   r˜   rÈ   rz   rw   rÉ   r™   rÊ   r\  r  rp  rq  rÌ   rr  rs  rÍ   Úloss_kwargsr=  r©  r¬  Úlm_lossr/  s                         r1   r¥   ÚBertLMHeadModel.forward  s  € ð4 &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØÑØˆIà—)‘)ØØ)Ø)Ø%ØØ'Ø"7Ø#9Ø+ØØ/Ø!5Ø#Ø)ð ð 
ˆð" " !™*ˆØ ŸH™H _Ó5ÐàˆØÑØ×(Ò(Ð):¸FÇKÁK×DZÑDZÑjÐ^iÑjˆGæØ'Ð)¨G°A°B¨KÑ7ˆFØ,3Ñ,?WJ Ñ'ÐKÀVÐKä0ØØ$Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ñ
ð 	
r—   r  )NNNNNNNNNNNNNNN)r§   r¨   r©   rª   r  r~   r
  r  r!   r   rZ   r®   r   rÿ   r   r   r   r¥   r¯   r°   r±   s   @r1   r!  r!  t  sŸ  ø† ð 9Ð:ZÐ[Ðõ
ò,ò8ð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø8<Ø9=Ø)-Ø8<Ø$(Ø,0Ø/3Ø&*Ø15ñ!@
à˜EŸL™LÑ)ð@
ð ! §¡Ñ.ð@
ð ! §¡Ñ.ð	@
ð
 ˜uŸ|™|Ñ,ð@
ð ˜EŸL™LÑ)ð@
ð   §¡Ñ-ð@
ð  (¨¯©Ñ5ð@
ð !)¨¯©Ñ 6ð@
ð ˜Ÿ™Ñ&ð@
ð " $ u§|¡|Ñ"4Ñ5ð@
ð ˜D‘>ð@
ð $ D™>ð@
ð ' t™nð@
ð ˜d‘^ð@
ð  ! §¡Ñ.ð!@
ð$ 
ˆuU—\‘\Ñ"Ð$EÐEÑ	Fô%@
ó ö@
r—   r!  c                   óâ  ^ • \ rS rSrSS/rU 4S jrS rS r\            SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\\\
R                     \4   4S jj5       rSS jr\S\4S j5       rSrU =r$ )ÚBertForMaskedLMiÓ  r  r  c                 óÎ   >• [         TU ]  U5        UR                  (       a  [        R	                  S5        [        USS9U l        [        U5      U l        U R                  5         g )NzkIf you want to use `BertForMaskedLM` make sure `config.is_decoder=False` for bi-directional self-attention.Fr#  r$  r“   s     €r1   r~   ÚBertForMaskedLM.__init__×  sR   ø€ Ü‰Ñ˜Ô à××ÜN‰Nð1ôô
 ˜f¸Ñ>ˆŒ	Ü" 6Ó*ˆŒð 	‰Õr—   c                 óB   • U R                   R                  R                  $ r   r	  rŸ  s    r1   r
  Ú%BertForMaskedLM.get_output_embeddingsæ  r  r—   c                 ó‚   • XR                   R                  l        UR                  U R                   R                  l        g r   r  r  s     r1   r  Ú%BertForMaskedLM.set_output_embeddingsé  r  r—   r˜   rÈ   rz   rw   rÉ   r™   rÊ   r\  r  rÌ   rr  rs  r›   c                 ó¢  • Ub  UOU R                   R                  nU R                  UUUUUUUUU
UUS9nUS   nU R                  U5      nSnU	bF  [	        5       nU" UR                  SU R                   R                  5      U	R                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )az  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should be in `[-100, 0, ...,
    config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are ignored (masked), the
    loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`
N)
rÈ   rz   rw   rÉ   r™   rÊ   r\  rÌ   rr  rs  r   rx   r=   ©rÕ  r,  rÇ   ry  )
r^   rï  rÂ  r  r	   rÒ   r€   r   rÇ   ry  )r”   r˜   rÈ   rz   rw   rÉ   r™   rÊ   r\  r  rÌ   rr  rs  r=  r©  r¬  r  r  r/  s                      r1   r¥   ÚBertForMaskedLM.forwardí  s   € ð. &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—)‘)ØØ)Ø)Ø%ØØ'Ø"7Ø#9Ø/Ø!5Ø#ð ð 
ˆð " !™*ˆØ ŸH™H _Ó5ÐàˆØÑÜ'Ó)ˆHÙ%Ð&7×&<Ñ&<¸RÀÇÁ×AWÑAWÓ&XÐZ`×ZeÑZeÐfhÓZiÓjˆNæØ'Ð)¨G°A°B¨KÑ7ˆFØ3AÑ3M^Ð%¨Ñ.ÐYÐSYÐYäØØ$Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
r—   c                 óŽ  • UR                   nUS   nU R                  R                  c  [        S5      e[        R
                  " X"R                  UR                   S   S45      /SS9n[        R                  " US4U R                  R                  [        R                  UR                  S9n[        R
                  " X/SS9nXS.$ )Nr   z.The PAD token should be defined for generationr$   rx   rÐ   r   )r˜   rÈ   )
rW   r^   r‚   rX   rZ   ÚcatÚ	new_zerosÚfullr’   rž   )r”   r˜   rÈ   Úmodel_kwargsr    Úeffective_batch_sizeÚdummy_tokens          r1   Úprepare_inputs_for_generationÚ-BertForMaskedLM.prepare_inputs_for_generation'  s³   € Ø—o‘oˆØ*¨1™~Ðð ;‰;×#Ñ#Ñ+ÜÐMÓNÐNäŸš N×4LÑ4LÈn×NbÑNbÐcdÑNeÐghÐMiÓ4jÐ#kÐqsÑtˆÜ—j’jØ! 1Ð% t§{¡{×'?Ñ'?ÄuÇzÁzÐZc×ZjÑZjñ
ˆô —I’I˜yÐ6¸AÑ>ˆ	à&ÑIÐIr—   c                 ó   • g)z‘
Legacy correction: BertForMaskedLM can't call `generate()` from `GenerationMixin`, even though it has a
`prepare_inputs_for_generation` method.
Fr.   )r  s    r1   Úcan_generateÚBertForMaskedLM.can_generate7  s   € ð r—   r  )NNNNNNNNNNNNr   )r§   r¨   r©   rª   r  r~   r
  r  r!   r   rZ   r®   rÿ   r   r   r   r¥   rC  ÚclassmethodrF  r¯   r°   r±   s   @r1   r2  r2  Ó  sj  ø† à4Ð6VÐWÐõò,ò8ð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø8<Ø9=Ø)-Ø,0Ø/3Ø&*ñ7
à˜EŸL™LÑ)ð7
ð ! §¡Ñ.ð7
ð ! §¡Ñ.ð	7
ð
 ˜uŸ|™|Ñ,ð7
ð ˜EŸL™LÑ)ð7
ð   §¡Ñ-ð7
ð  (¨¯©Ñ5ð7
ð !)¨¯©Ñ 6ð7
ð ˜Ÿ™Ñ&ð7
ð $ D™>ð7
ð ' t™nð7
ð ˜d‘^ð7
ð 
ˆuU—\‘\Ñ" NÐ2Ñ	3ô7
ó ð7
ôrJð  ð˜Tó ó ör—   r2  zT
    Bert Model with a `next sentence prediction (classification)` head on top.
    c                   ól  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	   S\\	   S\\	   S\
\\R                     \4   4S jj5       rSrU =r$ )ÚBertForNextSentencePredictioni@  c                 ó„   >• [         TU ]  U5        [        U5      U l        [	        U5      U l        U R                  5         g r   )r}   r~   rÙ  rÂ  r¯  r  rÞ  r“   s     €r1   r~   Ú&BertForNextSentencePrediction.__init__F  s4   ø€ Ü‰Ñ˜Ô ä˜fÓ%ˆŒ	Ü" 6Ó*ˆŒð 	‰Õr—   r˜   rÈ   rz   rw   rÉ   r™   r  rÌ   rr  rs  r›   c                 óÚ  • SU;   a,  [         R                  " S[        5        UR                  S5      nU
b  U
OU R                  R
                  n
U R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nSnUb2  [        5       nU" UR                  SS5      UR                  S5      5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )	a"  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the next sequence prediction (classification) loss. Input should be a sequence pair
    (see `input_ids` docstring). Indices should be in `[0, 1]`:

    - 0 indicates sequence B is a continuation of sequence A,
    - 1 indicates sequence B is a random sequence.

Example:

```python
>>> from transformers import AutoTokenizer, BertForNextSentencePrediction
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-uncased")
>>> model = BertForNextSentencePrediction.from_pretrained("google-bert/bert-base-uncased")

>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> next_sentence = "The sky is blue due to the shorter wavelength of blue light."
>>> encoding = tokenizer(prompt, next_sentence, return_tensors="pt")

>>> outputs = model(**encoding, labels=torch.LongTensor([1]))
>>> logits = outputs.logits
>>> assert logits[0, 0] < logits[0, 1]  # next sentence was random
```
r  zoThe `next_sentence_label` argument is deprecated and will be removed in a future version, use `labels` instead.Nr  r$   rx   r=   r:  )ÚwarningsÚwarnÚFutureWarningÚpopr^   rï  rÂ  r  r	   rÒ   r   rÇ   ry  )r”   r˜   rÈ   rz   rw   rÉ   r™   r  rÌ   rr  rs  Úkwargsr=  rŽ  Úseq_relationship_scoresr  r  r/  s                     r1   r¥   Ú%BertForNextSentencePrediction.forwardO  s  € ðT ! FÓ*ÜMŠMð%äôð
 —Z‘ZÐ 5Ó6ˆFà%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—)‘)ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 

ˆð   ™
ˆà"&§(¡(¨=Ó"9Ðà!ÐØÑÜ'Ó)ˆHÙ!)Ð*A×*FÑ*FÀrÈ1Ó*MÈvÏ{É{Ð[]ËÓ!_ÐæØ-Ð/°'¸!¸"°+Ñ=ˆFØ7IÑ7UÐ'Ð)¨FÑ2ÐaÐ[aÐaä*Ø#Ø*Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
r—   r  ©
NNNNNNNNNN)r§   r¨   r©   rª   r~   r!   r   rZ   r®   rÿ   r   r   r   r¥   r¯   r°   r±   s   @r1   rJ  rJ  @  s  ø† õð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø)-Ø,0Ø/3Ø&*ñQ
à˜EŸL™LÑ)ðQ
ð ! §¡Ñ.ðQ
ð ! §¡Ñ.ð	Q
ð
 ˜uŸ|™|Ñ,ðQ
ð ˜EŸL™LÑ)ðQ
ð   §¡Ñ-ðQ
ð ˜Ÿ™Ñ&ðQ
ð $ D™>ðQ
ð ' t™nðQ
ð ˜d‘^ðQ
ð 
ˆuU—\‘\Ñ"Ð$?Ð?Ñ	@ôQ
ó öQ
r—   rJ  zœ
    Bert Model transformer with a sequence classification/regression head on top (a linear layer on top of the pooled
    output) e.g. for GLUE tasks.
    c                   ól  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	   S\\	   S\\	   S\
\\R                     \4   4S jj5       rSrU =r$ )ÚBertForSequenceClassificationi¤  c                 ór  >• [         TU ]  U5        UR                  U l        Xl        [	        U5      U l        UR                  b  UR                  OUR                  n[        R                  " U5      U l
        [        R                  " UR                  UR                  5      U l        U R                  5         g r   )r}   r~   Ú
num_labelsr^   rÙ  rÂ  Úclassifier_dropoutr‹   r   rŠ   rŒ   r½   r   r<   rÞ  ©r”   r^   rZ  r•   s      €r1   r~   Ú&BertForSequenceClassification.__init__«  s   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒØŒä˜fÓ%ˆŒ	à)/×)BÑ)BÑ)NˆF×%Ò%ÐTZ×TnÑTnð 	ô —z’zÐ"4Ó5ˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰Õr—   r˜   rÈ   rz   rw   rÉ   r™   r  rÌ   rr  rs  r›   c                 óR  • U
b  U
OU R                   R                  n
U R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nU R	                  U5      nSnUGbŽ  U R                   R
                  c‘  U R                  S:X  a  SU R                   l        OoU R                  S:”  aN  UR                  [        R                  :X  d  UR                  [        R                  :X  a  SU R                   l        OSU R                   l        U R                   R
                  S:X  aI  [        5       nU R                  S:X  a&  U" UR                  5       UR                  5       5      nOŒU" X×5      nOƒU R                   R
                  S:X  a=  [        5       nU" UR                  SU R                  5      UR                  S5      5      nO,U R                   R
                  S:X  a  [        5       nU" X×5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [!        UUUR"                  UR$                  S	9$ )
ae  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
Nr  r$   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationrx   r=   r:  )r^   rï  rÂ  rŒ   r<   Úproblem_typerY  r|   rZ   r’   rU   r
   Úsqueezer	   rÒ   r   r   rÇ   ry  )r”   r˜   rÈ   rz   rw   rÉ   r™   r  rÌ   rr  rs  r=  rŽ  r,  rÕ  r  r/  s                    r1   r¥   Ú%BertForSequenceClassification.forwardº  sä  € ð( &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—)‘)ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 

ˆð   ™
ˆàŸ™ ]Ó3ˆØ—‘ Ó/ˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/ÞØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r—   )rÂ  r<   r^   rŒ   rY  rU  )r§   r¨   r©   rª   r~   r!   r   rZ   r®   rÿ   r   r   r   r¥   r¯   r°   r±   s   @r1   rW  rW  ¤  s  ø† õð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø)-Ø,0Ø/3Ø&*ñE
à˜EŸL™LÑ)ðE
ð ! §¡Ñ.ðE
ð ! §¡Ñ.ð	E
ð
 ˜uŸ|™|Ñ,ðE
ð ˜EŸL™LÑ)ðE
ð   §¡Ñ-ðE
ð ˜Ÿ™Ñ&ðE
ð $ D™>ðE
ð ' t™nðE
ð ˜d‘^ðE
ð 
ˆuU—\‘\Ñ"Ð$<Ð<Ñ	=ôE
ó öE
r—   rW  c                   ól  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	   S\\	   S\\	   S\
\\R                     \4   4S jj5       rSrU =r$ )ÚBertForMultipleChoicei  c                 ó0  >• [         TU ]  U5        [        U5      U l        UR                  b  UR                  OUR
                  n[        R                  " U5      U l        [        R                  " UR                  S5      U l        U R                  5         g )Nr$   )r}   r~   rÙ  rÂ  rZ  r‹   r   rŠ   rŒ   r½   r   r<   rÞ  r[  s      €r1   r~   ÚBertForMultipleChoice.__init__  su   ø€ Ü‰Ñ˜Ô ä˜fÓ%ˆŒ	à)/×)BÑ)BÑ)NˆF×%Ò%ÐTZ×TnÑTnð 	ô —z’zÐ"4Ó5ˆŒÜŸ)š) F×$6Ñ$6¸Ó:ˆŒð 	‰Õr—   r˜   rÈ   rz   rw   rÉ   r™   r  rÌ   rr  rs  r›   c                 óZ  • U
b  U
OU R                   R                  n
Ub  UR                  S   OUR                  S   nUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb1  UR                  SUR	                  S5      UR	                  S5      5      OSnU R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nU R                  U5      nUR                  SU5      nSnUb  [        5       nU" X÷5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )a›  
input_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`):
    Indices of input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are input IDs?](../glossary#input-ids)
token_type_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,
    1]`:

    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.

    [What are token type IDs?](../glossary#token-type-ids)
position_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*):
    Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
    config.max_position_embeddings - 1]`.

    [What are position IDs?](../glossary#position-ids)
inputs_embeds (`torch.FloatTensor` of shape `(batch_size, num_choices, sequence_length, hidden_size)`, *optional*):
    Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This
    is useful if you want more control over how to convert `input_ids` indices into associated vectors than the
    model's internal embedding lookup matrix.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the multiple choice classification loss. Indices should be in `[0, ...,
    num_choices-1]` where `num_choices` is the size of the second dimension of the input tensors. (See
    `input_ids` above)
Nr$   rx   rÏ   r  r=   r:  )r^   rï  rW   rÒ   r‘   rÂ  rŒ   r<   r	   r   rÇ   ry  )r”   r˜   rÈ   rz   rw   rÉ   r™   r  rÌ   rr  rs  Únum_choicesr=  rŽ  r,  Úreshaped_logitsrÕ  r  r/  s                      r1   r¥   ÚBertForMultipleChoice.forward  sÜ  € ðX &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ,5Ñ,Ai—o‘o aÒ(À}×GZÑGZÐ[\ÑG]ˆà>GÑ>SI—N‘N 2 y§~¡~°bÓ'9Ô:ÐY]ˆ	ØM[ÑMg˜×,Ñ,¨R°×1DÑ1DÀRÓ1HÔIÐmqˆØM[ÑMg˜×,Ñ,¨R°×1DÑ1DÀRÓ1HÔIÐmqˆØGSÑG_|×(Ñ(¨¨\×->Ñ->¸rÓ-BÔCÐeiˆð Ñ(ð ×Ñ˜r =×#5Ñ#5°bÓ#9¸=×;MÑ;MÈbÓ;QÔRàð 	ð —)‘)ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 

ˆð   ™
ˆàŸ™ ]Ó3ˆØ—‘ Ó/ˆØ Ÿ+™+ b¨+Ó6ˆàˆØÑÜ'Ó)ˆHÙ˜OÓ4ˆDæØ%Ð'¨'°!°"¨+Ñ5ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä(ØØ"Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
r—   )rÂ  r<   rŒ   rU  )r§   r¨   r©   rª   r~   r!   r   rZ   r®   rÿ   r   r   r   r¥   r¯   r°   r±   s   @r1   re  re    s  ø† õð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø)-Ø,0Ø/3Ø&*ñX
à˜EŸL™LÑ)ðX
ð ! §¡Ñ.ðX
ð ! §¡Ñ.ð	X
ð
 ˜uŸ|™|Ñ,ðX
ð ˜EŸL™LÑ)ðX
ð   §¡Ñ-ðX
ð ˜Ÿ™Ñ&ðX
ð $ D™>ðX
ð ' t™nðX
ð ˜d‘^ðX
ð 
ˆuU—\‘\Ñ"Ð$=Ð=Ñ	>ôX
ó öX
r—   re  c                   ól  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	   S\\	   S\\	   S\
\\R                     \4   4S jj5       rSrU =r$ )ÚBertForTokenClassificationin  c                 ód  >• [         TU ]  U5        UR                  U l        [        USS9U l        UR
                  b  UR
                  OUR                  n[        R                  " U5      U l	        [        R                  " UR                  UR                  5      U l        U R                  5         g ©NFr#  )r}   r~   rY  rÙ  rÂ  rZ  r‹   r   rŠ   rŒ   r½   r   r<   rÞ  r[  s      €r1   r~   Ú#BertForTokenClassification.__init__p  sŠ   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä˜f¸Ñ>ˆŒ	à)/×)BÑ)BÑ)NˆF×%Ò%ÐTZ×TnÑTnð 	ô —z’zÐ"4Ó5ˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰Õr—   r˜   rÈ   rz   rw   rÉ   r™   r  rÌ   rr  rs  r›   c                 ó¬  • U
b  U
OU R                   R                  n
U R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nU R	                  U5      nSnUb<  [        5       nU" UR                  SU R                  5      UR                  S5      5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )zÃ
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the token classification loss. Indices should be in `[0, ..., config.num_labels - 1]`.
Nr  r   rx   r=   r:  )r^   rï  rÂ  rŒ   r<   r	   rÒ   rY  r   rÇ   ry  )r”   r˜   rÈ   rz   rw   rÉ   r™   r  rÌ   rr  rs  r=  r©  r,  rÕ  r  r/  s                    r1   r¥   Ú"BertForTokenClassification.forward~  sö   € ð$ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—)‘)ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 

ˆð " !™*ˆàŸ,™, Ó7ˆØ—‘ Ó1ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯O©OÓ<¸f¿k¹kÈ"»oÓNˆDæØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r—   )rÂ  r<   rŒ   rY  rU  )r§   r¨   r©   rª   r~   r!   r   rZ   r®   rÿ   r   r   r   r¥   r¯   r°   r±   s   @r1   rm  rm  n  s  ø† õð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø)-Ø,0Ø/3Ø&*ñ2
à˜EŸL™LÑ)ð2
ð ! §¡Ñ.ð2
ð ! §¡Ñ.ð	2
ð
 ˜uŸ|™|Ñ,ð2
ð ˜EŸL™LÑ)ð2
ð   §¡Ñ-ð2
ð ˜Ÿ™Ñ&ð2
ð $ D™>ð2
ð ' t™nð2
ð ˜d‘^ð2
ð 
ˆuU—\‘\Ñ"Ð$9Ð9Ñ	:ô2
ó ö2
r—   rm  c                   óŒ  ^ • \ rS rSrU 4S jr\           SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\	   S\\	   S\\	   S\
\\R                     \4   4S jj5       rSrU =r$ )ÚBertForQuestionAnsweringi´  c                 óä   >• [         TU ]  U5        UR                  U l        [        USS9U l        [
        R                  " UR                  UR                  5      U l        U R                  5         g ro  )
r}   r~   rY  rÙ  rÂ  r   r½   r   Ú
qa_outputsrÞ  r“   s     €r1   r~   Ú!BertForQuestionAnswering.__init__¶  sU   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä˜f¸Ñ>ˆŒ	ÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰Õr—   r˜   rÈ   rz   rw   rÉ   r™   Ústart_positionsÚend_positionsrÌ   rr  rs  r›   c                 ó$  • Ub  UOU R                   R                  nU R                  UUUUUUU	U
US9	nUS   nU R                  U5      nUR	                  SSS9u  nnUR                  S5      R                  5       nUR                  S5      R                  5       nS nUb¶  Ub³  [        UR                  5       5      S:”  a  UR                  S5      n[        UR                  5       5      S:”  a  UR                  S5      nUR                  S5      nUR                  SU5      nUR                  SU5      n[        US9nU" X÷5      nU" UU5      nUU-   S-  nU(       d  UU4USS  -   nUb  U4U-   $ U$ [        UUUUR                  UR                  S9$ )	Nr  r   r$   rx   rÐ   )Úignore_indexr=   )rÕ  Ústart_logitsÚ
end_logitsrÇ   ry  )r^   rï  rÂ  rv  rN   rb  rå   rT   r‘   Úclampr	   r   rÇ   ry  )r”   r˜   rÈ   rz   rw   rÉ   r™   rx  ry  rÌ   rr  rs  r=  r©  r,  r|  r}  r  Úignored_indexr  Ú
start_lossÚend_lossr/  s                          r1   r¥   Ú BertForQuestionAnswering.forwardÀ  sÀ  € ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—)‘)ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð ð 

ˆð " !™*ˆà—‘ Ó1ˆØ#)§<¡<°°r <Ð#:Ñ ˆjØ#×+Ñ+¨BÓ/×:Ñ:Ó<ˆØ×'Ñ'¨Ó+×6Ñ6Ó8ˆ
àˆ
ØÑ&¨=Ñ+Dä?×'Ñ'Ó)Ó*¨QÓ.Ø"1×"9Ñ"9¸"Ó"=Ü=×%Ñ%Ó'Ó(¨1Ó,Ø -× 5Ñ 5°bÓ 9à(×-Ñ-¨aÓ0ˆMØ-×3Ñ3°A°}ÓEˆOØ)×/Ñ/°°=ÓAˆMä'°]ÑCˆHÙ! ,Ó@ˆJÙ 
¨MÓ:ˆHØ$ xÑ/°1Ñ4ˆJæØ" JÐ/°'¸!¸"°+Ñ=ˆFØ/9Ñ/EZM FÑ*ÐQÈ6ÐQä+ØØ%Ø!Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r—   )rÂ  rY  rv  r  )r§   r¨   r©   rª   r~   r!   r   rZ   r®   rÿ   r   r   r   r¥   r¯   r°   r±   s   @r1   rt  rt  ´  s  ø† õð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø26Ø04Ø,0Ø/3Ø&*ñ>
à˜EŸL™LÑ)ð>
ð ! §¡Ñ.ð>
ð ! §¡Ñ.ð	>
ð
 ˜uŸ|™|Ñ,ð>
ð ˜EŸL™LÑ)ð>
ð   §¡Ñ-ð>
ð " %§,¡,Ñ/ð>
ð   §¡Ñ-ð>
ð $ D™>ð>
ð ' t™nð>
ð ˜d‘^ð>
ð 
ˆuU—\‘\Ñ"Ð$@Ð@Ñ	Aô>
ó ö>
r—   rt  )r2  re  rJ  r  rt  rW  rm  rR  r!  rÙ  rÁ  rm   )Vr«   rà   rE   rN  Údataclassesr   Útypingr   r   rZ   Útorch.utils.checkpointÚ	packagingr   r   Útorch.nnr   r	   r
   Úactivationsr   Úcache_utilsr   r   Ú
generationr   Úmodeling_attn_mask_utilsr   r   Úmodeling_layersr   Úmodeling_outputsr   r   r   r   r   r   r   r   r   Úmodeling_utilsr   Úpytorch_utilsr   r   r   Úutilsr    r!   r"   r#   Úconfiguration_bertr%   Ú
get_loggerr§   rC   rm   ÚModulero   r³   r  r  r-  r+  r@  rL  rR  rg  r‡  r‘  r˜  r¥  r¯  rº  rÁ  rÔ  rÙ  r  r!  r2  rJ  rW  re  rm  rt  Ú__all__r.   r—   r1   Ú<module>r•     s!  ðñ  ã Û 	Û Ý !ß "ã Û Ý Ý ß AÑ Aå !ß 5Ý )ß wÝ 9÷
÷ 
õ 
õ .ß lÑ lß LÓ LÝ *ð 
×	Ò	˜HÓ	%€òFôR=R—Y‘Yô =ô@@.˜Ÿ	™	ô @.ôFl!Ð-ô l!ô^R—Y‘Yô ð Ø!ñÐ ô2B—I‘Iô 2ôjr—y‘yô ô—‘ô ôBÐ*ô BôJY
"—)‘)ô Y
ôx—‘ô ô "§)¡)ô ô"˜2Ÿ9™9ô ô.!b—i‘iô !ô&b—i‘iô &ô	9˜2Ÿ9™9ô 	9ð ô%˜/ó %ó ð%ð4 Ùðñô
:˜{ó :óó ð:ñ& ð	ñôx
Ð#ó x
óðx
ñv ðñô`
Ð,ó `
óð`
ñF ðñô
W
Ð)¨?ó W
óð
W
ðt ôiÐ)ó ió ðiñX ðñô
\
Ð$7ó \
óð
\
ñ~ ðñôV
Ð$7ó V
óðV
ðr ôg
Ð/ó g
ó ðg
ðT ôB
Ð!4ó B
ó ðB
ðJ ôJ
Ð2ó J
ó ðJ
òZr—   