ó
    <±hR—  ã                   ó¬  • S r SSKrSSKJrJr  SSKrSSKJr  SSKJrJ	r	J
r
  SSKJr  SSKJrJrJrJrJrJrJr  SS	KJr  SS
KJrJr  SSKJr  \R8                  " \5      r " S S\R>                  5      r  " S S\R>                  5      r! " S S\RD                  5      r# " S S\R>                  5      r$ " S S\R>                  5      r% " S S\R>                  5      r& " S S\R>                  5      r' " S S\R>                  5      r( " S S\R>                  5      r) " S S \R>                  5      r* " S! S"\R>                  5      r+ " S# S$\R>                  5      r,\ " S% S&\5      5       r-\ " S' S(\-5      5       r.\ " S) S*\-5      5       r/\" S+S,9 " S- S.\-5      5       r0\ " S/ S0\-5      5       r1\ " S1 S2\-5      5       r2\ " S3 S4\-5      5       r3/ S5Qr4g)6zPyTorch SqueezeBert model.é    N)ÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚBaseModelOutputÚBaseModelOutputWithPoolingÚMaskedLMOutputÚMultipleChoiceModelOutputÚQuestionAnsweringModelOutputÚSequenceClassifierOutputÚTokenClassifierOutput)ÚPreTrainedModel)Úauto_docstringÚloggingé   )ÚSqueezeBertConfigc                   ó6   ^ • \ rS rSrSrU 4S jrSS jrSrU =r$ )ÚSqueezeBertEmbeddingsé-   zGConstruct the embeddings from word, position and token_type embeddings.c                 óv  >• [         TU ]  5         [        R                  " UR                  UR
                  UR                  S9U l        [        R                  " UR                  UR
                  5      U l	        [        R                  " UR                  UR
                  5      U l        [        R                  " UR                  UR                  S9U l        [        R                  " UR                   5      U l        U R%                  S[&        R(                  " UR                  5      R+                  S5      SS9  g )N)Úpadding_idx©ÚepsÚposition_ids)r   éÿÿÿÿF)Ú
persistent)ÚsuperÚ__init__r   Ú	EmbeddingÚ
vocab_sizeÚembedding_sizeÚpad_token_idÚword_embeddingsÚmax_position_embeddingsÚposition_embeddingsÚtype_vocab_sizeÚtoken_type_embeddingsÚ	LayerNormÚhidden_sizeÚlayer_norm_epsÚDropoutÚhidden_dropout_probÚdropoutÚregister_bufferÚtorchÚarangeÚexpand©ÚselfÚconfigÚ	__class__s     €Úl/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/squeezebert/modeling_squeezebert.pyr"   ÚSqueezeBertEmbeddings.__init__0   sã   ø€ Ü‰ÑÔÜ!Ÿ|š|¨F×,=Ñ,=¸v×?TÑ?TÐbh×buÑbuÑvˆÔÜ#%§<¢<°×0NÑ0NÐPV×PeÑPeÓ#fˆÔ Ü%'§\¢\°&×2HÑ2HÈ&×J_ÑJ_Ó%`ˆÔ"ô Ÿš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒð 	×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð 	ò 	
ó    c                 óÂ  • Ub  UR                  5       nOUR                  5       S S nUS   nUc  U R                  S S 2S U24   nUc8  [        R                  " U[        R                  U R                  R
                  S9nUc  U R                  U5      nU R                  U5      nU R                  U5      nXG-   U-   n	U R                  U	5      n	U R                  U	5      n	U	$ )Nr   r   ©ÚdtypeÚdevice)Úsizer   r3   ÚzerosÚlongr@   r'   r)   r+   r,   r1   )
r7   Ú	input_idsÚtoken_type_idsr   Úinputs_embedsÚinput_shapeÚ
seq_lengthr)   r+   Ú
embeddingss
             r:   ÚforwardÚSqueezeBertEmbeddings.forward@   sà   € ØÑ Ø#Ÿ.™.Ó*‰Kà'×,Ñ,Ó.¨s°Ð3ˆKà  ‘^ˆ
àÑØ×,Ñ,ªQ°°°¨^Ñ<ˆLàÑ!Ü"Ÿ[š[¨¼E¿J¹JÈt×O`ÑO`×OgÑOgÑhˆNàÑ Ø ×0Ñ0°Ó;ˆMØ"×6Ñ6°|ÓDÐØ $× :Ñ :¸>Ó JÐà"Ñ8Ð;PÑPˆ
Ø—^‘^ JÓ/ˆ
Ø—\‘\ *Ó-ˆ
ØÐr<   )r,   r1   r)   r+   r'   )NNNN©	Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r"   rJ   Ú__static_attributes__Ú__classcell__©r9   s   @r:   r   r   -   s   ø† ÙQõ
÷ ò r<   r   c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚMatMulWrapperéY   zÇ
Wrapper for torch.matmul(). This makes flop-counting easier to implement. Note that if you directly call
torch.matmul() in your code, the flop counter will typically ignore the flops of the matmul.
c                 ó"   >• [         TU ]  5         g ©N)r!   r"   )r7   r9   s    €r:   r"   ÚMatMulWrapper.__init___   s   ø€ Ü‰ÑÕr<   c                 ó.   • [         R                  " X5      $ )a  

:param inputs: two torch tensors :return: matmul of these tensors

Here are the typical dimensions found in BERT (the B is optional) mat1.shape: [B, <optional extra dims>, M, K]
mat2.shape: [B, <optional extra dims>, K, N] output shape: [B, <optional extra dims>, M, N]
)r3   Úmatmul)r7   Úmat1Úmat2s      r:   rJ   ÚMatMulWrapper.forwardb   s   € ô |Š|˜DÓ'Ð'r<   © rL   rT   s   @r:   rV   rV   Y   s   ø† ñõ
÷(ð (r<   rV   c                   ó(   • \ rS rSrSrSS jrS rSrg)ÚSqueezeBertLayerNormém   z™
This is a nn.LayerNorm subclass that accepts NCW data layout and performs normalization in the C dimension.

N = batch C = channels W = sequence length
c                 ó@   • [         R                  R                  XUS9  g )N)Únormalized_shaper   )r   r,   r"   )r7   r-   r   s      r:   r"   ÚSqueezeBertLayerNorm.__init__t   s   € Ü
‰×Ñ˜dÀcÐÒJr<   c                 óŒ   • UR                  SSS5      n[        R                  R                  X5      nUR                  SSS5      $ )Nr   é   r   )Úpermuter   r,   rJ   )r7   Úxs     r:   rJ   ÚSqueezeBertLayerNorm.forwardw   s;   € ØI‰Ia˜˜AÓˆÜL‰L× Ñ  Ó)ˆØy‰y˜˜A˜qÓ!Ð!r<   r`   N)gê-™—q=)rM   rN   rO   rP   rQ   r"   rJ   rR   r`   r<   r:   rb   rb   m   s   † ñôKõ"r<   rb   c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚConvDropoutLayerNormé}   z0
ConvDropoutLayerNorm: Conv, Dropout, LayerNorm
c                 ó®   >• [         TU ]  5         [        R                  " XSUS9U l        [        U5      U l        [        R                  " U5      U l        g ©Nr   ©Úin_channelsÚout_channelsÚkernel_sizeÚgroups)	r!   r"   r   ÚConv1dÚconv1drb   Ú	layernormr/   r1   )r7   ÚcinÚcoutru   Údropout_probr9   s        €r:   r"   ÚConvDropoutLayerNorm.__init__‚   s@   ø€ Ü‰ÑÔä—i’i¨CÐPQÐZ`ÑaˆŒÜ-¨dÓ3ˆŒÜ—z’z ,Ó/ˆr<   c                 ót   • U R                  U5      nU R                  U5      nX2-   nU R                  U5      nU$ rY   ©rw   r1   rx   )r7   Úhidden_statesÚinput_tensorrj   s       r:   rJ   ÚConvDropoutLayerNorm.forward‰   s8   € ØK‰K˜Ó&ˆØL‰L˜‹OˆØÑˆØN‰N˜1ÓˆØˆr<   r~   rL   rT   s   @r:   rm   rm   }   s   ø† ñõ0÷ð r<   rm   c                   ó2   ^ • \ rS rSrSrU 4S jrS rSrU =r$ )ÚConvActivationé‘   z"
ConvActivation: Conv, Activation
c                 ót   >• [         TU ]  5         [        R                  " XSUS9U l        [
        U   U l        g rp   )r!   r"   r   rv   rw   r
   Úact)r7   ry   rz   ru   r†   r9   s        €r:   r"   ÚConvActivation.__init__–   s/   ø€ Ü‰ÑÔÜ—i’i¨CÐPQÐZ`ÑaˆŒÜ˜#‘;ˆr<   c                 óF   • U R                  U5      nU R                  U5      $ rY   )rw   r†   )r7   rj   Úoutputs      r:   rJ   ÚConvActivation.forward›   s   € Ø—‘˜Q“ˆØx‰x˜ÓÐr<   )r†   rw   rL   rT   s   @r:   rƒ   rƒ   ‘   s   ø† ñõ÷
 ð  r<   rƒ   c                   óD   ^ • \ rS rSrSU 4S jjrS rS rS rS rSr	U =r
$ )	ÚSqueezeBertSelfAttentioné    c                 ón  >• [         TU ]  5         X!R                  -  S:w  a  [        SU SUR                   S35      eUR                  U l        [	        X!R                  -  5      U l        U R                  U R
                  -  U l        [        R                  " X"SUS9U l	        [        R                  " X"SUS9U l
        [        R                  " X"SUS9U l        [        R                  " UR                  5      U l        [        R                  " SS9U l        [#        5       U l        [#        5       U l        g	)
z¢
config = used for some things; ignored for others (work in progress...) cin = input channels = output channels
groups = number of groups to use in conv1d layers
r   zcin (z6) is not a multiple of the number of attention heads (Ú)r   rq   r   ©ÚdimN)r!   r"   Únum_attention_headsÚ
ValueErrorÚintÚattention_head_sizeÚall_head_sizer   rv   ÚqueryÚkeyÚvaluer/   Úattention_probs_dropout_probr1   ÚSoftmaxÚsoftmaxrV   Ú	matmul_qkÚ
matmul_qkv)r7   r8   ry   Úq_groupsÚk_groupsÚv_groupsr9   s         €r:   r"   Ú!SqueezeBertSelfAttention.__init__¡   s   ø€ ô
 	‰ÑÔØ×+Ñ+Ñ+¨qÓ0ÜØ˜uÐRÐSY×SmÑSmÐRnÐnoÐpóð ð $*×#=Ñ#=ˆÔ Ü#& s×-GÑ-GÑ'GÓ#HˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔä—Y’Y¨3ÈaÐX`ÑaˆŒ
Ü—9’9¨ÈAÐV^Ñ_ˆŒÜ—Y’Y¨3ÈaÐX`ÑaˆŒ
ä—z’z &×"EÑ"EÓFˆŒÜ—z’z bÑ)ˆŒä&›ˆŒÜ'›/ˆr<   c                 óÀ   • UR                  5       S   U R                  U R                  UR                  5       S   4nUR                  " U6 nUR	                  SSSS5      $ )zg
- input: [N, C, W]
- output: [N, C1, W, C2] where C1 is the head index, and C2 is one head's contents
r   r   r   r	   rh   )rA   r’   r•   Úviewri   ©r7   rj   Únew_x_shapes      r:   Útranspose_for_scoresÚ-SqueezeBertSelfAttention.transpose_for_scores¹   s[   € ð
 —v‘v“x ‘{ D×$<Ñ$<¸d×>VÑ>VÐXY×X^ÑX^ÓX`ÐacÑXdÐeˆØFŠFKÐ ˆØy‰y˜˜A˜q !Ó$Ð$r<   c                 óœ   • UR                  5       S   U R                  U R                  UR                  5       S   4nUR                  " U6 nU$ )zg
- input: [N, C, W]
- output: [N, C1, C2, W] where C1 is the head index, and C2 is one head's contents
r   r   )rA   r’   r•   r¤   r¥   s      r:   Útranspose_key_for_scoresÚ1SqueezeBertSelfAttention.transpose_key_for_scoresÂ   sK   € ð
 —v‘v“x ‘{ D×$<Ñ$<¸d×>VÑ>VÐXY×X^ÑX^ÓX`ÐacÑXdÐeˆØFŠFKÐ ˆàˆr<   c                 óÊ   • UR                  SSSS5      R                  5       nUR                  5       S   U R                  UR                  5       S   4nUR                  " U6 nU$ )z-
- input: [N, C1, W, C2]
- output: [N, C, W]
r   r   r	   rh   )ri   Ú
contiguousrA   r–   r¤   r¥   s      r:   Útranspose_outputÚ)SqueezeBertSelfAttention.transpose_outputÌ   sZ   € ð
 I‰Ia˜˜A˜qÓ!×,Ñ,Ó.ˆØ—v‘v“x ‘{ D×$6Ñ$6¸¿¹»À¹ÐDˆØFŠFKÐ ˆØˆr<   c                 óè  • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU R	                  U5      nU R                  U5      n	U R                  Xx5      n
U
[        R                  " U R                  5      -  n
X¢-   n
U R                  U
5      nU R                  U5      nU R                  X¹5      nU R                  U5      nSU0nU(       a  X­S'   U$ )zƒ
expects hidden_states in [N, C, W] data layout.

The attention_mask data layout is [N, W], and it does not need to be transposed.
Úcontext_layerÚattention_score)r—   r˜   r™   r§   rª   r   ÚmathÚsqrtr•   rœ   r1   rž   r®   )r7   r   Úattention_maskÚoutput_attentionsÚmixed_query_layerÚmixed_key_layerÚmixed_value_layerÚquery_layerÚ	key_layerÚvalue_layerr²   Úattention_probsr±   Úresults                 r:   rJ   Ú SqueezeBertSelfAttention.forwardÖ   sì   € ð !ŸJ™J }Ó5ÐØŸ(™( =Ó1ˆØ ŸJ™J }Ó5Ðà×/Ñ/Ð0AÓBˆØ×1Ñ1°/ÓBˆ	Ø×/Ñ/Ð0AÓBˆð Ÿ.™.¨Ó@ˆØ)¬D¯IªI°d×6NÑ6NÓ,OÑOˆà)Ñ:ˆð Ÿ,™, Ó7ˆð Ÿ,™, Ó7ˆàŸ™¨ÓEˆØ×-Ñ-¨mÓ<ˆà! =Ð1ˆÞØ(7Ð$Ñ%Øˆr<   )
r–   r•   r1   r˜   r   rž   r’   r—   rœ   r™   )r   r   r   )rM   rN   rO   rP   r"   r§   rª   r®   rJ   rR   rS   rT   s   @r:   rŒ   rŒ       s!   ø† ÷*ò0%òò÷!ð !r<   rŒ   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚSqueezeBertModuleéú   c                 ó¸  >• [         TU ]  5         UR                  nUR                  nUR                  nUR                  n[	        XUR
                  UR                  UR                  S9U l        [        X#UR                  UR                  S9U l        [        X4UR                  UR                  S9U l        [        XEUR"                  UR                  S9U l        g)aP  
- hidden_size = input chans = output chans for Q, K, V (they are all the same ... for now) = output chans for
  the module
- intermediate_size = output chans for intermediate layer
- groups = number of groups for all layers in the BertModule. (eventually we could change the interface to
  allow different groups for different layers)
)r8   ry   rŸ   r    r¡   )ry   rz   ru   r{   )ry   rz   ru   r†   N)r!   r"   r-   Úintermediate_sizerŒ   rŸ   r    r¡   Ú	attentionrm   Úpost_attention_groupsr0   Úpost_attentionrƒ   Úintermediate_groupsÚ
hidden_actÚintermediateÚoutput_groupsr‰   )r7   r8   Úc0Úc1Úc2Úc3r9   s         €r:   r"   ÚSqueezeBertModule.__init__û   sÁ   ø€ ô 	‰ÑÔà×ÑˆØ×ÑˆØ×%Ñ%ˆØ×Ñˆä1Ø¨F¯O©OÀfÇoÁoÐ`f×`oÑ`oñ
ˆŒô 3Ø F×$@Ñ$@Èv×OiÑOiñ
ˆÔô +¨rÀ6×C]ÑC]Ðci×ctÑctÑuˆÔÜ*Ø F×$8Ñ$8Àv×GaÑGañ
ˆr<   c                 óÀ   • U R                  XU5      nUS   nU R                  XQ5      nU R                  U5      nU R                  Xv5      nSU0n	U(       a  US   U	S'   U	$ )Nr±   Úfeature_mapr²   )rÅ   rÇ   rÊ   r‰   )
r7   r   rµ   r¶   ÚattÚattention_outputÚpost_attention_outputÚintermediate_outputÚlayer_outputÚoutput_dicts
             r:   rJ   ÚSqueezeBertModule.forward  su   € Øn‰n˜]Ð<MÓNˆØ˜Ñ/Ðà $× 3Ñ 3Ð4DÓ TÐØ"×/Ñ/Ð0EÓFÐØ—{‘{Ð#6ÓNˆà$ lÐ3ˆÞØ-0Ð1BÑ-CˆKÐ)Ñ*àÐr<   )rÅ   rÊ   r‰   rÇ   ©rM   rN   rO   rP   r"   rJ   rR   rS   rT   s   @r:   rÁ   rÁ   ú   s   ø† õ
÷4ð r<   rÁ   c                   ó<   ^ • \ rS rSrU 4S jr     SS jrSrU =r$ )ÚSqueezeBertEncoderi$  c                 óÖ   >^• [         TU ]  5         TR                  TR                  :X  d   S5       e[        R
                  " U4S j[        TR                  5       5       5      U l        g )Nz™If you want embedding_size != intermediate hidden_size, please insert a Conv1d layer to adjust the number of channels before the first SqueezeBertModule.c              3   ó8   >#   • U H  n[        T5      v •  M     g 7frY   )rÁ   )Ú.0Ú_r8   s     €r:   Ú	<genexpr>Ú.SqueezeBertEncoder.__init__.<locals>.<genexpr>.  s   øé € Ð#gÑGfÀ!Ô$5°f×$=Ð$=ÒGfùs   ƒ)	r!   r"   r%   r-   r   Ú
ModuleListÚrangeÚnum_hidden_layersÚlayersr6   s    `€r:   r"   ÚSqueezeBertEncoder.__init__%  sW   ù€ Ü‰ÑÔà×$Ñ$¨×(:Ñ(:Ó:ð 	
ð2ó	
Ð:ô —m’mÔ#gÄuÈV×MeÑMeÔGfÓ#gÓgˆr<   c                 ó   • Uc  SnO#UR                  S 5      [        U5      :X  a  SnOSnUSL d   S5       eUR                  SSS5      nU(       a  SOS nU(       a  SOS n	U R                   H]  n
U(       a+  UR                  SSS5      nX4-  nUR                  SSS5      nU
R	                  XU5      nUS   nU(       d  MU  X›S	   4-  n	M_     UR                  SSS5      nU(       a  X4-  nU(       d  [        S
 XU	4 5       5      $ [        XU	S9$ )NTFzAhead_mask is not yet supported in the SqueezeBert implementation.r   rh   r   r`   rÒ   r²   c              3   ó,   #   • U H  oc  M  Uv •  M     g 7frY   r`   )rß   Úvs     r:   rá   Ú-SqueezeBertEncoder.forward.<locals>.<genexpr>[  s   é € ÐhÑ$V˜qŸ™Ò$Vùs   ‚‹	)Úlast_hidden_stater   Ú
attentions)ÚcountÚlenri   ræ   rJ   Útupler   )r7   r   rµ   Ú	head_maskr¶   Úoutput_hidden_statesÚreturn_dictÚhead_mask_is_all_noneÚall_hidden_statesÚall_attentionsÚlayerr×   s               r:   rJ   ÚSqueezeBertEncoder.forward0  s6  € ð ÑØ$(Ñ!Ø_‰_˜TÓ"¤c¨)£nÓ4Ø$(Ñ!à$)Ð!Ø$¨Ò,ÐqÐ.qÓqÐ,ð &×-Ñ-¨a°°AÓ6ˆæ"6™B¸DÐÞ0™°dˆà—[”[ˆEÞ#Ø -× 5Ñ 5°a¸¸AÓ >Ø!Ð%5Ñ5Ð!Ø -× 5Ñ 5°a¸¸AÓ >à Ÿ=™=¨ÐHYÓZˆLà(¨Ñ7ˆMç Ð ØÐ0AÑ#BÐ"DÑD’ñ !ð &×-Ñ-¨a°°AÓ6ˆæØÐ!1Ñ1ÐæÜÑh ]À~Ñ$VÓhÓhÐhÜØ+ÐYgñ
ð 	
r<   )ræ   )NNFFTrÚ   rT   s   @r:   rÜ   rÜ   $  s$   ø† õ	hð ØØØ"Ø÷.
ò .
r<   rÜ   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚSqueezeBertPooleria  c                 ó¶   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " 5       U l        g rY   )r!   r"   r   ÚLinearr-   ÚdenseÚTanhÚ
activationr6   s     €r:   r"   ÚSqueezeBertPooler.__init__b  s9   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
ÜŸ'š'›)ˆr<   c                 ó\   • US S 2S4   nU R                  U5      nU R                  U5      nU$ )Nr   )rý   rÿ   )r7   r   Úfirst_token_tensorÚpooled_outputs       r:   rJ   ÚSqueezeBertPooler.forwardg  s6   € ð +ª1¨a¨4Ñ0ÐØŸ
™
Ð#5Ó6ˆØŸ™¨Ó6ˆØÐr<   )rÿ   rý   rÚ   rT   s   @r:   rú   rú   a  s   ø† õ$÷
ð r<   rú   c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )Ú"SqueezeBertPredictionHeadTransformip  c                 óp  >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        UR                  [        5      (       a  [        UR                     U l
        OUR                  U l
        [        R                  " UR                  UR                  S9U l        g )Nr   )r!   r"   r   rü   r-   rý   Ú
isinstancerÉ   Ústrr
   Útransform_act_fnr,   r.   r6   s     €r:   r"   Ú+SqueezeBertPredictionHeadTransform.__init__q  s~   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
Üf×'Ñ'¬×-Ñ-Ü$*¨6×+<Ñ+<Ñ$=ˆDÕ!à$*×$5Ñ$5ˆDÔ!ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆr<   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ rY   )rý   r
  r,   ©r7   r   s     r:   rJ   Ú*SqueezeBertPredictionHeadTransform.forwardz  s4   € ØŸ
™
 =Ó1ˆØ×-Ñ-¨mÓ<ˆØŸ™ }Ó5ˆØÐr<   )r,   rý   r
  rÚ   rT   s   @r:   r  r  p  s   ø† õU÷ð r<   r  c                   ó8   ^ • \ rS rSrU 4S jrSS jrS rSrU =r$ )ÚSqueezeBertLMPredictionHeadi  c                 óH  >• [         TU ]  5         [        U5      U l        [        R
                  " UR                  UR                  SS9U l        [        R                  " [        R                  " UR                  5      5      U l        U R                  U R                  l        g )NF)Úbias)r!   r"   r  Ú	transformr   rü   r-   r$   ÚdecoderÚ	Parameterr3   rB   r  r6   s     €r:   r"   Ú$SqueezeBertLMPredictionHead.__init__‚  sm   ø€ Ü‰ÑÔÜ;¸FÓCˆŒô —y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒä—L’L¤§¢¨V×->Ñ->Ó!?Ó@ˆŒ	ð !ŸI™Iˆ‰Õr<   c                 ó:   • U R                   U R                  l         g rY   )r  r  ©r7   s    r:   Ú_tie_weightsÚ(SqueezeBertLMPredictionHead._tie_weights  s   € Ø ŸI™Iˆ‰Õr<   c                 óJ   • U R                  U5      nU R                  U5      nU$ rY   )r  r  r  s     r:   rJ   Ú#SqueezeBertLMPredictionHead.forward’  s$   € ØŸ™ }Ó5ˆØŸ™ ]Ó3ˆØÐr<   )r  r  r  )ÚreturnN)	rM   rN   rO   rP   r"   r  rJ   rR   rS   rT   s   @r:   r  r    s   ø† õ&ô&÷ð r<   r  c                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚSqueezeBertOnlyMLMHeadi˜  c                 óB   >• [         TU ]  5         [        U5      U l        g rY   )r!   r"   r  Úpredictionsr6   s     €r:   r"   ÚSqueezeBertOnlyMLMHead.__init__™  s   ø€ Ü‰ÑÔÜ6°vÓ>ˆÕr<   c                 ó(   • U R                  U5      nU$ rY   ©r!  )r7   Úsequence_outputÚprediction_scoress      r:   rJ   ÚSqueezeBertOnlyMLMHead.forward  s   € Ø ×,Ñ,¨_Ó=ÐØ Ð r<   r$  rÚ   rT   s   @r:   r  r  ˜  s   ø† õ?÷!ð !r<   r  c                   ó*   • \ rS rSr% \\S'   SrS rSrg)ÚSqueezeBertPreTrainedModeli¢  r8   Útransformerc                 ó¬  • [        U[        R                  [        R                  45      (       ak  UR                  R
                  R                  SU R                  R                  S9  UR                  b%  UR                  R
                  R                  5         gg[        U[        R                  5      (       ax  UR                  R
                  R                  SU R                  R                  S9  UR                  b2  UR                  R
                  UR                     R                  5         gg[        U[        R                  5      (       aJ  UR                  R
                  R                  5         UR                  R
                  R                  S5        g[        U[        5      (       a%  UR                  R
                  R                  5         gg)zInitialize the weightsg        )ÚmeanÚstdNg      ð?)r  r   rü   rv   ÚweightÚdataÚnormal_r8   Úinitializer_ranger  Úzero_r#   r   r,   Úfill_r  )r7   Úmodules     r:   Ú_init_weightsÚ(SqueezeBertPreTrainedModel._init_weights§  s<  € äfœrŸy™y¬"¯)©)Ð4×5Ñ5ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜Ô ;×<Ñ<ØK‰K×Ñ×"Ñ"Õ$ð =r<   r`   N)	rM   rN   rO   rP   r   Ú__annotations__Úbase_model_prefixr5  rR   r`   r<   r:   r)  r)  ¢  s   ‡ àÓØ%Ðõ%r<   r)  c                   óD  ^ • \ rS rSrU 4S jrS rS rS r\         SS\	\
R                     S\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\\\4   4S jj5       rSrU =r$ )ÚSqueezeBertModeliº  c                 ó¤   >• [         TU ]  U5        [        U5      U l        [	        U5      U l        [        U5      U l        U R                  5         g rY   )	r!   r"   r   rI   rÜ   Úencoderrú   ÚpoolerÚ	post_initr6   s     €r:   r"   ÚSqueezeBertModel.__init__¼  s@   ø€ Ü‰Ñ˜Ô ä/°Ó7ˆŒÜ)¨&Ó1ˆŒÜ'¨Ó/ˆŒð 	‰Õr<   c                 ó.   • U R                   R                  $ rY   ©rI   r'   r  s    r:   Úget_input_embeddingsÚ%SqueezeBertModel.get_input_embeddingsÆ  s   € Ø‰×.Ñ.Ð.r<   c                 ó$   • XR                   l        g rY   rA  ©r7   Únew_embeddingss     r:   Úset_input_embeddingsÚ%SqueezeBertModel.set_input_embeddingsÉ  s   € Ø*8‰Õ'r<   c                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)Úitemsr<  r÷   rÅ   Úprune_heads)r7   Úheads_to_pruner÷   Úheadss       r:   Ú_prune_headsÚSqueezeBertModel._prune_headsÌ  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r<   rD   rµ   rE   r   rñ   rF   r¶   rò   ró   r  c
           	      óH  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU	b  U	OU R                   R                  n	Ub  Ub  [	        S5      eUb"  U R                  X5        UR                  5       n
O"Ub  UR                  5       S S n
O[	        S5      eUb  UR                  OUR                  nUc  [        R                  " X«S9nUc$  [        R                  " U
[        R                  US9nU R                  X*5      nU R                  XPR                   R                  5      nU R                  XX6S9nU R!                  UUUUUU	S9nUS   nU R#                  U5      nU	(       d
  UU4US	S  -   $ [%        UUUR&                  UR(                  S
9$ )NzDYou cannot specify both input_ids and inputs_embeds at the same timer   z5You have to specify either input_ids or inputs_embeds)r@   r>   )rD   r   rE   rF   )r   rµ   rñ   r¶   rò   ró   r   r   )rì   Úpooler_outputr   rí   )r8   r¶   rò   Úuse_return_dictr“   Ú%warn_if_padding_and_no_attention_maskrA   r@   r3   ÚonesrB   rC   Úget_extended_attention_maskÚget_head_maskrå   rI   r<  r=  r   r   rí   )r7   rD   rµ   rE   r   rñ   rF   r¶   rò   ró   rG   r@   Úextended_attention_maskÚembedding_outputÚencoder_outputsr%  r  s                    r:   rJ   ÚSqueezeBertModel.forwardÔ  s¾  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*‰KØÑ&Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUà%.Ñ%:×!Ò!À×@TÑ@TˆàÑ!Ü"ŸZšZ¨ÑCˆNØÑ!Ü"Ÿ[š[¨¼E¿J¹JÈvÑVˆNà"&×"BÑ"BÀ>Ó"_Ðð ×&Ñ& y·+±+×2OÑ2OÓPˆ	àŸ?™?ØÈ>ð +ð 
Ðð Ÿ,™,Ø*Ø2ØØ/Ø!5Ø#ð 'ð 
ˆð *¨!Ñ,ˆØŸ™ OÓ4ˆæØ# ]Ð3°oÀaÀbÐ6IÑIÐIä)Ø-Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r<   )rI   r<  r=  )	NNNNNNNNN)rM   rN   rO   rP   r"   rB  rG  rN  r   r   r3   ÚTensorÚFloatTensorÚboolr   rð   r   rJ   rR   rS   rT   s   @r:   r:  r:  º  s  ø† õò/ò9òCð ð -1Ø15Ø15Ø/3Ø,0Ø59Ø,0Ø/3Ø&*ñA
à˜EŸL™LÑ)ðA
ð ! §¡Ñ.ðA
ð ! §¡Ñ.ð	A
ð
 ˜uŸ|™|Ñ,ðA
ð ˜EŸL™LÑ)ðA
ð   × 1Ñ 1Ñ2ðA
ð $ D™>ðA
ð ' t™nðA
ð ˜d‘^ðA
ð 
ˆuÐ0Ð0Ñ	1ôA
ó öA
r<   r:  c                   óf  ^ • \ rS rSrSS/rU 4S jrS rS r\          SS\	\
R                     S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\\\4   4S jj5       rSrU =r$ )ÚSqueezeBertForMaskedLMi  zcls.predictions.decoder.weightzcls.predictions.decoder.biasc                 ó„   >• [         TU ]  U5        [        U5      U l        [	        U5      U l        U R                  5         g rY   )r!   r"   r:  r*  r  Úclsr>  r6   s     €r:   r"   ÚSqueezeBertForMaskedLM.__init__  s5   ø€ Ü‰Ñ˜Ô ä+¨FÓ3ˆÔÜ)¨&Ó1ˆŒð 	‰Õr<   c                 óB   • U R                   R                  R                  $ rY   )ra  r!  r  r  s    r:   Úget_output_embeddingsÚ,SqueezeBertForMaskedLM.get_output_embeddings&  s   € Øx‰x×#Ñ#×+Ñ+Ð+r<   c                 ó‚   • XR                   R                  l        UR                  U R                   R                  l        g rY   )ra  r!  r  r  rE  s     r:   Úset_output_embeddingsÚ,SqueezeBertForMaskedLM.set_output_embeddings)  s*   € Ø'5‰×ÑÔ$Ø$2×$7Ñ$7ˆ‰×ÑÕ!r<   rD   rµ   rE   r   rñ   rF   Úlabelsr¶   rò   ró   r  c                 óž  • U
b  U
OU R                   R                  n
U R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nSnUbF  [	        5       nU" UR                  SU R                   R                  5      UR                  S5      5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )az  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should be in `[-100, 0, ...,
    config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are ignored (masked), the
    loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`
N©rµ   rE   r   rñ   rF   r¶   rò   ró   r   r   rh   ©ÚlossÚlogitsr   rí   )
r8   rR  r*  ra  r   r¤   r$   r   r   rí   )r7   rD   rµ   rE   r   rñ   rF   ri  r¶   rò   ró   Úoutputsr%  r&  Úmasked_lm_lossÚloss_fctr‰   s                    r:   rJ   ÚSqueezeBertForMaskedLM.forward-  sü   € ð( &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×"Ñ"ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð #ð 

ˆð " !™*ˆØ ŸH™H _Ó5ÐàˆØÑÜ'Ó)ˆHÙ%Ð&7×&<Ñ&<¸RÀÇÁ×AWÑAWÓ&XÐZ`×ZeÑZeÐfhÓZiÓjˆNæØ'Ð)¨G°A°B¨KÑ7ˆFØ3AÑ3M^Ð%¨Ñ.ÐYÐSYÐYäØØ$Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
r<   )ra  r*  ©
NNNNNNNNNN)rM   rN   rO   rP   Ú_tied_weights_keysr"   rd  rg  r   r   r3   r[  r]  r   rð   r   rJ   rR   rS   rT   s   @r:   r_  r_    s  ø† à:Ð<ZÐ[Ðõò,ò8ð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø)-Ø,0Ø/3Ø&*ñ2
à˜EŸL™LÑ)ð2
ð ! §¡Ñ.ð2
ð ! §¡Ñ.ð	2
ð
 ˜uŸ|™|Ñ,ð2
ð ˜EŸL™LÑ)ð2
ð   §¡Ñ-ð2
ð ˜Ÿ™Ñ&ð2
ð $ D™>ð2
ð ' t™nð2
ð ˜d‘^ð2
ð 
ˆunÐ$Ñ	%ô2
ó ö2
r<   r_  z£
    SqueezeBERT Model transformer with a sequence classification/regression head on top (a linear layer on top of the
    pooled output) e.g. for GLUE tasks.
    )Úcustom_introc                   óR  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	   S\\	   S\\	   S\
\\4   4S jj5       rSrU =r$ )Ú$SqueezeBertForSequenceClassificationic  c                 óP  >• [         TU ]  U5        UR                  U l        Xl        [	        U5      U l        [        R                  " UR                  5      U l	        [        R                  " UR                  U R                  R                  5      U l        U R                  5         g rY   )r!   r"   Ú
num_labelsr8   r:  r*  r   r/   r0   r1   rü   r-   Ú
classifierr>  r6   s     €r:   r"   Ú-SqueezeBertForSequenceClassification.__init__j  ss   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒØŒä+¨FÓ3ˆÔÜ—z’z &×"<Ñ"<Ó=ˆŒÜŸ)š) F×$6Ñ$6¸¿¹×8NÑ8NÓOˆŒð 	‰Õr<   rD   rµ   rE   r   rñ   rF   ri  r¶   rò   ró   r  c                 óR  • U
b  U
OU R                   R                  n
U R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nU R	                  U5      nSnUGbŽ  U R                   R
                  c‘  U R                  S:X  a  SU R                   l        OoU R                  S:”  aN  UR                  [        R                  :X  d  UR                  [        R                  :X  a  SU R                   l        OSU R                   l        U R                   R
                  S:X  aI  [        5       nU R                  S:X  a&  U" UR                  5       UR                  5       5      nOŒU" X×5      nOƒU R                   R
                  S:X  a=  [        5       nU" UR                  SU R                  5      UR                  S5      5      nO,U R                   R
                  S:X  a  [        5       nU" X×5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [!        UUUR"                  UR$                  S	9$ )
ae  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
Nrk  r   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationr   rh   rl  )r8   rR  r*  r1   rz  Úproblem_typery  r?   r3   rC   r”   r   Úsqueezer   r¤   r   r   r   rí   )r7   rD   rµ   rE   r   rñ   rF   ri  r¶   rò   ró   ro  r  rn  rm  rq  r‰   s                    r:   rJ   Ú,SqueezeBertForSequenceClassification.forwardv  sæ  € ð( &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×"Ñ"ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð #ð 

ˆð   ™
ˆàŸ™ ]Ó3ˆØ—‘ Ó/ˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/æØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r<   )rz  r8   r1   ry  r*  rs  )rM   rN   rO   rP   r"   r   r   r3   r[  r]  r   rð   r   rJ   rR   rS   rT   s   @r:   rw  rw  c  s  ø† õ
ð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø)-Ø,0Ø/3Ø&*ñF
à˜EŸL™LÑ)ðF
ð ! §¡Ñ.ðF
ð ! §¡Ñ.ð	F
ð
 ˜uŸ|™|Ñ,ðF
ð ˜EŸL™LÑ)ðF
ð   §¡Ñ-ðF
ð ˜Ÿ™Ñ&ðF
ð $ D™>ðF
ð ' t™nðF
ð ˜d‘^ðF
ð 
ˆuÐ.Ð.Ñ	/ôF
ó öF
r<   rw  c                   óR  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	   S\\	   S\\	   S\
\\4   4S jj5       rSrU =r$ )ÚSqueezeBertForMultipleChoiceiÀ  c                 óú   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  5      U l        [        R                  " UR                  S5      U l
        U R                  5         g )Nr   )r!   r"   r:  r*  r   r/   r0   r1   rü   r-   rz  r>  r6   s     €r:   r"   Ú%SqueezeBertForMultipleChoice.__init__Â  sW   ø€ Ü‰Ñ˜Ô ä+¨FÓ3ˆÔÜ—z’z &×"<Ñ"<Ó=ˆŒÜŸ)š) F×$6Ñ$6¸Ó:ˆŒð 	‰Õr<   rD   rµ   rE   r   rñ   rF   ri  r¶   rò   ró   r  c                 óZ  • U
b  U
OU R                   R                  n
Ub  UR                  S   OUR                  S   nUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb!  UR                  SUR	                  S5      5      OSnUb1  UR                  SUR	                  S5      UR	                  S5      5      OSnU R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nU R                  U5      nUR                  SU5      nSnUb  [        5       nU" X÷5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )a›  
input_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`):
    Indices of input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are input IDs?](../glossary#input-ids)
token_type_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*):
    Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0,
    1]`:

    - 0 corresponds to a *sentence A* token,
    - 1 corresponds to a *sentence B* token.

    [What are token type IDs?](../glossary#token-type-ids)
position_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*):
    Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
    config.max_position_embeddings - 1]`.

    [What are position IDs?](../glossary#position-ids)
inputs_embeds (`torch.FloatTensor` of shape `(batch_size, num_choices, sequence_length, hidden_size)`, *optional*):
    Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This
    is useful if you want more control over how to convert `input_ids` indices into associated vectors than the
    model's internal embedding lookup matrix.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the multiple choice classification loss. Indices should be in `[0, ...,
    num_choices-1]` where *num_choices* is the size of the second dimension of the input tensors. (see
    *input_ids* above)
Nr   r   éþÿÿÿrk  rh   rl  )r8   rR  Úshaper¤   rA   r*  r1   rz  r   r   r   rí   )r7   rD   rµ   rE   r   rñ   rF   ri  r¶   rò   ró   Únum_choicesro  r  rn  Úreshaped_logitsrm  rq  r‰   s                      r:   rJ   Ú$SqueezeBertForMultipleChoice.forwardÌ  sÞ  € ðX &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ,5Ñ,Ai—o‘o aÒ(À}×GZÑGZÐ[\ÑG]ˆà>GÑ>SI—N‘N 2 y§~¡~°bÓ'9Ô:ÐY]ˆ	ØM[ÑMg˜×,Ñ,¨R°×1DÑ1DÀRÓ1HÔIÐmqˆØM[ÑMg˜×,Ñ,¨R°×1DÑ1DÀRÓ1HÔIÐmqˆØGSÑG_|×(Ñ(¨¨\×->Ñ->¸rÓ-BÔCÐeiˆð Ñ(ð ×Ñ˜r =×#5Ñ#5°bÓ#9¸=×;MÑ;MÈbÓ;QÔRàð 	ð ×"Ñ"ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð #ð 

ˆð   ™
ˆàŸ™ ]Ó3ˆØ—‘ Ó/ˆØ Ÿ+™+ b¨+Ó6ˆàˆØÑÜ'Ó)ˆHÙ˜OÓ4ˆDæØ%Ð'¨'°!°"¨+Ñ5ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä(ØØ"Ø!×/Ñ/Ø×)Ñ)ñ	
ð 	
r<   )rz  r1   r*  rs  )rM   rN   rO   rP   r"   r   r   r3   r[  r]  r   rð   r   rJ   rR   rS   rT   s   @r:   r„  r„  À  s  ø† õð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø)-Ø,0Ø/3Ø&*ñX
à˜EŸL™LÑ)ðX
ð ! §¡Ñ.ðX
ð ! §¡Ñ.ð	X
ð
 ˜uŸ|™|Ñ,ðX
ð ˜EŸL™LÑ)ðX
ð   §¡Ñ-ðX
ð ˜Ÿ™Ñ&ðX
ð $ D™>ðX
ð ' t™nðX
ð ˜d‘^ðX
ð 
ˆuÐ/Ð/Ñ	0ôX
ó öX
r<   r„  c                   óR  ^ • \ rS rSrU 4S jr\          SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	   S\\	   S\\	   S\
\\4   4S jj5       rSrU =r$ )Ú!SqueezeBertForTokenClassificationi(  c                 ó0  >• [         TU ]  U5        UR                  U l        [        U5      U l        [
        R                  " UR                  5      U l        [
        R                  " UR                  UR                  5      U l        U R                  5         g rY   )r!   r"   ry  r:  r*  r   r/   r0   r1   rü   r-   rz  r>  r6   s     €r:   r"   Ú*SqueezeBertForTokenClassification.__init__*  sj   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä+¨FÓ3ˆÔÜ—z’z &×"<Ñ"<Ó=ˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰Õr<   rD   rµ   rE   r   rñ   rF   ri  r¶   rò   ró   r  c                 ó¬  • U
b  U
OU R                   R                  n
U R                  UUUUUUUU	U
S9	nUS   nU R                  U5      nU R	                  U5      nSnUb<  [        5       nU" UR                  SU R                  5      UR                  S5      5      nU
(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  S9$ )zÃ
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the token classification loss. Indices should be in `[0, ..., config.num_labels - 1]`.
Nrk  r   r   rh   rl  )r8   rR  r*  r1   rz  r   r¤   ry  r   r   rí   )r7   rD   rµ   rE   r   rñ   rF   ri  r¶   rò   ró   ro  r%  rn  rm  rq  r‰   s                    r:   rJ   Ú)SqueezeBertForTokenClassification.forward5  sø   € ð$ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×"Ñ"ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð #ð 

ˆð " !™*ˆàŸ,™, Ó7ˆØ—‘ Ó1ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯O©OÓ<¸f¿k¹kÈ"»oÓNˆDæØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r<   )rz  r1   ry  r*  rs  )rM   rN   rO   rP   r"   r   r   r3   r[  r]  r   rð   r   rJ   rR   rS   rT   s   @r:   rŽ  rŽ  (  sþ   ø† õ	ð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø)-Ø,0Ø/3Ø&*ñ2
à˜EŸL™LÑ)ð2
ð ! §¡Ñ.ð2
ð ! §¡Ñ.ð	2
ð
 ˜uŸ|™|Ñ,ð2
ð ˜EŸL™LÑ)ð2
ð   §¡Ñ-ð2
ð ˜Ÿ™Ñ&ð2
ð $ D™>ð2
ð ' t™nð2
ð ˜d‘^ð2
ð 
ˆuÐ+Ð+Ñ	,ô2
ó ö2
r<   rŽ  c                   ór  ^ • \ rS rSrU 4S jr\           SS\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\	   S\\	   S\\	   S\
\\4   4S jj5       rSrU =r$ )ÚSqueezeBertForQuestionAnsweringik  c                 óæ   >• [         TU ]  U5        UR                  U l        [        U5      U l        [
        R                  " UR                  UR                  5      U l        U R                  5         g rY   )
r!   r"   ry  r:  r*  r   rü   r-   Ú
qa_outputsr>  r6   s     €r:   r"   Ú(SqueezeBertForQuestionAnswering.__init__m  sT   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒä+¨FÓ3ˆÔÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð 	‰Õr<   rD   rµ   rE   r   rñ   rF   Ústart_positionsÚend_positionsr¶   rò   ró   r  c                 ó$  • Ub  UOU R                   R                  nU R                  UUUUUUU	U
US9	nUS   nU R                  U5      nUR	                  SSS9u  nnUR                  S5      R                  5       nUR                  S5      R                  5       nS nUb¶  Ub³  [        UR                  5       5      S:”  a  UR                  S5      n[        UR                  5       5      S:”  a  UR                  S5      nUR                  S5      nUR                  SU5      nUR                  SU5      n[        US9nU" X÷5      nU" UU5      nUU-   S-  nU(       d  UU4USS  -   nUb  U4U-   $ U$ [        UUUUR                  UR                  S9$ )	Nrk  r   r   r   r   )Úignore_indexrh   )rm  Ústart_logitsÚ
end_logitsr   rí   )r8   rR  r*  r–  Úsplitr  r­   rï   rA   Úclampr   r   r   rí   )r7   rD   rµ   rE   r   rñ   rF   r˜  r™  r¶   rò   ró   ro  r%  rn  rœ  r  Ú
total_lossÚignored_indexrq  Ú
start_lossÚend_lossr‰   s                          r:   rJ   Ú'SqueezeBertForQuestionAnswering.forwardw  sÂ  € ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà×"Ñ"ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ð #ð 

ˆð " !™*ˆà—‘ Ó1ˆØ#)§<¡<°°r <Ð#:Ñ ˆjØ#×+Ñ+¨BÓ/×:Ñ:Ó<ˆØ×'Ñ'¨Ó+×6Ñ6Ó8ˆ
àˆ
ØÑ&¨=Ñ+Dä?×'Ñ'Ó)Ó*¨QÓ.Ø"1×"9Ñ"9¸"Ó"=Ü=×%Ñ%Ó'Ó(¨1Ó,Ø -× 5Ñ 5°bÓ 9à(×-Ñ-¨aÓ0ˆMØ-×3Ñ3°A°}ÓEˆOØ)×/Ñ/°°=ÓAˆMä'°]ÑCˆHÙ! ,Ó@ˆJÙ 
¨MÓ:ˆHØ$ xÑ/°1Ñ4ˆJæØ" JÐ/°'¸!¸"°+Ñ=ˆFØ/9Ñ/EZM FÑ*ÐQÈ6ÐQä+ØØ%Ø!Ø!×/Ñ/Ø×)Ñ)ñ
ð 	
r<   )ry  r–  r*  )NNNNNNNNNNN)rM   rN   rO   rP   r"   r   r   r3   r[  r]  r   rð   r   rJ   rR   rS   rT   s   @r:   r”  r”  k  s  ø† õð ð -1Ø15Ø15Ø/3Ø,0Ø04Ø26Ø04Ø,0Ø/3Ø&*ñ>
à˜EŸL™LÑ)ð>
ð ! §¡Ñ.ð>
ð ! §¡Ñ.ð	>
ð
 ˜uŸ|™|Ñ,ð>
ð ˜EŸL™LÑ)ð>
ð   §¡Ñ-ð>
ð " %§,¡,Ñ/ð>
ð   §¡Ñ-ð>
ð $ D™>ð>
ð ' t™nð>
ð ˜d‘^ð>
ð 
ˆuÐ2Ð2Ñ	3ô>
ó ö>
r<   r”  )r_  r„  r”  rw  rŽ  r:  rÁ   r)  )5rQ   r³   Útypingr   r   r3   r   Útorch.nnr   r   r   Úactivationsr
   Úmodeling_outputsr   r   r   r   r   r   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_squeezebertr   Ú
get_loggerrM   ÚloggerÚModuler   rV   r,   rb   rm   rƒ   rŒ   rÁ   rÜ   rú   r  r  r  r)  r:  r_  rw  r„  rŽ  r”  Ú__all__r`   r<   r:   Ú<module>r°     sþ  ðñ !ã ß "ã Ý ß AÑ Aå !÷÷ ñ õ .÷õ 9ð 
×	Ò	˜HÓ	%€ô)˜BŸI™Iô )ôX(B—I‘Iô (ô("˜2Ÿ<™<ô "ô ˜2Ÿ9™9ô ô( R—Y‘Yô  ôW˜rŸy™yô Wôt'˜Ÿ	™	ô 'ôT:
˜Ÿ™ô :
ôz˜Ÿ	™	ô ô¨¯©ô ô" "§)¡)ô ô.!˜RŸY™Yô !ð ô% ó %ó ð%ð. ô[
Ð1ó [
ó ð[
ð| ôF
Ð7ó F
ó ðF
ñR ðñôT
Ð+Eó T
óðT
ðn ôd
Ð#=ó d
ó ðd
ðN ô?
Ð(Bó ?
ó ð?
ðD ôJ
Ð&@ó J
ó ðJ
òZ	r<   