ó
    <±hº˜  ã                   ó.  • S r SSKrSSKJrJr  SSKrSSKJr  SSKJr  SSK	J
r
  SSKJrJr  SS	KJr  SS
KJrJr  SSKJr  SSKJrJr  SSKJr  SSKJrJr  SSKJr  \R>                  " \ 5      r! " S S\RD                  5      r# " S S\RD                  5      r$ " S S\RJ                  5      r& " S S\RJ                  5      r' " S S\5      r(\ " S S\5      5       r) " S S\)5      r*\" SS 9 " S! S"\)5      5       r+\" S#S 9 " S$ S%\)\5      5       r,S%S/r-g)&z/PyTorch TrOCR decoder model (based on RoBERTa).é    N)ÚOptionalÚUnion)Únn)ÚCrossEntropyLossé   )ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)Ú_prepare_4d_attention_maskÚ!_prepare_4d_causal_attention_mask)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentions)ÚPreTrainedModel)Úauto_docstringÚloggingé   )ÚTrOCRConfigc                   ó€   ^ • \ rS rSrSrS\S\4U 4S jjrSS\R                  S\S\R                  4U 4S	 jjjr	S
r
U =r$ )ÚTrOCRLearnedPositionalEmbeddingé*   zF
This module learns positional embeddings up to a fixed maximum size.
Únum_embeddingsÚembedding_dimc                 óL   >• SU l         [        TU ]	  XR                   -   U5        g )Né   )ÚoffsetÚsuperÚ__init__)Úselfr   r   Ú	__class__s      €Ú`/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/trocr/modeling_trocr.pyr   Ú(TrOCRLearnedPositionalEmbedding.__init__/   s"   ø€ ð ˆŒÜ‰Ñ˜¯+©+Ñ5°}ÕEó    Ú	input_idsÚpast_key_values_lengthÚposition_idsc                 ó  >• Uc]  UR                   SS u  pE[        R                  " X"U-   [        R                  U R                  R
                  S9R                  US5      nOUR                  S5      n[        TU ]%  X0R                  -   5      $ )z3`input_ids' shape is expected to be [bsz x seqlen].Nr   )ÚdtypeÚdeviceéÿÿÿÿr   )ÚshapeÚtorchÚarangeÚlongÚweightr*   ÚexpandÚ	unsqueezer   Úforwardr   )r    r%   r&   r'   ÚbszÚseq_lenr!   s         €r"   r3   Ú'TrOCRLearnedPositionalEmbedding.forward5   s   ø€ ð ÑØ$Ÿ?™?¨2¨AÐ.‰LˆCÜ Ÿ<š<Ø&ÀÑ(HÔPU×PZÑPZÐcg×cnÑcn×cuÑcuñç‰fS˜"‹oñ ð (×1Ñ1°!Ó4ˆLä‰w‰˜|¯k©kÑ9Ó:Ð:r$   )r   )r   N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Úintr   r-   ÚTensorr3   Ú__static_attributes__Ú__classcell__©r!   s   @r"   r   r   *   sH   ø† ñðF sð F¸3÷ Fñ; §¡ð ;Àsð ;Ð^c×^jÑ^j÷ ;ö ;r$   r   c            
       ór   ^ • \ rS rSrSrSS\S\S\S\\   4U 4S jjjrS\	R                  4U 4S	 jjrS
rU =r$ )ÚTrOCRScaledWordEmbeddingéD   zT
This module overrides nn.Embeddings' forward by multiplying with embeddings scale.
r   r   Úpadding_idxÚembed_scalec                 ó2   >• [         TU ]  XU5        X@l        g ©N)r   r   rE   )r    r   r   rD   rE   r!   s        €r"   r   Ú!TrOCRScaledWordEmbedding.__init__I   s   ø€ Ü‰Ñ˜¸ÔDØ&Õr$   r%   c                 ó<   >• [         TU ]  U5      U R                  -  $ rG   )r   r3   rE   )r    r%   r!   s     €r"   r3   Ú TrOCRScaledWordEmbedding.forwardM   s   ø€ Ü‰w‰˜yÓ)¨D×,<Ñ,<Ñ<Ð<r$   ©rE   )ç      ð?)r7   r8   r9   r:   r;   r<   r   Úfloatr   r-   r=   r3   r>   r?   r@   s   @r"   rB   rB   D   sJ   ø† ññ' sð '¸3ð 'ÈSð 'Ð_gÐhmÑ_n÷ 'ð 'ð= §¡÷ =õ =r$   rB   c            	       óø   ^ • \ rS rSrSrSS\S\S\\   4U 4S jjjr\SS\S\S\\   4S jj5       r	\
R                  " 5       SS	\
R                  S
\4S jj5       r SS	\
R                  S\S
\\   4S jjrSrU =r$ )Ú"TrOCRSinusoidalPositionalEmbeddingéQ   zDThis module produces sinusoidal positional embeddings of any length.Únum_positionsr   rD   c                 óÂ   >• [         TU ]  5         SU l        X l        X0l        U R                  XU5      U l        U R                  S[        R                  " S5      5        g )Nr   Ú_float_tensorr   )
r   r   r   r   rD   Úget_embeddingÚweightsÚregister_bufferr-   ÚFloatTensor)r    rQ   r   rD   r!   s       €r"   r   Ú+TrOCRSinusoidalPositionalEmbedding.__init__T   sP   ø€ Ü‰ÑÔØˆŒØ*ÔØ&ÔØ×)Ñ)¨-ÈÓTˆŒØ×Ñ˜_¬e×.?Ò.?ÀÓ.BÕCr$   r   c                 óà  • US-  n[         R                  " S5      US-
  -  n[        R                  " [        R                  " U[        R
                  S9R                  5       U* -  5      n[        R                  " U [        R
                  S9R                  5       R                  S5      UR                  S5      -  n[        R                  " [        R                  " U5      [        R                  " U5      /SS9R                  U S5      nUS-  S:X  a,  [        R                  " U[        R                  " U S5      /SS9nUb  SXBSS24'   UR                  [        R                  " 5       5      $ )	z©
Build sinusoidal embeddings. This matches the implementation in tensor2tensor, but differs slightly from the
description in Section 3.5 of "Attention Is All You Need".
r   i'  r   )r)   r   ©Údimr+   N)ÚmathÚlogr-   Úexpr.   Úint64rM   r2   ÚcatÚsinÚcosÚviewÚzerosÚtoÚget_default_dtype)r   r   rD   Úhalf_dimÚembs        r"   rT   Ú0TrOCRSinusoidalPositionalEmbedding.get_embedding\   s  € ð ! AÑ%ˆÜhŠhu‹o ¨A¡Ñ.ˆÜiŠiœŸš X´U·[±[ÑA×GÑGÓIÈSÈDÑPÓQˆÜlŠl˜>´·±Ñ=×CÑCÓE×OÑOÐPQÓRÐUX×UbÑUbÐcdÓUeÑeˆÜiŠiœŸš 3›¬¯ª°3«Ð8¸aÑ@×EÑEÀnÐVXÓYˆØ˜1Ñ Ó!ä—)’)˜S¤%§+¢+¨n¸aÓ"@ÐAÀqÑIˆCØÑ"Ø"#ˆCšQÑàv‰v”e×-Ò-Ó/Ó0Ð0r$   r%   r&   c                 óJ  • UR                  5       u  p4U R                  XR                  U5      R                  UR                  5      nU R                  S-   U-   nU R
                  b  X`R
                  R                  S5      :”  a+  U R                  X`R                  U R                  5      U l        U R
                  R                  U R                  5      U l        U R
                  R                  SUR                  S5      5      R                  X4S5      R                  5       nU$ )Nr   r   r+   )ÚsizeÚ"create_position_ids_from_input_idsrD   re   r*   rU   rT   r   rS   Úindex_selectrc   Údetach)r    r%   r&   r4   r5   r'   Úmax_posÚxs           r"   r3   Ú*TrOCRSinusoidalPositionalEmbedding.forwardo   sé   € à —~‘~Ó'‰ˆà×>Ñ>¸y×JZÑJZÐ\rÓs×vÑvØ×Ñó
ˆð
 ×"Ñ" QÑ&¨Ñ0ˆØ<‰<Ñ 7¯\©\×->Ñ->¸qÓ-AÓ#Aà×-Ñ-¨g×7IÑ7IÈ4×K[ÑK[Ó\ˆDŒLØ—|‘|—‘ t×'9Ñ'9Ó:ˆŒàL‰L×%Ñ% a¨×):Ñ):¸2Ó)>Ó?×DÑDÀSÐSUÓV×]Ñ]Ó_ˆàˆr$   c                 óº   • UR                  U5      R                  5       n[        R                  " USS9R	                  U5      U-   U-  nUR                  5       U-   $ )z¸
Replace non-padding symbols with their position numbers. Position numbers begin at padding_idx+1. Padding
symbols are ignored. This is modified from fairseq's `utils.make_positions`.
r   rZ   )Úner<   r-   ÚcumsumÚtype_asr/   )r    r%   rD   r&   ÚmaskÚincremental_indicess         r"   rl   ÚETrOCRSinusoidalPositionalEmbedding.create_position_ids_from_input_ids‚   sW   € ð |‰|˜KÓ(×,Ñ,Ó.ˆÜ$Ÿ|š|¨D°aÑ8×@Ñ@ÀÓFÐI_Ñ_ÐcgÑgÐØ"×'Ñ'Ó)¨KÑ7Ð7r$   )r   r   rD   rU   rG   )r   )r7   r8   r9   r:   r;   r<   r   r   ÚstaticmethodrT   r-   Úno_gradr=   r3   rl   r>   r?   r@   s   @r"   rO   rO   Q   s¼   ø† ÙNñD cð D¸#ð DÈHÐUXÉM÷ Dð Dð ñ1 cð 1¸#ð 1ÈHÐUXÉMô 1ó ð1ð$ ‡]‚]ƒ_ñ §¡ð Àsô ó ðð& bcñ
8ØŸ™ð
8Ø47ð
8ØQYÐZ]ÑQ^÷
8ó 
8r$   rO   c                   ó¬  ^ • \ rS rSrSr       SS\S\S\\   S\\   S\\   S\\   S	\\   S
\\   S\\   4U 4S jjjr	      SS\
R                  S\\
R                     S\\   S\\
R                     S\\
R                     S\\   S\\
R                     S\\
R                  \\
R                     \\\
R                        4   4S jjrSrU =r$ )ÚTrOCRAttentioné   z>Multi-headed attention from 'Attention Is All You Need' paper.Ú	embed_dimÚ	num_headsÚkdimÚvdimÚdropoutÚ
is_decoderÚbiasÚis_cross_attentionÚ	layer_idxc                 ó2  >• [         TU ]  5         X l        Ub  UOUU l        Ub  UOUU l        X0l        X`l        X#-  U l        U R                  U-  U R                  :X  d  [        SU R                   SU S35      eU R                  S-  U l	        Xpl
        X l        [        R                  " U R                  X(S9U l        [        R                  " U R                  X(S9U l        [        R                  " X"US9U l        [        R                  " X"US9U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).g      à¿©r„   )r   r   r~   r€   r   r   r‚   Úhead_dimÚ
ValueErrorÚscalingrƒ   r†   r   ÚLinearÚk_projÚv_projÚq_projÚout_proj)r    Úconfigr~   r   r€   r   r‚   rƒ   r„   r…   r†   r!   s              €r"   r   ÚTrOCRAttention.__init__’   sñ   ø€ ô 	‰ÑÔØ"ŒØ Ñ,‘D°)ˆŒ	Ø Ñ,‘D°)ˆŒ	Ø"ŒØŒØ!Ñ.ˆŒØ—‘ 	Ñ)¨T¯^©^Ó;ÜØMÈdÏnÉnÐM]ð ^Ø;˜bð"óð ð —}‘} dÑ*ˆŒØ$ŒØ"Œä—i’i §	¡	¨9Ñ@ˆŒÜ—i’i §	¡	¨9Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒäŸ	š	 )¸TÑBˆr$   Úhidden_statesÚkey_value_statesÚpast_key_valueÚattention_maskÚlayer_head_maskÚoutput_attentionsÚcache_positionÚreturnc                 óØ
  • USLnUR                  5       u  pšnU R                  U5      U R                  -  nUb]  [        U[        5      (       aF  UR
                  R                  U R                  5      nU(       a  UR                  nOUR                  nOUnU(       a  UOUnU(       aQ  UbN  W(       aG  WR                  U R                     R                  nUR                  U R                     R                  nOãU R                  U5      nU R                  U5      nUR                  U	SU R                   U R"                  5      R%                  SS5      nUR                  U	SU R                   U R"                  5      R%                  SS5      nUbN  U(       d  UOSnWR'                  UUU R                  SU05      u  nnU(       a  SUR
                  U R                  '   XR                   -  SU R"                  4nUR                  XšU R                   U R"                  5      R%                  SS5      nUR(                  " U6 nUR(                  " U6 nUR(                  " U6 nUR                  S5      n[*        R,                  " UUR%                  SS5      5      nUR                  5       XR                   -  U
U4:w  a.  [/        SXR                   -  U
U4 SUR                  5        35      eUbz  UR                  5       U	SU
U4:w  a#  [/        S	U	SU
U4 SUR                  5        35      eUR                  XR                   U
U5      U-   nUR                  XR                   -  U
U5      n[0        R2                  R5                  USS
9nUbš  UR                  5       U R                   4:w  a*  [/        SU R                   4 SUR                  5        35      eUR                  SSSS5      UR                  XR                   U
U5      -  nUR                  XR                   -  U
U5      nU(       a=  UR                  XR                   U
U5      nUR                  XR                   -  U
U5      nOSn[0        R2                  R7                  UU R6                  U R8                  S9n[*        R,                  " UU5      nUR                  5       XR                   -  X R"                  4:w  a5  [/        SXR                   X R"                  4 SUR                  5        35      eUR                  XR                   X R"                  5      nUR%                  SS5      nUR)                  XšU5      nU R;                  U5      nUU4$ )z#Input shape: Batch x Time x ChannelNr+   r   r   r™   Tz$Attention weights should be of size z	, but is z!Attention mask should be of size rZ   z/Head mask for a single layer should be of size ©ÚpÚtrainingz `attn_output` should be of size )rk   r   r‹   Ú
isinstancer
   Ú
is_updatedÚgetr†   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesr   rŽ   rc   r   r‰   Ú	transposeÚupdateÚreshaper-   ÚbmmrŠ   r   Ú
functionalÚsoftmaxr‚   rž   r   )r    r“   r”   r•   r–   r—   r˜   r™   r…   r4   Útgt_lenr~   Úquery_statesr    Úcurr_past_key_valueÚcurrent_statesÚ
key_statesÚvalue_statesÚ
proj_shapeÚsrc_lenÚattn_weightsÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                           r"   r3   ÚTrOCRAttention.forwardµ   s  € ð .°TÐ9ÐØ"/×"4Ñ"4Ó"6Ñˆið —{‘{ =Ó1°D·L±LÑ@ˆàÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ-?Ñ)À]ˆÞ .Ñ"<Æà,×3Ñ3°D·N±NÑC×HÑHˆJØ.×5Ñ5°d·n±nÑE×LÑL‰LàŸ™ ^Ó4ˆJØŸ;™; ~Ó6ˆLØ#Ÿ™¨¨b°$·.±.À$Ç-Á-ÓP×ZÑZÐ[\Ð^_Ó`ˆJØ'×,Ñ,¨S°"°d·n±nÀdÇmÁmÓT×^Ñ^Ð_`ÐbcÓdˆLàÑ)æ7I¡ÈtØ+>×+EÑ+EØ ¨d¯n©nÐ?OÐQ_Ð>`ó,Ñ(
˜Lö &Ø@DN×-Ñ-¨d¯n©nÑ=àŸN™NÑ*¨B°·±Ð>ˆ
Ø#×(Ñ(¨°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØ#×+Ò+¨ZÐ8ˆØ×'Ò'¨Ð4ˆ
Ø#×+Ò+¨ZÐ8ˆà—/‘/ !Ó$ˆÜ—y’y ¨z×/CÑ/CÀAÀqÓ/IÓJˆà×ÑÓ 3¯©Ñ#7¸À'Ð"JÓJÜØ6¸¿n¹nÑ8LÈgÐW^Ð7_Ð6`ð aØ ×%Ñ%Ó'Ð(ð*óð ð
 Ñ%Ø×"Ñ"Ó$¨¨a°¸'Ð(BÓBÜ Ø7¸¸aÀÈ'Ð8RÐ7SÐS\Ð]k×]pÑ]pÓ]rÐ\sÐtóð ð (×,Ñ,¨S·.±.À'È7ÓSÐVdÑdˆLØ'×,Ñ,¨S·>±>Ñ-AÀ7ÈGÓTˆLä—}‘}×,Ñ,¨\¸rÐ,ÐBˆàÑ&Ø×#Ñ#Ó%¨$¯.©.Ð):Ó:Ü ØEÀtÇ~Á~ÐFWÐEXð YØ'×,Ñ,Ó.Ð/ð1óð ð +×/Ñ/°°2°q¸!Ó<¸|×?PÑ?PÐQT×VdÑVdÐfmÐovÓ?wÑwˆLØ'×,Ñ,¨S·>±>Ñ-AÀ7ÈGÓTˆLæð
 %1×$5Ñ$5°c¿>¹>È7ÐT[Ó$\Ð!Ø0×5Ñ5°c¿N¹NÑ6JÈGÐU\Ó]‰Là$(Ð!ä—]‘]×*Ñ*¨<¸4¿<¹<ÐRV×R_ÑR_Ð*Ð`ˆ
ä—i’i 
¨LÓ9ˆà×ÑÓ #¯©Ñ"6¸ÇÁÐ!OÓOÜØ2°C¿¹È×R_ÑR_Ð3`Ð2að bØ×$Ñ$Ó&Ð'ð)óð ð
 "×&Ñ& s¯N©N¸GÇ]Á]ÓSˆØ!×+Ñ+¨A¨qÓ1ˆØ!×)Ñ)¨#¸	ÓBˆà—m‘m KÓ0ˆàÐ1Ð1Ð1r$   )r‚   r~   r‰   rƒ   r   r€   r†   r   r   r   r‹   rŽ   r   )NNç        FTFN)NNNNFN)r7   r8   r9   r:   r;   r<   r   rM   Úboolr   r-   r=   r	   Útupler3   r>   r?   r@   s   @r"   r|   r|      sv  ø† ÙHð #Ø"Ø#&Ø%*Ø#Ø-2Ø$(ñ!Cð ð!Cð ð	!Cð
 s‰mð!Cð s‰mð!Cð ˜%‘ð!Cð ˜T‘Nð!Cð t‰nð!Cð % T™Nð!Cð ˜D‘>÷!Cð !CðL 48Ø*.Ø15Ø26Ø,1Ø15ñp2à—|‘|ðp2ð # 5§<¡<Ñ0ðp2ð ! ™ð	p2ð
 ! §¡Ñ.ðp2ð " %§,¡,Ñ/ðp2ð $ D™>ðp2ð ! §¡Ñ.ðp2ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷p2ó p2r$   r|   c                   ó>  ^ • \ rS rSrSS\4U 4S jjjr         SS\R                  S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	   S\\
   S\\
   S\\R                     4S jjrSrU =r$ )ÚTrOCRDecoderLayeri(  r‘   c                 ój  >• [         TU ]  5         UR                  U l        [	        UU R                  UR
                  UR                  SUS9U l        UR                  U l        [        UR                     U l        UR                  U l        [        R                  " U R                  5      U l        UR                   (       am  [	        UU R                  UR
                  UR"                  UR"                  UR                  SSUS9	U l        [        R                  " U R                  5      U l        [        R(                  " U R                  UR*                  5      U l        [        R(                  " UR*                  U R                  5      U l        [        R                  " U R                  5      U l        g )NT)r~   r   r‚   rƒ   r†   )r~   r   r€   r   r‚   rƒ   r…   r†   )r   r   Úhidden_sizer~   r|   Údecoder_attention_headsÚattention_dropoutÚ	self_attnr‚   r   Úactivation_functionÚactivation_fnÚactivation_dropoutr   Ú	LayerNormÚself_attn_layer_normrƒ   Úcross_attention_hidden_sizeÚencoder_attnÚencoder_attn_layer_normrŒ   Údecoder_ffn_dimÚfc1Úfc2Úfinal_layer_norm)r    r‘   r†   r!   s      €r"   r   ÚTrOCRDecoderLayer.__init__)  s=  ø€ Ü‰ÑÔØ×+Ñ+ˆŒä'ØØ—n‘nØ×4Ñ4Ø×,Ñ,ØØñ
ˆŒð —~‘~ˆŒÜ# F×$>Ñ$>Ñ?ˆÔØ"(×";Ñ";ˆÔä$&§L¢L°·±Ó$@ˆÔ!à××Ü .ØØŸ.™.Ø ×8Ñ8Ø×7Ñ7Ø×7Ñ7Ø×0Ñ0ØØ#'Ø#ñ
!ˆDÔô ,.¯<ª<¸¿¹Ó+GˆDÔ(ä—9’9˜TŸ^™^¨V×-CÑ-CÓDˆŒÜ—9’9˜V×3Ñ3°T·^±^ÓDˆŒÜ "§¢¨T¯^©^Ó <ˆÕr$   r“   r–   Úencoder_hidden_statesÚencoder_attention_maskr—   Úcross_attn_layer_head_maskr•   r˜   Ú	use_cacher™   c           
      ó  • UnU R                  UUUUUU
S9u  p[        R                  R                  XR                  U R                  S9nX±-   nU R                  U5      nSnUb`  UnU R                  UUUUUUU
S9u  p[        R                  R                  XR                  U R                  S9nX±-   nU R                  U5      nUnU R                  U R                  U5      5      n[        R                  R                  XR                  U R                  S9nU R                  U5      n[        R                  R                  XR                  U R                  S9nX±-   nU R                  U5      nU4nU(       a  XìU4-  nU$ )a‡  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    encoder_hidden_states (`torch.FloatTensor`):
        cross attention input to the layer of shape `(batch, seq_len, embed_dim)`
    encoder_attention_mask (`torch.FloatTensor`): encoder attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
        `(encoder_attention_heads,)`.
    cross_attn_layer_head_mask (`torch.FloatTensor`): mask for cross-attention heads in a given layer of
        size *(decoder_attention_heads,)*.
    past_key_value (`Tuple(torch.FloatTensor)`): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
)r“   r•   r–   r—   r˜   r™   rœ   N)r“   r”   r–   r—   r•   r˜   r™   )rÃ   r   r«   r‚   rž   rÈ   rÊ   rË   rÅ   rÍ   rÆ   rÎ   rÏ   )r    r“   r–   rÑ   rÒ   r—   rÓ   r•   r˜   rÔ   r™   ÚresidualÚself_attn_weightsÚcross_attn_weightsÚoutputss                  r"   r3   ÚTrOCRDecoderLayer.forwardM  sž  € ð> !ˆð ,0¯>©>Ø'Ø)Ø)Ø+Ø/Ø)ð ,:ð ,
Ñ(ˆô Ÿ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆØ×1Ñ1°-Ó@ˆð "ÐØ Ñ,Ø$ˆHà04×0AÑ0AØ+Ø!6Ø5Ø :Ø-Ø"3Ø-ð 1Bð 1Ñ-ˆMô ŸM™M×1Ñ1°-Ç<Á<ÐZ^×ZgÑZgÐ1ÐhˆMØ$Ñ4ˆMØ ×8Ñ8¸ÓGˆMð !ˆØ×*Ñ*¨4¯8©8°MÓ+BÓCˆÜŸ™×-Ñ-¨m×?VÑ?VÐae×anÑanÐ-ÐoˆØŸ™ Ó/ˆäŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆØ×-Ñ-¨mÓ<ˆà Ð"ˆæØÐ+=Ð>Ñ>ˆGàˆr$   )rÆ   rÅ   r‚   r~   rÊ   rË   rÍ   rÎ   rÏ   rÃ   rÈ   rG   )	NNNNNNFTN)r7   r8   r9   r:   r   r   r-   r=   r   r	   r»   r3   r>   r?   r@   s   @r"   r¾   r¾   (  sð   ø† ñ"=˜{÷ "=ð "=ðN 26Ø8<Ø9=Ø26Ø=AØ*.Ø,1Ø$(Ø15ñQà—|‘|ðQð ! §¡Ñ.ðQð  (¨¯©Ñ5ð	Qð
 !)¨¯©Ñ 6ðQð " %§,¡,Ñ/ðQð %-¨U¯\©\Ñ$:ðQð ! ™ðQð $ D™>ðQð ˜D‘>ðQð ! §¡Ñ.÷Qó Qr$   r¾   c                   ó4   • \ rS rSr% \\S'   SrSrS/rS r	Sr
g)	ÚTrOCRPreTrainedModeli¡  r‘   ÚmodelTr¾   c                 óB  • U R                   R                  n[        U[        R                  [        R
                  45      (       aW  UR                  R                  R                  SUS9  UR                  b%  UR                  R                  R                  5         g g [        U[        R                  5      (       ad  UR                  R                  R                  SUS9  UR                  b2  UR                  R                  UR                     R                  5         g g g )Nrº   )ÚmeanÚstd)r‘   Úinit_stdrŸ   r   rŒ   ÚConv1dr0   ÚdataÚnormal_r„   Úzero_Ú	EmbeddingrD   )r    Úmodulerà   s      r"   Ú_init_weightsÚ"TrOCRPreTrainedModel._init_weights¨  sÒ   € Øk‰k×"Ñ"ˆÜfœrŸy™y¬"¯)©)Ð4×5Ñ5ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ð .r$   © N)r7   r8   r9   r:   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesrè   r>   rê   r$   r"   rÜ   rÜ   ¡  s"   ‡ àÓØÐØ&*Ð#Ø,Ð-Ðõ	?r$   rÜ   c                   óX   ^ • \ rS rSrSrS\4U 4S jjr             SS jrSrU =r	$ )ÚTrOCRDecoderi´  zˆ
Transformer decoder consisting of *config.decoder_layers* layers. Each layer is a [`TrOCRDecoderLayer`]

Args:
    config: TrOCRConfig
r‘   c           
      óz  >• [         TU ]  U5        UR                  U l        UR                  U l        UR
                  U l        UR                  (       a   [        R                  " UR                  5      OSn[        UR                  UR                  U R                  US9U l        UR                  (       a&  [        UR                   UR                  5      U l        O@[%        UR                   U R                  -   S-   UR                  U R                  5      U l        UR&                  (       a&  [(        R*                  " UR                  5      U l        OS U l        [(        R,                  " [/        UR0                  5       Vs/ sH  n[3        XS9PM     sn5      U l        SU l        U R9                  5         g s  snf )NrL   rK   r   )r†   F)r   r   r‚   Údecoder_layerdropÚ	layerdropÚpad_token_idrD   Úscale_embeddingr\   ÚsqrtrÀ   rB   Ú
vocab_sizeÚembed_tokensÚuse_learned_position_embeddingsr   Úmax_position_embeddingsÚembed_positionsrO   Úlayernorm_embeddingr   rÇ   Ú
ModuleListÚrangeÚdecoder_layersr¾   r¤   Úgradient_checkpointingÚ	post_init)r    r‘   rE   Úir!   s       €r"   r   ÚTrOCRDecoder.__init__¼  sT  ø€ Ü‰Ñ˜Ô Ø—~‘~ˆŒØ×1Ñ1ˆŒØ!×.Ñ.ˆÔØ7=×7M×7M”d—i’i × 2Ñ 2Ô3ÐSVˆä4Ø×Ñ˜v×1Ñ1°4×3CÑ3CÐQ\ñ
ˆÔð ×1×1Ü#BÀ6×CaÑCaÐci×cuÑcuÓ#vˆDÕ ä#EØ×.Ñ.°×1AÑ1AÑAÀAÑEØ×"Ñ"Ø× Ñ ó$ˆDÔ ð ×%×%Ü')§|¢|°F×4FÑ4FÓ'GˆDÕ$à'+ˆDÔ$ä—m’mÔUZÐ[a×[pÑ[pÔUqÓ$rÑUqÐPQÔ%6°vÔ%KÑUqÑ$rÓsˆŒà&+ˆÔ#à‰Õùò	 %ss   ÆF8c                 óÔ  • U
b  U
OU R                   R                  n
Ub  UOU R                   R                  nU	b  U	OU R                   R                  n	Ub  UOU R                   R                  nUb  Ub  [        S5      eUb"  UnUR                  SUR                  S   5      nO.Ub   UR                  5       SS nUSS2SS2S4   nO[        S5      eU R                  (       a/  U R                  (       a  U	(       a  [        R                  S5        Sn	SnU	(       aB  [        U[        5      (       d-  [        R                  S5        Sn[        R                   " U5      nUb  UR#                  5       OS	nUc  U R%                  U5      nU R                   R&                  (       a  U R)                  UUS
9nOU R)                  UUS
9nUU-   nU R*                  b  U R+                  U5      n[,        R.                  R1                  UU R0                  U R                  S9nUR                  n[3        X/UU5      nUb  Ub  [5        XHR6                  US   S9nU(       a  SOSnU
(       a  SOSnU
(       a  Ub  SOSn[9        XV/SS/5       Hn  u  nnUc  M  UR                  5       S	   [;        U R<                  5      :w  d  M7  [        SU S[;        U R<                  5       SUR                  5       S	    S35      e   [?        U R<                  5       H  u  nnU(       a  UU4-  nU R                  (       a(  [@        RB                  " / 5      nUU RD                  :  a  ML  U" UUUUUb  UU   OSUb  UU   OSUU
U	US9
nUS	   nU
(       d  My  UUS   4-  nUc  M‡  UUS   4-  nM’     U(       a  UU4-  nU(       a  URG                  5       nU(       d  [I        S UUUUU4 5       5      $ [K        UUUUUS9$ )aa  
Args:
    input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
        Indices of input sequence tokens in the vocabulary. Padding will be ignored by default should you
        provide it.

        Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
        [`PreTrainedTokenizer.__call__`] for details.

        [What are input IDs?](../glossary#input-ids)
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
        Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention
        of the decoder.
    encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
        Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
        selected in `[0, 1]`:

        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.

        [What are attention masks?](../glossary#attention-mask)
    head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
        Mask to nullify selected heads of the attention modules. Mask values selected in `[0, 1]`:

        - 1 indicates the head is **not masked**,
        - 0 indicates the head is **masked**.

    cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
        Mask to nullify selected heads of the attention modules in encoder to avoid performing cross-attention
        on hidden heads. Mask values selected in `[0, 1]`:

        - 1 indicates the head is **not masked**,
        - 0 indicates the head is **masked**.

    past_key_values (`tuple(tuple(torch.FloatTensor))`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
        Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of
        shape `(batch_size, num_heads, sequence_length, embed_size_per_head)`) and 2 additional tensors of
        shape `(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)`.

        Contains pre-computed hidden-states (key and values in the self-attention blocks and in the
        cross-attention blocks) that can be used (see `past_key_values` input) to speed up sequential decoding.

        If `past_key_values` are used, the user can optionally input only the last `decoder_input_ids` (those
        that don't have their past key value states given to this model) of shape `(batch_size, 1)` instead of
        all `decoder_input_ids` of shape `(batch_size, sequence_length)`.
    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
        Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.
        This is useful if you want more control over how to convert `input_ids` indices into associated vectors
        than the model's internal embedding lookup matrix.
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
NzTYou cannot specify both decoder_input_ids and decoder_inputs_embeds at the same timer+   zEYou have to specify either decoder_input_ids or decoder_inputs_embedsz^`use_cache = True` is incompatible with gradient checkpointing. Setting `use_cache = False`...FzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.Tr   )r&   rœ   )r­   rê   Ú	head_maskÚcross_attn_head_maskzThe `z` should be specified for z layers, but it is for Ú.)rÒ   r—   rÓ   r•   r˜   rÔ   r™   r   r   c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7frG   rê   )Ú.0Úvs     r"   Ú	<genexpr>Ú'TrOCRDecoder.forward.<locals>.<genexpr>   s   é € ð árAØ÷ ‘Úrùs   ‚Œ	)Úlast_hidden_stateÚpast_key_valuesr“   Ú
attentionsÚcross_attentions)&r‘   r˜   Úoutput_hidden_statesrÔ   Úuse_return_dictrŠ   rc   r,   rk   r   rž   ÚloggerÚwarning_oncerŸ   r	   r
   Úfrom_legacy_cacheÚget_seq_lengthrø   rù   rû   rü   r   r«   r‚   r   r   r)   ÚzipÚlenr¤   Ú	enumerater-   Úrandró   Úto_legacy_cacher¼   r   )r    r%   r–   rÑ   rÒ   r  r  r  Úinputs_embedsrÔ   r˜   r  Úreturn_dictr™   ÚinputÚinput_shapeÚreturn_legacy_cacher&   Ú	embed_posr“   Úall_hidden_statesÚall_self_attnsÚall_cross_attentionsÚ	attn_maskÚ	mask_nameÚidxÚdecoder_layerÚdropout_probabilityÚlayer_outputss                                r"   r3   ÚTrOCRDecoder.forwardÛ  s%  € ðb 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ñ  ]Ñ%>ÜÐsÓtÐtØÑ"ØˆEØ!Ÿ™ r¨5¯;©;°r©?Ó;‰IØÑ&Ø'×,Ñ,Ó.¨s°Ð3ˆKØ!¢!¢Q¨ (Ñ+‰EäÐdÓeÐeà×&×&¨4¯=¯=ÞÜ×#Ñ#Øtôð "	à#ÐÞœZ¨¼×?Ñ?Ü×Ñð\ôð
 #'ÐÜ1×CÒCÀOÓTˆOàETÑE` ×!?Ñ!?Ô!AÐfgÐàÑ Ø ×-Ñ-¨iÓ8ˆMà;‰;×6×6Ø×,Ñ,¨UÐKaÐ,Ðb‰Ià×,Ñ,¨YÐOeÐ,ÐfˆIà%¨	Ñ1ˆà×#Ñ#Ñ/Ø ×4Ñ4°]ÓCˆMäŸ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-Ðdˆà—k‘kˆä:Ø¨Ð8Nó
ˆð
 !Ñ,Ð1GÑ1Sä%?Ø&×(;Ñ(;À[ÐQSÁ_ñ&Ð"ö
 #7™B¸DÐÞ0™°dˆÞ&7Ð<QÑ<]™rÐdhÐô %(¨Ð(IÈKÐYoÐKpÖ$qÑ ˆIyØÓ$Ø—>‘>Ó# AÑ&¬3¨t¯{©{Ó+;Õ<Ü$Ø 	˜{Ð*DÄSÈÏÉÓEUÐDVð WØ%ŸN™NÓ,¨QÑ/Ð0°ð3óð ñ %rô #,¨D¯K©KÖ"8ÑˆCæ#Ø! mÐ%5Ñ5Ð!Ø}}Ü&+§j¢j°£nÐ#Ø&¨¯©Ó7Ùá)ØØØ%Ø'=Ø3<Ñ3H ¨3¢ÈdØI]ÑIiÐ,@ÀÒ,EÐosØ.Ø"3Ø#Ø-ñˆMð *¨!Ñ,ˆMç Ð Ø =°Ñ#3Ð"5Ñ5à(Ó4Ø(¨]¸1Ñ-=Ð,?Ñ?Ò(ñ7 #9ö<  Ø -Ð!1Ñ1ÐæØ-×=Ñ=Ó?ˆOæÜñ à'¨Ð:KÈ^Ð]qÑróó ð ô
 9Ø+Ø+Ø+Ø%Ø1ñ
ð 	
r$   )r‚   rû   rø   r   ró   rü   r¤   rD   )NNNNNNNNNNNNN)
r7   r8   r9   r:   r;   r   r   r3   r>   r?   r@   s   @r"   rð   rð   ´  sJ   ø† ñð˜{÷ ðB ØØ"Ø#ØØ!ØØØØØ!ØØ÷P
ò P
r$   rð   a  
    The TrOCR Model with a language modeling head. Can be used for summarization.
    This wrapper class is a helper class to correctly load pretrained checkpoints when the causal language model is
    used in combination with the [`EncoderDecoderModel`] framework.
    )Úcustom_introc                   ó.   ^ • \ rS rSrU 4S jrS rSrU =r$ )ÚTrOCRDecoderWrapperi®  c                 óD   >• [         TU ]  U5        [        U5      U l        g rG   )r   r   rð   Údecoder©r    r‘   r!   s     €r"   r   ÚTrOCRDecoderWrapper.__init__¶  s   ø€ Ü‰Ñ˜Ô Ü# FÓ+ˆr$   c                 ó&   • U R                   " U0 UD6$ rG   ©r0  )r    ÚargsÚkwargss      r"   r3   ÚTrOCRDecoderWrapper.forwardº  s   € Ø|Š|˜TÐ, VÑ,Ð,r$   r4  )r7   r8   r9   r:   r   r3   r>   r?   r@   s   @r"   r.  r.  ®  s   ø† õ,÷-ð -r$   r.  zy
    The TrOCR Decoder with a language modeling head. Can be used as the decoder part of [`EncoderDecoderModel`] and
    c            "       óô  ^ • \ rS rSrS/rU 4S jrS rS rS rS r	S r
S	 r\              SS
\\R                     S\\R                      S\\R"                     S\\R                     S\\R                      S\\R                      S\\\\R"                           S\\R"                     S\\R                     S\\   S\\   S\\   S\\   S\\R                      S\\\4   4S jj5       rSrU =r$ )ÚTrOCRForCausalLMi¾  zoutput_projection.weightc                 óÞ   >• SUl         SUl        [        TU ]  U5        [	        U5      U l        [        R                  " UR                  UR                  SS9U l
        U R                  5         g )NTFrˆ   )rƒ   Úis_encoder_decoderr   r   r.  rÝ   r   rŒ   rÀ   r÷   Úoutput_projectionr  r1  s     €r"   r   ÚTrOCRForCausalLM.__init__Æ  sZ   ø€ Ø ˆÔØ$)ˆÔ!Ü‰Ñ˜Ô Ü(¨Ó0ˆŒ
ä!#§¢¨6×+=Ñ+=¸v×?PÑ?PÐW\Ñ!]ˆÔð 	‰Õr$   c                 óB   • U R                   R                  R                  $ rG   ©rÝ   r0  rø   ©r    s    r"   Úget_input_embeddingsÚ%TrOCRForCausalLM.get_input_embeddingsÑ  s   € Øz‰z×!Ñ!×.Ñ.Ð.r$   c                 ó8   • XR                   R                  l        g rG   r?  )r    Úvalues     r"   Úset_input_embeddingsÚ%TrOCRForCausalLM.set_input_embeddingsÔ  s   € Ø*/
‰
×ÑÕ'r$   c                 ó   • U R                   $ rG   ©r<  r@  s    r"   Úget_output_embeddingsÚ&TrOCRForCausalLM.get_output_embeddings×  s   € Ø×%Ñ%Ð%r$   c                 ó   • Xl         g rG   rH  )r    Únew_embeddingss     r"   Úset_output_embeddingsÚ&TrOCRForCausalLM.set_output_embeddingsÚ  s   € Ø!/Õr$   c                 ó$   • XR                   l        g rG   ©rÝ   r0  )r    r0  s     r"   Úset_decoderÚTrOCRForCausalLM.set_decoderÝ  s   € Ø$
‰
Õr$   c                 ó.   • U R                   R                  $ rG   rP  r@  s    r"   Úget_decoderÚTrOCRForCausalLM.get_decoderà  s   € Øz‰z×!Ñ!Ð!r$   r%   r–   rÑ   rÒ   r  r  r  r  ÚlabelsrÔ   r˜   r  r  r™   rš   c                 óN  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R                  R                  UUUUUUUUU
UUUUS9nU R                  US   5      nSnU	bF  [        5       nU" UR                  SU R                   R                  5      U	R                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  S9$ )aŠ	  
cross_attn_head_mask (`torch.Tensor` of shape `(decoder_layers, decoder_attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

Example:

```python
>>> from transformers import (
...     TrOCRConfig,
...     TrOCRProcessor,
...     TrOCRForCausalLM,
...     ViTConfig,
...     ViTModel,
...     VisionEncoderDecoderModel,
... )
>>> import requests
>>> from PIL import Image

>>> # TrOCR is a decoder model and should be used within a VisionEncoderDecoderModel
>>> # init vision2text model with random weights
>>> encoder = ViTModel(ViTConfig())
>>> decoder = TrOCRForCausalLM(TrOCRConfig())
>>> model = VisionEncoderDecoderModel(encoder=encoder, decoder=decoder)

>>> # If you want to start from the pretrained model, load the checkpoint with `VisionEncoderDecoderModel`
>>> processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
>>> model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")

>>> # load image from the IAM dataset
>>> url = "https://fki.tic.heia-fr.ch/static/img/a01-122-02.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
>>> pixel_values = processor(image, return_tensors="pt").pixel_values
>>> text = "industry, ' Mr. Brown commented icily. ' Let us have a"

>>> # training
>>> model.config.decoder_start_token_id = processor.tokenizer.eos_token_id
>>> model.config.pad_token_id = processor.tokenizer.pad_token_id
>>> model.config.vocab_size = model.config.decoder.vocab_size

>>> labels = processor.tokenizer(text, return_tensors="pt").input_ids
>>> outputs = model(pixel_values, labels=labels)
>>> loss = outputs.loss
>>> round(loss.item(), 2)
5.30

>>> # inference
>>> generated_ids = model.generate(pixel_values)
>>> generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> generated_text
'industry, " Mr. Brown commented icily. " Let us have a'
```N)r%   r–   rÑ   rÒ   r  r  r  r  rÔ   r˜   r  r  r™   r   r+   r   )ÚlossÚlogitsr  r“   r  r  )r‘   r˜   r  r  rÝ   r0  r<  r   rc   r÷   r   r  r“   r  r  )r    r%   r–   rÑ   rÒ   r  r  r  r  rV  rÔ   r˜   r  r  r™   rÙ   rY  rX  Úloss_fctÚoutputs                       r"   r3   ÚTrOCRForCausalLM.forwardã  sK  € ðZ 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*‘*×$Ñ$ØØ)Ø"7Ø#9ØØ!5Ø+Ø'ØØ/Ø!5Ø#Ø)ð %ð 
ˆð  ×'Ñ'¨°©
Ó3ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯K©K×,BÑ,BÓCÀVÇ[Á[ÐQSÃ_ÓUˆDæØY ¨¨ Ñ,ˆFØ'+Ñ'7D7˜VÑ#ÐC¸VÐCä0ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ñ
ð 	
r$   )rÝ   r<  )NNNNNNNNNNNNNN)r7   r8   r9   r:   Ú_tied_weights_keysr   rA  rE  rI  rM  rQ  rT  r   r   r-   Ú
LongTensorr=   rW   r¼   r»   r   r   r3   r>   r?   r@   s   @r"   r9  r9  ¾  s¡  ø† ð 5Ð5Ðõ	ò/ò0ò&ò0ò%ò"ð ð 15Ø15Ø=AØ=AØ,0Ø7;ØEIØ59Ø-1Ø$(Ø,0Ø/3Ø&*Ø15ñu
à˜E×,Ñ,Ñ-ðu
ð ! §¡Ñ.ðu
ð  (¨×(9Ñ(9Ñ:ð	u
ð
 !)¨×)9Ñ)9Ñ :ðu
ð ˜EŸL™LÑ)ðu
ð ' u§|¡|Ñ4ðu
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðu
ð   × 1Ñ 1Ñ2ðu
ð ˜×)Ñ)Ñ*ðu
ð ˜D‘>ðu
ð $ D™>ðu
ð ' t™nðu
ð ˜d‘^ðu
ð ! §¡Ñ.ðu
ð  
ˆuÐ7Ð7Ñ	8ô!u
ó öu
r$   r9  ).r;   r\   Útypingr   r   r-   r   Útorch.nnr   Úactivationsr   Úcache_utilsr	   r
   Ú
generationr   Úmodeling_attn_mask_utilsr   r   Úmodeling_layersr   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_trocrr   Ú
get_loggerr7   r  ræ   r   rB   ÚModulerO   r|   r¾   rÜ   rð   r.  r9  Ú__all__rê   r$   r"   Ú<module>rm     s(  ðñ 6ã ß "ã Ý Ý %å !ß 5Ý )÷õ :ß lÝ -ß ,Ý ,ð 
×	Ò	˜HÓ	%€ô; b§l¡lô ;ô4
=˜rŸ|™|ô 
=ô;8¨¯©ô ;8ô|V2R—Y‘Yô V2ôrvÐ2ô vðr ô?˜?ó ?ó ð?ô$w
Ð'ô w
ñt ðñô-Ð.ó -óð-ñ ðñô
V
Ð+¨_ó V
óð
V
ðr Ð5Ð
6r$   