ó
    <±h‘·  ã                   ó<  • S r SSKrSSKrSSKJrJrJr  SSKrSSKrSSKJ	r	  SSK
JrJrJr  SSKJr  SSKJrJr  SS	KJr  SS
KJr  SSKJrJrJr  SSKJr  SSKJrJrJ r   SSK!J"r"J#r#J$r$  SSK%J&r&  \#RN                  " \(5      r)S r* " S S\	RV                  5      r, " S S\	RV                  5      r- " S S\	RV                  5      r. " S S\5      r/\" " S S\5      5       r0\" " S S\05      5       r1\"" SS9 " S  S!\0\5      5       r2\"" S"S9 " S# S$\05      5       r3/ S%Qr4g)&zPyTorch OpenAI ImageGPT model.é    N)ÚAnyÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentionsÚ SequenceClassifierOutputWithPast)ÚPreTrainedModel)ÚConv1DÚ find_pruneable_heads_and_indicesÚprune_conv1d_layer)Úauto_docstringÚloggingÚtorch_floaté   )ÚImageGPTConfigc                 ó$  •  SSK nSSKn[
        R                  R                  U5      n[        R                  SU 35        UR                  R                  U5      n/ n/ nU Hk  u  pš[        R                  SU	 SU
 35        UR                  R                  XY5      nUR                  U	5        UR                  UR                  5       5        Mm     [        Xx5       GHÍ  u  p›U	SS n	U	R                  S5      n	[!        S	 U	 5       5      (       d	  U	S
   S;   a5  [        R                  SR#                  SR%                  U	5      5      5        Mq  U nU	S
   S;  a  ['        US5      nU	 GHg  nUR)                  SU5      (       a  UR                  SU5      nOU/nUS   S:X  d	  US   S:X  a  ['        US5      nOóUS   S:X  a  ['        US5      nOÝUS   S:X  d	  US   S:X  a  ['        XÎS   5      n['        US5      nO°US   S;   a  ['        US5      n['        US5      nOŽ[+        U	5      S:X  a-  U	S   S:X  a$  US   S:X  a  ['        XÎS   5      n['        US5      nORUS   S:X  a  ['        US5      n['        US5      nO0US   S :X  a  ['        US5      n['        US5      nO['        XÎS   5      n[+        U5      S!:¼  d  GMU  [-        US   5      nXÏ   nGMj     [+        U	5      S:”  a	  U	S   S:X  d  U	S
   S:X  d  U	S
   S :X  d	  U	S
   S:X  a  O UR.                  UR.                  :X  d   e [        R                  S"U	 35        U	S
   S#:X  ad  [4        R6                  " UR9                  UR:                  UR:                  5      5      R<                  UR>                  SS2SUR:                  24'   GMÍ  U	S
   S$:X  aq  [4        R6                  " UR9                  UR:                  UR:                  5      5      R<                  UR>                  SS2UR:                  S!UR:                  -  24'   GMG  U	S
   S%:X  ag  [4        R6                  " UR9                  UR:                  UR:                  5      5      R<                  UR>                  SS2S!UR:                  -  S24'   GM·  [+        U	5      S:X  aT  U	S   S:X  aK  U	S!   S:X  aB  [4        R6                  " UR9                  UR:                  UR:                  5      5      Ul        GM  U	S
   S:X  a  [4        R6                  " U5      Ul        GMA  U	S
   S:X  a9  [4        R6                  " U5      UR>                  SUR@                  S-
  2SS24'   GMƒ  U	S
   S :X  a&  [4        R6                  " U5      UR>                  S
'   GM²  [4        R6                  " U5      Ul        GMÐ     U $ ! [         a    [        R	                  S5        e f = f! [0         a1  nU=R2                  UR.                  UR.                  4-  sl        e SnAff = f)&z(
Load tf checkpoints in a pytorch model
r   Nz™Loading a TensorFlow model in PyTorch, requires TensorFlow to be installed. Please see https://www.tensorflow.org/install/ for installation instructions.z&Converting TensorFlow checkpoint from zLoading TF weight z with shape é   Ú/c              3   ó*   #   • U H
  nUS ;   v •  M     g7f))Úadam_vÚadam_mÚAdamWeightDecayOptimizerÚAdamWeightDecayOptimizer_1Úglobal_stepN© )Ú.0Úns     Úf/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/imagegpt/modeling_imagegpt.pyÚ	<genexpr>Ú.load_tf_weights_in_imagegpt.<locals>.<genexpr>Q   s   é € ð 
áð ÐnÖnÚùs   ‚éÿÿÿÿ)Ú_stepzSkipping {})ÚwtetÚtransformerz[A-Za-z]+\d+z(\d+)ÚwÚgÚweightÚbÚbiasÚwpeÚwte)Úq_projÚk_projÚv_projÚc_attnr
   r   ÚattnÚc_projr-   Úlm_headÚsosé   zInitialize PyTorch weight r6   r7   r8   )!ÚreÚ
tensorflowÚImportErrorÚloggerÚerrorÚosÚpathÚabspathÚinfoÚtrainÚlist_variablesÚload_variableÚappendÚsqueezeÚzipÚsplitÚanyÚformatÚjoinÚgetattrÚ	fullmatchÚlenÚintÚshapeÚAssertionErrorÚargsÚtorchÚ
from_numpyÚreshapeÚn_embdÚTÚdataÚ
vocab_size)ÚmodelÚconfigÚimagegpt_checkpoint_pathr?   ÚtfÚtf_pathÚ	init_varsÚnamesÚarraysÚnamerV   ÚarrayÚpointerÚm_nameÚscope_namesÚnumÚes                    r(   Úload_tf_weights_in_imagegptro   0   s`  € ð	Ûãô g‰go‰oÐ6Ó7€GÜ
‡KKÐ8¸¸	ÐBÔCà—‘×'Ñ'¨Ó0€IØ€EØ€Fã ‰ˆÜ‰Ð(¨¨¨l¸5¸'ÐBÔCØ—‘×&Ñ& wÓ5ˆØ‰TÔØ‰e—m‘m“oÖ&ñ	 !ô ˜5×)‰ˆØABˆxˆØz‰z˜#‹ˆô ñ 
áó
÷ 
ñ 
ð "‰X˜Ó"ÜK‰K˜×,Ñ,¨S¯X©X°d«^Ó<Ô=ÙàˆØ‰8˜8Ó#Ü˜g }Ó5ˆGäˆFØ|‰|˜O¨V×4Ñ4Ø Ÿh™h x°Ó8‘à%˜hà˜1‰~ Ó$¨°A©¸#Ó(=Ü! '¨8Ó4‘Ø˜Q‘ 3Ó&Ü! '¨6Ó2‘Ø˜Q‘ 5Ó(¨K¸©N¸eÓ,CÜ! '°q©>Ó:Ü! '¨8Ó4‘Ø˜Q‘Ð#AÓAÜ! '¨8Ó4Ü! '¨8Ó4‘ÜT“˜a“ D¨¡G¨vÓ$5¸+Àa¹.ÈHÓ:TÜ! '°q©>Ó:Ü! '¨8Ó4‘Ø˜Q‘ 6Ó)Ü! '¨9Ó5Ü! '¨8Ó4‘Ø˜Q‘ 5Ó(Ü! '¨5Ó1Ü! '¨8Ó4‘ä! '°q©>Ó:Ü;Ó 1Ö$Ü˜+ a™.Ó)Ø!™,“ñ; ô> ˆt‹9q‹=˜T !™W¨Ó.°$°r±(¸fÓ2DÈÈRÉÐTYÓHYÐ]aÐbdÑ]eÐinÓ]nØðØ—}‘}¨¯©Ó3Ð3Ñ3ô
 	‰Ð0°°Ð7Ô8à‰8xÓÜ/4×/?Ò/?ÀÇÁÈfÏmÉmÐ]c×]jÑ]jÓ@kÓ/l×/nÑ/nˆGL‰Lš˜O˜fŸm™m˜OÐ+Ô,Ø"‰X˜Ó!ÜAF×AQÒAQØ—‘˜fŸm™m¨V¯]©]Ó;óBç‰að L‰Lš˜FŸM™M¨A°·±Ñ,=Ð=Ð=Ô>ð "‰X˜Ó!Ü38×3CÒ3CÀEÇMÁMÐRX×R_ÑR_Ðag×anÑanÓDoÓ3p×3rÑ3rˆGL‰Lš˜A §¡Ñ-Ñ/Ð/Ô0Ü‹Y˜!‹^  Q¡¨6Ó 1°d¸1±gÀÓ6IÜ ×+Ò+¨E¯M©M¸&¿-¹-ÈÏÉÓ,WÓXˆGLØ"‰X˜ÓÜ ×+Ò+¨EÓ2ˆGLØ"‰X˜ÓÜ7<×7GÒ7GÈÓ7NˆGL‰LÐ0˜6×,Ñ,¨qÑ0Ð0²!Ð3Ô4Ø"‰X˜ÓÜ$×/Ò/°Ó6ˆGL‰L˜Ôä ×+Ò+¨EÓ2ˆGLñY *ð\ €LøôC ó Ü‰ðQô	
ð 	ðûôP "ó Ø—’˜7Ÿ=™=¨%¯+©+Ð6Ñ6•Øûðús#   ‚V0 ÌWÖ0!W×
X×,X
Ø
Xc                   óx   ^ • \ rS rSrS	S\\   S\4U 4S jjjrS\R                  S\R                  4S jr
SrU =r$ )
ÚImageGPTLayerNorméœ   Úhidden_sizeÚepsc                 óŒ   >• [         TU ]  5         X l        [        R                  " [
        R                  " U5      5      U l        g ©N)ÚsuperÚ__init__rt   r   Ú	ParameterrY   ÚTensorr1   )Úselfrs   rt   Ú	__class__s      €r(   rx   ÚImageGPTLayerNorm.__init__   s,   ø€ Ü‰ÑÔØŒÜ—l’l¤5§<¢<°Ó#<Ó=ˆó    ÚtensorÚreturnc           	      ó¾   • U[         R                  " [         R                  " [         R                  " U5      SSS9U R                  -   5      -  nXR
                  -  nU$ )Nr+   T)ÚaxisÚkeepdim)rY   ÚsqrtÚmeanÚsquarert   r1   )r{   r   s     r(   ÚforwardÚImageGPTLayerNorm.forward¢   sI   € àœ%Ÿ*š*¤U§Z¢Z´·²¸VÓ0DÈ2ÐW[Ñ%\Ð_c×_gÑ_gÑ%gÓhÑhˆØŸ+™+Ñ%ˆØˆr~   )rt   r1   )gñhãˆµøä>)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__ÚtuplerU   Úfloatrx   rY   rz   r‡   Ú__static_attributes__Ú__classcell__©r|   s   @r(   rq   rq   œ   s?   ø† ñ> E¨#¡Jð >°U÷ >ð >ð
˜eŸl™lð ¨u¯|©|÷ ò r~   rq   c                   óX  ^ • \ rS rSrSS\\   S\\   4U 4S jjjrS rSS jr	SS jr
S rS	 r        SS
\R                  S\\   S\\R                     S\\R                     S\\R                     S\\R                     S\\   S\\   S\\R                     S\4S jjrSrU =r$ )ÚImageGPTAttentioné©   Úis_cross_attentionÚ	layer_idxc           
      óø  >• [         TU ]  5         UR                  nU R                  S[        R
                  " [        R                  " XD4[        R                  S95      R                  SSXD5      SS9  U R                  S[        R                  " S5      SS9  UR                  U l        UR                  U l        U R                  U R                  -  U l        U R                  U l        U R                  U R                  -  U R                  :w  a&  [!        SU R                   S	U R                   S
35      eUR"                  U l        X l        UR&                  U l        X0l        UR*                  U l        U R$                  (       aN  [-        SU R                  -  U R                  5      U l        [-        U R                  U R                  5      U l        O([-        SU R                  -  U R                  5      U l        [-        U R                  U R                  5      U l        [4        R6                  " UR8                  5      U l        [4        R6                  " UR<                  5      U l        [A        5       U l!        g )Nr3   ©Údtyper   F)Ú
persistentÚmasked_biasg     ˆÃÀz=`embed_dim` must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).r>   r
   )"rw   rx   Úmax_position_embeddingsÚregister_bufferrY   ÚtrilÚonesÚboolÚviewr   rs   Ú	embed_dimÚnum_attention_headsÚ	num_headsÚhead_dimÚ
split_sizeÚ
ValueErrorÚscale_attn_weightsr•   Úscale_attn_by_inverse_layer_idxr–   Úreorder_and_upcast_attnr   r9   Úq_attnr;   r   ÚDropoutÚ
attn_pdropÚattn_dropoutÚresid_pdropÚresid_dropoutÚsetÚpruned_heads)r{   ra   r•   r–   Úmax_positionsr|   s        €r(   rx   ÚImageGPTAttention.__init__ª   så  ø€ Ü‰ÑÔà×6Ñ6ˆØ×ÑØÜJŠJ”u—z’z =Ð"@ÌÏ
É
ÑSÓT×YÑYØ1móð ð 	ñ 	
ð 	×Ñ˜]¬E¯LªL¸Ó,>È5ÐÑQà×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒØŸ.™.ˆŒØ=‰=˜4Ÿ>™>Ñ)¨T¯^©^Ó;ÜØOÐPT×P^ÑP^ÐO_ð `Ø—N‘NÐ# 2ð'óð ð
 #)×";Ñ";ˆÔØ"4Ôð 06×/UÑ/UˆÔ,Ø"ŒØ'-×'EÑ'EˆÔ$à×"×"Ü   T§^¡^Ñ!3°T·^±^ÓDˆDŒKÜ  §¡°·±Ó@ˆDKä   T§^¡^Ñ!3°T·^±^ÓDˆDŒKÜ˜TŸ^™^¨T¯^©^Ó<ˆŒäŸJšJ v×'8Ñ'8Ó9ˆÔÜŸZšZ¨×(:Ñ(:Ó;ˆÔä›EˆÕr~   c                 ó8  • [        U5      S:X  a  g [        XR                  U R                  U R                  5      u  p[
        R                  " X"U R                  -   USU R                  -  -   /5      n[        U R                  USS9U l	        [        U R                  USS9U l
        U R                  U R                  -  U R                  [        U5      -
  -  U l        U R                  [        U5      -
  U l        U R                  R                  U5      U l        g )Nr   r>   r   ©Údim)rT   r   r¤   r¥   r²   rY   Úcatr¦   r   r9   r;   Úunion)r{   ÚheadsÚindexÚ
index_attns       r(   Úprune_headsÚImageGPTAttention.prune_headsÕ   sÛ   € Üˆu‹:˜‹?ØÜ7¸¿~¹~ÈtÏ}É}Ð^b×^oÑ^oÓp‰ˆÜ—Y’Y ¨t¯©Ñ'>ÀÈÈTÏ_É_ÑI\Ñ@]Ð^Ó_ˆ
ô )¨¯©°jÀaÑHˆŒÜ(¨¯©°eÀÑCˆŒð  Ÿ?™?¨d¯n©nÑ<ÀÇÁÔRUÐV[ÓR\ÑA\Ñ]ˆŒØŸ™¬#¨e«*Ñ4ˆŒØ ×-Ñ-×3Ñ3°EÓ:ˆÕr~   c                 óT  • [         R                  " XR                  SS5      5      nU R                  (       a   U[	        UR                  S5      S-  5      -  nU R                  (       a  U[        U R                  S-   5      -  nU R                  (       d¨  UR                  S5      UR                  S5      p‡U R                  S S 2S S 2X‡-
  U2S U24   n	[         R                  " UR                  5      R                  n
[         R                  " X¦R                  UR                  S9n
[         R                   " X–U
5      nUb  Xd-   n["        R$                  " SS9" U5      nUR'                  UR                  5      nU R)                  U5      nUb  Xe-  n[         R                  " Xc5      nX¶4$ )Nr+   éþÿÿÿç      à?r   ©r™   Údevicer¶   )rY   ÚmatmulÚ	transposer¨   r   Úsizer©   rŽ   r–   r•   r3   Úfinfor™   Úminr   rÃ   Úwherer   ÚSoftmaxÚtyper®   )r{   ÚqueryÚkeyÚvalueÚattention_maskÚ	head_maskÚattn_weightsÚquery_lengthÚ
key_lengthÚcausal_maskÚ
mask_valueÚattn_outputs               r(   Ú_attnÚImageGPTAttention._attnä   s`  € Ü—|’| E¯=©=¸¸RÓ+@ÓAˆà×"×"Ø'¬+°e·j±jÀ³nÈÑ6KÓ*LÑLˆLð ×/×/Ø'¬%°·±ÀÑ0BÓ*CÑCˆLà×&×&à',§z¡z°"£~°s·x±xÀ³|˜*ØŸ)™)¢A¢q¨*Ñ*CÀjÐ*PÐR]ÐS]ÐR]Ð$]Ñ^ˆKÜŸš \×%7Ñ%7Ó8×<Ñ<ˆJô Ÿš j×8JÑ8JÐS_×SfÑSfÑgˆJÜ Ÿ;š; {À*ÓMˆLàÑ%à'Ñ8ˆLä—z’z bÒ)¨,Ó7ˆð $×(Ñ(¨¯©Ó5ˆØ×(Ñ(¨Ó6ˆð Ñ Ø'Ñ3ˆLä—l’l <Ó7ˆàÐ(Ð(r~   c           	      ó  • UR                  5       u  pgp‰UR                  5       u    p«n
[        R                  " Xg-  X‹[        R                  UR                  S9nSnU R
                  (       a   U[        UR                  S5      5      S-  -  nU R                  (       a  U[        U R                  S-   5      -  n[        R                  " UR                  R                  SS9   UR                  SX‰5      UR                  SS5      R                  SX›5      pþ[        R                  " XÎR                  5       UR                  5       S	US
9nUR                  XgX‹5      nS S S 5        U R                  (       d¬  UR                  S5      UR                  S5      nnU R                  S S 2S S 2UU-
  U2S U24   n[        R                   " UR"                  5      R$                  n[        R&                  " UUR"                  UR                  S9n[        R(                  " UUU5      nUb  XÄ-   n[*        R,                  " SS9" U5      nUR"                  [        R                  :w  a  [/        S5      eUR                  UR"                  5      nU R1                  U5      nUb  XÅ-  n[        R2                  " XÃ5      nUU4$ ! , (       d  f       GNc= f)NrÂ   ç      ð?r+   rÁ   r   F)ÚenabledrÀ   r   )ÚbetaÚalphar¶   zDError with upcasting, attn_weights does not have dtype torch.float32)rÆ   rY   ÚemptyÚfloat32rÃ   r¨   rŽ   r©   r–   ÚautocastrË   r[   rÅ   Úbaddbmmr•   r3   rÇ   r™   rÈ   r   rÉ   r   rÊ   ÚRuntimeErrorr®   rÄ   )r{   rÌ   rÍ   rÎ   rÏ   rÐ   Úbszr¤   Ú	q_seq_lenÚdkÚ_Ú	k_seq_lenrÑ   Úscale_factorÚqÚkrÒ   rÓ   rÔ   rÕ   rÖ   s                        r(   Ú_upcast_and_reordered_attnÚ,ImageGPTAttention._upcast_and_reordered_attn
  sG  € à(-¯
©
«Ñ%ˆ˜	Ø ŸX™X›ZÑˆˆ1˜ô —{’{ 3¡?°IÔPU×P]ÑP]Ðfk×frÑfrÑsˆð ˆØ×"×"ØœE %§*¡*¨R£.Ó1°SÑ8Ñ8ˆLà×/×/ØœE $§.¡.°1Ñ"4Ó5Ñ5ˆLô ^Š^˜EŸL™L×-Ñ-°uÓ=Ø—=‘=  YÓ3°S·]±]À2ÀrÓ5J×5RÑ5RÐSUÐWYÓ5eˆqÜ Ÿ=š=¨·w±w³yÀ!Ç'Á'Ã)ÐRSÐ[gÑhˆLØ'×/Ñ/°À	ÓUˆL÷ >ð
 ×&×&à',§z¡z°"£~°s·x±xÀ³|˜*ˆLØŸ)™)¢A¢q¨*°|Ñ*CÀjÐ*PÐR]ÐS]ÐR]Ð$]Ñ^ˆKÜŸš \×%7Ñ%7Ó8×<Ñ<ˆJô Ÿš j¸×8JÑ8JÐS_×SfÑSfÑgˆJÜ Ÿ;š; {°LÀ*ÓMˆLàÑ%à'Ñ8ˆLä—z’z bÒ)¨,Ó7ˆð ×Ñ¤§¡Ó.ÜÐeÓfÐfØ#×(Ñ(¨¯©Ó5ˆØ×(Ñ(¨Ó6ˆð Ñ Ø'Ñ3ˆLä—l’l <Ó7ˆà˜LÐ(Ð(÷C >Ö=ús   Ã!A9J6Ê6
Kc                 óv   • UR                  5       SS X#4-   nUR                  " U6 nUR                  SSSS5      $ )z:
Splits hidden_size dim into attn_head_size and num_heads
Nr+   r   r>   r   r
   )rÆ   r¡   Úpermute©r{   r   r¤   Úattn_head_sizeÚ	new_shapes        r(   Ú_split_headsÚImageGPTAttention._split_heads>  sA   € ð —K‘K“M # 2Ð&¨)Ð)DÑDˆ	Ø—’˜iÐ(ˆØ~‰~˜a  A qÓ)Ð)r~   c                 óš   • UR                  SSSS5      R                  5       nUR                  5       SS X#-  4-   nUR                  U5      $ )zC
Merges attn_head_size dim and num_attn_heads dim into hidden_size
r   r>   r   r
   NrÀ   )rî   Ú
contiguousrÆ   r¡   rï   s        r(   Ú_merge_headsÚImageGPTAttention._merge_headsF  sM   € ð —‘  1 a¨Ó+×6Ñ6Ó8ˆØ—K‘K“M # 2Ð&¨)Ñ*DÐ)FÑFˆ	Ø{‰{˜9Ó%Ð%r~   Úhidden_statesÚ
layer_pastrÏ   rÐ   Úencoder_hidden_statesÚencoder_attention_maskÚ	use_cacheÚoutput_attentionsÚcache_positionr€   c
                 óÌ  • US Ln
UR                   u  p¼nUb]  [        U[        5      (       aF  UR                  R	                  U R
                  5      nU
(       a  UR                  nOUR                  nOUnU
(       a  UOUnU
(       Ga-  [        U S5      (       d  [        S5      eUb`  W(       aY  U R                  U5      nWR                  U R
                     R                  nUR                  U R
                     R                  nGOKU R                  U5      nU R                  U5      R                  U R                   SS9u  nnUR#                  USU R$                  U R&                  5      R)                  SS5      nUR#                  USU R$                  U R&                  5      R)                  SS5      nOU R                  U5      R                  U R                   SS9u  nnnUR#                  USU R$                  U R&                  5      R)                  SS5      nUR#                  USU R$                  U R&                  5      R)                  SS5      nUbN  U
(       d  U	OS n	WR+                  UUU R
                  SU	05      u  nnU
(       a  SUR                  U R
                  '   UR#                  X¼U R$                  U R&                  5      R)                  SS5      nU R,                  (       a  U R/                  UUUX45      u  nnOU R1                  UUUX45      u  nnU R3                  UU R$                  U R&                  5      nU R5                  U5      nU R7                  U5      nUU4$ )	Nr«   z«If class is used as cross attention, the weights `q_attn` have to be defined. Please make sure to instantiate class with `ImageGPTAttention(..., is_cross_attention=True)`.r>   r¶   r+   r   rþ   T)rV   Ú
isinstancer   Ú
is_updatedÚgetr–   Úcross_attention_cacheÚself_attention_cacheÚhasattrr§   r«   ÚlayersÚkeysÚvaluesr9   rN   r¦   r¡   r¤   r¥   rÅ   Úupdaterª   rë   r×   rö   r;   r°   )r{   rø   rù   rÏ   rÐ   rú   rû   rü   rý   rþ   r•   rã   Úseq_lenræ   r  Úcurr_past_key_valueÚcurrent_statesrÌ   rÍ   rÎ   rÖ   rÑ   s                         r(   r‡   ÚImageGPTAttention.forwardN  sè  € ð 3¸$Ð>ÐØ'×-Ñ-‰ˆaàÑ!Ü˜*Ô&9×:Ñ:Ø'×2Ñ2×6Ñ6°t·~±~ÓF
Þ%à*4×*JÑ*JÑ'à*4×*IÑ*IÑ'à&0Ð#æ2DÑ.È-ˆßÜ˜4 ×*Ñ*Ü ðtóð ð
 Ñ%®*àŸ™ MÓ2Ø)×0Ñ0°·±Ñ@×EÑEØ+×2Ñ2°4·>±>ÑB×IÑI’àŸ™ MÓ2Ø!Ÿ[™[¨Ó8×>Ñ>¸t¿¹ÐTUÐ>ÐV‘
UØ—h‘h˜s B¨¯©¸¿¹ÓF×PÑPÐQRÐTUÓVØŸ
™
 3¨¨D¯N©N¸D¿M¹MÓJ×TÑTÐUVÐXYÓZ‘à $§¡¨NÓ ;× AÑ AÀ$Ç/Á/ÐWXÐ AÐ YÑˆE3˜Ø—(‘(˜3  D§N¡N°D·M±MÓB×LÑLÈQÐPQÓRˆCØ—J‘J˜s B¨¯©¸¿¹ÓF×PÑPÐQRÐTUÓVˆEàÑ!æ3E™^È4ˆNØ,×3Ñ3°C¸ÀÇÁÐQaÐcqÐPrÓs‰JˆCæ!Ø8<
×%Ñ% d§n¡nÑ5à—
‘
˜3¨¯©¸¿¹ÓG×QÑQÐRSÐUVÓWˆà×'×'Ø(,×(GÑ(GÈÈsÐTYÐ[iÓ(uÑ%ˆK™à(,¯
©
°5¸#¸uÀnÓ(`Ñ%ˆK˜à×'Ñ'¨°T·^±^ÀTÇ]Á]ÓSˆØ—k‘k +Ó.ˆØ×(Ñ(¨Ó5ˆà˜LÐ(Ð(r~   )r®   r9   r;   r¢   r¥   r•   r–   r¤   r²   r«   rª   r°   r©   r¨   r¦   )FN)NN©NNNNNFFN)r‰   rŠ   r‹   rŒ   r   r    rU   rx   r½   r×   rë   rò   rö   rY   rz   r   r   r‡   r   r   r‘   s   @r(   r“   r“   ©   s  ø† ñ)"°8¸D±>ð )"ÐV^Ð_bÑVc÷ )"ð )"òV;ô$)ôL2)òh*ò&ð '+Ø15Ø,0Ø8<Ø9=Ø$)Ø,1Ø15ñD)à—|‘|ðD)ð ˜U‘OðD)ð ! §¡Ñ.ð	D)ð
 ˜EŸL™LÑ)ðD)ð  (¨¯©Ñ5ðD)ð !)¨¯©Ñ 6ðD)ð ˜D‘>ðD)ð $ D™>ðD)ð ! §¡Ñ.ðD)ð 
÷D)ó D)r~   r“   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚImageGPTMLPi•  c                 óô   >• [         TU ]  5         UR                  n[        X5      U l        [        X15      U l        [        UR                     U l        [        R                  " UR                  5      U l        g rv   )rw   rx   rs   r   Úc_fcr;   r   Úactivation_functionÚactr   r¬   r¯   Údropout)r{   Úintermediate_sizera   r¢   r|   s       €r(   rx   ÚImageGPTMLP.__init__–  sZ   ø€ Ü‰ÑÔØ×&Ñ&ˆ	ÜÐ,Ó8ˆŒ	Ü˜YÓ:ˆŒÜ˜&×4Ñ4Ñ5ˆŒÜ—z’z &×"4Ñ"4Ó5ˆr~   rø   r€   c                 óŽ   • U R                  U5      nU R                  U5      nU R                  U5      nU R                  U5      nU$ rv   )r  r  r;   r  )r{   rø   s     r(   r‡   ÚImageGPTMLP.forwardž  s@   € ØŸ	™	 -Ó0ˆØŸ™ Ó/ˆØŸ™ MÓ2ˆØŸ™ ]Ó3ˆØÐr~   )r  r  r;   r  )
r‰   rŠ   r‹   rŒ   rx   rY   rz   r‡   r   r   r‘   s   @r(   r  r  •  s(   ø† õ6ð U§\¡\ð °e·l±l÷ ò r~   r  c                   ó  ^ • \ rS rSrSU 4S jjr        SS\R                  S\\   S\\R                     S\\R                     S\\R                     S\\R                     S	\\	   S
\\	   S\\R                     S\
4S jjrSrU =r$ )ÚImageGPTBlocki¦  c                 ó„  >• [         TU ]  5         UR                  nUR                  b  UR                  OSU-  n[	        X1R
                  S9U l        [        XS9U l        [	        X1R
                  S9U l	        UR                  (       a(  [        USUS9U l        [	        X1R
                  S9U l        [        XA5      U l        g )Né   ©rt   ©r–   T)r•   r–   )rw   rx   rs   Ún_innerrq   Úlayer_norm_epsilonÚln_1r“   r:   Úln_2Úadd_cross_attentionÚcrossattentionÚln_cross_attnr  Úmlp)r{   ra   r–   rs   Ú	inner_dimr|   s        €r(   rx   ÚImageGPTBlock.__init__§  s›   ø€ Ü‰ÑÔØ×(Ñ(ˆØ&,§n¡nÑ&@F—N’NÀaÈ+Áoˆ	ä% k×7PÑ7PÑQˆŒ	Ü% fÑBˆŒ	Ü% k×7PÑ7PÑQˆŒ	à×%×%Ü"3°FÈtÐ_hÑ"iˆDÔÜ!2°;×D]ÑD]Ñ!^ˆDÔä˜yÓ1ˆr~   rø   rù   rÏ   rÐ   rú   rû   rü   rý   rþ   r€   c
                 ó‚  • Un
U R                  U5      nU R                  UUUUUUU	S9nUS   nUSS  nXÊ-   nUbY  [        U S5      (       d  [        SU  S35      eUn
U R	                  U5      nU R                  UUUUUUUU	S9nUS   nX¬-   nXÞSS  -   nUn
U R                  U5      nU R                  U5      nX¯-   nU4U-   $ )N)rù   rÏ   rÐ   rü   rý   rþ   r   r   r%  z'If `encoder_hidden_states` are passed, z` has to be instantiated with cross-attention layers by setting `config.add_cross_attention=True`)rù   rÏ   rÐ   rú   rû   rý   rþ   )r"  r:   r  r§   r&  r%  r#  r'  )r{   rø   rù   rÏ   rÐ   rú   rû   rü   rý   rþ   ÚresidualÚattn_outputsrÖ   ÚoutputsÚcross_attn_outputsÚfeed_forward_hidden_statess                   r(   r‡   ÚImageGPTBlock.forward¶  s3  € ð !ˆØŸ	™	 -Ó0ˆØ—y‘yØØ!Ø)ØØØ/Ø)ð !ð 
ˆð # 1‘oˆØ˜q˜rÐ"ˆà#Ñ.ˆà Ñ,ä˜4Ð!1×2Ñ2Ü Ø=¸d¸Vð DZð Zóð ð %ˆHØ ×.Ñ.¨}Ó=ˆMØ!%×!4Ñ!4ØØ%Ø-Ø#Ø&;Ø'=Ø"3Ø-ð "5ð 	"Ðð -¨QÑ/ˆKà$Ñ2ˆMØ°1°2Ð 6Ñ6ˆGà ˆØŸ	™	 -Ó0ˆØ%)§X¡X¨mÓ%<Ð"à Ñ=ˆàÐ 'Ñ)Ð)r~   )r:   r%  r"  r#  r&  r'  rv   r  )r‰   rŠ   r‹   rŒ   rx   rY   rz   r   r   r    r   r‡   r   r   r‘   s   @r(   r  r  ¦  sË   ø† ÷2ð$ '+Ø15Ø,0Ø8<Ø9=Ø$)Ø,1Ø15ñ:*à—|‘|ð:*ð ˜U‘Oð:*ð ! §¡Ñ.ð	:*ð
 ˜EŸL™LÑ)ð:*ð  (¨¯©Ñ5ð:*ð !)¨¯©Ñ 6ð:*ð ˜D‘>ð:*ð $ D™>ð:*ð ! §¡Ñ.ð:*ð 
÷:*ó :*r~   r  c                   óP   ^ • \ rS rSr% \\S'   \rSrSr	Sr
S/rU 4S jrS rS	rU =r$ )
ÚImageGPTPreTrainedModelió  ra   r.   Ú	input_idsTr  c                 ó&   >• [         TU ]  " U0 UD6  g rv   )rw   rx   )r{   ÚinputsÚkwargsr|   s      €r(   rx   Ú ImageGPTPreTrainedModel.__init__ü  s   ø€ Ü‰Ò˜&Ð+ FÓ+r~   c           	      óÌ  • [        U[        R                  [        45      (       aj  UR                  R
                  R                  SU R                  R                  S9  UR                  b$  UR                  R
                  R                  5         OÐ[        U[        R                  5      (       aw  UR                  R
                  R                  SU R                  R                  S9  UR                  b1  UR                  R
                  UR                     R                  5         O:[        U[        5      (       a%  UR                  R
                  R                  S5        UR                  5        Hq  u  p#SU;   d  M  SU;   d  M  UR
                  R                  SU R                  R                  [         R"                  " SU R                  R$                  -  5      -  S9  Ms     g)zInitialize the weights.g        )r…   ÚstdNrÚ   r;   r1   r>   )r   r   ÚLinearr   r1   r^   Únormal_ra   Úinitializer_ranger3   Úzero_Ú	EmbeddingÚpadding_idxrq   Úfill_Únamed_parametersÚmathr„   Ún_layer)r{   Úmodulerh   Úps       r(   Ú_init_weightsÚ%ImageGPTPreTrainedModel._init_weightsÿ  sS  € äfœrŸy™y¬&Ð1×2Ñ2ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Ô(øÜ˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Ô>øÜ˜Ô 1×2Ñ2ØM‰M×Ñ×$Ñ$ SÔ)ð ×.Ñ.Ö0‰GˆDØ˜4Õ H°Õ$4à—‘—‘ C¨d¯k©k×.KÑ.KÌdÏiÊiÐXYÐ\`×\gÑ\g×\oÑ\oÑXoÓNpÑ.pÓrò 1r~   r%   )r‰   rŠ   r‹   rŒ   r   Ú__annotations__ro   Úload_tf_weightsÚbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesrx   rF  r   r   r‘   s   @r(   r2  r2  ó  s9   ø‡ àÓØ1€OØ%ÐØ!€OØ&*Ð#Ø(Ð)Ðõ,÷sð sr~   r2  c            $       óè  ^ • \ rS rSrS\4U 4S jjrS rS rS r\	              SS\
\R                     S\
\\\R                           S	\
\R                     S
\
\R                     S\
\R                     S\
\R                     S\
\R                     S\
\R                     S\
\R                     S\
\   S\
\   S\
\   S\
\   S\
\R                     S\S\\\4   4 S jj5       rSrU =r$ )ÚImageGPTModeli  ra   c           
      ót  >• [         TU ]  U5        UR                  U l        [        R
                  " UR                  U R                  5      U l        [        R
                  " UR                  U R                  5      U l	        [        R                  " UR                  5      U l        [        R                  " [        UR                  5       Vs/ sH  n[!        XS9PM     sn5      U l        [%        U R                  UR&                  S9U l        SU l        S U l        SU l        U R1                  5         g s  snf )Nr  r  F)rw   rx   rs   r¢   r   r>  r_   r5   rœ   r4   r¬   Ú
embd_pdropÚdropÚ
ModuleListÚrangeÚnum_hidden_layersr  Úhrq   r!  Úln_fÚmodel_parallelÚ
device_mapÚgradient_checkpointingÚ	post_init)r{   ra   Úir|   s      €r(   rx   ÚImageGPTModel.__init__  sÞ   ø€ Ü‰Ñ˜Ô à×+Ñ+ˆŒä—<’< × 1Ñ 1°4·>±>ÓBˆŒÜ—<’< × >Ñ >ÀÇÁÓOˆŒä—J’J˜v×0Ñ0Ó1ˆŒ	Ü—’ÌEÐRX×RjÑRjÔLkÓlÑLkÀq¤¨fÔ BÑLkÑlÓmˆŒÜ% d§n¡n¸&×:SÑ:SÑTˆŒ	ð $ˆÔØˆŒØ&+ˆÔ#à‰Õùò  ms   ÃD5c                 ó   • U R                   $ rv   ©r5   )r{   s    r(   Úget_input_embeddingsÚ"ImageGPTModel.get_input_embeddings/  s   € Øx‰xˆr~   c                 ó   • Xl         g rv   r_  )r{   Únew_embeddingss     r(   Úset_input_embeddingsÚ"ImageGPTModel.set_input_embeddings2  s   € Ø!r~   c                 ó†   • UR                  5        H-  u  p#U R                  U   R                  R                  U5        M/     g)zf
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer}
N)ÚitemsrV  r:   r½   )r{   Úheads_to_pruneÚlayerrº   s       r(   Ú_prune_headsÚImageGPTModel._prune_heads5  s5   € ð +×0Ñ0Ö2‰LˆEØF‰F5‰M×Ñ×*Ñ*¨5Ö1ò 3r~   r3  Úpast_key_valuesrÏ   Útoken_type_idsÚposition_idsrÐ   Úinputs_embedsrú   rû   rü   rý   Úoutput_hidden_statesÚreturn_dictrþ   r6  r€   c                 óŠ  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  Ub  [        S5      eUbF  U R                  X5        UR                  5       nUR                  SUS   5      nUR                  S   nO1Ub#  UR                  5       SS nUR                  S   nO[        S5      eUb  UR                  OUR                  nU R                  (       a/  U R                  (       a  U
(       a  [        R                  S5        Sn
SnU
(       aB  [        U[         5      (       d-  [        R                  S5        S	n["        R$                  " U5      nUb  UR'                  5       OUnUb  UR                  SUS   5      nUc<  [(        R*                  " UUS   U-   [(        R,                  US
9nUR/                  S5      nUby  US::  a  [        S5      eUR                  US5      nUSS2SSSS24   nUR1                  U R2                  S9nSU-
  [(        R4                  " U R2                  5      R6                  -  nU R                   R8                  (       aE  UbB  UR                  5       u  nnnUU4nU	c  [(        R:                  " UUS9n	U R=                  U	5      n	OSn	U R?                  X`R                   R@                  5      nUc  U RC                  U5      nU RE                  U5      nUUR1                  UR                  5      -   nUb  U RC                  U5      nUU-   nU RG                  U5      nUUR                  S5      4-   nU(       a  SOSnU(       a  U R                   R8                  (       a  SOSnU(       a  SOSn[I        U RJ                  5       GHq  u  n n!U RL                  (       a  [(        RN                  RQ                  UR                  5        Ub  UR1                  UR                  5      n[        U[(        RR                  5      (       a  UR1                  UR                  5      nU(       a  UU4-   nU!" UUUUU    UU	U
UUS9	n"U"S   nU(       a-  UU"S   4-   nU R                   R8                  (       a	  UU"S   4-   nU RL                  (       d  GM  U RT                  RW                  5        HO  u  n#n$U U$S   :X  d  M  S[Y        U#5      -   U RZ                  :w  d  M/  UR1                  S[Y        U#S-   5      -   5      nMQ     GMt     U R]                  U5      nUR                  " U6 nU(       a  UU4-   nU(       a  UR_                  5       nU(       d  [a        S UUUUU4 5       5      $ [c        UUUUUS9$ )aJ  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else
    `past_key_values.get_seq_length()` (`sequence_length` of input past key value states). Indices of input
    sequence tokens in the vocabulary.

    If `past_key_values` is used, only `input_ids` that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoImageProcessor`]. See [`ImageGPTImageProcessor.__call__`] for details.

Examples:

```python
>>> from transformers import AutoImageProcessor, ImageGPTModel
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("openai/imagegpt-small")
>>> model = ImageGPTModel.from_pretrained("openai/imagegpt-small")

>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
```NzDYou cannot specify both input_ids and inputs_embeds at the same timer+   r   z5You have to specify either input_ids or inputs_embedszZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...FzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.TrÂ   z$batch_size has to be defined and > 0r˜   rÚ   )rÃ   r%   )rû   rü   rý   rþ   r   r>   zcuda:c              3   ó.   #   • U H  nUc  M  Uv •  M     g 7frv   r%   )r&   Úvs     r(   r)   Ú(ImageGPTModel.forward.<locals>.<genexpr>ÿ  s   é € ð áwAØ÷ ‘Úwùs   ‚Œ	)Úlast_hidden_staterl  rø   Ú
attentionsÚcross_attentions)2ra   rý   rp  rü   Úuse_return_dictr§   Ú%warn_if_padding_and_no_attention_maskrÆ   r¡   rV   rÃ   rZ  ÚtrainingrB   Úwarning_oncer   r   r   Úfrom_legacy_cacheÚget_seq_lengthrY   ÚarangeÚlongÚ	unsqueezeÚtor™   rÇ   rÈ   r$  rŸ   Úinvert_attention_maskÚget_head_maskrC  r5   r4   rR  Ú	enumeraterV  rX  ÚcudaÚ
set_devicerz   rY  rg  ÚstrÚlast_devicerW  Úto_legacy_cacher   r   )%r{   r3  rl  rÏ   rm  rn  rÐ   ro  rú   rû   rü   rý   rp  rq  rþ   r6  Úinput_shapeÚ
batch_sizerÃ   Úreturn_legacy_cacheÚpast_lengthÚencoder_batch_sizeÚencoder_sequence_lengthræ   Úencoder_hidden_shapeÚposition_embedsrø   Útoken_type_embedsÚoutput_shapeÚall_self_attentionsÚall_cross_attentionsÚall_hidden_statesr\  Úblockr-  rê   rt  s%                                        r(   r‡   ÚImageGPTModel.forward<  s  € ð` 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;ˆIØ"Ÿ™¨Ñ+‰JØÑ&Ø'×,Ñ,Ó.¨s°Ð3ˆKØ&×,Ñ,¨QÑ/‰JäÐTÓUÐUà%.Ñ%:×!Ò!À×@TÑ@Tˆà×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	à#ÐÞœZ¨¼×?Ñ?Ü×Ñð\ôð
 #'ÐÜ1×CÒCÀOÓTˆOà:IÑ:Uo×4Ñ4Ô6Ð[jˆàÑ%Ø+×0Ñ0°°[À±_ÓEˆNàÑÜ Ÿ<š<¨°[À±_À{Ñ5RÔZ_×ZdÑZdÐmsÑtˆLØ'×1Ñ1°!Ó4ˆLð Ñ%Ø˜Q‹Ü Ð!GÓHÐHØ+×0Ñ0°¸RÓ@ˆNð ,ªA¨t°Tº1Ð,<Ñ=ˆNð ,×.Ñ.°T·Z±ZÐ.Ð@ˆNØ! NÑ2´e·k²kÀ$Ç*Á*Ó6M×6QÑ6QÑQˆNð ;‰;×*×*Ð/DÑ/PØ=R×=WÑ=WÓ=YÑ:ÐÐ 7¸Ø$6Ð8OÐ#PÐ Ø%Ñ-Ü).¯ªÐ4HÐQWÑ)XÐ&Ø%)×%?Ñ%?Ð@VÓ%WÑ"à%)Ð"ð ×&Ñ& y·+±+×2EÑ2EÓFˆ	àÑ Ø ŸH™H YÓ/ˆMØŸ(™( <Ó0ˆØ%¨×(:Ñ(:¸=×;OÑ;OÓ(PÑPˆàÑ%Ø $§¡¨Ó 8ÐØ)Ð,=Ñ=ˆMàŸ	™	 -Ó0ˆØ" m×&8Ñ&8¸Ó&<Ð%>Ñ>ˆæ$5™b¸4ÐÞ%6¸4¿;¹;×;Z×;Z™rÐ`dÐÞ"6™B¸DÐÜ! $§&¡&×)‰HˆAˆuà×"×"Ü—
‘
×%Ñ% m×&:Ñ&:Ô;à!Ñ-Ø%3×%6Ñ%6°}×7KÑ7KÓ%LNÜ˜i¬¯©×6Ñ6Ø )§¡¨]×-AÑ-AÓ BIÞ#Ø$5¸Ð8HÑ$HÐ!áØØØØ˜!‘Ø%Ø'=Ø#Ø"3Ø-ñ
ˆGð $ A™JˆMÞ Ø&9¸WÀQ¹Z¸MÑ&IÐ#Ø—;‘;×2×2Ø+?À7È1Á:À-Ñ+OÐ(ð ×"×"Ò"Ø ŸO™O×1Ñ1Ö3‘DAqØ˜A˜b™E•z g´°A³Ñ&6¸$×:JÑ:JÕ&JØ(5×(8Ñ(8¸Ä3ÀqÈ1ÁuÃ:Ñ9MÓ(Nšô 4ñA *ðH Ÿ	™	 -Ó0ˆØ%×*Ò*¨LÐ9ˆö  Ø 1°]Ð4DÑ DÐæØ-×=Ñ=Ó?ˆOæÜñ à'¨Ð:KÐM`ÐbvÑwóó ð ô 9Ø+Ø+Ø+Ø*Ø1ñ
ð 	
r~   )	rY  rR  r¢   rZ  rV  rW  rX  r4   r5   )NNNNNNNNNNNNNN)r‰   rŠ   r‹   rŒ   r   rx   r`  rd  rj  r   r   rY   rz   r   r    r   r   r   r‡   r   r   r‘   s   @r(   rO  rO    s  ø† ð˜~÷ ò&ò"ò2ð ð -1Ø@DØ15Ø15Ø/3Ø,0Ø04Ø8<Ø9=Ø$(Ø,0Ø/3Ø&*Ø15ñN
à˜EŸL™LÑ)ðN
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðN
ð ! §¡Ñ.ð	N
ð
 ! §¡Ñ.ðN
ð ˜uŸ|™|Ñ,ðN
ð ˜EŸL™LÑ)ðN
ð   §¡Ñ-ðN
ð  (¨¯©Ñ5ðN
ð !)¨¯©Ñ 6ðN
ð ˜D‘>ðN
ð $ D™>ðN
ð ' t™nðN
ð ˜d‘^ðN
ð ! §¡Ñ.ðN
ð  ð!N
ð" 
ˆuÐ?Ð?Ñ	@ô#N
ó öN
r~   rO  z‹
    The ImageGPT Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc            &       óü  ^ • \ rS rSrS/rS\4U 4S jjr\               SS\\	R                     S\\\\	R                           S\\	R                     S\\	R                     S	\\	R                     S
\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\	R                     S\\   S\\   S\\   S\\   S\\	R                     S\S\\\4   4"S jj5       rSrU =r$ )ÚImageGPTForCausalImageModelingi  zlm_head.weightra   c                 óä   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  UR                  S-
  SS9U l        SU l	        S U l
        U R                  5         g )Nr   F©r3   )rw   rx   rO  r.   r   r:  r\   r_   r<   rX  rY  r[  ©r{   ra   r|   s     €r(   rx   Ú'ImageGPTForCausalImageModeling.__init__  s[   ø€ Ü‰Ñ˜Ô Ü(¨Ó0ˆÔÜ—y’y §¡°×0AÑ0AÀAÑ0EÈEÑRˆŒð $ˆÔØˆŒà‰Õr~   r3  rl  rÏ   rm  rn  rÐ   ro  rú   rû   Úlabelsrü   rý   rp  rq  rþ   r6  r€   c                 ó,  • Ub  UOU R                   R                  nU R                  UUUUUUUUU	UUUUUS9nUS   nU R                  U5      nSnU
br  USSS2SS24   R	                  5       nU
SSS24   R	                  5       n[        5       nU" UR                  SUR                  S5      5      UR                  S5      5      nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  S9$ )aæ  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else
    `past_key_values.get_seq_length()` (`sequence_length` of input past key value states). Indices of input
    sequence tokens in the vocabulary.

    If `past_key_values` is used, only `input_ids` that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoImageProcessor`]. See [`ImageGPTImageProcessor.__call__`] for details.
labels (`torch.LongTensor` of shape `(batch_size, input_ids_length)`, *optional*):
    Labels for language modeling. Note that the labels **are shifted** inside the model, i.e. you can set
    `labels = input_ids` Indices are selected in `[-100, 0, ..., config.vocab_size]` All labels set to `-100`
    are ignored (masked), the loss is only computed for labels in `[0, ..., config.vocab_size]`

Examples:

```python
>>> from transformers import AutoImageProcessor, ImageGPTForCausalImageModeling
>>> import torch
>>> import matplotlib.pyplot as plt
>>> import numpy as np

>>> image_processor = AutoImageProcessor.from_pretrained("openai/imagegpt-small")
>>> model = ImageGPTForCausalImageModeling.from_pretrained("openai/imagegpt-small")
>>> device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
>>> model.to(device)  # doctest: +IGNORE_RESULT

>>> # unconditional generation of 8 images
>>> batch_size = 4
>>> context = torch.full((batch_size, 1), model.config.vocab_size - 1)  # initialize with SOS token
>>> context = context.to(device)
>>> output = model.generate(
...     input_ids=context, max_length=model.config.n_positions + 1, temperature=1.0, do_sample=True, top_k=40
... )

>>> clusters = image_processor.clusters
>>> height = image_processor.size["height"]
>>> width = image_processor.size["width"]

>>> samples = output[:, 1:].detach().cpu().numpy()
>>> samples_img = [
...     np.reshape(np.rint(127.5 * (clusters[s] + 1.0)), [height, width, 3]).astype(np.uint8) for s in samples
... ]  # convert color cluster tokens back to pixels
>>> f, axes = plt.subplots(1, batch_size, dpi=300)

>>> for img, ax in zip(samples_img, axes):  # doctest: +IGNORE_RESULT
...     ax.axis("off")
...     ax.imshow(img)
```N)rl  rÏ   rm  rn  rÐ   ro  rú   rû   rü   rý   rp  rq  rþ   r   .r+   r   )ÚlossÚlogitsrl  rø   rw  rx  )ra   ry  r.   r<   rõ   r   r¡   rÆ   r   rl  rø   rw  rx  )r{   r3  rl  rÏ   rm  rn  rÐ   ro  rú   rû   r¡  rü   rý   rp  rq  rþ   r6  Útransformer_outputsrø   Ú	lm_logitsr£  Úshift_logitsÚshift_labelsÚloss_fctÚoutputs                            r(   r‡   Ú&ImageGPTForCausalImageModeling.forward"  sR  € ðN &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø)Ø%ØØ'Ø"7Ø#9ØØ/Ø!5Ø#Ø)ð /ð 
Ðð  ,¨AÑ.ˆà—L‘L Ó/ˆ	àˆØÑà$ S¨#¨2¨#ªq [Ñ1×<Ñ<Ó>ˆLØ! # q¡r '™?×5Ñ5Ó7ˆLä'Ó)ˆHÙ˜L×-Ñ-¨b°,×2CÑ2CÀBÓ2GÓHÈ,×J[ÑJ[Ð\^ÓJ_Ó`ˆDæØ\Ð$7¸¸Ð$;Ñ;ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä0ØØØ/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5Ø0×AÑAñ
ð 	
r~   )rY  r<   rX  r.   )NNNNNNNNNNNNNNN)r‰   rŠ   r‹   rŒ   Ú_tied_weights_keysr   rx   r   r   rY   rz   r   r    r   r   r   r‡   r   r   r‘   s   @r(   rœ  rœ    s   ø† ð +Ð+Ðð	˜~÷ 	ð ð -1Ø@DØ15Ø15Ø/3Ø,0Ø04Ø8<Ø9=Ø)-Ø$(Ø,0Ø/3Ø&*Ø15ñ!p
à˜EŸL™LÑ)ðp
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðp
ð ! §¡Ñ.ð	p
ð
 ! §¡Ñ.ðp
ð ˜uŸ|™|Ñ,ðp
ð ˜EŸL™LÑ)ðp
ð   §¡Ñ-ðp
ð  (¨¯©Ñ5ðp
ð !)¨¯©Ñ 6ðp
ð ˜Ÿ™Ñ&ðp
ð ˜D‘>ðp
ð $ D™>ðp
ð ' t™nðp
ð ˜d‘^ðp
ð  ! §¡Ñ.ð!p
ð" ð#p
ð$ 
ˆuÐ7Ð7Ñ	8ô%p
ó öp
r~   rœ  zË
    The ImageGPT Model transformer with an image classification head on top (linear layer).
    [`ImageGPTForImageClassification`] average-pools the hidden states in order to do the classification.
    c                    ó–  ^ • \ rS rSrS\4U 4S jjr\            SS\\R                     S\\
\
\R                           S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\R                     S\\   S\\   S\\   S\\   S\S\\
\4   4S jj5       rSrU =r$ )ÚImageGPTForImageClassificationi–  ra   c                 óä   >• [         TU ]  U5        UR                  U l        [        U5      U l        [
        R                  " UR                  U R                  SS9U l        U R                  5         g )NFrž  )
rw   rx   Ú
num_labelsrO  r.   r   r:  r\   Úscorer[  rŸ  s     €r(   rx   Ú'ImageGPTForImageClassification.__init__  sR   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒÜ(¨Ó0ˆÔÜ—Y’Y˜vŸ}™}¨d¯o©oÀEÑJˆŒ
ð 	‰Õr~   r3  rl  rÏ   rm  rn  rÐ   ro  r¡  rü   rý   rp  rq  r6  r€   c                 ól  • Ub  UOU R                   R                  nU R                  UUUUUUUU	U
UUS9nUS   nUR                  SS9nU R	                  U5      nSnUGb  U R                   R
                  c‘  U R                  S:X  a  SU R                   l        OoU R                  S:”  aN  UR                  [        R                  :X  d  UR                  [        R                  :X  a  SU R                   l        OSU R                   l        U R                   R
                  S:X  aJ  [        5       nU R                  S:X  a&  U" UR                  5       UR                  5       5      nOŽU" UU5      nO„U R                   R
                  S:X  a=  [        5       nU" UR                  S	U R                  5      UR                  S	5      5      nO-U R                   R
                  S:X  a  [        5       nU" UU5      nU(       d  U4USS -   nUb  U4U-   $ U$ [!        UUUR"                  UR$                  UR&                  S
9$ )a¹  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else
    `past_key_values.get_seq_length()` (`sequence_length` of input past key value states). Indices of input
    sequence tokens in the vocabulary.

    If `past_key_values` is used, only `input_ids` that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoImageProcessor`]. See [`ImageGPTImageProcessor.__call__`] for details.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

Examples:

```python
>>> from transformers import AutoImageProcessor, ImageGPTForImageClassification
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("openai/imagegpt-small")
>>> model = ImageGPTForImageClassification.from_pretrained("openai/imagegpt-small")

>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
```N)
rl  rÏ   rm  rn  rÐ   ro  rü   rý   rp  rq  r   r   r¶   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationr+   )r£  r¤  rl  rø   rw  )ra   ry  r.   r…   r±  Úproblem_typer°  r™   rY   r€  rU   r	   rL   r   r¡   r   r   rl  rø   rw  )r{   r3  rl  rÏ   rm  rn  rÐ   ro  r¡  rü   rý   rp  rq  r6  r¥  rø   Úpooled_hidden_statesr¤  r£  r©  rª  s                        r(   r‡   Ú&ImageGPTForImageClassification.forward¦  s  € ðd &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø)Ø%ØØ'ØØ/Ø!5Ø#ð /ð 
Ðð ,¨AÑ.ˆà,×1Ñ1°aÐ1Ð8Ðà—‘Ð0Ó1ˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# F¨FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù ¨Ó/ÞØYÐ!4°Q°RÐ!8Ñ8ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä/ØØØ/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ñ
ð 	
r~   )r°  r±  r.   )NNNNNNNNNNNN)r‰   rŠ   r‹   rŒ   r   rx   r   r   rY   rz   r   r    r   r   r   r‡   r   r   r‘   s   @r(   r®  r®  –  sP  ø† ð˜~÷ ð ð -1Ø@DØ15Ø15Ø/3Ø,0Ø04Ø)-Ø$(Ø,0Ø/3Ø&*ñf
à˜EŸL™LÑ)ðf
ð " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðf
ð ! §¡Ñ.ð	f
ð
 ! §¡Ñ.ðf
ð ˜uŸ|™|Ñ,ðf
ð ˜EŸL™LÑ)ðf
ð   §¡Ñ-ðf
ð ˜Ÿ™Ñ&ðf
ð ˜D‘>ðf
ð $ D™>ðf
ð ' t™nðf
ð ˜d‘^ðf
ð ðf
ð 
ˆuÐ6Ð6Ñ	7ôf
ó öf
r~   r®  )rœ  r®  rO  r2  ro   )5Ú__doc__rB  rD   Útypingr   r   r   rY   Útorch.utils.checkpointr   Útorch.nnr   r   r	   Úactivationsr   Úcache_utilsr   r   Ú
generationr   Úmodeling_layersr   Úmodeling_outputsr   r   r   Úmodeling_utilsr   Úpytorch_utilsr   r   r   Úutilsr   r   r   Úconfiguration_imagegptr   Ú
get_loggerr‰   rB   ro   ÚModulerq   r“   r  r  r2  rO  rœ  r®  Ú__all__r%   r~   r(   Ú<module>rÊ     sM  ðñ %ã Û 	ß 'Ñ 'ã Û Ý ß AÑ Aå !ß 5Ý )Ý 9÷ñ õ
 .ß YÑ Y÷ñ õ
 3ð 
×	Ò	˜HÓ	%€òiôX
˜Ÿ	™	ô 
ôi)˜Ÿ	™	ô i)ôX"—)‘)ô ô"J*Ð.ô J*ðZ ô#s˜oó #só ð#sðL ôp
Ð+ó p
ó ðp
ñf ðñô
Ð%<¸oó 
óð
ñD ðñôq
Ð%<ó q
óðq
òhr~   