ó <±hããó •SrSSKrSSKrSSKJrJr SSKrSSKrSSKJr SSK J r JrJr SSK Jr SSKJrJr SS KJr SS KJr SSKJrJrJrJrJrJrJrJr SSKJ r SS K!J"r"J#r#J$r$ SSK%J&r&J'r' SSK(J)r) \'RT"\+5r,Sr-"SS\R\5r/"SS\R\5r0"SS\R\5r1"SS\R\5r2"SS\R\5r3"SS\R\5r4"SS\R\5r5"S S!\5r6"S"S#\R\5r7"S$S%\R\5r8"S&S'\R\5r9"S(S)\R\5r:\&"S*S+\ 55r;\&"S,S-9"S.S/\;55r<\&"S0S1\;55r=\&"S2S-9"S3S4\;\55r>\&"S5S-9"S6S7\;55r?\&"S8S9\;55r@\&"S:S;\;55rA\&"S<S=\;55rB/S>QrCg)?zPyTorch RemBERT model.éN)ÚOptionalÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé)ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ,BaseModelOutputWithPoolingAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentionsÚMaskedLMOutputÚMultipleChoiceModelOutputÚQuestionAnsweringModelOutputÚSequenceClassifierOutputÚTokenClassifierOutput)ÚPreTrainedModel)Úapply_chunking_to_forwardÚ find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚloggingé)Ú RemBertConfigc óþ^•SSKnSSKnSSKn[RRU5n[RSU35 URRU5n/n/n UH{umn [U4SjS55(aM"[RSTSU 35 URRUT5nURT5 U RU5 M} [X‰5GHàumnTR!S S 5mTR#S5m[ST55(a)[RS SR%T535 MjUnTHÌn UR'SU 5(aUR#SU 5nOU /nUSS:Xd USS:Xa [)US5nOZUSS:Xd USS:Xa [)US5nO;USS:Xa [)US5nO%USS:Xa [)US5nO[)XÎS5n[/U5S:¼dMº[1US5nXÏnMÎ W SSS:Xa [)US5nOU S:XaUR3U5nUR4UR4:wa&[7SUR4SUR4S 35e[RS!T35 [<R>"U5Ul GMã U$![a [RS5 ef=f![*a8 [RSR-SR%T555 GMÞf=f![8a1nU=R:UR4UR44- sleSnAff=f)"z'Load tf checkpoints in a pytorch model.rNz™Loading a TensorFlow model in PyTorch, requires TensorFlow to be installed. Please see https://www.tensorflow.org/install/ for installation instructions.z&Converting TensorFlow checkpoint from c3ó*># •UH oT;v• M g7f©N©)Ú.0ÚdenyÚnames €Úd/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/models/rembert/modeling_rembert.pyÚ Ú-load_tf_weights_in_rembert..Gsøé€ÐXÑ(W tŽ|Ò(Wùsƒ)Úadam_vÚadam_mÚoutput_embeddingÚclszLoading TF weight z with shape zbert/zrembert/Ú/c3ó*# •UH nUS;v• M g7f))r)r*ÚAdamWeightDecayOptimizerÚAdamWeightDecayOptimizer_1Úglobal_stepNr")r#Úns r&r'r(Xsé€ð áð ÐnÖnÚùs‚z Skipping z [A-Za-z]+_\d+z_(\d+)ÚkernelÚgammaÚweightÚoutput_biasÚbetaÚbiasÚoutput_weightsÚsquadÚ classifierzSkipping {}ériõÿÿÿÚ_embeddingszPointer shape z and array shape z mismatchedzInitialize PyTorch weight )!ÚreÚnumpyÚ tensorflowÚImportErrorÚloggerÚerrorÚosÚpathÚabspathÚinfoÚtrainÚlist_variablesÚanyÚ load_variableÚappendÚzipÚreplaceÚsplitÚjoinÚ fullmatchÚgetattrÚAttributeErrorÚformatÚlenÚintÚ transposeÚshapeÚ ValueErrorÚAssertionErrorÚargsÚtorchÚ from_numpyÚdata)ÚmodelÚconfigÚtf_checkpoint_pathr>ÚnpÚtfÚtf_pathÚ init_varsÚnamesÚarraysrXÚarrayÚpointerÚm_nameÚscope_namesÚnumÚer%s @r&Úload_tf_weights_in_rembertrn1sLø€ð ÛãÛôg‰go‰oÐ0Ó1€GÜ ‡KKÐ8¸¸ ÐBÔCà—‘×'Ñ'¨Ó0€IØ€EØ €FÛ ‰ˆˆeôÔXÑ(WÓX×XÑXáÜ‰Ð(¨¨¨l¸5¸'ÐBÔCØ—‘×&Ñ& w°Ó5ˆØ ‰TÔØ ‰ eÖñ!ô˜5×)‰ˆˆeà|‰|˜G ZÓ0ˆðz‰z˜#‹ˆôñ áó ÷ ñ ô K‰K˜) C§H¡H¨T£NÐ#3Ð4Ô5ÙØˆÛˆFØ|‰|Ð,¨f×5Ñ5Ø Ÿh™h y°&Ó9‘à%˜hØ˜1‰~ Ó)¨[¸©^¸wÓ-FÜ! '¨8Ó4‘Ø˜Q‘ =Ó0°KÀ±NÀfÓ4LÜ! '¨6Ó2‘Ø˜Q‘Ð#3Ó3Ü! '¨8Ó4‘Ø˜Q‘ 7Ó*Ü! '¨<Ó8‘ðÜ% g¸1©~Ó>Gô;Ó 1Õ$Ü˜+ a™.Ó)Ø!™,’ñ+ð,#$ˆ<˜=Ó(Ü˜g xÓ0‰GØ xÓ Ø—L‘L Ó'ˆEð Ø}‰} §¡Ó+Ü >°'·-±-°Ð@QÐRW×R]ÑR]ÐQ^Ð^iÐ!jÓkÐkð,ô ‰Ð0°°Ð7Ô8Ü×'Ò'¨Ó.ˆñc*ðd€LøôSóÜ‰ð Qô ð ðûôn&óÜ—K‘K × 4Ñ 4°S·X±X¸d³^Ó DÔEÛðûôó Ø FŠFw—}‘} e§k¡kÐ2Ñ2FØûð ús6ƒKÇ:K<ÉAMË!K9Ë<=L>Ì=L>Í M<Í,M7Í7M<c óØ^•\rSrSrSrU4SjrSS\\RS\\RS\\RS\\RS\ S \R4S jjrSr U=r$) ÚRemBertEmbeddingsé„zGConstruct the embeddings from word, position and token_type embeddings.cóv>•[TU]5 [R"URUR URS9Ul[R"URUR 5Ul [R"URUR 5Ul[R"UR URS9Ul[R"UR5UlUR#S[$R&"UR5R)S5SS9 g)N)Úpadding_idx©ÚepsÚposition_ids)réÿÿÿÿF)Ú persistent)ÚsuperÚ__init__rÚ EmbeddingÚ vocab_sizeÚinput_embedding_sizeÚpad_token_idÚword_embeddingsÚmax_position_embeddingsÚposition_embeddingsÚtype_vocab_sizeÚtoken_type_embeddingsÚ LayerNormÚlayer_norm_epsÚDropoutÚhidden_dropout_probÚdropoutÚregister_bufferr\ÚarangeÚexpand©Úselfr`Ú __class__s €r&rzÚRemBertEmbeddings.__init__‡sçø€Ü ‰ÑÔÜ!Ÿ|š|Ø×Ñ˜v×:Ñ:È×H[ÑH[ñ ˆÔô$&§<¢<°×0NÑ0NÐPV×PkÑPkÓ#lˆÔ Ü%'§\¢\°&×2HÑ2HÈ&×JeÑJeÓ%fˆÔ"ôŸš f×&AÑ&AÀv×G\ÑG\Ñ]ˆŒÜ—z’z &×"<Ñ"<Ó=ˆŒð ×ÑØœEŸLšL¨×)GÑ)GÓH×OÑOÐPWÓXÐejð ò óÚ input_idsÚtoken_type_idsrvÚ inputs_embedsÚpast_key_values_lengthÚreturncóÈ•UbUR5nOUR5SSnUSnUcURSS2XWU-24nUc8[R"U[RURR S9nUcUR U5nURU5nXH-n URU5n Xš- n URU 5n URU 5n U $)Nrwr©ÚdtypeÚdevice)Úsizervr\ÚzerosÚlongr™rrƒrr„rˆ)rr‘r’rvr“r”Úinput_shapeÚ seq_lengthrƒÚ embeddingsrs r&ÚforwardÚRemBertEmbeddings.forward™së€ðÑ Ø#Ÿ.™.Ó*‰Kà'×,Ñ,Ó.¨s°Ð3ˆKà ‘^ˆ àÑØ×,Ñ,ªQÐ0FÐVlÑIlÐ0lÐ-lÑmˆLàÑ!Ü"Ÿ[š[¨¼E¿J¹JÈt×O`ÑO`×OgÑOgÑhˆNàÑ Ø ×0Ñ0°Ó;ˆMØ $× :Ñ :¸>Ó JÐà"Ñ:ˆ Ø"×6Ñ6°|ÓDÐØÑ)ˆ Ø—^‘^ JÓ/ˆ Ø—\‘\ *Ó-ˆ ØÐr)r„rˆrrƒr)NNNNr)Ú__name__Ú __module__Ú__qualname__Ú__firstlineno__Ú__doc__rzrr\Ú LongTensorÚFloatTensorrVÚTensorr Ú__static_attributes__Ú __classcell__©rŽs@r&rprp„sø†ÙQõ ð(15Ø59Ø37Ø59Ø&'ñ à˜E×,Ñ,Ñ-ðð! ×!1Ñ!1Ñ2ðð˜u×/Ñ/Ñ0ð ð × 1Ñ 1Ñ2ðð!$ð ð ‰÷órrpcób^•\rSrSrU4SjrS\RS\R4SjrSrU=r $)Ú RemBertPooleré»có¶>•[TU]5 [R"URUR5Ul[R"5Ulgr!)ryrzrÚLinearÚhidden_sizeÚdenseÚTanhÚ activationrŒs €r&rzÚRemBertPooler.__init__¼s9ø€Ü ‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ ÜŸ'š'›)ˆrÚ hidden_statesr•có\•USS2S4nURU5nURU5nU$)Nr)r³rµ)rr·Úfirst_token_tensorÚ pooled_outputs r&r ÚRemBertPooler.forwardÁs6€ð+ª1¨a¨4Ñ0ÐØŸ ™ Ð#5Ó6ˆ ØŸ™¨ Ó6ˆ ØÐr)rµr³© r¢r£r¤r¥rzr\r©r rªr«r¬s@r&r®r®»s(ø†õ$ð U§\¡\ð°e·l±l÷òrr®cóè^•\rSrSrS U4SjjrSS\RS\\RS\\RS\\RS\\ S\ S \\RS \4SjjrSr U=r$)ÚRemBertSelfAttentionéÊcó>•[TU]5 URUR-S:wa7[ US5(d&[SURSURS35eURUl[ URUR-5UlURUR-Ul[R"URUR5Ul[R"URUR5Ul[R"URUR5Ul [R"UR5UlUR"UlX lg)NrÚembedding_sizezThe hidden size (z6) is not a multiple of the number of attention heads (Ú))ryrzr²Únum_attention_headsÚhasattrrYrVÚattention_head_sizeÚ all_head_sizerr±ÚqueryÚkeyÚvaluer†Úattention_probs_dropout_probrˆÚ is_decoderÚ layer_idx©rr`rÌrŽs €r&rzÚRemBertSelfAttention.__init__Ës1ø€Ü ‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ# F×$6Ñ$6Ð#7ð8Ø ×4Ñ4Ð5°Qð8óð ð $*×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×ÐØÑ%Ü˜.Ô*=×>Ñ>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ Þ%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#æ2DÑ.È-ˆÞ .Ñ"<Æà+×2Ñ2°4·>±>ÑB×GÑGˆIØ-×4Ñ4°T·^±^ÑD×KÑK‰Kð—‘˜Ó(ß‘j " d×&>Ñ&>À×@XÑ@XÓYß‘˜1˜a“ð ð— ‘ ˜>Ó*ß‘j " d×&>Ñ&>À×@XÑ@XÓYß‘˜1˜a“ð ðÑ)æ7I¡ÈtØ)<×)CÑ)CØ˜{¨D¯N©NÐ=MÈ~Ð<^ó*Ñ& ˜;ö&Ø@DN×-Ñ-¨d¯n©nÑ=ô!Ÿ<š<¨°Y×5HÑ5HÈÈRÓ5PÓQÐà+¬d¯iªi¸×8PÑ8PÓ.QÑQÐØÑ%à/°.Ñ@ÐôŸ-™-×/Ñ/Ð0@ÀbÐ/ÐIˆðŸ,™, Ó7ˆðÑ Ø-° Ñ9ˆOäŸš _°kÓBˆ à%×-Ñ-¨a°°A°qÓ9×DÑDÓFˆ Ø"/×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×*Ò*Ð,CÐDˆ à˜oÐ-Ð-r) rÆrÅrˆrËrÈrÌrÃrÇrÉr!©NNNNFN)r¢r£r¤r¥rzr\r©rr¨rÚboolÚtupler rªr«r¬s@r&r¾r¾Ês°ø†÷#ð07;Ø15Ø=AØ*.Ø"'Ø15ñQ.à—|‘|ðQ.ð! ×!2Ñ!2Ñ3ðQ.ð˜E×-Ñ-Ñ.ð Q.ð (¨×(9Ñ(9Ñ:ðQ.ð! ™ð Q.ð ðQ.ð! §¡Ñ.ðQ.ð ÷Q.óQ.rr¾cóz^•\rSrSrU4SjrS\RS\RS\R4SjrSrU=r $)ÚRemBertSelfOutputi5có(>•[TU]5 [R"URUR5Ul[R"URURS9Ul[R"UR5Ul g©Nrt)ryrzrr±r²r³r„r…r†r‡rˆrŒs €r&rzÚRemBertSelfOutput.__init__6s`ø€Ü ‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆrr·Úinput_tensorr•cóp•URU5nURU5nURX-5nU$r!©r³rˆr„©rr·rÿs r&r ÚRemBertSelfOutput.forward<ó5€ØŸ ™ =Ó1ˆ ØŸ™ ]Ó3ˆ ØŸ™ }Ñ'CÓDˆ ØÐr©r„r³rˆr¼r¬s@r&rûrû5ó6ø†õ>ð U§\¡\ðÀÇÁðÐRW×R^ÑR^÷òrrûcó^•\rSrSrSU4SjjrSrSS\RS\\RS\\RS\\RS\\ S \\S \\RS\\R4Sjjr S rU=r$)ÚRemBertAttentioniCcó|>•[TU]5 [XS9Ul[ U5Ul[ 5Ulg)N©rÌ)ryrzr¾rrûÚoutputÚsetÚpruned_headsrÍs €r&rzÚRemBertAttention.__init__Ds0ø€Ü ‰ÑÔÜ(¨ÑEˆŒ Ü'¨Ó/ˆŒÜ›EˆÕrcó6•[U5S:Xag[XRRURRUR 5up[ URRU5URl[ URRU5URl[ URRU5URl [ URRUSS9URlURR[U5- URlURRURR-URlUR RU5Ulg)Nrrr×)rUrrrÃrÅr rrÇrÈrÉrr³rÆÚunion)rÚheadsÚindexs r&Úprune_headsÚRemBertAttention.prune_headsKs€Üˆu‹:˜‹?ØÜ7Ø—9‘9×0Ñ0°$·)±)×2OÑ2OÐQU×QbÑQbó ‰ˆô -¨T¯Y©Y¯_©_¸eÓDˆ ‰ ŒÜ*¨4¯9©9¯=©=¸%Ó@ˆ ‰ Œ Ü,¨T¯Y©Y¯_©_¸eÓDˆ ‰ ŒÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð)-¯ © ×(EÑ(EÌÈEË Ñ(Rˆ ‰ Ô%Ø"&§)¡)×"?Ñ"?À$Ç)Á)×B_ÑB_Ñ"_ˆ ‰ ÔØ ×-Ñ-×3Ñ3°EÓ:ˆÕrr·rÏrÐrÑrÒrÓrÔr•c ól•URUUUUUUUS9nURUSU5n U 4USS-n U $)N©rÏrÐrÑrÒrÓrÔrr)rr)rr·rÏrÐrÑrÒrÓrÔÚself_outputsÚattention_outputÚoutputss r&r ÚRemBertAttention.forward^s\€ð—y‘yØØ)ØØ"7Ø)Ø/Ø)ð!ð ˆð Ÿ;™; |°A¡¸ ÓFÐØ#Ð%¨°Q°RÐ(8Ñ8ˆØˆr)rr rr!r÷)r¢r£r¤r¥rzrr\r©rr¨rrørùr rªr«r¬s@r&rrCs¸ø†÷"ò;ð,7;Ø15Ø=AØ*.Ø,1Ø15ñà—|‘|ðð! ×!2Ñ!2Ñ3ðð˜E×-Ñ-Ñ.ð ð (¨×(9Ñ(9Ñ:ðð! ™ð ð$ D™>ðð! §¡Ñ.ðð ˆu|‰|Ñ ÷órrcób^•\rSrSrU4SjrS\RS\R4SjrSrU=r $)ÚRemBertIntermediateiwcó>•[TU]5 [R"URUR 5Ul[UR[5(a[URUlgURUlgr!)ryrzrr±r²Úintermediate_sizer³rÚÚ hidden_actÚstrr Úintermediate_act_fnrŒs €r&rzÚRemBertIntermediate.__init__xs`ø€Ü ‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ Üf×'Ñ'¬×-Ñ-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$rr·r•cóJ•URU5nURU5nU$r!©r³r!©rr·s r&r ÚRemBertIntermediate.forward€s&€ØŸ ™ =Ó1ˆ Ø×0Ñ0°Ó?ˆ ØÐrr$r¼r¬s@r&rrws(ø†õ9ð U§\¡\ð°e·l±l÷òrrcóz^•\rSrSrU4SjrS\RS\RS\R4SjrSrU=r $)Ú RemBertOutputi‡có(>•[TU]5 [R"URUR 5Ul[R"UR URS9Ul[R"UR5Ulgrý)ryrzrr±rr²r³r„r…r†r‡rˆrŒs €r&rzÚRemBertOutput.__init__ˆs`ø€Ü ‰ÑÔÜ—Y’Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒÜ—z’z &×"<Ñ"<Ó=ˆrr·rÿr•cóp•URU5nURU5nURX-5nU$r!rrs r&r ÚRemBertOutput.forwardŽrrrr¼r¬s@r&r(r(‡rrr(có.^•\rSrSrSU4SjjrSS\RS\\RS\\RS\\RS\\RS\\ S \\ S \\RS\\R4SjjrS r SrU=r$)ÚRemBertLayeri•cór>•[TU]5 URUlSUl[ X5UlURUlURUlUR(a-UR(d[US35e[ XS9Ul [U5Ul[U5Ul g)Nrz> should be used as a decoder model if cross attention is addedr )ryrzÚchunk_size_feed_forwardÚseq_len_dimrÚ attentionrËÚadd_cross_attentionrYÚcrossattentionrÚintermediater(rrÍs €r&rzÚRemBertLayer.__init__–s”ø€Ü ‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ)¨&Ó<ˆŒØ ×+Ñ+ˆŒØ#)×#=Ñ#=ˆÔ Ø×#×#Ø—?—?Ü D 6Ð)gÐ!hÓiÐiÜ"2°6Ñ"OˆDÔÜ/°Ó7ˆÔÜ# FÓ+ˆrr·rÏrÐrÑÚencoder_attention_maskrÒrÓrÔr•c óP•URUUUUUUS9n U Sn U SSnUR(aDUbA[US5(d[SUS35eUR U UUUUUUS9nUSn X¼SS-n[URURURU 5n U 4U-nU$)N)rÏrÐrÓrÒrÔrrr4z'If `encoder_hidden_states` are passed, z` has to be instantiated with cross-attention layers by setting `config.add_cross_attention=True`r) r2rËrÄrYr4rÚfeed_forward_chunkr0r1)rr·rÏrÐrÑr7rÒrÓrÔÚself_attention_outputsrrÚcross_attention_outputsÚlayer_outputs r&r ÚRemBertLayer.forward¥s€ð"&§¡ØØ)ØØ/Ø)Ø)ð "0ð" Ðð2°!Ñ4ÐØ(¨¨Ð,ˆà??Ð4Ñ@Ü˜4Ð!1×2Ñ2Ü Ø=¸d¸VðDDðDóðð '+×&9Ñ&9Ø Ø5Ø#Ø&;Ø-Ø"3Ø-ð':ð'Ð#ð 7°qÑ9ÐØ¸¸Ð ;Ñ;ˆGä0Ø×#Ñ# T×%AÑ%AÀ4×CSÑCSÐUeó ˆð / GÑ+ˆàˆrcóJ•URU5nURX!5nU$r!)r5r)rrÚintermediate_outputr<s r&r9ÚRemBertLayer.feed_forward_chunkÖs)€Ø"×/Ñ/Ð0@ÓAÐØ—{‘{Ð#6ÓIˆØÐr)r3r2r0r4r5rËrr1r!)NNNNNFN)r¢r£r¤r¥rzr\r©rr¨rrørùr r9rªr«r¬s@r&r.r.•sÑø†÷,ð$7;Ø15Ø=AØ>BØ*.Ø,1Ø15ñ.à—|‘|ð.ð! ×!2Ñ!2Ñ3ð.ð˜E×-Ñ-Ñ.ð .ð (¨×(9Ñ(9Ñ:ð.ð!)¨×):Ñ):Ñ ;ð .ð! ™ð.ð$ D™>ð.ð! §¡Ñ.ð.ð ˆu|‰|Ñ õ.÷bðrr.cóF^•\rSrSrU4SjrSS\RS\\RS\\RS\\RS\\RS\\ \ \RS \\ S \ S\ S\ S \\RS\\ \44Sjjr SrU=r$)ÚRemBertEncoderiÜc ó0>•[TU]5 Xl[R"UR UR5Ul[R"[UR5Vs/sHn[XS9PM sn5UlSUl gs snf)Nr F)ryrzr`rr±r}r²Úembedding_hidden_mapping_inÚ ModuleListÚrangeÚnum_hidden_layersr.ÚlayerÚgradient_checkpointing)rr`ÚirŽs €r&rzÚRemBertEncoder.__init__Ýssø€Ü ‰ÑÔØŒä+-¯9ª9°V×5PÑ5PÐRX×RdÑRdÓ+eˆÔ(Ü—]’]ÌuÐU[×UmÑUmÔOnÓ#oÑOnÈ!¤L°Ô$EÑOnÑ#oÓpˆŒ Ø&+ˆÕ#ùò$psÁ-Br·rÏrÐrÑr7Úpast_key_valuesÚ use_cacherÓÚoutput_hidden_statesÚreturn_dictrÔr•c óN•UR(a/UR(aU(a[RS5 SnSnU(aB[ U[ 5(d-[RS5 Sn[R"U5nURU5nU (aSOSn U(aSOSnU(aURR(aSOSn[UR5HgunnU (aXÑ4-n UbUUOSnU"UUUUUUU5nUSnU(dM8UUS4-nURR(dM^UUS4-nMi U (aXÑ4-n U(aUR5nU (d[S UUU UU455$[UUU UUS 9$)NzZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...FzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.Tr"rrr<c3ó.# •UHnUcMUv• M g7fr!r")r#Úvs r&r'Ú)RemBertEncoder.forward..&s"é€ð ñAð÷‘òùs‚Œ )Úlast_hidden_staterLr·Ú attentionsÚcross_attentions)rIÚtrainingrBÚwarning_oncerÚrrÚfrom_legacy_cacherDr`r3Ú enumeraterHÚto_legacy_cacherùr)rr·rÏrÐrÑr7rLrMrÓrNrOrÔÚreturn_legacy_cacheÚall_hidden_statesÚall_self_attentionsÚall_cross_attentionsrJÚlayer_moduleÚlayer_head_maskÚ layer_outputss r&r ÚRemBertEncoder.forwardås¸€ð×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð" à#ÐÞœZ¨¼×?Ñ?Ü×Ñð\ô ð #'ÐÜ1×CÒCÀOÓTˆOà×8Ñ8¸ÓGˆ Þ"6™B¸DÐÞ$5™b¸4ÐÞ%6¸4¿;¹;×;Z×;Z™rÐ`dÐä(¨¯©Ö4‰OˆAˆ|Þ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜i¨šlÈˆOá(ØØØØ%Ø&ØØ!óˆMð*¨!Ñ,ˆMß Ð Ø&9¸]È1Ñ=MÐBØEIØ$(Ø"'Ø%*Ø Ø15ñR à—|‘|ðR ð! ×!2Ñ!2Ñ3ðR ð˜E×-Ñ-Ñ.ð R ð (¨×(9Ñ(9Ñ:ðR ð!)¨×):Ñ):Ñ ;ð R ð" %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðR ð˜D‘>ðR ð ðR ð#ðR ððR ð! §¡Ñ.ðR ð ˆuÐ?Ð?Ñ @÷R óR rrBcób^•\rSrSrU4SjrS\RS\R4SjrSrU=r $)ÚRemBertPredictionHeadTransformi;cóp>•[TU]5 [R"URUR5Ul[ UR[5(a[URUl OURUl [R"URURS9Ulgrý) ryrzrr±r²r³rÚrr r Útransform_act_fnr„r…rŒs €r&rzÚ'RemBertPredictionHeadTransform.__init__<s~ø€Ü ‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ Üf×'Ñ'¬×-Ñ-Ü$*¨6×+<Ñ+<Ñ$=ˆDÕ!à$*×$5Ñ$5ˆDÔ!ÜŸš f×&8Ñ&8¸f×>SÑ>SÑTˆrr·r•cól•URU5nURU5nURU5nU$r!)r³rgr„r%s r&r Ú&RemBertPredictionHeadTransform.forwardEs4€ØŸ ™ =Ó1ˆ Ø×-Ñ-¨mÓ<ˆ ØŸ™ }Ó5ˆ ØÐr)r„r³rgr¼r¬s@r&rere;s)ø†õUð U§\¡\ð°e·l±l÷òrrecób^•\rSrSrU4SjrS\RS\R4SjrSrU=r $)ÚRemBertLMPredictionHeadiLcón>•[TU]5 [R"URUR 5Ul[R"UR UR5Ul[URUl[R"UR URS9Ulgrý)ryrzrr±r²Úoutput_embedding_sizer³r|Údecoderr rrµr„r…rŒs €r&rzÚ RemBertLMPredictionHead.__init__Mszø€Ü ‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3OÑ3OÓPˆŒ Ü—y’y ×!=Ñ!=¸v×?PÑ?PÓQˆŒÜ ×!2Ñ!2Ñ3ˆŒÜŸš f×&BÑ&BÈ×H]ÑH]Ñ^ˆrr·r•cóŽ•URU5nURU5nURU5nURU5nU$r!)r³rµr„ror%s r&r ÚRemBertLMPredictionHead.forwardTs@€ØŸ ™ =Ó1ˆ ØŸ™¨ Ó6ˆ ØŸ™ }Ó5ˆ ØŸ™ ]Ó3ˆ ØÐr)r„rµror³r¼r¬s@r&rlrlLs)ø†õ_ð U§\¡\ð°e·l±l÷òrrlcób^•\rSrSrU4SjrS\RS\R4SjrSrU=r $)ÚRemBertOnlyMLMHeadi]cóB>•[TU]5 [U5Ulgr!)ryrzrlÚpredictionsrŒs €r&rzÚRemBertOnlyMLMHead.__init__^sø€Ü ‰ÑÔÜ2°6Ó:ˆÕrÚsequence_outputr•có(•URU5nU$r!©rv)rrxÚprediction_scoress r&r ÚRemBertOnlyMLMHead.forwardbs€Ø ×,Ñ,¨_Ó=ÐØ Ð rrzr¼r¬s@r&rtrt]s(ø†õ;ð! u§|¡|ð!¸¿¹÷!ò!rrtcó2•\rSrSr%\\S'\rSrSr Sr Srg)ÚRemBertPreTrainedModeligr`ÚrembertTcó•[U[R5(akURRRSURRS9 URb%URRR5 gg[U[R5(axURRRSURRS9 URb2URRURR5 gg[U[R5(aJURRR5 URRRS5 gg)zInitialize the weightsg)ÚmeanÚstdNgð?)rÚrr±r5r^Únormal_r`Úinitializer_ranger8Úzero_r{rsr„Úfill_)rÚmodules r&Ú _init_weightsÚ$RemBertPreTrainedModel._init_weightsns€äfœbŸi™i×(Ñ(ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð'ä ˜¤§¡× -Ñ -ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø— ‘ ×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð.ä ˜¤§¡× -Ñ -ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)ð.rr"N)r¢r£r¤r¥rÚ__annotations__rnÚload_tf_weightsÚbase_model_prefixÚsupports_gradient_checkpointingrˆrªr"rr&r~r~gs‡àÓØ0€OØ!ÐØ&*Ð#õ*rr~a The model can behave as an encoder (with only self-attention) as well as a decoder, in which case a layer of cross-attention is added between the self-attention layers, following the architecture described in [Attention is all you need](https://huggingface.co/papers/1706.03762) by Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser and Illia Polosukhin. To behave as an decoder the model needs to be initialized with the `is_decoder` argument of the configuration set to `True`. To be used in a Seq2Seq model, the model needs to initialized with both `is_decoder` argument and `add_cross_attention` set to `True`; an `encoder_hidden_states` is then expected as an input to the forward pass. )Úcustom_introc"óà^•\rSrSrSU4SjjrSrSrSr\SS\ \ RS\ \ RS\ \ RS \ \ RS \ \ RS\ \ RS\ \ RS \ \ RS\ \ \ \ RS\ \S\ \S\ \S\ \S\ \ RS\\ \44Sjj5rSrU=r$)ÚRemBertModelicóÂ>•[TU]U5 Xl[U5Ul[U5UlU(a[U5OSUlUR5 g)z^ add_pooling_layer (bool, *optional*, defaults to `True`): Whether to add a pooling layer N) ryrzr`rprŸrBÚencoderr®ÚpoolerÚ post_init)rr`Úadd_pooling_layerrŽs €r&rzÚRemBertModel.__init__ŒsKø€ô ‰Ñ˜Ô ØŒä+¨FÓ3ˆŒÜ% fÓ-ˆŒæ/@”m FÔ+ÀdˆŒð ‰Õrcó.•URR$r!©rŸr©rs r&Úget_input_embeddingsÚ!RemBertModel.get_input_embeddingsœs€Ø‰×.Ñ.Ð.rcó$•XRlgr!r˜)rrÉs r&Úset_input_embeddingsÚ!RemBertModel.set_input_embeddingsŸs€Ø*/‰Õ'rcóš•UR5H7up#URRURR U5 M9 g)z… Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base class PreTrainedModel N)Úitemsr’rHr2r)rÚheads_to_prunerHrs r&Ú_prune_headsÚRemBertModel._prune_heads¢s<€ð +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò3rr‘rÏr’rvrÐr“rÑr7rLrMrÓrNrOrÔr•cól•UbUOURRnUbUOURRnU bU OURRn URR(aU bU OURR n OSn UbUb[ S5eUb"URX5 UR5nO"UbUR5SSnO[ S5eUunnUbUROURnSnU b:[U [5(dU SSRSOU R5nUc[R"UUU-4US9nUc$[R "U[R"US9nUR%X/5nURR(aEUbBUR5unnnUU4nUc[R"UUS9nUR'U5nOSnUR)XPRR*5nUR-UUUUUS 9nUR/UUUUUU U UUU US 9nUSnUR0bUR1U5OSnU (d UU4USS-$[3UUUR4UR6UR8UR:S9$) NFzDYou cannot specify both input_ids and inputs_embeds at the same timerwz5You have to specify either input_ids or inputs_embedsrrÖ)r™r—)r‘rvr’r“r”) rÏrÐrÑr7rLrMrÓrNrOrÔr)rTÚ pooler_outputrLr·rUrV)r`rÓrNÚuse_return_dictrËrMrYÚ%warn_if_padding_and_no_attention_maskršr™rÚrrXÚget_seq_lengthr\Úonesr›rœÚget_extended_attention_maskÚinvert_attention_maskÚ get_head_maskrGrŸr’r“rrLr·rUrV)rr‘rÏr’rvrÐr“rÑr7rLrMrÓrNrOrÔrrêržr™r”Úextended_attention_maskÚencoder_batch_sizeÚencoder_sequence_lengthrëÚencoder_hidden_shapeÚencoder_extended_attention_maskÚembedding_outputÚencoder_outputsrxrºs r&r ÚRemBertModel.forwardªsé€ð$2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð ð&1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà;‰;×!×!Ø%.Ñ%:™ ÀÇÁ×@UÑ@U‰IàˆIàÑ ]Ñ%>ÜÐcÓdÐdØ Ñ "Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*‰KØ Ñ &Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUà!,Ñˆ JØ%.Ñ%:×!Ò!À ×@TÑ@Tˆà!"ÐØÑ&ô" /´5×9Ñ9ð Ñ" 1Ñ%×+Ñ+¨BÒ/à$×3Ñ3Ó5ð #ðÑ!Ü"ŸZšZ¨*°jÐCYÑ6YÐ)ZÐdjÑkˆNØÑ!Ü"Ÿ[š[¨¼E¿J¹JÈvÑVˆNð15×0PÑ0PÐQ_Ó0mÐð;‰;×!×!Ð&;Ñ&GØ=R×=WÑ=WÓ=YÑ:ÐÐ 7¸Ø$6Ð8OÐ#PÐ Ø%Ñ-Ü).¯ªÐ4HÐQWÑ)XÐ&Ø.2×.HÑ.HÐI_Ó.`Ñ+à.2Ð+ð×&Ñ& y·+±+×2OÑ2OÓPˆ àŸ?™?ØØ%Ø)Ø'Ø#9ð+ð ÐðŸ,™,ØØ2ØØ"7Ø#BØ+ØØ/Ø!5Ø#Ø)ð'ð ˆð*¨!Ñ,ˆØ8<¿¹Ñ8O˜Ÿ™ OÔ4ÐUYˆ æØ# ]Ð3°oÀaÀbÐ6IÑIÐIä;Ø-Ø'Ø+×;Ñ;Ø)×7Ñ7Ø&×1Ñ1Ø,×=Ñ=ñ ð r)r`rŸr’r“)T©NNNNNNNNNNNNNN)r¢r£r¤r¥rzršrr¢rrr\r§r¨rùrør©rrr rªr«r¬s@r&rrsŽø†÷ò /ò0òCðð15Ø59Ø59Ø37Ø15Ø59Ø=AØ>BØEIØ$(Ø,0Ø/3Ø&*Ø15ñm à˜E×,Ñ,Ñ-ðm ð! ×!1Ñ!1Ñ2ðm ð! ×!1Ñ!1Ñ2ð m ð ˜u×/Ñ/Ñ0ðm ð˜E×-Ñ-Ñ.ð m ð × 1Ñ 1Ñ2ðm ð (¨×(9Ñ(9Ñ:ðm ð!)¨×):Ñ):Ñ ;ðm ð" %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðm ð˜D‘>ðm ð$ D™>ðm ð' t™nðm ð˜d‘^ðm ð! §¡Ñ.ðm ð ˆuÐBÐBÑ Cô!m óöm rrcóÆ^•\rSrSrS/rU4SjrSrSr\SS\ \ RS\ \ RS\ \ RS \ \ RS \ \ RS\ \ RS\ \ RS \ \ RS\ \ RS\ \ S\ \ S\ \ S\\\44Sjj5rSSjr\S\ 4Sj5rSrU=r$)ÚRemBertForMaskedLMiúcls.predictions.decoder.weightcóÎ>•[TU]U5 UR(a[R S5 [USS9Ul[U5UlUR5 g)NznIf you want to use `RemBertForMaskedLM` make sure `config.is_decoder=False` for bi-directional self-attention.F©r•© ryrzrËrBÚwarningrrrtr,r”rŒs €r&rzÚRemBertForMaskedLM.__init__sRø€Ü ‰Ñ˜Ô à××ÜN‰Nð1ô ô $ F¸eÑDˆŒÜ% fÓ-ˆŒð ‰ÕrcóB•URRR$r!©r,rvror™s r&Úget_output_embeddingsÚ(RemBertForMaskedLM.get_output_embeddings.ó€Øx‰x×#Ñ#×+Ñ+Ð+rcó8•XRRlgr!r¿©rÚnew_embeddingss r&Úset_output_embeddingsÚ(RemBertForMaskedLM.set_output_embeddings1ó€Ø'5‰×ÑÕ$rr‘rÏr’rvrÐr“rÑr7ÚlabelsrÓrNrOr•c ó¢•UbUOURRnURUUUUUUUUU UUS9n U SnURU5nSnU bF[ 5nU"URSURR5U RS55nU(dU4U SS-nUbU4U-$U$[UUU RU RS9$)a{ labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*): Labels for computing the masked language modeling loss. Indices should be in `[-100, 0, ..., config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are ignored (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`. N) rÏr’rvrÐr“rÑr7rÓrNrOrrwr<©ÚlossÚlogitsr·rU) r`r¦rr,rrÙr|rr·rU)rr‘rÏr’rvrÐr“rÑr7rÉrÓrNrOrrxr{Úmasked_lm_lossÚloss_fctrs r&r ÚRemBertForMaskedLM.forward4s€ð,&1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØ)Ø)Ø%ØØ'Ø"7Ø#9Ø/Ø!5Ø#ðð ˆð" !™*ˆØ ŸH™H _Ó5ÐàˆØÑÜ'Ó)ˆHÙ%Ð&7×&<Ñ&<¸RÀÇÁ×AWÑAWÓ&XÐZ`×ZeÑZeÐfhÓZiÓjˆNæØ'Ð)¨G°A°B¨KÑ7ˆFØ3AÑ3M^Ð%¨Ñ.ÐYÐSYÐYäØØ$Ø!×/Ñ/Ø×)Ñ)ñ ð rcó†•URnUSnURRcS5e[R"X"RURSS45/SS9n[R"US4URR[RURS9n[R"X/SS9nXS.$)Nrz.The PAD token should be defined for generationrrwr×r—)r‘rÏ) rXr`r~r\ÚcatÚ new_zerosÚfullrœr™)rr‘rÏÚmodel_kwargsrÚeffective_batch_sizeÚdummy_tokens r&Úprepare_inputs_for_generationÚ0RemBertForMaskedLM.prepare_inputs_for_generationms³€Ø—o‘oˆØ*¨1™~Ðð{‰{×'Ñ'Ñ3ÐeÐ5eÓeÐ3ÜŸš N×4LÑ4LÈn×NbÑNbÐcdÑNeÐghÐMiÓ4jÐ#kÐqsÑtˆÜ—j’jØ ! 1Ð% t§{¡{×'?Ñ'?ÄuÇzÁzÐZc×ZjÑZjñ ˆô—I’I˜yÐ6¸AÑ>ˆ à&ÑIÐIrcó•g)z” Legacy correction: RemBertForMaskedLM can't call `generate()` from `GenerationMixin`, even though it has a `prepare_inputs_for_generation` method. Fr")r,s r&Úcan_generateÚRemBertForMaskedLM.can_generate{s€ðr©r,r)NNNNNNNNNNNNr!)r¢r£r¤r¥Ú_tied_weights_keysrzrÀrÆrrr\r§r¨rørrùrr rØÚclassmethodrÛrªr«r¬s@r&r·r·spø†à:Ð;Ðõ ò,ò6ðð15Ø59Ø59Ø37Ø15Ø59Ø=AØ>BØ-1Ø,0Ø/3Ø&*ñ6 à˜E×,Ñ,Ñ-ð6 ð! ×!1Ñ!1Ñ2ð6 ð! ×!1Ñ!1Ñ2ð 6 ð ˜u×/Ñ/Ñ0ð6 ð˜E×-Ñ-Ñ.ð 6 ð × 1Ñ 1Ñ2ð6 ð (¨×(9Ñ(9Ñ:ð6 ð!)¨×):Ñ):Ñ ;ð6 ð˜×)Ñ)Ñ*ð6 ð$ D™>ð6 ð' t™nð6 ð˜d‘^ð6 ð ˆunÐ$Ñ %ô6 óð6 ôpJðð˜Tóóörr·zS RemBERT Model with a `language modeling` head on top for CLM fine-tuning. c"óÜ^•\rSrSrS/rU4SjrSrSr\SS\ \ RS\ \ RS\ \ RS \ \ RS \ \ RS\ \ RS\ \ RS \ \ RS\ \ \ \ RS\ \ RS\ \S\ \S\ \S\ \S\\ \44Sjj5rSrU=r$)ÚRemBertForCausalLMi„r¸cóÎ>•[TU]U5 UR(d[R S5 [USS9Ul[U5UlUR5 g)NzOIf you want to use `RemBertForCausalLM` as a standalone, add `is_decoder=True.`Frºr»rŒs €r&rzÚRemBertForCausalLM.__init__ŒsLø€Ü ‰Ñ˜Ô à× × ÜN‰NÐlÔmä# F¸eÑDˆŒÜ% fÓ-ˆŒð ‰ÕrcóB•URRR$r!r¿r™s r&rÀÚ(RemBertForCausalLM.get_output_embeddings˜rÂrcó8•XRRlgr!r¿rÄs r&rÆÚ(RemBertForCausalLM.set_output_embeddings›rÈrr‘rÏr’rvrÐr“rÑr7rLrÉrMrÓrNrOr•cóš•UbUOURRnURUUUUUUUUU UUU US9 nUSnURU5nSnU b*UR"UU 4SURR 0UD6nU(dU4USS-nUbU4U-$U$[ UUURURURURS9$)a† labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*): Labels for computing the left-to-right language modeling loss (next word prediction). Indices should be in `[-100, 0, ..., config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are ignored (masked), the loss is only computed for the tokens with labels n `[0, ..., config.vocab_size]`. Example: ```python >>> from transformers import AutoTokenizer, RemBertForCausalLM, RemBertConfig >>> import torch >>> tokenizer = AutoTokenizer.from_pretrained("google/rembert") >>> config = RemBertConfig.from_pretrained("google/rembert") >>> config.is_decoder = True >>> model = RemBertForCausalLM.from_pretrained("google/rembert", config=config) >>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt") >>> outputs = model(**inputs) >>> prediction_logits = outputs.logits ```N)rÏr’rvrÐr“rÑr7rLrMrÓrNrOrr|r<)rÌrÍrLr·rUrV)r`r¦rr,Ú loss_functionr|rrLr·rUrV)rr‘rÏr’rvrÐr“rÑr7rLrÉrMrÓrNrOÚkwargsrrxr{Úlm_lossrs r&r ÚRemBertForCausalLM.forwardžs€ðR&1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØ)Ø)Ø%ØØ'Ø"7Ø#9Ø+ØØ/Ø!5Ø#ðð ˆð " !™*ˆØ ŸH™H _Ó5ÐàˆØÑØ×(Ò(Ø!Øñð Ÿ;™;×1Ñ1ððñ ˆGöØ'Ð)¨G°A°B¨KÑ7ˆFØ,3Ñ,?WJ Ñ'ÐKÀVÐKä0ØØ$Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ñ ð rrÝrµ)r¢r£r¤r¥rÞrzrÀrÆrrr\r§r¨rùrørrr rªr«r¬s@r&rárá„s•ø†ð;Ð;Ðõ ò,ò6ðð15Ø59Ø59Ø37Ø15Ø59Ø=AØ>BØEIØ-1Ø$(Ø,0Ø/3Ø&*ñQ à˜E×,Ñ,Ñ-ðQ ð! ×!1Ñ!1Ñ2ðQ ð! ×!1Ñ!1Ñ2ð Q ð ˜u×/Ñ/Ñ0ðQ ð˜E×-Ñ-Ñ.ð Q ð × 1Ñ 1Ñ2ðQ ð (¨×(9Ñ(9Ñ:ðQ ð!)¨×):Ñ):Ñ ;ðQ ð" %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðQ ð˜×)Ñ)Ñ*ðQ ð˜D‘>ðQ ð$ D™>ðQ ð' t™nðQ ð˜d‘^ðQ ð" ˆuÐ7Ð7Ñ 8ô#Q óöQ rrázŸ RemBERT Model transformer with a sequence classification/regression head on top (a linear layer on top of the pooled output) e.g. for GLUE tasks. cóR^•\rSrSrU4Sjr\SS\\RS\\RS\\RS\\RS\\RS\\RS \\RS \\ S\\ S\\ S \\\ 44Sjj5rSrU=r$)Ú RemBertForSequenceClassificationiócó0>•[TU]U5 URUl[U5Ul[ R"UR5Ul[ R"URUR5UlUR5 gr!© ryrzÚ num_labelsrrrr†Úclassifier_dropout_probrˆr±r²r;r”rŒs €r&rzÚ)RemBertForSequenceClassification.__init__úsiø€Ü ‰Ñ˜Ô Ø ×+Ñ+ˆŒÜ# FÓ+ˆŒÜ—z’z &×"@Ñ"@ÓAˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð ‰Õrr‘rÏr’rvrÐr“rÉrÓrNrOr•cóR•U bU OURRn URUUUUUUUU U S9 nUSnURU5nUR U5n SnUGbŽURR c‘URS:XaSURlOoURS:”aNUR[R:XdUR[R:XaSURlOSURlURR S:XaI[5nURS:Xa&U"U R5UR55nOŒU"X×5nOƒURR S:Xa=[5nU"U RSUR5URS55nO,URR S:Xa[5nU"X×5nU (dU 4USS-nUbU4U-$U$[!UU UR"UR$S 9$) ae labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*): Labels for computing the sequence classification/regression loss. Indices should be in `[0, ..., config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If `config.num_labels > 1` a classification loss is computed (Cross-Entropy). N©rÏr’rvrÐr“rÓrNrOrÚ regressionÚsingle_label_classificationÚmulti_label_classificationrwr<rË)r`r¦rrˆr;Úproblem_typerñr˜r\rœrVrÚsqueezerrÙrrr·rU)rr‘rÏr’rvrÐr“rÉrÓrNrOrrºrÍrÌrÏrs r&r Ú(RemBertForSequenceClassification.forwardsä€ð(&1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ðð ˆð ™ ˆ àŸ™ ]Ó3ˆ Ø—‘ Ó/ˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/ÞØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØØ!×/Ñ/Ø×)Ñ)ñ ð r©r;rˆrñr© NNNNNNNNNN)r¢r£r¤r¥rzrrr\r¨r§rørrùrr rªr«r¬s@r&rîrîósø†õðð26Ø6:Ø59Ø48Ø15Ø59Ø-1Ø,0Ø/3Ø&*ñE à˜E×-Ñ-Ñ.ðE ð! ×!2Ñ!2Ñ3ðE ð! ×!1Ñ!1Ñ2ð E ð ˜u×0Ñ0Ñ1ðE ð˜E×-Ñ-Ñ.ð E ð × 1Ñ 1Ñ2ðE ð˜×)Ñ)Ñ*ðE ð$ D™>ðE ð' t™nðE ð˜d‘^ðE ð ˆuÐ.Ð.Ñ /ôE óöE rrîcóR^•\rSrSrU4Sjr\SS\\RS\\RS\\RS\\RS\\RS\\RS \\RS \\ S\\ S\\ S \\\ 44Sjj5rSrU=r$)ÚRemBertForMultipleChoiceiMcóú>•[TU]U5 [U5Ul[R "UR5Ul[R"URS5Ul UR5 g)Nr)ryrzrrrr†ròrˆr±r²r;r”rŒs €r&rzÚ!RemBertForMultipleChoice.__init__OsVø€Ü ‰Ñ˜Ô ä# FÓ+ˆŒÜ—z’z &×"@Ñ"@ÓAˆŒÜŸ)š) F×$6Ñ$6¸Ó:ˆŒð ‰Õrr‘rÏr’rvrÐr“rÉrÓrNrOr•cóZ•U bU OURRn UbURSOURSnUb!URSUR S55OSnUb!URSUR S55OSnUb!URSUR S55OSnUb!URSUR S55OSnUb1URSUR S5UR S55OSnURUUUUUUUU U S9 nUSn UR U 5n URU 5nURSU5nSnUb[5nU"X÷5nU (dU4USS-nUbU4U-$U$[UUURURS9$)a› input_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`): Indices of input sequence tokens in the vocabulary. Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and [`PreTrainedTokenizer.__call__`] for details. [What are input IDs?](../glossary#input-ids) token_type_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*): Segment token indices to indicate first and second portions of the inputs. Indices are selected in `[0, 1]`: - 0 corresponds to a *sentence A* token, - 1 corresponds to a *sentence B* token. [What are token type IDs?](../glossary#token-type-ids) position_ids (`torch.LongTensor` of shape `(batch_size, num_choices, sequence_length)`, *optional*): Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0, config.max_position_embeddings - 1]`. [What are position IDs?](../glossary#position-ids) inputs_embeds (`torch.FloatTensor` of shape `(batch_size, num_choices, sequence_length, hidden_size)`, *optional*): Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This is useful if you want more control over how to convert *input_ids* indices into associated vectors than the model's internal embedding lookup matrix. labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*): Labels for computing the multiple choice classification loss. Indices should be in `[0, ..., num_choices-1]` where `num_choices` is the size of the second dimension of the input tensors. (See `input_ids` above) NrrwrÖrõr<rË)r`r¦rXrÙršrrˆr;rrr·rU)rr‘rÏr’rvrÐr“rÉrÓrNrOÚnum_choicesrrºrÍÚreshaped_logitsrÌrÏrs r&r Ú RemBertForMultipleChoice.forwardYsÜ€ðX&1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ,5Ñ,Ai—o‘o aÒ(À}×GZÑGZÐ[\ÑG]ˆà>GÑ>SI—N‘N 2 y§~¡~°bÓ'9Ô:ÐY]ˆ ØM[ÑMg˜×,Ñ,¨R°×1DÑ1DÀRÓ1HÔIÐmqˆØM[ÑMg˜×,Ñ,¨R°×1DÑ1DÀRÓ1HÔIÐmqˆØGSÑG_|×(Ñ(¨¨\×->Ñ->¸rÓ-BÔCÐeiˆðÑ(ð ×Ñ˜r =×#5Ñ#5°bÓ#9¸=×;MÑ;MÈbÓ;QÔRàð ð—,‘,ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ðð ˆð ™ ˆ àŸ™ ]Ó3ˆ Ø—‘ Ó/ˆØ Ÿ+™+ b¨+Ó6ˆàˆØÑÜ'Ó)ˆHÙ˜OÓ4ˆDæØ%Ð'¨'°!°"¨+Ñ5ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä(ØØ"Ø!×/Ñ/Ø×)Ñ)ñ ð r)r;rˆrrý)r¢r£r¤r¥rzrrr\r¨r§rørrùrr rªr«r¬s@r&rÿrÿMsø†õðð26Ø6:Ø59Ø48Ø15Ø59Ø-1Ø,0Ø/3Ø&*ñX à˜E×-Ñ-Ñ.ðX ð! ×!2Ñ!2Ñ3ðX ð! ×!1Ñ!1Ñ2ð X ð ˜u×0Ñ0Ñ1ðX ð˜E×-Ñ-Ñ.ð X ð × 1Ñ 1Ñ2ðX ð˜×)Ñ)Ñ*ðX ð$ D™>ðX ð' t™nðX ð˜d‘^ðX ð ˆuÐ/Ð/Ñ 0ôX óöX rrÿcóR^•\rSrSrU4Sjr\SS\\RS\\RS\\RS\\RS\\RS\\RS \\RS \\ S\\ S\\ S \\\ 44Sjj5rSrU=r$)ÚRemBertForTokenClassificationiµcó.>•[TU]U5 URUl[USS9Ul[ R"UR5Ul[ R"URUR5UlUR5 g©NFrºrðrŒs €r&rzÚ&RemBertForTokenClassification.__init__·skø€Ü ‰Ñ˜Ô Ø ×+Ñ+ˆŒä# F¸eÑDˆŒÜ—z’z &×"@Ñ"@ÓAˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð ‰Õrr‘rÏr’rvrÐr“rÉrÓrNrOr•có¬•U bU OURRn URUUUUUUUU U S9 nUSnURU5nUR U5n SnUb<[5nU"U R SUR5UR S55nU (dU 4USS-nUbU4U-$U$[UU URURS9$)zÃ labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*): Labels for computing the token classification loss. Indices should be in `[0, ..., config.num_labels - 1]`. Nrõrrwr<rË)r`r¦rrˆr;rrÙrñrr·rU)rr‘rÏr’rvrÐr“rÉrÓrNrOrrxrÍrÌrÏrs r&r Ú%RemBertForTokenClassification.forwardÂsö€ð$&1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ðð ˆð" !™*ˆàŸ,™, Ó7ˆØ—‘ Ó1ˆàˆØÑÜ'Ó)ˆHÙ˜FŸK™K¨¨D¯O©OÓ<¸f¿k¹kÈ"»oÓNˆDæØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ ð rrürý)r¢r£r¤r¥rzrrr\r¨r§rørrùrr rªr«r¬s@r&rrµsø†õ ðð26Ø6:Ø59Ø48Ø15Ø59Ø-1Ø,0Ø/3Ø&*ñ2 à˜E×-Ñ-Ñ.ð2 ð! ×!2Ñ!2Ñ3ð2 ð! ×!1Ñ!1Ñ2ð 2 ð ˜u×0Ñ0Ñ1ð2 ð˜E×-Ñ-Ñ.ð 2 ð × 1Ñ 1Ñ2ð2 ð˜×)Ñ)Ñ*ð2 ð$ D™>ð2 ð' t™nð2 ð˜d‘^ð2 ð ˆuÐ+Ð+Ñ ,ô2 óö2 rrcór^•\rSrSrU4Sjr\SS\\RS\\RS\\RS\\RS\\RS\\RS \\RS \\RS\\ S\\ S \\ S\\\ 44Sjj5rSrU=r$)ÚRemBertForQuestionAnsweringiøcóä>•[TU]U5 URUl[USS9Ul[ R"URUR5UlUR5 gr ) ryrzrñrrrr±r²Ú qa_outputsr”rŒs €r&rzÚ$RemBertForQuestionAnswering.__init__úsUø€Ü ‰Ñ˜Ô à ×+Ñ+ˆŒä# F¸eÑDˆŒÜŸ)š) F×$6Ñ$6¸×8IÑ8IÓJˆŒð ‰Õrr‘rÏr’rvrÐr“Ústart_positionsÚ end_positionsrÓrNrOr•cóì•UbUOURRnURUUUUUUU U US9 nUSn URU 5nUR SSS9unnURS5nURS5nSnUb¶Ub³[ UR55S:”aURS5n[ UR55S:”aURS5nURS5nURSU5 URSU5 [US9nU"X÷5nU"UU5nUU-S-nU(dUU4USS-nUbU4U-$U$[UUUURURS9$) Nrõrrrwr×)Úignore_indexr<)rÌÚstart_logitsÚ end_logitsr·rU) r`r¦rrrOrúrUršÚclamp_rrr·rU)rr‘rÏr’rvrÐr“rrrÓrNrOrrxrÍrrÚ total_lossÚ ignored_indexrÏÚ start_lossÚend_lossrs r&r Ú#RemBertForQuestionAnswering.forwardsª€ð&1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—,‘,ØØ)Ø)Ø%ØØ'Ø/Ø!5Ø#ðð ˆð" !™*ˆà—‘ Ó1ˆØ#)§<¡<°°r <Ð#:Ñ ˆjØ#×+Ñ+¨BÓ/ˆØ×'Ñ'¨Ó+ˆ àˆ ØÑ&¨=Ñ+Dä?×'Ñ'Ó)Ó*¨QÓ.Ø"1×"9Ñ"9¸"Ó"=Ü=×%Ñ%Ó'Ó(¨1Ó,Ø -× 5Ñ 5°bÓ 9 à(×-Ñ-¨aÓ0ˆMØ×"Ñ" 1 mÔ4Ø× Ñ MÔ2ä'°]ÑCˆHÙ! ,Ó@ˆJÙ ¨MÓ:ˆHØ$ xÑ/°1Ñ4ˆJæØ" JÐ/°'¸!¸"°+Ñ=ˆFØ/9Ñ/EZM FÑ*ÐQÈ6ÐQä+ØØ%Ø!Ø!×/Ñ/Ø×)Ñ)ñ ð r)rñrr)NNNNNNNNNNN)r¢r£r¤r¥rzrrr\r¨r§rørrùrr rªr«r¬s@r&rrøs$ø†õ ðð26Ø6:Ø59Ø48Ø15Ø59Ø6:Ø48Ø,0Ø/3Ø&*ñ> à˜E×-Ñ-Ñ.ð> ð! ×!2Ñ!2Ñ3ð> ð! ×!1Ñ!1Ñ2ð > ð ˜u×0Ñ0Ñ1ð> ð˜E×-Ñ-Ñ.ð > ð × 1Ñ 1Ñ2ð> ð" %×"2Ñ"2Ñ3ð> ð × 0Ñ 0Ñ1ð> ð$ D™>ð> ð' t™nð> ð˜d‘^ð> ð ˆuÐ2Ð2Ñ 3ô> óö> rr) rár·rÿrrîrr.rr~rn)Dr¦rärDÚtypingrrr\Útorch.utils.checkpointrÚtorch.nnrrrÚactivationsr Úcache_utilsrrÚ generationr Úmodeling_layersrÚmodeling_outputsrrrrrrrrÚmodeling_utilsrÚ pytorch_utilsrrrÚutilsrrÚconfiguration_rembertrÚ get_loggerr¢rBrnÚModulerpr®r¾rûrrr(r.rBrerlrtr~rr·rárîrÿrrÚ__all__r"rr&Úr-sNðñãÛ ß"ãÛÝßAÑAå!ß5Ý)Ý9÷ ÷ ó õ.ßlÑlß,Ý0ð × Ò ˜HÓ %€òPôf3˜Ÿ ™ ô3ônB—I‘Iôôg.˜2Ÿ9™9ôg.ôV˜Ÿ ™ ôô0r—y‘yô0ôh˜"Ÿ)™)ôô B—I‘IôôDÐ-ôDôN[ R—Y‘Yô[ ô~ R§Y¡Yôô" ˜bŸi™iô ô"!˜Ÿ™ô!ðô*˜_ó*óð*ñ.ð ñôM Ð)óM óðM ð`ôeÐ/óeóðeñPðñô g Ð/°óg óð g ñTðñôQ Ð'=óQ ó ðQ ðhôd Ð5ód óðd ðNô? Ð$:ó? óð? ðDôK Ð"8óK óðK ò\r