ó <±hêãóR•SSKJr SSKrSSKJrJr SSKJr \R"\ 5r \"5rSS\RRS\RS\RS \RS \\RS\S\\S \\S\\S\\RS44Sjjrg)é)ÚOptionalNé)Ú_flash_attention_forwardÚ!flash_attn_supports_top_left_mask)ÚloggingÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚdropoutÚscalingÚsliding_windowÚsoftcapÚreturnc óª•U RSS5(dU RS5b[RS5 URSn [ SUR55(a[S5eUR SS5nUR SS5nUR SS5nSnUR[R:Xa–[R"5(a[R"5nOf[URS 5(aURRnO4[S UR!555R"RnU R%SS5 ['UUUU4U UR(UUUU[*UURR,[US5(aUR.OSS . U D6nUS4$)NÚoutput_attentionsFÚ head_maskz•`flash_attention_2` does not support `output_attentions=True` or `head_mask`. Please set your attention to `eager` if you want any of these features.rc3ó(# •UH oS:Hv• M g7f)rN©)Ú.0Údims Úa/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/integrations/flash_attention.pyÚ Ú*flash_attention_forward..#sé€Ð +™{˜!Ž8š{ùs‚z•Tensor query has shape with a zero dimension. FlashAttention does not support inputs with dim=0. Please check your input shapes or use SDPA instead.éÚ_pre_quantization_dtypec3óz# •UH2n[U[RR5(dM.Uv• M4 g7f)N)Ú isinstanceÚtorchÚnnÚLinear)rÚlayers rrr;s+é€ÐjÑ3C¨%ÄzÐRWÔY^×YaÑYa×YhÑYh×Gi§¡Ò3Cùs‚,;² ;Ú is_causalÚ layer_idx) Úquery_lengthr$r Ú softmax_scalerrÚuse_top_left_maskÚtarget_dtypeÚattn_implementationr%)ÚgetÚloggerÚwarning_onceÚshapeÚanyÚ ValueErrorÚ transposeÚdtyper Úfloat32Úis_autocast_enabledÚget_autocast_gpu_dtypeÚhasattrÚconfigrÚnextÚmodulesÚweightÚpoprr$Ú_use_top_left_maskÚ_attn_implementationr%) rr r rrr rrrÚkwargsÚseq_lenr)Úattn_outputs rÚflash_attention_forwardrAsŸ€ð‡zzÐ% u×-Ñ-°·±¸KÓ1HÑ1TÜ×Ñð Wô ðk‰k˜!‰n€Gä Ñ +˜uŸ{š{Ó +×+Ñ+Üð Bó ð ð O‰O˜A˜qÓ!€EØ -‰-˜˜1Ó €CØO‰O˜A˜qÓ!€Eð€LØ‡{{”e—m‘mÓ#Ü×$Ò$×&Ñ&Ü ×7Ò7Ó9‰Lä V—]‘]Ð$=× >Ñ >Ø!Ÿ=™=×@Ñ@‰LäÑj°6·>±>Ô3CÓjÓj×qÑq×wÑwˆLð‡JJˆ{˜DÔ!ä*Ø ØØ Øð ð Ø×"Ñ"ØØØ%ØÜ,Ø!Ø"ŸM™M×>Ñ>Ü&-¨f°k×&BÑ&B&×"Ò"Èñðñ€Kð$˜ÐÐó)gNNN)Útypingrr Úmodeling_flash_attention_utilsrrÚutilsrÚ get_loggerÚ__name__r,r<r!ÚModuleÚTensorÚfloatÚintÚtuplerArrBrÚrMsáðÝãçhÝð × Ò ˜HÓ %€á6Ó8ÐðØ#Ø$(Ø#ñDØH‰HO‰OðDà<‰<ðDð ‰ðDð<‰<ð Dð ˜UŸ\™\Ñ*ðDðð Dðe‰_ðDð˜S‘MðDðe‰_ðDðˆ5<‰<˜ÐÑöDrB