Ë
    áŒìh]<  ã                   óð   — d dl Z d dlmZ d dlmZ d dlmZmZmZ d dl	m
Z
 ddlmZ ddlmZ erd	d
lmZ d	dlmZmZmZmZmZmZmZmZ  e«       r
d dlZd	dlmZ  ej:                  e«      Z G d„ de«      Z y)é    N)Údefaultdict)Úcached_property)ÚTYPE_CHECKINGÚOptionalÚUnion)Úversioné   )ÚHfQuantizer)Úget_module_from_nameé   )ÚPreTrainedModel)ÚACCELERATE_MIN_VERSIONÚis_accelerate_availableÚis_bitsandbytes_availableÚis_torch_availableÚis_torch_hpu_availableÚis_torch_npu_availableÚis_torch_xpu_availableÚlogging)ÚConv1Dc                   ó4  ‡ — e Zd ZdZdZdZdZddgZˆ fd„Zd„ Z	d d	„Z
d
ee   dee   fd„Zdddedefd„Zdddddeddfd„Zdeeeeef   f   deeeeef   f   fd„Zd!d„Zd„ Z	 d"dddeee      fd„Zd#d„Zd"d„Zedefd„«       Zedefd„«       Zd„ Zˆ xZ S )$ÚBnb4BitHfQuantizerað  
    4-bit quantization from bitsandbytes.py quantization method:
        before loading: converts transformer layers into Linear4bit during loading: load 16bit weight and pass to the
        layer object after: quantizes individual weights in Linear4bit into 4bit at the first .cuda() call
        saving:
            from state dict, as usual; saves weights and `quant_state` components
        loading:
            need to locate `quant_state` components and pass to Param4bit constructor
    TFÚbitsandbytesÚ
acceleratec                 ó2  •— t        ‰|   |fi |¤Ž | j                  j                  | j                  j                  | _        d| j                  j
                  › ddg| _        | j                  j                  r| j                  j                  ddg«       y y )Nzquant_state.bitsandbytes__ÚabsmaxÚ	quant_mapÚnested_absmaxÚnested_quant_map)	ÚsuperÚ__init__Úquantization_configÚllm_int8_skip_modulesÚmodules_to_not_convertÚbnb_4bit_quant_typeÚbnb_keysÚbnb_4bit_use_double_quantÚextend)Úselfr"   ÚkwargsÚ	__class__s      €úi/var/www/html/aiagenthome/venv/lib/python3.12/site-packages/transformers/quantizers/quantizer_bnb_4bit.pyr!   zBnb4BitHfQuantizer.__init__A   s’   ø€ Ü‰ÑÐ,Ñ7°Ò7à×#Ñ#×9Ñ9ÐEØ*.×*BÑ*B×*XÑ*XˆDÔ'ð )¨×)AÑ)A×)UÑ)UÐ(VÐWØØð
ˆŒð
 ×#Ñ#×=Ò=ØM‰M× Ñ  /Ð3EÐ!FÕGð >ó    c                 ór  — t        «       st        dt        › d«      ‚t        d¬«      st        d«      ‚t	        «       st        d«      ‚t        j                  t        j                  j                  d«      «      t        j                  d«      k  r)t        j                  j                  «       st        d	«      ‚d
dlm} d
dlm}  |«       } |d¬«       |j!                  dd«      s|j!                  dd«      rt#        d«      ‚|j!                  d«      }|št%        |t&        «      r‰| j(                  j*                  sr|D ci c]  }|| j,                  vsŒ|||   “Œ }}t/        |j1                  «       «      dhk(  r|ry d|j1                  «       v sd|j1                  «       v rt#        d«      ‚y y y y c c}w )NzWUsing `bitsandbytes` 4-bit quantization requires Accelerate: `pip install 'accelerate>=z'`T)Úcheck_library_onlyzrUsing `bitsandbytes` 4-bit quantization requires the latest version of bitsandbytes: `pip install -U bitsandbytes`z€The bitsandbytes library requires PyTorch but it was not found in your environment. You can install it with `pip install torch`.r   z0.43.1z°The installed version of bitsandbytes (<0.43.1) requires CUDA, but CUDA is not available. You may need to install PyTorch with CUDA support or upgrade bitsandbytes to >=0.43.1.r   )Ú!validate_bnb_backend_availability)Ú'is_bitsandbytes_multi_backend_available)Úraise_exceptionÚfrom_tfFÚ	from_flaxz‹Converting into 4-bit or 8-bit weights from tf/flax weights is currently not supported, please make sure the weights are in PyTorch format.Ú
device_mapÚcpuÚdiska¾  Some modules are dispatched on the CPU or the disk. Make sure you have enough GPU RAM to fit the quantized model. If you want to dispatch the model on the CPU or the disk while keeping these modules in 32-bit, you need to set `llm_int8_enable_fp32_cpu_offload=True` and pass a custom `device_map` to `from_pretrained`. Check https://huggingface.co/docs/transformers/main/en/main_classes/quantization#offload-between-cpu-and-gpu for more details. )r   ÚImportErrorr   r   r   r   ÚparseÚ	importlibÚmetadataÚtorchÚcudaÚis_availableÚintegrationsr0   Úutilsr1   ÚgetÚ
ValueErrorÚ
isinstanceÚdictr"   Ú llm_int8_enable_fp32_cpu_offloadr$   ÚsetÚvalues)	r)   Úargsr*   r0   r1   Úbnb_multibackend_is_enabledr5   ÚkeyÚdevice_map_without_lm_heads	            r,   Úvalidate_environmentz'Bnb4BitHfQuantizer.validate_environmentP   sÖ  € Ü&Ô(ÜØiô  kAð  jBð  BDð  Eóð ô )¸DÕAÜð Eóð ô "Ô#Üð?óð ô =‰=œ×+Ñ+×3Ñ3°NÓCÓDÄwÇ}Á}ÐU]ÓG^Ò^Ü—:‘:×*Ñ*Ô,Ü!ðmóð õ
 	EÝCá&MÓ&OÐ#Ù)¸$Õ?à:‰:i Ô'¨6¯:©:°kÀ5Ô+IÜð;óð ð
 —Z‘Z Ó-ˆ
àÐ"Ü˜:¤tÔ,Ø×,Ñ,×MÒMñ 1;ó*Ù0:¨¸cÈ×IdÑIdÒ>dZ ‘_Ñ$°
ð 'ð *ô :×$Ñ$Ó&Ó'¨E¨7Ò2Ñ7RØØÐ4×;Ñ;Ó=Ñ=ÀÐKe×KlÑKlÓKnÑAnÜ ð)óð ð Boð Nð -ð #ùò*s   ÅF4ÅF4Úreturnc                 ó  — t        j                  t        j                  j                  d«      «      t        j                  d«      kD  r:ddlm} |t        j                  k7  rt        j                  d«       |j                  S t        d«      ‚)Nr   z0.19.0r   )ÚCustomDtypezXtarget_dtype {target_dtype} is replaced by `CustomDtype.INT4` for 4-bit BnB quantizationaU  You are using `device_map='auto'` on a 4bit loaded version of the model. To automatically compute the appropriate device map, you should upgrade your `accelerate` library,`pip install --upgrade accelerate` or install it from source to support fp4 auto device mapcalculation. You may encounter unexpected behavior, or pass your own device map)r   r9   r:   r;   Úaccelerate.utilsrO   r<   Úint8ÚloggerÚinfoÚINT4rB   )r)   Útarget_dtyperO   s      r,   Úadjust_target_dtypez&Bnb4BitHfQuantizer.adjust_target_dtypeˆ   si   € Ü=‰=œ×+Ñ+×3Ñ3°LÓAÓBÄWÇ]Á]ÐS[ÓE\Ò\Ý4àœuŸz™zÒ)Ü—‘ÐvÔwØ×#Ñ#Ð#äðbóð r-   Úunexpected_keysc                 ón   ‡— |D ‡cg c]#  Št        ˆfd„| j                  D «       «      rŒ"‰‘Œ% c}S c c}w )Nc              3   ó@   •K  — | ]  }‰j                  |«      –— Œ y ­w©N©Úendswith)Ú.0ÚxÚks     €r,   Ú	<genexpr>z<Bnb4BitHfQuantizer.update_unexpected_keys.<locals>.<genexpr>˜   s   øè ø€ Ð5[É]È°a·j±jÀ·mÉ]ùó   ƒ)Úanyr&   )r)   ÚmodelrW   r_   s      `r,   Úupdate_unexpected_keysz)Bnb4BitHfQuantizer.update_unexpected_keys—   s,   ø€ Ù*Ô\™?a´#Ó5[ÈTÏ]Ê]Ó5[Õ2[’˜?Ñ\Ð\ùÒ\s   ‡#2«2rc   r   Ú
param_namec                 ó¶   ‡— dd l }t        ˆfd„| j                  D «       «      ryt        |‰«      \  }}t	        ||j
                  j                  «      xr |dk7  S )Nr   c              3   ó@   •K  — | ]  }‰j                  |«      –— Œ y ­wrZ   r[   ©r]   r^   re   s     €r,   r`   z>Bnb4BitHfQuantizer.param_needs_quantization.<locals>.<genexpr>ž   s   øè ø€ Ð=©}¨!ˆz×"Ñ" 1×%©}ùra   TÚbias)r   rb   r&   r   rC   ÚnnÚ
Linear4bit)r)   rc   re   r*   ÚbnbÚmoduleÚnames     `    r,   Úparam_needs_quantizationz+Bnb4BitHfQuantizer.param_needs_quantizationš   sM   ø€ Û"ô Ó=¨t¯}ª}Ó=Ô=ØÜ+¨E°:Ó>‰ˆÜ˜& #§&¡&×"3Ñ"3Ó4ÒG¸À¹ÐGr-   Úparam_valueztorch.TensorÚtarget_deviceztorch.devicec                 ó€  ‡— dd l }t        ˆfd„| j                  D «       «      }‰}|r.d‰vr‰j                  dd«      d   n‰j                  dd«      d   Št	        |‰«      \  }	}
t        |t        «      rt        «       rd|› }| j                  r‰j                  dd«      d   }t        | d«      st        t        «      | _        | j                  |   j                  ||i«       t        | j                  |   «      t        | j                  «      dz   k(  r‰i }| j                  r|	|d	<   | j                  |   j!                  |› d
«      } |j"                  j$                  j&                  d|| j                  |   d|dœ|¤Ž}||	j(                  |
<   | j                  |= y y |j+                  d«      }t-        |	|
«      }t/        |	j0                  t2        «      r|j4                  }|j6                  }|j!                  dd «        |j"                  j$                  |fddi|¤Žj+                  |«      }||	j(                  |
<   y )Nr   c              3   ó@   •K  — | ]  }‰j                  |«      –— Œ y ­wrZ   r[   rh   s     €r,   r`   z<Bnb4BitHfQuantizer.create_quantized_param.<locals>.<genexpr>­   s   øè ø€ ÐJ¹M°q˜J×/Ñ/°×2¹Mùra   zquant_state.Ú.r	   r   únpu:Úparam_quant_statsrm   z.weightF)ÚdataÚquantized_statsÚrequires_gradÚdevicer6   Ú_is_hf_initializedry   © )r   rb   r&   Úrsplitr   rC   Úintr   Úpre_quantizedÚhasattrr   rD   rv   ÚupdateÚlenÚ$is_bnb_supports_quant_storage_moduleÚpoprj   Ú
Params4bitÚfrom_prequantizedÚ_parametersÚtoÚgetattrÚ
issubclassÚ
source_clsr   ÚTÚ__dict__)r)   rc   rp   re   rq   r*   rl   Úis_quant_statÚ	full_namerm   Útensor_nameÚmodule_nameÚparam_kwargsÚweightÚ	new_valueÚ	old_values      `            r,   Úcreate_quantized_paramz)Bnb4BitHfQuantizer.create_quantized_param£   s?  ø€ ó 	#äÓJ¸D¿MºMÓJÓJˆØˆ	Ùà0>ÀjÑ0P
×!Ñ! # qÓ)¨!Ò,ÐV`×VgÑVgÐhkÐmnÓVoÐpqÑVrð ô 3°5¸*ÓEÑˆô m¤SÔ)Ô.DÔ.FØ" = /Ð2ˆMð ×ÓØ$×+Ñ+¨C°Ó3°AÑ6ˆKä˜4Ð!4Ô5Ü)4´TÓ):Ô&Ø×"Ñ" ;Ñ/×6Ñ6¸	À;Ð7OÔPô 4×)Ñ)¨+Ñ6Ó7¼3¸t¿}¹}Ó;MÐPQÑ;QÒQØ!Ø×<Ò<Ø-3L Ñ*à×/Ñ/°Ñ<×@Ñ@ÀKÀ=ÐPWÐAXÓYØ?˜CŸF™F×-Ñ-×?Ñ?ð ØØ$(×$:Ñ$:¸;Ñ$GØ"'Ø(ñ	ð
 #ñ	ð 3<×"Ñ" ;Ñ/à×*Ñ*¨;Ñ7ð! Rð$ $Ÿ™ uÓ-ˆIÜ ¨Ó4ˆIô ˜&×+Ñ+¬VÔ4Ø%ŸK™K	à×'Ñ'ˆFØJ‰JÐ+¨TÔ2Ø)˜Ÿ™×)Ñ)¨)ÑSÀ5ÐSÈFÑS×VÑVÐWdÓeˆIà.7ˆF×Ñ˜{Ò+r-   Ú
max_memoryc                 ó^   — |j                  «       D ci c]  \  }}||dz  “Œ }}}|S c c}}w )NgÍÌÌÌÌÌì?)Úitems)r)   r—   rJ   Úvals       r,   Úadjust_max_memoryz$Bnb4BitHfQuantizer.adjust_max_memoryã   s9   € à6@×6FÑ6FÔ6HÔIÑ6H©(¨#¨sc˜3 ™:‘oÐ6Hˆ
ÑIØÐùó Js   ”)c                 óV   — |€&t         j                  d|«       t        j                  }|S )NzÿOverriding dtype=%s with `dtype=torch.float16` due to requirements of `bitsandbytes` to enable model loading in 8-bit or 4-bit. Pass your own dtype to specify the dtype of the remaining non-linear layers or pass dtype=torch.float16 to remove this warning.)rR   rS   r<   Úfloat16)r)   Údtypes     r,   Úupdate_dtypezBnb4BitHfQuantizer.update_dtypeé   s-   € Øˆ=äK‰Kð?ð ôô —M‘MˆEØˆr-   c                 óÐ  — |€ãt         j                  j                  «       r!dt         j                  j                  «       i}n‹t	        «       r$ddt         j
                  j                  «       › i}n]t        «       r$ddt         j                  j                  «       › i}n/t        «       r!dt         j                  j                  «       i}nddi}t        j                  d|› d«       |S )NÚ ru   zhpu:r6   z:The device_map was not initialized. Setting device_map to zL. If you want to use the model for inference, please set device_map ='auto' )r<   r=   r>   Úcurrent_devicer   Únpur   Úhpur   ÚxpurR   rS   )r)   r5   s     r,   Úupdate_device_mapz$Bnb4BitHfQuantizer.update_device_mapö   sÉ   € ØÐÜz‰z×&Ñ&Ô(Ø ¤%§*¡*×";Ñ";Ó"=Ð>‘
Ü'Ô)Ø  D¬¯©×)AÑ)AÓ)CÐ(DÐ"EÐF‘
Ü'Ô)Ø  D¬¯©×)AÑ)AÓ)CÐ(DÐ"EÐF‘
Ü'Ô)Ø ¤%§)¡)×":Ñ":Ó"<Ð=‘
à  %˜[
ÜK‰Kð)Ø)3¨ð 5]ð]ôð
 Ðr-   Úkeep_in_fp32_modulesc                 ó&  — ddl m} | j                  j                  }| j	                  || j                  j
                  |«      | _        t        |t        «      ryt        |j                  «       «      dkD  r]|j                  «       D cg c]  \  }}|dv sŒ|‘Œ }	}}t        |	«      dkD  r|st        d«      ‚| j                  j                  |	«        ||| j                  | j                  ¬«      }| j                  |j                  _        y c c}}w )Nr   )Úreplace_with_bnb_linearr	   )r7   r6   r   z¹If you want to offload some keys to `cpu` or `disk`, you need to set `llm_int8_enable_fp32_cpu_offload=True`. Note that these modules will not be  converted to 8-bit but kept in 32-bit.)r$   r"   )r?   r©   r"   rE   Úget_modules_to_not_convertr#   r$   rC   rD   r‚   Úkeysr™   rB   r(   Úconfig)
r)   rc   r5   r§   r*   r©   rE   rJ   ÚvalueÚkeys_on_cpus
             r,   Ú$_process_model_before_weight_loadingz7Bnb4BitHfQuantizer._process_model_before_weight_loading
  sú   € õ 	;à+/×+CÑ+C×+dÑ+dÐ(à&*×&EÑ&EØ4×+Ñ+×AÑAÐCWó'
ˆÔ#ô
 j¤$Ô'¬C°
·±Ó0AÓ,BÀQÒ,FØ1;×1AÑ1AÔ1CÔ`Ñ1C¡: 3¨ÀuÐP_ÒG_š3Ð1CˆKÑ`ä;Ó !Ò#Ñ,LÜ ð>óð ð
 ×'Ñ'×.Ñ.¨{Ô;á'Ø¨$×*EÑ*EÐ[_×[sÑ[sô
ˆð ,0×+CÑ+Cˆ‰Õ(ùó as   ÂDÂDc                 ó>   — d|_         | j                  «       |_        |S ©NT)Úis_loaded_in_4bitÚis_serializableÚis_4bit_serializable)r)   rc   r*   s      r,   Ú#_process_model_after_weight_loadingz6Bnb4BitHfQuantizer._process_model_after_weight_loading,  s    € Ø"&ˆÔØ%)×%9Ñ%9Ó%;ˆÔ"Øˆr-   c                 óÄ   — t        j                  t        j                  j                  d«      «      t        j                  d«      k\  }|st        j                  d«       yy)Nr   z0.41.3zÇYou are calling `save_pretrained` to a 4-bit converted model, but your `bitsandbytes` version doesn't support it. If you want to save 4-bit models, make sure to have `bitsandbytes>=0.41.3` installed.FT)r   r9   r:   r;   rR   Úwarning)r)   Úsafe_serializationÚ_is_4bit_serializables      r,   r³   z"Bnb4BitHfQuantizer.is_serializable1  sQ   € Ü '§¡¬i×.@Ñ.@×.HÑ.HÈÓ.XÓ YÔ]d×]jÑ]jÐksÓ]tÑ tÐá$ÜN‰Nðhôð àr-   c                 ó’   — t        j                  t        j                  j                  d«      «      t        j                  d«      k\  S )zž
        determines if the current version of bitsandbytes supports
        the `module` parameter in `Params4bit.from_prequantized`
        :return:
        r   z0.43.3)r   r9   r:   r;   ©r)   s    r,   rƒ   z7Bnb4BitHfQuantizer.is_bnb_supports_quant_storage_module=  s3   € ô }‰}œY×/Ñ/×7Ñ7¸ÓGÓHÌGÏMÉMÐZbÓLcÑcÐcr-   c                  ó   — yr±   r|   r»   s    r,   Úis_trainablezBnb4BitHfQuantizer.is_trainableF  s   € àr-   c                 óP   — ddl m}  ||| j                  | j                  ¬«      }|S )Nr   )Údequantize_and_replace)r"   )r?   r¿   r$   r"   )r)   rc   r¿   s      r,   Ú_dequantizezBnb4BitHfQuantizer._dequantizeJ  s)   € Ý9á&Ø4×.Ñ.ÀD×D\ÑD\ô
ˆð ˆr-   )rU   útorch.dtyperM   rÁ   )rž   rÁ   rM   rÁ   rZ   )rc   r   )!Ú__name__Ú
__module__Ú__qualname__Ú__doc__Úuse_keep_in_fp32_modulesÚ requires_parameters_quantizationÚrequires_calibrationÚrequired_packagesr!   rL   rV   ÚlistÚstrrd   Úboolro   r–   rD   r   r~   r›   rŸ   r¦   r   r¯   rµ   r³   r   rƒ   Úpropertyr½   rÀ   Ú__classcell__)r+   s   @r,   r   r   0   s[  ø„ ñð  $ÐØ'+Ð$Ø Ðà'¨Ð6ÐôHò6ópð]¸TÀ#¹Yð ]È4ÐPSÉ9ó ]ðHÐ.?ð HÈSð HÐ_có Hð=8à ð=8ð $ð=8ð ð	=8ð
 &ó=8ð@¨D°°e¸CÀ¸H±oÐ1EÑ,Fð È4ÐPSÐUZÐ[^Ð`cÐ[cÑUdÐPdÑKeó óòð0 59ñ	Dà ðDð ' t¨C¡yÑ1ó	DóDó

ð ðd°dò dó ðdð ð˜dò ó ðör-   r   )!r:   Úcollectionsr   Ú	functoolsr   Útypingr   r   r   Ú	packagingr   Úbaser
   Úquantizers_utilsr   Úmodeling_utilsr   r@   r   r   r   r   r   r   r   r   r<   Úpytorch_utilsr   Ú
get_loggerrÂ   rR   r   r|   r-   r,   Ú<module>rØ      sd   ðó Ý #Ý %ß 1Ñ 1å å Ý 2ñ Ý0÷	÷ 	ó 	ñ ÔÛå&à	ˆ×	Ñ	˜HÓ	%€ô`˜õ `r-   