ó
    <±hà2  ã                   óî   • S SK JrJr  SSKJr  SSKJrJrJrJ	r	  SSK
Jr  SSKJr  \(       a  SSKJr  \" 5       (       a  S S	KJr  \" 5       (       a  S S
Kr\	R&                  " \5      rS r " S S\5      rg
)é    )ÚTYPE_CHECKINGÚAnyé   )Úprepare_for_hqq_linear)Úis_accelerate_availableÚis_hqq_availableÚis_torch_availableÚloggingé   )ÚHfQuantizer)Úget_module_from_name)ÚPreTrainedModel)Úremove_hook_from_moduleNc                 ób   • UR                  S5      S S nU nU H  nUR                  U   nM     U$ )NÚ.éÿÿÿÿ)ÚsplitÚ_modules)ÚmodelÚnameÚmodule_treeÚparentÚms        Ú]/var/www/html/shao/venv/lib/python3.13/site-packages/transformers/quantizers/quantizer_hqq.pyÚfind_parentr   %   s8   € Ø—*‘*˜S“/ # 2Ð&€KØ€FÛˆØ—‘ Ñ#Šñ à€Mó    c                   ó0  ^ • \ rS rSrSrSrSrSrS/rU 4S jr	S r
SS	S
\\   S\S\\   4S jrSS	S\\   S\\   S\\   4S jrSS	SSS\S\\\4   S\4
S jrSS	SSS\SSS\\\4   S\\   4S jrS r  S S jrS S jrS!S jr\S\4S j5       rSrU =r$ )"ÚHqqHfQuantizeré-   zÔ
HQQ quantizer base HF class.
nn.Linear modules are first tagged with quant_config in _process_model_before_weight_loading().
The actual quantization and offloading to the GPU is done in check_quantized_param().
FTÚhqqc                 óD   >• [         TU ]  " U40 UD6  S U l        SU l        g )NF)ÚsuperÚ__init__Útorch_dtypeÚusing_multi_gpu)ÚselfÚquantization_configÚkwargsÚ	__class__s      €r   r#   ÚHqqHfQuantizer.__init__9   s&   ø€ Ü‰ÒÐ,Ñ7°Ò7ØˆÔØ$ˆÕr   c                 óB  • [        5       (       d  [        S5      eUR                  SS5      (       d  UR                  SS5      (       a  [        S5      eU R                  c;  SU;   a  US   U l        O*[
        R                  U l        [        R                  S5        UR                  S5      n[        U[        5      (       a^  S	UR                  5       ;   d  S
UR                  5       ;   a  [        S5      e[        [        UR                  5       5      5      S:„  U l        g g )NzA valid HQQ version (>=0.2.1) is not available. Please follow the instructions to install it: `https://github.com/mobiusml/hqq/`.Úfrom_tfFÚ	from_flaxzwConverting weights from tf/flax weights is currently not supported, please make sure the weights are in PyTorch format.r$   zUSetting torch_dtype to torch.float32 as the default value since it was not specified.Ú
device_mapÚcpuÚdiskz­You are attempting to use an HQQ model with a device_map that contains a CPU or disk device. This is not supported. Please remove the CPU or disk device from the device_map.r   )r   ÚImportErrorÚgetÚ
ValueErrorr$   ÚtorchÚfloat32ÚloggerÚinfoÚ
isinstanceÚdictÚvaluesÚlenÚsetr%   )r&   Úargsr(   r.   s       r   Úvalidate_environmentÚ#HqqHfQuantizer.validate_environment>   s  € Ü ×"Ñ"Üð Tóð ð :‰:i ×'Ñ'¨6¯:©:°kÀ5×+IÑ+IÜð;óð ð
 ×ÑÑ#Ø Ó&Ø#)¨-Ñ#8Õ ä#(§=¡=Ô Ü—‘ÐsÔtà—Z‘Z Ó-ˆ
Üj¤$×'Ñ'Ø˜
×)Ñ)Ó+Ó+¨v¸×9JÑ9JÓ9LÓ/LÜ ðhóð ô
 (+¬3¨z×/@Ñ/@Ó/BÓ+CÓ'DÀqÑ'HÕ$ð (r   r   r   Úmissing_keysÚprefixÚreturnc                 óf   • U R                   (       a  U Vs/ sH  nSU;  d  M  UPM     sn$ U$ s  snf )NÚweight)Úpre_quantized)r&   r   r@   rA   r(   Úkeys         r   Úupdate_missing_keysÚ"HqqHfQuantizer.update_missing_keys[   s5   € ð ××Ù#/ÓI¡<˜C°HÀCÑ4G—C¡<ÑIÐIàÐùò Js   –	.£.Úexpected_keysÚloaded_keysc                 óN  ^^• U R                   (       d  U$ U4S jm[        U5      n[        5       (       Ga`  SSKJn  UR                  5        H  u  pgXgl        M     [        5       nT" X5        [        5       n	U H;  n
UR                  R                  S    H  nXº;   d  M
  U	R                  U
5        M     M=     X‰-  nU" S S [        R                  SSS9R                  5       S1-
  n[        5       nU H0  m[        U4S	 jU 5       5      (       d  M  UR                  T5        M2     XM-  nU Hf  n
U
S
-   U;   a  UR                  U
S
-   5        O&UR                  U Vs1 sH
  oêS-   U-   iM     sn5        U
S-   U;   d  MR  UR                  U
S-   5        Mh     [        U5      $ s  snf )Nc                 óÐ   >• U R                  5        HQ  u  p#[        U[        R                  R                  5      (       a  UR                  UR                  5        T" X15        MS     g ©N)Únamed_childrenr8   r4   ÚnnÚLinearÚaddr   )r   Úlayersr   ÚmoduleÚ_find_hqq_quantizable_layerss       €r   rT   ÚIHqqHfQuantizer.update_expected_keys.<locals>._find_hqq_quantizable_layersk   sE   ø€ Ø %× 4Ñ 4Ö 6‘Ü˜f¤u§x¡x§¡×8Ñ8Ø—J‘J˜vŸ{™{Ô+Ù,¨VÖ<ò !7r   r   ©Ú	HQQLinearÚskip_modulesr/   F©Úlinear_layerÚquant_configÚcompute_dtypeÚdeviceÚdel_origÚbiasc              3   ó*   >#   • U H	  oT;   v •  M     g 7frM   © )Ú.0Ú_modulerF   s     €r   Ú	<genexpr>Ú6HqqHfQuantizer.update_expected_keys.<locals>.<genexpr>‘   s   øé € ÐD±^¨' #–~²^ùs   ƒz.weightr   z.bias)rE   r<   r   Úhqq.core.quantizerW   Únamed_modulesr   Úconfigr'   rQ   r4   Úfloat16Ústate_dict_keysÚanyÚupdateÚlist)r&   r   rI   rJ   Únew_keysrW   r   rS   Ú_valid_modulesÚ_skipped_modulesrc   Ú_skip_moduleÚ	_ref_keysÚ_rm_keysÚ_ref_keyrT   rF   s                  @@r   Úupdate_expected_keysÚ#HqqHfQuantizer.update_expected_keysd   s’  ù€ ð ×!×!Ø Ð õ	=ô }Ó%ˆÜ×ÒÝ3ð !&× 3Ñ 3Ö 5‘Ø"–ñ !6ô !›UˆNÙ(¨Ô?ô  #›uÐÛ)Ø$)§L¡L×$DÑ$DÀ^Ô$TLØ#Õ.Ø(×,Ñ,¨WÖ5ó %Uñ *ð Ñ.ˆNñ "Ø!Ø!Ü#Ÿm™mØØñ÷ ‰oÓ 6 (ñ+ˆIô “uˆHÛÜÔD±^ÓD×DÓDØ—L‘L Ö%ñ  ð Ñ ˆHó *Ø˜YÑ&¨+Ó5Ø—L‘L ¨9Ñ!4Õ5à—O‘OÉiÓ$XÉiÀ(¨s¡]°XÔ%=ÉiÑ$XÔYØ˜WÑ$¨Õ3Ø—L‘L ¨7Ñ!2Ö3ñ *ô H‹~Ðùò	 %Ys   ÅF"
Úparam_valueztorch.TensorÚ
param_nameÚ
state_dictc                 ój  • [        5       (       a  SSKJn  [        X5      u  pxU R                  (       a2  [        U[        R                  R                  W45      =(       a    US:g  $ [        U[        R                  R                  5      =(       a    US:H  =(       d    [        UW5      =(       a    US:H  $ )Nr   rV   rD   r_   )	r   rf   rW   r   rE   r8   r4   rO   rP   )	r&   r   rw   rx   ry   r(   rW   rS   Útensor_names	            r   Úcheck_quantized_paramÚ$HqqHfQuantizer.check_quantized_param¡   s   € ô ×ÑÝ3Ü2°5ÓEÑˆà××Ü˜v¬¯©¯©¸Ð'CÓD×aÈ+ÐYaÑJaÐaô ˜6¤5§8¡8§?¡?Ó3÷ ,Ø 8Ñ+÷Mô ˜v yÓ1×K°kÀVÑ6Kðr   Útarget_deviceztorch.deviceÚunexpected_keysc                 ó:  • [        5       (       a  SSKJn  [        SU4S j5       nX‡l        [        X5      u  pšSR                  UR                  S5      SS 5      n[        X5      nUR                  S5      S   nU
S:X  a  g0 nUR                  5        HD  u  nnUS-   U;   d  M  UXïR                  S5      S   '   Uc  M,  Xö;   d  M3  UR                  U5        MF     U R                  (       aë  [        U	W5      (       a  gU" SSU R                  US	S
9nUR                  U5        UR                  bW  [        UR                  [         R"                  5      (       a.  [         R$                  R'                  UR                  5      Ul        U R(                  (       a  U R+                  U5      n[-        XÍU5        U	?A	[         R0                  R3                  5         gUR                  5        H0  u  nn[-        U	U[         R$                  R'                  U5      5        M2     UR4                  R6                  S   nUR4                  R6                  S   nSR                  U	R8                  R                  S5      SS 5      nSnSU;   a  UnOUU;   a  UU   nU H  nUU	R8                  ;   d  M  Sn  O   Ub§  W" U	UU R                  USS9nUR                  bW  [        UR                  [         R"                  5      (       a.  [         R$                  R'                  UR                  5      Ul        U R(                  (       a  U R+                  U5      n[-        XÍU5        O&U	R;                  U R                  US9n	[-        XÍU	5        [         R0                  R3                  5         g)zî
Each nn.Linear layer is processed here.
We first check if the corresponding module state_dict contains already HQQ quantized parameters.
If not, we create a temp linear layer with the module state_dict params and use it for quantization
r   rV   Ú_selfc                 óV   • [         R                  " SU R                  U R                  S9$ )Nr   ©Údtyper]   )r4   Úemptyr\   r]   )r   s    r   rD   Ú5HqqHfQuantizer.create_quantized_param.<locals>.weightÍ   s   € ä—{’{ 1¨E×,?Ñ,?ÈÏÉÑUÐUr   r   Nr   r_   FrY   r[   rX   éþÿÿÿÚweight_quant_paramsT)r[   r\   r]   r^   rƒ   )r   rf   rW   ÚpropertyrD   r   Újoinr   r   ÚitemsÚremoverE   r8   r$   Úload_state_dictr_   r4   ÚTensorrO   Ú	Parameterr%   Ú_patch_layer_for_multigpuÚsetattrÚ__dict__ÚcudaÚempty_cacherh   r'   r   Úto)r&   r   rw   rx   r~   ry   r   rW   rD   rS   r{   Ú
layer_nameÚparent_moduleÚnodeÚmodule_state_dictÚkÚvÚ	hqq_layerrF   Útensorr[   rX   Ú
module_tagÚmodule_quant_configÚskip_modules                            r   Úcreate_quantized_paramÚ%HqqHfQuantizer.create_quantized_param¸   s*  € ô ×ÑÝ3ô
 ðV˜ió Vó ðVð  &Ôä2°5ÓEÑˆØ—X‘X˜j×.Ñ.¨sÓ3°C°RÐ8Ó9ˆ
Ü# EÓ6ˆØ×Ñ Ó$ RÑ(ˆà˜&Ó àð ÐØ×$Ñ$Ö&‰DˆAˆqØ˜CÑ 1Õ$Ø67Ð!§'¡'¨#£,¨rÑ"2Ñ3Ø"Ó.°1Õ3GØ#×*Ñ*¨1Ö-ñ	 'ð ××Ü˜& )×,Ñ,Øá%Ø!%Ø!%Ø"&×"2Ñ"2Ø(Ø"ñ	ð ×%Ñ%Ð&7Ô8à~‰~Ñ)¬j¸¿¹ÌÏÉ×.VÑ.VÜ!&§¡×!3Ñ!3°I·N±NÓ!C	”à×#×#Ø ×:Ñ:¸9ÓE	äM¨Ô3ð  ÜJ‰J×"Ñ"Ô$Øð -×2Ñ2Ö4‰KˆCÜF˜C¤§¡×!3Ñ!3°FÓ!;Ö<ñ 5ð
 —|‘|×7Ñ7¸ÑGˆØ—|‘|×7Ñ7¸ÑGˆØ—X‘X˜fŸk™k×/Ñ/°Ó4°R°SÐ9Ó:ˆ
Ø"ÐØ  LÓ0Ø".ÑØ˜<Ó'Ø".¨zÑ":Ðã'ˆKØ˜fŸk™kÕ)Ø&*Ð#Ùñ (ð
 Ñ*Ù!ØØ0Ø"×.Ñ.Ø$ØñˆIð ~‰~Ñ)¬j¸¿¹ÌÏÉ×.VÑ.VÜ!&§¡×!3Ñ!3°I·N±NÓ!C	”à×#×#Ø ×:Ñ:¸9ÓE	äM¨Õ3ð —Y‘Y T×%5Ñ%5¸mYÐLˆFÜM¨Ô0ä
‰
×ÑÕ r   c                 ó>   ^^• [        T5      mS mUU4S jTl        T$ )Nc                 óÔ   • [         R                  " UR                  U R                  5      U R	                  5       R                  5       5      nU R                  b  X R                  -  nU$ rM   )r4   Úmatmulr•   r]   Ú
dequantizeÚtr_   )r&   ÚxÚouts      r   Úforward_with_deviceÚEHqqHfQuantizer._patch_layer_for_multigpu.<locals>.forward_with_device.  sJ   € Ü—,’,˜qŸt™t D§K¡KÓ0°$·/±/Ó2C×2EÑ2EÓ2GÓHˆCØy‰yÑ$Ø—y‘yÑ ØˆJr   c                 ó   >• T" TU 5      $ rM   ra   )r¨   rª   rœ   s    €€r   Ú<lambda>Ú:HqqHfQuantizer._patch_layer_for_multigpu.<locals>.<lambda>4  s   ø€ Ñ&9¸)ÀQÔ&Gr   )r   Úforward)r&   rœ   rª   s    `@r   r   Ú(HqqHfQuantizer._patch_layer_for_multigpu+  s#   ù€ Ü+¨IÓ6ˆ	ò	õ Hˆ	ÔØÐr   c                 ó*   • [        XR                  S9ng )N)r'   )r   r'   ©r&   r   r(   s      r   Ú$_process_model_before_weight_loadingÚ3HqqHfQuantizer._process_model_before_weight_loading7  s   € ô ' u×BZÑBZÑ[‰r   c                 ó>   • SUl         U R                  5       Ul        U$ ©NT)Úis_hqq_quantizedÚis_serializableÚis_hqq_serializabler²   s      r   Ú#_process_model_after_weight_loadingÚ2HqqHfQuantizer._process_model_after_weight_loading@  s    € Ø!%ˆÔØ$(×$8Ñ$8Ó$:ˆÔ!Øˆr   c                 ó   • gr¶   ra   )r&   Úsafe_serializations     r   r¸   ÚHqqHfQuantizer.is_serializableE  s   € Ør   c                 ó   • gr¶   ra   )r&   s    r   Úis_trainableÚHqqHfQuantizer.is_trainableH  s   € àr   )r$   r%   )r   r   rM   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Úuse_keep_in_fp32_modulesÚ requires_parameters_quantizationÚrequires_calibrationÚrequired_packagesr#   r>   rm   ÚstrrG   ru   r9   r   Úboolr|   r¡   r   r³   rº   r¸   r‰   rÀ   Ú__static_attributes__Ú__classcell__)r)   s   @r   r   r   -   sX  ø† ñð  %ÐØ'+Ð$Ø ÐØ˜Ðõ%ò
Ið: Ø&ð Ø6:¸3±ið ØILð à	ˆc‰ô ð;Ø&ð;Ø7;¸C±yð;ØOSÐTWÉyð;à	ˆc‰ô;ðzà ðð $ðð ð	ð
 ˜˜c˜‘Nðð 
ôð.p!à ðp!ð $ðp!ð ð	p!ð
 &ðp!ð ˜˜c˜‘Nðp!ð ˜c™ôp!òf
ð\à ô\ôô
ð ð˜dó ó ör   r   )Útypingr   r   Úintegrationsr   Úutilsr   r   r	   r
   Úbaser   Úquantizers_utilsr   Úmodeling_utilsr   Úaccelerate.hooksr   r4   Ú
get_loggerrÂ   r6   r   r   ra   r   r   Ú<module>r×      s^   ð÷ &å 1ß ZÓ ZÝ Ý 2ö Ý0ñ ×ÑÝ8á×ÑÛà	×	Ò	˜HÓ	%€òô][õ ]r   