ó
    d¶hM<  ã                   ó$  • S r SSKrSSKrSSKrSSKJr  SSKJrJrJ	r	J
r
Jr  SSKJr  SSKJr  SSKJr  SSKJr  SS	KJr  SS
KJr  \(       a  SSKJr  SSKJr  \R8                  " \5      r\ " S S5      5       r\" SSSS9 " S S\5      5       r g)zÌModule contains a PDF parser based on Document AI from Google Cloud.

You need to install two libraries to use this parser:
pip install google-cloud-documentai
pip install google-cloud-documentai-toolbox
é    N)Ú	dataclass)ÚTYPE_CHECKINGÚIteratorÚListÚOptionalÚSequence)Ú
deprecated)ÚDocument)Úbatch_iterate)ÚBaseBlobParser)ÚBlob)Úget_client_info)Ú	Operation©ÚDocumentProcessorServiceClientc                   ó.   • \ rS rSr% Sr\\S'   \\S'   Srg)ÚDocAIParsingResultsé   z/Dataclass to store Document AI parsing results.Úsource_pathÚparsed_path© N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__ÚstrÚ__annotations__Ú__static_attributes__r   ó    Új/var/www/html/shao/venv/lib/python3.13/site-packages/langchain_community/document_loaders/parsers/docai.pyr   r      s   ‡ á9àÓØÖr    r   z0.0.32z1.0z&langchain_google_community.DocAIParser)ÚsinceÚremovalÚalternative_importc                   ó°  • \ rS rSrSrSSSSS.S\S   S\\   S\\   S	\\   4S
 jjrS\S\	\
   4S jr   S$S\S\S\\   S\\\      S\	\
   4
S jjr   S%S\\   S\\   S\S\S\	\
   4
S jjrS\\   S\	\
   4S jrS\\   S\S   4S jrS\S   S\4S jrSSSSSS.S\\   S\\   S	\\   S \S\S\\   S\S   4S! jjrS\S   S\\   4S" jrS#rg)&ÚDocAIParseré&   z¦`Google Cloud Document AI` parser.

For a detailed explanation of Document AI, refer to the product documentation.
https://cloud.google.com/document-ai/docs/overview
N)ÚclientÚlocationÚgcs_output_pathÚprocessor_namer(   r   r)   r*   r+   c                ór  • [        U5      [        U5      :X  a  [        S5      eSnU(       a*  [        R                  " XT5      (       d  [        SU S35      eX0l        X@l        U(       a  Xl        g	 SSKJn  SSK	J
n  U" U S
3S9n	U" U	[        SS9S9U l        g	! [         a  n[        S5      UeS	nAff = f)a­  Initializes the parser.

Args:
    client: a DocumentProcessorServiceClient to use
    location: a Google Cloud location where a Document AI processor is located
    gcs_output_path: a path on Google Cloud Storage to store parsing results
    processor_name: full resource name of a Document AI processor or processor
        version

You should provide either a client or location (and then a client
    would be instantiated).
zGYou must specify either a client or a location to instantiate a client.z?projects\/[0-9]+\/locations\/[a-z\-0-9]+\/processors\/[a-z0-9]+zProcessor name zï has the wrong format. If your prediction endpoint looks like https://us-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/us/processors/PROCESSOR_ID:process, use only projects/PROJECT_ID/locations/us/processors/PROCESSOR_ID part.r   )ÚClientOptionsr   úZdocumentai package not found, please install it with `pip install google-cloud-documentai`Nz-documentai.googleapis.com)Úapi_endpointzdocument-ai)Úmodule)Úclient_optionsÚclient_info)ÚboolÚ
ValueErrorÚreÚ	fullmatchÚ_gcs_output_pathÚ_processor_nameÚ_clientÚgoogle.api_core.client_optionsr-   Úgoogle.cloud.documentair   ÚImportErrorr   )
Úselfr(   r)   r*   r+   Úpatternr-   r   ÚexcÚoptionss
             r!   Ú__init__ÚDocAIParser.__init__2   sØ   € ô* ‹<œ4 ›>Ó)Üðóð ð
 UˆÞ¤"§,¢,¨w×"GÑ"GÜØ! .Ð!1ð 2ð óð ð !0ÔØ-ÔÞØ!LðÝHÝRñ $Ø (˜zÐ)CÐDñˆGñ :Ø&Ü+°=ÑAñˆDLøô ó Ü!ð=óð ðûðús   Á2B Â
B6Â%B1Â1B6ÚblobÚreturnc              #   óV   #   • U R                  U/U R                  S9 Sh  v•N   g N7f)z´Parses a blob lazily.

Args:
    blobs: a Blob to parse

This is a long-running operation. A recommended way is to batch
    documents together and use the `batch_parse()` method.
©r*   N)Úbatch_parser7   )r=   rC   s     r!   Ú
lazy_parseÚDocAIParser.lazy_parsel   s(   é € ð ×#Ñ# T F¸D×<QÑ<QÐ#ÐR×RÓRùs   ‚)¡'¢)TÚenable_native_pdf_parsingÚ
field_maskÚ
page_rangec              #   ó  ^^^#   •  SSK Jn  SSKJnJnJn   SSKJm  U(       a  U" US9OSn
U(       a  U" US	9OSnU R                  R                  UR                  U R                  UR                  TR                  TR                  =(       d    S
S9U" U
US9SUS95      mUUU4S jTR                   R"                   5        Sh  v•N   g! [         a  n	[        S5      U	eSn	A	ff = f! [         a  n	[        S5      U	eSn	A	ff = f NA7f)a”  Parses a blob lazily using online processing.

Args:
    blob: a blob to parse.
    enable_native_pdf_parsing: enable pdf embedded text extraction
    field_mask: a comma-separated list of which fields to include in the
        Document AI response.
        suggested: "text,pages.pageNumber,pages.layout"
    page_range: list of page numbers to parse. If `None`,
        entire document will be parsed.
r   ©Ú
documentai)ÚIndividualPageSelectorÚ	OcrConfigÚProcessOptionsr.   N©Ú_text_from_layoutújdocumentai_toolbox package not found, please install it with `pip install google-cloud-documentai-toolbox`©rJ   )Úpagesúapplication/pdf©Úgcs_uriÚ	mime_type)Ú
ocr_configÚindividual_page_selectorT)ÚnameÚgcs_documentÚprocess_optionsÚskip_human_reviewrK   c              3   ó®   >#   • U HK  n[        T" UR                  TR                  R                  5      UR                  TR
                  S .S9v •  MM     g7f©)ÚpageÚsource)Úpage_contentÚmetadataN)r
   ÚlayoutÚdocumentÚtextÚpage_numberÚpath)Ú.0rd   rT   rC   Úresponses     €€€r!   Ú	<genexpr>Ú-DocAIParser.online_process.<locals>.<genexpr>´   sP   øé € ð 	
ñ 0ô Ù.¨t¯{©{¸H×<MÑ<M×<RÑ<RÓSà ×,Ñ,Ø"Ÿi™iñöò 0ùs   ƒAA)Úgoogle.cloudrO   Ú google.cloud.documentai_v1.typesrP   rQ   rR   r<   Ú-google.cloud.documentai_toolbox.wrappers.pagerT   r9   Úprocess_documentÚProcessRequestr8   ÚGcsDocumentrl   Úmimetyperi   rW   )r=   rC   rJ   rK   rL   rO   rP   rQ   rR   r?   r\   r]   rT   rn   s    `          @@r!   Úonline_processÚDocAIParser.online_processw   s;  úé € ð$	Ý/÷ñ ð	ÝWö )ñ Ð0IÒJàð 	ö 9CÑ"¨Ò4Èð 	!ð —<‘<×0Ñ0Ø×%Ñ%Ø×)Ñ)Ø'×3Ñ3Ø ŸI™IØ"Ÿm™m×@Ð/@ð 4ð ñ !/Ø)Ø-Eñ!ð #'Ø%ð &ð ó
ˆö	
ð !×)Ñ)×/Ò/ó	
÷ 		
ñ 		
øôI ó 	Üð9óð ðûð	ûô ó 	ÜðAóð ðûð	úñ:		
ùsQ   …D‡C ˜C+ žB)DÃD	ÃDÃ
C(ÃC#Ã#C(Ã(DÃ+
DÃ5DÄDÄDÚblobsÚtimeout_secÚcheck_in_interval_secc              #   ó0  #   • U=(       d    U R                   nU(       d  [        S5      eU R                  XS9nU Vs/ sH  owR                  R                  PM     nn[
        R                  SU5        Sn	U R                  U5      (       a[  [        R                  " U5        X”-  n	X“:”  a  [        SU S35      e[
        R                  S5        U R                  U5      (       a  M[  U R                  US9n
U R                  U
5       S	h  v•N   g	s  snf  N
7f)
a  Parses a list of blobs lazily.

Args:
    blobs: a list of blobs to parse.
    gcs_output_path: a path on Google Cloud Storage to store parsing results.
    timeout_sec: a timeout to wait for Document AI to complete, in seconds.
    check_in_interval_sec: an interval to wait until next check
        whether parsing operations have been completed, in seconds
This is a long-running operation. A recommended way is to decouple
    parsing from creating LangChain Documents:
    >>> operations = parser.docai_parse(blobs, gcs_path)
    >>> parser.is_running(operations)
    You can get operations names and save them:
    >>> names = [op.operation.name for op in operations]
    And when all operations are finished, you can use their results:
    >>> operations = parser.operations_from_names(operation_names)
    >>> results = parser.get_results(operations)
    >>> docs = parser.parse_from_results(results)
ú:An output path on Google Cloud Storage should be provided.rF   z9Started parsing with Document AI, submitted operations %sr   z#Timeout exceeded! Check operations z later!Ú.)Ú
operationsN)r7   r4   Údocai_parseÚ	operationr^   ÚloggerÚdebugÚ
is_runningÚtimeÚsleepÚTimeoutErrorÚget_resultsÚparse_from_results)r=   rz   r*   r{   r|   Úoutput_pathr€   ÚopÚoperation_namesÚtime_elapsedÚresultss              r!   rG   ÚDocAIParser.batch_parse¿   s
  é € ð4 &×>¨×)>Ñ)>ˆÞÜØLóð ð ×%Ñ% eÐ%ÐIˆ
Ù7AÓB±z°Ÿ<™<×,Ô,±zˆÐBÜ‰ØGÈô	
ð ˆØo‰o˜j×)Ñ)ÜJŠJÐ,Ô-ØÑ1ˆLØÓ)Ü"Ø9¸/Ð9JÈ'ÐRóð ô L‰L˜Ôð o‰o˜j×)Ó)ð ×"Ñ"¨jÐ"Ð9ˆØ×*Ñ*¨7Ó3×3Ñ3ùò Cñ 	4ùs#   ‚;D½DÁB	DÃ&#DÄ	DÄ
Dr   c              #   óê   ^^	#   •  SSK Jn  SSKJn  SSKJm  U H4  m	U" T	R                  5      u  pVU" XV5      nUU	4S jU 5        S h  v•N   M6     g ! [         a  n[        S5      UeS nAff = f N'7f)Nr   )Úsplit_gcs_uri)Ú_get_shardsrS   rU   c              3   óÀ   >#   • U HT  nUR                    HA  n[        T" UR                  UR                  5      UR                  TR
                  S .S9v •  MC     MV     g7frc   )rW   r
   rh   rj   rk   r   )rm   Úshardrd   rT   Úresults      €€r!   ro   Ú1DocAIParser.parse_from_results.<locals>.<genexpr>  sZ   øé € ð ñ
 $EØ!ŸKœKDô Ù!2°4·;±;ÀÇ
Á
Ó!KØ&*×&6Ñ&6À&×BTÑBTÑUöñ
 (ñò $ùs   ƒAA)Ú7google.cloud.documentai_toolbox.utilities.gcs_utilitiesr’   Ú1google.cloud.documentai_toolbox.wrappers.documentr“   rs   rT   r<   r   )
r=   r   r’   r“   r?   Úgcs_bucket_nameÚ
gcs_prefixÚshardsrT   r–   s
           @@r!   rŠ   ÚDocAIParser.parse_from_resultsð   sŠ   ùé € ð
	õõ VÝWó ˆFÙ*7¸×8JÑ8JÓ*KÑ'ˆOÙ  Ó=ˆFõñ
 $ó÷ ò ò øô ó 	ÜðAóð ðûð	úñùs3   „A3†A ˜1A3Á	A1Á
	A3Á
A.ÁA)Á)A.Á.A3r   r   c           	      ó°   •  SSK Jn  U Vs/ sH   nU R                  R	                  U" US9S9PM"     sn$ ! [         a  n[        S5      UeSnAff = fs  snf )z5Initializes Long-Running Operations from their names.r   )ÚGetOperationRequestzhlong running operations package not found, please install it with `pip install gapic-google-longrunning`N)r^   )Úrequest)Ú!google.longrunning.operations_pb2rŸ   r<   r9   Úget_operation)r=   r   rŸ   r?   r^   s        r!   Úoperations_from_namesÚ!DocAIParser.operations_from_names
  ss   € ð	õñ (ó
á'ð L‰L×&Ñ&Ñ/BÈÑ/MÐ&ÓNÙ'ñ
ð 	
øô ó 	Üð:óð ðûð	üò
s   ‚5 Œ&Aµ
A¿AÁAr€   c                 ó&   • [        S U 5       5      $ )Nc              3   óH   #   • U H  oR                  5       (       + v •  M     g 7f)N)Údone)rm   rŒ   s     r!   ro   Ú)DocAIParser.is_running.<locals>.<genexpr>  s   é € Ð6©: R—w‘w“y—=‘=ª:ùs   ‚ ")Úany)r=   r€   s     r!   r…   ÚDocAIParser.is_running  s   € ÜÑ6©:Ó6Ó6Ð6r    iè  )r*   r+   Ú
batch_sizerJ   rK   r«   c                ó°  •  SSK Jn  SSKJnJn	  U=(       d    U R                  nUc  [        S5      eU=(       d    U R                  nUc  [        S5      e/ n[        XAS9 HÎ  nUR                  UR                  U Vs/ sH0  nUR                  UR                  UR                  =(       d    S	S
9PM2     snS9S9nUR                  UR                  R!                  X¶S9S9nU(       a
  U	" U" US9S9OSnUR#                  U R$                  R'                  UR)                  UUUUSS95      5        MÐ     U$ ! [
         a  n
[        S5      U
eSn
A
ff = fs  snf )aÃ  Runs Google Document AI PDF Batch Processing on a list of blobs.

Args:
    blobs: a list of blobs to be parsed
    gcs_output_path: a path (folder) on GCS to store results
    processor_name: name of a Document AI processor.
    batch_size: amount of documents per batch
    enable_native_pdf_parsing: a config option for the parser
    field_mask: a comma-separated list of which fields to include in the
        Document AI response.
        suggested: "text,pages.pageNumber,pages.layout"

Document AI has a 1000 file limit per batch, so batches larger than that need
to be split into multiple requests.
Batch processing is an async long-running operation
and results are stored in a output GCS bucket.
r   rN   )rQ   rR   r.   Nr~   z0A Document AI processor name should be provided.)ÚsizeÚiterablerX   rY   )Ú	documents)Úgcs_documents)rZ   rK   )Úgcs_output_configrV   )r\   T)r^   Úinput_documentsÚdocument_output_configr`   ra   )rq   rO   rr   rQ   rR   r<   r7   r4   r8   r   ÚBatchDocumentsInputConfigÚGcsDocumentsrv   rl   rw   ÚDocumentOutputConfigÚGcsOutputConfigÚappendr9   Úbatch_process_documentsÚBatchProcessRequest)r=   rz   r*   r+   r«   rJ   rK   rO   rQ   rR   r?   r‹   r€   ÚbatchrC   Úinput_configÚoutput_configr`   s                     r!   r   ÚDocAIParser.docai_parse  s¯  € ð6	Ý/ßRð &×>¨×)>Ñ)>ˆØÑÜØLóð ð (×?¨4×+?Ñ+?ˆØÑ!ÜÐOÓPÐPàˆ
Ü"¨
ÔCˆEØ%×?Ñ?Ø(×5Ñ5ñ %*óñ
 %*˜Dð	 #×.Ñ.Ø$(§I¡IØ&*§m¡m×&HÐ7Hð /ó ñ %*ñð 6ð ð @ð 
ˆLð '×;Ñ;Ø",×"AÑ"A×"QÑ"QØ'ð #Rð #ð <ð ˆMö -ñ Ù(Ø2Kñ òð ð ð ×ÑØ—‘×4Ñ4Ø×2Ñ2Ø+Ø(4Ø/<Ø(7Ø*.ð 3ð óö
ñ9 DðN Ðøôo ó 	Üð9óð ðûð	üò&s   ‚D5 Á>6EÄ5
EÄ?EÅEc           
      ó†  •  SSK Jn  U VVs/ sHˆ  n[        UR                  U5      (       a  UR                  R
                  O.UR                  UR                  R                  5      R
                   H!  n[        UR                  UR                  S9PM#     MŠ     snn$ ! [         a  n[        S5      UeS nAff = fs  snnf )Nr   )ÚBatchProcessMetadatar.   )r   r   )Úgoogle.cloud.documentai_v1rÀ   r<   Ú
isinstancerg   Úindividual_process_statusesÚdeserializeÚvaluer   Úinput_gcs_sourceÚoutput_gcs_destination)r=   r€   rÀ   r?   rŒ   Ústatuss         r!   r‰   ÚDocAIParser.get_resultsu  sÌ   € ð	ÝGñ !ô
ñ
 !ô ˜bŸk™kÐ+?×@Ñ@ð —‘×7Ò7à)×5Ñ5Ø—K‘K×%Ñ%óç-Ñ-ò	.ð ô  Ø"×3Ñ3Ø"×9Ñ9ôñ.ññ !ò
ð 	
øô ó 	Üð9óð ðûð	üó
s   ‚B BB=Â
B:Â)B5Â5B:)r9   r7   r8   )TNN)Ni  é<   )r   r   r   r   r   r   r   rA   r   r   r
   rH   r3   r   Úintrx   r   rG   r   rŠ   r£   r…   r   r‰   r   r   r    r!   r&   r&   &   s  † ñð >BØ"&Ø)-Ø(,ò8ð Ð9Ñ:ð8ð ˜3‘-ð	8ð
 " #™ð8ð ! ™õ8ðt	S˜tð 	S¨°Ñ(:ô 	Sð +/Ø$(Ø*.ñF
àðF
ð $(ðF
ð ˜S‘Mð	F
ð
 ˜T #™YÑ'ðF
ð 
(Ñ	õF
ðV *.ØØ%'ñ/4à˜‰~ð/4ð " #™ð/4ð ð	/4ð
  #ð/4ð 
(Ñ	õ/4ðbØÐ/Ñ0ðà	(Ñ	ôð4
°T¸#±Yð 
À4ÈÑCTô 
ð"7 T¨+Ñ%6ð 7¸4ô 7ð *.Ø(,ØØ*.Ø$(òUà˜‰~ðUð " #™ð	Uð
 ! ™ðUð ðUð $(ðUð ˜S‘MðUð 
ˆkÑ	õUðn
 d¨;Ñ&7ð 
¸DÐATÑ<U÷ 
r    r&   )!r   Úloggingr5   r†   Údataclassesr   Útypingr   r   r   r   r   Úlangchain_core._api.deprecationr	   Úlangchain_core.documentsr
   Úlangchain_core.utils.iterr   Ú)langchain_community.document_loaders.baser   Ú1langchain_community.document_loaders.blob_loadersr   Ú&langchain_community.utilities.vertexair   Úgoogle.api_core.operationr   r;   r   Ú	getLoggerr   rƒ   r   r&   r   r    r!   Ú<module>r×      s   ðñó Û 	Û Ý !ß DÕ Då 6Ý -Ý 3å DÝ BÝ BæÝ3ÝFð 
×	Ò	˜8Ó	$€ð ÷ð ó ðñ Ø
ØØ?ñô
`
.ó `
óñ
`
r    