Spaces:

rishabh062
/

donutCordImgToCsv

Runtime error

rishabh062 commited on Apr 1, 2023

Commit

0c825a3

•

1 Parent(s): 91ce4be

Provided download button

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
-import re
 import gradio as gr
 import torch
 from transformers import DonutProcessor, VisionEncoderDecoderModel
@@ -36,12 +37,22 @@ def process_document(image):
     sequence = processor.batch_decode(outputs.sequences)[0]
     sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
     sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
-    return processor.token2json(sequence)
 description = "To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."
 article = "<p style='text-align: center'><a href='https://arxiv.org/abs/2111.15664' target='_blank'>Donut: OCR-free Document Understanding Transformer</a> | <a href='https://github.com/clovaai/donut' target='_blank'>Github Repo</a></p>"
 demo = gr.Interface(
     fn=process_document,
     inputs="image",
@@ -51,6 +62,10 @@ demo = gr.Interface(
     article=article,
     enable_queue=True,
     examples=[["example.png"], ["example_2.png"], ["example_3.png"]],
-    cache_examples=False)
-demo.launch()

 import gradio as gr
+import csv
+import json
 import torch
 from transformers import DonutProcessor, VisionEncoderDecoderModel
     sequence = processor.batch_decode(outputs.sequences)[0]
     sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
     sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
+    with open('output.csv', 'a', newline='') as file:
+        writer = csv.writer(file)
+        writer.writerow([image_filename, sequence])
+    return {"json": processor.token2json(sequence)}
+def download_csv(output_csv):
+    with open(output_csv) as f:
+        response = f.read()
+    return response, {"Content-Type": "text/csv"}
 description = "To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."
 article = "<p style='text-align: center'><a href='https://arxiv.org/abs/2111.15664' target='_blank'>Donut: OCR-free Document Understanding Transformer</a> | <a href='https://github.com/clovaai/donut' target='_blank'>Github Repo</a></p>"
+output_csv = "output.csv"
 demo = gr.Interface(
     fn=process_document,
     inputs="image",
     article=article,
     enable_queue=True,
     examples=[["example.png"], ["example_2.png"], ["example_3.png"]],
+    cache_examples=False,
+    allow_download=True,
+    download_name="output.csv",
+    download=download_csv
+)
+demo.launch()