Spaces:

soiz
/

write2txt

Running

soiz commited on Nov 9, 2024

Commit

7bc35e5

verified ·

1 Parent(s): f1eabea

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,13 +1,17 @@
 import gradio as gr
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
-from PIL import Image
 # OCRモデルとプロセッサの準備
 processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-stage1")
 model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-stage1")
 # OCR実行関数
-def ocr_image(image):
     # 画像をモデルに入力し、文字起こしを実行
     pixel_values = processor(images=image, return_tensors="pt").pixel_values
     generated_ids = model.generate(pixel_values)
@@ -16,11 +20,14 @@ def ocr_image(image):
 # Gradioインターフェースの構築
 interface = gr.Interface(
-    fn=ocr_image,               # 実行関数
-    inputs=gr.Image(type="pil"),  # カメラからの画像入力
-    outputs="text",              # 出力形式（テキスト）
-    live=True                    # ライブプレビューの有効化
 )
-# アプリの起動
 interface.launch()

 import gradio as gr
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
+from PIL import Image, ImageOps
 # OCRモデルとプロセッサの準備
 processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-stage1")
 model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-stage1")
 # OCR実行関数
+def ocr_image(image, invert_image):
+    # チェックボックスがオンなら画像を反転
+    if invert_image:
+        image = ImageOps.mirror(image)
     # 画像をモデルに入力し、文字起こしを実行
     pixel_values = processor(images=image, return_tensors="pt").pixel_values
     generated_ids = model.generate(pixel_values)
 # Gradioインターフェースの構築
 interface = gr.Interface(
+    fn=ocr_image,                               # 実行関数
+    inputs=[
+        gr.Image(type="pil"),                   # カメラからの画像入力
+        gr.Checkbox(label="画像を反転")          # 画像反転のチェックボックス
+    ],
+    outputs="text",                             # 出力形式（テキスト）
+    live=False                                  # リアルタイム処理を無効化
 )
+# 実行ボタンの設定
 interface.launch()