fix doc parser (#4975)

linjieccc · web-flow · commit 309fbfc5857c · 2023-02-24T11:42:27.000+08:00
diff --git a/paddlenlp/utils/doc_parser.py b/paddlenlp/utils/doc_parser.py
@@ -23,7 +23,7 @@
 import numpy as np
 import requests
 from packaging.version import Version
-from PIL import Image, ImageDraw
+from PIL import Image, ImageDraw, ImageOps
 
 from .image_utils import np2base64
 from .log import logger
@@ -187,7 +187,8 @@ def read_image(self, image):
         """
         image_buff = self._get_buffer(image)
 
-        _image = np.array(Image.open(BytesIO(image_buff)).convert("RGB"))
+        # Use exif_transpose to correct orientation
+        _image = np.array(ImageOps.exif_transpose(Image.open(BytesIO(image_buff)).convert("RGB")))
         return _image
 
     @classmethod
@@ -216,16 +217,18 @@ def read_pdf(self, pdf, password=None):
             logger.warning("Currently only parse the first page for PDF input with more than one page.")
 
         page = pdf_doc.load_page(0)
-        image = np.array(self.get_page_image(page).convert("RGB"))
+        # The original image is shrunk when convertd from PDF by fitz, so we scale the image size by 10 times
+        matrix = fitz.Matrix(10, 10)
+        image = np.array(self.get_page_image(page, matrix).convert("RGB"))
         return image
 
     @classmethod
-    def get_page_image(self, page):
+    def get_page_image(self, page, matrix):
         """
         get page image
         """
-        pix = page.get_pixmap()
-        image_buff = pix.pil_tobytes("jpeg", optimize=True)
+        pix = page.get_pixmap(matrix=matrix)
+        image_buff = pix.pil_tobytes("jpeg")
         return Image.open(BytesIO(image_buff))
 
     def init_ocr_inference(self):