Retrieve page dimensions from layout: LTPage (fix #72)

Hiromu Hota · Hiromu Hota · commit 936b1c901264 · 2020-10-06T14:32:02.000-07:00
diff --git a/pdftotree/TreeExtract.py b/pdftotree/TreeExtract.py
@@ -272,8 +272,11 @@ def get_html_tree(self) -> str:
             page = doc.createElement("div")
             page.setAttribute("class", "ocr_page")
             page.setAttribute("id", f"page_{page_num}")
+            width = int(self.elems[page_num].layout.width)
+            height = int(self.elems[page_num].layout.height)
             page.setAttribute(
-                "title", f"bbox 0 0 {int(pwidth)} {int(pheight)}; ppageno {page_num-1}"
+                "title",
+                f"bbox 0 0 {width} {height}; ppageno {page_num-1}",
             )
             body.appendChild(page)
             # TODO: We need to detect columns and sort acccordingly.
diff --git a/pdftotree/utils/pdf/pdf_utils.py b/pdftotree/utils/pdf/pdf_utils.py
@@ -11,7 +11,7 @@
 import re
 import string
 from collections import Counter
-from typing import Any, List, NamedTuple, Tuple, Union
+from typing import List, NamedTuple, Tuple, Union
 
 from pdfminer.converter import PDFPageAggregator
 from pdfminer.layout import (
@@ -22,6 +22,7 @@
     LTCurve,
     LTFigure,
     LTLine,
+    LTPage,
     LTTextLine,
 )
 from pdfminer.pdfdocument import PDFDocument
@@ -42,7 +43,7 @@ class PDFElems(NamedTuple):
     segments: List[LTLine]
     curves: List[LTCurve]
     figures: List[LTFigure]
-    layout: Any  # assigned to by PDFPageAggregator.get_result
+    layout: LTPage
     chars: List[Union[LTChar, LTAnno]]
 
 
@@ -150,7 +151,7 @@ def analyze_pages(file_name, char_margin=1.0):
             yield layout
 
 
-def normalize_pdf(layout, scaler) -> Tuple[PDFElems, Counter]:
+def normalize_pdf(layout: LTPage, scaler) -> Tuple[PDFElems, Counter]:
     """
     Normalizes pdf object coordinates (bot left) to image
     conventions (top left origin).
diff --git a/tests/input/CentralSemiconductorCorp_2N4013.pdf b/tests/input/CentralSemiconductorCorp_2N4013.pdf
diff --git a/tests/test_basic.py b/tests/test_basic.py
@@ -74,6 +74,12 @@ def get_bbox(node: Tag) -> box:
     assert all([figure.contains(word) for word in words])
 
 
+def test_issue_72():
+    """Make sure not to cause #72."""
+    output = pdftotree.parse("tests/input/CentralSemiconductorCorp_2N4013.pdf")
+    assert output is not None
+
+
 def test_ml_completion():
     """Simply test that ML-based parse runs without errors."""
     output = pdftotree.parse(