ブログ - tabulaを使ってPDFからCSVデータを取り出す
オカンの使っている銀行だと地方銀行なので手軽に記帳ができない.PCでログインして通帳を確認すると明細がPDFでダウンロードできたので,それをテキストにしてExcelに取り込もうと思った.
PDFからテキストを取り出す方法はいくつかあるけど,Copilotに訊いて最初に出てきたTabulaを使ってみることに.
Tabula
https://tabula.technology/
TabulaはWindows,macOS,Linuxに対応してるが要するにJavaアプリ.macOS版をダウンロードしてZIPファイルを展開したのがこれ.

アプリを起動するとデフォルトブラウザでローカルに起動したサーバに接続される.
Browseボタンで分析したいPDFファイルを指定.

Importボタンを押下.

読み込まれたPDFが表示されるので,マウスでテキスト化したい部分を選択し,右上の緑色のPreview & Export Extracted Dataボタンを押下.

なんだかぐちゃぐちゃだった.OCRでもそんなに酷くない...
引用: 文字として埋め込まれているけどなぁ...と思って,通帳のPDFを開いてテキストを選択してコピペしたら抽出できた...ロックされているから取り出せないと勘違いしていた...
PDFからテキストを取り出す方法はいくつかあるけど,Copilotに訊いて最初に出てきたTabulaを使ってみることに.
Tabula
https://tabula.technology/
TabulaはWindows,macOS,Linuxに対応してるが要するにJavaアプリ.macOS版をダウンロードしてZIPファイルを展開したのがこれ.

アプリを起動するとデフォルトブラウザでローカルに起動したサーバに接続される.

Browseボタンで分析したいPDFファイルを指定.

Importボタンを押下.

読み込まれたPDFが表示されるので,マウスでテキスト化したい部分を選択し,右上の緑色のPreview & Export Extracted Dataボタンを押下.

なんだかぐちゃぐちゃだった.OCRでもそんなに酷くない...
引用:
Q:
Tabulaは日本語は難しい?
A:
いい質問ですね。Tabulaは「表形式のPDFからCSVへ変換する」ことに特化したツールですが、日本語PDFに関しては次のような特徴があります。
✅ 得意なケース
テキスト型PDF(銀行通帳や明細が「文字」として埋め込まれているタイプ)なら、日本語でも問題なく抽出できます。
数字や日付の列は安定して取り出せるので、通帳の「日付・金額・残高」などは比較的きれいにCSV化できます。

