pagetakaBlog

最近リフォームと鳥取県日南町の記事多め。写真、PC、ネット等の話題も

Python:VSCodeでJavaを介在させ、東証株日報PDFから表抽出(3)

10/28追記:「まとめ」UP

東証株式相場表をDLし、PDFMinerでCSV化。「LOAD DATA INFILE」でMySQLへUP、というながれをまとめました。

前説:Java + tabula はほぼ挫折

pagetaka.hatenablog.jp
pagetaka.hatenablog.jp

これまで、VSCodeにtabula-pyをインストールして、東証株式相場表(PDF)から表抽出しようと努力(≒本人弁)しました。うまくいきませんでした。
tabula-pyをつかうにはJavaSDKをインストールするなど準備手数が長かったです。簡単なPDFはそれなりに処理できましたが、東証株式相場表はダメでした。複雑すぎるのでしょうね。

それで、別の道具をつかってみようともがいているところです。

現状:PDFMinerでテキストファイルにしてみたけど

東証株式相場表をPDFMinerをつかってテキストファイルにしてみました。行や列が違っていましたが、文字化けなどは起こらず、読むことができました。
www.shibutan-bloomers.com

今後:PDFMinerの字間・行間調整でちゃんとテキスト出力できるか試してみるつもりですが

PDFMinerのうち、LAParamsで字間・行間調整したら結果が改善するのか試してみたいと思います。
pdfminersix.readthedocs.io
そのためにも、まず設定項目の確認などが必要になっています。
www.shibutan-bloomers.com
少しやってみましたが、あまり楽観できる様相とは思えません。
qiita.com

ということで、見出しにJavaが入っていますが、この記事から関係なくなります。続き物ということで、ご容赦のほど。