- 10/28追記:「まとめ」UP
- 前説:Java + tabula はほぼ挫折
- 現状:PDFMinerでテキストファイルにしてみたけど
- 今後:PDFMinerの字間・行間調整でちゃんとテキスト出力できるか試してみるつもりですが
10/28追記:「まとめ」UP
東証株式相場表をDLし、PDFMinerでCSV化。「LOAD DATA INFILE」でMySQLへUP、というながれをまとめました。
前説:Java + tabula はほぼ挫折
pagetaka.hatenablog.jp
pagetaka.hatenablog.jp
これまで、VSCodeにtabula-pyをインストールして、東証株式相場表(PDF)から表抽出しようと努力(≒本人弁)しました。うまくいきませんでした。
tabula-pyをつかうにはJavaSDKをインストールするなど準備手数が長かったです。簡単なPDFはそれなりに処理できましたが、東証株式相場表はダメでした。複雑すぎるのでしょうね。
それで、別の道具をつかってみようともがいているところです。
現状:PDFMinerでテキストファイルにしてみたけど
東証株式相場表をPDFMinerをつかってテキストファイルにしてみました。行や列が違っていましたが、文字化けなどは起こらず、読むことができました。
www.shibutan-bloomers.com
今後:PDFMinerの字間・行間調整でちゃんとテキスト出力できるか試してみるつもりですが
PDFMinerのうち、LAParamsで字間・行間調整したら結果が改善するのか試してみたいと思います。
pdfminersix.readthedocs.io
そのためにも、まず設定項目の確認などが必要になっています。
www.shibutan-bloomers.com
少しやってみましたが、あまり楽観できる様相とは思えません。
qiita.com
ということで、見出しにJavaが入っていますが、この記事から関係なくなります。続き物ということで、ご容赦のほど。