- 前説:PythonスクリプトでPDFMiner動かしたけど、東証株式相場表(日報、PDF)で取得できてないデータがあるのがわかりました。
- Pythonスクリプト、主に正規表現などを工夫し、484~491KB程度のCSVファイルになりました。
- 48銘柄がヒットしない。
- データがあるのに拾えてない:15銘柄
- データがある7銘柄の内訳は、PDF各頁の最後のあたりの銘柄。
前説:PythonスクリプトでPDFMiner動かしたけど、東証株式相場表(日報、PDF)で取得できてないデータがあるのがわかりました。
当初、PDFからCSVにしたデータで容量が半分ほどのがありました。その後、爺的にはチョット頑張り、508~526KBのCSVファイルになりました。それでもまだ気になり、その後の備忘録です。
Pythonスクリプト、主に正規表現などを工夫し、484~491KB程度のCSVファイルになりました。
3月1日から10月11日分までのPDFをPDFMinerを使ってCSVにしました。その結果、484~491KB程度のファイルになりました。だいぶ容量差が少なくなりました。
前回も注目した7月27日分を比べてみました。前回60銘柄くらい拾えていませんでした。Pythonスクリプト、主に正規表現を改善した結果今回48銘柄になりました。
48銘柄がヒットしない。
改善したPythonスクリプトでデータを拾うことができていない48銘柄の理由は次の通りです。対象は同じく7月27日のPDFで、銘柄コードは最近のものを使っています。
- データがあるのに拾えてない---15銘柄
- 上場廃止でデータがない--------18銘柄
- 未上場でデータがない-----------14銘柄
- 優先株用のコードで不詳--------- 1銘柄
したがって、課題なのは「データがあるのに拾えてない---15銘柄」です。これをなんとかピックアップできるようPythonスクリプトを改善しなければ、と妄想中の爺です。
データがあるのに拾えてない:15銘柄
本来、ちゃんと処理できないといけない15銘柄、7月27日のPDF内で検索しました。
その結果は次の通りです。
- データがあるけど拾えてない …………………………7銘柄
- PRO市場銘柄で今回対象外………………………………7銘柄
- PDF上で銘柄コード、銘柄名でヒットしない …1銘柄
ということで、約3800銘柄のうち、要対策の銘柄、7月27日PDFの場合、7銘柄のようです。やっと、ここまで絞り込むことができました。
データがある7銘柄の内訳は、PDF各頁の最後のあたりの銘柄。
7月27日のPDFでぼんやりと「データがあるけど拾えてない」状態の7銘柄を見ていました。
PDFでの表示位置に特徴がありました。
6銘柄は表示頁の最後の銘柄、1銘柄は「PRO市場」直前の銘柄でした。このあたりに、Pythonスクリプト改善のポイントがありそうです。
さて、いつになったら目途がたつのか…ボケ爺は、一日PCの前でこの7銘柄の理由を探しておりました。では…。