pagetakaBlog

最近リフォームと鳥取県日南町の記事多め。写真、PC、ネット等の話題も

東証株式相場表:約3800銘柄のうち7銘柄でデータをピックアップできていない(7/27分)

前説:PythonスクリプトでPDFMiner動かしたけど、東証株式相場表(日報、PDF)で取得できてないデータがあるのがわかりました。

pagetaka.hatenablog.jp

当初、PDFからCSVにしたデータで容量が半分ほどのがありました。その後、爺的にはチョット頑張り、508~526KBのCSVファイルになりました。それでもまだ気になり、その後の備忘録です。

Pythonスクリプト、主に正規表現などを工夫し、484~491KB程度のCSVファイルになりました。

3月1日から10月11日分までのPDFをPDFMinerを使ってCSVにしました。その結果、484~491KB程度のファイルになりました。だいぶ容量差が少なくなりました。

前回も注目した7月27日分を比べてみました。前回60銘柄くらい拾えていませんでした。Pythonスクリプト、主に正規表現を改善した結果今回48銘柄になりました。

48銘柄がヒットしない。

改善したPythonスクリプトでデータを拾うことができていない48銘柄の理由は次の通りです。対象は同じく7月27日のPDFで、銘柄コードは最近のものを使っています。

  • データがあるのに拾えてない---15銘柄
  • 上場廃止でデータがない--------18銘柄
  • 未上場でデータがない-----------14銘柄
  • 優先株用のコードで不詳--------- 1銘柄

したがって、課題なのは「データがあるのに拾えてない---15銘柄」です。これをなんとかピックアップできるようPythonスクリプトを改善しなければ、と妄想中の爺です。

データがあるのに拾えてない:15銘柄

本来、ちゃんと処理できないといけない15銘柄、7月27日のPDF内で検索しました。
その結果は次の通りです。

  • データがあるけど拾えてない …………………………7銘柄
  • PRO市場銘柄で今回対象外………………………………7銘柄
  • PDF上で銘柄コード、銘柄名でヒットしない …1銘柄

ということで、約3800銘柄のうち、要対策の銘柄、7月27日PDFの場合、7銘柄のようです。やっと、ここまで絞り込むことができました。

データがある7銘柄の内訳は、PDF各頁の最後のあたりの銘柄。

7月27日のPDFでぼんやりと「データがあるけど拾えてない」状態の7銘柄を見ていました。
PDFでの表示位置に特徴がありました。
6銘柄は表示頁の最後の銘柄、1銘柄は「PRO市場」直前の銘柄でした。このあたりに、Pythonスクリプト改善のポイントがありそうです。

さて、いつになったら目途がたつのか…ボケ爺は、一日PCの前でこの7銘柄の理由を探しておりました。では…。