pagetakaBlog

最近リフォームと鳥取県日南町の記事多め。写真、PC、ネット等の話題も

Python:Excel読込みんだらPandas.DataFrameでどうなってる…のか…。

東証上場銘柄表から、RDBのいくつかのテーブルが作れそうです。

【東証上場銘柄一覧(Excel,XLS)がDataFrameに】
【東証上場銘柄一覧(Excel,XLS)がDataFrameに】

前説:東証上場銘柄一覧(Excel:XLS)をPandasで読み込んだらDataFrameができました。

pagetaka.hatenablog.jp
爺には「DataFrame」ということがわからず、ネット徘徊しました。その結果、少しわかったので「備忘録」として書き留めておくことにしました。

DataFrameは、「辞書型」らしい…。

前記事のPythonスクリプトで該当するところは、次の通りです。なお、下の行だけ実行しても動かないかと…ええ…スクリプト全体(直前記事掲載)が必要です。くどいようですが、Pythonが動くPCでないと意味をなさない、かと。

df = pd.read_excel(url, header = 0,index_col = 1)

爺なりに解説すると、次の通り(間違ってたら、ご教示くらはい)。

  1. Pandas(=pd)の「read_excel」を「( )」内の条件で実行
  2. 前項条件(urlで指定したファイル、0行目が見出し行、1列目が辞書、ただし、0始まり)で取得できた結果をdfへ代入すると「DataFrame」ができている

…という具合かと思います。見出し行、辞書列を指定しない場合はデフォルト値で処理されます。
dfは、銘柄コードを索引にすると、銘柄名や業種などを知ることができる、ことに。
df.index[n]はn番目の銘柄コード、df.values[n,1]には銘柄名があり、今回だと0~8まで(9種類)のデータがあります(先頭図参照)。

課題:コード・銘柄名一覧表など各種一覧表をつくりたいです。

当初、東証株価相場表(PDF)から、銘柄コードなどとともに前後場別取引4値ほかを取得するのに七転八倒しておりました。このPDFから銘柄コードと銘柄名の一覧表をつくろうか、と考えていました。しかし、ネット徘徊の課程で、「東証上場銘柄一覧」(Excel、XLS)が便利とわかりました。この一覧表には、日付、市場区分、33業種区分、17業種区分、規模区分などもあります。なので、ここから、リレーショナルデータベースのテーブルを作ろうかと思います。銘柄コードをキーにした現状から、市場区分、33業種区分、17業種区分、規模区分をそれぞれコードだけで処理できるよう区分ごとにテーブルつくろうかと思います。そのためには、「東証上場銘柄一覧」から重複削除を区分ごとに繰り返す必要がありそうです。これが済んだら、日々データ以外はひとまず準備できたことになるのか、と妄想してます。