スポンサーリンク

これがHtml

スポンサーリンク
この記事は約5分で読めます。

HTMLフォルダは、競艇データの現場そのもの

これが、実際に取り込んだHTML

ここに表示しているのは、私のPC内に保存してある 2020年・桐生の直前情報HTML です。

このフォルダの中には、2020年の桐生で取得した直前情報HTMLが、1レースごとに保存されています。

数は 2256個 です。

これは、2020年の桐生における直前情報のすべてです。

開催されたレースだけでなく、中止レースも含めて、その年の桐生の直前情報がこのフォルダに集まっています。

ここで大事なのは、単に「たくさん保存している」ということではありません。

日付。
会場コード。
レース番号。
データの種類。

これらのルールに従って、同じ形式のファイル名で並んでいることです。

つまり、あとから見たときに、

「これは何年のデータか」
「どこの会場のデータか」
「何レースのデータか」
「どの種類のデータか」

が分かる状態になっています。

競艇ソフト制作では、この整理がとても重要になります。

データは、集めただけでは使い物になりません。

どこに何があるのか分からない状態では、あとから確認することも、検証することも、作り直すこともできません。

逆に、ルールに従って保存されていれば、HTMLフォルダそのものが、ひとつの資料室になります。

この例では直前情報を表示していますが、raw data はこれだけではありません。

出走表。
結果。
オッズ。

それぞれのHTMLも、同じように規則正しく集積されています。

こうした元データを、どのように保存し、どのように整理し、どのように取り出せる状態にしておくか。

そしてHTMLには、もうひとつ大きな意味があります。

それは、WEBサイトの画面を見ているだけでは気づきにくい情報が、HTMLの中には残っているということです。

次の画像は、直前情報HTMLの一部です。

HTMLをテキスト(メモ帳)で開いたら

普通にWEBサイトを見ると、天候や風速、水温、波高などは、人間が読みやすい形で表示されています。

これはこれで分かりやすいのですが、競艇ソフトに使う場合、人間に見やすい表示だけでは不十分なことがあり、特に分かりやすいのが、風向きです。(管理人も苦労しました)

WEBサイト上では、風向きは矢印で表示されています。

人間が見るだけなら、矢印で十分です。

しかし、ソフトに保存する場合は、矢印の画像そのものでは扱いにくいです。

画像は画像です。

そのままでは、

「何度の風向きなのか」
「追い風なのか向かい風なのか」
「横風成分があるのか」

といった形で計算に使うことができません。

ところがHTMLの中を見ると、風向きは単なる見た目だけで管理されているわけではありません。

たとえば、画像の中には is-wind02 のような記述があります。

WEB画面上では矢印として表示されていても、HTMLの中では番号付きの情報として存在しているのです。

これは非常に大きな違いです。

人間には矢印に見える。
コンピューターには番号として取り出せる。

この状態になっているからこそ、競艇ソフト側で風向きを数値化できます。

たとえば、

is-wind01 ならこの方向。
is-wind02 ならこの方向。
is-wind03 ならこの方向。

というように対応表を作れば、画面上では矢印だった情報を、分析に使えるデータへ変換できます。

つまりHTMLは、ただの画面の裏側ではありません。

人間向けの表示と、コンピューター向けの材料が同時に入っている場所です。

この画像の中にも、天候、風速、水温、波高、気温、風向きに関する情報が含まれています。

WEB画面ではきれいに整えられて表示されているものが、HTMLの中では部品ごとに分かれて存在しています。

この「部品」を取り出して、ExcelやDetaBaseに並べ直す。

それが、競艇ソフト制作におけるデータ化の作業です。

ここで勘違いしてはいけないのは、HTMLをすべて読めるようになる必要はないということです。

HTMLを開くと、英語のコードや記号が大量に並んでいます。

最初は、かなり見づらいです。

正直、慣れていなければ気分が悪くなるような画面です。

しかし、全部を理解する必要はありません。

必要なのは、

「どの部分に欲しいデータがあるのか」
「どの記述が画面上の何に対応しているのか」
「どの形で取り出せばソフトで使いやすいのか」

を見つけることですが、安心してください!ChatGPTに手伝ってくれます。

HTMLの構造を読み解く作業は、AIがかなり得意な分野です。

人間側は、競艇ソフトとして何を使いたいのかを決める。

AIには、その情報がHTMLのどこにあるのかを探してもらう。

この役割分担ができれば、HTMLは怖いものではなくなります。

むしろ、競艇ソフト制作にとって非常にありがたい材料になります。

画面では見えているだけの情報。
画像として表示されている情報。
一見するとただのコードにしか見えない情報。

その中に、ソフトで使えるデータが眠っています。

raw data(HTML)を保存する価値は、単なるバックアップだけではありません。

そこには、画面を見ているだけでは気づけない、整ったデータの入口があります。

2020年桐生の直前情報2256個。

このように1年分のHTMLが揃っていると、そこから初めて見えてくるものがあります。

欠けているレースはないか。
中止レースはどう扱われているか。
風向きや気象条件はどのように記録されているか。
WEB画面とHTMLの中身はどう対応しているか。

こうした確認ができるようになります。

競艇ソフト制作では、表に見えているデータだけを使うのではなく、その裏側にあるHTMLも見ていく必要があります。

HTMLは、ただの英語のコードではありません。

競艇データの現場であり、競艇ソフト制作の原石です。