スポンサーリンク

なぜ、raw deta (HTML) が要るのか?

スポンサーリンク
この記事は約4分で読めます。

なぜ raw data(HTML)が要るのか?

競艇ソフトを作るうえで、最初は意味が分かりにくいものがあります。

それが raw data(HTML) です。

最初に断言しておきます。

今は意味が分からなくても、競艇ソフトを作り続けていれば、
raw data を保存しておいてよかった
と思う時が必ず来ます。

これはほぼ間違いありません。

もし、そういう時が来なかったとしたら、余程のセンスがあるか、作成方針が間違っているかのどちらかです。

競艇ソフトを作るとき、多くの人は最初からきれいなデータベースを作ろうとします。

レース結果。
出走表。
直前情報。
オッズ。

これらをExcelやデータベースに整理して、後から分析できる形にしていく。

もちろん、それは大事です。

しかし問題は、データベース作成が一発でうまくいくわけではないということです。

私自身のDetaBaseも、まだ改善点を残しています。

最初に作った時点では正しいと思っていた項目でも、後から見ると、

「この項目も取っておけばよかった」
「この形式では分析しにくい」
「このデータの持ち方は少しまずい」
「この条件のときだけ取得ミスが起きている」

ということが出てきます。

これは失敗ではありません。

競艇ソフト制作では、むしろ普通のことです。

問題は、その改善をするときです。

もう一度、競艇オフィシャルサイトに何万回もアクセスして、最初からデータを取り直すのか。

それとも、すでに自分のPC内に保存してある raw data(HTML)を元に、もう一度データベースを作り直すのか。

この違いは、とても大きいです。

raw data が残っていれば、あとから何度でもやり直せます。

取り出す項目を増やす。
保存形式を変える。
シート構成を変える。
エラーの原因を調べる。
別のロジック用にデータを作り直す。

こうした改善が、PC内のデータだけでできます。

つまり raw data は、単なる保存ファイルではありません。

競艇ソフト制作における やり直しの保険 であり、
後からデータベースを育てていくための 原石 です。

HTMLとは、WEBサイト上にある生データのようなものです。

ただし、私たちが普段見ているきれいな画面のまま保存されているわけではありません。

HTMLファイルをテキストで開くと、英語のコードや記号が大量に並んでいます。

最初に見たときは、気分が悪くなるかもしれません。

「こんなものを全部理解しないといけないのか」

そう感じる人もいると思います。

しかし、全部を理解する必要はありません。

ここはとても大事です。

HTMLを完全に読めるようになることが目的ではありません。

目的は、HTMLの中から必要なデータを取り出し、競艇ソフトで使える形に変換することです。

分からない部分は、ChatGPTに理解してもらえばよいのです。

人間が全部のHTML構造を暗記する必要はありません。

人間がやるべきことは、

「どのデータが必要なのか」
「何を取り出したいのか」
「どの形で保存したいのか」
「あとで何を検証したいのか」

を考えることです。

HTMLの細かい構造を読む作業は、AIに手伝ってもらえます。

しかし、何を残すべきか、どのデータを使いたいのか、どのように検証したいのか。

これは人間側が決める必要があります。

だからこそ、raw data を保存しておく意味があります。

最初は、ただの気持ち悪いコードの塊に見えるかもしれません。

でも後から見ると、それは競艇ソフト制作の材料そのものです。

データベースは、あとから作り直せます。

集計方法も、あとから変えられます。

分析ロジックも、あとから改善できます。

しかし、元になる raw data がなければ、やり直しのたびにまたWEBサイトへ取りに行くしかありません。

これは時間もかかりますし、安定した制作環境とは言えません。

競艇ソフト制作では、完成品のデータベースだけを見るのではなく、
その元になった raw data を残しておくことが大切です。

最初は意味が分からなくても大丈夫です。

続けていれば、必ず分かる時が来ます。

「あのときHTMLを保存しておいてよかった」

そう思う日が、必ず来ます。

「HTML保存は、未来の自分への保険」