機械学習の勉強。

つぶやきブログ。

少し統計学から離れて

前の記事から少し間が空いてしまいましたが、何をしていたかと言うと、統計学はお休みして、他にやりたかったスクレイピングの勉強をしていました。

 

今まで取得していたやり方って、ほんと簡素で、htmlで簡単に取ってこれるようなやつでしたが、

実際の案件なんかやってると、もう調べる量が半端ないんですよね。あ、案件と言っても練習でやってみただけで。

出回ってる情報だけでスクレイピングしようとしてもうまくいかない、エラーの連続。心折れそうになりながらも、プログラミング自体は楽しいんで、苦痛と楽しさの葛藤を乗り越えながら笑、結果うまくCSVに出力までできたんですけどね。

 

練習でやってみた案件のコードも、他の案件に応用効くのかなとか、まだ知らないこととかあるんだろうなと思うと、実際に仕事を請け負うとか尻込みしてしまいます。

 

うん、機械学習はいいけどやっぱお金になるような事したいですし、でも金にならなくてもデータ分析したい…優柔不断笑

 

アプリも作ってみたいけど、やらないようにと決めています。あれこれ広げすぎると収集つかなくなりそうで。

 

と言いつつ、スクレイピングの幅を広げたくてVBAもちょこちょこやってみたり。わからないので、問題集も最初からカンニング笑 最初はインプットが大事であります。

 

脳の容量いっぱいですが、モチベは下がってないので楽しんでやっていこうと思います。

趣味でデータ出してみた

少し学習時間より、自分のやりたいことを優先してコード書いてみました。

たいしたことやれてないですが、確率的なことを数字で出して見てみたいと思って。

 

木曜日・・・何をしたかというと、競馬の予想で主にタイムでどれが速く走れてるかというもの。統計学も見方がいろいろあって、何で分析したらいいか迷った結果、標準偏差とかでグラフにしようかと思いました。これ以外にいい分析の仕方あるとは思いますが、覚えたやり方とかは試してみたい笑

考えるだけ考えて終わりました。

 

金曜日・・・時間をかけて地道にコード書き。うまくコード通ると達成感出てきますね。エラーばっかり出してるので。

スクレイピングもhtmlで取り出せたから思ったよりは、早くデータ分析できたかな。

ただ自分の分析の仕方だと多頭数のグラフ表示キツイですね笑 他にいいやり方ないか、勉強しながら考えてみたいと思います。

 

土曜日・・・勉強お休み。前日にさらっとデータに出したものは外れました。レース自体すごい荒れたのですが、こういうときはデータからは分からないかな・・・と考えてつつ、知識を吸収していってデータ解析頑張ります。

 

今日もいい時間、寝よう。

スランプ気味

凡ミスでエラー出して数時間経ってたり、コード書いても思ったように表示されなかったり散々な気分なこの頃・・・数学の知識浅いので、統計学なんて勉強してませんし、色んな意味でいろいろ新鮮です。

 

月曜日・・・統計学web。やらかした気分が始まる。

 

火曜日・・・統計学web。進んでるようで進んでないです。ネット検索とグーグルコラボを行ったり来たり。エラーを何回も出して、でも完璧では無いもののグラフもどきは作れてるかも。

 

水曜日・・・統計学web。Python自体、勉強の目的はアプリを作ると言うよりデータ解析したかったので、その調べたいものに少し近づいてる気はします。うまくいくのかー。

 

スクレイピングって、htmlからテーブル取り出せると楽なんですが、調べたいページJavaScript使っててうまくいかないです。スクレイピング自体はOKなようですが。

最近このやり方で楽してしまってたので、タグ指定となると、ちょっとめんどくさいです。

 

またこんな時間、寝よう・・・

プログラミング沼にハマってるこの頃です。進まなくても調べてたらあっという間に数時間とか、ググるスキル低いだけなんですけどね。

 

金曜日・・・バブルチャート作成。難しいんですけど・・・いろんな書き方ありますしね。完成はしたものの、色指定ができませんでした。特定の円に指定した色をつけるとか、まだ難易度高いのです。

 

土曜日・・・相関係数を求めるとな、意外にできました。数式だけ見たらさっぱりなのですが、丁寧に分解した式が書かれててコードもさくさく書けました。

 

日曜日・・・やりたいことと違うことを数時間延々とやっていました、汗 調べまくったおかけで、避けていた正規表現とか、他のことも分かって良かったんですけどね。忘れないよう保存。やりたいことは改めて取り組んでようと思います。

 

早めに(もう深夜過ぎですが笑)就寝ー。

そろそろ一週間

統計webを始めて一週間ぐらい経ちました。進捗具合は微妙ですが、理解しながらやれてるので、自分的にはおっけーな感じです、笑

 

火曜日・・・分散、標準偏差をコードを書いて求めていきます。数値入力した方早いんじゃ、みたいに前は思っていましたが、リストからfor文回して数値出していくのが面白くなってきた・・・!ちょっといい傾向かも。

 

水曜日・・・レーダーチャートを表示させなさいとな。レーダーチャートって何って、見てみたら見たことあるやつ。とりあえず、ググってコピペ、手直ししつつ完成させれました。

たぶん、何書いたか覚えてない。見返せればいいかあ。

 

木曜日・・・標準化させてみなさいとな。平均、標準偏差が書かれていたので、あとはまたfor文回して数値出していくだけ。今まで忘れていたリストをデータフレームで表示。時間かかってしまいました。

pandasまだ使いこなせてないです。

 

統計を少し分かったつもりになったので、問題を理解できるかもとkaggleをまた覗いてみましたが、まだ、全然でした笑 コンペ参加できるようになりたい。

まだまだ基礎

GWに入っていますが、特に予定もないので勉強であります笑

 

土曜日・・・時系列の折れ線グラフを作成したりしてみましたね。スクレイピングして情報取り出しますが、日本語表記を直そうとするのに時間がかかってしまいました。結局直せず、お豆腐のまま。

解説しているコードも公開されてましたが、まだ私には解読できませんでした笑

 

日曜日・・・コードがすっきりかけるようになってきました。スクレイピングで列の中身もリストで取り出し。長ったらしく書いていたのも、短いコードで書き換えられると感動、笑

時間かけてもなんとかやっていましたが、どうしても分からない、つまずいた内容も出てきました。

エクセルにメモってサヨウナラ・・・いつかはやり直します。

 

月曜日・・・四分位数というのやらをやってみました。初めて聞きますね、なんだオマエは。が、中央値を出すのは楽なので、さくさく進みました。動画で基礎中の基礎をやっておいたおかげで、リストの中に追加や削除もささっとできました。たまには、こんな日があってもいいかも。

 

ところで、睡眠時間ってどのくらいいいんでしょう。久々にゆっくり寝てたら、作業が捗った気がします。

私にはまだ早かった

相変わらず統計学を勉強していますが、kaggelの問題に取り掛かるのは私にはまだ難しすぎるようで、他のことしちゃってます。

目標を立てても次の日には、別のことやってる・・・笑

 

水曜日・・・ひたすらインプットの日でした。動画を見ながら、ルーズリーフにメモメモ。このメモは役に立つのか分かりませんが、書くと頭に入りやすいタイプのようです。

標準偏差とか、動画で検索すると学校で習う範囲みたいですが、全く記憶にありません。

 

木曜日・・・統計webというサイトを知りまして、やってみました。出題される問題が分かりやすくてやってて楽しいです。最初の方だけなのかもしれませんが、このサイトなら続けられそう。

以前に書いて意味がよく分からなかったコードも、解きながら調べていくうちになるほどと思ったり。

 

金曜日・・・前日とやったことは対して変わらず。のろのろですが、実際に書きながら進めていきます。コラボで後で見返しても分かるように保存。

4月の最終週、先月より学習ペースはゆっくりになっていますが、続けられていることがなによりです・・・笑