いろいろやってみよう

完璧を目指すより、まず終わらせろ

【Python】LightGBM等で使用できない文字が含まれているカラムを抽出する方法

結論 以下コードで抽出できます。 def extract_special_json_chars_columns(df): # 特殊なJSON文字を検索する正規表現パターン special_chars_pattern = r'[",\[\]\{\}:]' # 各カラム名に対して、特殊なJSON文字を含むかどうかを判定 special_chars_columns …

【Athena】開始・終了日時から、そこに含まれる時間帯を全て取得したい

結論 以下のクエリで出来ます。 WITH temp AS ( SELECT user_id , DATE_PARSE(start_datetime, '%Y-%m-%d %H:%i:%S') AS start_datetime , DATE_PARSE(end_datetime, '%Y-%m-%d %H:%i:%S') AS end_datetime FROM tb_01 ) SELECT user_id , start_datetime , …

書籍:効果検証入門[1章1.4.3]

書籍内のコードを実際に実行し、それをまとめている記事です 書籍、効果検証入門の中身を、実際に手元で実行し、それを纏めている記事です。 前回の記事はこちらです。 mashio.hatenablog.com 書籍内のコードを実際に実行し、それをまとめている記事です 1章…

書籍:効果検証入門[1章1.4.1~1.4.2]

書籍、「効果検証入門」の内容を、実際にコードを実行しながら振り返ります。 以前購入した効果検証入門は、購入後あまり間をおかず一通り読んでいました。 が、最近実務でその知識を使おうとしたところ、あまり記憶に定着しておらず、もう一度最初から読み…

データフレームで、条件に応じて乱数を生成する

データフレームで、他の列の値に応じて異なるルールで乱数を生成したい 手元で適当な乱数を生成し、それをもとに何かしらの分析手法を試すことがあると思います。 そういった時、ある列に同一のルールで乱数を生成するのであれば以下のようにします。 librar…

Rでデータの中身をざっと確認する

読み込んだデータをざっと確認したい データ分析業務を行っていると、定期的に分析対象のデータが変わることは当然発生します。 新たなデータを受け取った時は、データの中身をざっと確認したいことがあります。 とはいえ、そこまでそういった処理の頻度が高…

感想:問題解決 ― あらゆる課題を突破する ビジネスパーソン必須の仕事術

はじめに データアナリストをしていく上で必要なスキルは数多くあると思いますが、その中でも基礎中の基礎、そしてビジネスをしていく上で恐らくあらゆる場面で必要とされるであろう能力は問題解決能力だと思います。 そんな問題解決能力ですが、社会人にな…

感想:会社を変える分析の力

はじめに データ分析界隈ではかなり有名と勝手に思っている、会社を変える分析の力を読みました。 折角なので、思ったこと、感じたことを書いていきます。 ポイント データ分析の定義 本書の冒頭で、データ分析の定義を次のように記載していました。 「デー…

TIMESTAMP_DIFF のちょっとしたメモ

BigQueryで、TIMESTAMP型同士の差分を計算することがあります。その時はTIMESTAMP_DIFF関数を使っています。記述方法は下記の通り。 TIMESTAMP_DIFF(timestamp_expression, timestamp_expression, date_part) 参考サイト これなんですが、date_partに指定す…

MySQLをインストールしよう

はじめに 2019年5月に入社した会社の関係で、SQLの勉強をしています。 勉強はスッキリわかるSQL入門を読みながら、dokoQLのサイトを使ってしています。 ただ、dokoqlだとテーブル数・データ数が少なかったり、より多くのコマンドの練習をするにはやや不足し…

ブログ始めよう

どうもはじめまして、ましおです。今まで卸売企業のマーケティング部に所属していたのですが、この5月にデータ分析を事業として行っている企業に転職しました。 IT企業には「一人一つ以上ブログを運営すること」、とかいう就業規則があるとかないとかって聞…