shinyaa31:input 2024/05/16

ついうっかり油断してたら更新滞ってしまった。 明示的に曜日を決めて投稿するとかしたほうが良いのかもしれない。 ということで6日ぶりの更新です。

データ分析

データ分析全般

primeNumber社、最近色々展開が活発になってきてますよね...

どこかで何かあった時に活用したい。どこで何があるか分からんけど。

xtrend.nikkei.com

セマンティックレイヤー(Semantic Layer)

セマンティックレイヤー周りはまだまだ世の中に浸透していないカオスでもあるよねぇと思う、どこから始めるのが良いんでしょうね?と情報を調べてみたらOSSのものもあるようなのでまずはそういったところから実践、実体験を経て知見を広めていこうかなと思う。果たして今後(セマンティックレイヤーは)定着していくものなのかどうか。

モデリング

データモデリングの参考に。

note.com

データモデリングの参考に、その2.

medium.com

こちらの投稿で書籍『The Data Warehouse Toolkit, 3rd Edition』の存在を知った。

www.kimballgroup.com

dbt

やっぱこういうの使いたいよねぇ、直近検討しているやつではdbt Cloudベースで考えてたけどCoreとの併用で行きたい感...

zenn.dev

先日開催されたウェビナーで新機能沢山来てましたが関連する公式ブログもちゃんと出てました。

ちなみに私の方で投稿した関連会社ブログはこちらです。(投稿日順) dev.classmethod.jp

Elementary Data

Elementaryも触ってみたいプロダクトではあるんだが、いかんせん有償版しかねぇ...

techblog.cartaholdings.co.jp

と思ってみたらOSS版もあるのね。触ってみよう。 docs.elementary-data.com

Looker Studio

Looker Studio、お値段的には1人9ドル/月なのね。アリかも。

support.google.com

OpenMetadata

データカタログは(も?)dbtの諸機能で良いんじゃないかとは思っているけどOpenMetadataも(OSSの方を)活用してみるかなぁ。

Snowflake

これを見るとやはりSnowflakeは適宜情報をウォッチしていくべきだよなぁ

Snowflake、頻繁にこの手の『ベストプラクティス』エントリ出てくるよね。それだけ利用人口が多く、有用な情報が出てくるだけの使い勝手があるという事なんだろう。どこかで『そういうの』をまとめたいな...

medium.com

その他

長文X投稿:この辺はまぁ色々思うところはあるよねぇ。

直近配信系の作業が急務で必要になってきそうであり、色々興味が湧いてきているお年頃な今日この頃。色々出来るようになりたいな。

qlab.app proav.roland.com

DevRelや技術広報といったロール(の記事)は最近良く目にすることがありますが具体的な違いみたいなのってあんまりピンと来て無かったんですよね。ってことでPerplexity Proに聞いてみました。こういう取っ掛かり、未知の事象についてガイド的に聞いてみるってのには生成AI便利な気がする。

発端はこちら941さんに関する記事から。

情報整理の参考として。

shinyaa31:input 2024/05/10

G.W.明けた途端パタリと更新が止まってしまったw

情報収集(Twitterを眺めて日々RTしたり)はしてるんだけれどもそれらのアウトプットを...ってなるとある程度の意思を持たないとやっぱり続かないですねぇ。

毎日更新とまではいかなくても2〜3日おきにアウトプットしていけるように(例えば月水土くらいのペースで)習慣付けしなきゃだわね。ということで2024/05/07(火)〜2024/05/10(金)までのインプットからの抜粋まとめです。

データ分析全般

過去ツイートですが一連の推奨図書のリストがこのツイートから続いていたということで参考インデックス情報としてメモ。


ETL/ELTツール評価軸のお話。端的にまとまっているので後で自分でも本文読んでみようと思う。

towardsdatascience.com


私自身はデータ分析界隈に携わるようになってそれなりに経つのでアレですが、「これから目指していこう」という人には参考になるところも多いエントリです。

hrkh.hatenablog.com


この資料「30分でわかるデータモデリング」ってのは一般公開されているものなのかしら?(一瞬、ゆずたそさんが出版されている『データマネジメントが30分でわかる本』と混同してしまった)

speakerdeck.com


とても参考アンド気になるディメンショナルモデリング勉強会の開催レポート。ちなみにこういうモデリング関係の情報ってどういうタイミングでインプットするのが良いんだろうね。実践する前?実践しながら?

product.10x.co.jp


スプレッドシートが便利になりますネタ。こういった、データ分析の敷居が下がる、便利になる機能改善は嬉しいですね。

workspaceupdates.googleblog.com


数的にまだ「カオス」とは言えないような気もするが、ポイントごとにまとめられていてとても良い情報。こうしてみると国内データカタログはまだまだ数的には少ないんですね。

その数少ない「日本発のデータカタログ」界隈に打って出てきたのがprimeNumber社の「COMETA」。じきに国内で覇権を握るデータカタログ製品が出てくるのでしょうか。動向を見守りたい。


DMBOKを読み進められれば良いんだろうけどあれはあれで質量半端無くて大変なのでこういった書籍から入っていくのが良いのかもしれない。ということでポチりました。

BigQuery

この辺自分の中でも同じような考えだったのでとても参考になります。

aaaanwz.github.io

Dataform

最近自分の中でも評価が高まっているDataform。そのDataformを使ってリプレイスを行ったという事例エントリ。

engineering.dena.com

Looker

「これは全社的にちゃんと活用されるデータ基盤の構築を目指すデータ組織にとっての必読noteでは」まさにそれな資料。

Snowflake

Truestarさんのこういう取り組みはまじ有り難い。

prtimes.jp

Snowflakeさん新オフィス、良いなぁ。

Tableau

先日開催されたTableau Conference 2024のうちデータソースに関するものを抜粋して日本語でまとめたエントリ。

ちなみにイベント全体の新機能新サービスに関する情報まとめ from 公式はこちら。 www.tableau.com

その他

先日手書き風構成図描画ツールでDraw.ioや★


思考の整理に役立ちそうなのでメモ。


コミュニティ運営を上手くいかせる術、どこから手を付けていいやらと悩みがちなところではありますが1つの方針・参考になるのではなメモ。


1つの理想形。

https://tech.dentsusoken.com/entry/2024/05/06/%E3%82%A4%E3%83%B3%E3%83%95%E3%83%A9%E3%81%AE%E8%87%AA%E5%8B%95%E6%A7%8B%E7%AF%89%E3%81%8B%E3%82%89%E5%B1%9E%E4%BA%BA%E6%80%A7%E3%82%92%E6%8E%92%E9%99%A4%E3%81%99%E3%82%8B%E3%82%A2%E3%83%97%E3%83%AAembed:cite]


「リモート」という概念を強制的に取り入れる形になったけど、「オンライン、オフラインそれぞれのメリット・デメリットがある」「選択肢が広がった」のは結果としては良かったよね。

shinyaa31:input 2024/05/06

G.W.終わっちゃいましたねぇ。

データ分析

データ分析全般

「データプロダクトのブループリントモデル」と称されたエントリの紹介。データ分析基盤に携わる人であれば読んでおきたい1本。

medium.com


Databricks の「スタースキーマとは」に関するドキュメントが良いよ!という紹介。他の用語についても端的に解説されてそう。

Snowflake

Snowflake Dynemic Tableが一般利用可能になりましたが、このDynemic Tableを始めるために知っておくべきことがまとめられています。

medium.com

dbt

dbtがどんどん便利になっていくなぁ。そしてやはりdbt Cloudとdbt Coreの併用は追い求めていきたい。(現状dbt-osmosisはdbt Core経由でのみ利用可能)

github.com


dbt Snapshotから学ぶSCD。

data.gunosy.io

AI/機械学習

機械学習xビジネスを考えるときの参考となる読み物。

f-bun.hatenablog.com


AIをガッツリ使う!ってなったときの参考にしよう。

http://www.mi.u-tokyo.ac.jp/consortium2/pdf/1-4_literacy_level_note.pdf


セキュリティにガッと足を踏み入れるときの参考にしよう。 speakerdeck.com


この手の「この分野の学習はこの順番で行け」な情報は(その分野の)初心者には助かる。

nirvacana.com

その他

いやぁこれねぇ、読んでて思わず涙が出てしまったよ。辛い...

「日本語文書の洗練」ってテーマで良く出てくる書籍たちですね。自分も以前購入しました(読んではいない)。読もうかしら。

shinyaa31:input 2024/05/05

5/4は投稿してなかったので5/5の分と合わせてアウトプット。

5月から始めたにも関わらず、「読んでおく」記事が結構なペースで積み上がってきている。 積読書籍を1冊数時間で読みたいのもあるが、「積記事(?)」も1記事15分とかそこいらで読む(超ざっくりで良いので要点や感想をまとめる)ってスキルも身に付けていきたい感が出てきたな。1日1時間で3〜4記事そういう感じでインプット&アウトプットしていくみたいな。その辺もチャレンジしてみよう。

データ分析関連

データ分析全般

先日(5/3)のエントリでも取り上げた複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blogと合わせて「データエンジニアとは」という部分の参考に挙げても良い内容だと思う。ということでブクマ。

note.com


書籍が出るらしいです。しかもデータモデリングに関するもの。これは必読ですね。発売に合わせて主要なデータモデリングに関する文献・情報を読み押さえておくのはやろうかなと思います。


データ分析基盤の運用面を考えたときにポイントとしてとても重要な「冪等性」。とても分かりやすく実践内容を踏まえた説明が為されていて参考になります。


知識・見聞を広める為に読む。


知識・見聞を広める為に読むその2。

Snowflake

SnowflakeのTask機能を念頭に置いた構成を考える際にとても有用なエントリ。

sonra.io


Snowflakeに関する情報収集といえばこの人(のX投稿)。今回の情報は直近のSnowflakeに関するアップデートにちょっと踏み込んだもの。

blog.infostrux.com

Looker Studio

会社ブログで投稿したLooker Studioで新しいグラフ『タイムライン』が利用できるようになったエントリのSNSの伸び&インプレッション数が自分史上の中でも割と良い感じの数字を出してたけどこれはLooker Studio自体割と注目度が上がってきていると見ても良いのかしら?下記エントリを見ても近年の機能充実度は目を見張るものがあるような気がしています。

www.principle-c.com 今後はLookerとLooker Studioは統合の道を歩むようだし、Lookerと合わせてLooker Studioの扱いにも慣れておくというのは悪くないと個人的には思っております。 dev.classmethod.jp


この辺自分もやりたい。

Databricks

Databricksねぇ...触ってみたいと思ってるんですが、有償なのでねぇ..

www.databricks.com

Elementary

Elementaryは試してみたいとは思ってるものの、個人で使うにはちょっと値段がお高いので保留している。触るにしても要点を整理しておいてトライアル期間でガッと...っていうのが落とし所かなぁ

IT系全般

改めて見つめ直す「要件定義」とは、に関する資料。

speakerdeck.com


この辺仕事で上手く活かせると強いですよね。

その他


個人X投稿のRT/非RTの割合を調べたくて「全件ダウンロード」を遂行したんだけれども、入手したZipアーカイブの中身的には全件とは程遠い内容だった。なんで?


積読本がめっちゃ多い&短い時間で1冊をガッと消化する術を身に付けたいなと思ってたのでこの方法は参考になるかも。


最近「老い」を感じる機会が増え、HPもMPもふんだんに使えてないなぁと思うことが多い今日この頃。「そういうのが無くても継続出来る」体制に身を置いていくのが1つの解決策・改善策にはなるんだろうね。


やりたいことを失敗前提で試せる環境に身を置けるのが、実は一番恵まれているのかもしれないなぁ...。そしてそういう環境は常日頃から自分を追い込むような姿勢で無いと維持は難しいような気がする。


Xで見掛けた投稿で気になったものがありました。手描き風の構成図が作成できるツール・サービスに関するものです。トリガーはこちらの御方の投稿だったのですが

もしかしたらこれですか?とコメントしてみたところ

このような返答を頂きました。何じゃこの風味は?こんな作風(?)で描けるツールがあるのか、はたまた独自の作成方法で作画、描画されたものなのか。著者の方(Zhamak Dehghaniさん)の投稿記事の幾つかの図はこのタッチで描かれている画像が載っているのでもしかしたらこの人独自の何かなのかもしれない。上記Excalidraw、Draw.ioを含め「構成図を手描き風で仕上げる術がある」という点は勉強になりました。


というかきんに君、これは羨ましすぎるシチュエーションだろう...!(フュリオサ公開が楽しみ過ぎる)

shinyaa31:input 2024/05/03

昨日から始めたこの取り組み、今日もやっていくよ!

今、日付変わったタイミングの夜中にまとめてやってるんだけど、これもうちょっとサイクル早めて(数時間おきとかにライブで)こっちのブログに書いていく形でも良いかなって気がしてきた。 あとこれIT、お勉強的なもの以外の一般ネタも書き記して行っても良いかなと思ってきた。また明日以降考えよう。(※見出しレベルの在り方は依然として模索中)

IT全般

結城浩さんのここからの一連の投稿、とても大事なポイントが散りばめられていると感じた。認識を合わせるための素直な質問提起、また説明する側としても「分からなかったり疑問に思ったことは適宜気軽に聞いてね」のスタンスを示し続けるのはとても大事。

何かで参考にしそうなのでメモ。

どっちを選ぶのか、というかどっちを選べるのか(人によっては)というこの問題。マネージャー側の道に進んだ場合でも何らか刃は研いでおきたいものですよねぇ...。

codezine.jp

データ分析

データエンジニア/データエンジニアリング

データ分析、データエンジニア界隈で話題になっていたこちらの投稿。データエンジニアリング界隈はこれからもまだ盛り上がっていくだろうし、そうなってくると何らか共通の物差しみたいなのが欲しくなるような、でもその辺皆好きにすれば良いんじゃないの、ってなるような。

こちらも暫く前に公開されて方方で話題に挙がっていた良質エントリ。自分の中でも指針・参考にしていきたい。

www.yasuhisay.info

Modern Data Stack

dbt

いよいよUnitTestが!(事前に色々情報インプットしておければと思ったけどパブリックになってから取り組む形になりそう)

Dagster

DagsterもAirbyteもどっちも個人的に気になってるのでチェック。と思ったけどこれオフラインイベントだったw

これはめっちゃ便利そう。ってか生成AIも良い感じで活用出来るとこういうこともパパッと出来るようになるんだろうね。(ちょっとまだ生成AIがデータ分析周りのサービスにどう効果的に活用していけるのかをイメージ出来てないマン)

その他

何かで参考にしそうなのでメモその2。

www.digital.go.jp

最近X投稿を意識して増やそうとしており(最近は1日平均50〜60位投稿してるんだけどもその大半がリポスト)、投稿単体でももっとインプレッション数とか表示数を増やしたいなと思っていて、そのための施策として興味深そうなコンテンツだったので購入。色々勉強していきたい。

最近では議事録的なものは「皆で書けるところは書く。重複しても気にしない」スタイルが多い気がするけど姿勢・押さえておくポイントとしては非常に綺麗に纏まっている。参考にしたい。

shinyaa31:input 2024/05/02

いつの頃だったか、まなめ(@maname)さんがやられていた「その日に見つけた有用情報を一言コメントを載せる形で整理してまとめていた」スタイル。あのスタイルは自分の中で収集した情報を整理するには非常に良いメソッドだなと最近改めて思うようになったのでこちらの個人ブログでそれを実践していってみようと思います。ここで定期的にまとめておけばその時その時期自分が何に興味関心を持っていたのかが把握できるし、アウトプットの元ネタ探しにもなる。ひいては一連の作業を個人ブログにも残しておくことで対外的にも情報を伝えることが出来ると思うし。

情報源は基本的には自らのX投稿を振り返る形とします。Twilogを見返す感じですね。


IT全般

こういった「使いこなし術」の情報は色々なところからバンバン出てるけどGoogleが公開してる、ってのは良さそう。

言及されているスライドは「社外登壇」をテーマにした内容ですが、社内で登壇する場合でも参考になるポイントが多いです。

データ分析

直近dbtでまさにこの辺やってみようかなと思っていたので参考にさせて頂きたい。一方でBigQuery環境であればdbtでは無くDataformでも良いんじゃない?と思うところもあり、そうなった場合Dataformで似たようなことが(どこまで)出来るのか、という部分も気になり始めています。まぁ両方試してみなさいよってことか。

Tableau Conference 2024の新機能情報まとめ。ここ見ておけば大体把握できそう。

皆様御存知、やろうやろうと思って結局後回しになっちゃうコンテンツの「SnowflakeのQuickStart」シリーズ。Snowflake Arcticは激熱トピックですね。

世の中の有用な情報はだいたいここに書かれているんじゃなかろうか?というGitLab社のドキュメント。データ分析におけるデータモデリングについても当然「あるよ」って感じの紹介。

ディメンショナルモデリングの情報はこちら。

Python x データ分析は色々便利なライブラリがある事自体は重々承知していたけれどもここまで多彩だとは。それぞれの分野でオススメ度合いが異なると思うのでその辺も何らか知る術が欲しい気もする。

先日Streamlitに入門したばかりだったので、その先にある「実際作ったアプリを共有、公開する手順」について言及されたこのエントリは参考になります。 zenn.dev

Tableau Conference 2024開催に合わせての情報リリース。最近そこまでTableauを追ってはいなかったがやはり製品クオリティは他BIツールとは一線を画している、頭ひとつ抜けているところはあるんだよなぁTableauって。改めて深堀りしてみようかな。

GAのデータをSnowflakeに持っていくってのは正直そんなにユースケース思い付かないところではある(BigQueryに持っていくほうが自然に感じる)が、良い感じで連携出来るというのは嬉しいところ。

書籍

一番最後の「プロジェクトのトラブル解決大全」はちょっと興味アリ。積読本も増えていく一方なので購入と読書は厳選していきたい感じではあります。

その他

これ元ネタ番組何だろ?その場でこの決勝のお題言われてこの即興プレゼンやったったってこと?だとしたら凄すぎる。


ということで施策一発目として書いてみました。本当は5/1から始めたかったんだけどうっかりしてしまってたので5/2からのスタートに。

その日のまとめを翌日夜中、日付が変わった後くらいに(まぁ遅くても翌日起床後に)出せると良いかな。毎日出来ると良さそうではあるけれどもそこは複数日まとめても良いことにしよう。あと今日のやつはX投稿(ポスト)を引用させてもらう形にしてみたけど、これもやり方含め色々試行錯誤してみる。

初詣2024@鎌倉・鶴岡八幡宮

初詣と映画鑑賞ランキングのみの投稿でほっそーく生き長らえている(?)ブログでございます。ってか2023年の映画鑑賞ランキングもまだ書いてないな。

ということで2024年初詣の報告です。

昨年2023年はピークタイム(正月三が日近辺)を避けたタイムスケジューリングで挑んでみたところスムーズな進行でいけることが分かったので今年も昨年に倣いゆっくり目の初詣で行くことにしました。

JR経由で11時30分前には鎌倉駅に到着。

従来の進行だと「初詣からの鰻」だったのですが、開店時間(11:30〜)直後にいつも行ってるお店の前を通ったら何と待機列ゼロ。なら今年は先に鰻行っちゃうか!ということでお昼時でもあったので先に鰻を頂きました。

鶴岡八幡宮の混雑状況も、人はそれなりにいましたが参拝における待機時間はゼロ。

最後階段登るところは少なからず待っていたりもしたのですが今年に関してはそこもゼロでした。

おみくじは大吉。個人的に割と久々だった気がします。2023年は一気に身体的な衰えを実感することが多かった1年だった気がします。心身共に健康であることが何より大切であるということを実感した1年でもありましたので2024年はまずは心身の健康を改善、維持することを第一の目標としつつ、その他の事も出来ることを1つずつやっていき、積み上げるところを積み上げていって結果的に良い1年だったなぁと思えるようにしていきたいと思います。今年もよろしくお願いします。