分析基盤アンケート調査してみたvol.5〈はてな サービス・システム開発本部 第1グループ/サービスプラットフォーム部〉

f:id:pcads_media:20211008180426p:plain

こんにちは!TECH Street編集部です。

IT・テクノロジー人材のためのコミュニティ「TECH Street(テックストリート)」は、コミュニティメンバーの興味・関心事をテーマに独自調査を定期的に実施しております。

今回注目するのは「分析基盤」。各社の「分析基盤」におけるよりリアルな実態に迫るべく、データ分析チームの体制から、データ保護の観点での情報管理の工夫まで、アンケート調査した結果を連載で紹介していきます♬

第5弾は、株式会社はてな サービス・システム開発本部 第1グループ、サービスプラットフォーム部のアンケート結果を紹介します!

 

使用している技術やサービス

✅データ分析活用に使っている技術やサービスをそれぞれ教えて下さい。

①蓄積ツール
・  Google Analytics 4
  Embulk
  Digdag
・  Google BigQuery
  Google Cloud Storage
・  Amazon S3

②加工ツール
・  Dataform.co
・  Google BigQuery
・  Dataflow
・  Amazon Athena

③分析ツール
・  Google BigQuery
・  Google Colaboratory
・  Google スプレッドシートのデータコネクタのBigQuery接続

④可視化ツール
・  Google データポータル
・  Redash

 

組織体制

✅データ分析の専門チームの有無を教えて下さい。また、ある場合は何名体制か教えて下さい。

一般ユーザー向け、もしくは社内向けのサービスごとに、それぞれ開発チームがある組織形態となっており、特定の担当サービスを持たずデータ分析だけを専門に取り組むチームはありません。

一方で、データ基盤の構築や分析への関心はあり、各チームに1〜2人程度、積極的に取り組むメンバーが自然といる状況です。

 

データ取得

✅データの鮮度について、どのくらいの頻度でデータ取得をしているか教えて下さい。 

GCP環境にあるアプリケーションはCloud Logging から BigQuery へストリーミングしてほぼリアルタイムに分析できるようにしています。

それ以外は1日1回もしくは半日おき程度の間隔でバッチ処理が実行され、サービスの利用状況に関するデータが翌日には利用可能になっています。

 

データ保護

✅データ保護の観点でどのように情報管理されているか、貴社ならではの工夫を教えて下さい。 

BigQueryのデータ基盤のアクセス権限の管理にTerraformを使っています。情報の閲覧権限は管理画面で直接変更せず、Terraformのソースコードで管理するポリシーにしています。この変更にはコードレビューを通すことで、複数人による確認が入るようにしつつ、変更履歴による透明性の確保をしています。

社内の他部署とのデータの共有については、各部署のプロジェクトのサービスアカウントに対してお互いに権限を付与することで、自動化された処理に使いやすくしつつ、権限の管理に属人性が発生しないようにしています。

協力会社へのデータ共有については、共有状況の分かりやすさを重視しています。具体的にには、共有してよい公開データしか含まれないBigQueryのデータセットを作成し、承認済みビューを共有するようにしています。

また、社内でも特にセンシティブに扱わないといけないデータについては、BigQueryのポリシータグを設定し、限られたメンバーのみ扱えるようにするなどの工夫を行っています。

 

課題と取り組み

✅データ分析における課題と、課題対して今取り組んでいることがあれば教えて下さい。

弊社には専任のアナリストのような職種はないので、サービス企画を担当するプランナーがデータ分析基盤を活用することで、施策の立案や振り返りに役立てていきたいと考えています。一方で、人によってはデータ基盤に対してデータを問い合わせる、いわゆるSQL的なバックグラウンドは必ずしもない場合があるので、そういう場合は必要なデータ分析をセルフサービスで行えない課題があります。また、データを取り扱うためには、SQLに関する知識だけでなく、課題を分解するなどの思考方法、データの所在や性質に関する知識、統計の知識なども必要です。

この課題に対しては、チーム内で役割分担して、できる人が分析を担当するほか、SQLのハンズオンを実施することで、徐々にできる人を増やしていくようにしています。

また、営業部など開発チームの外で手作業でデータを扱っていたところを、データ基盤を用いた自動化された仕組みに置き換えることにも取り組んでいます。このためには該当部署に密なヒアリングを行い、業務全体のデータの流れを整理・把握していく必要があります。

 

学び

✅データ分析における最新情報のキャッチアップや学びはどこから得ているか教えて下さい。

Slackにデータ分析・データ基盤に関するSlackチャンネルを作り、データ分析にまつわる話題の共有や、各開発チームで困っていることの相談を気軽にできるようにしています。

このSlackチャンネルには、社内で利用者が多いBigQueryの新機能や改善のページのフィードが流れるように設定しており、便利な新機能にすぐ気づけるようになっています。

Google Cloud release notes  |  Documentation 
 Google Cloud Blog | News, Features and Announcements

BigQueryのリリースノートの新着記事ががきっかけで、「この新機能、こういうよくある処理に使えて便利そうだね」のような会話がSlackチャンネル内で生まれることがあります。

このほか、各チーム1~2人いるデータ基盤に主に関わっているメンバーで、隔週の定例会を実施し、それぞれのチームの知見やノウハウの共有を行っています。

 

✅今後より力を入れたい(強化したい)プログラミング言語を教えて下さい。

・ Python 
BigQueryで分析するだけでなく、データ基盤をサービス機能に組み込んで活用しようとすると、BigQueryのAPIや機械学習ライブラリが充実している点が便利なためです。

・ Go
データ収集作業や定期的なタスクにおいて、スクリプトやグルーコードを Cloud Functions にデプロイしたり手元で動かしたりすることがあります。Go は GCP クライアントライブラリの対応状況が良く、標準ライブラリと少ない依存で GCP の各機能が利用できて取り回しがよいため、そういった場面でもっと利用したいです。

 

番外編:働く環境

✅働く上で欠かせないマストアイテムがあれば教えて下さい。

ストレスなくデータを分析した結果を確認するために、在宅勤務の環境であっても、ある程度解像度が高く大きいディスプレイが手放せないです。私は32インチWQHDのものを使っています。

また、データ分析の結果のデータ量は大きくなることがあり、それをストレスなく画面上に表示して結果を確認するためには、ある程度スペックが高いPCが必要です。こちらについては必要十分な買い替えサイクルと予算から、各自のニーズに合わせた業務PCを選定できるようになっています。

以上が、株式会社はてなサービス・システム開発本部 第1グループ、サービスプラットフォーム部の回答結果となります^^
ご回答いただきありがとうございました!

▼連載まとめ記事はこちら
【連載まとめ】分析基盤アンケート調査してみたvol.1〜5

*アンケート回答:2021年12月10日取得時点の情報です