分析基盤アンケート調査してみたvol.3〈カカクコム プラットフォーム技術本部アドバンスドテクノロジー部〉

f:id:pcads_media:20211008180426p:plain

こんにちは!TECH Street編集部です。

IT・テクノロジー人材のためのコミュニティ「TECH Street(テックストリート)」は、コミュニティメンバーの興味・関心事をテーマに独自調査を定期的に実施しております。

今回注目するのは「分析基盤」。各社の「分析基盤」におけるよりリアルな実態に迫るべく、データ分析チームの体制から、データ保護の観点での情報管理の工夫まで、アンケート調査した結果を連載で紹介していきます♬

第3弾は、株式会社カカクコム プラットフォーム技術本部アドバンスドテクノロジー部のアンケート結果を紹介します!

 

使用している技術やサービス

✅データ分析活用に使っている技術やサービスをそれぞれ教えて下さい。

①蓄積ツール
GCS, embulk
②加工ツール
Dataproc (Hive, Spark), BigQuery (検証中)
③分析ツール
Python, 各種機械学習ライブラリ, BigQuery (検証中)
④可視化ツール
DOMO

 

組織体制

✅データ分析の専門チームの有無を教えて下さい。また、ある場合は何名体制か教えて下さい。

データ基盤の運営に関わるエンジニアが3〜5名、その他のエンジニアも含めて5〜10名程度がそれぞれコンテンツ作成や機械学習で利用しています。分析の専門チームは部内にはありませんが、他部署のデータサイエンスチームと連携することもあります。

 

データ取得

✅データの鮮度について、どのくらいの頻度でデータ取得をしているか教えて下さい。 

1日1回が多いですが、アクセスログには1時間に1回のものや、数分に1回程度取得しているものもあります。

 

データ保護

✅データ保護の観点でどのように情報管理されているか、貴社ならではの工夫を教えて下さい。 

設計や乗せるデータの種類について、セキュリティ・コンプライアンス管理部門によるレビューを実施しています。基本的な方針として個人情報等センシティブなデータを分析基盤には極力のせないことで根本的なリスク低減を図っています。アクセス権限はワークフローにより申請・承認を管理される仕組みです。

 

課題と取り組み

✅データ分析における課題と、課題対して今取り組んでいることがあれば教えて下さい。

・(課題)基盤上に存在するデータの品質管理とメタデータ情報の管理
・(課題)アドホッククエリの高速化 (取り組み)Presto・BigQueryなどの高速なクエリエンジンの検証

 

学び

✅データ分析における最新情報のキャッチアップや学びはどこから得ているか教えて下さい。

特定のサイトはありませんが、書籍、インターネット、勉強会、クラウドベンダーなどから得た情報をメンバーが持ち寄って選択肢や方針の検討をしたり、問題解決に役立てたりすることが多いです。

 

✅今後より力を入れたい(強化したい)プログラミング言語を教えて下さい。

Python, Go

 

以上が、株式会社カカクコム プラットフォーム技術本部アドバンスドテクノロジー部の回答結果となります^^
ご回答いただきありがとうございました!

▼連載まとめ記事はこちら
【連載まとめ】分析基盤アンケート調査してみたvol.1〜4

*アンケート回答:2021年10月4日取得時点の情報です