arrow-leftarrow-rightarrow-smallarrow-topblankclosedownloadeventfbfilehamberger-lineicon_crownicon_lighticon_noteindex-title-newindex-title-rankingmailmessagepickupreport-bannerreportsearchtimetw

【地味だけど知っておきたい! 5分で解説 データエンジニアリングコラム④】~未来を拓く! データ活用基盤構築のすゝめ

このコラムのご紹介

このコラムでは、インテージのデータエンジニアが経験をもとに、地味だけど知っておきたい「データ活用の重要なステップ」や「データ活用の障壁と対策」を解説します。

前回は「データ活用の全体像」のデータ置き場にあたる②データレイクの概要とデータの取扱いポイントについて解説しました。今回は集めてきたデータの活用において、下準備を担う非常に重要なレイヤーである③データ活用基盤の概要と、そのなかでもビジネスにおいて利用機会が多い、データマートの構築ステップを解説します。

これまでの記事
【地味だけど知っておきたい! 5分で解説 データエンジニアリングコラム①】~はじめに
【地味だけど知っておきたい! 5分で解説 データエンジニアリングコラム②】~本当は知らない?データのありか
【地味だけど知っておきたい! 5分で解説 データエンジニアリングコラム③】~あつまれ データの湖 データレイクを解説

データ活用基盤について

「データ活用基盤」の定義には様々ありますが、このコラムにおいては「データウェアハウス」と「データマート」で構成されるもの、とします。データレイクに集約した膨大なデータを整理・格納し、いつでも引き出し・活用できるようにすることが、データ活用基盤の役割です。

データウェアハウス(DWH)とは

DWHは、集計に適した形式に時系列で集積された膨大なデータそのもの、および、それを必要な時に素早く取り出すためのシステムを指します。DWH全体で関連のあるデータ同士が重複・矛盾しない、一貫性を持たせた正確なデータを、保持・提供することを目的とします。
DWHは、下記の処理を施したデータを専用のインフラ基盤上に格納することで構成されます。
・関連データを結合・分離し、重複をなくし利用しやすく整形(正規化)
・異常データの除外・欠損した値の補完・フォーマット変換 など(クレンジング処理)

DWHは、経営判断などの意思決定が必要な単位、例えばひとつの企業に対してひとつ作成されることが多いため、最低でも合計で数百テラバイト~のデータを取り扱うこととなり、システム上高い性能を要求されます。このため、かつては初期導入の時点で非常に高価なインフラ投資が必要でした。しかし最近は、クラウドDWHの普及により、小規模から安価にスタートし徐々に拡大するなど、企業の成長に合わせた導入が可能になりました。

クラウドDWHの例:
Amazon Redshift、Google Cloud BigQuery、Microsoft Azure Synapse Analytics、Snowflake Data Warehouse

データマート(DM)とは

DMは、DWHの1部分を切り出した小~中容量のデータ群です。レポートでの可視化や分析に適した形式でデータを保持・提供することを目的とします。
基本的にDWHと同一システム上に作成されますが、予算やインフラ設計次第で、別システムとして作成されることもあります。

DWHが粒度としては無加工に近い「データ(数字・事実)」であるのに対し、DMは特定の部門における分析や施策ひとつひとつの評価を目的とし、あらかじめ規定した定義に基づいて集計した「情報(アクションの検討材料や知見)」そのもの、もしくはそれにより近いデータとして格納されます。

データ活用基盤、中でもDMの完成度がデータ活用の成否を左右するといっても過言ではありません。必要なデータをいかに利用しやすく情報化して整備するか、が重要なポイントとなります。

DM構築におけるステップ

データ活用基盤の構築を、外部ベンダーに依頼する事もありますが、ここでは、社内で構築する場合のポイントを解説します。
データ活用基盤を利用する側を「ユーザ部門」、構築する側を「IT部門」とします。ユーザ部門とIT部門が一緒になって取り組むことが、よいDMを作るポイントです。
ここからは、新しくDX担当となったユーザ部門の目線で、IT部門と協力してDMを作成する際の一連の流れを4ステップ構成で説明します。

※社内で「ユーザ部門」「IT部門」といった役割が明確に分かれていない場合、またはもっと役割が細分化された組織体系や、外部ベンダーにIT関連業務を委託する体制であっても、一連のステップの大筋は変わりません。

ステップ1:最終的に知りたい事…「目的」を考える

データ活用基盤を使って最終的に何を知りたいのかを考えます。自分ひとりで考えるだけでなく、同じ業務に携わる周囲の人たちに相談して固めていきます。
所属している企業・部門におけるKPIやKGIなどの指標、もしくは自身が実業務において知りたいことを、大まかな粒度で構わないのであらかじめイメージし、仮説を立てておきます。

例えば、とある小売業のユーザ部門で、エリア内の店舗売上の目標値を管理するためのDM構築を考えているとします。
どの店舗にどのような問題があるかを明らかにすることで、対策が可能となるので、これを目的として設定します。
このとき、「問題」として想定される仮説があるならば、合わせて整理します。ここでは、「個別の店舗の仕入れがその店舗の売上に影響している」という仮説を持っているとしましょう。

この時点で、知りたいデータを得た結果何をしたいのか、仮説が当たった場合・外れた場合どうするか、までを考えておくことで、本当にそのデータが必要なものかを判断するとともに、素早く次のアクションにつなげることができます。

ステップ2:「目的」から「要望」を言語化し整理する

ステップ1で考えた目的を達成するために、欲しいデータ・情報をより具体的な言葉にし、要望として整理します。
知りたいことを具体的にどのような数値で、どういったルールで集計・指標化すべきかを突き詰めておきます。

上述のとある小売業のユーザ部門の例であれば、目的を満たすためには、“店舗別の月別売上目標額”、“売上”、“売上達成度”を毎月定点観測し、どの店舗に問題があるかを洗い出したいというのが、この要望となります。また、仮説として仕入れの問題を想定しているので、それぞれの店舗の“売れ筋商品ランキングと売上金額・個数”を知りたい、という要望が加わります。

頭の中にしかないイメージをわかりやすい言葉にすることで、要望がより具体化され、IT部門との認識齟齬を防ぐことができます。
ただし、当初からあまりにも多くの要望を盛り込みすぎてしまうと、ステップ3の部門間での調整に膨大な時間を費やしてしまうことになりかねません。まずはある程度要望を絞り込み、スモールスタートすることが望ましいです。

ステップ3:「必要な情報」を伝え、DMの作成を依頼・調整する

IT部門とともに、要望およびシステム観点で必要となる情報をすり合わせます。
もし仮に、IT部門に該当する役割を外部ベンダーが担っている場合、さらに会社独自のルールや定義を明確にして伝えます。
すり合わせるべき主な項目は以下の4つです。
①出力したいデータ項目・集計期間
 狙い:DWHから切り出すべきデータ項目の把握とデータ容量の予測
 例: 本日から過去2年間の日付、店舗名、商品名、単価、販売個数、売上、残在庫数、売上目標数
➁よく使われる集計軸(データ項目および組み合わせ)
 狙い:システム上の索引の設計(頻出項目を元にデータを取り出す速度を向上させる)
 例: 日付のみ、商品名のみ、店舗名+商品名、日付+店舗名+商品名
③集計・変換が必要な項目とその定義
 狙い:元となるDWHのデータ項目と、集計・変換ルールの把握
 例: 売上=単位を100万円に変換。売上達成度=売上を売上目標額で割った数値、100分率。
④情報の鮮度
 狙い:DMの更新間隔・タイミングの合意
 例: 毎日ユーザ部門の始業前 AM7:30に、前日分としてAM0:00時点のデータが反映されている

IT部門では、要望を満たせるか否かを調査・検討ののち、DMを作成します。
もし仮にIT部門側で判断できないこと…たとえばDWH上に「売上」「売上(返品含む)」という、似たような項目名が複数あることが判明した場合、ユーザ部門で判断を行うため、都度すり合わせを行います。

ステップ4:DMが「要望」に沿っていて、「目的」を満たすか確認する

IT部門よりDMの集計結果を共有してもらい、要望通りであるか確認します。
集計結果には、ユーザ部門だけが読み取れるような数値の大小やニュアンスを含むことがあるため、感触に合う結果となっているか、入念にチェックします。
例:オフシーズンである6月の売上昨年比が2倍になっている、これまで品質に問題が無かった商品Aの不良率が3%を超えてしまっている、など

万一数値に問題があった場合、IT部門と情報を共有し、以下のような確認を行い、対応します。
・データレイク以前の、収集したデータに不足や誤りがないか
・DWHのクレンジング処理におけるロジックに問題がないか
・DM作成においてユーザ部門が指定した集計定義、もしくはIT部門が作成した集計ロジックに誤りがないか

※ステップ3⇔4は、ユーザ部門による実業務での活用に移るまでに、IT部門との間で何度も繰り返し、より使いやすいDMになるようブラッシュアップする事が重要です。
また、取り扱う商材や業界によっては、数か月・数年毎の定期的なKPIの見直しが必要になることがあります。この場合、あらかじめDMの変更を前提とした計画を立て、IT部門と共有しておきます。

おわりに

要望を満たすデータ活用基盤の構築には手間がかかるものですが、その分、データをフル活用した、ビジネスの推進・加速が期待できます。たとえば経営判断・意思決定の迅速化、データドリブンマーケティングの実現によるビジネス拡大など、輝かしい未来が待っていることでしょう。

インテージには経験豊富なデータエンジニアが多数在籍しております。
データ活用にてお困りの際は、弊社営業にお声がけください。

転載・引用について

◆本レポートの著作権は、株式会社インテージが保有します。
 下記の禁止事項・注意点を確認の上、転載・引用の際は出典を明記ください 。
「出典:インテージ 「知るギャラリー」●年●月●日公開記事」

◆禁止事項:
・内容の一部または全部の改変
・内容の一部または全部の販売・出版
・公序良俗に反する利用や違法行為につながる利用
・企業・商品・サービスの宣伝・販促を目的としたパネルデータ(*)の転載・引用
(*パネルデータ:「SRI+」「SCI」「SLI」「キッチンダイアリー」「Car-kit」「MAT-kit」「Media Gauge」「i-SSP」など)

◆その他注意点:
・本レポートを利用することにより生じたいかなるトラブル、損失、損害等について、当社は一切の責任を負いません
・この利用ルールは、著作権法上認められている引用などの利用について、制限するものではありません

◆転載・引用についてのお問い合わせはこちら