arrow-leftarrow-rightarrow-smallarrow-topblankclosedownloadeventfbfilehamberger-lineicon_crownicon_lighticon_noteindex-title-newindex-title-rankingmailmessagepickupreport-bannerreportsearchtimetw

【地味だけど知っておきたい! 5分で解説 データエンジニアリングコラム③】~あつまれ データの湖 データレイクを解説

このコラムのご紹介

このコラムでは、インテージのデータエンジニアが経験をもとに、地味だけど知っておきたい「データ活用の重要なステップ」や「データ活用の障壁と対策」を解説します。

前回は「データ活用の全体像」の①データソースでよくぶつかる壁であるデータ確保の大変さと、同じ課題を持つ仲間を作る大切さをお伝えしました。
今回はデータを入手した後に保管する②データレイクの概要と、そこでのデータの取り扱いポイントを解説します。

これまでの記事
【地味だけど知っておきたい! 5分で解説 データエンジニアリングコラム①】~はじめに
【地味だけど知っておきたい! 5分で解説 データエンジニアリングコラム②】~本当は知らない?データのありか

デジタル化が進み、ビジネス活用するデータの種類や量が日々急増しています。

前回のコラムでも紹介しましたが、これらのデータは必ずしも特定の部門で入手しているとは限らず、様々な部門が様々なシステムで独自に作成・調達していることが多いため、データが分断(サイロ化)されてしまいます。データ活用やDXプロジェクトなど社内のデータを横断して扱う際は、まずそれぞれのデータを探す作業から始めなくてはなりません。※データ入手の壁については前回コラム参照

ここで各所のデータを探したら、次はデータ分断を回避するために全てのデータを1ヵ所に集めた「データレイク」を導入しましょう。

データレイクとは

データレイクは量や形式に関わらずあらゆるデータを格納できる、『データ置き場』です。データは入手したそのまま(生データ)の状態で構いません。
データベース形式(行と列で構成される表形式データ)だけでなく、音声や画像、動画データなども貯めておけます。

データレイクとして利用される代表的なクラウドサービス「Amazon AWSのS3」や「Google cloudのCloud Storage」、「Microsoft AzureのData Lake Store」などでは安価なクラウドストレージが提供されています。これにより事前にサーバーを用意しなくても、コストを気にせず大量のデータを保管できるようになりました。

データレイクには、今は用途が無いデータも貯めておくことをおススメします。今後活用するシーンがきてもデータ自体が無ければ活用できません。

データレイクに貯められたデータの取り扱い

前述した通り、データレイクにはデータ形式問わずそのままの形でデータが格納されています。
このままではデータベースで取り扱うことができないデータもあるので、蓄積後は必要に応じてデータを加工します。
データ加工としては、ローデータをデータベースで取り扱えるよう様に表形式に変換したり、データの表記ゆれを統一する名寄せ処理や秘匿情報のマスキングなどを行います。

データ加工を行う際は別途バッチ処理を開発します。手段としてはクラウドサービスで提供されているETLサービスやETLツール等、選択肢が沢山あります。データレイクとの連携のしやすさやエンジニアのスキル等を考慮して選択します。
データの加工方式を決めて、データレイクにデータが追加されたら自動で加工処理を行えるようにシステム化しておくことで、常に使えるデータが最新の状態でデータレイクにストックされた状態にできます。

加工済みデータは上書きせず、オリジナルの元データとは別に保存する必要があります。
元データを残しておけば、データ加工が失敗しても何度も作り直すことができます。

とはいえ、無作為にデータを蓄積していくと、どこにどんなデータがあるのか分からなくなり、データレイクがブラックボックス化してしまいます。
そこで蓄積されたデータの辞書となる「データカタログ」を作成して管理しましょう。
データカタログではデータの発生元や所有者、更新頻度、データ定義などデータに関する情報をデータに紐づけて管理します。
また、情報として「データの分類」や「タグ」などを付与し、利用者の検索性を向上する仕組みを構築すると、データレイク内のデータの活用が進むのでおすすめです。 

※データカタログはオープンデータにも利用されています
参考サイト:東京都オープンデータカタログサイト

おわりに

今回はデータレイクの概要とデータの取り扱いについてお伝えしました。
デジタル化が進みデータは企業にとって大切な資産となり、活用することによって価値化されます。ただし、データ自体が無いと活用はできません。データの保管、活用のためにもデータレイクの導入を検討してみてください。

なお、インテージには多種多様なデータの取り扱いや活用に長けたエンジニアがいます。
お困りの際は弊社営業にお声がけいただくことも選択肢として心の片隅に置いていただけましたら幸いです。

転載・引用について

◆本レポートの著作権は、株式会社インテージが保有します。
 下記の禁止事項・注意点を確認の上、転載・引用の際は出典を明記ください 。
「出典:インテージ 「知るギャラリー」●年●月●日公開記事」

◆禁止事項:
・内容の一部または全部の改変
・内容の一部または全部の販売・出版
・公序良俗に反する利用や違法行為につながる利用
・企業・商品・サービスの宣伝・販促を目的としたパネルデータ(*)の転載・引用
(*パネルデータ:「SRI+」「SCI」「SLI」「キッチンダイアリー」「Car-kit」「MAT-kit」「Media Gauge」「i-SSP」など)

◆その他注意点:
・本レポートを利用することにより生じたいかなるトラブル、損失、損害等について、当社は一切の責任を負いません
・この利用ルールは、著作権法上認められている引用などの利用について、制限するものではありません

◆転載・引用についてのお問い合わせはこちら