arrow-leftarrow-rightarrow-smallarrow-topblankclosedownloadfbfilehamberger-lineindex-title-newindex-title-rankingmailmessagepickupreport-bannerreportsearchtime

生活者インデックスデータ

【地味だけど知っておきたい! 5分で解説 データエンジニアリングコラム⑥】データ活用のインフラ 最低限知っておくべき基礎知識

このコラムでは、インテージのデータエンジニアが経験をもとに、地味だけど知っておきたい「データ活用の重要なステップ」や「データ活用の障壁と対策」を解説します。

これまでのコラムで、
・データレイクはデータソースを保存する場所
・データ活用基盤にあたるDWHはデータを活用しやすいように集める場所、DMは用途に合わせて調整をする場所
とお伝えしました。 今回はこれらの機能を支えるインフラについて説明したいと思います。

そもそもインフラとは?

みなさんはインフラストラクチャー(インフラ)と言われて何を想像するでしょうか。広辞苑でインフラを調べると、「産業や社会生活の基盤や設備」といった説明があります。 データ活用のインフラは、データ活用を支える基盤や設備、つまりパソコンやサーバなどのハードウェアやネットワーク、データを保存するためのファイルやデータベースのことを指します。さらに、広義にはデータを活用するためのシステムやアプリケーションも含みます。

社内のデータ活用を推進する際、システム担当の人とインフラの話をする機会があると思います。インフラを理解しようとすると、サーバやデータベース、ネットワークといった知識が必要となり、専門的で難しいというイメージをお持ちの方も多いのではないでしょうか。

今日ではこのインフラの定義が変わってきており、データ活用のためのインフラは、より身近なものになってきています。
データ活用を推進する上では、
・どのようなデータを扱うのか
・どこにデータを保存するのか
・どのようなサービスが利用できるのか
といったことを知って、システム担当者と共に最適なインフラを構築していくことが求められます。
専門的なことの理解までは必要ありませんが、上記のポイントを知ることは、「やりたいことを実現できるインフラ設計になっているか」を判断する上で重要です。
そこで今回は、最低限知っておきたいインフラの知識について説明していきたいと思います。

データ活用のためのインフラの基本

業務に伴って発生するデータはトランザクションデータと呼ばれます。例えばECサイトでいつ・だれが・いくらの商品を購入したかといった購買データがこれにあたります。社員がいつ出社して、どのくらい働いて、いつ退社したかといった勤務実績データなどもトランザクションデータです。これらのデータを保存し、業務データを活用するための基盤や設備がインフラです。今のインフラについて説明する前に、インフラの定義や技術がどのように変わってきたのか、これまでの変遷を振り返ってみます。

インターネット以前のインフラ

インターネットが普及する2000年頃までは、業務でデータを活用するために、システム担当者が物理的なサーバを調達したり、データベース担当者がデータ量を見積もってデータベースを構築したり、システムエンジニアがシステムやアプリケーションを開発していました。このように、データ活用のためのインフラを自分たちで構築するのが当たり前でした。

ビッグデータ時代のインフラ

2005年頃からは、インターネットの普及に伴い、業務で取り扱うデータが爆発的に増えてきました。また、取り扱うデータも多様化し、各部署・事業所で様々な形式のデータを取り扱うようになってきました。この結果、従来の1台のサーバや単独のデータベースだけでは、増加し続けるデータの量と種類に対応できなくなってきました

これに伴い、業務で発生するデータを保存する場所(データレイク)、分析するためのデータを抽出して保存する場所(データウェアハウス)、部門や用途、目的などに応じて必要なデータを抽出、集計し、利用しやすい形に加工する場所(データマート)といった役割分担の概念が誕生しました。

これを実現するためのインフラとして、データレイクはなるべく安価で大量データを分散して保存できるようなストレージサービスを利用するようになりました。またデータウェアハウスは大量データを高速に集計するデータベース機能が、データマートは必要なデータを取り出しダッシュボードと連携するためのUIなどの機能が必要とされ、それぞれの役割に特化したサービスが誕生し利用され始めました。インフラをすべて自分たちで開発・構築するのではなく、役割や用途に応じて様々なサービスを組み合わせて利用するようになってきたのです。

この頃から、大量データを取り扱う技術として分散処理が発達してきました。Hadoopという言葉を聞いたことがある方もいらっしゃると思います。Hadoopは大規模データを分散して蓄積し、それぞれ別々に処理することを可能とするオープンソースのプラットフォームです。従来は1台のサーバですべてのデータを蓄積し処理していましたが、Hadoopを導入することで、業務データを複数のサーバに分散して保存し、それぞれのサーバで並行して処理を行うことが可能になりました。

クラウド時代のインフラ

さらに2015年頃から、データ活用のためのインフラは、クラウドサービスを利用するのが主流になってきました。上記で説明したHadoopも、Amazon EMR(AWS)、Azure HDInsight(Microsoft)、Cloud Dataproc(Google)といったクラウドサービスが登場しています。またデータレイクとして、様々な形式のデータを高速かつ大量に保存できるNoSQLといった新しいデータベースが登場し、クラウドサービスとして利用できるようになりました。 DWHも、Amazon Redshift(AWS)やGoogle BigQuery(Google)といったサービスが提供されています。さらにデータレイクから必要なデータを抽出・加工し、DWHに保存するためのETLも、ユーザーがグラフィカルに操作可能なクラウドサービスが登場しています。

いまや、データ活用のためのインフラは、様々なクラウドサービスを用途に応じて選択し、必要な時に必要な分だけ利用する形へと変わってきています。

また分散処理技術も進化してきています。Sparkといった技術が登場し、Hadoopが苦手とするリアルタイムな高速処理も可能になってきました。たとえば、月次処理で各事業所に散在するデータを集計・分析してレポートを作成するのに、従来は1週間以上かかっていたような処理が、Sparkなどの技術を導入することにより、1日で抽出・集計が完了し、月初の第1営業日には業務成績をダッシュボードで閲覧する、といったことも可能となりました。これにより、意思決定の高速化が実現してきています。

このように、データを活用する基盤であるインフラは進化し、今日では様々なサービスが利用可能です。さらにクラウドサービスを利用する場合は、物理的なサーバを調達する必要がなく、必要なサービスを必要な分だけ利用するといった使い方が可能です。昨日までは非常に高額な設備投資が必要だったような集計処理が、今日では安価かつ高速に実現可能になってきています。

ご紹介したような今のインフラの技術や構成、クラウド導入のメリットなどを大枠理解しておくと、インフラ構築において、どのようなことをシステム担当者と決めていく必要があるかがわかりやすいと思います。今はクラウドから入った“クラウドネイティブ”と呼ばれるようなシステム担当者もいます。最新技術を彼らから学びつつ、“やりたいことを実現する”ためのインフラを一緒に作り上げていきましょう。

まとめ

今回はインフラを構築する上で知っておくべきインフラの知識と共に、データ活用のためのインフラの変遷について紹介しました。従来インフラというとITに詳しいシステム担当者が取り扱う領域であり、技術的にも難しくとっつきにくい印象をお持ちの方も多かったと思いますが、今日ではクラウドのような選択肢が登場したことで、データ活用のためのインフラはより手軽に、そしてより身近なものになってきました。

インフラは現在もなおリアルタイムで進化し続けています。今回の記事が、システム担当者と話をする際の一助になればと思います。また弊社でも、お客様のニーズに沿ったデータ活 用環境の開発を、インフラを含めてワンストップで支援していますので、ぜひお気軽にお声がけいただければと思います。

関連記事

転載・引用について

◆本レポートの著作権は、株式会社インテージが保有します。
 下記の禁止事項・注意点を確認の上、転載・引用の際は出典を明記ください 。
「出典:インテージ 「知るギャラリー」●年●月●日公開記事」

◆禁止事項:
・内容の一部または全部の改変
・内容の一部または全部の販売・出版
・公序良俗に反する利用や違法行為につながる利用
・企業・商品・サービスの宣伝・販促を目的としたパネルデータ(*)の転載・引用
(*パネルデータ:「SRI+」「SCI」「SLI」「キッチンダイアリー」「Car-kit」「MAT-kit」「Media Gauge」「i-SSP」など)

◆その他注意点:
・本レポートを利用することにより生じたいかなるトラブル、損失、損害等について、当社は一切の責任を負いません
・この利用ルールは、著作権法上認められている引用などの利用について、制限するものではありません

◆転載・引用についてのお問い合わせはこちら