市場への真の影響を時系列分析で測る~データサイエンスを知るコラム⑤
意外と難しい2時点間の正確な比較
みなさんは、時系列(日次・週次・月次など)で収集している、自社商品の売上やWebサイトのユニークユーザー数などの指標を評価する際、どのような方法をとっているだろうか。一般的には、ある2時点の数値の比較が用いられるだろう。たとえば、「今月の売上は去年の同じ月よりも○○円上がった」「ユニークユーザー数が先週より△%減った」などである。
しかしこの方法では、時系列データが持ついくつかの要因を考慮しきれておらず、正確な評価ができていない。そこで本稿では、時系列分析の手法を使った、一般的な方法では捉えきれない要因を考慮した時系列データの評価や予測について紹介する。
時系列データは2つの要因で分解する
まず、時系列データはいくつかの要因に分解できる。
1つ目は「トレンド」であり、その時系列データの長期的な変動傾向を示す。上昇トレンドであればその指標は日に日に増えていき、下降トレンドはその逆を表す。トレンドがなければ、推移は横ばいとなる。
2つ目は「周期性」であり、「毎年○月には増える」、「毎月○日ごろには減る」などの同じ周期での変動傾向を表す。たとえば、アイスクリームの売上は気温の高い夏に増えるが、これは年単位での周期性(=季節性)を示す典型例である。ショッピングモールは平日よりも土日のほうが来店者は多くなるが、これは週単位での周期性を表す良い例だ。
時系列データを有意義に分析する第一歩は、データをこの2つの要因で分解することにある。もしある商品の売上時系列データがトレンドを含んでいる場合、異なる時期(1月と8月など)の売上に変化があったとしても、その原因がニーズの変化なのか、気温など季節的なものなのかを区別できない。
そこで「トレンド」「周期性」の2つを考慮することで、「トレンドで○円、周期性で△円変化した」というように数値的に分解でき、2時点間のより厳密な比較が可能になる。また、トレンドを延長し、そこに周期性を加味することで、将来の予測をすることもできる。
他にも、データの種類によっては、「イベント効果」「キャンペーン効果」「広告効果」などの要因を含むこともあるが、本稿では時系列データを「トレンド」と「周期性」でのみ分解することを考える。
基礎編:○○ブームの変化を探る
ここでは、時系列分析の基礎的な適用例を1つ紹介する。時系列データのトレンドは一定とは限らず、下降から上昇トレンド、上昇から横ばい、などと変わってしまう可能性もある。たとえば、ある食品がテレビなどで取り上げられブームになった(=上昇トレンド)が、ブームが冷め徐々に売上が下がっていき(=下降トレンド)、売上がブーム前の水準に戻る(=トレンドなし)ようなケースが当てはまる。
例として、インテージのSRIデータ*1 を用いて、サラダチキンの月次小売店販売金額(2015年4月〜2020年3月の5年間)を、「トレンド」と「周期性」に分解してみる。サラダチキンは、低脂質・高たんぱく質であることから、筋トレやダイエットに適した食材として近年人気を集め、販売金額も右肩上がりとなっている(図表1の上段)。これを、「Prophet」*2 という時系列分析の手法を使って「トレンド」×「周期性」のかけ算で表現してみると、図表1の中段・下段のようになる。
図表1
まず中段の「トレンド」だが、市場が急激に伸びている(2017年1月〜2018年1月の1年間で約1.8倍)ことがわかるが、その伸び具合は一定ではなく、2016年4月以降傾きがより急になっており、サラダチキンブームが加速している。しかし2018年初めに傾きはほぼ水平になっており、依然人気ではあるがブームは落ち着いたことがわかる。
次に下段の「周期性」だが、全体的に見ると夏は上がり、冬に下がっていることがわかる。4月・10月ごろの0%を基準とすると、一番高い7月は約+30%、一番低い2月は約−22%であるので、7月は2月の約1.7 倍(=130% / 78%)売れているということになる。原因としては、サラダチキンは一般的に冷やして食べられるケースが多いこと、夏は薄着になる機会が増え、ダイエットに向いたサラダチキンの需要が高まることなどが挙げられる。
このように、時系列データを「トレンド」「周期性」で分解することで、「トレンドがどのように変化したか」「変化はいつごろ起こったか」「異なる時期でどれくらいの差があるか」などを知ることができる。
応用編:消費増税が販売量に与えた影響は?
ここからは、時系列分析の応用編を紹介したい。
時系列分析を用いれば、当然将来値の予測も行える。今回はその予測の枠組みを使って、キャンペーンなどのマーケティング施策や、消費動向に影響する法改正が及ぼす効果などを測定する方法を見ていこう。
測定のロジックは、まず施策を打つ前期間のデータに時系列分析を当てはめてモデルを作る。次にそのモデルを用いて施策を打った期間における予測値を算出する。これを「施策を打たなかった場合の値」という仮想的な指標として扱い、実際に得られている施策期間の値と比較して、その効果を求める、という流れである。
例として、マーケティング施策ではないが、2019年10月に実施された消費税増税がその後(2019年10〜12月) の低アルコール飲料商品(チューハイ、カクテル、ハイボールなど)の小売店販売量(容量ベース)に影響を与えたのかどうかを、SRI月次データを使って測定してみる。低アルコール飲料は元々上昇トレンドをもっており、前年比などの数字が増加していた(100%を超えていた)としても、これだけでは増税の影響を捉えることはできない(図表2)。
図表2
そこで次のように分析してみる。まず、増税以前の2017年1月〜2019年8月(2019年9月は駆け込み需要でデータが不規則な動きをするため除外)のデータを使い、予測のためのモデルを作成する。
手法には、時系列分析の一種である「状態空間モデル*3」を用いた。次にそのモデルを使い、2019年10月以降の予測値、つまり「増税がなかった場合の販売量」(図表3の実線)を求める。これを「仮想販売量」と呼ぶことにする。最後に、仮想販売量と実際の販売量(図表3の点線)との比率を見ることで効果量を算出する。
図表3
分析結果は図表4のようになった。
図表4
10月は値が100%を下回っており、増税直後の落ち込みが見られるが、その後2ヵ月はわずかに100%を超えている。これは、元々上昇トレンドをもち、年々高まっていた低アルコール飲料の需要が、増税によって弱まるどころかさらに高まった可能性が示唆される。
理由としては、他のアルコール飲料から低価格な低アルコール飲料への流入が考えられる。また、10月に全国展開された日本コカ・コーラ「檸檬堂」シリーズの大ヒットや、キャッシュレスのポイント還元政策、増税をきっかけに外食を避け「家飲み」をする人が増えたことなども、消費を後押ししたと思われる。
このように、時系列分析を利用すると施策や法改正等の何らかの介入があった場合、その効果をより厳密に測ることができる。たとえば、新型コロナウイルスが自社製品の売上に及ぼした影響なども同様の流れで測定することが可能だ。
3つの注意点
これまでは時系列分析の便利な部分ばかりを述べてきたが、注意しないといけない部分もいくつかある。
まずは、データ期間の長さである。トレンドや周期性を適切に評価するためには、ある程度長期間のデータがとれていないと難しい。たとえば、ある短期間で見るとトレンドが大きく変化していても、長期間で見ると実はほぼ横ばいだった、という可能性もあるし、もちろんその逆もあり得る。また周期性を求める際は、同じ時期のデータが最低2つ以上ないと計算することができない。本稿で取り上げたような月次データの場合は、2年以上のデータが必要となる(週次・日次も同様)。
次に、イベントによる影響である。たとえばチョコレートは、毎年バレンタインデー近くになると需要が急激に増えるが、この「イベント効果」による変動があまりにも大きいとモデルの当てはまりや予測性能が悪くなってしまう。ただし、「この時期にイベントが起こる」というドメイン知識がある場合は、ダミー変数を設定するなどの方法でその知識を反映させ、モデルを改善することができる。
最後に、過学習である。これは、モデルが手元にあるデータに過剰に適合し、手元にない未知のデータに対する予測性能が下がってしまう問題である。本稿の時系列分析ではデータを「トレンド」「周期性」で分解したが、トレンドが頻繁に変化していたり、周期性の波があまりにも激しかったりする場合、この過学習が起きている可能性が高い。これを避けるためには、モデルパラメーターのチューニングや交差検定と言われるような手続きが必要になる。
このようにいくつか注意点はあるが、時系列分析はとても魅力的な手法である。近年では「AutoML」と呼ばれる、プログラムを書かずともGUIで分析を実行できるツールが複数出てきており、ハードルはここ数年で下がってきている。たとえば、aiforce solutions社の「AMATERAS RAY*4」には、モデル作成や予測はもちろん、上記のイベント設定や過学習を避けるための機能も搭載されている。みなさんも、時系列分析を使ったデータの評価や予測を試してみてはいかがだろうか。
注釈
*1 SRI(全国小売店パネル調査):全国の種々の小売業者約4,000店舗から収集した日用消費財のPOSデータを統合し、各商品の販売金額、販売店率や、マーケットシェアなどを統計指標化するサービス。
*2 Prophet:Facebookが開発した時系列分析/予測の手法。オープンソースソフトウェアであり、プログラミング言語「R」「Python」上で誰でも使える。
*3 状態空間モデル:時系列モデルの一種で、非常に柔軟かつ解釈性の高いモデリングが行える。
*4 AMATERAS RAY:サービスサイト https://service.amateras.ai/
転載・引用について
◆本レポートの著作権は、株式会社インテージが保有します。
下記の禁止事項・注意点を確認の上、転載・引用の際は出典を明記ください 。
「出典:「インテージ 知る Gallery」●年●月●日公開記事」
◆禁止事項:
・内容の一部または全部の改変
・内容の一部または全部の販売・出版
・公序良俗に反する利用や違法行為につながる利用
・企業・商品・サービスの宣伝・販促を目的としたパネルデータ(*)の転載・引用
(*パネルデータ:「SRI」「SCI」「SLI」「キッチンダイアリー」「Car-kit」「MAT-kit」「Media Gauge」「i-SSP」など)
◆その他注意点:
・本レポートを利用することにより生じたいかなるトラブル、損失、損害等について、当社は一切の責任を負いません
・この利用ルールは、著作権法上認められている引用などの利用について、制限するものではありません
◆転載・引用についてのお問い合わせはこちら