arrow-leftarrow-rightarrow-smallarrow-topblankclosedownloadeventfbfilehamberger-lineicon_crownicon_lighticon_noteindex-title-newindex-title-rankingmailmessagepickupreport-bannerreportsearchtimetw

Web上にある文章を分析して生活者の声を聴く、自然言語処理とは~データサイエンスを知るコラム⑦

1. はじめに

近年、企業のAI活用やDX化が大きな注目を集めるトピックとなっています。 その中でも注目されている分野の一つが自然言語処理です。これまでは構造化データ(数値情報のような列と行を持つデータ)を用いるのが主流でしたが、近年の技術進展により、より難易度が高いとされていた、文章のような非構造化データを分析し、インサイトを得ることができるようになりました。自然言語処理の進展は目覚ましく、 GLUEのような特定の自然言語処理タスクにおいて人間の読解精度を超えるモデルも登場しています。

今回のインテージデータサイエンティストによるエキスパートコラムでは、自然言語処理の技術を利用し、Web上の生活者が書き込むレビュー、コメント等からインサイトを導出する手法を紹介します。この手法を用いることで、調査という手段によらず、生活者の潜在的な声を聴くことが可能になります。

2. 自然言語処理とは

はじめに、「自然言語処理」とはそもそもなにかについて記載します。
人間が用いる言語のことを「自然言語」といいます。「自然言語処理」とは、自然言語をAIのような機械で処理し、内容を抽出したり、解釈しやすくしたりする技術のことを指します。対象となる言語は日本語だけでなく、英語、中国語等々あらゆる言語が対象となります。
英語では自然言語処理のことを“Natural Language Processing”といい、“NLP”と略されます(“NLP”で検索すると“Neuro Linguistic Programing”という「神経言語プログラミング」の記事がヒットしますが、この記事では”Natural Language Processing”を指しています)。
自然言語処理技術を用いることで、生活者が「何を望んでいるのか」「何に困っているのか」といったニーズや顧客課題を、より解釈しやすくすることが可能となります。

3. 分析方法の概観

次に、Web上の生活者の声を分析する方法の概観を紹介します。
図は抽出から分析までを行う流れの一例です。

まず、STEP 1ではWebサイトからテキストデータを取得します。
Web上に公開されている情報の中から特定の情報を抽出し、取得する技術のことをWebスクレイピングと言います。自然言語処理分野においてはWeb上の記事や、生活者がWeb上に書き込んだレビュー/コメント、SNS上への投稿などが取得対象となります。 “Garbage In, Garbage Out”(ゴミを入れれば、ゴミが出る)という言葉があるように、どのようなデータを使用するかを決めることがここでは重要です。

例えば、特定の商品を分析したい場合には、「該当商品と競合商品のレビューを取得対象とする」というように、目的に対して整合性が取れている取得先を選定し、取得しようとしているコメントやレビューは意味不明な言葉の羅列が多く含まれていないかをチェックしておきましょう。
その他、権利関係にも注意が必要です。コメントを取得することを明確に禁止しているWebサイトや、APIを介しての取得のみを許可しているWebサイト等もあるため、事前に調べておきましょう。

STEP 2ではテキストデータにラベル付けを行います。
このステップは省略できますが、ラベルがあることで見たい分野の内容にのみ絞って出力しやすくなり、解釈を行う際により便利になります。

ラベル付けには例えば以下があります。

  • 感情分析によるポジティブ/ネガティブのラベル付与
  • 価格/機能/広告のようなジャンル別のラベル付与
  • ネーミング/色/素材のようなパッケージデザイン要素別のラベル付与

ラベルの振り方も、「一つのデータに対して一つのラベルを付与するシングルラベル付与」や「一つのデータに対して複数のラベルを付与するマルチラベル付与」といった方法があります。

ビジネス的な観点での注意点としては、その切り口で見たいと誰も思っていないラベルを付与しても、該当のラベルが有効活用されることは考えにくいです。分析結果を報告する部署や分析結果を活用する部署の人たちとディスカッションし、合意した上で、ラベルを確定させた方が後々より有効活用することができます。

STEP 3では付与したラベルを活用し、分析を行います。
例として、ポジティブな評価とネガティブな評価の傾向差を出したいと思えば、ポジティブ/ネガティブのラベル別に分析を行い、さらにポジティブな評価のうち特に特徴のあった商品機能に関して分析を行いたい場合は、同様にその特徴のラベルに絞って分析します。
インプットとなるデータにラベルが付与されていれば、その切り口での分析は、データ量が確保できる限り実行可能です。

例えば、コレスポンデンス分析を用いると以下のようなアウトプットを出すことができ、自社の商品が競合と比較してどのようなイメージを持たれているのかを一目で確認することができます。本来、アンケートの選択回答データを用いて行うことが多い分析ですが、自然言語データ内の単語発生回数を代わりに用いて分析を行うことが可能です。

この結果を出力する際にラベルがあれば、ポジティブな評価とネガティブな評価に分けて出力することができます。つまり、自社A商品に対してのポジティブなイメージとネガティブなイメージが一目で確認できるようになるということです。
コレスポンデンス分析の詳細はこちらの解説をご覧ください。

その他にも、単語別集計、係り受け解析、共起ネットワーク、トピックモデル等々、様々な分析手法があります。

これらの処理はPythonやRといったプログラミング言語で行うことが多いのですが、この記事を執筆している2022年7月時点の便利なPythonライブラリとして“Scattertext”があります。

GitHub:https://github.com/JasonKessler/scattertext 
論文:Jason S. Kessler.: Scattertext: a Browser-Based Tool for Visualizing how Corpora Differ,   arXiv:1703.00565, 2017.

“Scattertext”の中にも様々な出力形式がありますが、一例を紹介します。例図のグラフの縦軸・横軸は、それぞれの軸に設定したラベルの中でよく発生している単語かどうかを示しています。各点の出力位置は、単語の発生数のランキングを用いて決定しています。
また、チャート上で各点をクリックすると、該当単語はどのようなコメントに含まれていたかを一覧で表示できます。

単語分布をラベル別に視覚化でき、全体傾向の表示と個別具体コメントの表示を行き来できる便利なライブラリです。

4. マーケティング活用事例

Webスクレイピングから始まる分析の実際の活用事例を、簡略化してご紹介します。


分析概要:
製品デザインの口コミ分析

分析の流れ:
STEP 1:ソーシャルメディア内にある自社製品/競合製品へのコメントを取得
STEP 2:取得したコメントデータに対し、ラベルを付与

ラベル例
・製品デザインに関するコメントかどうかの判断ラベル
・感情分析によるポジティブ/ニュートラル/ネガティブのラベル付与

STEP 3:全体/ラベルごとに分析を行い、分析結果を出力

提供形態:
分析システム


本事例は、グローバル展開する耐久消費財企業のデザイン部門の方から、自社/競合製品のデザインがWeb上のレビュー/クチコミでどのように語られているのかを知りたいとのご要望を頂き、スタートしました。
分析システムはPythonで組まれており、実行する際にはボタンをポチポチとクリックするだけで、様々な分析手法を実行することができます。実行時には使用する口コミデータの取得先を指定し、特定の単語や出現・共起回数が多い単語に絞るといった調整を簡単な操作で行って、結果出力・比較を行うことが可能です。 納品に際しては、使用方法のレクチャーを行い、作成した分析システムを実際に社内で活用いただく際の支援も行いました。

この分析により、生活者が該当商品のデザインのどの部分を良いと思っており、どの部分を悪いと思っているか、といった生活者の声を可視化し、商品デザインの改良や新たな商品開発を行う際の示唆を得ることができるようになりました。

5.まとめ

自然言語処理技術は生活者が書き込むレビュー、コメントからインサイトを導出する強力な手法で、いま急速に伸びている市場です。自然言語処理の技術を用いることで調査という手段によらず、生活者の潜在的な声を聴くことが可能になります。

インテージでは、お客様側でも運用できるモデルの開発・仕組み化だけでなく、担当者・担当チームの育成支援といった内製化支援まで行っております。何かお困りのことがございましたらお気軽にご相談ください。

転載・引用について

◆本レポートの著作権は、株式会社インテージが保有します。
 下記の禁止事項・注意点を確認の上、転載・引用の際は出典を明記ください 。
「出典:インテージ「 知るギャラリー」●年●月●日公開記事」

◆禁止事項: 
・内容の一部または全部の改変 
・内容の一部または全部の販売・出版 
・公序良俗に反する利用や違法行為につながる利用 
・企業・商品・サービスの宣伝・販促を目的としたパネルデータ(*)の転載・引用
(*パネルデータ:「SRI」「SCI」「SLI」「キッチンダイアリー」「Car-kit」「MAT-kit」「Media Gauge」「i-SSP」など)

◆転載・引用についてのお問い合わせはこちら