「発言録」作成は生成AIに任せられるのか?~生成AIで挑む これからの定性調査②
はじめに
連載の第二回目では、「定性調査」で活用されている発言録の作成を、生成AIで代替できるのかをテーマに検証した内容をお届けします。
すでに音声データを文字に起こすツールは数多く存在し、会議の議事録などで活用されている方も多いでしょう。しかし、定性調査で用いられる発言録は、いわゆる「書き起こし」や「文字起こし」とは異なる形式をとっています。本記事では、その違いに触れながら、生成AIを使ってプロの速記者が作成する発言録に近いものが作れるのか、そして生成AIを活用する際にはどのような課題があるのかについてまとめました。
定性調査における「発言録」とは?
定性調査で主に活用されている「発言録」は、対象者の発言内容を意図やニュアンス、文脈を整理した形で記録したものです。インタビューは、事前に作成する「インタビューフロー」に沿って進められます。発言録はこのインタビューフローに基づいてパートごとに区分されているため、一部分だけを簡単に振り返ることができます。
また、発言録には補足情報なども付加されます。例えば、「それ(コンセプト案P)よりも」や「(対象者Bの発言にうなずく)」 といった「発言ではないが読む上では必要となる情報」です。補足情報以外にも「最初はCMだったかな。(対象者B:芸能人の××さんが出てたやつ?)あ、そうそう!」のように対象者同士が会話をした様子も記録されています。話し始めた順に行をずらして記録されているため、誰が最初に話し始めたかが分かりやすくなっており、文字情報ではありながらもインタビューの雰囲気が伝わるようになっています。
一方、発言録に似た言葉として「書き起こし」がありますが、これはインタビュアーと対象者の発言を一言一句記録したもので、一般に「文字起こし」と言われるものと同様のものです。書き起こしは、発言された内容を発言された通りに記録しているため、発言内容をすべて確認できます。しかし、インタビューフローのパートごとに区切られているわけではないため、特定の箇所を振り返りたい場合にはあまり向いていません。
発言の一言一句を確認したい場合は書き起こしが適しており、インタビュー全体の雰囲気をつかみ、内容を理解するためには発言録が適しています。
図表1
書き起こしは機械的に記録していくのに対して、発言録作成には専門的なスキルが必要であるため、定性調査ではプロの速記者に作成を依頼することが一般的です。今回はこの発言録を生成AIを用いて作成ができないか、検証を行いました。
現在、生成AIを用いた書き起こしツールは数多くありますが、定性調査では、インタビューの雰囲気を理解しやすく、情報が整理された発言録を使用しています。そのため、生成AIにより書き起こしだけでなく、発言録のような整理された記録を自動生成できるかを検証しました。
生成AIを用いた発言録作成の検証
2024 年4月から8月にかけて、生成AIを活用した発言録作成の検証を行いました。対象は1対1のインタビュー10本で、二段階に分けて検証を実施しています。なお、インタビューの実施にあたっては、参加者に対してあらかじめ「生成AIにデータを読み込ませる」ことについての同意を得ています。
① 書き起こしの検証:インタビュー内容を一言一句正確に書き起こせるかを確認。
② 発言録作成の検証:書き起こした内容を読みやすく整え、パートごとに区分した発言録を作成できるかを確認
図表2
① 書き起こしの精度
書き起こしは3つの異なるツールを用いました。用いたツールは、A社、N社、Whisperの3つです。この3つそれぞれに対して定量的評価と定性的評価を実施しました。
定量的評価:文字誤り率(CER)
定量評価ではCER(文字誤り率:Character Error Rate)を評価指標とし、対象者の発言について評価しました。CERとは、文字単位での精度を評価する指標で、正解の文章と比べて、どの程度文字に誤りがあったかを表すものです。
例えば「今日はいい天気ですね」という文章があった場合、「今日ねいい電気ですね」だとCERスコアは40%、「今日ねえい天才です。」であれば70%となります。CERスコアが低いほど、誤りが少ないことを意味しています。
この精度を検証した2024年4月時点の評価となりますが、CERの数値が最も低かったのはWhisperでCERは41%でした。次いでN社51%、A社69%という結果となりました。
図表3
定性的評価:文章の読みやすさと情報量
次に、速記者が作成した発言録を正解データとして、3名の定性リサーチャーの目で生成されたファイルを読み、以下の3項目について「5よい」~「1よくない」の5段階で評価をし、その平均を算出しました。
・必要な情報が含まれているか
・単語の誤変換が少ないか
・句読点の位置が自然か
ここでは、N社が最も良い結果を示しました。他の2つのツールと比べると単語の誤変換が少なく、書き起こしが出来ている文章は全体的に読みやすくまとまっていました。
Whisperは必要な情報はある程度含まれているものの、クリアに聞こえない音声、単なる物音をそれらしく埋めようとしたためか、無理矢理書き起こしたような文章があったり、「うううう」のような意味のない言葉が含まれていました。
A社のツールは単純な誤字や誤変換が多く、SNSなどで最近見かける言葉(映える、Vlog、鍵アカ、のような言葉)や口頭の数字表現の変換が不正確で、読みやすさに欠けていました。
図表4
今回の検証では、総合的にはN社のツールが良い結果を示しました。Whisperは定量評価で最良のスコアを記録しましたが、定性評価ではN社に及ばない結果となりました。一方、A社のツールは全体的に他2つには届かないパフォーマンスでした。
② 発言録作成の精度
書き起こしされたデータを生成AIを用いてインタビューフローのパートごとに区切り、発言録を作成する検証を行いました。検証対象はN社のツールとGPT-4で、A社はGPTのバージョンが古く条件が異なるため除外しました。こちらも、発言録同様に定量的評価と定性的評価を実施しました。
定量的評価:トピックと話題の網羅性
速記者が作成した発言録を正解データとし、インタビューフローに記載の問い(トピック)と、深堀の問い(話題)をリスト化しました。その後、生成AIが作成した発言録をリサーチャーが読み込み、トピックや話題が含まれていれば○、含まれていなければ×としてカウントしました。発言録の文字と完全一致しなくとも、内容的に同じ話題を取り上げていれば〇としてカウントしています。
図表5
このリストの項目の個数と○のついた個数から、生成AIが作成した発言録に含まれる割合を算出しました。
N社はトピックと話題の網羅率は4割~6割とバラつきは小さかった一方、GPT-4の網羅率は9割以上のものから2割以下でバラつきが多い結果でした。
図表6
定性的評価:パートの区切り方の質と使いやすさ
定性リサーチャー3名が内容を読み込み、以下の2項目について「5よい」~「1よくない」の5段階で評価をし、その平均を算出しました。
・インタビューフローで確認したいポイントが含まれているか
・内容がまとまっているか
N社は質問と回答がセットで記載されており、全体を容易に把握できましたが、深堀のための質問が削除されてしまいました。そのため、プロの速記者が作成した発言録と比較した場合、定性調査のアウトプットとしては不十分だと感じられました。
GPT-4 は、書き起こしをしたデータから、対象者が発言した箇所のみを抜き出し、発言録を作成するプロンプトを組みました。これは書き起こしからパートを区切った発言録を作成しようとしたため、インタビュアーの発言がノイズとなり、うまく要約できないのではないかという懸念があったためです。結果、対象者の言葉がそのまま抜き出されており、その人の雰囲気は伝わりましたが、文脈が不明瞭な箇所が複数見られました。例えば、作成した発言録の中に突然「そうです」や「前者です」という文章が現れましたが、これが何に対しての答えなのか分からない、というものです。
この検証を通じて、発言録作成では「インタビュアーの問いかけと回答のセット」が重要であることが再認識され、今後の要件定義に活かすべきポイントが明確になりました。
図表7
全体の検証の結果、N社は安定した網羅性と全体の把握がしやすい内容ですが内容に物足りなさがあり、GTP-4は対象者の発言を忠実に再現しているものの、文脈が欠ける点が課題となりました。
生成AIを用いた書き起こし・発言録作成の実現可能性
2024年4月から8月にかけて実施した検証では、プロの速記者と同等のクオリティの発言録を作成することは難しく、工夫の余地があることが分かりました。発言録に必要な文脈の整理や補足情報を、生成AIを活用してどのように補完できるかは、引き続き検討すべきポイントです。
一方で、生成AIを活用した書き起こしは、今後の利用が期待できると感じています。今回の検証では、文字単位での精度を測る文字誤り率(CER)というやや厳しめの基準を基に評価を行いましたが、定性的評価において、ばらつきはあるものの発話内容が正確に書き起こすことができているツールもあったためです。
また、生成AIの特性を活かして、調査結果を活用するマーケターの皆さんのニーズに応えることも必要だと感じています。例えば、マーケターの皆さんの中には、発言録の完成を待つより早く書き起こしのデータを確認し、インタビューを振り返りたい方もいるのではないでしょうか。現在は様々な強みを持ったAIツールが登場しており、目的や状況によって使い分けも可能です。さらに、AI技術の進化は非常に速く、検証時よりも高性能なツールが既に登場している可能性もあります。
私たちはこうした状況を踏まえ、従来の定性調査の方法を単に踏襲するだけでなく、生成AIを活用した新たな調査プロセスの実現に積極的に挑戦していきたいと考えています。今後も部分的な導入や手法の改善を重ねながら、生成AIのさらなる可能性を追求していきます。
転載・引用について
◆本レポートの著作権は、株式会社インテージが保有します。
下記の禁止事項・注意点を確認の上、転載・引用の際は出典を明記ください 。
「出典:インテージ「知るギャラリー」●年●月●日公開記事」
◆禁止事項:
・内容の一部または全部の改変
・内容の一部または全部の販売・出版
・公序良俗に反する利用や違法行為につながる利用
・企業・商品・サービスの宣伝・販促を目的としたパネルデータ(*)の転載・引用
(*パネルデータ:「SRI+」「SCI」「SLI」「キッチンダイアリー」「Car-kit」「MAT-kit」「Media Gauge」「i-SSP」など)
◆その他注意点:
・本レポートを利用することにより生じたいかなるトラブル、損失、損害等について、当社は一切の責任を負いません
・この利用ルールは、著作権法上認められている引用などの利用について、制限するものではありません
◆転載・引用についてのお問い合わせはこちら