【新サービスのお知らせ】リサーチ&コンテンツ[詳細はこちら]※料金付き
BtoB WEBページのPR集客とコンバージョンを引き上げる総合サービスメニューです。ターゲット設定、全体企画、調査実施、分析コンテンツ、プレスリリース、ダウンロード用白書制作まで。特設ページで詳しくご案内しています。
Advanced Data Analysis (旧コードインタープリター)篇
【GPT_Textminingシリーズ一覧リンク】
- 第1回 入門編・グーグルスプレッド&API
- 第2回 グーグルスプレッド・サマライズ等
- 第3回 通常の対話型インターフェイスを使った単語抽出など
- 第4回 マイニングツールKH-Coderとの連携について
- 第5回 ワードクラウドを表示するHTMLを作る
- 第6回 エクセルをそのままコードインタープリターで加工する
1.概要・アンケート結果のエクセルファイルを直接分析し加工
アンケート調査での大量の自由回答文を分類・分析するには、これまでのChatGPTでは役不足が否めませんでした.Advanced Data Analysis (旧コードインタープリター)の登場で、エクセル等のデータをファイルをそのままChatGPTにアップロードし、分析することが可能となりました。今回は、この機能を使い、これまで紹介してきた「ネガ・ポジ分析」「カテゴライズ」に加え、「アフターコーディング」「長文回答の分解」といった作業について紹介しています。
事前準備
Advanced Data Analysis 旧コードインタープリターは、ChatGPT4のプラグイン(記事作成時はベータ版)です。ChatGPT4が使えるアカウントを用意し、あらかじめAdvanced Data Analysis が使える状態にセットアップしておいてください。
動画
次の動画も御覧ください。
2.ネガポジ(感情分析)とカテゴライズ(単数・複数)
このシリーズの第1回でご紹介した、グーグルスプレッドを使った分析と同等の分析です。
先の例では、スプレッドシートを表示しながら、関数を使って分析を行いましたが、今回はエクセルファイルを直接アップロードし、一連の作業を行った後に、再びエクセルファイルとして結果をダウンロードします。
手順1.分析対象データファイルの作成
・GPTに処理を依頼する分析対処エクセルファイルは、上図のように作成します。A列には、1行目に見出しとして「発言」、2行目以下は実際のアンケート回答で得られた発言文を来指します。
・B列の1行目には、A列の文に対して行う「ネガ・ポジ」感情分析の作業を記します。B列1行目には、A列の文に対してGPTに分析してもらう作業(プロンプト)を記載します。「TextBlobなどの分析ツールは使わずに、ChatGPT自体の日本語のテキスト理解能力を使った、独自の簡易感情分析で、ネガティブ/ポジティブ/ニュートラルのいずれかに分類してください」。TextBlobなどの分析ツールは使わず…のお断りは、このように指定しないと、GPTが公開されている英文用感情分析ツールなどを使おうとして、結果的にうまくいかずに、全てに対し「ニュートラル」を返してくるようなトラブルが多々あるからです。
・同様に、C列D列の1行目には以下の文章(プロンプト)を記載します。
「以下のカテゴリーのいずれかひとつに分類してください:治安, 物価, 教育, ペット,子供, 交通, 公共施設, ショッピング, 自然環境, 公園, スポーツ, 文化, 騒音, 利便性,ファッション, フィーリング, レストラン, コミュニケーション, 医療, 救急, 災害、祭り,イベント,ブランド,その他」
「以下のカテゴリーの中で該当するものをすべて記入してください:治安, 物価, 教育, ペット,子供, 交通, 公共施設, ショッピング, 自然環境, 公園, スポーツ, 文化, 騒音, 利便性,ファッション, フィーリング, レストラン, コミュニケーション, 医療, 救急, 災害、祭り,イベント,ブランド,その他」
・以上の準備ができたらファイルを保存して手順2に進みます。
手順2.GhatGPTでの作業
ChatGPTの対話画面を使い作業をします。
Advanced Data Analysis (旧コードインタープリター)がセットされた画面では、入力インターフェイスの左端に(+)の記号が表示されているので、これをクリックし先程作成したエクセルファイルをアップロードします。その後、以下のプロンプトをSend message部分に入力し、▶ をクリックして送信します。
ネガポジ分析・カテゴライズ用プロンプト
エクセルファイルを読み込んで以下の作業をしてください。
【シートの説明】
1.シートのA列には分析用の”発言”が1行ずつ記入されています。
2.シートの2列目以降の1行目には、A列に記載された文章について行ってほしい分析内容が記されています。
【作業】
A列の”発言”を順に読み込んで、各列1行目の作業を順次行って、発言行の作業列に結果を記入してください。
上記の作業が終了したら、エクセルデータとして出力してください。
手順3.結果のダウンロード
GPTが無事にファイルを読み込むと、エクセルファイルの構造の確認や、サーバー上でどのような処理を行っているかが順に表示されます。
作業が終わると、結果をエクセルファイルにするかを尋ねてくるので「はい」と返します。その後、ダウンロード用のファイルが作成されますので、表示されたリンクからダウンロードします。
以下の表のように出来上がっていれば、無事に処理が終わったことになります。
3.アフターコーディング
自由文のアンケート分析では、ひとりひとりの回答内容を分析者が読み込んで、分析者が用意したキーワードに該当するかを判定し、フラグを立てる作業をよく行います。つまり、複数選択型の回答形式と同じようにし、出現の多少を計測するわけで、この作業をアフターコーディングなどと呼びます。これをGPTに代行させる場合、GPTの内部では先に説明した「カテゴライズ(複数)」と同じ作業を行います。アフターコーディングでは、その結果の形式が違い、直接集計作業が可能な形に仕上げます。
手順1.分析対象データファイルの作成
以下の表のように、A列に発言を、B列からは分類するキーワードを1列ずつに入力しておきます。
手順2.GhatGPTでの作業
ChatGPTの対話画面を使い、上記のファイルアップロードと、下記のプロンプトの入力を行います。
アフターコーディング・フラッグアップ用プロンプト
このエクセルのA列には分析対象の”発言”が記載されています。
1行目のB列以降にはキーワードが記載されています。
2行名以降の発言を分析し、1行目のキーワードに該当する場合は当該セルに1を記入してください。
作業が完了したら、エクセルファイルとして出力してください。
手順3.結果のダウンロード
サーバー上の作業が順に行われたあと、下記のファイルがダウンロードできればOKです。
4.トピック分割
アンケートの自由回答では、こちらの意図とは反して、複数のトピックを書き込む回答者が現れます。
この状況への対応策としては、「手動で複数のトピックに分けて、それぞれを別のレコード(行)に入力する」「この際、発言者の属性などは分ける前の人物と同じにする」という方法がよく使われます。
この作業をGPTに代行してもらう方法を説明します。
手順1.分析対象データファイルの作成
長い自由文をトピックごとに分解する際には、元の発言者の属性(あるいは他の選択肢型設問の回答)が、分割した個々のレコードにも記載される必要があります。
下記の事例では、性別、年代、回答者番号などがそれに当たります。
手順2.GhatGPTでの作業
ChatGPTの対話画面を使い、上記のファイルアップロードと、下記のプロンプトの入力を行います。
トピック分割用プロンプト
【シートの説明】
このエクセルファイルは恵比寿の街の魅力や欠点についての発言集です。
A列には”発言”が記載されています。
B列からD列にはそれぞれ”性別”と”年代”と”発言番号”という、発言者の属性が記されています。
【作業】
A列の”発言”には1セルに基本的にひとつのトピックが記されていますが、一部のものには複数のトピックが書かれていることがあります。複数のトピックについて記されたものがあれば、発言をトピックごとに切り分けて、直後に行を挿入して記載し直してください。この際に適宜に文章は補足してください。切り分けて挿入した行には、元の発言者の属性をそのままコピーしてください。上記の作業が終了したら、エクセルのファイルとして作成してください。
手順3.結果のダウンロード
サーバー上の作業が順に行われたあと、下記のようなファイルがダウンロードできればOKです。
上記ファイルの中で、男性・40代・発言番号20番の回答者が分割されたことが確認できます。
【あとがき】
エクセルファイルなどを直接アップロードし作業するスタイルは、テキスト分析の今後の主流になると考えられます。
引き続き、新しい技法を開発しますのでお楽しみに。
【ChatGPTテキストマイニングシリーズ一覧リンク】
ChatGPTをグーグルスプレッドのアドオンで関数のように使って文のネガポジ分析を行う
アンケート自由記述回答をChatGPTでカテゴリー分類しサマライズする方法
ChatGPTのチャットインターフェイスを使って文章からキーワードの抽出と出現回数を調べる
ChatGPTでKH-Coder用のコーディングルール自動作成する方法
ChatGPTにプロンプトをチャットするだけでワードクラウドを作る方法
Advanced Data Analysis (旧名・コードインタープリター)でエクセル上のアンケートデータにフラグアップなど複数の作業をまとめて行う
ExcelとChatGPTを使った実用的で高精度なアンケート自由記述回答分析の最新技法を紹介
【著者・author】
吉澤 隆(よしざわ りゅう)
株式会社マーケティングジャンクション代表取締役
1997年、日本で最初のネットリサーチ会社”マーケティングジャンクションを”を設立。2002年2月、ネットリサーチ系スタートアップ企業が寄り集まって、インターネットリサーチ研究会を立ち上げ活動を開始し、2003年の3月には、6社のツールベンダーとサービス提供会社、300人の参加者があつまり「テキストマイニングセミナー」を開催。以来、アンケート調査の自由記述回答に関するテキストマイニングサービスを提供。2023年3月より誰もが利用できる自由文分析方法として、ChatGPTテキストマイニングの研究・普及活動を展開。当ホームページ、Youtube、他社ホームページ向けの寄稿を行っている。
【新サービスのお知らせ】リサーチ&コンテンツ[詳細はこちら]
BtoB WEBページのPR集客とコンバージョンを引き上げる総合サービスメニューです。ターゲット設定、全体企画、調査実施、分析コンテンツ、プレスリリース、ダウンロード用白書制作まで。特設ページで詳しくご案内しています。