少しずつAiらしいテキストマイニングに
前回は、ChatGPT(チャットGPT)でテキストマイニングっぽいことができるぞ!という勢いで書いたのですが、いささか不親切でしたので、もう少し役に立ちそうな話を書いてみます。
【GPT_Textminingシリーズ一覧リンク】
- 第1回 入門編・グーグルスプレッド&API
- 第2回 グーグルスプレッド・サマライズ等
- 第3回 通常の対話型インターフェイスを使った単語抽出など
- 第4回 マイニングツールKH-Coderとの連携について
- 第5回 ワードクラウドを表示するHTMLを作る
- 第6回 エクセルをそのままコードインタープリターで加工する
【事前準備事項】
- OpenAIのAPIアカウントの取得 (このままググるといろいろ出てきますので参考にしながら取得してください。できれば有料プランでをおすすめします。従量制が気になる人もいると思いますが、おそらく練習の範囲では2~3000円/月を超えないと思います。間違っても5万件の分析を何回もやな無い限り…。
- グーグルスプレッド用のアカウントの取得
- スプレッドシートアドオン”GPT for Sheets and Docs”のインストール ※詳細は第1回の動画も参照
- テスト用のテキスト(1行1人で2~30人程度のコメントテキスト)
【必要スキル】
- スプレッドシートで基本的な関数が使えること
- テキストマイニングとしてどんな結果が有効かを想像できること
【動画】
- 第2回めの実際の使い方を説明しています。
新しい操作テクニック
1)日本語の活用
対象の文をあらかじめ指定した分類に分け分類名を表示します。
関数と書式
[ =GPT_CLASSIFY(評価対象セル,分類指定セル) ]
$A3セルのテキストを、B$1セルのコード群で分類するように上記の関数をB3セルに記載します。
B$1として参照先を固定しますが、ここに日本語のコードが使えることをご紹介します。
そのままオートフィルで同じ関数コピーします。
2)コーディング時に「コード群」ではなく「テーマ」を与える
前回から上記の例まで、コーディングにはあらかじめ指定した分類を用意していましたが、テーマのようなものを与え、コードを自動的に作ってもらうこともできます。(たまたま、ミスをして発見しただけなのですが……)
関数と書式
[ =GPT_TAG(評価対象セル,分類指定セル) ]
前記同様、$A3セルのテキストを、B$1セルのルールで分類するように上記の関数をB3セルに記載します。
B$1として参照先を固定しますが、ここにコード軍ではなく「主題」とだけ入れてください。
そうすると「さすがAi」という驚きの働きを始めます。なんと自身でコードを作って出力してくれるのです。
そのままオートフィルで同じ関数コピーします。
この働きがとても嬉しいことは、アフターコーディングを経験した人には分かるでしょう。コード軍を作ることそのものが骨が折れるのです。
一旦この作業を行い、抽出できた単語からコード群をチョイスして、ここまでやってきたようなコード群による分類を行えばよいのです。
ちなみに、この「主題」は、コード参照時に間違って「subject」を参照したミスから発見しました。「subject」を使うと、英単語のコードを吐き出してくれます。
「キーワード」なども試してみましたが芳しくありませんでした。いろいろ挑戦してみてください。
3)抜き出しサマリー
ChatGPTの得意技はサマリーづくりと言われています。非常に気の利いたサマリーを書き出したり、抜き出してくれます。
ただし、現在のところ(私が契約している3.5plusAPI)では、文章ボリュームが少なく、この例などでも100行分の自由回答しか対象にできていません。
この件について、GPT先生に問い合わせたところ、サマリをいくつか作り、そのサマリを作るべしとお達しがありました。
近々に調整してみますが、ここでは基本的な方法を紹介します。
関数と書式
[ =GPT_SUMMARIZE(評価対象セル範囲※,サマライズ方法の指定 ]※はA3:A50といった範囲指定
例のE!1セルには、「5つのポジティブな原文=tweetを日本語で」という指定が入っています。
番号付きの箇条書きで抜き出してくれました。
4)インサイトの結果をGPT君の言葉でレポート
前項の機能に近いが、Aiらしい「自分の言葉」での回答が得られる方法。関数は同じだがサマライズ方法の注文の仕方が違う。
関数と書式
[ =GPT_SUMMARIZE(評価対象セル範囲※,サマライズ方法の指定 ]※はA3:A50といった範囲指定
例のF!1セルには、「5つのネガティブを箇条書きしなさい 日本語で」という、乱暴な指定が入っています。
抜き出しではなく、ネガティブな事柄を箇条書きで出力してくれました。
あとがき
第3回では、ChatGPTの対話型画面を使った方法をご紹介しています。誰でも手順を踏めばできる、単語の出現率とセンチメント分類の方法を動画付きで具体的書いています。
外部ブログ記事になりました。【リンク】
G-Pointサービスを提供している、ジー・プラン株式会社のビジネスブログに関連記事を投稿しました。●対話画面を使ったテキストマイニング
・サマリー作成
・単語出現率
・ワードクラウド
※以上のプロンプト見本(テスト用アンケート自由文付き)
※抱きあがったワードクラウドのHTML見本●グーグルスプレッド・アドオン=GPT for Sheets and Docsを使った感情分析
・APIの取得方法(詳細)
・GPT for Sheets and Docsのセットアップ(詳細)
・感情分析(センチメント分析)
・発言分類…択一型と複数型(詳細)●ChatGPTを使った顧客体験調査の設計
・設問案の作成
丁寧な解説や見本データが掲載されていますので、ぜひご一読ください。
【ChatGPTテキストマイニングシリーズ一覧リンク】
ChatGPTをグーグルスプレッドのアドオンで関数のように使って文のネガポジ分析を行う
アンケート自由記述回答をChatGPTでカテゴリー分類しサマライズする方法
ChatGPTのチャットインターフェイスを使って文章からキーワードの抽出と出現回数を調べる
ChatGPTでKH-Coder用のコーディングルール自動作成する方法
ChatGPTにプロンプトをチャットするだけでワードクラウドを作る方法
Advanced Data Analysis (旧名・コードインタープリター)でエクセル上のアンケートデータにフラグアップなど複数の作業をまとめて行う
ExcelとChatGPTを使った実用的で高精度なアンケート自由記述回答分析の最新技法を紹介
【著者・author】
吉澤 隆(よしざわ りゅう)
株式会社マーケティングジャンクション代表取締役
1997年、日本で最初のネットリサーチ会社”マーケティングジャンクションを”を設立。2002年2月、ネットリサーチ系スタートアップ企業が寄り集まって、インターネットリサーチ研究会を立ち上げ活動を開始し、2003年の3月には、6社のツールベンダーとサービス提供会社、300人の参加者があつまり「テキストマイニングセミナー」を開催。以来、アンケート調査の自由記述回答に関するテキストマイニングサービスを提供。2023年3月より誰もが利用できる自由文分析方法として、ChatGPTテキストマイニングの研究・普及活動を展開。当ホームページ、Youtube、他社ホームページ向けの寄稿を行っている。
【新サービスのお知らせ】リサーチ&コンテンツ[詳細はこちら]
BtoB WEBページのPR集客とコンバージョンを引き上げる総合サービスメニューです。ターゲット設定、全体企画、調査実施、分析コンテンツ、プレスリリース、ダウンロード用白書制作まで。特設ページで詳しくご案内しています。