センチメント分析とは?
センチメント分析の定義
センチメント分析は、計算言語学と機械学習を使用してテキストデータの背後にある感情的なトーンを検出する自然言語処理(NLP) 技術です。これにより、企業は、自社のブランド、製品、サービス、アイデアに対する肯定的、中立的、否定的な感情を特定できます。
コアテクノロジーには以下が含まれます。
- 自然言語処理(NLP):機械が人間の言語を処理し、解釈できるようにします
- 計算言語学:テキスト分析のための言語フレームワークを提供します
- 機械学習(ML):モデルはラベル付きテキストからパターンを学習し、感情を分類します
センチメント分析はどのように機能しますか?
- テキストインジェスト:生のテキストデータは、電子メール、サポートチケット、チャットログ、SNS、カスタマーレビューなど、さまざまなソースから収集され、処理パイプラインはこのデータを取り込みます。
- テキストの前処理:未処理のテキストは以下のようにクリーニングされ、正規化されます
- トークン化:データ(テキスト)は単語またはフレーズに分割されます
- 小文字化:インプットは標準化されます
- ストップワードの除去:一般的な非情報的な単語はフィルタリングされます
- 語幹化/レマタイゼーション:単語をその最も基本的な形に分解します
- 固有表現抽出(NER):固有名詞やエンティティを認識するプロセス
- 特徴抽出:テキストから構造化された数値表現が作成されます
- スパースベクトルモデル用のBag of Words(BoW)またはTF-IDF
- 意味的コンテキストのための単語埋め込み(Word2Vec、GloVe、BERTなど)
- コンテキストベクトル(トランスフォーマーベースモデルからなど)
- 感情分類:テキストは、機械学習またはディープラーニングモデルを用いて感情カテゴリーに分類されます
- ルールベースのモデル(センチメント辞書と言語ヒューリスティックを使用)
- 従来のMLモデル(ナイーブベイズ、SVM、ロジスティック回帰)
- ニューラルモデル(LSTM、CNN、トランスフォーマー)
- 出力とスコアリング:すべてのインプットテキストには、感情の連続体に沿ったスコア(例:-1から+1)が付けられるか、ポジティブ、ネガティブ、ニュートラルのいずれかのラベルが付けられます。次に、このセンチメントメタデータは次のとおり処理されます。
- フィルタリングまたは検索用にインデックス化
- 分析およびダッシュボード用に統合
- 警告を出すために使用(否定的な感情が急上昇したときなど)
- フィードバック+モデルの更新:ラベル付きの出力を使用して、モデルを微調整または再トレーニングできます。
センチメント分析と自然言語処理(NLP)
センチメント分析は自然言語処理のサブカテゴリであり、自然言語処理(NLP)が実行する多くのタスクの1つです。センチメント分析はテキスト内の感情や意見を捉えることに重点を置いていますが、NLPは機械に人間の言語を扱う能力を与える包括的な技術です。
NLPを活用した言語関連のタスクには以下のようなものがあります。
- NER:テキスト内の人物、組織、場所などの固有名詞の識別
- 品詞のタグ付け:単語に文法的な役割(名詞、動詞、形容詞など)のラベル付け
- テキスト分類:テキストをカテゴリに分類(スパムとそうでないものなど)
- 言語モデリング:文中の次の単語を予測したり、文の構造を理解したりすること
- テキスト要約:長い文書の簡潔な要約を生成すること
- 機械翻訳:テキストをある言語から別の言語に変換すること
- 質問応答:テキストインプットに基づいて質問に答えるシステムの構築
- 自然言語生成:構造化データやプロンプトから人間のようなテキストを生成すること
センチメント分析と機械学習(ML)
センチメント分析は、機械学習という広範な分野における特定のユースケースであり、通常はラベル付けされたテキストデータで訓練された教師あり機械学習モデルを使用して、テキスト内の感情や意見を検出します。
一方、機械学習により、システムはデータからパターンを学習し、明示的にプログラムされなくても予測や意思決定を行うことができます。主な機械学習タスクには、次のようなものがあります。
- 画像分類:画像や写真内のオブジェクトや人物を識別
- 音声認識:話し言葉をテキストに変換
- レコメンデーションシステム:ユーザーの行動に基づいて商品、メディアなどを提案
基本的に、センチメント分析技術は次のようなML技術に依存しています。
- 分類アルゴリズム:ディープニューラルネットワーク、決定木、ロジスティック回帰など
- 特徴抽出:生のテキストを数値ベクトルに変換
- モデル評価:再現率、適合率、正確度などの指標を用いてパフォーマンスを評価
センチメント分析と人工知能(AI)
AIは、通常は人間の認知能力を必要とするタスクを実行できるシステムを作成することを目的とした広範な分野です。センチメント分析はAIの限定的な応用であり、具体的にはNLPの領域内で行われます。
NLP、コンピュータービジョン、機械学習はすべてAIのサブフィールドです。
センチメント分析は、トークン化、構文解析、言語のベクトル表現などのコアNLPコンポーネントに基づいて構築されます。多くの場合、センチメント分析用にラベル付けされたデータセットで微調整された、事前学習済みのトランスフォーマーモデル(BERTやRoBERTaなど)によって動作します。本質的に、AIはさまざまな行動を網羅していますが、センチメント分析はテキストデータの感情的なトーンを分析するためにAIとNLPの手法に焦点を当てています。
センチメント分析とデータマイニング
データマイニングは、大規模なデータセットからパターン、相関関係、異常を発見する広範な計算プロセスです。
センチメント分析とデータマイニングの主な違いは次のとおりです。
- 方法論:センチメント分析には、NLP技術と教師ありまたは教師なしの機械学習モデルが組み込まれており、言語のニュアンスを解釈します。一方、データマイニングは、さまざまなデータ形式におけるパターン発見に最適化された統計的、数学的、アルゴリズム的手法を使用します。
- 出力: センチメント分析の出力には、センチメント分類または連続的なセンチメントスコアが含まれます。データマイニングの出力には、予測モデル、クラスタリング、アソシエーションルールが含まれます。
- データ型の焦点:データマイニングは、さまざまなデータ型(数値、カテゴリカル、テキストデータなど)を扱います。センチメント分析は、感情的な洞察を抽出するための非構造化テキストを対象としています。
センチメント分析の種類
センチメント分析は、ルールベースの手法、機械学習モデル、またはハイブリッドの組み合わせなど、さまざまなアプローチを使用して実行できます。各アプローチは、さまざまな種類のセンチメント分析タスクに適用できます。
- きめ細かいセンチメント分析
- アスペクトベースのセンチメント分析(ABSA)
- センチメント検出とセンチメント分析
- インテントに基づくセンチメント分析
きめ細かいセンチメント分析
段階的センチメント分析とも呼ばれ、感情を肯定的、中立的、否定的だけでなく、複数のレベルに細分化します。典型的なカテゴリには、非常に肯定的、肯定的、中立的、否定的、非常に否定的があります。このさらなる粒度は、顧客満足度をより深く理解したい企業など、特定のシナリオや業界で役立ちます。
アスペクトベースのセンチメント分析(ABSA)
このアプローチは、製品やサービスの特定の側面や特徴に対する感情を特定することに重点を置いています。たとえば、ワイヤレスヘッドフォンのレビューを考えてみてください。さまざまな側面には、接続性、デザイン、音質が含まれる可能性があります。ABSA は、企業が自社製品のどの部分を顧客が好むか、または好まないかを正確に特定できるよう支援します。
「このヘッドホンの外観は素敵です。」 | デザインに対するポジティブな感情 |
「ボリュームコントロールはイライラします。」 | 特定の機能に対する否定的な感情 |
センチメント検出とセンチメント分析
感情検出は、極性を超えて、幸福、悲しみ、怒り、欲求不満などの特定の感情を識別します。このタイプの分析では、主観的な言語を評価するために辞書がよく使用されます。
「行き詰まった」「イライラする」 | 認識された否定的な感情 |
「気前がいい」、「ワクワクする」 | 認識された肯定的な感情 |
しかし、語彙ベースの手法は、文脈や微妙な感情表現に苦労することがあります。
インテントに基づくセンチメント分析
名前が示すように、インテントベースの分析は、テキストの背後にある意図を読み取ることを目的としています。これにより、企業は購入、アップグレード、キャンセル、または登録解除などの顧客の意図や関心レベルを特定できるようになります。インテント検出には、通常、顧客のメールやサポートクエリなどのラベル付きデータを用いて分類器をトレーニングする必要があります。
「ストレージが足りなくなりました。どうすればよいですか?」 | 潜在的なアップグレードの意図 |
「私が受け取っているサンプルが気に入りません。」 | 潜在的なキャンセルの意図 |
センチメント分析の方法
センチメント分析を実行するには、通常、次の手順に従います。
- センテンスのトークン化、ルート形式へのレマタイジング、ストップワードの除去を含むテキストの前処理
- 特徴抽出には、レムマタイズされたトークンを数値表現に変換することや、埋め込みを生成することが含まれます
- 分類は、データに感情分類器を適用することを含みます(通常、抽出された特徴と連動する特定のモデルまたはアルゴリズムを使用して感情を分類します。)
また、センチメント分析には3つの一般的なアプローチが存在します。
- ルールベースのセンチメント分析
- 機械学習によるセンチメント分析
- ハイブリッドセンチメント分析
ルールベースのセンチメント分析
ルールベースのセンチメント分析は、あらかじめ設定された言語ルールと感情辞書を使用して、テキストの感情的なトーンを判断します。
コンポーネントには次のものが含まれます。
- センチメントレキシコン:感情値(肯定的、否定的、中立的)でタグ付けされた単語を含む辞書
- 言語規則:否定(「良くない」)、強調(「市場に満足」)、および接続詞などの修飾子を処理するための手作りのルールのセット
プロセス:
- トークン化:テキストをトークン(単語またはフレーズ)に分割します。
- レキシコン検索:トークンを感情レキシコンと照合して、極性スコアを割り当てます。
- ルールの適用:文脈を考慮したルールを使用してスコアを調整します(例:否定は極性を反転させ、強調表現は感情を増幅します)。
- アグリゲーション:個々のトークンスコアを全体のセンチメントスコアに統合します。
このアプローチの利点には、結果が簡単に解釈できることと、大規模なラベル付きデータセットが不要であることが含まれますが、ルールベースのセンチメント分析は厳格であり、皮肉や文脈、進化する言語使用などの微妙なニュアンスを捉えるのに苦労することがあります。
機械学習によるセンチメント分析
機械学習によるセンチメント分析では、ラベル付けされたトレーニングデータから学習するアルゴリズムが使用されます。
コンポーネントには次のものが含まれます。
- トレーニングデータ:モデルにどの単語やフレーズが肯定的、否定的、または中立的な感情に対応するかを教えるために使用されるラベル付きデータセット(例:映画レビュー、製品レビュー)
- 特徴:単語数、TF-IDFベクトル、または意味を捉える埋め込みなどのテキストの数値表現
- 分類: ディープニューラルネットワーク、単純ベイズ1、ロジスティック回帰、抽出された特徴に基づいてテキストを分類するサポートベクターマシンなどのモデル
プロセス:
- データの前処理:テキストはクレンジングされ、トークン化され、ストップワードが削除され、最終的に特徴ベクトルに変換されます。
- モデルのトレーニング:特徴とそれに対応する感情ラベルがMLアルゴリズムにフィードバックされ、パターンを学習します。
- 予測:トレーニング済みモデルを新しいテキストデータに適用して、感情ラベルを予測します。
- 評価とチューニング:モデルの性能はメトリクス(正確度、精度、再現率)を使用して評価され、ハイパーパラメータは結果を改善するために微調整されます。
機械学習のアプローチは、ルールベースのシステムよりも複雑なパターンやコンテキストをより効果的に捉えることができます。また、新しい言語の使用にもより簡単に適応できます。しかし、トレーニングには大量のラベル付きデータと計算リソースが必要になる傾向があります。
ハイブリッドセンチメント分析
ハイブリッドセンチメント分析は、ルールベースの手法と機械学習の手法を組み合わせることで、両方のアプローチの強みを活用します。
したがって、コンポーネントには以下のものが含まれます。
- ルールベースのシステム:解釈可能な感情シグナルを提供するためにあらかじめ設定された言語ルールと感情辞書
- 機械学習モデル:複雑な言語パターンや文脈を捉えるためにラベル付けされたデータで訓練されたアルゴリズム
プロセス:
- 前処理:テキストはクレンジングされ、トークン化され、機械学習コンポーネントに必要な特徴ベクトルに変換されます。
- ルールの適用:言語ルールは、明示的な感情指標を特定し、否定や強調表現などの修飾語を処理するために適用されます。
- 機械学習の予測:MLモデルは、同じまたは補完的な特徴を分析し、明示的なルールを超えた微妙な感情を検出します。
- 融合:ルールベースと機械学習の両コンポーネントからの出力は、重み付けまたは投票メカニズムを使用して結合され、最終的なセンチメント予測が生成されます。
2つの主なアプローチを組み合わせると、感情表現が微妙であったり、言語の使用が進化しているドメインでは、より良い結果を得ることができます。とはいえ、ハイブリッドシステムにおいて複雑さと性能の適切なバランスを達成するには、慎重な微調整と統合が必要です。
センチメント分析:例とユースケース
センチメント分析は、特定することによって、企業に実用的な洞察を提供できます。
- 使用されている言葉の極性(肯定的、中立的、否定的)
- 消費者の対応の感情的なトーン(怒り、幸福、悲しみなど)
- 緊急性を伝えるトーンかどうか
- 消費者の意図や関心度
自動オピニオンマイニングの一形態として、センチメント分析はさまざまなビジネスアプリケーションをサポートできます。
集約されたセンチメント分析を用いた競合ベンチマーキング
企業は、ソーシャルプラットフォーム、ブログ記事、さまざまなディスカッションフォーラムやレビューサイトからコメント、レビュー、言及を収集して分析し、自社のブランドがどのように認識されているかを理解できます。センチメント分析ツールは、このプロセスを自動化し、スケールすることができます。
データソースには次のものが含まれる可能性があります。
- ソーシャルメディア(X、Instagramのコメント)
- レビューサイト(Yelp、Google Reviews)
- フォーラムおよびブログ
- App Storeのレビュー
このデータにセンチメント分析を適用して得られた洞察は、企業がポジティブなフィードバックのパターンを検出し、ネガティブなフィードバックの問題点を特定し、緊急性と感情の強度を評価するのに役立ちます。
マーケティングチームは、メッセージング戦略を洗練し、ブランドの健全性と人気を監視するために、このアプローチを頻繁に使用します。
市場動向分析を用いた製品戦略の策定
センチメント分析は、個々のブランドのセンチメントを超えて、市場、業界、または顧客セグメント全体に関する高レベルで集約された洞察を抽出するための信頼できるツールです。
一般的なデータソースには以下のものが含まれます。
- ニュース記事およびプレスリリース
- 業界レポートとアナリストのコメント
- 金融ニュースと株式市場の議論
- ブログとフォーラム
- 製品とサービスのレビュー
- 調査およびフィードバックデータ
センチメント分析アプリケーションは、これらのデータソースを利用して市場センチメントのトレンドを定量化し、リスク評価や製品戦略の策定に役立てることができます。
センチメント分析を活用したeコマースの検索とフィルタリング
センチメント分析をeコマースプラットフォームに統合することで、商品の検索とフィルタリング機能を向上させることができます。前述のSNSやレビュー以外にも、さらに考えられるデータソースには次のようなものがあります。
- ユーザーのナビゲーションパスを記録するサーバーログと、感情ラベルが付けられたセッショントランスクリプトを組み合わせたもの
- センチメントタグにリンクされたIoTデバイスのログ(組み込みアプリを通じた顧客フィードバックを含むスマート家電など)
- 拡張現実(AR)製品のインタラクションフィードバック(ユーザーの口頭コメントが書き起こされ、センチメント分析される)
- 国際カスタマーサポートコミュニケーションからの多言語感情データ
集約されたセンチメント分析を用いた競合ベンチマーキング
さまざまなテキストおよび半構造化データソースにわたるセンチメントシグナルを集約して分析することで、ブランドや製品の認識を競合他社と比較してベンチマークすることができます。
あまり一般的ではないデータソースには、次のようなものが含まれる場合があります。
- 特許出願書類と技術ホワイトペーパーから感情を含む言語を抽出
- 決算説明会の記録を分析し、センチメントの変化と投資家心理のシグナルを分析
- 顧客からの苦情チケットと解決ログにセンチメント注釈を付加
- マルチメディアトランスクリプトにおけるインフルエンサーのコンテンツと支持感情をNLP技術で測定
センチメント分析の一般的な課題
感情分析は、本質的に複雑で曖昧で、絶えず進化している人間の言語を理解することに依存しています。これにより、自動化システムにとって正確な解釈は困難な課題となります。
企業間(B2B)レビューにおけるエンティティの曖昧性解消
異なるエンティティに向けられた感情を区別することは、特に競争の激しい状況では一般的な課題です。たとえば、B2Bレビューでは、自社と競合他社を説明する際に同様の言葉が使用されることがありますが、それぞれに対する感情は異なって解釈されるべきです。
[あなたの会社の]商品の配送が迅速である点が気に入っています。 | 御社に対する肯定的な感情 |
[競合他社]で配送時間帯を設定できる点が気に入っています。 | 競合他社に対する肯定的な感情が自社ビジネスにとってプラスとなるとは限りません |
センチメント分析ツールにはエンティティの曖昧性解消機能が不足している可能性があり、その結果、ステートメントが実際には競合他社に言及しているにもかかわらず、肯定的な感情が誤って自社に帰属してしまうことがあります。
皮肉、嫌味、文脈
皮肉や風刺を検出し理解することは、感情分析において依然として大きな課題です。
これらの表現形式では、多くの場合、明示的なテキストのヒントなしに肯定的な言葉を使用して否定的または反対の意味を伝えており、この曖昧さにより自動感情分類が複雑になる可能性があります。
センチメントは文脈に大きく依存し、同じフレーズでも質問やシナリオによってセンチメントの極性が異なる場合があります。
感情の極性 | Q:「この製品をお勧めする可能性はどのくらいありますか?」 | Q:「価格調整がどの程度気になりましたか?」 |
A:「少しだけ。」 | 否定的 | ポジティブ |
A: 「たくさん!」 | ポジティブ | 否定的 |
皮肉やアイロニーを扱うには、コンテキストを意識したモデル(トランスフォーマー)やマルチモーダル分析(トーンや視覚的な手がかりを取り入れる)など、より高度な技術が必要です。
コンテキストに依存する感情分類は、応答を正しく解釈するためにプロンプトや会話履歴を組み込むことにしばしば依存します。
主観性
センチメント分析の主な課題の1つは、言語の主観性です。文化によってユーモア、慣用表現、方言が異なると、意味が変わる可能性があります。
米国英語 | 英国英語 |
「パンツ」→「トラウザーズ」 | 「パンツ」→「下着」 |
語彙や構文の違いにより、ある言語変種や文化でトレーニングされた感情モデルは、他の言語変種に適用するとパフォーマンスが低下する可能性があります。
センチメント分析を成功裏に適用するためには、地域に適応したトレーニングデータや文化に特化した用語集などのローカリゼーション戦略が不可欠です。
センチメント分析の利点
センチメント分析は、アクショナブルなインサイトによってユーザーに利益をもたらします。 ツールとして、次のような複数の利点があります。
顧客の感情をスケールで分析
センチメント分析ツールは、さまざまなテキストソースからリアルタイムで分析を提供します。
主な用途は以下の通りです。
- ネガティブな感情の急増と新たな問題の早期検出
- タイムリーなアラートを通じた危機管理
- 広報戦略
このコンテキストでのテキストマイニングプロセスには、多くの場合、継続的なデータインジェストと前処理、そしてデータ可視化ツールが含まれます。センチメントスコアリングのための異常検知アルゴリズムを使用することで、突然の変化を検出することができます。
予測分析モデルをサポート
センチメントの出力は、予測モデリングパイプラインのエンジニアリング機能として統合できます。
一般的なワークフローには、次のものが含まれます。
- NLPモデルまたはAPIを使用して非構造化テキストから感情の極性と強度スコアを抽出
- 関連する時間枠または顧客セグメントのスコアアグリゲーションで数値の特徴を作成
- センチメント由来の特徴と構造化データセット(例:CRMレコード、トランザクションログ)との組み合わせ
- 結果を予測するための教師あり機械学習モデルのトレーニング(ランダムフォレスト、勾配ブースティング、ディープニューラルネットワーク)
- AUC-ROC、F1スコア、RMSEなどの指標を用いたモデルの検証
製品とサービスの開発を改善
センチメント分析を用いることで、継続的なフィードバック監視を通じて、データ駆動型の製品イテレーションをより効率的に行うことができます。
- APIまたはストリーミングプラットフォームを通じて、複数のチャネル(レビュー、サポートチケット、フォーラム)からの顧客フィードバックをリアルタイムでインジェストする機能を実装します。
- NLPの前処理手順として、トークン化、レマタイズ、ストップワードの削除を行い、その後、ルールベースまたはMLベースのモデルを使用して感情分類を行います。
- 感情タグ付きのフィードバックを時系列データベースまたはドキュメントデータベースに格納し、トレンド分析を行います。
- 感情分布やボリュームの急増などのメトリクスを使用して、可視化ダッシュボードを開発します。
センチメント分析への一般的なアプローチ
センチメント分析システムを自分で構築したり、サードパーティプロバイダーに投資したり、アドオンを購入してアプリケーションに統合したりできます。さまざまなSaaS(Software-as-a-Service)センチメント分析ツールが提供されています。また、PythonやJavaのようなオープンソースライブラリを使用して独自のツールを構築することもできます。多くの場合、クラウドプロバイダーは独自のAIスイートを提供しています。
- 独自のセンチメントモデルを構築する
spaCyやNLTKなどのNLPライブラリを使用して、独自のセンチメントモデルを構築することができます。カスタマイズに関しては、実践的なアプローチにより、前処理、特徴エンジニアリング、モデルアーキテクチャ、トレーニングデータを完全に制御できます。とはいえ、独自のセンチメントモデルを構築するには、NLPと機械学習の専門知識が必要であり、データのラベル付け、モデルのトレーニング、チューニングに多額の投資が必要です。ドメイン固有の言語や詳細な感情のニュアンスに対応するためにカスタマイズされたモデルが必要な場合は、DIYアプローチが適しているかもしれません。 - すぐに使えるSaaSセンチメント分析ソリューションを利用する
あらかじめパッケージ化されたソリューションには、Amazon Comprehend、Google AI、AzureのCognitive Servicesなどがあります。このようなSaaSセンチメント分析ツールの利点には、迅速な導入、管理されたインフラ、事前にトレーニングされたモデル、拡張性のあるAPIが含まれます。しかし、モデル内部をコントロールしにくく、追加のトレーニングを通じて微調整やドメイン適応が時折必要になります。 - サードパーティのセンチメント分析モデルを統合する
カスタムまたはオープンソースの感情モデルをElasticのSearch AI Platformにアップロードすることもできます。Elasticsearchのインデキシングと検索をセンチメントスコアリングと組み合わせて大規模なテキストデータセットを分析することで、事前にトレーニングされたモデルとカスタムルールセットまたはML拡張を組み合わせたハイブリッドアーキテクチャを開発できます。既存の信頼性のある検索および分析インフラを利用しつつ、独自のモデルを柔軟に管理したい場合は、これが最適な方法です。 - クラウドプロバイダーのAIスイート
クラウドプロバイダーのAIおよびMLスイートには、多くの場合、幅広いNLP機能の一部としてセンチメント分析が含まれています。これらのソリューションは、他のサービスとの容易な統合と継続的なモデル更新を提供します。ただし、ベンダーロックインとカスタマイズの制限が課題となる可能性があります。
Elasticsearchでセンチメント分析をはじめる
Elasticでセンチメント分析ツールを立ち上げることで、独自のオピニオンマイニングを実行し、必要なアクショナブルなインサイトを得ることができます。
センチメント分析用語集
アルゴリズム:コンピューターが従うプロセスまたは一連のルール
人工知能:機械やコンピューターシステムによる人間の知能のシミュレーション
計算言語学:言語学の一分野であり、コンピューターサイエンスの理論を用いて言語や音声を分析、合成します
共参照解析:テキストの固有表現に属するすべての単語を識別するプロセス。
見出し語解析:同じ単語の異なる屈折形をグループ化するプロセス。
辞書: ある言語の語彙目録
機械学習:人工知能のサブセットで、データとアルゴリズムを使用することにより、指示がなくてもコンピューターが学習することを可能にします
固有表現認識:単語を固有名詞または表現として認識するプロセス。
自然言語処理:コンピューターサイエンスの分野の1つであり、人工知能のサブセットとして、コンピューターシステムが人間の言語を理解できるようにすることを目的としています
品詞タグ付け:テキスト内の単語をマークして、どの品詞に属するかを分類するプロセス(例:apple = 名詞、slowly = 副詞、closed = 形容詞)
語幹処理:単語を語幹(語根)の形に還元するプロセス
トークナイゼーション:テキストをトークンと呼ばれる小さな単位に分割するプロセス。
語義の曖昧性解消: 文脈から語義を特定するプロセス。
脚注
1 Webb, G.I. "Naïve Bayes." Encyclopedia of Machine Learning and Data Mining, Springer, 2017, https://doi.org/10.1007/978-1-4899-7687-1_581.