DX人材育成の一環でAI基礎を学びに行く・3日目/3日間・KHcorderでテキスト分析!

スポンサーリンク
080-お仕事

へっぽこヘタレシステム管理者の管理人です。

先日につづき、社会人向けAI基礎講座の3日目です。

※講座の内容はプログラム等ができない方が対象です。

NLP(natural language processing)の疑似体験

本日は昨日のNLPに引き続き・・・

疑似体験を実施しました。

AIの自然言語モデルでは、文章を形態素解析で単語(名詞・動詞・接続・助詞・助動詞・形容詞・副詞)に分割し・・・

数値化して特徴を分析しているだけであり・・・

決して理解して考えている訳ではない・・・

あくまで、確率や統計額の範囲内であるらしい・・・です。

※管理人の理解が及ばず間違っているかもしれません。

スポンサーリンク

KHcoderでテキスト分析を体験

ということで、AIがテキストの特徴をどのように分析しているのか???

と疑似体験するために、KHcoderというフリーウエアのソフトをつかってテキストの分析を体験しました。

KHcoderはこちら

KHcoder主な機能は次のとおりです。

  • どんな言葉が多く出現していたのかを頻度表から確認
  • 多変量解析によって、一緒に出現することが多い言葉のグループや、同じ言葉を含む文書のグループを見ることで、データ中に含まれるコンセプトを探索
  • 一部の文書群に注目した場合に、その文書群に特に多く出現する言葉をリストアップすることで、その文書群の特徴を探索
  • 分析者が指定した基準によって、文書の分類を自動的に行うこと

などです。

使い方には若干慣れが必要です。

まずは適当に300字くらいのテキストデータをメモ帳で作成します。

解析に使った文章は前日のブログ記事の一部です。

結局、現在のAIは、既存のデータから検索したり合成したりすることを人間より早くできるだけの技術であると管理人は理解しました。
ですので、現在存在しない新たなモノを創造することはできないという事になります。
しかも学習させたデータがポンコツだったら出力されるデータもポンコツ・・・
いかに正しくて正確なデータを学習させられるかがキモとなります。
一方で、正しくて正確なデータを蓄積すれば、それだけ良い出力結果を人間が行う精度よりも遥かに高い確率で出力できます。
しかし、現時点では、AI与えられるデータなんてインターネットが普及し始めてからのここ20~30年のWEB資源です。
しかも、そのWEBに公開されているデータの全ては校正されていないので・・・
誤ったデータも多数存在す。
さらに、まだまだデータ化されていないアナログな情報も沢山あるわけで・・・
そういう点では、話題の生成系AIが本当に使い物になるまでには、まだまだ年数が掛かるのかもしれません。
また、AIに学習させる情報の精度も問われてくるかと思います。
正しくて正確で偏っていない良質なデータのみを学習させる
言うのは簡単ですが非常に難しい問題だと思います。

KHcoderの使い方

まずは、新規プロジェクトで作成したテキストデータ(拡張子txt)ファイルを読み込みます。

次に前処理として・・・

テキストのチェックをしてから

前処理を実行します。

Word等からコピペするとタグが付いたりしてエラーを吐くことがあるようで・・・

分析するテキストデータは、メモ帳などのテキストエディタで作成することが望ましいとのことでした。

あとは順番に・・・

ツールから【抽出後リスト】・【階層的クラスター分析】・【共起ネットワーク】を実行して分析します。

抽出後リストでは、各単語が何回使われているか表示されます。

スポンサーリンク

階層的クラスター分析では、各単語の関係性が表示されます。

階層的クラスター分析とは、データ群のなかから最も近いデータ同士を順にまとめていき、徐々にクラスターの数を少なくしていく手法。類似度を計算するために、特定の「距離測定方法」を用いる。似ている要素ごとに分類していく過程で「樹形図(デンドログラム)」を出力できるため、分類の経緯を分析者が理解できることが特徴である。

ブログランキングにご協力ください!
ブログランキング・にほんブログ村へ

最後に共起ネットワークで、各単語の関係性を可視化します。

共起ネットワークとは、n個の連続する単語を各頂点とし、それらを接続することで、単語の関係性をネットワークにして表現する。共起ネットワークにより、単語の関連性を可視化することができるので、出現頻度の高い表現の把握や文全体の趣旨の理解などに応用できる。

AIによる自然言語処理では、このようにテキストデータを分解し単語の頻度や関係性やまとまりを分析し特徴を数値化するとのことです。

今回のAI基礎の講座では・・・

昨年のChatGPTのサービス開始から・・・

なんだかAIが過熱気味であるが・・・

実のところは昔からある技術からも特段発展しているわけではなく・・・

昔からある技術が、インターネット上の大量のWEBデータを活用することで、

学習させられるデータ量が増加した結果であり・・・

なんだか凄そうな雰囲気を出しているだけの様です。

ただ、うまく使えば便利なことは間違いなく・・・

薬と同じく用法・容量(AIの機能を正しく理解し・正しく適切かつ適量なデータで学習させ)を守って適切に使用することが大切であるという事が分かりました。

妄信的にAIだから正しいとか正確であるとか人間より優れていると感じるのは誤りです。

ブログ開設に必要なドメイン取得、サーバーレンタル、ASPの登録等は、こちらのサイトから!

コメント

タイトルとURLをコピーしました