形態素解析
概要
- 文章を単語に切り分ける処理。
- 英語などであれば半角スペースでsplitすればよいが、日本語の場合、単語の辞書を使ってそれ用のライブラリを使用する。
- 文章の類似度の判定や、文章のPosi/Nega判断などに使用する。
特徴量辞書、ベクトル化、コサイン類似度
特徴量辞書
- 主特徴語と副特徴語がマッピングされたファイル。
- 形態素が副特徴後にあるか調べ、見つかった場合は主特徴語のスコアとして加算する。
例)
猫 猫:1.0,ねこ:,1.0,ヌコ:0.5
形態素解析に「ねこ」と「ヌコ」が一つずつあったら、主特徴語「猫」のスコアは1.5。
ベクトル化
特徴語辞書を使っている場合、何行目のスコアがいくつになったかを表す。
コサイン類似度
ベクトルaとベクトルbの内積 /(ベクトルaのノルム×ベクトルbのノルム)
内積
ベクトルaとベクトルbの同じ行のスコアをかけて合計した値。
ノルム
自分自身との内積の平方根。