テキスト中の挨拶のやり取りの種類を自動で分類してみたい
例えば「おはようございます。今日も寒いですね」と言ったときに「おはよーです。」と返信があったときに、
これは挨拶っぽいものだと判断する仕組みが欲しい。
ただし最初から入力があったっぽい時に「これは挨拶っぽい」と予測できるようにすること
最初からこれの実現はさっぱり見当つかないのでも少し問題を簡単にする
問題簡略化1
質問→答えに対し余計な言葉を省く。例えば「おはよー」→「おはよう」に変えるとか
簡略化2
分類する数が決まってないときは、クラスタ間の重心間の距離だとか、重心からそこに含まれる発言/応答までのっ距離が肝心になってくると思う
問題点
それならk-meansあたり使って重心からの距離を測ればいいだけですむんだけど、問題は「おはよー」とか単語からidへの割り振りをどうすればいいか。番号が近い=意味合いが似てるとは限らないし。番号=あくまで識別子なだけd
もうちょい悩んで身る