前回コラムに書いた「第一回出力」をご覧いただけましたでしょうか?
そう、マルコフ連鎖では、何を言っている文章なのか、まるでわかりませんでした。
ここで得られた知見は、①なんとか文章は書けるということ、
②内容は支離滅裂だということです。
特に「重複」文が何度も出てきますが、なぜこの状態になるのかの理由はわからないのです。
ですので、次の課題はどうやったら意味のある文章同士をつなげることができるのか?
という点に絞られました。
そこで考えたのがword2vecを使ったアプローチです。
言葉をデータに置き換える例としてよく使われるのが、
女王=王-男
です。
このように学習データとなる言語をすべてデータ化し、
文章の重みを算出。
その後、そのデータの特徴を表す文章を生成するということにトライしました。
詳しくは次回、ご説明します。