2017/11/19

呟くことが無いからお手軽Keras製AIくんに代わりにツイートしてもらう

シノバズまたドギツイ解禁やってるなあ.

さて,我々のように刺激の薄い日々を送っている人間は今日の出来事だとか今の気分だとかをTwitterでつぶやこうとして投稿画面で固まることが往々にしてあるのではないでしょうか.
そういうときは,AIに代わりにツイートして貰いましょう.

ということで,今回はKerasで文章生成をしてくれるやつを書きます.
ツイッター連携とかはググればいくらでも出てくるので書いていません.

はじめに


正直なところ,ググればこの手の記事は出て来るし,n番煎じ感はすごいあると思いますが許してください.
LSTMの学習させ方が犯罪レベルで効率悪いのであくまでもコードの行数が少なくてすむだけということでお許し下さい.
コードはここです(全部ipynbで済ませています)

モデル



今回はすぐ書けるので20Tokenまでを入力として受け取って次のTokenに何が来るかを予測するモデルとした.
学習時は最大20token+次の1tokenのペアを学習させていくことになる.
言語を吐き出すときは直前までに吐いた列から次のtokenを予想していく.
EOSが吐き出されたらそこで終了となる.ランダム要素を持たせるため各時tokenの採用は各tokenの確率がsoftmaxで出された後に確立で重み付きランダム選択を行っている.

アーキテクチャは超適当でEmbedding->LSTM2層->projectionという感じである.

データセットはchahan69(ぼく)のツイート過去3年分45345ツイートを食わせた.

結果


適当に数epoch5時間分ぐらい回した


まだまだ下がりそうな感じはしたし出てくる文章もどんどん良くなっている感じはしたけどとりあえず気になるので出力してみた. 以下,出力されたtweetである.
自信すぎ!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
松屋の終わりだけどので赤書く人って言ってる
ぬくなってねぇだろ´・・
dアニメストアを淫乱につくやつを教えてほしい
週間買ったりよーてほしい
理っあんまりオーラ10億ひいたwwo
ァ!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
きょう登録した最強の目先テ2曲くなり傾いられるようにしたんだよなね
ニーダーの話ですか?
わかりません今もショック
ダブルラリアット人ワァ~もらえる反応しないでエアてんdp問題集やろ
犬無限にいつか凄い
うまく館が都知事たのはすきなんだけど
もり本人はいったあすo丿
戻してとれませんか!?
すくなくなったの今だけちょい
遊び呆ける!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
~~~~~~~~~~~~~がる絶対書くの???????
晴れ食ったんコースらい語源500000000020カフェイン取った
なくcookieたん激か迷う
生きていきます!!!
蛇の目の風後のためおやすみしそう
いちゃいちゃされたマジィいっぱいベスト
書道のbpに考えてほしいな
、pmおいしいこと京都大学総合研究7号館旧工学部10号館in京都市京都府
常識と50年話だった
pmthunderstormstomorrowwithahighof4candalowof人c
れん!?ーーーー!
ふぁ既にな~すぎる雷減らすでかて変換inkyoto京都府
ンモー。。僕は。。
ゲキと真剣演習書いたので作っていい
値下げしたりなきゃかな
お金違いた富山勝手にしてホームページ
なあ~絶対アイスあるやんけこれ
応用69違いばいいんですか?強いので次起きない??寝るんか
勝手に倍前になってみてしまって200ゲージ落ちたようなものあるんかな
最c池田屋のゲームビンゴであいの命名された解釈りぁぁぁぁぁぁぁぁぁ3つに館が強いようにうた
名前学習があるんだば、bmsなんです、ウデマエ倍率スパブロしてしまっなの、・。な
陸過ぎるちなんじゃない!?
全員目使わない持つかまわない??
工場高いから行こうように報酬別に海外でさっぱり!!!!
3000円が研いくやつぐらいやめてて深ねぇ
てんことですか??
それは酒だけですか……たのしい´・・!3000抜き私とtomorrowいきとたらやな。。。
いえば死んになりそうですそんな〜〜〜〜〜〜〜〜〜のわかりになってくれた
ssrsim!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
障害の進捗ですか?
鬼は極刑したいちゃん…
faqに割れる冷静にはきえねえな´・・
だらけでしまいそうなのかな
微妙すぎる.たまにまともな文章もあるが,日本語になっていない文章がおおいですね.
記号がうまくパースできてないのが足を引っ張っていることが多いようです.
とはいえ, 超適当に組んだネットワークでこれだけ文章っぽい何かができるという学びを得られてよかった.
データセットが少ない上に一文が短い&日本語がおかしいというTwitterの特性もあると思うが,もう少しまともな文章が出力されるように創意工夫を続けたい.


0 件のコメント: