読者です 読者をやめる 読者になる 読者になる

アノトキノヤフーニュースというサービスをリリースしてました

アノトキノヤフーニュースというサービスをリリースしてました。まあ、とりあえずサイトを見てください。

eiei19.herokuapp.com

見てもらえればなんとなく想像つくと思うんですけど、ヤフーニュースのアーカイブサービスです。ヤフーニューストピックに上がってきた記事を定期的にクローリングしてストックしてます。で、記事のタイトルを形態素解析して、単語の出現頻度を週ごとでまとめて「アノトキ」にどんなニュースが注目されていたのかをわかりやすくしてみました。3月の頭にリリースしたのでまだデータが少ないですが自分で見る分にはけっこう面白いです。

なんで作ったか

自分はアプリじゃなくてWebで毎日ヤフーニュース見てるんですが、ヤフーニュースってそのとき注目されてることがわかりやすく反映されてると思うんですよね。しかも自分たちのようなIT畑の人たちじゃなくてそれ以外の人たちの注目。なので世間でどんなニュースが注目されたのかをパッ振り替えたら面白いかなと思って作ってみました。

例えば、3/6週の再頻出の言葉は「自殺」ですが、これがなんの事件を指しているのか分かりますかね。これは中3男子が内申書の間違いをきっかけに自殺した事件からきている「自殺」です。個人的な注目度はあまり高くなかったんですが、「アノトキノヤフーニュース」を見て世間的には注目されていたことに気が付きました。他にも3/6週は個人的にはおもしろくて、3.11週ということで「震災」はもちろん多かったんですが、思っていたほどじゃなくて、やっぱり時間とともに少しずつ風化してきたのかなあと思ったりもしました。

技術的な構成

せっかくなので書いておきます。データの流れ的にはこんな感じです。

yahoo news -> scrapy cloud -> AWS S3 -> Rails(heroku)

scrapyっていうクローラー簡単につくれーる的なpythonフレームワークがあります。これは単体でもすごいイケてるのですがなんと一緒にホスティングまでやってます。そんなにヘビーな使い方をしなければ無料で使えるし最高っす。あとはお決まりの構成というか、取ってきたデータをS3にJSONであげておいて、それをherokuにホスティングしてあるRailsからバッチでとりにいってます。

heroku側でちょっと工夫したのはMoutable Engineを使ってサブディレクトリ風に使ってること。herokuのサブドメインgithubのIDと同じにしてちょっとしたセルフブランディング(笑)をしてます。こうしておくとセルフブランディング(笑)に加えて、他のお遊びサービス作ってherokuの無料枠じゃ厳しくなってきたときに1アプリ分の課金で複数アプリをまかなえるのでいいかなって思ってそうしました。まあ、そんな風になるのかは知りませんがw

今後

日付ジャンプ機能は最低して実装しようと思ってます。あとは、

f:id:eiei19:20160328122308j:plain

ノープランだ!何かアイディアあれば@eiei19までw。一年とかデータが貯まっときに振り返るのが今から楽しみです。