Material Book of Statistics

統計、機械学習、プログラミングなどで実験的な試みを書いていきます。

python

Scrapyで欅坂46とけやき坂46の各メンバーの画像収集する

はじめに 欅坂46の画像で誰が写っているのかを認識させるアプリをディープラーニングで作ろうと思いますので、今回は各メンバーの画像を収集します。 MicrosoftのBing Image SearchやGoogleの画像検索APIを使うことも考えましたが、Yahoo、Bing、Googleでの…

arXivのアップデート情報から自分の興味から最も遠い論文をあえてレコメンドしてみる

2018/06/23に@shunarooさんが主催している勉強会で話した内容を加筆・修正したものです。 興味から遠い論文を”あえて”レコメンドするSlack Botを作成してみる はじめに 皆さんはをどのように情報収集していますでしょうか? 私はfeedlyを試してみたものの、…

scikit-learn.feature_extraction.textのTfidfVectorizerを検証する

arXivのRSSで取得できる最新情報から自分に合うものをレコメンドしてくれるSlack Botを作っています。 まずはTF-IDFを使ってレコメンドを作る予定なので、scikit-learnのTfidfVectorizerを初めて触ってみました。 以下では、 http://scikit-learn.org/stable…