Pythonでカクヨムから小説のデータを拾ってきてMongoDBに入れるやつ作った
Pythonでカクヨムから小説のデータを拾ってきてMongoDBに入れるやつ作った。
といっても、BeautifulSoupでhtmlをパースしただけなので、まあ、それだけの内容。一応タグ検索もできるようにしておいた。あと、念の為分かち書きもしておいた。どう使うかはまだ未定。
青空文庫と違ってエピソード毎に別ページになっているので、データ取るのにurlを追っていく必要があったのが若干面倒だった。また、MongoDBは初めて使ったので、まだあまりどういうクエリ投げたら良いのかよくわかっていない。とりあえず、IntelliJのMongo pluginが便利っぽいということがわかった。GUI便利。
(Mongo pluginの見た目はこんなかんじ。葉っぱが可愛い。)
- 作者: Kyle Banker,Sky株式会社玉川竜司
- 出版社/メーカー: オライリージャパン
- 発売日: 2012/12/14
- メディア: 大型本
- 購入: 5人 クリック: 55回
- この商品を含むブログ (8件) を見る
JS+Node.jsによるWebクローラー/ネットエージェント開発テクニック
- 作者: クジラ飛行机
- 出版社/メーカー: ソシム
- 発売日: 2015/08/31
- メディア: 単行本
- この商品を含むブログ (2件) を見る