Created
November 15, 2014 08:50
-
-
Save kyu999/30e946f138e32f1b9017 to your computer and use it in GitHub Desktop.
mangarina agenda
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
開発手順: | |
excnnのみ着手 => 他のサイトも同様のステップを踏む | |
各漫画ページからスクレイピング => 取得したデータを保存 => サイト全体のクローリングステップを考える => その実装 | |
技術面: | |
python, mysql(cloud sql served by Google), mongoDB(mongoLab), scrapy, scala, play, slick | |
基本的にクローラーをpythonで作成し、webサーバーをplayで作成する。 | |
mongodbはクローリングの際に取得したDOMを全て記録するためのもの。 | |
schemaは以下のとおり。domainごとにコレクションを作成する。url, domは最低限必要な情報で、それらに加えてdomain固有の情報も | |
付け加える。 | |
<カテゴリーページ> | |
{ | |
kind : categoric, | |
category : xxx, | |
page : xxx, | |
url : xxx, | |
dom : xxx | |
} | |
基本的にmongodbはdomの保存&バックアップ用であり各コンテント情報を保存するのはsqlの方。 | |
sqlには以下の情報を各コンテントごとに保存する | |
id | |
domain | |
this_url | |
カテゴリ | |
タイトル(h1) | |
閲覧数 | |
発行日時 | |
各URLが何を表しているかの補足情報 == なんのタグにも囲われていない情報は補足情報として認識 | |
マンガ保存先URLsが紐付いたTable ID | |
manga保存先URLごとに作成する画像URL table | |
id | |
content_id | |
画像url | |
保存先domain | |
差別化戦略:
1. いかにマイニングするかに注力する
2. 表示画像は小さめでより多くの情報を提供する
3.
週間ランキングの作成:
-> today ~ today - 7 days の間のみ
-> viewsの高い順
月間ランキングの作成:
-> today ~ today - 30 daysの間のみ
-> viewsの高い順
検索ボックスの作成
今このマンガがお持ち帰りされました機能 ←
マンガ関連情報
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
※本サイトはクローリング、推薦技術の練習のために作られたサイトでありその内容に関して一切の責任をとりません。