Skip to content

Instantly share code, notes, and snippets.

@kyu999
Created November 15, 2014 08:50
Show Gist options
  • Save kyu999/30e946f138e32f1b9017 to your computer and use it in GitHub Desktop.
Save kyu999/30e946f138e32f1b9017 to your computer and use it in GitHub Desktop.
mangarina agenda
開発手順:
 excnnのみ着手 => 他のサイトも同様のステップを踏む
 各漫画ページからスクレイピング => 取得したデータを保存 => サイト全体のクローリングステップを考える => その実装
 
技術面:
 python, mysql(cloud sql served by Google), mongoDB(mongoLab), scrapy, scala, play, slick
 
基本的にクローラーをpythonで作成し、webサーバーをplayで作成する。
mongodbはクローリングの際に取得したDOMを全て記録するためのもの。
 
 schemaは以下のとおり。domainごとにコレクションを作成する。url, domは最低限必要な情報で、それらに加えてdomain固有の情報も
 付け加える。
 
  <カテゴリーページ>
 
  {
  kind : categoric,
  category : xxx,
  page : xxx,
  url : xxx,
  dom : xxx
  }
 
  基本的にmongodbはdomの保存&バックアップ用であり各コンテント情報を保存するのはsqlの方。
 
  sqlには以下の情報を各コンテントごとに保存する
 
 id
 domain
 this_url
 カテゴリ
 タイトル(h1)
 閲覧数
 発行日時
 各URLが何を表しているかの補足情報 == なんのタグにも囲われていない情報は補足情報として認識
 マンガ保存先URLsが紐付いたTable ID
 
manga保存先URLごとに作成する画像URL table
id
content_id
画像url
保存先domain
 
 
 
@kyu999
Copy link
Author

kyu999 commented Nov 15, 2014

※本サイトはクローリング、推薦技術の練習のために作られたサイトでありその内容に関して一切の責任をとりません。

@kyu999
Copy link
Author

kyu999 commented Nov 17, 2014

差別化戦略:
 1. いかにマイニングするかに注力する
2. 表示画像は小さめでより多くの情報を提供する
3.

@kyu999
Copy link
Author

kyu999 commented Nov 18, 2014

週間ランキングの作成:
-> today ~ today - 7 days の間のみ
-> viewsの高い順

月間ランキングの作成:
-> today ~ today - 30 daysの間のみ
-> viewsの高い順

@kyu999
Copy link
Author

kyu999 commented Nov 18, 2014

検索ボックスの作成

@kyu999
Copy link
Author

kyu999 commented Nov 18, 2014

今このマンガがお持ち帰りされました機能 ←

@kyu999
Copy link
Author

kyu999 commented Nov 18, 2014

マンガ関連情報

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment