kyu999 · November 15, 2014 08:50 · kyu999 · Nov 15, 2014 · kyu999 · Nov 17, 2014
diff --git a/agenda b/agenda
 開発手順：
 　excnnのみ着手 => 他のサイトも同様のステップを踏む
 　各漫画ページからスクレイピング => 取得したデータを保存 => サイト全体のクローリングステップを考える => その実装
 　
 技術面：
 　python, mysql(cloud sql served by Google), mongoDB(mongoLab), scrapy, scala, play, slick
 　
 基本的にクローラーをpythonで作成し、webサーバーをplayで作成する。

 mongodbはクローリングの際に取得したDOMを全て記録するためのもの。
 　
 　schemaは以下のとおり。domainごとにコレクションを作成する。url, domは最低限必要な情報で、それらに加えてdomain固有の情報も
 　付け加える。
 　 
 　 <カテゴリーページ>
 　 
 　 {
 　   kind : categoric, 
 　   category : xxx,
 　   page : xxx,
 　   url : xxx, 
 　   dom : xxx
 　 }
 　 
 　 基本的にmongodbはdomの保存&バックアップ用であり各コンテント情報を保存するのはsqlの方。
 　 
 　 sqlには以下の情報を各コンテントごとに保存する
 　 
  　id
  　domain
  　this_url
  　カテゴリ
  　タイトル(h1)
  　閲覧数
  　発行日時
  　各URLが何を表しているかの補足情報 == なんのタグにも囲われていない情報は補足情報として認識
  　マンガ保存先URLsが紐付いたTable ID
  　
  
  manga保存先URLごとに作成する画像URL table
    id
    content_id
    画像url
    保存先domain
	開発手順：
	excnnのみ着手 => 他のサイトも同様のステップを踏む
	各漫画ページからスクレイピング => 取得したデータを保存 => サイト全体のクローリングステップを考える => その実装

	技術面：
	python, mysql(cloud sql served by Google), mongoDB(mongoLab), scrapy, scala, play, slick

	基本的にクローラーをpythonで作成し、webサーバーをplayで作成する。

	mongodbはクローリングの際に取得したDOMを全て記録するためのもの。

	schemaは以下のとおり。domainごとにコレクションを作成する。url, domは最低限必要な情報で、それらに加えてdomain固有の情報も
	付け加える。

	<カテゴリーページ>

	{
	kind : categoric,
	category : xxx,
	page : xxx,
	url : xxx,
	dom : xxx
	}

	基本的にmongodbはdomの保存&バックアップ用であり各コンテント情報を保存するのはsqlの方。

	sqlには以下の情報を各コンテントごとに保存する

	id
	domain
	this_url
	カテゴリ
	タイトル(h1)
	閲覧数
	発行日時
	各URLが何を表しているかの補足情報 == なんのタグにも囲われていない情報は補足情報として認識
	マンガ保存先URLsが紐付いたTable ID


	manga保存先URLごとに作成する画像URL table
	id
	content_id
	画像url
	保存先domain
No results found