kimihito · January 4, 2016 19:29 · tompng · Jan 28, 2014 · tompng · Jan 28, 2014
diff --git a/scrayping.rb b/scrayping.rb
 #!/usr/bin/env ruby
 #-*- coding: utf-8 -*-
 require 'mechanize'


 #お笑いナタリーの芸人プロフィールのページから、芸人の情報を抜き出すスクリプト
 #期待するdataの中身
 =begin

 data = 

 {
  0: {
    group_name: "コンビ名",
    member: {

      0: {
        #全部揃っているとは限らない
        name: "名前",
        birth: "生年月日",
        origin: "出身地",
        belong: "所属事務所"

      },
      1: {
        name: "名前",
        birth: "生年月日",
        belong: "所属事務所"

      }, ...
    }
  },

  1:{
    group_name: "コンビ名",
    member: {
      ....
    }
  },
    ....
 }
 =end


 agent = Mechanize.new

 page = agent.get('http://natalie.mu/owarai/artist/list/order_by/sort_name')
 profile_links = page.links_with(text: 'プロフィール')



 data = {}


 profile_links.each_with_index do |link,index|
  #各芸人のプロフィールを抜き出す
  profile_page = link.click
  profile = {}
  group_name = profile_page.search("div[@id='item-name'] > h2").inner_text
  profile[:group_name] = group_name

  #プロフィール
  members = profile_page.search("div[@id='item-profile'] > p").children().text().gsub("\n", "").split("\r")

  member_profile = {}

  name_list =  members.group_by{ |member|member.include?("●") }[true] #=> ["名前1","名前2"...]
  origin_list =  members.group_by{ |member|member.include?("出身地") }[true] #=> ["出身地1","出身地2"...]
  birth_list =  members.group_by{ |member|member.include?("生年月日") }[true] #=> ["生年月日1","生年月日2"...]
  belong_list =  members.group_by{ |member|member.include?("所属") }[true] #=> ["所属事務所","所属事務所"...]
  
  #member_profileの中身を
 =begin
  member_profile = {
    0: {
        #全部揃っているとは限らない
        name: "名前",
        birth: "生年月日",
        origin: "出身地",
        belong: "所属事務所"

      },
      1: {
        name: "名前",
        birth: "生年月日",
        belong: "所属事務所"

      }, ...
  }
  にしたいけど、ここがわからない。
 =end



  #関連リンク集

  links = {}

  links_info = profile_page.search("div[@id='item-link'] > ul > li")
  links_info.each_with_index do |link,index|
    link_data = {}
    title = link.text
    url = link.search('a').attribute('href').value()
    link_data[:title] = title
    link_data[:url] = url
    links[index.to_s.to_sym] = link_data
  end

  profile[:links] = links
  data[index.to_s.to_sym] = profile
 end
	#!/usr/bin/env ruby
	#-- coding: utf-8 --
	require 'mechanize'


	#お笑いナタリーの芸人プロフィールのページから、芸人の情報を抜き出すスクリプト
	#期待するdataの中身
	=begin

	data =

	{
	0: {
	group_name: "コンビ名",
	member: {

	0: {
	#全部揃っているとは限らない
	name: "名前",
	birth: "生年月日",
	origin: "出身地",
	belong: "所属事務所"

	},
	1: {
	name: "名前",
	birth: "生年月日",
	belong: "所属事務所"

	}, ...
	}
	},

	1:{
	group_name: "コンビ名",
	member: {
	....
	}
	},
	....
	}
	=end


	agent = Mechanize.new

	page = agent.get('http://natalie.mu/owarai/artist/list/order_by/sort_name')
	profile_links = page.links_with(text: 'プロフィール')



	data = {}


	profile_links.each_with_index do \|link,index\|
	#各芸人のプロフィールを抜き出す
	profile_page = link.click
	profile = {}
	group_name = profile_page.search("div[@id='item-name'] > h2").inner_text
	profile[:group_name] = group_name

	#プロフィール
	members = profile_page.search("div[@id='item-profile'] > p").children().text().gsub("\n", "").split("\r")

	member_profile = {}

	name_list = members.group_by{ \|member\|member.include?("●") }[true] #=> ["名前1","名前2"...]
	origin_list = members.group_by{ \|member\|member.include?("出身地") }[true] #=> ["出身地1","出身地2"...]
	birth_list = members.group_by{ \|member\|member.include?("生年月日") }[true] #=> ["生年月日1","生年月日2"...]
	belong_list = members.group_by{ \|member\|member.include?("所属") }[true] #=> ["所属事務所","所属事務所"...]

	#member_profileの中身を
	=begin
	member_profile = {
	0: {
	#全部揃っているとは限らない
	name: "名前",
	birth: "生年月日",
	origin: "出身地",
	belong: "所属事務所"

	},
	1: {
	name: "名前",
	birth: "生年月日",
	belong: "所属事務所"

	}, ...
	}
	にしたいけど、ここがわからない。
	=end



	#関連リンク集

	links = {}

	links_info = profile_page.search("div[@id='item-link'] > ul > li")
	links_info.each_with_index do \|link,index\|
	link_data = {}
	title = link.text
	url = link.search('a').attribute('href').value()
	link_data[:title] = title
	link_data[:url] = url
	links[index.to_s.to_sym] = link_data
	end

	profile[:links] = links
	data[index.to_s.to_sym] = profile
	end