Skip to content

Instantly share code, notes, and snippets.

@xemoe
Last active October 7, 2015 10:11
Show Gist options
  • Save xemoe/798aaa3a5ab08f6fb16e to your computer and use it in GitHub Desktop.
Save xemoe/798aaa3a5ab08f6fb16e to your computer and use it in GitHub Desktop.
Getting started with Data analysis

Data analysis basic summary

Getting started with Data analysis

การวิเคราะห์ข้อมูลดิบ ทำการจัดเรียงลำดับหรือจัดหมวดหมู่ เพื่ออธิบายสิ่งที่เกิดขึ้นในอดีตและทำนายสิ่งที่จะเกิดขึ้นในอนาคต โดยไม่ได้หมายถึงเฉพาะตัวเลข แต่เป็นการสร้างและตั้งคำถาม การพัฒนาและสร้างคำอธิบาย นิยามของข้อสันนิษฐานหรือเหตุการณ์ที่เกิดขึ้น

ทั้งนี้จำเป็นต้องอาศัยองค์ความรู้หลายแขนงด้วยกันเช่น

computer science
1. การสร้างเครื่องมือด้วยทักษะด้านโปรแกรมมิ่ง
2. การจัดการฐานข้อมูล
3. การจัดการด้านระบบเครือข่าย
4. การประมวลผลที่มีประสิทธิภาพสูง
Artificial intelligence
1. การอนุมาน
2. การค้นหาสิ่งที่มีความคล้ายคลึงกัน
3. การเรียนรู้แบบไม่มีผู้สอน
Machine learning
1. การเรียนรู้แบบมีผู้สอน
2. การเรียนแบบไม่มีผู้สอน
3. การเรียนรู้แบบเสริมกำลัง
Statistics
1. การเก็บข้อมูล
2. การวิเคราะห์ข้อมูล
3. การตีความ
Knowledge domain
1. ความรู้ความเข้าใจเฉพาะทาง
2. การสร้างและตั้งคำถามที่เฉพาะเจาะจง
Data, Information and knowledge
การเก็บ, วิเคราะห์ข้อมูล เพื่อสร้างรูปแบบและสะสมความรู้ (ภูมิปัญญา) 
ที่สามารถนำไปใช้เปรียบเทียบกับเหตุการณ์ต่างๆ ได้ทันที

ธรรมชาติของข้อมูล

data คือรูปแบบพหูพจน์ของ datum (single unit of ตัวเลข, สถิติ, สิ่งที่รู้) มีลักษณะโดยทั่วไปคือ

1. ข้อมูลแบบมีโครงสร้าง (structured)
2. ไม่มีโครงสร้าง (unstructured)
ข้อมูล เราสามารถมองได้ออกเป็น 2 ประเภทหลักๆ ด้วยกันคือ
  1. แบบแบ่งกลุ่ม จะแบ่งออกเป็น 2 ประเภทย่อยๆ ด้วยกันคือ

    • Nominal คือข้อมูลที่ไม่มีประเภทหรือลำดับเจาะจง เช่น
    ประเภทของบ้าน​ บ้านสำหรับเช่า,บ้านสำหรับขาย เป็นต้น
    
    • Ordinal คือข้อมูลที่มีประเภทหรือลำดับที่เฉพาะเจาะจง เช่น
    อายุ แบ่งเป็นเด็ก,วัยรุ่น,สูงอายุ เป็นต้น
    
  2. แบบตัวเลข จะแบ่งออกเป็น 2 ประเภทย่อยๆ เช่นกันคือ

    • Discrete คือข้อมูลที่มีลักษณะแตกต่าง การแบ่งแยกหรือตัวคั่นที่ชัดเจน และสามารถนับได้ เช่น
    จำนวนหน้าหนังสือ, จำนวนบรรทัดของโค้ด
    
    • Continuous คือข้อมูลตัวเลขที่มีแกน มีช่วงจำกัดหรือไม่จำกัดก็ได้ เช่น
    ราคาทองคำ, ราคาค่าเงินต่างๆ, ราคาน้ำมัน (มีเวลาเป็นแกน) 
    

กระบวนการวิเคราะห์ข้อมูล

สามารถแบ่งออกเป็น 5 ขั้นตอนหลักๆ ได้ดังนี้

  1. The Problem คือการทำความเข้าใจกับปัญหาและวัตถุประสงค์ และการตั้งคำถาม
  2. Data Preparation คือการจัดเตรียมข้อมูล
  3. Data Exploration คือการวินิจฉัยข้อมูล
  4. Predictive Modeling คือการเลือกวิธีในการจัดการกับข้อมูล
  5. Visualization of Results คือการนำเสนอผลลัพธ์
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment