การวิเคราะห์ข้อมูลดิบ ทำการจัดเรียงลำดับหรือจัดหมวดหมู่ เพื่ออธิบายสิ่งที่เกิดขึ้นในอดีตและทำนายสิ่งที่จะเกิดขึ้นในอนาคต โดยไม่ได้หมายถึงเฉพาะตัวเลข แต่เป็นการสร้างและตั้งคำถาม การพัฒนาและสร้างคำอธิบาย นิยามของข้อสันนิษฐานหรือเหตุการณ์ที่เกิดขึ้น
ทั้งนี้จำเป็นต้องอาศัยองค์ความรู้หลายแขนงด้วยกันเช่น
1. การสร้างเครื่องมือด้วยทักษะด้านโปรแกรมมิ่ง
2. การจัดการฐานข้อมูล
3. การจัดการด้านระบบเครือข่าย
4. การประมวลผลที่มีประสิทธิภาพสูง
1. การอนุมาน
2. การค้นหาสิ่งที่มีความคล้ายคลึงกัน
3. การเรียนรู้แบบไม่มีผู้สอน
1. การเรียนรู้แบบมีผู้สอน
2. การเรียนแบบไม่มีผู้สอน
3. การเรียนรู้แบบเสริมกำลัง
1. การเก็บข้อมูล
2. การวิเคราะห์ข้อมูล
3. การตีความ
1. ความรู้ความเข้าใจเฉพาะทาง
2. การสร้างและตั้งคำถามที่เฉพาะเจาะจง
การเก็บ, วิเคราะห์ข้อมูล เพื่อสร้างรูปแบบและสะสมความรู้ (ภูมิปัญญา)
ที่สามารถนำไปใช้เปรียบเทียบกับเหตุการณ์ต่างๆ ได้ทันที
data คือรูปแบบพหูพจน์ของ datum (single unit of ตัวเลข, สถิติ, สิ่งที่รู้) มีลักษณะโดยทั่วไปคือ
1. ข้อมูลแบบมีโครงสร้าง (structured)
2. ไม่มีโครงสร้าง (unstructured)
-
แบบแบ่งกลุ่ม จะแบ่งออกเป็น 2 ประเภทย่อยๆ ด้วยกันคือ
- Nominal คือข้อมูลที่ไม่มีประเภทหรือลำดับเจาะจง เช่น
ประเภทของบ้าน บ้านสำหรับเช่า,บ้านสำหรับขาย เป็นต้น
- Ordinal คือข้อมูลที่มีประเภทหรือลำดับที่เฉพาะเจาะจง เช่น
อายุ แบ่งเป็นเด็ก,วัยรุ่น,สูงอายุ เป็นต้น
-
แบบตัวเลข จะแบ่งออกเป็น 2 ประเภทย่อยๆ เช่นกันคือ
- Discrete คือข้อมูลที่มีลักษณะแตกต่าง การแบ่งแยกหรือตัวคั่นที่ชัดเจน และสามารถนับได้ เช่น
จำนวนหน้าหนังสือ, จำนวนบรรทัดของโค้ด
- Continuous คือข้อมูลตัวเลขที่มีแกน มีช่วงจำกัดหรือไม่จำกัดก็ได้ เช่น
ราคาทองคำ, ราคาค่าเงินต่างๆ, ราคาน้ำมัน (มีเวลาเป็นแกน)
สามารถแบ่งออกเป็น 5 ขั้นตอนหลักๆ ได้ดังนี้
- The Problem คือการทำความเข้าใจกับปัญหาและวัตถุประสงค์ และการตั้งคำถาม
- Data Preparation คือการจัดเตรียมข้อมูล
- Data Exploration คือการวินิจฉัยข้อมูล
- Predictive Modeling คือการเลือกวิธีในการจัดการกับข้อมูล
- Visualization of Results คือการนำเสนอผลลัพธ์