Data Science skills

Data Pipelines: Airflow
MS Excel
Programming/Tools: Python, PySpark, SQL
Version Control: Github/Bitbucket
Data Wrangling and Feature Engineering
ML
- Regression
- Logistic regression (in Python)
- NLP
- Decision trees
- Classification
- Clustering
- Data preparation techniques
- Boosted algorithms
- Hyperparameter tuning
- Model evaluation metrics
Presentation & Storytelling/Communication: Tableu, PowerBI, Python libraries
Analytics and Modeling: analyze data, run tests, and create explanatory models to gather new insights and predict possible outcomes.
A/B Testing
Statistics
- To help make recommendations and decisions: maximum likelihood estimators, distributors, and statistical tests
- Tied to ML Algorithms: Calculus and linear algebra
- Descriptive statistics (using Python): mean, median, mode, variance, standard deviation.
- Probability distributions, sample and population, CLT, skewness and kurtosis
- Inferential statistics: hypothesis testing, confidence intervals
Data Visualization
1. Break down complex data into smaller, digestible pieces as well as using a variety of visual aids (charts, graphs, etc.)
2. Effectively communicate key messaging and get buy in for proposed solutions
Big Data: Hadoop, Apache Spark / PySpark
Deep Learning: CNN, RNN

mepsrajput/data_science.md