Skip to content

Instantly share code, notes, and snippets.

View behitek's full-sized avatar
😎

Hieu Nguyen Van behitek

😎
View GitHub Profile
a
á
à
ã
ác
ắc
ách
ạch
@behitek
behitek / Mathematical Problems in Data Science.md
Last active September 18, 2019 16:09
Bản dịch "Mathematical Problems in Data Science" Chương 1

Chương 1. Giới thiệu khoa học dữ liệu và tính toán dữ liệu lớn

Li M. Chen

Tóm lược Khoa học dữ liệu là gì? Dữ liệu có yếu tố khoa học trong đó. Nó khác với toán học cổ điển, nó sử dụng các mô hình toán học tương ứng với dữ liệu. Nhưng ngày này, chúng ta mong muốn tìm kiếm các luật và thuộc ính có trong tập dữ liệu, thậm chí là trong các tập dữ liệu khác nhau. Trong chương này, chúng tôi sẽ trình bày về khoa học dữ liệu và mối quan hệ của nó với dữ liệu lớn, điện toán đám mây và khai phá dữ liệu. Chúng tôi cũng sẽ bàn về các bài toán đang được nghiên cứu trong lĩnh vực khoa học máy tính và cung cấp các khái niệm liên quan cơ bản về ngành công nghiệp khoa học dữ liệu.

1.1 Khai phá dữ liệu và điện toán đám mây: Mở đầu của dữ liệu lớn và khoa học dữ liệu

@behitek
behitek / Danh sách hơn 500 địa điểm du lịch của 63 tỉnh thành trên khắp Việt Nam.txt
Created July 1, 2019 04:08
Danh sách hơn 500 địa điểm du lịch của 63 tỉnh thành trên khắp Việt Nam
Hoàn Kiếm
Đền Ngọc Sơn
Chùa Một Cột
Quảng Trường Ba Đình
phố cổ Hà Nội
Hồ Tây
Chùa Trầm
Hàm Lợn
Khu du lịch sinh thái Ba Vì
Làng cổ Đường Lâm
@behitek
behitek / Danh sách các món ăn ở VN.txt
Created July 1, 2019 03:49
Danh sách hơn 40 món ăn phổ biến ở VN
Phở
Chả cá
Bánh xèo
Cao lâù
Rau muống
Nem rán
Chả giò
Gỏi cuốn
Bún bò Huế
Bánh khọt
@behitek
behitek / Danh sách các loại trái cây (quả) ở Việt Nam.txt
Created July 1, 2019 03:36
Danh sách các loại trái cây (quả) ở Việt Nam
Anh đào 
Bình bát
Bòn bon
Bưởi
Cam
Cam sành
Chanh ta
Chanh leo
Chà là
#include <stdio.h>
#include <stdlib.h>
struct SinhVien{
char ten[30];
char gt[5];
int age;
float dT, dL, dH;
float dtb = 0;
@behitek
behitek / command.md
Last active May 30, 2019 04:36
Useful linux command for data engineer

Remove duplicate line in text file

awk '!seen[$0]++' filename > output.txt

Merge file

cat file1 fil2 > merge.txt

Show file to read

less filename

Show head

head -n 1000 filename

Show tail

tail -n 1000 filename

@behitek
behitek / NlpUtils.java
Last active November 20, 2022 12:30
Chuẩn hóa cách gõ dấu câu về kiểu gõ cũ (Python + Java version)
# -*- coding: utf-8 -*-
import regex as re
uniChars = "àáảãạâầấẩẫậăằắẳẵặèéẻẽẹêềếểễệđìíỉĩịòóỏõọôồốổỗộơờớởỡợùúủũụưừứửữựỳýỷỹỵÀÁẢÃẠÂẦẤẨẪẬĂẰẮẲẴẶÈÉẺẼẸÊỀẾỂỄỆĐÌÍỈĨỊÒÓỎÕỌÔỒỐỔỖỘƠỜỚỞỠỢÙÚỦŨỤƯỪỨỬỮỰỲÝỶỸỴÂĂĐÔƠƯ"
unsignChars = "aaaaaaaaaaaaaaaaaeeeeeeeeeeediiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAAAAAAAAAAAAAAAAEEEEEEEEEEEDIIIOOOOOOOOOOOOOOOOOOOUUUUUUUUUUUYYYYYAADOOU"
def loaddicchar():
dic = {}
@behitek
behitek / num2str.cpp
Last active May 7, 2019 04:23
Chuyển số viết thành số đọc sử dụng C++/Python
// https://daynhauhoc.com/t/share-code-doc-so-thanh-chu-so-lon-bao-nhieu-cung-can-tat/62701/
#include <iostream>
#include <string>
#include <algorithm>
#include <exception>
#include <cassert>
#ifdef __unix__
#include <clocale>
#elif defined _WIN32 || defined _WIN64
#include <fcntl.h> //_O_WTEXT
@behitek
behitek / regex.md
Last active May 3, 2019 03:42 — forked from vitorbritto/regex.md
Regex Cheat Sheet

Regular Expressions

Basic Syntax

  • /.../: Start and end regex delimiters
  • |: Alternation
  • (): Grouping