Skip to content

Instantly share code, notes, and snippets.

View behitek's full-sized avatar
😎

Hieu Nguyen Van behitek

😎
View GitHub Profile

Nhìn chung

  • Các bài viết đầy đủ kiến thức, khá trau chuốt
  • Từ bài số 4 trở đi có nhiều tiến bộ hơn
  • Áp dụng thêm 1 số note dưới đây nhé Thắng

Note về công cụ

Dùng shortcode:

import json
import os
import re
import sys
import time
import traceback
from datetime import datetime
import requests
import time
import pika
connection = pika.BlockingConnection(pika.ConnectionParameters(host='localhost'))
channel = connection.channel()
channel.queue_declare(queue='hello')
x = 1
while True:
{"id": 0, "text": "Charlie Hebdo lại gây bão về tranh biếm họa em bé di cư. Bức tranh biếm họa của Charlie Hebdo trong số mới nhất bị chỉ trích - Ảnh: Dailysabah . Theo Dailysabah, tám tháng sau vụ khủng bố tấn công tòa soạn báo Charlie Hebdo ngay tại thủ đô Paris (Pháp) khiến 12 người thiệt mạng, ấn phẩm mới nhất của tờ tạp chí biếm họa lại gây tranh cãi khi đăng hình vẽ về em bé 3 tuổi Aylan Kurdi người Syria bị chết đuối và trôi dạt vào bờ biển tây nam Thổ Nhĩ Kỳ .", "summary": "Charlie Hebdo;tạp chí biếm họa;em bé Syria;Aylan Kurdi"}
{"id": 0, "text": "Bức biếm họa châm chọc với tiêu đề \"Si près du but…\" gần đích đến...). Trên đó là hình vẽ một đứa trẻ nằm bên bờ biển, phía trước tấm biển quảng cáo của nhà hàng McDonald . Bức tranh biếm họa với dòng chữ \"Bằng chứng châu Âu theo đạo Thiên Chúa\" - Ảnh: Dailysabah .", "summary": "Charlie Hebdo;tạp chí biếm họa;em bé Syria;Aylan Kurdi"}
{"id": 0, "text": "Một bức biếm họa khác cũng gây tranh cãi của tạp chí này là bức có tiêu đề “Bằng chứng châu Âu theo đ
import re
import pandas as pd
import requests
from bs4 import BeautifulSoup
URL = "https://dantri.com.vn/su-kien.htm"
# Hàm lấy tất cả các bài viết tại trang https://dantri.com.vn/su-kien.htm

1. Hướng dẫn gán nhãn

  • Yêu cầu bài toán: Chuyển văn bản ở dạng đọc về dạng văn viếtchuẩn hóa. Cụ thể:
**Gán nhãn dấu ngắt câu**

- Thêm dấu chấm. Ex: lát qua tao chơi <.> tao mới lên hà nội rồi
- Thêm dấu phẩy. Ex: ê mày <,> lát qua đây nhé
- Thêm dấu chấm hỏi. Ex: lát đi chơi không <?>

**Gán nhãn hoa thường**
package utils;
import org.apache.commons.dbcp2.*;
import org.apache.commons.pool2.impl.GenericObjectPool;
import javax.sql.DataSource;
import java.sql.Connection;
import java.sql.SQLException;
public class SQLConnectionPool {
(hieunv11) [zdeploy@ZA_Laban_GPU-78 keyphrase-extraction]$ python mt5_inference.py mt5_100k_checkpoints/checkpoint-100000/ test.jl
{"url": "https://tuoitre.vn/quyet-ra-rieng-hoang-tu-harry-bi-hoang-gia-anh-lay-lai-cac-tuoc-hieu-danh-du-20210219205849995.htm", "title": "Quyết ra riêng, Hoàng tử Harry bị Hoàng gia Anh lấy lại các tước hiệu danh dự", "keywords": "hoàng tử Harry;hoàng gia Anh;chế độ quân chủ;Nữ hoàng Anh Elizabeth II", "published_date": "2021-02-19 21:20:00+07:00", "content": "Vợ chồng Hoàng tử Harry hiện định cư ở Mỹ - Ảnh: REUTERS\nTháng 1-2020, Harry và Meghan đã khiến Hoàng gia Anh và những người ủng hộ chế độ quân chủ vô cùng sốc khi bất ngờ thông báo họ sẽ rời hoàng gia và xây dựng cuộc sống mới ở Bắc Mỹ.\nQuyết định này được chính thức hóa hôm nay, sau khi hai vợ chồng xác nhận với nữ hoàng Anh về việc họ sẽ không quay lại trong tư cách thành viên làm việc của hoàng gia sau một năm sống riêng.\nNữ hoàng Elizabeth II đã xác nhận bằng văn bản rằng sau khi từ bỏ các công việc của Hoàng gia A
@behitek
behitek / docs.md
Last active February 26, 2021 10:24

Yêu cầu gán nhãn

  • Gán nhãn dấu ngắt câu

    • punct:period : gõ phím dấu (.) trên bàn phím để chèn dấu chấm ở vị trí kết thúc 1 câu. Ex: lát qua tao chơi <.> tao mới lên hà nội rồi
    • punct:comma : gõ phím dấu (,) trên bàn phím để chèn dấu phẩy cho câu. Ex: ê mày <,> lát qua đây nhé
    • punct:question : gõ phím dấu (?) trên bàn phím để chèn dấu hỏi chấm sau câu hỏi. Ex: lát đi chơi không <?>
  • Gán nhãn hoa thường

    • case:title : Bôi đen từ (từ đơn/từ ghép) cần viết hoa chữ cái đầu. Lưu ý bôi đen từng từ, ex: sở <Tài nguyên> và <Môi trường> <Hà Nội>.
  • case:upper : Bôi đen từ viết hoa toàn bộ, ex: BIDV, USD.