Skip to content

Instantly share code, notes, and snippets.

PDF Processing with Multi-GPU Support / 多GPU支持的PDF处理

中文说明

概述

本项目提供了一个使用多GPU并行处理PDF文件的Python脚本。它基于 MinerU 库,能够将PDF文件转换为Markdown格式,并支持在多GPU环境下高效处理大量文件。

主要功能

  1. 多GPU支持:利用多个GPU并行处理PDF文件,显著提高处理速度。
  2. 日志记录:支持控制台和文件日志记录,便于调试和监控。
@relic-yuexi
relic-yuexi / HTMLGenerator.py
Last active July 11, 2024 05:42
Generate Random HTML Code With Python
import random
from faker import Faker
class HTMLGenerator:
"""
A class to generate random HTML content using Faker library.
"""
def __init__(self, language='en_US'):
"""
@relic-yuexi
relic-yuexi / README_hfd.md
Last active February 23, 2025 03:49 — forked from padeoe/README_hfd.md
CLI-Tool for download Huggingface models and datasets with aria2/wget+git

🤗Huggingface 模型下载器

考虑到官方的 huggingface-cli 缺乏多线程下载支持,以及 hf_transfer 错误处理不足的问题,这个命令行工具巧妙地利用 wgetaria2 下载 LFS 文件,并使用 git clone 下载其他文件。

特性

  • ⏯️ 断点续传: 你可以随时重新运行或使用 Ctrl+C 中断下载。
  • 🚀 多线程下载: 利用多线程加速下载过程。
  • 🚫 文件排除: 使用 --exclude--include 跳过或指定要下载的文件,节省时间以避免下载模型的重复格式文件(例如 .bin 和 .safetensors)。
  • 🔐 认证支持: 对于需要 Huggingface 登录的私有模型,使用 --hf_username--hf_token 进行身份验证。
  • 🪞 镜像站点支持: 通过设置 HF_ENDPOINT 环境变量使用镜像站点。