Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save LizenzFass78851/95f9300ea35343194339f22f1d4d2e95 to your computer and use it in GitHub Desktop.
Save LizenzFass78851/95f9300ea35343194339f22f1d4d2e95 to your computer and use it in GitHub Desktop.
script to download all documents stored in mayan-edms via the api
import requests
import os
import re
from urllib.parse import urljoin
# ===========================
# KONFIGURATION
# ===========================
BASE_URL = 'http://YOURIP/api/v4' # Anpassen an Ihre Mayan-Instanz
AUTH = ('YOURUSERNAME', 'YOURPASSWORD') # Basic-Auth-Daten
BASE_DOWNLOAD_DIR = 'heruntergeladene_dokumente'
START_DOC_TYPE_LABEL = '' # Ab diesem Typ fortsetzen
os.makedirs(BASE_DOWNLOAD_DIR, exist_ok=True)
# ===========================
# HILFSFUNKTIONEN
# ===========================
def sanitize_filename(filename: str) -> str:
"""
Ersetzt problematische Zeichen (/\:*?"<>|) in Dateinamen durch Unterstrich '_'.
So vermeiden wir FileNotFoundError, wenn im Label z.B. / oder \ vorkommt.
"""
return re.sub(r'[\\/:*?"<>|]+', '_', filename)
def get_all_results(start_url: str, auth=None):
"""
Ruft die angegebene URL auf, sammelt alle Datensätze über Pagination
und gibt eine Liste aller 'results' zurück.
"""
results = []
next_url = start_url
while next_url:
response = requests.get(next_url, auth=auth)
response.raise_for_status() # wirft Fehler bei 4xx/5xx
data = response.json()
# Ergebnisse anhängen
results.extend(data.get('results', []))
# Nächste Seite
next_url = data.get('next')
return results
# ===========================
# HAUPTLOGIK
# ===========================
def main():
# 1) Alle Dokumententypen laden (paginiert)
doc_type_url = f"{BASE_URL}/document_types/"
document_types = get_all_results(doc_type_url, auth=AUTH)
# Flag, um erst ab START_DOC_TYPE_LABEL zu beginnen
start_downloading = False
for doc_type in document_types:
doc_type_id = doc_type['id']
doc_type_label = doc_type['label']
# Noch nicht beim Start-Typ angekommen? Überspringen.
if not start_downloading:
if doc_type_label == START_DOC_TYPE_LABEL:
start_downloading = True
else:
print(f"Überspringe Dokumententyp: {doc_type_label}")
continue
# Ab hier: wir sind beim Starttyp oder schon darüber hinaus
safe_doc_type_label = sanitize_filename(doc_type_label)
doc_type_dir = os.path.join(BASE_DOWNLOAD_DIR, safe_doc_type_label)
os.makedirs(doc_type_dir, exist_ok=True)
print(f"\n== Dokumententyp: {doc_type_label} ==")
# 2) Dokumente zum aktuellen Typ laden
doc_url = f"{BASE_URL}/document_types/{doc_type_id}/documents/"
documents = get_all_results(doc_url, auth=AUTH)
# 3) Dokumente durchgehen
for document in documents:
document_id = document['id']
document_label = document['label']
# Dateinamen säubern
safe_document_label = sanitize_filename(document_label)
print(f" Dokument: {document_label} (ID: {document_id})")
# 3a) Dateien des Dokuments (paginiert) abrufen
file_url = f"{BASE_URL}/documents/{document_id}/files/"
files_data = get_all_results(file_url, auth=AUTH)
# 3b) Download jeder Datei
for file_entry in files_data:
file_id = file_entry['id']
# Echte Endung ableiten?
# Hier beispielhaft .pdf statisch:
extension = ".pdf"
# Oder aus Dateiname, falls vorhanden:
# original_filename = file_entry.get('filename', '')
# _, extension = os.path.splitext(original_filename)
# if not extension:
# extension = ".bin"
file_name = f"{safe_document_label}_file{file_id}{extension}"
file_path = os.path.join(doc_type_dir, file_name)
# Download-Endpunkt
download_endpoint = f"documents/{document_id}/files/{file_id}/download/"
full_download_url = urljoin(BASE_URL + '/', download_endpoint)
# Herunterladen
with requests.get(full_download_url, auth=AUTH, stream=True) as resp:
resp.raise_for_status()
with open(file_path, 'wb') as f:
for chunk in resp.iter_content(chunk_size=8192):
f.write(chunk)
print(f" -> Heruntergeladen: {file_name}")
print("\nDownload abgeschlossen.")
if __name__ == "__main__":
main()
import requests
import os
from urllib.parse import urljoin
# Basis-URL Ihrer Mayan EDMS-Instanz
base_url = 'http://YOURIP/api/v4' # Anpassen an Ihre Instanz
# Basic Auth (Benutzername, Passwort)
auth = ('YOURUSERNAME', 'YOURPASSWORD') # Hier Ihre korrekten Zugangsdaten eintragen
# Basisverzeichnis für die Downloads
base_download_dir = 'heruntergeladene_dokumente'
os.makedirs(base_download_dir, exist_ok=True)
def get_all_results(start_url, auth=None):
"""
Ruft die angegebene URL auf und holt alle Datensätze über Pagination.
Gibt eine Liste aller result-Elemente zurück.
:param start_url: Vollständige URL des Endpoints, z.B. "/document_types/"
:param auth: Basic-Auth-Daten (username, password)
:return: Liste mit allen Ergebnissen über alle Seiten hinweg
"""
results = []
next_url = start_url
while next_url:
response = requests.get(next_url, auth=auth)
response.raise_for_status() # Fehler werfen bei 4xx/5xx
data = response.json()
# 'results' an das Gesamtergebnis anhängen
results.extend(data.get('results', []))
# Nächste Seite
next_url = data.get('next')
return results
# 1) Alle Dokumententypen (paginiert) abrufen
doc_type_url = f"{base_url}/document_types/"
document_types = get_all_results(doc_type_url, auth=auth)
for doc_type in document_types:
doc_type_id = doc_type['id']
doc_type_label = doc_type['label']
print(f"Dokumententyp: {doc_type_label}")
# Ordner für den Dokumententyp
doc_type_dir = os.path.join(base_download_dir, doc_type_label)
os.makedirs(doc_type_dir, exist_ok=True)
# 2) Alle Dokumente für diesen Typ (paginiert) abrufen
# -> über das document_types/{id}/documents-Endpoint
doc_url = f"{base_url}/document_types/{doc_type_id}/documents/"
documents = get_all_results(doc_url, auth=auth)
# 3) Für jedes Dokument die zugehörigen Files herunterladen
for document in documents:
document_id = document['id']
document_label = document['label']
print(f" Dokument: {document_label} (ID: {document_id})")
# 3a) Alle Files dieses Dokuments (paginiert) laden
file_url = f"{base_url}/documents/{document_id}/files/"
files_data = get_all_results(file_url, auth=auth)
# 3b) Jedes File über den Download-Endpunkt holen
for file_entry in files_data:
file_id = file_entry['id']
# Ermitteln der richtigen Endung:
# Hier als Beispiel .pdf.
# Sie können auch file_entry['filename'] verwenden,
# um die echte Endung dynamisch abzuleiten.
extension = ".pdf"
# Eindeutiger Dateiname -> Dokumentlabel + ID
file_name = f"{document_label}_file{file_id}{extension}"
# Optional Sonderzeichen aus document_label entfernen, wenn nötig
file_path = os.path.join(doc_type_dir, file_name)
# Download-Endpunkt
download_endpoint = f"documents/{document_id}/files/{file_id}/download/"
full_download_url = urljoin(base_url + '/', download_endpoint)
# Herunterladen
with requests.get(full_download_url, auth=auth, stream=True) as resp:
resp.raise_for_status()
with open(file_path, 'wb') as f:
for chunk in resp.iter_content(chunk_size=8192):
f.write(chunk)
print(f" -> Heruntergeladen und gespeichert als: {file_name}")
print("Download abgeschlossen.")

script to download all documents stored in mayan-edms via the api

  • The Python scripts download all PDF documents from a Mayan-EDMS API in order to get the PDF documents out of Mayan.

  • the download.py downloads all pdf documents from the api

  • the download-rest.py downloads only the documents that have been tagged with the specific document type

Note

language of the scripts are in German (cannot be changed so quickly)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment