LizenzFass78851 · March 18, 2025 07:03
diff --git a/mayan-pdf-dw-script_DOWNLOAD-REST.py b/mayan-pdf-dw-script_DOWNLOAD-REST.py
 import requests
 import os
 import re
 from urllib.parse import urljoin

 # ===========================
 # KONFIGURATION
 # ===========================
 BASE_URL = 'http://YOURIP/api/v4'  # Anpassen an Ihre Mayan-Instanz
 AUTH = ('YOURUSERNAME', 'YOURPASSWORD')                 # Basic-Auth-Daten
 BASE_DOWNLOAD_DIR = 'heruntergeladene_dokumente'
 START_DOC_TYPE_LABEL = ''  # Ab diesem Typ fortsetzen

 os.makedirs(BASE_DOWNLOAD_DIR, exist_ok=True)

 # ===========================
 # HILFSFUNKTIONEN
 # ===========================
 def sanitize_filename(filename: str) -> str:
    """
    Ersetzt problematische Zeichen (/\:*?"<>|) in Dateinamen durch Unterstrich '_'.
    So vermeiden wir FileNotFoundError, wenn im Label z.B. / oder \ vorkommt.
    """
    return re.sub(r'[\\/:*?"<>|]+', '_', filename)

 def get_all_results(start_url: str, auth=None):
    """
    Ruft die angegebene URL auf, sammelt alle Datensätze über Pagination
    und gibt eine Liste aller 'results' zurück.
    """
    results = []
    next_url = start_url
    
    while next_url:
        response = requests.get(next_url, auth=auth)
        response.raise_for_status()  # wirft Fehler bei 4xx/5xx
        data = response.json()
        
        # Ergebnisse anhängen
        results.extend(data.get('results', []))
        
        # Nächste Seite
        next_url = data.get('next')
    
    return results

 # ===========================
 # HAUPTLOGIK
 # ===========================
 def main():
    # 1) Alle Dokumententypen laden (paginiert)
    doc_type_url = f"{BASE_URL}/document_types/"
    document_types = get_all_results(doc_type_url, auth=AUTH)

    # Flag, um erst ab START_DOC_TYPE_LABEL zu beginnen
    start_downloading = False

    for doc_type in document_types:
        doc_type_id = doc_type['id']
        doc_type_label = doc_type['label']

        # Noch nicht beim Start-Typ angekommen? Überspringen.
        if not start_downloading:
            if doc_type_label == START_DOC_TYPE_LABEL:
                start_downloading = True
            else:
                print(f"Überspringe Dokumententyp: {doc_type_label}")
                continue
        
        # Ab hier: wir sind beim Starttyp oder schon darüber hinaus
        safe_doc_type_label = sanitize_filename(doc_type_label)
        doc_type_dir = os.path.join(BASE_DOWNLOAD_DIR, safe_doc_type_label)
        os.makedirs(doc_type_dir, exist_ok=True)

        print(f"\n== Dokumententyp: {doc_type_label} ==")

        # 2) Dokumente zum aktuellen Typ laden
        doc_url = f"{BASE_URL}/document_types/{doc_type_id}/documents/"
        documents = get_all_results(doc_url, auth=AUTH)

        # 3) Dokumente durchgehen
        for document in documents:
            document_id = document['id']
            document_label = document['label']

            # Dateinamen säubern
            safe_document_label = sanitize_filename(document_label)

            print(f"  Dokument: {document_label} (ID: {document_id})")

            # 3a) Dateien des Dokuments (paginiert) abrufen
            file_url = f"{BASE_URL}/documents/{document_id}/files/"
            files_data = get_all_results(file_url, auth=AUTH)

            # 3b) Download jeder Datei
            for file_entry in files_data:
                file_id = file_entry['id']

                # Echte Endung ableiten?
                # Hier beispielhaft .pdf statisch:
                extension = ".pdf"
                # Oder aus Dateiname, falls vorhanden:
                # original_filename = file_entry.get('filename', '')
                # _, extension = os.path.splitext(original_filename)
                # if not extension:
                #     extension = ".bin"

                file_name = f"{safe_document_label}_file{file_id}{extension}"
                file_path = os.path.join(doc_type_dir, file_name)

                # Download-Endpunkt
                download_endpoint = f"documents/{document_id}/files/{file_id}/download/"
                full_download_url = urljoin(BASE_URL + '/', download_endpoint)

                # Herunterladen
                with requests.get(full_download_url, auth=AUTH, stream=True) as resp:
                    resp.raise_for_status()
                    with open(file_path, 'wb') as f:
                        for chunk in resp.iter_content(chunk_size=8192):
                            f.write(chunk)

                print(f"    -> Heruntergeladen: {file_name}")

    print("\nDownload abgeschlossen.")

 if __name__ == "__main__":
    main()
diff --git a/mayan-pdf-dw-script_DOWNLOAD.py b/mayan-pdf-dw-script_DOWNLOAD.py
 import requests
 import os
 from urllib.parse import urljoin

 # Basis-URL Ihrer Mayan EDMS-Instanz
 base_url = 'http://YOURIP/api/v4'  # Anpassen an Ihre Instanz

 # Basic Auth (Benutzername, Passwort)
 auth = ('YOURUSERNAME', 'YOURPASSWORD')  # Hier Ihre korrekten Zugangsdaten eintragen

 # Basisverzeichnis für die Downloads
 base_download_dir = 'heruntergeladene_dokumente'
 os.makedirs(base_download_dir, exist_ok=True)

 def get_all_results(start_url, auth=None):
    """
    Ruft die angegebene URL auf und holt alle Datensätze über Pagination.
    Gibt eine Liste aller result-Elemente zurück.
    
    :param start_url: Vollständige URL des Endpoints, z.B. "/document_types/"
    :param auth: Basic-Auth-Daten (username, password)
    :return: Liste mit allen Ergebnissen über alle Seiten hinweg
    """
    results = []
    next_url = start_url
    
    while next_url:
        response = requests.get(next_url, auth=auth)
        response.raise_for_status()  # Fehler werfen bei 4xx/5xx
        data = response.json()
        
        # 'results' an das Gesamtergebnis anhängen
        results.extend(data.get('results', []))
        
        # Nächste Seite
        next_url = data.get('next')
    
    return results

 # 1) Alle Dokumententypen (paginiert) abrufen
 doc_type_url = f"{base_url}/document_types/"
 document_types = get_all_results(doc_type_url, auth=auth)

 for doc_type in document_types:
    doc_type_id = doc_type['id']
    doc_type_label = doc_type['label']
    print(f"Dokumententyp: {doc_type_label}")

    # Ordner für den Dokumententyp
    doc_type_dir = os.path.join(base_download_dir, doc_type_label)
    os.makedirs(doc_type_dir, exist_ok=True)

    # 2) Alle Dokumente für diesen Typ (paginiert) abrufen
    #    -> über das document_types/{id}/documents-Endpoint
    doc_url = f"{base_url}/document_types/{doc_type_id}/documents/"
    documents = get_all_results(doc_url, auth=auth)

    # 3) Für jedes Dokument die zugehörigen Files herunterladen
    for document in documents:
        document_id = document['id']
        document_label = document['label']
        print(f"  Dokument: {document_label} (ID: {document_id})")

        # 3a) Alle Files dieses Dokuments (paginiert) laden
        file_url = f"{base_url}/documents/{document_id}/files/"
        files_data = get_all_results(file_url, auth=auth)

        # 3b) Jedes File über den Download-Endpunkt holen
        for file_entry in files_data:
            file_id = file_entry['id']
            
            # Ermitteln der richtigen Endung:
            # Hier als Beispiel .pdf. 
            # Sie können auch file_entry['filename'] verwenden, 
            # um die echte Endung dynamisch abzuleiten.
            extension = ".pdf"
            
            # Eindeutiger Dateiname -> Dokumentlabel + ID
            file_name = f"{document_label}_file{file_id}{extension}"
            # Optional Sonderzeichen aus document_label entfernen, wenn nötig

            file_path = os.path.join(doc_type_dir, file_name)

            # Download-Endpunkt
            download_endpoint = f"documents/{document_id}/files/{file_id}/download/"
            full_download_url = urljoin(base_url + '/', download_endpoint)

            # Herunterladen
            with requests.get(full_download_url, auth=auth, stream=True) as resp:
                resp.raise_for_status()
                with open(file_path, 'wb') as f:
                    for chunk in resp.iter_content(chunk_size=8192):
                        f.write(chunk)

            print(f"    -> Heruntergeladen und gespeichert als: {file_name}")

 print("Download abgeschlossen.")
diff --git a/mayan-pdf-dw-script_README.md b/mayan-pdf-dw-script_README.md
	import requests
	import os
	import re
	from urllib.parse import urljoin

	# ===========================
	# KONFIGURATION
	# ===========================
	BASE_URL = 'http://YOURIP/api/v4' # Anpassen an Ihre Mayan-Instanz
	AUTH = ('YOURUSERNAME', 'YOURPASSWORD') # Basic-Auth-Daten
	BASE_DOWNLOAD_DIR = 'heruntergeladene_dokumente'
	START_DOC_TYPE_LABEL = '' # Ab diesem Typ fortsetzen

	os.makedirs(BASE_DOWNLOAD_DIR, exist_ok=True)

	# ===========================
	# HILFSFUNKTIONEN
	# ===========================
	def sanitize_filename(filename: str) -> str:
	"""
	Ersetzt problematische Zeichen (/\:*?"<>\|) in Dateinamen durch Unterstrich '_'.
	So vermeiden wir FileNotFoundError, wenn im Label z.B. / oder \ vorkommt.
	"""
	return re.sub(r'[\\/:*?"<>\|]+', '_', filename)

	def get_all_results(start_url: str, auth=None):
	"""
	Ruft die angegebene URL auf, sammelt alle Datensätze über Pagination
	und gibt eine Liste aller 'results' zurück.
	"""
	results = []
	next_url = start_url

	while next_url:
	response = requests.get(next_url, auth=auth)
	response.raise_for_status() # wirft Fehler bei 4xx/5xx
	data = response.json()

	# Ergebnisse anhängen
	results.extend(data.get('results', []))

	# Nächste Seite
	next_url = data.get('next')

	return results

	# ===========================
	# HAUPTLOGIK
	# ===========================
	def main():
	# 1) Alle Dokumententypen laden (paginiert)
	doc_type_url = f"{BASE_URL}/document_types/"
	document_types = get_all_results(doc_type_url, auth=AUTH)

	# Flag, um erst ab START_DOC_TYPE_LABEL zu beginnen
	start_downloading = False

	for doc_type in document_types:
	doc_type_id = doc_type['id']
	doc_type_label = doc_type['label']

	# Noch nicht beim Start-Typ angekommen? Überspringen.
	if not start_downloading:
	if doc_type_label == START_DOC_TYPE_LABEL:
	start_downloading = True
	else:
	print(f"Überspringe Dokumententyp: {doc_type_label}")
	continue

	# Ab hier: wir sind beim Starttyp oder schon darüber hinaus
	safe_doc_type_label = sanitize_filename(doc_type_label)
	doc_type_dir = os.path.join(BASE_DOWNLOAD_DIR, safe_doc_type_label)
	os.makedirs(doc_type_dir, exist_ok=True)

	print(f"\n== Dokumententyp: {doc_type_label} ==")

	# 2) Dokumente zum aktuellen Typ laden
	doc_url = f"{BASE_URL}/document_types/{doc_type_id}/documents/"
	documents = get_all_results(doc_url, auth=AUTH)

	# 3) Dokumente durchgehen
	for document in documents:
	document_id = document['id']
	document_label = document['label']

	# Dateinamen säubern
	safe_document_label = sanitize_filename(document_label)

	print(f" Dokument: {document_label} (ID: {document_id})")

	# 3a) Dateien des Dokuments (paginiert) abrufen
	file_url = f"{BASE_URL}/documents/{document_id}/files/"
	files_data = get_all_results(file_url, auth=AUTH)

	# 3b) Download jeder Datei
	for file_entry in files_data:
	file_id = file_entry['id']

	# Echte Endung ableiten?
	# Hier beispielhaft .pdf statisch:
	extension = ".pdf"
	# Oder aus Dateiname, falls vorhanden:
	# original_filename = file_entry.get('filename', '')
	# _, extension = os.path.splitext(original_filename)
	# if not extension:
	# extension = ".bin"

	file_name = f"{safe_document_label}_file{file_id}{extension}"
	file_path = os.path.join(doc_type_dir, file_name)

	# Download-Endpunkt
	download_endpoint = f"documents/{document_id}/files/{file_id}/download/"
	full_download_url = urljoin(BASE_URL + '/', download_endpoint)

	# Herunterladen
	with requests.get(full_download_url, auth=AUTH, stream=True) as resp:
	resp.raise_for_status()
	with open(file_path, 'wb') as f:
	for chunk in resp.iter_content(chunk_size=8192):
	f.write(chunk)

	print(f" -> Heruntergeladen: {file_name}")

	print("\nDownload abgeschlossen.")

	if __name__ == "__main__":
	main()