williamcaban · July 26, 2025 17:07
diff --git a/RAGAS Evals with KFP Setup Guide.md b/RAGAS Evals with KFP Setup Guide.md
diff --git a/ragas_pipeline.py b/ragas_pipeline.py
 import kfp
 from kfp import dsl
 from kfp.dsl import component, pipeline, Input, Output, Dataset, Metrics
 from typing import NamedTuple

 # Component for data preparation
 @component(
    base_image="python:3.11-slim",
    packages_to_install=["ragas", "datasets", "pandas", "openai", "langchain"]
 )
 def prepare_evaluation_data(
    dataset_path: str,
    output_dataset: Output[Dataset]
 ) -> NamedTuple("Outputs", [("num_samples", int)]):
    """Prepare evaluation dataset for RAGAS evaluation."""
    import pandas as pd
    import json
    from collections import namedtuple
    
    # Load your evaluation dataset
    # This could be from various sources: CSV, JSON, HuggingFace datasets, etc.
    if dataset_path.endswith('.csv'):
        df = pd.read_csv(dataset_path)
    elif dataset_path.endswith('.json'):
        df = pd.read_json(dataset_path)
    else:
        raise ValueError("Unsupported file format")
    
    # Ensure required columns exist for RAGAS evaluation
    required_columns = ['question', 'answer', 'contexts', 'ground_truth']
    missing_columns = [col for col in required_columns if col not in df.columns]
    
    if missing_columns:
        print(f"Warning: Missing columns {missing_columns}")
        # Handle missing columns based on your use case
    
    # Save prepared dataset
    df.to_json(output_dataset.path, orient='records', lines=True)
    
    outputs = namedtuple("Outputs", ["num_samples"])
    return outputs(len(df))

 # Component for running RAGAS evaluation
 @component(
    base_image="python:3.11-slim",
    packages_to_install=["ragas", "datasets", "pandas", "openai", "langchain", "sentence-transformers"]
 )
 def run_ragas_evaluation(
    input_dataset: Input[Dataset],
    openai_api_key: str,
    evaluation_metrics: Output[Metrics]
 ) -> NamedTuple("Outputs", [("faithfulness_score", float), ("answer_relevancy_score", float), ("context_precision_score", float), ("context_recall_score", float)]):
    """Run RAGAS evaluation with specified metrics."""
    import pandas as pd
    import json
    from datasets import Dataset
    from ragas import evaluate
    from ragas.metrics import (
        faithfulness,
        answer_relevancy,
        context_precision,
        context_recall,
        context_relevancy,
        answer_correctness,
        answer_similarity
    )
    import os
    from collections import namedtuple
    
    # Set OpenAI API key
    os.environ["OPENAI_API_KEY"] = openai_api_key
    
    # Load dataset
    df = pd.read_json(input_dataset.path, lines=True)
    
    # Convert to HuggingFace Dataset format
    dataset = Dataset.from_pandas(df)
    
    # Define metrics to evaluate
    metrics = [
        faithfulness,
        answer_relevancy,
        context_precision,
        context_recall,
        # context_relevancy,  # Add more metrics as needed
        # answer_correctness,
        # answer_similarity
    ]
    
    # Run evaluation
    print("Starting RAGAS evaluation...")
    result = evaluate(
        dataset=dataset,
        metrics=metrics,
    )
    
    # Extract scores
    faithfulness_score = result['faithfulness']
    answer_relevancy_score = result['answer_relevancy']
    context_precision_score = result['context_precision']
    context_recall_score = result['context_recall']
    
    # Log metrics to Kubeflow
    evaluation_metrics.log_metric("faithfulness", faithfulness_score)
    evaluation_metrics.log_metric("answer_relevancy", answer_relevancy_score)
    evaluation_metrics.log_metric("context_precision", context_precision_score)
    evaluation_metrics.log_metric("context_recall", context_recall_score)
    
    # Save detailed results
    result_df = result.to_pandas()
    result_df.to_csv("/tmp/detailed_results.csv", index=False)
    
    print(f"Evaluation completed!")
    print(f"Faithfulness: {faithfulness_score:.4f}")
    print(f"Answer Relevancy: {answer_relevancy_score:.4f}")
    print(f"Context Precision: {context_precision_score:.4f}")
    print(f"Context Recall: {context_recall_score:.4f}")
    
    outputs = namedtuple("Outputs", [
        "faithfulness_score", 
        "answer_relevancy_score", 
        "context_precision_score", 
        "context_recall_score"
    ])
    return outputs(
        faithfulness_score, 
        answer_relevancy_score, 
        context_precision_score, 
        context_recall_score
    )

 # Component for generating evaluation report
 @component(
    base_image="python:3.11-slim",
    packages_to_install=["pandas", "matplotlib", "seaborn"]
 )
 def generate_evaluation_report(
    faithfulness_score: float,
    answer_relevancy_score: float,
    context_precision_score: float,
    context_recall_score: float,
    num_samples: int,
    report_output: Output[Dataset]
 ):
    """Generate a comprehensive evaluation report."""
    import pandas as pd
    import json
    import matplotlib.pyplot as plt
    import seaborn as sns
    from datetime import datetime
    
    # Create summary report
    report_data = {
        "evaluation_timestamp": datetime.now().isoformat(),
        "total_samples": num_samples,
        "metrics": {
            "faithfulness": faithfulness_score,
            "answer_relevancy": answer_relevancy_score,
            "context_precision": context_precision_score,
            "context_recall": context_recall_score
        },
        "summary": {
            "average_score": (faithfulness_score + answer_relevancy_score + 
                            context_precision_score + context_recall_score) / 4,
            "evaluation_status": "completed"
        }
    }
    
    # Save report
    with open(report_output.path, 'w') as f:
        json.dump(report_data, f, indent=2)
    
    # Create visualization (optional)
    metrics_df = pd.DataFrame([
        {"Metric": "Faithfulness", "Score": faithfulness_score},
        {"Metric": "Answer Relevancy", "Score": answer_relevancy_score},
        {"Metric": "Context Precision", "Score": context_precision_score},
        {"Metric": "Context Recall", "Score": context_recall_score}
    ])
    
    plt.figure(figsize=(10, 6))
    sns.barplot(data=metrics_df, x="Metric", y="Score")
    plt.title("RAGAS Evaluation Results")
    plt.ylim(0, 1)
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.savefig("/tmp/evaluation_chart.png")
    
    print("Evaluation report generated successfully!")

 # Define the pipeline
 @pipeline(
    name="ragas-evaluation-pipeline",
    description="A pipeline to evaluate RAG applications using RAGAS metrics"
 )
 def ragas_evaluation_pipeline(
    dataset_path: str = "gs://your-bucket/evaluation_data.csv",
    openai_api_key: str = "your-openai-api-key"
 ):
    """Main RAGAS evaluation pipeline."""
    
    # Step 1: Prepare evaluation data
    data_prep_task = prepare_evaluation_data(
        dataset_path=dataset_path
    )
    
    # Step 2: Run RAGAS evaluation
    evaluation_task = run_ragas_evaluation(
        input_dataset=data_prep_task.outputs["output_dataset"],
        openai_api_key=openai_api_key
    )
    
    # Step 3: Generate report
    report_task = generate_evaluation_report(
        faithfulness_score=evaluation_task.outputs["faithfulness_score"],
        answer_relevancy_score=evaluation_task.outputs["answer_relevancy_score"],
        context_precision_score=evaluation_task.outputs["context_precision_score"],
        context_recall_score=evaluation_task.outputs["context_recall_score"],
        num_samples=data_prep_task.outputs["num_samples"]
    )
    
    # Set resource requirements (optional)
    evaluation_task.set_cpu_limit("2")
    evaluation_task.set_memory_limit("8Gi")

 # Compile and run the pipeline
 if __name__ == "__main__":
    # Compile the pipeline
    kfp.compiler.Compiler().compile(
        pipeline_func=ragas_evaluation_pipeline,
        package_path="ragas_evaluation_pipeline.yaml"
    )
    
    # Example of how to run the pipeline
    # client = kfp.Client(host="your-kubeflow-host")
    # 
    # run = client.run_pipeline(
    #     experiment_id="your-experiment-id",
    #     job_name="ragas-evaluation-run",
    #     pipeline_package_path="ragas_evaluation_pipeline.yaml",
    #     params={
    #         "dataset_path": "gs://your-bucket/evaluation_data.csv",
    #         "openai_api_key": "your-openai-api-key"
    #     }
    # )
    
    print("Pipeline compiled successfully! Upload 'ragas_evaluation_pipeline.yaml' to Kubeflow Pipelines UI.")
	import kfp
	from kfp import dsl
	from kfp.dsl import component, pipeline, Input, Output, Dataset, Metrics
	from typing import NamedTuple

	# Component for data preparation
	@component(
	base_image="python:3.11-slim",
	packages_to_install=["ragas", "datasets", "pandas", "openai", "langchain"]
	)
	def prepare_evaluation_data(
	dataset_path: str,
	output_dataset: Output[Dataset]
	) -> NamedTuple("Outputs", [("num_samples", int)]):
	"""Prepare evaluation dataset for RAGAS evaluation."""
	import pandas as pd
	import json
	from collections import namedtuple

	# Load your evaluation dataset
	# This could be from various sources: CSV, JSON, HuggingFace datasets, etc.
	if dataset_path.endswith('.csv'):
	df = pd.read_csv(dataset_path)
	elif dataset_path.endswith('.json'):
	df = pd.read_json(dataset_path)
	else:
	raise ValueError("Unsupported file format")

	# Ensure required columns exist for RAGAS evaluation
	required_columns = ['question', 'answer', 'contexts', 'ground_truth']
	missing_columns = [col for col in required_columns if col not in df.columns]

	if missing_columns:
	print(f"Warning: Missing columns {missing_columns}")
	# Handle missing columns based on your use case

	# Save prepared dataset
	df.to_json(output_dataset.path, orient='records', lines=True)

	outputs = namedtuple("Outputs", ["num_samples"])
	return outputs(len(df))

	# Component for running RAGAS evaluation
	@component(
	base_image="python:3.11-slim",
	packages_to_install=["ragas", "datasets", "pandas", "openai", "langchain", "sentence-transformers"]
	)
	def run_ragas_evaluation(
	input_dataset: Input[Dataset],
	openai_api_key: str,
	evaluation_metrics: Output[Metrics]
	) -> NamedTuple("Outputs", [("faithfulness_score", float), ("answer_relevancy_score", float), ("context_precision_score", float), ("context_recall_score", float)]):
	"""Run RAGAS evaluation with specified metrics."""
	import pandas as pd
	import json
	from datasets import Dataset
	from ragas import evaluate
	from ragas.metrics import (
	faithfulness,
	answer_relevancy,
	context_precision,
	context_recall,
	context_relevancy,
	answer_correctness,
	answer_similarity
	)
	import os
	from collections import namedtuple

	# Set OpenAI API key
	os.environ["OPENAI_API_KEY"] = openai_api_key

	# Load dataset
	df = pd.read_json(input_dataset.path, lines=True)

	# Convert to HuggingFace Dataset format
	dataset = Dataset.from_pandas(df)

	# Define metrics to evaluate
	metrics = [
	faithfulness,
	answer_relevancy,
	context_precision,
	context_recall,
	# context_relevancy, # Add more metrics as needed
	# answer_correctness,
	# answer_similarity
	]

	# Run evaluation
	print("Starting RAGAS evaluation...")
	result = evaluate(
	dataset=dataset,
	metrics=metrics,
	)

	# Extract scores
	faithfulness_score = result['faithfulness']
	answer_relevancy_score = result['answer_relevancy']
	context_precision_score = result['context_precision']
	context_recall_score = result['context_recall']

	# Log metrics to Kubeflow
	evaluation_metrics.log_metric("faithfulness", faithfulness_score)
	evaluation_metrics.log_metric("answer_relevancy", answer_relevancy_score)
	evaluation_metrics.log_metric("context_precision", context_precision_score)
	evaluation_metrics.log_metric("context_recall", context_recall_score)

	# Save detailed results
	result_df = result.to_pandas()
	result_df.to_csv("/tmp/detailed_results.csv", index=False)

	print(f"Evaluation completed!")
	print(f"Faithfulness: {faithfulness_score:.4f}")
	print(f"Answer Relevancy: {answer_relevancy_score:.4f}")
	print(f"Context Precision: {context_precision_score:.4f}")
	print(f"Context Recall: {context_recall_score:.4f}")

	outputs = namedtuple("Outputs", [
	"faithfulness_score",
	"answer_relevancy_score",
	"context_precision_score",
	"context_recall_score"
	])
	return outputs(
	faithfulness_score,
	answer_relevancy_score,
	context_precision_score,
	context_recall_score
	)

	# Component for generating evaluation report
	@component(
	base_image="python:3.11-slim",
	packages_to_install=["pandas", "matplotlib", "seaborn"]
	)
	def generate_evaluation_report(
	faithfulness_score: float,
	answer_relevancy_score: float,
	context_precision_score: float,
	context_recall_score: float,
	num_samples: int,
	report_output: Output[Dataset]
	):
	"""Generate a comprehensive evaluation report."""
	import pandas as pd
	import json
	import matplotlib.pyplot as plt
	import seaborn as sns
	from datetime import datetime

	# Create summary report
	report_data = {
	"evaluation_timestamp": datetime.now().isoformat(),
	"total_samples": num_samples,
	"metrics": {
	"faithfulness": faithfulness_score,
	"answer_relevancy": answer_relevancy_score,
	"context_precision": context_precision_score,
	"context_recall": context_recall_score
	},
	"summary": {
	"average_score": (faithfulness_score + answer_relevancy_score +
	context_precision_score + context_recall_score) / 4,
	"evaluation_status": "completed"
	}
	}

	# Save report
	with open(report_output.path, 'w') as f:
	json.dump(report_data, f, indent=2)

	# Create visualization (optional)
	metrics_df = pd.DataFrame([
	{"Metric": "Faithfulness", "Score": faithfulness_score},
	{"Metric": "Answer Relevancy", "Score": answer_relevancy_score},
	{"Metric": "Context Precision", "Score": context_precision_score},
	{"Metric": "Context Recall", "Score": context_recall_score}
	])

	plt.figure(figsize=(10, 6))
	sns.barplot(data=metrics_df, x="Metric", y="Score")
	plt.title("RAGAS Evaluation Results")
	plt.ylim(0, 1)
	plt.xticks(rotation=45)
	plt.tight_layout()
	plt.savefig("/tmp/evaluation_chart.png")

	print("Evaluation report generated successfully!")

	# Define the pipeline
	@pipeline(
	name="ragas-evaluation-pipeline",
	description="A pipeline to evaluate RAG applications using RAGAS metrics"
	)
	def ragas_evaluation_pipeline(
	dataset_path: str = "gs://your-bucket/evaluation_data.csv",
	openai_api_key: str = "your-openai-api-key"
	):
	"""Main RAGAS evaluation pipeline."""

	# Step 1: Prepare evaluation data
	data_prep_task = prepare_evaluation_data(
	dataset_path=dataset_path
	)

	# Step 2: Run RAGAS evaluation
	evaluation_task = run_ragas_evaluation(
	input_dataset=data_prep_task.outputs["output_dataset"],
	openai_api_key=openai_api_key
	)

	# Step 3: Generate report
	report_task = generate_evaluation_report(
	faithfulness_score=evaluation_task.outputs["faithfulness_score"],
	answer_relevancy_score=evaluation_task.outputs["answer_relevancy_score"],
	context_precision_score=evaluation_task.outputs["context_precision_score"],
	context_recall_score=evaluation_task.outputs["context_recall_score"],
	num_samples=data_prep_task.outputs["num_samples"]
	)

	# Set resource requirements (optional)
	evaluation_task.set_cpu_limit("2")
	evaluation_task.set_memory_limit("8Gi")

	# Compile and run the pipeline
	if __name__ == "__main__":
	# Compile the pipeline
	kfp.compiler.Compiler().compile(
	pipeline_func=ragas_evaluation_pipeline,
	package_path="ragas_evaluation_pipeline.yaml"
	)

	# Example of how to run the pipeline
	# client = kfp.Client(host="your-kubeflow-host")
	#
	# run = client.run_pipeline(
	# experiment_id="your-experiment-id",
	# job_name="ragas-evaluation-run",
	# pipeline_package_path="ragas_evaluation_pipeline.yaml",
	# params={
	# "dataset_path": "gs://your-bucket/evaluation_data.csv",
	# "openai_api_key": "your-openai-api-key"
	# }
	# )

	print("Pipeline compiled successfully! Upload 'ragas_evaluation_pipeline.yaml' to Kubeflow Pipelines UI.")
No results found