pamelafox · August 7, 2025 20:25
diff --git a/hybrid_reranker.py b/hybrid_reranker.py
 import os
 from pathlib import Path

 import dotenv
 import psycopg2
 from azure.identity import DefaultAzureCredential
 from dotenv import load_dotenv
 from pgvector.psycopg2 import register_vector

 dotenv.load_dotenv(override=True)

 EMBEDDING_MODEL_DEPLOYMENT = os.environ["EMBEDDING_MODEL_DEPLOYMENT_NAME"]
 # Note: Using Cohere-rerank-v3.5 as default reranker (configured via azure_ml settings)

 POSTGRES_HOST = os.environ["POSTGRES_SERVER_FQDN"]
 POSTGRES_USERNAME = os.environ["POSTGRES_SERVER_USERNAME"]
 POSTGRES_DATABASE = "zava"

 if POSTGRES_HOST.endswith(".database.azure.com"):
    print("Authenticating to Azure Database for PostgreSQL using Azure Identity...")
    azure_credential = DefaultAzureCredential()
    token = azure_credential.get_token("https://ossrdbms-aad.database.windows.net/.default")
    POSTGRES_PASSWORD = token.token
 else:
    POSTGRES_PASSWORD = os.environ["POSTGRES_SERVER_PASSWORD"]

 extra_params = {}
 if POSTGRES_SSL := os.environ.get("POSTGRES_SSL"):
    extra_params["sslmode"] = POSTGRES_SSL

 conn = psycopg2.connect(
    database=POSTGRES_DATABASE,
    user=POSTGRES_USERNAME,
    password=POSTGRES_PASSWORD,
    host=POSTGRES_HOST,
    **extra_params,
 )

 conn.autocommit = True
 cur = conn.cursor()

 # Create pgvector extension
 cur.execute("CREATE EXTENSION IF NOT EXISTS vector")
 register_vector(conn)

 # Enable iterative index scans to ensure we get the full LIMIT count
 cur.execute("SET hnsw.iterative_scan = strict_order")

 # Search query
 search_query = "garden watering supplies"
 print(f"RRF Search with Cohere Reranker for: '{search_query}'")

 # Create embedding using PostgreSQL azure_openai extension
 cur.execute("SELECT azure_openai.create_embeddings(%s, %s)", (EMBEDDING_MODEL_DEPLOYMENT, search_query))
 embedding_result = cur.fetchone()
 embedding = embedding_result[0]

 # Convert to OR-based search for broader matching (like TF-IDF/BM25)
 tsquery = ' | '.join(search_query.split())
 print(f"✓ Using OR-based query for broader matching: '{tsquery}'")

 # RRF (Reciprocal Rank Fusion) parameter - controls the weighting
 k = 60  # Standard RRF parameter value

 # Triple RRF SQL query combining vector search, keyword search, and azure_ai.rank
 triple_rrf_sql = """
 WITH base_candidates AS (
    -- Get a broader set of candidates using proper ranking from both searches
    (
        SELECT 
            p.product_id,
            p.sku,
            p.product_name,
            p.product_description
        FROM retail.products p
        JOIN retail.product_description_embeddings pde ON p.product_id = pde.product_id
        WHERE pde.description_embedding IS NOT NULL
        ORDER BY pde.description_embedding <=> %(embedding)s::vector
        LIMIT 15
    )
    UNION
    (
        SELECT 
            p.product_id,
            p.sku,
            p.product_name,
            p.product_description
        FROM retail.products p
        WHERE to_tsvector('english', p.product_name || ' ' || p.product_description) 
              @@ to_tsquery('english', %(tsquery)s)
        ORDER BY ts_rank_cd(
            to_tsvector('english', p.product_name || ' ' || p.product_description),
            to_tsquery('english', %(tsquery)s),
            2
        ) DESC
        LIMIT 15
    )
 ),
 vector_search AS (
    SELECT 
        bc.product_id,
        bc.sku,
        bc.product_name,
        bc.product_description,
        RANK() OVER (ORDER BY pde.description_embedding <=> %(embedding)s::vector) AS rank
    FROM base_candidates bc
    JOIN retail.product_description_embeddings pde ON bc.product_id = pde.product_id
    WHERE pde.description_embedding IS NOT NULL
    ORDER BY pde.description_embedding <=> %(embedding)s::vector
    LIMIT 20
 ),
 keyword_search AS (
    SELECT 
        bc.product_id,
        bc.sku,
        bc.product_name,
        bc.product_description,
        RANK() OVER (ORDER BY ts_rank_cd(
            to_tsvector('english', bc.product_name || ' ' || bc.product_description),
            to_tsquery('english', %(tsquery)s),
            2  -- Normalize by document length (TF-IDF/BM25-like)
        ) DESC) AS rank
    FROM base_candidates bc
    WHERE to_tsvector('english', bc.product_name || ' ' || bc.product_description) 
          @@ to_tsquery('english', %(tsquery)s)
    ORDER BY ts_rank_cd(
        to_tsvector('english', bc.product_name || ' ' || bc.product_description),
        to_tsquery('english', %(tsquery)s),
        2
    ) DESC
    LIMIT 20
 ),
 rrf_combined AS (
    -- Step 1: RRF combination of vector and keyword search
    SELECT 
        COALESCE(vs.product_id, ks.product_id) AS product_id,
        COALESCE(vs.sku, ks.sku) AS sku,
        COALESCE(vs.product_name, ks.product_name) AS product_name,
        COALESCE(vs.product_description, ks.product_description) AS product_description,
        COALESCE(1.0 / (%(k)s + vs.rank), 0.0) +
        COALESCE(1.0 / (%(k)s + ks.rank), 0.0) AS rrf_score,
        vs.rank AS vector_rank,
        ks.rank AS keyword_rank,
        ROW_NUMBER() OVER (ORDER BY 
            COALESCE(1.0 / (%(k)s + vs.rank), 0.0) +
            COALESCE(1.0 / (%(k)s + ks.rank), 0.0) DESC
        ) AS rrf_rank
    FROM vector_search vs
    FULL OUTER JOIN keyword_search ks ON vs.product_id = ks.product_id
    ORDER BY rrf_score DESC
    LIMIT 50  -- Get top 50 for reranking
 ),
 reranked AS (
    -- Step 2: Get ranker ranking for all RRF results, then join back
    WITH ranker_results AS (
        SELECT id, rank, score
        FROM azure_ai.rank(
            query => %(query)s,
            document_contents => ARRAY(
                SELECT rrf2.product_name || ': ' || rrf2.product_description
                FROM rrf_combined rrf2
                ORDER BY rrf2.rrf_score DESC
            ),
            document_ids => ARRAY(
                SELECT rrf2.product_id::text
                FROM rrf_combined rrf2
                ORDER BY rrf2.rrf_score DESC
            )
            -- Using default Cohere-rerank-v3.5 model (no model parameter needed)
        )
    )
    SELECT 
        rrf.*,
        rr.rank AS ranker_rank,
        rr.score AS ranker_score
    FROM rrf_combined rrf
    JOIN ranker_results rr ON rr.id = rrf.product_id::text
 )
 SELECT
    r.product_id,
    r.sku,
    r.product_name,
    r.product_description,
    r.rrf_score,
    r.ranker_score,
    r.vector_rank,
    r.keyword_rank,
    r.rrf_rank,
    r.ranker_rank
 FROM reranked r
 ORDER BY r.ranker_rank ASC  -- Let reranker determine the final order
 LIMIT 5;
 """

 cur.execute(triple_rrf_sql, {
    'embedding': embedding,
    'tsquery': tsquery,
    'query': search_query,
    'k': k
 })

 results = cur.fetchall()
 for i, result in enumerate(results, 1):
    product_id, sku, name, description, rrf_score, ranker_score, vector_rank, keyword_rank, rrf_rank, ranker_rank = result
    
    print(f"{i}. {sku} - {name}")
    print(f"   RRF Score: {rrf_score:.4f} | Ranker Score: {ranker_score:.4f}")
    
    # Show ranking progression
    rankings = []
    if vector_rank is not None:
        rankings.append(f"Vector: #{vector_rank}")
    if keyword_rank is not None:
        rankings.append(f"Keyword: #{keyword_rank}")
    rankings.append(f"RRF: #{rrf_rank}")
    rankings.append(f"Ranker: #{ranker_rank}")
    
    print(f"   Ranking Flow: {' → '.join(rankings)}")
    print(f"   Description: {description}")
    print()
	import os
	from pathlib import Path

	import dotenv
	import psycopg2
	from azure.identity import DefaultAzureCredential
	from dotenv import load_dotenv
	from pgvector.psycopg2 import register_vector

	dotenv.load_dotenv(override=True)

	EMBEDDING_MODEL_DEPLOYMENT = os.environ["EMBEDDING_MODEL_DEPLOYMENT_NAME"]
	# Note: Using Cohere-rerank-v3.5 as default reranker (configured via azure_ml settings)

	POSTGRES_HOST = os.environ["POSTGRES_SERVER_FQDN"]
	POSTGRES_USERNAME = os.environ["POSTGRES_SERVER_USERNAME"]
	POSTGRES_DATABASE = "zava"

	if POSTGRES_HOST.endswith(".database.azure.com"):
	print("Authenticating to Azure Database for PostgreSQL using Azure Identity...")
	azure_credential = DefaultAzureCredential()
	token = azure_credential.get_token("https://ossrdbms-aad.database.windows.net/.default")
	POSTGRES_PASSWORD = token.token
	else:
	POSTGRES_PASSWORD = os.environ["POSTGRES_SERVER_PASSWORD"]

	extra_params = {}
	if POSTGRES_SSL := os.environ.get("POSTGRES_SSL"):
	extra_params["sslmode"] = POSTGRES_SSL

	conn = psycopg2.connect(
	database=POSTGRES_DATABASE,
	user=POSTGRES_USERNAME,
	password=POSTGRES_PASSWORD,
	host=POSTGRES_HOST,
	**extra_params,
	)

	conn.autocommit = True
	cur = conn.cursor()

	# Create pgvector extension
	cur.execute("CREATE EXTENSION IF NOT EXISTS vector")
	register_vector(conn)

	# Enable iterative index scans to ensure we get the full LIMIT count
	cur.execute("SET hnsw.iterative_scan = strict_order")

	# Search query
	search_query = "garden watering supplies"
	print(f"RRF Search with Cohere Reranker for: '{search_query}'")

	# Create embedding using PostgreSQL azure_openai extension
	cur.execute("SELECT azure_openai.create_embeddings(%s, %s)", (EMBEDDING_MODEL_DEPLOYMENT, search_query))
	embedding_result = cur.fetchone()
	embedding = embedding_result[0]

	# Convert to OR-based search for broader matching (like TF-IDF/BM25)
	tsquery = ' \| '.join(search_query.split())
	print(f"✓ Using OR-based query for broader matching: '{tsquery}'")

	# RRF (Reciprocal Rank Fusion) parameter - controls the weighting
	k = 60 # Standard RRF parameter value

	# Triple RRF SQL query combining vector search, keyword search, and azure_ai.rank
	triple_rrf_sql = """
	WITH base_candidates AS (
	-- Get a broader set of candidates using proper ranking from both searches
	(
	SELECT
	p.product_id,
	p.sku,
	p.product_name,
	p.product_description
	FROM retail.products p
	JOIN retail.product_description_embeddings pde ON p.product_id = pde.product_id
	WHERE pde.description_embedding IS NOT NULL
	ORDER BY pde.description_embedding <=> %(embedding)s::vector
	LIMIT 15
	)
	UNION
	(
	SELECT
	p.product_id,
	p.sku,
	p.product_name,
	p.product_description
	FROM retail.products p
	WHERE to_tsvector('english', p.product_name \|\| ' ' \|\| p.product_description)
	@@ to_tsquery('english', %(tsquery)s)
	ORDER BY ts_rank_cd(
	to_tsvector('english', p.product_name \|\| ' ' \|\| p.product_description),
	to_tsquery('english', %(tsquery)s),
	2
	) DESC
	LIMIT 15
	)
	),
	vector_search AS (
	SELECT
	bc.product_id,
	bc.sku,
	bc.product_name,
	bc.product_description,
	RANK() OVER (ORDER BY pde.description_embedding <=> %(embedding)s::vector) AS rank
	FROM base_candidates bc
	JOIN retail.product_description_embeddings pde ON bc.product_id = pde.product_id
	WHERE pde.description_embedding IS NOT NULL
	ORDER BY pde.description_embedding <=> %(embedding)s::vector
	LIMIT 20
	),
	keyword_search AS (
	SELECT
	bc.product_id,
	bc.sku,
	bc.product_name,
	bc.product_description,
	RANK() OVER (ORDER BY ts_rank_cd(
	to_tsvector('english', bc.product_name \|\| ' ' \|\| bc.product_description),
	to_tsquery('english', %(tsquery)s),
	2 -- Normalize by document length (TF-IDF/BM25-like)
	) DESC) AS rank
	FROM base_candidates bc
	WHERE to_tsvector('english', bc.product_name \|\| ' ' \|\| bc.product_description)
	@@ to_tsquery('english', %(tsquery)s)
	ORDER BY ts_rank_cd(
	to_tsvector('english', bc.product_name \|\| ' ' \|\| bc.product_description),
	to_tsquery('english', %(tsquery)s),
	2
	) DESC
	LIMIT 20
	),
	rrf_combined AS (
	-- Step 1: RRF combination of vector and keyword search
	SELECT
	COALESCE(vs.product_id, ks.product_id) AS product_id,
	COALESCE(vs.sku, ks.sku) AS sku,
	COALESCE(vs.product_name, ks.product_name) AS product_name,
	COALESCE(vs.product_description, ks.product_description) AS product_description,
	COALESCE(1.0 / (%(k)s + vs.rank), 0.0) +
	COALESCE(1.0 / (%(k)s + ks.rank), 0.0) AS rrf_score,
	vs.rank AS vector_rank,
	ks.rank AS keyword_rank,
	ROW_NUMBER() OVER (ORDER BY
	COALESCE(1.0 / (%(k)s + vs.rank), 0.0) +
	COALESCE(1.0 / (%(k)s + ks.rank), 0.0) DESC
	) AS rrf_rank
	FROM vector_search vs
	FULL OUTER JOIN keyword_search ks ON vs.product_id = ks.product_id
	ORDER BY rrf_score DESC
	LIMIT 50 -- Get top 50 for reranking
	),
	reranked AS (
	-- Step 2: Get ranker ranking for all RRF results, then join back
	WITH ranker_results AS (
	SELECT id, rank, score
	FROM azure_ai.rank(
	query => %(query)s,
	document_contents => ARRAY(
	SELECT rrf2.product_name \|\| ': ' \|\| rrf2.product_description
	FROM rrf_combined rrf2
	ORDER BY rrf2.rrf_score DESC
	),
	document_ids => ARRAY(
	SELECT rrf2.product_id::text
	FROM rrf_combined rrf2
	ORDER BY rrf2.rrf_score DESC
	)
	-- Using default Cohere-rerank-v3.5 model (no model parameter needed)
	)
	)
	SELECT
	rrf.*,
	rr.rank AS ranker_rank,
	rr.score AS ranker_score
	FROM rrf_combined rrf
	JOIN ranker_results rr ON rr.id = rrf.product_id::text
	)
	SELECT
	r.product_id,
	r.sku,
	r.product_name,
	r.product_description,
	r.rrf_score,
	r.ranker_score,
	r.vector_rank,
	r.keyword_rank,
	r.rrf_rank,
	r.ranker_rank
	FROM reranked r
	ORDER BY r.ranker_rank ASC -- Let reranker determine the final order
	LIMIT 5;
	"""

	cur.execute(triple_rrf_sql, {
	'embedding': embedding,
	'tsquery': tsquery,
	'query': search_query,
	'k': k
	})

	results = cur.fetchall()
	for i, result in enumerate(results, 1):
	product_id, sku, name, description, rrf_score, ranker_score, vector_rank, keyword_rank, rrf_rank, ranker_rank = result

	print(f"{i}. {sku} - {name}")
	print(f" RRF Score: {rrf_score:.4f} \| Ranker Score: {ranker_score:.4f}")

	# Show ranking progression
	rankings = []
	if vector_rank is not None:
	rankings.append(f"Vector: #{vector_rank}")
	if keyword_rank is not None:
	rankings.append(f"Keyword: #{keyword_rank}")
	rankings.append(f"RRF: #{rrf_rank}")
	rankings.append(f"Ranker: #{ranker_rank}")

	print(f" Ranking Flow: {' → '.join(rankings)}")
	print(f" Description: {description}")
	print()
No results found