itsthanga thangarajan8

💭

Learning to How to Learn

Analytics, Data Engineer, Big Data, Python

thangarajan8 / delete.py

Last active July 25, 2025 12:20

to be delete

-def clean_amount(value):
-    # Move trailing minus to the front
-    value = value.replace('-', '')
-    is_negative = value.endswith('-') or value.startswith('-')
-    # Remove thousand separator and convert decimal separator
-    value = value.replace('.', '').replace(',', '.').replace('-', '')
-    # Convert to float
-    try:

thangarajan8 / date_time_diff.py

Created September 20, 2024 08:03

date_time_diff

	from pyspark.sql import SparkSession
	from pyspark.sql.functions import col, udf, expr, hour,format_number
	from pyspark.sql.types import LongType
	import pandas as pd

	# Initialize Spark session
	spark = SparkSession.builder.appName("DateDifference").getOrCreate()

	def exclude_weekends_and_jan1(start_date, end_date):
	# Create a date range

thangarajan8 / delete.py

Created July 18, 2024 11:43

delete.py

-from pyspark.sql import SparkSession
-from pyspark.sql.functions import col, sum as spark_sum, when
-# Initialize Spark session
-# spark = SparkSession.builder \
-#     .appName("Sales Analysis") \
-#     .getOrCreate()
-# Sample data
-data = [

thangarajan8 / gist:68640b9cc0958fc925c68d9777f05f63

Created May 10, 2022 12:22

pandas to spark data frame.py

	from pyspark.sql.types import *

	# Auxiliar functions
	# Pandas Types -> Sparks Types
	def equivalent_type(f):
	if f == 'datetime64[ns]': return DateType()
	elif f == 'int64': return LongType()
	elif f == 'int32': return IntegerType()
	elif f == 'float64': return FloatType()
	else: return StringType()

thangarajan8 / gist:7b3016ec9fc5c44b1bfec90851808049

Created April 26, 2022 08:20

multi_date_text.py

	import datetime
	# text = "april 23 january 11 2020"
	text = "enero 01 diciembre 31 2020"


	def multi_date_text(text):
	month_dict = {"enero":"january","febrero":"february","marzo":"march","abril":"april",
	"mayo":"may","junio":"june","julio":"july","agosto":"august",
	"septiembre":"september","octubre":"october","noviembre":"november","diciembre":"december"}
	text = [month_dict[i] if i.lower() in month_dict.keys() else i for i in text.split(" ") ]

thangarajan8 / javalang_parser_V2.py

Created October 26, 2021 05:40

thangarajan8 / javalang_parser_V1.py

Created October 25, 2021 09:23

thangarajan8 / javalang_parser.py

Created October 25, 2021 05:51

thangarajan8 / multiple_date_format_answer.sql

Created September 15, 2021 11:20

	SELECT
	Coalesce(
	try(date_parse(multi_date_format, '%Y-%m-%d %H:%i:%s')),
	try(date_parse(multi_date_format, '%Y/%m/%d %H:%i:%s')),
	try(date_parse(multi_date_format, '%Y/%m/%d')),
	try(date_parse(multi_date_format, '%d %M %Y')),
	try(date_parse(multi_date_format, '%d %M %Y %H:%i:%s')),
	try(date_parse(multi_date_format, '%d/%m/%Y %H:%i:%s')),
	try(date_parse(multi_date_format, '%d-%m-%Y %H:%i:%s'))
	) as DateConvertedToTimestamp,

thangarajan8 / multiple_date_format.sql

Last active September 15, 2021 11:16