hermidalc · September 3, 2024 11:48
diff --git a/ml_tmm_tpm.md b/ml_tmm_tpm.md
diff --git a/ml_tmm_tpm.py b/ml_tmm_tpm.py
 import warnings

 import numpy as np
 import pandas as pd
 from sklearn.model_selection import KFold

 warnings.filterwarnings('ignore', category=FutureWarning,
                        module='rpy2.robjects.pandas2ri')

 from sklearn_extensions.preprocessing import EdgeRTMMTPM

 random_seed = 777

 gene_ids = np.loadtxt(
    'tcga_brca_slide_tissue_htseq_counts_expr_genes.tsv', dtype=str)

 gene_annots = pd.read_csv(
    'gencode_v22_gene_annots.tsv', sep='\t', index_col=0).loc[gene_ids]

 counts = pd.read_csv(
    'tcga_brca_slide_tissue_htseq_counts.tsv', sep='\t',
    usecols=np.append(gene_ids, 'tissue_submitter_id'),
    index_col='tissue_submitter_id')[gene_ids]

 slide_meta = pd.read_csv(
    'tcga_brca_slide_htseq_counts.tsv', sep='\t', usecols=range(0, 7),
    index_col='slide_submitter_id')

 tmm_tpm = EdgeRTMMTPM(log=True, prior_count=2, gene_length_col='Length')

 cv = KFold(n_splits=5, shuffle=True, random_state=random_seed)
 for train_idx, test_idx in cv.split(counts):
    counts_train = counts.iloc[train_idx]
    counts_test = counts.iloc[test_idx]

    tmm_tpm.fit(counts_train)
    tmm_tpm_train = pd.DataFrame(
        tmm_tpm.transform(counts_train, feature_meta=gene_annots),
        columns=counts_train.columns, index=counts_train.index)
    tmm_tpm_test = pd.DataFrame(
        tmm_tpm.transform(counts_test, feature_meta=gene_annots),
        columns=counts_test.columns, index=counts_test.index)

    slide_tmm_tpm_train = slide_meta.join(
        tmm_tpm_train, on='tissue_submitter_id', how='inner')
    slide_tmm_tpm_test = slide_meta.join(
        tmm_tpm_test, on='tissue_submitter_id', how='inner')
	import warnings

	import numpy as np
	import pandas as pd
	from sklearn.model_selection import KFold

	warnings.filterwarnings('ignore', category=FutureWarning,
	module='rpy2.robjects.pandas2ri')

	from sklearn_extensions.preprocessing import EdgeRTMMTPM

	random_seed = 777

	gene_ids = np.loadtxt(
	'tcga_brca_slide_tissue_htseq_counts_expr_genes.tsv', dtype=str)

	gene_annots = pd.read_csv(
	'gencode_v22_gene_annots.tsv', sep='\t', index_col=0).loc[gene_ids]

	counts = pd.read_csv(
	'tcga_brca_slide_tissue_htseq_counts.tsv', sep='\t',
	usecols=np.append(gene_ids, 'tissue_submitter_id'),
	index_col='tissue_submitter_id')[gene_ids]

	slide_meta = pd.read_csv(
	'tcga_brca_slide_htseq_counts.tsv', sep='\t', usecols=range(0, 7),
	index_col='slide_submitter_id')

	tmm_tpm = EdgeRTMMTPM(log=True, prior_count=2, gene_length_col='Length')

	cv = KFold(n_splits=5, shuffle=True, random_state=random_seed)
	for train_idx, test_idx in cv.split(counts):
	counts_train = counts.iloc[train_idx]
	counts_test = counts.iloc[test_idx]

	tmm_tpm.fit(counts_train)
	tmm_tpm_train = pd.DataFrame(
	tmm_tpm.transform(counts_train, feature_meta=gene_annots),
	columns=counts_train.columns, index=counts_train.index)
	tmm_tpm_test = pd.DataFrame(
	tmm_tpm.transform(counts_test, feature_meta=gene_annots),
	columns=counts_test.columns, index=counts_test.index)

	slide_tmm_tpm_train = slide_meta.join(
	tmm_tpm_train, on='tissue_submitter_id', how='inner')
	slide_tmm_tpm_test = slide_meta.join(
	tmm_tpm_test, on='tissue_submitter_id', how='inner')