Bioinformatics Project

Supplementary Materials

Files

The supporting files for this project can be found here.

Codes for Novel ORF Prediction

#GTF Preparation and Merging

wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_47/GRCh37_mapping/gencode.v47lift37.long_noncoding_RNAs.gtf.gz

perl -pe 's/^chr(\S+)/$1/' gencode.v47lift37.long_noncoding_RNAs.gtf > lncRNA.gencode.hg19.chrRemoved.gtf

cat smORF.gtf lncRNA.gencode.hg19.chrRemoved.gtf > merged_smORF_lncRNA.gencode.hg19.chrRemoved.gtf

#STAR indexing - index_star_14mar25.sh

STAR --runThreadN 8 \

--runMode genomeGenerate \

--genomeDir ./lncRNA_star_index \

--genomeFastaFiles ../Homo_sapiens.GRCh37.dna.primary_assembly.fa \

--sjdbGTFfile lncRNA.gencode.hg19.chrRemoved.gtf

STAR --runThreadN 8 \

--runMode genomeGenerate \

--genomeDir ./smORF__star_index \

--genomeFastaFiles ../Homo_sapiens.GRCh37.dna.primary_assembly.fa \

--sjdbGTFfile smORF.gtf

STAR --runThreadN 8 \

--runMode genomeGenerate \

--genomeDir ./merged_lncRNA_smORF__star_index \

--genomeFastaFiles ../Homo_sapiens.GRCh37.dna.primary_assembly.fa \

--sjdbGTFfile merged_smORF_lncRNA.gencode.hg19.chrRemoved.gtf

#trimming

TRIM_GALORE="/stor/work/Sullivan/anik/project_micropeptide/tools/trim_galore/TrimGalore-0.6.10/trim_galore"

mkdir -p fixed_adapter.trim

for i in *.gz; do

$TRIM_GALORE \

--adapter CTGTAGGCACCATCAAT \

--gzip \

--cores 8 \

--output_dir fixed_adapter.trim \

"$i"

done

multiqc fixed_adapter.trim -o fixed_adapter.trim

mkdir -p fixed_adapter.trim

TRIM_GALORE="/stor/work/Sullivan/anik/project_micropeptide/tools/trim_galore/TrimGalore-0.6.10/trim_galore"

for i in *.gz; do

$TRIM_GALORE \

--adapter AGATCGGAAGAGCACACGTCT \

--gzip \

--cores 8 \

--output_dir fixed_adapter.trim \

"$i"

done

#multiqc . -o fixed_adapter.trim

multiqc fixed_adapter.trim -o fixed_adapter.trim

TRIM_GALORE="/stor/work/Sullivan/anik/project_micropeptide/tools/trim_galore/TrimGalore-0.6.10/trim_galore"

for i in *.gz; do

$TRIM_GALORE \

--adapter AAAAAAAAAA \

--gzip \

--cores 8 \

--output_dir fixed_adapter.trim \

"$i"

done

#multiqc . -o fixed_adapter.trim

multiqc fixed_adapter.trim -o fixed_adapter.trim

#STAR Alignment and Count – copy.star.alignment.count.combined.sh

TRIMMED_DIR=$1

OUTPUT_DIR=$2

ALIGNMENT_DIR="${OUTPUT_DIR}/alignments_lncRNA"

STAR_INDEX_DIR="/stor/work/Sullivan/anik/project_micropeptide/ref/gencode_lncrna/lncRNA_star_index"

for TRIMMED_FILE in $TRIMMED_DIR/*.fq.gz; do

BASE_NAME=$(basename $TRIMMED_FILE _trimmed.fq.gz)

echo "Processing $BASE_NAME"

STAR --runThreadN 20 \

--genomeDir $STAR_INDEX_DIR \

--readFilesIn $TRIMMED_FILE \

--readFilesCommand zcat \

--outFileNamePrefix $ALIGNMENT_DIR/$BASE_NAME \

--outSAMtype BAM SortedByCoordinate \

--quantMode TranscriptomeSAM GeneCounts \

--outFilterType BySJout \

--outFilterMismatchNmax 2 \

--outFilterMultimapNmax 1 \

--outFilterMatchNmin 16 \

--alignEndsType EndToEnd

samtools quickcheck $ALIGNMENT_DIR/${BASE_NAME}Aligned.sortedByCoord.out.bam

if [ $? -ne 0 ]; then

echo "BAM file is corrupted. Re-running STAR alignment."

STAR --runThreadN 20 \

--genomeDir $STAR_INDEX_DIR \

--readFilesIn $TRIMMED_FILE \

--readFilesCommand zcat \

--outFileNamePrefix $ALIGNMENT_DIR/$BASE_NAME \

--outSAMtype BAM SortedByCoordinate \

--quantMode TranscriptomeSAM GeneCounts \

--outFilterType BySJout \

--outFilterMismatchNmax 2 \

--outFilterMultimapNmax 1 \

--outFilterMatchNmin 16 \

--alignEndsType EndToEnd

done

COUNT_MATRIX="${OUTPUT_DIR}/gene_counts_matrix.tsv"

SAMPLES=$(ls $ALIGNMENT_DIR/*ReadsPerGene.out.tab | sed 's/_ReadsPerGene.out.tab//g')

echo -e "GeneID\t$(echo $SAMPLES | tr ' ' '\t')" > $COUNT_MATRIX

awk 'FNR==1 {ARGIND++}

ARGIND==1 {genes[$1]}

ARGIND==2 {counts[$1]=$4}

END {for (gene in genes) {printf gene; for (s=1; s<=ARGC-1; s++) printf "\t%s", counts[gene]; print}}' $ALIGNMENT_DIR/*ReadsPerGene.out.tab >> $COUNT_MATRIX

#3-File Automation Script – copy.3file.automate.sh

ulimit -n 8192

./copy.star.alignment.count.combined.sh ../data/razooki_influenza/fixed_adapter.trim ../data/razooki_influenza/fixed_adapter.trim/mar17

./copy.star.alignment.count.combined.sh ../data/finkel.sarscov2/fixed_adapter.trim ../data/finkel.sarscov2/fixed_adapter.trim/mar17

./copy.star.alignment.count.combined.sh ../data/influenza_machkovech/fixed_adapter.trim ../data/influenza_machkovech/fixed_adapter.trim/mar17

#BAM Length Distribution Analysis

ls /stor/work/Sullivan/anik/project_micropeptide/data/finkel.sarscov2/fixed_adapter.trim/mar17/alignments_lncRNA/*toTranscriptome.out.bam

BAM="/stor/work/Sullivan/anik/project_micropeptide/data/finkel.sarscov2/fixed_adapter.trim/mar17/alignments_lncRNA/SRR13165891_GSM4949730_Calu3_fp_uninf_1_Homo_sapiens_OTHERAligned.toTranscriptome.out.bam"