dataanalystduo.courses

Syllabus

SECTION A — Python, Analytics & Tooling Foundations

A1. Python in Data Analytics Ecosystem

What Python is
Why Python dominates analytics
Python vs Excel vs SQL vs BI tools
Where Python fits in real analytics workflows
When Python is the wrong tool
Typical analyst tech stack (SQL → Python → BI)

A2. Setting Up the Analytics Environment

Python distributions
Why Anaconda exists
Virtual environments (conceptual)
Package managers (pip vs conda)
Versioning awareness

A3. Jupyter Notebook

What a Notebook is
Kernel & execution model
Cells:
- Code cells
- Markdown cells
Markdown essentials:
- Headers
- Lists
- Code blocks
Running cells out of order (danger)
Restart kernel & clear outputs
Notebook best practices for analysts
Turning notebooks into reports

SECTION B — Core Python Data Types

B1. Built-in Data Types Overview

Text: str
Numeric: int, float, complex
Boolean: bool
None: NoneType
Sequence: list, tuple, range
Mapping: dict
Set: set, frozenset
Binary: bytes, bytearray, memoryview (conceptual)

B2. Mutability, Memory & Object Behavior

Mutable vs immutable objects
Why strings are immutable
Variable assignment vs object creation
Reference behavior
Shallow copy vs deep copy
Common mutation bugs analysts make

SECTION C — Numbers, Strings, Booleans & Nulls

C1. Numeric Types

Integers
Floating point numbers
Precision & rounding issues
Type casting
Numeric operations

C2. Strings

Creating strings
Escape characters (\\n, \\t)
Raw strings (r"")
f-strings
.format()
Unicode & encoding (conceptual)

C3. Booleans & Logical Truth

Boolean values
Truthy vs falsy objects
Boolean expressions in conditions

C4. Null / Missing Values

None
Difference between None, 0, "", False
Why None is critical in analytics pipelines

SECTION D — Variables, Identity & Dynamic Typing

D1. Variable Assignment

What variable assignment means
Dynamic typing in Python
Type reassignment

D2. Naming Rules & Conventions

Valid variable names
Reserved keywords
Readability & PEP8 basics

D3. Identity vs Equality

== vs is
Correct None checks
Common interview traps

SECTION E — Strings (Deep Dive)

E1. String Operations

Indexing
Slicing
Length
Concatenation
Repetition

E2. Important String Methods

Case methods
Strip methods
Split & join
Replace & find
Count & checks

E3. Immutability of Strings

Why strings cannot be modified
Efficient string handling patterns

SECTION F — Core Data Structures (Lists, Tuples, Dicts, Sets)

F1. Lists

Creation
Indexing & slicing
List methods
Sorting (sort vs sorted)
Copying lists
Nested lists
Performance considerations

F2. Tuples

Tuple creation
Tuple unpacking
Immutability benefits
When to prefer tuples

F3. Dictionaries (ANALYST GOLD)

Key-value structure
Access patterns
Dictionary methods
Nested dictionaries
Dictionary comprehensions
JSON-like data thinking

F4. Sets

Set creation
Uniqueness
Set operations
Membership testing
Analytics use cases

SECTION G — Operators & Expressions

G1. Comparison Operators

Equality & relational operators

G2. Logical Operators

and, or, not
Precedence

G3. Membership Operators

in, not in

G4. Conditional Expressions

Ternary operator
Practical usage

SECTION H — Control Flow & Decision Making

H1. Conditional Logic

if, elif, else
Indentation rules
Nested conditions
Readable condition design

H2. Loops

for loop
while loop
Loop else

H3. Loop Control

break
continue
pass

SECTION I — Iteration Tools & Built-ins

I1. Iterables & Iterators (Conceptual)

What iteration means
Why loops work

I2. range

Range behavior
Memory efficiency

I3. zip

Parallel iteration
Practical analytics usage

I4. enumerate

Index-value iteration

I5. Core Built-in Functions

len, sum, min, max
any, all
sorted, reversed
type, dir, help

SECTION J — Comprehensions

J1. List Comprehensions

Syntax
Filtering
Nested comprehensions

J2. Set Comprehensions

Unique transformations

J3. Dictionary Comprehensions

Key-value transformations

SECTION K — Functions

K1. Function Basics

Defining functions
Parameters & arguments
Return values
Multiple returns

K2. Argument Handling

Positional vs keyword arguments
Default arguments
Mutable default pitfalls
args and *kwargs

K3. Docstrings

Purpose
Writing clean docstrings

K4. Lambda Functions

Syntax
Use cases
Limitations

K5. LEGB Rule

Scope resolution
Practical implications

SECTION L — Modules, Packages & Standard Library

L1. Imports

Import styles
Aliasing
Best practices

L2. Standard Library

math
random
datetime
statistics
os
pathlib

L3. Script Execution

__name__ == "__main__"

SECTION M — File Handling

M1. File Basics

Opening files
File modes
Encoding
Context managers

M2. CSV Handling

csv module
Reading & writing CSVs
Why analysts must know this

SECTION N — Error Handling & Debugging

N1. Understanding Errors

Syntax vs runtime vs logical errors

N2. Exception Handling

try, except, else, finally

N3. Common Exceptions

TypeError
ValueError
KeyError
IndexError
FileNotFoundError

N4. Raising Exceptions

raise
Custom messages

N5. Debugging Techniques

Reading tracebacks
Print debugging
Inspecting objects

SECTION O — Object-Oriented Programming

O1. OOP Fundamentals

Objects & classes
Why analysts should care

O2. Classes & Methods

Attributes
Methods
self

O3. Inheritance

Parent-child classes
Method overriding

O4. Polymorphism

Behavioral flexibility

SECTION P — NumPy for Analytics

P1. NumPy Arrays

Creating arrays
Data types

P2. Array Operations

Vectorized operations
Mathematical operations

P3. Indexing & Slicing

1D & 2D arrays

P4. Broadcasting

Concept & benefits

P5. Selection & Boolean Masking

Conditional selection

SECTION Q — Pandas for Data Analytics (CORE)

Q1. Pandas Fundamentals

What Pandas is and why analysts use it
Series vs DataFrame (real differences)
Index concept (and why it matters)
Row vs column orientation
Pandas vs Excel mindset

Q2. Reading & Writing Data (NON-NEGOTIABLE)

read_csv
read_excel
read_sql (conceptual + basic usage)
Encoding issues
Handling large files (chunksize – concept)
Writing data:
- to_csv
- to_excel

Q3. Understanding Your Data (EDA Entry Point)

head, tail, sample
info
describe
Shape, columns, dtypes
Memory usage
When numbers lie in describe()

Q4. Indexing & Selection (MOST COMMON BUG SOURCE)

Column selection
Row slicing
Boolean filtering
loc vs iloc
Chained indexing (why it’s dangerous)
Resetting and setting index

Q5. Data Cleaning & Preparation

Handling missing values:
- isna, notna
- fillna
- dropna
Removing duplicates
Renaming columns
Type conversion:
- astype
- to_datetime
String operations with .str
Common data quality issues in real datasets

Q6. Column Engineering & Transformations

Creating new columns
Conditional columns (np.where / apply)
apply vs vectorized operations
map vs apply
Row-wise vs column-wise operations
Performance implications

Q7. Sorting, Ranking & Ordering

sort_values
sort_index
Ranking:
- rank
Top-N analysis
Tie handling

Q8. GroupBy

Split–Apply–Combine concept
Single & multiple aggregations
agg
Named aggregations
Grouping by multiple columns
GroupBy with conditions
Common GroupBy mistakes

Q9. Merging, Joining & Combining Data

merge
Types of joins:
- inner
- left
- right
- outer
Joining on keys vs index
concat
Append vs concat
Data mismatch problems

Q10. Date & Time Analysis

Parsing dates
Extracting year, month, day
Time-based filtering
Period vs timestamp
Resampling (conceptual)
Time-series pitfalls

Q11. Reshaping & Pivoting Data

pivot
pivot_table
melt
Wide vs long format
When reshaping is required

Q12. Handling Categorical Data

Category dtype
Memory & performance benefits
Ordering categories
Why analysts should care

Q13. Pandas Performance Awareness

Why loops are slow
Vectorization mindset
apply abuse
When Pandas breaks at scale
When to move to SQL / Spark

Q14. Pandas Debugging & Common Errors

KeyError
SettingWithCopyWarning
Shape mismatch
Silent NaNs
Wrong aggregations
How to sanity-check results

Q15. End-to-End Pandas Case Studies

Sales analysis
Customer segmentation logic
KPI calculation pipelines
Cleaning → Transforming → Aggregating → Output

Q16. Pandas Best Practices

Writing readable Pandas code
Intermediate variables vs chaining
Reproducibility
Notebook hygiene for analytics work

SECTION R — Data Visualization (Matplotlib & Seaborn)

R1. Visualization Fundamentals

Choosing the right chart

R2. Matplotlib Foundations

Figure & axes
Core plots
Customization
Subplots
Saving figures

R3. Seaborn for Analytics

Statistical plots
Distributions
Relationships
Categorical comparisons
Heatmaps

R4. Styling & Interpretation

Themes
Color palettes
Writing insights from visuals
Common visualization mistakes

SECTION S — Project

S1. Core Python - Building Tic-Tac-Toe game

break a problem into functions
write clean conditional logic
use lists/dicts properly
handle edge cases
debug without panicking
write readable code

S2. End-to-End Analytics Case Study

Understanding a business problem
Defining analysis questions
Data cleaning and preparation
Performing analysis using Python
Writing insights and observations
Structuring analysis for stakeholders
Making decisions from data

Page updated

Report abuse