!pip install kagglehub[pandas-datasets] --quiet

import kagglehub
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from kagglehub import KaggleDatasetAdapter

file_path = "yahoo_data.xlsx"
file_path2 = "all_stocks_5yr.csv"

df = kagglehub.dataset_load(
  KaggleDatasetAdapter.PANDAS,
  "suruchiarora/yahoo-finance-dataset-2018-2023",
  file_path,
)

df2 = kagglehub.dataset_load(
  KaggleDatasetAdapter.PANDAS,
  "camnugent/sandp500",
  file_path2,
)

print("First 5 records:\n", df.head())
print("First 5 records:\n", df2.head())

Using Colab cache for faster access to the 'yahoo-finance-dataset-2018-2023' dataset.
Using Colab cache for faster access to the 'sandp500' dataset.
First 5 records:
            Date      Open      High       Low    Close*  Adj Close**  \
0  Apr 28, 2023  33797.43  34104.56  33728.40  34098.16     34098.16   
1  Apr 27, 2023  33381.66  33859.75  33374.65  33826.16     33826.16   
2  Apr 26, 2023  33596.34  33645.83  33235.85  33301.87     33301.87   
3  Apr 25, 2023  33828.34  33875.49  33525.39  33530.83     33530.83   
4  Apr 24, 2023  33805.04  33891.15  33726.09  33875.40     33875.40   

      Volume  
0  354310000  
1  343240000  
2  321170000  
3  297880000  
4  252020000  
First 5 records:
          date   open   high    low  close    volume Name
0  2013-02-08  15.07  15.12  14.63  14.75   8407500  AAL
1  2013-02-11  14.89  15.01  14.26  14.46   8882000  AAL
2  2013-02-12  14.45  14.51  14.10  14.27   8126000  AAL
3  2013-02-13  14.30  14.94  14.25  14.66  10259500  AAL
4  2013-02-14  14.94  14.96  13.16  13.99  31879900  AAL

# Helper
def pick(df, *candidates):
    """Case-insensitive column name matcher."""
    lookup = {c.lower(): c for c in df.columns}
    for cand in candidates:
        if cand.lower() in lookup:
            return lookup[cand.lower()]
    return None

def standardize_columns(df: pd.DataFrame) -> pd.DataFrame:
    df = df.copy()

    # Identify columns using flexible matching
    date_col  = pick(df, "Date")
    open_col  = pick(df, "Open")
    high_col  = pick(df, "High")
    low_col   = pick(df, "Low")
    close_col = pick(df, "Close")
    adj_col   = pick(df, "Adj Close", "AdjClose")
    vol_col   = pick(df, "Volume")
    name_col  = pick(df, "Ticker", "Symbol", "Name", "Stock")

    if not date_col:
        raise ValueError(f"No date column found among {list(df.columns)}")

    # Build rename mapping
    rename_map = {
        date_col: "Date",
        open_col: "Open",
        high_col: "High",
        low_col: "Low",
        close_col: "Close",
    }
    if adj_col: rename_map[adj_col] = "Adj Close"
    if vol_col: rename_map[vol_col] = "Volume"
    if name_col: rename_map[name_col] = "Name"

    # Apply renaming
    df = df.rename(columns={k: v for k, v in rename_map.items() if k})

    return df

def convert_data_types(df: pd.DataFrame) -> pd.DataFrame:
    df = df.copy()

    # Convert date column to datetime
    if "Date" in df:
        df["Date"] = pd.to_datetime(df["Date"], errors="coerce")

    # Convert numeric columns
    for col in df.columns:
        if col not in ["Date", "Name"]:
            df[col] = pd.to_numeric(df[col], errors="coerce")
            # Cast to integer if all values are whole numbers
            if pd.api.types.is_numeric_dtype(df[col]) and (df[col].dropna() % 1 == 0).all():
                df[col] = df[col].astype("Int64")

    # Ensure Name column is string type
    if "Name" in df:
        df["Name"] = df["Name"].astype(str).str.strip()

    return df

def fix_data_quality(df: pd.DataFrame) -> pd.DataFrame:
    df = df.copy()

    # Fix inverted High/Low values
    if "High" in df and "Low" in df:
        swap = df["Low"] > df["High"]
        if swap.any():
            df.loc[swap, ["Low", "High"]] = df.loc[swap, ["High", "Low"]].to_numpy()

    # Drop rows with invalid dates
    if "Date" in df:
        df = df.dropna(subset=["Date"])

    # Sort by Name (if exists) and Date
    sort_cols = ["Name", "Date"] if "Name" in df else ["Date"]
    df = df.sort_values(sort_cols).reset_index(drop=True)

    return df

def engineer_features(df: pd.DataFrame) -> pd.DataFrame:
    df = df.copy()

    # Add Profit feature: 1 if profitable day, 0 otherwise
    if "Close" in df and "Open" in df:
        df["Profit"] = (df["Close"] > df["Open"]).astype(int)

    # Add return features
    if "Close" in df:
        has_names = "Name" in df

        if has_names:
            # Calculate returns separately for each stock
            df["ret"] = df.groupby("Name")["Close"].pct_change()
            df["log_ret"] = np.log(df["Close"]).groupby(df["Name"]).diff()
        else:
            # Calculate returns for single stock
            df["ret"] = df["Close"].pct_change()
            df["log_ret"] = np.log(df["Close"]).diff()

    return df

def clean_stock_data_simple(df: pd.DataFrame) -> pd.DataFrame:

    # Standardize column names
    df = standardize_columns(df)

    # Convert to appropriate data types
    df = convert_data_types(df)

    # Fix data quality issues
    df = fix_data_quality(df)

    # Engineer features
    df = engineer_features(df)

    # Select necessary & checked features
    keep = ["Date"] + (["Name"] if "Name" in df else []) + \
           [c for c in ["Open", "High", "Low", "Close", "Adj Close", "Volume",
                       "Profit", "ret", "log_ret"] if c in df]

    return df[keep]

df_clean  = clean_stock_data_simple(df)
df2_clean = clean_stock_data_simple(df2)

print("First datset\n", df_clean.head())
print("Second dataset\n", df2_clean.head())

First datset
         Date      Open      High       Low     Volume
0 2018-05-01  24117.29  24117.29  23808.19  380070000
1 2018-05-02  24097.63  24185.52  23886.30  385350000
2 2018-05-03  23836.23  23996.15  23531.31  389240000
3 2018-05-04  23865.22  24333.35  23778.87  329480000
4 2018-05-07  24317.66  24479.45  24263.42  307670000
Second dataset
         Date Name   Open   High    Low  Close   Volume  Profit       ret  \
0 2013-02-08    A  45.07  45.35  45.00  45.08  1824755       1       NaN   
1 2013-02-11    A  45.17  45.18  44.45  44.60  2915405       0 -0.010648   
2 2013-02-12    A  44.81  44.95  44.50  44.62  2373731       0  0.000448   
3 2013-02-13    A  44.81  45.24  44.68  44.75  2052338       0  0.002913   
4 2013-02-14    A  44.72  44.78  44.36  44.58  3826245       0 -0.003799   

    log_ret  
0       NaN  
1 -0.010705  
2  0.000448  
3  0.002909  
4 -0.003806

# Ensure 'date' is datetime
df2_clean['Date'] = pd.to_datetime(df2_clean['Date'])

# Calculate the average volume for each stock
avg_volume = df2_clean.groupby('Name')['Volume'].mean().sort_values(ascending=False)
top_30_names = avg_volume.head(30).index.tolist()

# Filter the DataFrame to include only the top 30 stocks
df_top30 = df2_clean[df2_clean['Name'].isin(top_30_names)].copy()

# Calculate daily percentage change (returns) for the 'close' price for each stock
df_top30.loc[:, 'Returns'] = df_top30.groupby('Name')['Close'].pct_change()

# Pivot the data: Date is index, Stock Name is columns, Values are Returns
returns_pivot = df_top30.pivot(index='Date', columns='Name', values='Returns').dropna()

# Calculate the Correlation Matrix
correlation_matrix = returns_pivot.corr()


plt.figure(figsize=(18, 16))
sns.heatmap(
    correlation_matrix,
    annot=False,
    cmap='coolwarm',
    fmt=".2f",
    linewidths=.5,
    cbar_kws={'label': 'Correlation Coefficient'}
)

plt.title('Correlation Heatmap of Daily Returns for Top 30 Stocks (by Average Volume)', fontsize=18)
plt.xticks(rotation=90)
plt.yticks(rotation=0)
plt.tight_layout()

# Save the plot
heatmap_file_name = "top_30_stocks_correlation_heatmap.png"
plt.savefig(heatmap_file_name)

df_new  = df2_clean.copy()
df_new['Diff'] = df_new['High'] - df_new['Low']
df_avgs = df_new.groupby('Name')['Diff'].mean().rename('avg_high_low')

to_plot = df_avgs.sort_values(ascending=False).head(30)

plt.figure(figsize=(8,10))
plt.barh(to_plot.index, to_plot.values)
plt.gca().invert_yaxis()
plt.xlabel('Avg (High − Low)')
plt.ylabel('Company')

plt.title('Average daily range by ticker')
plt.tight_layout()
plt.show()

# previous_days_open = df_clean['Open'].shift(1)
# previous_days_close = df_clean['Close'].shift(1)
# for i in range previous_days_

# Investing strategy, buy next day's open if previous day had a close 2% higher than open price.
my_df = df2_clean.copy()
my_df['PrevDayOpen'] = my_df['Open'].shift(1)
my_df['PrevDayClose'] = my_df['Close'].shift(1)

buy_today_condition = my_df['PrevDayClose'] > 1.02 * my_df['PrevDayOpen']

my_df['TodaysTradeResult'] = None
my_df

my_df.loc[buy_today_condition, 'TodaysTradeResult'] = my_df['Close'] - my_df['Open']
my_df = my_df[['PrevDayClose', 'PrevDayOpen', 'TodaysTradeResult']].dropna()

plt.figure(figsize=(8,8))
plt.scatter(my_df['PrevDayClose']/my_df['PrevDayOpen'], my_df['TodaysTradeResult'])
plt.title("Profit made based on Open/Close Ratio of previous day")
plt.ylabel("Profit")
plt.xlabel("Open/Close Ratio")
plt.grid(True)
plt.show()

prices = df2_clean.copy()

# Make sure all dates are in the same format
prices["Date"] = pd.to_datetime(prices["Date"], errors="coerce")
prices = prices.dropna(subset=["Name", "Date", "Close"]).sort_values(["Name", "Date"])

# Finds the First and Last date to compare stock prices
start_date = prices["Date"].min()
end_date = prices["Date"].max()

timeframe = prices[(prices["Date"] >= start_date) & (prices["Date"] <= end_date)].copy()

# First & last close per Name in the timeframe
first_name = (timeframe.groupby("Name")[["Date", "Close"]].first().rename(columns={"Date": "FirstDate", "Close": "FirstClose"}))
last_name = (timeframe.groupby("Name")[["Date", "Close"]].last().rename(columns={"Date": "LastDate", "Close": "LastClose"}))

# Join first/last and compute growth
growth_graph = first_name.join(last_name, how="inner")
growth_graph = growth_graph[growth_graph["FirstClose"] > 0].copy()
trading_span = (growth_graph["LastDate"] - growth_graph["FirstDate"]).dt.days.clip(lower=1)
growth_graph["TotalGrowth"] = growth_graph["LastClose"] / growth_graph["FirstClose"] - 1.0
growth_graph["CAGR"] = (growth_graph["LastClose"] / growth_graph["FirstClose"]) ** (365 / trading_span) - 1.0

# Rank and display the top N gainers
top_n = 20
top_growth = growth_graph.sort_values("TotalGrowth", ascending=False).head(top_n)

# Create the Graph
plt.figure(figsize=(8, 4))
plt.barh(top_growth.index[::-1], (100 * top_growth["TotalGrowth"][::-1]))
plt.xlabel("Total growth (%)")
plt.ylabel("Name")
plt.title(f"Top {top_n} tickers by % growth\n"f"{start_date.date()} → {end_date.date()}")
plt.tight_layout()
plt.show()

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.preprocessing import StandardScaler
import numpy as np # Import numpy for log function

ml_df = df2_clean.copy()

# Add LogRet features
for i in range(1, 6):   # creates LogRet_1 ... LogRet_5
    ml_df[f'LogRet_{i}'] = np.log(ml_df['Close'] / ml_df['Close'].shift(i))

# Add info s.t. you can make an appropriate guess.
ml_df['PrevDayOpen'] = ml_df['Open'].shift(1)
ml_df['PrevDayClose'] = ml_df['Close'].shift(1)
ml_df['PrevDayHigh'] = ml_df['High'].shift(1)
ml_df['PrevDayLow'] = ml_df['Low'].shift(1)
ml_df['PrevDayVolume'] = ml_df['Volume'].shift(1)

# Shift LogRet features by one day to use previous day's information
for i in range(1, 6):
    ml_df[f'LogRet_{i}'] = ml_df[f'LogRet_{i}'].shift(1)

ml_df = ml_df.dropna()

# Here is getting the information that will be used to make a prediction
X = ml_df[['PrevDayClose', 'PrevDayOpen', 'PrevDayVolume', 'PrevDayHigh', 'PrevDayLow',
           'LogRet_1', 'LogRet_2', 'LogRet_3', 'LogRet_4', 'LogRet_5']]
# Correct prediction result
Y = ml_df['Profit'].astype(bool)
# Split it
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.8)
# Scale so in general, you can plug and play other models.
my_scaler = StandardScaler()
my_scaler.fit(X_train)
X_train_scaled = my_scaler.transform(X_train)
X_test_scaled = my_scaler.transform(X_test)

# Store the fitted scaler globally
global_rf_scaler = my_scaler

# K-fold allows for iterative training/testing.
k_folds = 5
skf = StratifiedKFold(n_splits=k_folds, shuffle=True, random_state=10)
# Actually run the model.
forest_model = RandomForestClassifier(random_state=10)
# Check how accurate the model is.
cv_scores = cross_val_score(forest_model, X_train_scaled, y_train, cv=skf, scoring='accuracy')
print(f"Cross-validated Accuracy: {cv_scores.mean()} (+/- {cv_scores.std()})")

# Fit the model to the training data and store it globally
forest_model.fit(X_train_scaled, y_train)
global_forest_model = forest_model

Cross-validated Accuracy: 0.5092561393596267 (+/- 0.0022674205934000817)

from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

ml_df = df2_clean.copy()

for i in range(1, 6):   # creates LogRet_1 ... LogRet_5
    ml_df[f'LogRet_{i}'] = np.log(ml_df['Close'] / ml_df['Close'].shift(i))

ml_df['PrevDayOpen'] = ml_df['Open'].shift(1)
ml_df['PrevDayClose'] = ml_df['Close'].shift(1)
ml_df['PrevDayHigh'] = ml_df['High'].shift(1)
ml_df['PrevDayLow'] = ml_df['Low'].shift(1)
ml_df['PrevDayVolume'] = ml_df['Volume'].shift(1)

ml_df['LogRet_1'] = ml_df['LogRet_1'].shift(1)
ml_df['LogRet_2'] = ml_df['LogRet_2'].shift(1)
ml_df['LogRet_3'] = ml_df['LogRet_3'].shift(1)
ml_df['LogRet_4'] = ml_df['LogRet_4'].shift(1)
ml_df['LogRet_5'] = ml_df['LogRet_5'].shift(1)

ml_df = ml_df.dropna()

X = ml_df[['PrevDayClose', 'PrevDayOpen', 'PrevDayVolume', 'PrevDayHigh', 'PrevDayLow',
           'LogRet_1', 'LogRet_2', 'LogRet_3', 'LogRet_4', 'LogRet_5']]
Y = ml_df['Profit'].astype(bool)

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.8)

my_scaler = StandardScaler()
my_scaler.fit(X_train)
X_train_scaled = my_scaler.transform(X_train)
X_test_scaled = my_scaler.transform(X_test)

# Store the fitted scaler globally
global_knn_scaler = my_scaler

k_folds = 5
skf = StratifiedKFold(n_splits=k_folds, shuffle=True, random_state=10)

knn_model = KNeighborsClassifier()

print("Got here")
cv_scores = cross_val_score(knn_model, X_train_scaled, y_train, cv=skf, scoring='accuracy')
knn_model_accuracy = cv_scores.mean()
knn_std_dev = cv_scores.std()
print(f"Cross-validated Accuracy: {knn_model_accuracy} (+/- {knn_std_dev})")

# Fit the model to the training data and store it globally
knn_model.fit(X_train_scaled, y_train)
global_knn_model = knn_model

Got here
Cross-validated Accuracy: 0.5034114179569704 (+/- 0.0015731227410710803)

# Prepare df_predict from df2_clean
df_predict = df2_clean.copy()

# Add LogRet features
for i in range(1, 6):   # creates LogRet_1 ... LogRet_5
    df_predict[f'LogRet_{i}'] = np.log(df_predict['Close'] / df_predict['Close'].shift(i))

# Add previous day's information.
df_predict['PrevDayOpen'] = df_predict['Open'].shift(1)
df_predict['PrevDayClose'] = df_predict['Close'].shift(1)
df_predict['PrevDayHigh'] = df_predict['High'].shift(1)
df_predict['PrevDayLow'] = df_predict['Low'].shift(1)
df_predict['PrevDayVolume'] = df_predict['Volume'].shift(1)

# Shift LogRet features by one day to use previous day's information
for i in range(1, 6):
    df_predict[f'LogRet_{i}'] = df_predict[f'LogRet_{i}'].shift(1)

# Drop rows with NaN values resulting from feature engineering
df_predict = df_predict.dropna()

print("Prepared df_predict with engineered features and dropped NaNs.")
df_predict.head()

Prepared df_predict with engineered features and dropped NaNs.

# Isolate features
feature_columns = ['PrevDayClose', 'PrevDayOpen', 'PrevDayVolume', 'PrevDayHigh', 'PrevDayLow',
                   'LogRet_1', 'LogRet_2', 'LogRet_3', 'LogRet_4', 'LogRet_5']
X_predict = df_predict[feature_columns]

# Scale the features
X_predict_rf_scaled = global_rf_scaler.transform(X_predict)
X_predict_knn_scaled = global_knn_scaler.transform(X_predict)

# Predict with random forest
df_predict['RF_Prediction'] = global_forest_model.predict(X_predict_rf_scaled)

# Predict with KNN
df_predict['KNN_Prediction'] = global_knn_model.predict(X_predict_knn_scaled)

# Filter for a single stock 'A'  for Buy and Hold demonstration
df_single_stock = df_predict[df_predict['Name'] == 'A'].copy()

# Calculate daily return for 'Buy and Hold'
df_single_stock['Buy_Hold_Daily_Return'] = df_single_stock['Close'].pct_change().fillna(0)

#  Simulate trading strategy for random forest
df_single_stock['RF_Daily_Profit_Loss'] = df_single_stock.apply(
    lambda row: (row['Close'] - row['Open']) if row['RF_Prediction'] == True else 0,
    axis=1
)

#  Simulate trading strategy for KNN model
df_single_stock['KNN_Daily_Profit_Loss'] = df_single_stock.apply(
    lambda row: (row['Close'] - row['Open']) if row['KNN_Prediction'] == True else 0,
    axis=1
)

# Calculate cumulative returns for all three strategies
# Assuming an initial investment of 100
initial_investment = 100

df_single_stock['Buy_Hold_Cumulative_Return'] = initial_investment * (1 + df_single_stock['Buy_Hold_Daily_Return']).cumprod()
df_single_stock['RF_Cumulative_Return'] = initial_investment + df_single_stock['RF_Daily_Profit_Loss'].cumsum()
df_single_stock['KNN_Cumulative_Return'] = initial_investment + df_single_stock['KNN_Daily_Profit_Loss'].cumsum()

# Plot the cumulative returns
plt.figure(figsize=(14, 7))
plt.plot(df_single_stock['Date'], df_single_stock['Buy_Hold_Cumulative_Return'], label='Buy and Hold (Stock A)', color='blue')
plt.plot(df_single_stock['Date'], df_single_stock['RF_Cumulative_Return'], label='Random Forest Strategy', color='green')
plt.plot(df_single_stock['Date'], df_single_stock['KNN_Cumulative_Return'], label='KNN Strategy', color='orange')

# Label plot elements
plt.xlabel('Date', fontsize=12)
plt.ylabel('Cumulative Returns', fontsize=12)
plt.title('Comparison of Trading Strategy Cumulative Returns (Stock A)', fontsize=14)
plt.legend(fontsize=10)
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

	Date	Name	Open	High	Low	Close	Volume	Profit	ret	log_ret	LogRet_1	LogRet_2	LogRet_3	LogRet_4	LogRet_5	PrevDayOpen	PrevDayClose	PrevDayHigh	PrevDayLow	PrevDayVolume
6	2013-02-19	A	42.21	43.12	42.210	43.01	4116141	1	0.017988	0.017828	-0.053681	-0.057487	-0.054578	-0.054130	-0.064834	43.48	42.25	44.24	42.210	14657315
7	2013-02-20	A	42.84	42.85	42.225	42.24	3873183	0	-0.017903	-0.018065	0.017828	-0.035853	-0.039659	-0.036750	-0.036301	42.21	43.01	43.12	42.210	4116141
8	2013-02-21	A	42.14	42.14	41.470	41.63	3415149	0	-0.014441	-0.014547	-0.018065	-0.000237	-0.053918	-0.057724	-0.054815	42.84	42.24	42.85	42.225	3873183
9	2013-02-22	A	41.83	42.07	41.580	41.80	3354862	0	0.004084	0.004075	-0.014547	-0.032612	-0.014783	-0.068464	-0.072270	42.14	41.63	42.14	41.470	3415149
10	2013-02-25	A	42.09	42.22	41.290	41.29	3622460	0	-0.012201	-0.012276	0.004075	-0.010471	-0.028536	-0.010708	-0.064389	41.83	41.80	42.07	41.580	3354862

Analysis of S&P 500 between 2013-2018¶

Fall 2025 Data Scieence Project¶

Contributions: Aidan Mendes, Alexandru Cara, Anthony Nguyen, Bryan Dang, Manomay Bhavani¶

Introduction¶

Data Curation¶

Transform Data¶

Exploratory Data Analysis (Checkpoint 2)¶

Primary Analysis¶

Visualization¶

Insights and Conclusion¶