from lec_utils import *
import lec20_util as util
def show_cv_slides():
    src = "https://docs.google.com/presentation/d/e/2PACX-1vTydTrLDr-y4nxQu1OMsaoqO5EnPEISz2VYmM6pd83ke8YnnTBJlp40NfNLI1HMgoaKx6GBKXYE4UcA/embed?start=false&loop=false&delayms=60000&rm=minimal"
    display(IFrame(src, width=900, height=361))
import warnings
warnings.simplefilter('ignore')

training_data = pd.DataFrame().assign(x=range(0, 120, 10),
                                      y=[9, 1, 58, 3, 6, 4, -2, 8, 1, 10, 1.1, -45])        
display_df(training_data, rows=12)

Deg 1       21.71
Deg 2       13.46
Deg 3        7.56
           ...   
Deg 23     323.27
Deg 24     549.47
Deg 25    2106.10
Length: 25, dtype: float64

'Deg 3'

Validation Fold
Fold 1     Deg 9
Fold 2     Deg 3
Fold 3     Deg 3
Fold 4    Deg 10
Fold 5     Deg 3
dtype: object

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures()),
                ('linearregression', LinearRegression())])

PolynomialFeatures()

LinearRegression()

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

training_data = pd.DataFrame().assign(x=range(0, 120, 10),
                                      y=[9, 1, 58, 3, 6, 4, -2, 8, 1, 10, 1.1, -45])        
display_df(training_data, rows=12)

show_cv_slides()

np.random.seed(23) # For reproducibility.
def sample_from_pop(n=100):
    x = np.linspace(-2, 3, n)
    y = x ** 3 + (np.random.normal(0, 3, size=n))
    return pd.DataFrame({'x': x, 'y': y})
sample_1 = sample_from_pop()

px.scatter(sample_1, x='x', y='y', title='Sample 1')

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(sample_1[['x']], sample_1['y'], random_state=23)

cross_val_score(estimator, X_train, y_train, cv)

from sklearn.model_selection import cross_val_score

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

errs_df = pd.DataFrame()
for d in range(1, 26):
    pl = make_pipeline(PolynomialFeatures(d), LinearRegression())
    # The `scoring` argument is used to specify that we want to compute the MSE; 
    # the default is R^2. It's called "neg" MSE because, 
    # by default, sklearn likes to "maximize" scores, and maximizing -MSE is the same
    # as minimizing MSE.
    errs = cross_val_score(pl, X_train, y_train, 
                           cv=5, scoring='neg_mean_squared_error')
    errs_df[f'Deg {d}'] = -errs # Negate to turn positive (sklearn computed negative MSE).
errs_df.index = [f'Fold {i}' for i in range(1, 6)]
errs_df.index.name = 'Validation Fold'

errs_df

errs_df.mean(axis=0)

Deg 1       21.71
Deg 2       13.46
Deg 3        7.56
           ...   
Deg 23     323.27
Deg 24     549.47
Deg 25    2106.10
Length: 25, dtype: float64

fig = errs_df.mean(axis=0).iloc[:18].plot(kind='line', title='Average Validation Error')
fig.update_layout(xaxis_title='Degree', yaxis_title='Average Validation MSE', showlegend=False)

errs_df.mean(axis=0).idxmin()

'Deg 3'

errs_df.idxmin(axis=1)

Validation Fold
Fold 1     Deg 9
Fold 2     Deg 3
Fold 3     Deg 3
Fold 4    Deg 10
Fold 5     Deg 3
dtype: object

from sklearn.model_selection import GridSearchCV

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures()),
                ('linearregression', LinearRegression())])

PolynomialFeatures()

LinearRegression()

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures(degree=3)),
                ('linearregression', LinearRegression())])

PolynomialFeatures(degree=3)

LinearRegression()

from sklearn.model_selection import GridSearchCV

# The key names in this dictionary are chosen very carefully.
# They need to be of the format pipelinestep__hyperparametername,
# where pipelinestep is a lowercase version of the step in the pipeline
# that we want to tune, and 
# hyperparameter name is the formal name of the hyperparameter (see the documentation).
hyperparams = {
    'polynomialfeatures__degree': range(1, 26)
}

searcher = GridSearchCV(
    make_pipeline(PolynomialFeatures(), LinearRegression()),
    param_grid=hyperparams,
    cv=5, # k = 5.
    scoring='neg_mean_squared_error'
)
searcher

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures()),
                ('linearregression', LinearRegression())])

PolynomialFeatures()

LinearRegression()

searcher.fit(X_train, y_train)

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures()),
                                       ('linearregression',
                                        LinearRegression())]),
             param_grid={'polynomialfeatures__degree': range(1, 26)},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures(degree=3)),
                ('linearregression', LinearRegression())])

PolynomialFeatures(degree=3)

LinearRegression()

searcher.best_params_

{'polynomialfeatures__degree': 3}

-pd.DataFrame(np.vstack([searcher.cv_results_[f'split{i}_test_score'] for i in range(5)]))

searcher.predict([[4], 
                  [-1], 
                  [0]])

array([64.1 , -1.28,  0.28])

np.random.seed(23)
df = pd.read_csv('data/commute-times.csv')
df['day_of_month'] = pd.to_datetime(df['date']).dt.day
df['month'] = pd.to_datetime(df['date']).dt.month_name()
df.head()

# Here, we're letting X_train and X_test keep all of the columns in the DataFrame
# OTHER than 'minutes'.
X_train, X_test, y_train, y_test = train_test_split(df.drop('minutes', axis=1), df['minutes'], random_state=23)

from sklearn.compose import make_column_transformer, make_column_selector
from sklearn.preprocessing import FunctionTransformer, OneHotEncoder

selecter = FunctionTransformer(lambda x: x) # Shortcut to say "keep just these columns."
week_converter = FunctionTransformer(lambda s: 'Week ' + ((s - 1) // 7 + 1).astype(str))
day_of_month_transformer = make_pipeline(week_converter, OneHotEncoder(drop='first')) # From last class.
pipes = {
    'departure_hour only': make_pipeline(
        make_column_transformer((selecter, ['departure_hour'])),
        LinearRegression()
    ),
    'departure_hour + day_of_month': make_pipeline(
        make_column_transformer((selecter, ['departure_hour', 'day_of_month'])),
        LinearRegression()
    ),
    'departure_hour + day OHE': make_pipeline(
        make_column_transformer(
            (selecter, ['departure_hour']),
            (OneHotEncoder(drop='first', handle_unknown='ignore'), ['day'])
        ),
        LinearRegression()
    ),
    'departure_hour + day OHE + month OHE': make_pipeline(
        make_column_transformer(
            (selecter, ['departure_hour']),
            (OneHotEncoder(drop='first', handle_unknown='ignore'), ['day', 'month'])
        ),
        LinearRegression()
    ),
    'departure_hour with poly features + day OHE + month OHE + week': make_pipeline(
        make_column_transformer(
        (PolynomialFeatures(3), ['departure_hour']),
        (OneHotEncoder(drop='first', handle_unknown='ignore'), ['day', 'month']),
        (day_of_month_transformer, ['day_of_month']),
    ),
    LinearRegression())
}

results = pd.DataFrame(columns=['Average Training MSE', 'Average Validation MSE'])
for pipe in pipes:
    fitted = GridSearchCV(
        pipes[pipe],
        param_grid={}, # No hyperparameters, but we could have them.
        scoring='neg_mean_squared_error',
        cv=10, # Change this and see what happens!,
        return_train_score=True # So that we can compute training MSEs, too.
    )
    fitted.fit(X_train, y_train)
    results.loc[pipe] = [-fitted.cv_results_['mean_train_score'][0], -fitted.cv_results_['mean_test_score'][0]]
commute_models_summarized = (
    results
    .sort_values('Average Training MSE')
    .plot(kind='barh', barmode='group', width=1000)
    .update_layout(xaxis_title='Mean Squared Error', yaxis_title='Model')
)
commute_models_summarized

X_train, X_test, y_train, y_test = train_test_split(sample_1[['x']], sample_1['y'], random_state=23)
px.scatter(x=X_train['x'], y=y_train, title="Sample 1's Training Data")

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures(degree=25)),
                ('linearregression', LinearRegression(fit_intercept=False))])

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures(degree=25)),
                ('linearregression', LinearRegression(fit_intercept=False))])

PolynomialFeatures(degree=25)

LinearRegression(fit_intercept=False)

10    1712.92
8     1418.08
9     1405.07
7     1395.33
12    1268.88
dtype: float64

3.6606542664388497

3.662415381952351

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25)),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25)),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures(degree=25)),
                ('ridge', Ridge(alpha=1000000000.0))])

X_train, X_test, y_train, y_test = train_test_split(sample_1[['x']], sample_1['y'], random_state=23)
px.scatter(x=X_train['x'], y=y_train, title="Sample 1's Training Data")

model = make_pipeline(PolynomialFeatures(25), LinearRegression(fit_intercept=False))
model.fit(X_train, y_train)

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures(degree=25)),
                ('linearregression', LinearRegression(fit_intercept=False))])

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures(degree=25)),
                ('linearregression', LinearRegression(fit_intercept=False))])

PolynomialFeatures(degree=25)

LinearRegression(fit_intercept=False)

fig = px.scatter(x=X_train['x'], y=y_train, title="Sample 1's Training Data")
fig.add_trace(go.Scatter(
    x=X_train['x'].sort_values(),
    y=model.predict(X_train.sort_values('x')),
    mode='lines',
    line=dict(width=4),
    name='Fit Polynomial of Degree 25'
))

pd.Series(model.named_steps['linearregression'].coef_).abs().sort_values(ascending=False).head()

10    1712.92
8     1418.08
9     1405.07
7     1395.33
12    1268.88
dtype: float64

from sklearn.linear_model import Ridge

3.6606542664388497

3.662415381952351

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25)),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25)),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures(degree=25)),
                ('ridge', Ridge(alpha=1000000000.0))])

PolynomialFeatures(degree=25)

Ridge(alpha=1000000000.0)

{'ridge__alpha': 1000000000.0}

20    1.36e-04
17    1.29e-04
15    8.57e-05
19    8.49e-05
16    5.68e-05
dtype: float64

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('columntransformer',
                                        ColumnTransformer(transformers=[('polynomialfeatures',
                                                                         PolynomialFeatures(degree=3),
                                                                         ['departure_hour']),
                                                                        ('onehotencoder',
                                                                         OneHotEncoder(drop='first',
                                                                                       handle_unknown='ignore'),
                                                                         ['day',
                                                                          'month']),
                                                                        ('pipeline',
                                                                         Pipeline(steps=[('functiontransformer',
                                                                                          FunctionTransformer(func=<function <lambda> at 0x177a80820>)),
                                                                                         ('onehotencoder',
                                                                                          OneHotEncoder(drop='first'))]),
                                                                         ['day_of_month'])])),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-10, 1.e-09, 1.e-08, ..., 1.e+12, 1.e+13, 1.e+14])},
             scoring='neg_mean_squared_error')

from sklearn.linear_model import Ridge

# The name of the lambda hyperparameter in sklearn is alpha.
model_large_lambda = make_pipeline(PolynomialFeatures(25), Ridge(alpha=1000000000000000000000000000))
model_large_lambda.fit(X_train, y_train)
fig = px.scatter(x=X_train['x'], y=y_train, title="Sample 1's Training Data")
fig.add_trace(go.Scatter(
    x=X_train['x'].sort_values(),
    y=model_large_lambda.predict(X_train.sort_values('x')),
    mode='lines',
    line=dict(width=4, color='purple'),
    name='Extremely Regularized Polynomial of Degree 25'
))

model_large_lambda.named_steps['ridge'].intercept_

3.6606542664388497

y_train.mean()

3.662415381952351

hyperparams = {
    'ridge__alpha': 10.0 ** np.arange(-2, 15) # Try 0.01, 0.1, 1, 10, 100, 1000, ... 
}
model_regularized = GridSearchCV(
    estimator=make_pipeline(PolynomialFeatures(25), Ridge()),
    param_grid=hyperparams,
    scoring='neg_mean_squared_error'
)
model_regularized.fit(X_train, y_train)

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25)),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25)),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures', PolynomialFeatures(degree=25)),
                ('ridge', Ridge(alpha=1000000000.0))])

PolynomialFeatures(degree=25)

Ridge(alpha=1000000000.0)

model_regularized.best_params_

{'ridge__alpha': 1000000000.0}

# The name of the lambda hyperparameter in sklearn is alpha.
fig = px.scatter(x=X_train['x'], y=y_train, title="Sample 1's Training Data")
fig.add_trace(go.Scatter(
    x=X_train['x'].sort_values(),
    y=model.predict(X_train.sort_values('x')),
    mode='lines',
    line=dict(width=4),
    name='Unregularized Polynomial of Degree 25'
))
fig.add_trace(go.Scatter(
    x=X_train['x'].sort_values(),
    y=model_regularized.predict(X_train.sort_values('x')),
    mode='lines',
    line=dict(width=4, color='green'),
    name='Regularized Polynomial of Degree 25'
))

pd.Series(model_regularized.best_estimator_.named_steps['ridge'].coef_).abs().sort_values(ascending=False).head()

20    1.36e-04
17    1.29e-04
15    8.57e-05
19    8.49e-05
16    5.68e-05
dtype: float64

X_train, X_test, y_train, y_test = train_test_split(df.drop('minutes', axis=1), df['minutes'], random_state=23)

commute_models_summarized

commute_pipe = make_pipeline(
        make_column_transformer(
        (PolynomialFeatures(3), ['departure_hour']),
        (OneHotEncoder(drop='first', handle_unknown='ignore'), ['day', 'month']),
        (day_of_month_transformer, ['day_of_month']),
    ),
    Ridge())

lambdas = 10.0 ** np.arange(-10, 15) # Try 0.00000000001, ..., 1, 10, 100, 1000, ... 
hyperparams = {
    'ridge__alpha': lambdas 
}

commute_model_regularized = GridSearchCV(
    commute_pipe,
    param_grid = hyperparams,
    scoring='neg_mean_squared_error',
    cv=10
)
commute_model_regularized.fit(X_train, y_train)

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('columntransformer',
                                        ColumnTransformer(transformers=[('polynomialfeatures',
                                                                         PolynomialFeatures(degree=3),
                                                                         ['departure_hour']),
                                                                        ('onehotencoder',
                                                                         OneHotEncoder(drop='first',
                                                                                       handle_unknown='ignore'),
                                                                         ['day',
                                                                          'month']),
                                                                        ('pipeline',
                                                                         Pipeline(steps=[('functiontransformer',
                                                                                          FunctionTransformer(func=<function <lambda> at 0x177a80820>)),
                                                                                         ('onehotencoder',
                                                                                          OneHotEncoder(drop='first'))]),
                                                                         ['day_of_month'])])),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-10, 1.e-09, 1.e-08, ..., 1.e+12, 1.e+13, 1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('columntransformer',
                                        ColumnTransformer(transformers=[('polynomialfeatures',
                                                                         PolynomialFeatures(degree=3),
                                                                         ['departure_hour']),
                                                                        ('onehotencoder',
                                                                         OneHotEncoder(drop='first',
                                                                                       handle_unknown='ignore'),
                                                                         ['day',
                                                                          'month']),
                                                                        ('pipeline',
                                                                         Pipeline(steps=[('functiontransformer',
                                                                                          FunctionTransformer(func=<function <lambda> at 0x177a80820>)),
                                                                                         ('onehotencoder',
                                                                                          OneHotEncoder(drop='first'))]),
                                                                         ['day_of_month'])])),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-10, 1.e-09, 1.e-08, ..., 1.e+12, 1.e+13, 1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first',
                                                                handle_unknown='ignore'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(func=<function <lambda> at 0x177a80820>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])])),
                ('ridge', Ridge())])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3),
                                 ['departure_hour']),
                                ('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='ignore'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(func=<function <lambda> at 0x177a80820>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3)

['day', 'month']

OneHotEncoder(drop='first', handle_unknown='ignore')

['day_of_month']

FunctionTransformer(func=<function <lambda> at 0x177a80820>)

commute_model_regularized.best_params_

{'ridge__alpha': 1.0}

(
    pd.Series(-commute_model_regularized.cv_results_['mean_test_score'], 
              index=np.log(lambdas))
    .to_frame()
    .reset_index()
    .plot(kind='line', x='index', y=0)
    .update_layout(xaxis_title='$\log(\lambda)$', yaxis_title='Average Validation MSE')
)

	Deg 1	Deg 2	Deg 3	Deg 4	...	Deg 22	Deg 23	Deg 24	Deg 25
Validation Fold
Fold 1	24.36	14.06	7.45	7.62	...	40.48	69.03	43.38	220.49
Fold 2	31.50	19.17	7.05	10.85	...	796.97	1446.11	2208.78	5666.03
Fold 3	15.64	11.78	9.39	9.48	...	61.79	80.64	474.69	4620.71
Fold 4	25.95	17.57	9.47	9.46	...	12.24	12.02	11.86	15.02
Fold 5	11.12	4.74	4.44	4.81	...	8.85	8.54	8.65	8.27

	0	1	2	3	...	21	22	23	24
0	24.36	14.06	7.45	7.62	...	40.48	69.03	43.38	220.49
1	31.50	19.17	7.05	10.85	...	796.97	1446.11	2208.78	5666.03
2	15.64	11.78	9.39	9.48	...	61.79	80.64	474.69	4620.71
3	25.95	17.57	9.47	9.46	...	12.24	12.02	11.86	15.02
4	11.12	4.74	4.44	4.81	...	8.85	8.54	8.65	8.27

	date	day	home_departure_time	home_departure_mileage	...	work_departure_time_hr	mileage_to_home	day_of_month	month
0	5/15/2023	Mon	2023-05-15 10:49:00	15873.0	...	17.17	53.0	15	May
1	5/16/2023	Tue	2023-05-16 07:45:00	15979.0	...	NaN	NaN	16	May
2	5/22/2023	Mon	2023-05-22 08:27:00	50407.0	...	15.90	54.0	22	May
3	5/23/2023	Tue	2023-05-23 07:08:00	50535.0	...	NaN	NaN	23	May
4	5/30/2023	Tue	2023-05-30 09:09:00	50664.0	...	17.12	54.0	30	May

	x	y
0	0	9.0
1	10	1.0
2	20	58.0
3	30	3.0
4	40	6.0
5	50	4.0
6	60	-2.0
7	70	8.0
8	80	1.0
9	90	10.0
10	100	1.1
11	110	-45.0

Lecture 20¶

Cross-Validation and Regularization¶

EECS 398-003: Practical Data Science, Fall 2024¶

Announcements 📣¶

Come say hi tonight!¶

Agenda¶

Additional resources¶

Question 🤔 (Answer at practicaldsc.org/q)

Recap: Generalization, hyperparameters, and train-test splits¶

Generalization¶

Conducting train-test splits¶

But wait...¶

Cross-validation¶

Idea: A single validation set¶

A better idea: $k$-fold cross-validation¶

Illustrating $k$-fold cross-validation¶

$k$-fold cross-validation, in general¶

Loading the data¶

$k$-fold cross-validation in sklearn¶

$k$-fold cross-validation in sklearn¶

Question 🤔 (Answer at practicaldsc.org/q)

Grid search¶

An easier approach: GridSearchCV¶

Grid searching for the best polynomial degree¶

Another example: Commute times¶

Creating many pipelines¶

Summary: Generalization¶

Question 🤔 (Answer at practicaldsc.org/q)

Regularization¶

Motivation¶

Polynomial regression returns!¶

Penalizing large parameters¶

Ridge regression¶

Question 🤔 (Answer at practicaldsc.org/q)

Ridge regression, visualized¶

Finding $\vec{w}_\text{ridge}^*$¶

Taking a step back¶

Ridge regression in sklearn¶

Using GridSearchCV to choose $\lambda$¶

Another example: Commute times¶

Ridge regression for commute times¶

What's next?¶

$k$-fold cross-validation in `sklearn`¶

$k$-fold cross-validation in `sklearn`¶

An easier approach: `GridSearchCV`¶

Ridge regression in `sklearn`¶

Using `GridSearchCV` to choose $\lambda$¶