from lec_utils import *
import lec19_util as util
from IPython.display import Markdown
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures, OneHotEncoder, FunctionTransformer, StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import make_pipeline
from sklearn.compose import make_column_transformer

sample_1 = util.sample_from_pop()
X_train, X_test, y_train, y_test = train_test_split(sample_1[['x']], sample_1['y'], random_state=23)
px.scatter(x=X_train['x'], y=y_train, title="Sample 1's Training Data", width=800, height=600)

Pipeline(steps=[('polynomialfeatures',
                 PolynomialFeatures(degree=25, include_bias=False)),
                ('ridge', Ridge(alpha=1000000000000000000000000000))])

Pipeline(steps=[('polynomialfeatures',
                 PolynomialFeatures(degree=25, include_bias=False)),
                ('ridge', Ridge(alpha=1000000000000000000000000000))])

PolynomialFeatures(degree=25, include_bias=False)

Ridge(alpha=1000000000000000000000000000)

3.6606542664388497

array([0., 0., 0., ..., 0., 0., 0.])

3.662415381952351

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25,
                                                           include_bias=False)),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25,
                                                           include_bias=False)),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures',
                 PolynomialFeatures(degree=25, include_bias=False)),
                ('ridge', Ridge(alpha=1000000000.0))])

sample_1 = util.sample_from_pop()
X_train, X_test, y_train, y_test = train_test_split(sample_1[['x']], sample_1['y'], random_state=23)
px.scatter(x=X_train['x'], y=y_train, title="Sample 1's Training Data", width=800, height=600)

interact(lambda d: util.fit_and_show_fit(X_train, y_train, d)[1], d=(1, 25));

model, fig = util.fit_and_show_fit(X_train, y_train, d=25)
fig

# These coefficients are rounded to two decimal places.
# The coefficient on x^25 is not 0.00, but is something very small.
util.display_features(model.named_steps['linearregression'])

util.plot_coefficient_magnitudes(model.named_steps['linearregression'])

util.show_ols_surface()

util.show_ols_contour()

util.show_ridge_contour()

from sklearn.linear_model import Ridge

# The name of the lambda hyperparameter in sklearn is alpha.
model_large_lambda = make_pipeline(PolynomialFeatures(25, include_bias=False), 
                                   Ridge(alpha=1000000000000000000000000000))
model_large_lambda.fit(X_train, y_train)

Pipeline(steps=[('polynomialfeatures',
                 PolynomialFeatures(degree=25, include_bias=False)),
                ('ridge', Ridge(alpha=1000000000000000000000000000))])

Pipeline(steps=[('polynomialfeatures',
                 PolynomialFeatures(degree=25, include_bias=False)),
                ('ridge', Ridge(alpha=1000000000000000000000000000))])

PolynomialFeatures(degree=25, include_bias=False)

Ridge(alpha=1000000000000000000000000000)

util.plot_given_model_dict(X_train, y_train, {'Extremely Regularized Polynomial of Degree 25': (model_large_lambda, 'purple')})

model_large_lambda.named_steps['ridge'].intercept_

3.6606542664388497

# All 0!
model_large_lambda.named_steps['ridge'].coef_

array([0., 0., 0., ..., 0., 0., 0.])

y_train.mean()

3.662415381952351

hyperparams = {
    'ridge__alpha': 10.0 ** np.arange(-2, 15) # Try 0.01, 0.1, 1, 10, 100, 1000, ... 
}
model_regularized = GridSearchCV(
    estimator=make_pipeline(PolynomialFeatures(25, include_bias=False), Ridge()),
    param_grid=hyperparams,
    scoring='neg_mean_squared_error'
)
model_regularized.fit(X_train, y_train)

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25,
                                                           include_bias=False)),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25,
                                                           include_bias=False)),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures',
                 PolynomialFeatures(degree=25, include_bias=False)),
                ('ridge', Ridge(alpha=1000000000.0))])

PolynomialFeatures(degree=25, include_bias=False)

Ridge(alpha=1000000000.0)

model_regularized.best_params_

{'ridge__alpha': 1000000000.0}

util.plot_given_model_dict(X_train, y_train,
                           {'Unregularized Polynomial of Degree 25': (model, '#ff7f0f'),
                            'Regularized Polynomial of Degree 25': (model_regularized, 'green')})

util.display_features(model_regularized.best_estimator_.named_steps['ridge'], precision=8)

util.plot_coefficient_magnitudes(model_regularized.best_estimator_.named_steps['ridge'])

hyperparams = {
    'ridge__alpha': 10.0 ** np.arange(-2, 15),
    'polynomialfeatures__degree': range(1, 26)
}
model_regularized_degree = GridSearchCV(
    estimator=make_pipeline(PolynomialFeatures(include_bias=False), Ridge()),
    param_grid=hyperparams,
    scoring='neg_mean_squared_error'
)
model_regularized_degree.fit(X_train, y_train)

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(include_bias=False)),
                                       ('ridge', Ridge())]),
             param_grid={'polynomialfeatures__degree': range(1, 26),
                         'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(include_bias=False)),
                                       ('ridge', Ridge())]),
             param_grid={'polynomialfeatures__degree': range(1, 26),
                         'ridge__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures',
                 PolynomialFeatures(degree=3, include_bias=False)),
                ('ridge', Ridge(alpha=100.0))])

PolynomialFeatures(degree=3, include_bias=False)

Ridge(alpha=100.0)

model_regularized_degree.best_params_

{'polynomialfeatures__degree': 3, 'ridge__alpha': 100.0}

polyfig = util.plot_given_model_dict(X_train, y_train,
                                     {'Unregularized Polynomial of Degree 25': (model, '#ff7f0f'),
                                      'Regularized Polynomial of Degree 25': (model_regularized, 'green'),
                                      'Regularized Polynomial of Degree 3': (model_regularized_degree, 'skyblue')})
polyfig

util.display_features(model_regularized_degree.best_estimator_.named_steps['ridge'])

from sklearn.metrics import mean_squared_error
unregularized_train = mean_squared_error(y_train, model.predict(X_train))
unregularized_test = mean_squared_error(y_test, model.predict(X_test))
regularized_lambda_train = mean_squared_error(y_train, model_regularized.predict(X_train))
regularized_lambda_validation = (-model_regularized.cv_results_['mean_test_score']).min()
regularized_lambda_test = mean_squared_error(y_test, model_regularized.predict(X_test))
regularized_lambda_degree_train = mean_squared_error(y_train, model_regularized_degree.predict(X_train))
regularized_lambda_degree_validation = (-model_regularized_degree.cv_results_['mean_test_score']).min()
regularized_lambda_degree_test = mean_squared_error(y_test, model_regularized_degree.predict(X_test))
results_df = pd.DataFrame(index=['training MSE', 'average validation MSE (across all folds)', 'test MSE']).assign(
    unregularized=[unregularized_train, np.nan, unregularized_test],
    regularized_lambda_only=[regularized_lambda_train, regularized_lambda_validation, regularized_lambda_test],
    regularized_lambda_and_degree=[regularized_lambda_degree_train, regularized_lambda_degree_validation, regularized_lambda_degree_test]
)

reprs = {'unregularized': '<b><span style="color:#ff7f0f">Unregularized (Degree 25)</span></b>',
         'regularized_lambda_only': '<b><span style="color:green">Regularized (Degree 25)<br><small>Used cross-validation to choose $\lambda$</span></b>',
         'regularized_lambda_and_degree': '<b><span style="color:skyblue">Regularized (Degree 3)<br><small>Used cross-validation to choose $\lambda$ and degree</small></span></b>'}

results_df_str = results_df.to_html()
for rep in reprs:
    results_df_str = results_df_str.replace(rep, reprs[rep])

polyfig

display(HTML(results_df_str))

from sklearn.linear_model import Lasso

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25,
                                                           include_bias=False)),
                                       ('lasso', Lasso())]),
             param_grid={'lasso__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25,
                                                           include_bias=False)),
                                       ('lasso', Lasso())]),
             param_grid={'lasso__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures',
                 PolynomialFeatures(degree=25, include_bias=False)),
                ('lasso', Lasso(alpha=0.1))])

PolynomialFeatures(degree=25, include_bias=False)

Lasso(alpha=0.1)

{'lasso__alpha': 0.1}

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first',
                                                                handle_unknown='ignore'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(feature_names_out='one-to-one',
                                                                                       func=<function <lambda> at 0x167e38f70>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])]))])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='ignore'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(feature_names_out='one-to-one',
                                                                      func=<function <lambda> at 0x167e38f70>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

from sklearn.linear_model import Lasso

hyperparams = {
    'lasso__alpha': 10.0 ** np.arange(-2, 15)
}
model_regularized_lasso = GridSearchCV(
    estimator=make_pipeline(PolynomialFeatures(25, include_bias=False), Lasso()),
    param_grid=hyperparams,
    scoring='neg_mean_squared_error'
)
model_regularized_lasso.fit(X_train, y_train)

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25,
                                                           include_bias=False)),
                                       ('lasso', Lasso())]),
             param_grid={'lasso__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures',
                                        PolynomialFeatures(degree=25,
                                                           include_bias=False)),
                                       ('lasso', Lasso())]),
             param_grid={'lasso__alpha': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10, 1.e+11, 1.e+12, 1.e+13,
       1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('polynomialfeatures',
                 PolynomialFeatures(degree=25, include_bias=False)),
                ('lasso', Lasso(alpha=0.1))])

PolynomialFeatures(degree=25, include_bias=False)

Lasso(alpha=0.1)

model_regularized_lasso.best_params_

{'lasso__alpha': 0.1}

util.plot_given_model_dict(X_train, y_train,
                                     {'Unregularized Polynomial of Degree 25': (model, '#ff7f0f'),
                                      'Regularized Polynomial of Degree 25': (model_regularized, 'green'),
                                      'Regularized Polynomial of Degree 3': (model_regularized_degree, 'skyblue'),
                                      'Regularized Polynomial of Degree 25, using LASSO': (model_regularized_lasso, 'red')})

util.display_features(model_regularized_lasso.best_estimator_.named_steps['lasso'], precision=8)

display(Markdown('#### Fit using Ridge:'))
util.display_features(model_regularized.best_estimator_.named_steps['ridge'], precision=8)

util.plot_coefficient_magnitudes(model_regularized.best_estimator_.named_steps['ridge'])

display(Markdown('#### Fit using LASSO (notice the larger coefficient on $x^3$):'))
util.display_features(model_regularized_lasso.best_estimator_.named_steps['lasso'], precision=8)

util.plot_coefficient_magnitudes(model_regularized_lasso.best_estimator_.named_steps['lasso'])

util.show_lasso_contour()

df = pd.read_csv('data/commute-times.csv')
df['day_of_month'] = pd.to_datetime(df['date']).dt.day
df['month'] = pd.to_datetime(df['date']).dt.month_name()
df.head()

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first',
                                                                handle_unknown='ignore'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(feature_names_out='one-to-one',
                                                                                       func=<function <lambda> at 0x167e38f70>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])]))])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='ignore'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(feature_names_out='one-to-one',
                                                                      func=<function <lambda> at 0x167e38f70>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first', handle_unknown='ignore')

['day_of_month']

FunctionTransformer(feature_names_out='one-to-one',
                    func=<function <lambda> at 0x167e38f70>)

df = pd.read_csv('data/commute-times.csv')
df['day_of_month'] = pd.to_datetime(df['date']).dt.day
df['month'] = pd.to_datetime(df['date']).dt.month_name()
df.head()

X_train, X_test, y_train, y_test = train_test_split(df.drop('minutes', axis=1), df['minutes'], random_state=23)

week_converter = FunctionTransformer(lambda s: 'Week ' + ((s - 1) // 7 + 1).astype(str),
                                     feature_names_out='one-to-one')
day_of_month_transformer = make_pipeline(week_converter, OneHotEncoder(drop='first'))
# Note the include_bias=False once again!
commute_feature_pipe = make_pipeline(
    make_column_transformer(
        (PolynomialFeatures(3, include_bias=False), ['departure_hour']),
        (OneHotEncoder(drop='first', handle_unknown='ignore'), ['day', 'month']),
        (day_of_month_transformer, ['day_of_month']),
    )
)

commute_model_ols = make_pipeline(commute_feature_pipe, LinearRegression())
commute_model_ols

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first',
                                                                handle_unknown='ignore'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(feature_names_out='one-to-one',
                                                                                       func=<function <lambda> at 0x167e38f70>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])]))])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='ignore'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(feature_names_out='one-to-one',
                                                                      func=<function <lambda> at 0x167e38f70>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first', handle_unknown='ignore')

['day_of_month']

FunctionTransformer(feature_names_out='one-to-one',
                    func=<function <lambda> at 0x167e38f70>)

commute_model_ols.fit(X_train, y_train)

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first',
                                                                handle_unknown='ignore'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(feature_names_out='one-to-one',
                                                                                       func=<function <lambda> at 0x167e38f70>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])]))])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='ignore'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(feature_names_out='one-to-one',
                                                                      func=<function <lambda> at 0x167e38f70>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first', handle_unknown='ignore')

['day_of_month']

FunctionTransformer(feature_names_out='one-to-one',
                    func=<function <lambda> at 0x167e38f70>)

commute_pipe_ridge = make_pipeline(commute_feature_pipe, Ridge())
commute_pipe_ridge

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('ridge', Ridge())])

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('ridge', Ridge())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first',
                                                                handle_unknown='ignore'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(feature_names_out='one-to-one',
                                                                                       func=<function <lambda> at 0x167e38f70>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])]))])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='ignore'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(feature_names_out='one-to-one',
                                                                      func=<function <lambda> at 0x167e38f70>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first', handle_unknown='ignore')

['day_of_month']

FunctionTransformer(feature_names_out='one-to-one',
                    func=<function <lambda> at 0x167e38f70>)

lambdas = 10.0 ** np.arange(-10, 15)
hyperparams = {
    'ridge__alpha': lambdas 
}

commute_model_ridge = GridSearchCV(
    commute_pipe_ridge,
    param_grid = hyperparams,
    scoring='neg_mean_squared_error',
    cv=10
)
commute_model_ridge.fit(X_train, y_train)

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('pipeline',
                                        Pipeline(steps=[('columntransformer',
                                                         ColumnTransformer(transformers=[('polynomialfeatures',
                                                                                          PolynomialFeatures(degree=3,
                                                                                                             include_bias=False),
                                                                                          ['departure_hour']),
                                                                                         ('onehotencoder',
                                                                                          OneHotEncoder(drop='first',
                                                                                                        handle_unknown='ignore'),
                                                                                          ['day',
                                                                                           'month']),
                                                                                         ('pipeline',
                                                                                          Pipeline(steps=[('functiontransformer',
                                                                                                           FunctionTransformer(feature_names_out='one-to-one',
                                                                                                                               func=<function <lambda> at 0x167e38f70>)),
                                                                                                          ('onehotencoder',
                                                                                                           OneHotEncoder(drop='first'))]),
                                                                                          ['day_of_month'])]))])),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-10, 1.e-09, 1.e-08, ..., 1.e+12, 1.e+13, 1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('pipeline',
                                        Pipeline(steps=[('columntransformer',
                                                         ColumnTransformer(transformers=[('polynomialfeatures',
                                                                                          PolynomialFeatures(degree=3,
                                                                                                             include_bias=False),
                                                                                          ['departure_hour']),
                                                                                         ('onehotencoder',
                                                                                          OneHotEncoder(drop='first',
                                                                                                        handle_unknown='ignore'),
                                                                                          ['day',
                                                                                           'month']),
                                                                                         ('pipeline',
                                                                                          Pipeline(steps=[('functiontransformer',
                                                                                                           FunctionTransformer(feature_names_out='one-to-one',
                                                                                                                               func=<function <lambda> at 0x167e38f70>)),
                                                                                                          ('onehotencoder',
                                                                                                           OneHotEncoder(drop='first'))]),
                                                                                          ['day_of_month'])]))])),
                                       ('ridge', Ridge())]),
             param_grid={'ridge__alpha': array([1.e-10, 1.e-09, 1.e-08, ..., 1.e+12, 1.e+13, 1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('ridge', Ridge())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first',
                                                                handle_unknown='ignore'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(feature_names_out='one-to-one',
                                                                                       func=<function <lambda> at 0x167e38f70>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])]))])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='ignore'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(feature_names_out='one-to-one',
                                                                      func=<function <lambda> at 0x167e38f70>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first', handle_unknown='ignore')

['day_of_month']

commute_model_ridge.best_params_

{'ridge__alpha': 1.0}

(
    pd.Series(-commute_model_ridge.cv_results_['mean_test_score'], 
              index=np.log10(lambdas))
    .to_frame()
    .reset_index()
    .plot(kind='line', x='index', y=0)
    .update_layout(xaxis_title='$\log(\lambda)$', yaxis_title='Average Validation MSE')
)

commute_pipe_lasso = make_pipeline(commute_feature_pipe, Lasso())
commute_pipe_lasso

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('lasso', Lasso())])

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('lasso', Lasso())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first',
                                                                handle_unknown='ignore'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(feature_names_out='one-to-one',
                                                                                       func=<function <lambda> at 0x167e38f70>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])]))])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='ignore'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(feature_names_out='one-to-one',
                                                                      func=<function <lambda> at 0x167e38f70>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first', handle_unknown='ignore')

['day_of_month']

FunctionTransformer(feature_names_out='one-to-one',
                    func=<function <lambda> at 0x167e38f70>)

lambdas = 10.0 ** np.arange(-10, 15)
hyperparams = {
    'lasso__alpha': lambdas 
}

commute_model_lasso = GridSearchCV(
    commute_pipe_lasso,
    param_grid = hyperparams,
    scoring='neg_mean_squared_error',
    cv=10
)
commute_model_lasso.fit(X_train, y_train)

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('pipeline',
                                        Pipeline(steps=[('columntransformer',
                                                         ColumnTransformer(transformers=[('polynomialfeatures',
                                                                                          PolynomialFeatures(degree=3,
                                                                                                             include_bias=False),
                                                                                          ['departure_hour']),
                                                                                         ('onehotencoder',
                                                                                          OneHotEncoder(drop='first',
                                                                                                        handle_unknown='ignore'),
                                                                                          ['day',
                                                                                           'month']),
                                                                                         ('pipeline',
                                                                                          Pipeline(steps=[('functiontransformer',
                                                                                                           FunctionTransformer(feature_names_out='one-to-one',
                                                                                                                               func=<function <lambda> at 0x167e38f70>)),
                                                                                                          ('onehotencoder',
                                                                                                           OneHotEncoder(drop='first'))]),
                                                                                          ['day_of_month'])]))])),
                                       ('lasso', Lasso())]),
             param_grid={'lasso__alpha': array([1.e-10, 1.e-09, 1.e-08, ..., 1.e+12, 1.e+13, 1.e+14])},
             scoring='neg_mean_squared_error')

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('pipeline',
                                        Pipeline(steps=[('columntransformer',
                                                         ColumnTransformer(transformers=[('polynomialfeatures',
                                                                                          PolynomialFeatures(degree=3,
                                                                                                             include_bias=False),
                                                                                          ['departure_hour']),
                                                                                         ('onehotencoder',
                                                                                          OneHotEncoder(drop='first',
                                                                                                        handle_unknown='ignore'),
                                                                                          ['day',
                                                                                           'month']),
                                                                                         ('pipeline',
                                                                                          Pipeline(steps=[('functiontransformer',
                                                                                                           FunctionTransformer(feature_names_out='one-to-one',
                                                                                                                               func=<function <lambda> at 0x167e38f70>)),
                                                                                                          ('onehotencoder',
                                                                                                           OneHotEncoder(drop='first'))]),
                                                                                          ['day_of_month'])]))])),
                                       ('lasso', Lasso())]),
             param_grid={'lasso__alpha': array([1.e-10, 1.e-09, 1.e-08, ..., 1.e+12, 1.e+13, 1.e+14])},
             scoring='neg_mean_squared_error')

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('lasso', Lasso(alpha=0.1))])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first',
                                                                handle_unknown='ignore'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(feature_names_out='one-to-one',
                                                                                       func=<function <lambda> at 0x167e38f70>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])]))])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='ignore'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(feature_names_out='one-to-one',
                                                                      func=<function <lambda> at 0x167e38f70>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first', handle_unknown='ignore')

['day_of_month']

commute_model_lasso.best_params_

{'lasso__alpha': 0.1}

commute_results = pd.concat([
    util.display_commute_coefs(commute_model_ols),
    util.display_commute_coefs(commute_model_ridge.best_estimator_),
    util.display_commute_coefs(commute_model_lasso.best_estimator_)
], axis=1)
commute_results.columns = ['ols', 'ridge', 'lasso']

display_df(commute_results, rows=22)

display_df(
    commute_results.loc[commute_results['lasso'] != 0, 'lasso'],
    rows=22
)

feature
intercept                               2.54e+02
polynomialfeatures__departure_hour     -2.10e+01
polynomialfeatures__departure_hour^2   -1.70e+00
polynomialfeatures__departure_hour^3    1.81e-01
onehotencoder__day_Mon                 -2.70e+00
onehotencoder__day_Thu                  9.00e+00
onehotencoder__day_Tue                  8.68e+00
onehotencoder__month_December           4.06e+00
onehotencoder__month_February          -5.81e+00
onehotencoder__month_June               5.14e+00
onehotencoder__month_March             -8.17e-01
onehotencoder__month_May                5.57e+00
pipeline__day_of_month_Week 2           3.23e-01
pipeline__day_of_month_Week 3           4.57e+00
pipeline__day_of_month_Week 5           4.78e-03
Name: lasso, dtype: float64

def control_alpha(lamb):
    commute_pipe_lasso = make_pipeline(commute_feature_pipe, Lasso(alpha=lamb))
    commute_pipe_lasso.fit(X_train, y_train)
    coefs = commute_pipe_lasso[-1].coef_
    names = commute_pipe_lasso[0].get_feature_names_out()
    s = pd.Series(coefs, index=names)
    fig = px.bar(x=s, y=s.index, title=f'Coefficients using LASSO with lambda={lamb}', height=800, width=800)
    fig.update_layout(xaxis_title='Coefficient', yaxis_title='Feature')
    return fig
interact(control_alpha, lamb=(0, 3, 0.01));

model_dict = {'ols': commute_model_ols, 'ridge': commute_model_ridge, 'lasso': commute_model_lasso}
df = pd.DataFrame().assign(**{
    'Model': model_dict.keys(),
    'Training MSE': [mean_squared_error(y_train, model_dict[model].predict(X_train)) for model in model_dict],
    'Test MSE': [mean_squared_error(y_test, model_dict[model].predict(X_test)) for model in model_dict]
}).set_index('Model')
df.plot(kind='barh', barmode='group')

# In other words, commute_feature_pipe should've been this!
make_pipeline(commute_feature_pipe, StandardScaler())

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('standardscaler', StandardScaler())])

Pipeline(steps=[('pipeline',
                 Pipeline(steps=[('columntransformer',
                                  ColumnTransformer(transformers=[('polynomialfeatures',
                                                                   PolynomialFeatures(degree=3,
                                                                                      include_bias=False),
                                                                   ['departure_hour']),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first',
                                                                                 handle_unknown='ignore'),
                                                                   ['day',
                                                                    'month']),
                                                                  ('pipeline',
                                                                   Pipeline(steps=[('functiontransformer',
                                                                                    FunctionTransformer(feature_names_out='one-to-one',
                                                                                                        func=<function <lambda> at 0x167e38f70>)),
                                                                                   ('onehotencoder',
                                                                                    OneHotEncoder(drop='first'))]),
                                                                   ['day_of_month'])]))])),
                ('standardscaler', StandardScaler())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first',
                                                                handle_unknown='ignore'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(feature_names_out='one-to-one',
                                                                                       func=<function <lambda> at 0x167e38f70>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])]))])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='ignore'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(feature_names_out='one-to-one',
                                                                      func=<function <lambda> at 0x167e38f70>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first', handle_unknown='ignore')

['day_of_month']

FunctionTransformer(feature_names_out='one-to-one',
                    func=<function <lambda> at 0x167e38f70>)

	Unregularized (Degree 25)	Regularized (Degree 25) Used cross-validation to choose $\lambda$	Regularized (Degree 3) Used cross-validation to choose $\lambda$ and degree
training MSE	4.72	10.33	7.11
average validation MSE (across all folds)	NaN	17.60	7.40
test MSE	14.21	17.17	10.52

	date	day	home_departure_time	home_departure_mileage	...	work_departure_time_hr	mileage_to_home	day_of_month	month
0	5/15/2023	Mon	2023-05-15 10:49:00	15873.0	...	17.17	53.0	15	May
1	5/16/2023	Tue	2023-05-16 07:45:00	15979.0	...	NaN	NaN	16	May
2	5/22/2023	Mon	2023-05-22 08:27:00	50407.0	...	15.90	54.0	22	May
3	5/23/2023	Tue	2023-05-23 07:08:00	50535.0	...	NaN	NaN	23	May
4	5/30/2023	Tue	2023-05-30 09:09:00	50664.0	...	17.12	54.0	30	May

	ols	ridge	lasso
feature
intercept	460.31	214.15	2.54e+02
polynomialfeatures__departure_hour	-94.79	-0.71	-2.10e+01
polynomialfeatures__departure_hour^2	6.80	-4.63	-1.70e+00
polynomialfeatures__departure_hour^3	-0.14	0.31	1.81e-01
onehotencoder__day_Mon	-0.61	-5.74	-2.70e+00
onehotencoder__day_Thu	13.30	6.04	9.00e+00
onehotencoder__day_Tue	11.19	5.52	8.68e+00
onehotencoder__day_Wed	5.73	-0.46	0.00e+00
onehotencoder__month_December	8.90	2.82	4.06e+00
onehotencoder__month_February	-5.33	-7.14	-5.81e+00
onehotencoder__month_January	1.93	0.39	0.00e+00
onehotencoder__month_July	2.46	0.44	0.00e+00
onehotencoder__month_June	6.28	4.45	5.14e+00
onehotencoder__month_March	-0.76	-1.70	-8.17e-01
onehotencoder__month_May	9.36	4.95	5.57e+00
onehotencoder__month_November	1.40	-1.81	-0.00e+00
onehotencoder__month_October	2.06	0.22	0.00e+00
onehotencoder__month_September	-3.20	0.05	-0.00e+00
pipeline__day_of_month_Week 2	0.91	1.39	3.23e-01
pipeline__day_of_month_Week 3	6.30	4.70	4.57e+00
pipeline__day_of_month_Week 4	0.28	-0.20	-0.00e+00
pipeline__day_of_month_Week 5	2.09	0.76	4.78e-03

Lecture 19¶

Regularization¶

EECS 398: Practical Data Science, Spring 2025¶

Agenda 📆¶

Question 🤔 (Answer at practicaldsc.org/q)

Ridge regression 🏔️¶

Motivation¶

Polynomial regression returns¶

Inspecting the fit degree 25 polynomial¶

Ridge regression¶

Activity¶

Another interpretation of ridge regression¶

Aside: Contour plots¶

Visualizing ridge regression as a constrained optimization problem¶

Finding $\vec{w}_\text{ridge}^*$¶

Visualizing ridge regression as an unconstrained optimization problem¶

Taking a step back¶

Ridge regression in sklearn¶

Visualizing the extremely regularized model¶

Using GridSearchCV to choose $\lambda$¶

Visualizing the regularized degree 25 model¶

Tuning multiple hyperparameters at once¶

Visualizing the regularized degree 3 model¶

Comparing training, validation, and test errors¶

What's next?¶

Question 🤔 (Answer at practicaldsc.org/q)

LASSO 📿¶

Penalizing large parameters¶

Aside: Vector norms¶

LASSO in sklearn¶

Visualizing the regularized degree 25 model, fit with LASSO¶

When using LASSO, many coefficients are set to 0!¶

Fit using Ridge:¶

Fit using LASSO (notice the larger coefficient on $x^3$):¶

Why does LASSO encourage sparsity?¶

Visualizing LASSO as a constrained optimization problem¶

Question 🤔 (Answer at practicaldsc.org/q)

Example: Commute times¶

Another example: Commute times¶

Ordinary least squares for commute times¶

Ridge regression for commute times¶

Aside: average validation error vs. $\lambda$¶

LASSO for commute times¶

Comparing coefficients across models¶

Feature selection¶

Comparing training and test errors across models¶

Standardize when regularizing¶

Question 🤔 (Answer at practicaldsc.org/q)

Ridge regression in `sklearn`¶

Using `GridSearchCV` to choose $\lambda$¶

LASSO in `sklearn`¶