from lec_utils import *
import lec17_util as util

df = pd.read_csv('data/commute-times.csv')
df['day_of_month'] = pd.to_datetime(df['date']).dt.day
df['month'] = pd.to_datetime(df['date']).dt.month_name()
df.head()

OneHotEncoder()

OneHotEncoder()

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 130 stored elements and shape (65, 16)>

array([[0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       ...,
       [0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.]])

array(['day_Fri', 'day_Mon', 'day_Thu', 'day_Tue', 'day_Wed',
       'month_August', 'month_December', 'month_February',
       'month_January', 'month_July', 'month_June', 'month_March',
       'month_May', 'month_November', 'month_October', 'month_September'],
      dtype=object)

LinearRegression()

LinearRegression()

(-82.57574306454093, array([3.08]))

101.58853248632849

LinearRegression()

df = pd.read_csv('data/commute-times.csv')
df['day_of_month'] = pd.to_datetime(df['date']).dt.day
df['month'] = pd.to_datetime(df['date']).dt.month_name()
df.head()

df[['day', 'month']]

df[['day', 'month']]

from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder()

ohe.fit(df[['day', 'month']])

OneHotEncoder()

OneHotEncoder()

ohe.transform(df[['day', 'month']])

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 130 stored elements and shape (65, 16)>

ohe.transform(df[['day', 'month']]).toarray()

array([[0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       ...,
       [0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.]])

ohe.get_feature_names_out()

array(['day_Fri', 'day_Mon', 'day_Thu', 'day_Tue', 'day_Wed',
       'month_August', 'month_December', 'month_February',
       'month_January', 'month_July', 'month_June', 'month_March',
       'month_May', 'month_November', 'month_October', 'month_September'],
      dtype=object)

pd.DataFrame(ohe.transform(df[['day', 'month']]).toarray(), 
             columns=ohe.get_feature_names_out()) # If we need a DataFrame back, for some reason.

people = pd.read_csv('data/heights-weights.csv').drop(columns=['Index'])
people.head()

people.plot(kind='scatter', x='Height (Inches)', y='Weight (Pounds)', 
            title='Weight vs. Height for 25,000 18 Year Olds')

X = people[['Height (Inches)']]
y = people['Weight (Pounds)']

from sklearn.linear_model import LinearRegression
people_one_feat = LinearRegression()
people_one_feat.fit(X, y)

LinearRegression()

LinearRegression()

people_one_feat.intercept_, people_one_feat.coef_

(-82.57574306454093, array([3.08]))

from sklearn.metrics import mean_squared_error
mean_squared_error(y, people_one_feat.predict(X))

101.58853248632849

people['Height (Feet)'] = people['Height (Inches)'] / 12 # 12 inches = 1 foot.

X2 = people[['Height (Inches)', 'Height (Feet)']]
X2

people_two_feat = LinearRegression()
people_two_feat.fit(X2, y)

LinearRegression()

LinearRegression()

people_two_feat.intercept_, people_two_feat.coef_

(-82.59155502376602, array([-2.32e+11,  2.78e+12]))

mean_squared_error(y, people_two_feat.predict(X2))

101.58844271417476

-80 + 5 * people['Height (Inches)'] - 24 * people['Height (Feet)']

0        117.35
1        134.55
2        128.20
          ...  
24997    114.10
24998    122.59
24999    126.63
Length: 25000, dtype: float64

-80 - 1 * people['Height (Inches)'] + 48 * people['Height (Feet)']

0        117.35
1        134.55
2        128.20
          ...  
24997    114.10
24998    122.59
24999    126.63
Length: 25000, dtype: float64

df[['day', 'month']]

ohe_drop_one = OneHotEncoder(drop='first')

ohe_drop_one.fit(df[['day', 'month']])

OneHotEncoder(drop='first')

OneHotEncoder(drop='first')

len(ohe_drop_one.get_feature_names_out())

14

df['day'].nunique()

5

df['month'].nunique()

11

(
    df
    .plot(kind='scatter', x='departure_hour', y='minutes')
    .update_layout(xaxis_title='Home Departure Time (AM)', 
                   yaxis_title='Minutes',
                   title='Commuting Time vs. Home Departure Time')
)

# You can either use the Pipeline class constructor directly,
# or the make_pipeline helper function (my preference).
from sklearn.pipeline import Pipeline, make_pipeline

pl = make_pipeline(
    OneHotEncoder(drop='first'),
    LinearRegression()
)
pl

Pipeline(steps=[('onehotencoder', OneHotEncoder(drop='first')),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('onehotencoder', OneHotEncoder(drop='first')),
                ('linearregression', LinearRegression())])

OneHotEncoder(drop='first')

LinearRegression()

pl.fit(X=df[['day', 'month']], y=df['minutes'])

Pipeline(steps=[('onehotencoder', OneHotEncoder(drop='first')),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('onehotencoder', OneHotEncoder(drop='first')),
                ('linearregression', LinearRegression())])

OneHotEncoder(drop='first')

LinearRegression()

pl.predict([['Mon', 'November']])

array([68.61])

# These names are automatically generated by make_pipeline.
# If you use the Pipeline() constructor,
# you can choose these names yourself.
pl.named_steps

{'onehotencoder': OneHotEncoder(drop='first'),
 'linearregression': LinearRegression()}

pl.named_steps['onehotencoder'].transform(df[['day', 'month']]).toarray()

array([[1., 0., 0., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       ...,
       [1., 0., 0., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.]])

pl.named_steps['onehotencoder'].get_feature_names_out()

array(['day_Mon', 'day_Thu', 'day_Tue', 'day_Wed', 'month_December',
       'month_February', 'month_January', 'month_July', 'month_June',
       'month_March', 'month_May', 'month_November', 'month_October',
       'month_September'], dtype=object)

pl.named_steps['linearregression'].coef_

array([ 1.65,  8.35, 13.2 ,  2.68, -2.1 ,  6.06, -4.44, -3.08,  9.14,
        8.62,  6.24,  2.98, -5.6 ,  3.29])

df[['departure_hour', 'day', 'month', 'day_of_month']]

example_vals = df['day_of_month'].tail()
example_vals

60    27
61    29
62     4
63     5
64     7
Name: day_of_month, dtype: int32

# Expression to convert from day of month to Week #.
'Week ' + ((example_vals - 1) // 7 + 1).astype(str)

60    Week 4
61    Week 5
62    Week 1
63    Week 1
64    Week 1
Name: day_of_month, dtype: object

# The function that FunctionTransformer takes in
# itself takes in a Series/DataFrame, not a single element!
# Here, we're having that function return a new Series/DataFrame,
# depending on what's passed in to .tranform (experiment on your own).
from sklearn.pipeline import FunctionTransformer
week_converter = FunctionTransformer(lambda s: 'Week ' + ((s - 1) // 7 + 1).astype(str))

week_converter.transform(df[['day_of_month']])

day_of_month_transformer = make_pipeline(week_converter, OneHotEncoder(drop='first')) 
day_of_month_transformer

Pipeline(steps=[('functiontransformer',
                 FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                ('onehotencoder', OneHotEncoder(drop='first'))])

Pipeline(steps=[('functiontransformer',
                 FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                ('onehotencoder', OneHotEncoder(drop='first'))])

FunctionTransformer(func=<function <lambda> at 0x165a328c0>)

OneHotEncoder(drop='first')

day_of_month_transformer.fit_transform(df[['day_of_month']]).toarray()

array([[0., 1., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       ...,
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.preprocessing import PolynomialFeatures

preprocessing = make_column_transformer(
    (PolynomialFeatures(3, include_bias=False), ['departure_hour']),
    (OneHotEncoder(drop='first'), ['day', 'month']),
    (day_of_month_transformer, ['day_of_month']),
    remainder='drop'
)
preprocessing

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder', OneHotEncoder(drop='first'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder', OneHotEncoder(drop='first'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first')

['day_of_month']

FunctionTransformer(func=<function <lambda> at 0x165a328c0>)

OneHotEncoder(drop='first')

model = make_pipeline(preprocessing, LinearRegression())
model

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])])),
                ('linearregression', LinearRegression())])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder', OneHotEncoder(drop='first'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first')

['day_of_month']

FunctionTransformer(func=<function <lambda> at 0x165a328c0>)

OneHotEncoder(drop='first')

model.fit(X=df[['departure_hour', 'day', 'month', 'day_of_month']], y=df['minutes'])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])])),
                ('linearregression', LinearRegression())])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder', OneHotEncoder(drop='first'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first')

['day_of_month']

FunctionTransformer(func=<function <lambda> at 0x165a328c0>)

OneHotEncoder(drop='first')

model.predict(pd.DataFrame([{
    'departure_hour': 8.5,
    'day': 'Wed',
    'month': 'March',
    'day_of_month': 19
}]))

array([64.5])

model

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])])),
                ('linearregression', LinearRegression())])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder', OneHotEncoder(drop='first'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first')

['day_of_month']

FunctionTransformer(func=<function <lambda> at 0x165a328c0>)

OneHotEncoder(drop='first')

model

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['departure_hour']),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['day', 'month']),
                                                 ('pipeline',
                                                  Pipeline(steps=[('functiontransformer',
                                                                   FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(drop='first'))]),
                                                  ['day_of_month'])])),
                ('linearregression', LinearRegression())])

ColumnTransformer(transformers=[('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['departure_hour']),
                                ('onehotencoder', OneHotEncoder(drop='first'),
                                 ['day', 'month']),
                                ('pipeline',
                                 Pipeline(steps=[('functiontransformer',
                                                  FunctionTransformer(func=<function <lambda> at 0x165a328c0>)),
                                                 ('onehotencoder',
                                                  OneHotEncoder(drop='first'))]),
                                 ['day_of_month'])])

['departure_hour']

PolynomialFeatures(degree=3, include_bias=False)

['day', 'month']

OneHotEncoder(drop='first')

['day_of_month']

FunctionTransformer(func=<function <lambda> at 0x165a328c0>)

OneHotEncoder(drop='first')

np.random.seed(23) # For reproducibility.
def sample_from_pop(n=100):
    x = np.linspace(-2, 3, n)
    y = x ** 3 + (np.random.normal(0, 3, size=n))
    return pd.DataFrame({'x': x, 'y': y})
sample_1 = sample_from_pop()
sample_2 = sample_from_pop()

array([[ 1.,  1.,  1.],
       [ 2.,  4.,  8.],
       [ 3.,  9., 27.],
       [ 4., 16., 64.],
       [-2.,  4., -8.]])

np.random.seed(23) # For reproducibility.
def sample_from_pop(n=100):
    x = np.linspace(-2, 3, n)
    y = x ** 3 + (np.random.normal(0, 3, size=n))
    return pd.DataFrame({'x': x, 'y': y})
sample_1 = sample_from_pop()
sample_2 = sample_from_pop()

px.scatter(sample_1, x='x', y='y', title='Sample 1')

# fit_transform fits and transforms the same input.
# We tell it not to add a column of 1s, because
# LinearRegression() does this automatically later on.
d2 = PolynomialFeatures(3, include_bias=False)
d2.fit_transform(np.array([1, 2, 3, 4, -2]).reshape(-1, 1))

array([[ 1.,  1.,  1.],
       [ 2.,  4.,  8.],
       [ 3.,  9., 27.],
       [ 4., 16., 64.],
       [-2.,  4., -8.]])

# Look at the definition of train_and_plot in lec17_util.py if you're curious as to how the plotting works.
fig = util.train_and_plot(train_sample=sample_1, test_sample=sample_1, degs=[1, 3, 25], data_name='Sample 1')
fig.update_layout(title='Trained on Sample 1, Performance on Sample 1')

fig = util.train_and_plot(train_sample=sample_1, test_sample=sample_2, degs=[1, 3, 25], data_name='Sample 2')
fig.update_layout(title='Trained on Sample 1, Performance on Sample 2')

util.plot_multiple_models(sample_1, sample_2, degs=[1, 3, 25])

	date	day	home_departure_time	home_departure_mileage	...	work_departure_time_hr	mileage_to_home	day_of_month	month
0	5/15/2023	Mon	2023-05-15 10:49:00	15873.0	...	17.17	53.0	15	May
1	5/16/2023	Tue	2023-05-16 07:45:00	15979.0	...	NaN	NaN	16	May
2	5/22/2023	Mon	2023-05-22 08:27:00	50407.0	...	15.90	54.0	22	May
3	5/23/2023	Tue	2023-05-23 07:08:00	50535.0	...	NaN	NaN	23	May
4	5/30/2023	Tue	2023-05-30 09:09:00	50664.0	...	17.12	54.0	30	May

	day_Fri	day_Mon	day_Thu	day_Tue	...	month_May	month_November	month_October	month_September
0	0.0	1.0	0.0	0.0	...	1.0	0.0	0.0	0.0
1	0.0	0.0	0.0	1.0	...	1.0	0.0	0.0	0.0
2	0.0	1.0	0.0	0.0	...	1.0	0.0	0.0	0.0
...	...	...	...	...	...	...	...	...	...
62	0.0	1.0	0.0	0.0	...	0.0	0.0	0.0	0.0
63	0.0	0.0	0.0	1.0	...	0.0	0.0	0.0	0.0
64	0.0	0.0	1.0	0.0	...	0.0	0.0	0.0	0.0

	Height (Inches)	Weight (Pounds)
0	65.78	112.99
1	71.52	136.49
2	69.40	153.03
3	68.22	142.34
4	67.79	144.30

	Height (Inches)	Height (Feet)
0	65.78	5.48
1	71.52	5.96
2	69.40	5.78
...	...	...
24997	64.70	5.39
24998	67.53	5.63
24999	68.88	5.74

Name	Functionality
`ColumnTransformer`	Allows us to transform different columns with different transformations. Instantiate a `ColumnTransformer` using a list of tuples, where: • The first element is a "name" we choose for the transformer. • The second element is a transformer instance (e.g. `OneHotEncoder()`). • The third element is a list of relevant column names.
`FunctionTransformer`	Allows us to create a custom transformation (similar to using `.apply` on a DataFrame's columns).
`make_pipeline`	Helper function for creating a `Pipeline` (slightly less verbose). Note that you can make a pipeline of just transformations, if you want to use multiple transformations on the same column!
`make_column_transformer`	Helper function for creating a `ColumnTransformer`.

Lecture 17¶

Pipelines¶

EECS 398: Practical Data Science, Spring 2025¶

Agenda 📆¶

Question 🤔 (Answer at practicaldsc.org/q)

`OneHotEncoder` and multicollinearity¶

Example: Commute times 🚗¶

Example transformer: `OneHotEncoder`¶

Example: Heights and weights¶

Motivating example¶

An added feature¶

Redundant features¶

Infinitely many parameter choices¶

Multicollinearity¶

One hot encoding and multicollinearity¶

One hot encoding and multicollinearity¶

`OneHotEncoder` returns¶

Key takeaways¶

Pipelines🚰¶

Recap: Commute times 🚗¶

Pipelines in `sklearn`¶

Our first Pipeline¶

Reference Slide¶

Pipeline internals¶

More sophisticated Pipelines¶

The plan¶

The punchline¶

Activity

Question 🤔 (Answer at practicaldsc.org/q)

Generalization 🔭¶

Motivation¶

Evaluating the quality of a model¶

Overfitting and underfitting¶

Polynomial regression¶

	day	month
0	Mon	May
1	Tue	May
2	Mon	May
...	...	...
62	Mon	March
63	Tue	March
64	Thu	March

	day_Fri	day_Mon	day_Thu	day_Tue	...	month_May	month_November	month_October	month_September
0	0.0	1.0	0.0	0.0	...	1.0	0.0	0.0	0.0
1	0.0	0.0	0.0	1.0	...	1.0	0.0	0.0	0.0
2	0.0	1.0	0.0	0.0	...	1.0	0.0	0.0	0.0
...	...	...	...	...	...	...	...	...	...
62	0.0	1.0	0.0	0.0	...	0.0	0.0	0.0	0.0
63	0.0	0.0	0.0	1.0	...	0.0	0.0	0.0	0.0
64	0.0	0.0	1.0	0.0	...	0.0	0.0	0.0	0.0

	departure_hour	day	month	day_of_month
0	10.82	Mon	May	15
1	7.75	Tue	May	16
2	8.45	Mon	May	22
...	...	...	...	...
62	7.58	Mon	March	4
63	7.45	Tue	March	5
64	7.60	Thu	March	7

	day_Fri	day_Mon	day_Thu	day_Tue	...	month_May	month_November	month_October	month_September
0	0.0	1.0	0.0	0.0	...	1.0	0.0	0.0	0.0
1	0.0	0.0	0.0	1.0	...	1.0	0.0	0.0	0.0
2	0.0	1.0	0.0	0.0	...	1.0	0.0	0.0	0.0
...	...	...	...	...	...	...	...	...	...
62	0.0	1.0	0.0	0.0	...	0.0	0.0	0.0	0.0
63	0.0	0.0	0.0	1.0	...	0.0	0.0	0.0	0.0
64	0.0	0.0	1.0	0.0	...	0.0	0.0	0.0	0.0

Lecture 17¶

Pipelines¶

EECS 398: Practical Data Science, Spring 2025¶

Agenda 📆¶

Question 🤔 (Answer at practicaldsc.org/q)

OneHotEncoder and multicollinearity¶

Example: Commute times 🚗¶

Example transformer: OneHotEncoder¶

Example: Heights and weights¶

Motivating example¶

An added feature¶

Redundant features¶

Infinitely many parameter choices¶

Multicollinearity¶

One hot encoding and multicollinearity¶

One hot encoding and multicollinearity¶

OneHotEncoder returns¶

Key takeaways¶

Pipelines🚰¶

Recap: Commute times 🚗¶

Pipelines in sklearn¶

Our first Pipeline¶

Reference Slide¶

Pipeline internals¶

More sophisticated Pipelines¶

The plan¶

The punchline¶

Activity

Question 🤔 (Answer at practicaldsc.org/q)

Generalization 🔭¶

Motivation¶

Evaluating the quality of a model¶

Overfitting and underfitting¶

Polynomial regression¶

`OneHotEncoder` and multicollinearity¶

Example transformer: `OneHotEncoder`¶

`OneHotEncoder` returns¶

Pipelines in `sklearn`¶

	day_Fri	day_Mon	day_Thu	day_Tue	...	month_May	month_November	month_October	month_September
0	0.0	1.0	0.0	0.0	...	1.0	0.0	0.0	0.0
1	0.0	0.0	0.0	1.0	...	1.0	0.0	0.0	0.0
2	0.0	1.0	0.0	0.0	...	1.0	0.0	0.0	0.0
...	...	...	...	...	...	...	...	...	...
62	0.0	1.0	0.0	0.0	...	0.0	0.0	0.0	0.0
63	0.0	0.0	0.0	1.0	...	0.0	0.0	0.0	0.0
64	0.0	0.0	1.0	0.0	...	0.0	0.0	0.0	0.0