# Run this cell to get everything set up.
from lec_utils import *
import lec26_util as util
from ipywidgets import interact
import warnings
warnings.simplefilter('ignore')

util.show_ratings()

Index(['Age dependency ratio (% of working-age population)',
       'Age dependency ratio, old (% of working-age population)',
       'Age dependency ratio, young (% of working-age population)',
       'Bird species, threatened',
       'Business extent of disclosure index (0=less disclosure to 10=more disclosure)',
       'Contributing family workers, female (% of female employment) (modeled ILO estimate)',
       'Contributing family workers, male (% of male employment) (modeled ILO estimate)',
       'Contributing family workers, total (% of total employment) (modeled ILO estimate)',
       'Cost of business start-up procedures (% of GNI per capita)',
       'Cost of business start-up procedures, female (% of GNI per capita)',
       ...
       'Unemployment, youth total (% of total labor force ages 15-24) (modeled ILO estimate)',
       'Urban population', 'Urban population (% of total population)',
       'Urban population growth (annual %)',
       'Vulnerable employment, female (% of female employment) (modeled ILO estimate)',
       'Vulnerable employment, male (% of male employment) (modeled ILO estimate)',
       'Vulnerable employment, total (% of total employment) (modeled ILO estimate)',
       'Wage and salaried workers, female (% of female employment) (modeled ILO estimate)',
       'Wage and salaried workers, male (% of male employment) (modeled ILO estimate)',
       'Wage and salaried workers, total (% of total employment) (modeled ILO estimate)'],
      dtype='object', length=209)

KMeans(n_clusters=6, random_state=15)

KMeans(n_clusters=6, random_state=15)

array([4], dtype=int32)

array([5], dtype=int32)

Cluster 0: Algeria, Afghanistan, Albania, American Samoa, Andorra, Angola, Antigua and Barbuda, Armenia, Aruba, Austria, Azerbaijan, Bahamas, The, Bahrain, Bangladesh, Barbados, Belarus, Belgium, Belize, Benin, Bermuda, Bhutan, Bolivia, Bosnia and Herzegovina, Botswana, British Virgin Islands, Brunei Darussalam, Bulgaria, Burkina Faso, Burundi, Cabo Verde, Cambodia, Cameroon, Cayman Islands, Central African Republic, Chad, Channel Islands, Chile, Colombia, Comoros, Congo, Dem. Rep., Congo, Rep., Costa Rica, Cote d'Ivoire, Croatia, Cuba, Curacao, Cyprus, Czech Republic, Denmark, Djibouti, Dominica, Dominican Republic, Ecuador, El Salvador, Equatorial Guinea, Eritrea, Estonia, Eswatini, Ethiopia, Faroe Islands, Fiji, Finland, French Polynesia, Gabon, Gambia, The, Georgia, Ghana, Gibraltar, Greece, Greenland, Grenada, Guam, Guatemala, Guinea, Guinea-Bissau, Guyana, Haiti, Honduras, Hong Kong SAR, China, Hungary, Iceland, Iran, Islamic Rep., Iraq, Ireland, Isle of Man, Israel, Jamaica, Jordan, Kazakhstan, Kenya, Kiribati, Korea, Dem. People’s Rep., Kosovo, Kuwait, Kyrgyz Republic, Lao PDR, Latvia, Lebanon, Lesotho, Liberia, Libya, Liechtenstein, Lithuania, Luxembourg, Macao SAR, China, Madagascar, Malawi, Maldives, Mali, Malta, Marshall Islands, Mauritania, Mauritius, Micronesia, Fed. Sts., Moldova, Monaco, Mongolia, Montenegro, Morocco, Mozambique, Myanmar, Namibia, Nauru, Nepal, New Caledonia, New Zealand, Nicaragua, Niger, North Macedonia, Northern Mariana Islands, Norway, Oman, Palau, Panama, Papua New Guinea, Paraguay, Peru, Portugal, Puerto Rico, Qatar, Romania, Rwanda, Samoa, San Marino, Sao Tome and Principe, Senegal, Serbia, Seychelles, Sierra Leone, Singapore, Sint Maarten (Dutch part), Slovak Republic, Slovenia, Solomon Islands, Somalia, South Africa, South Sudan, Sri Lanka, St. Kitts and Nevis, St. Lucia, St. Martin (French part), St. Vincent and the Grenadines, Sudan, Suriname, Sweden, Syrian Arab Republic, Tajikistan, Tanzania, Timor-Leste, Togo, Tonga, Trinidad and Tobago, Tunisia, Turkmenistan, Turks and Caicos Islands, Tuvalu, Uganda, Ukraine, United Arab Emirates, Uruguay, Uzbekistan, Vanuatu, Venezuela, RB, Vietnam, Virgin Islands (U.S.), West Bank and Gaza, Yemen, Rep., Zambia, Zimbabwe

Cluster 1: China

Cluster 2: Germany, India, Japan

Cluster 3: Brazil, France, Indonesia, Italy, Russian Federation, United Kingdom

Cluster 4: United States

Cluster 5: Argentina, Australia, Canada, Egypt, Arab Rep., Korea, Rep., Malaysia, Mexico, Netherlands, Nigeria, Pakistan, Philippines, Poland, Saudi Arabia, Spain, Switzerland, Thailand, Turkey

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('kmeans', KMeans(n_clusters=6, random_state=15))])

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('kmeans', KMeans(n_clusters=6, random_state=15))])

StandardScaler()

KMeans(n_clusters=6, random_state=15)

util.show_ratings()

util.show_ratings()

util.visualize_centroids([(2, 7), (8, 4), (8, 8)])

util.visualize_centroids([(2, 7), (8, 4), (3, 7)])

util.visualize_centroids([(2, 7), (8, 4)])

util.visualize_centroids([(4, 4), (5, 5), (6, 6), (7, 7), (8, 8)])

util.visualize_centroids([(2, 5), (8, 10)], show_color=False, title='Step 1: Random Initialization<br>Red:(2, 5), Blue: (8, 10)')

util.visualize_centroids([(2, 5), (8, 10)], title='Iteration 1, Step 2: Assign each point to the nearest centroid<br>Red:(2, 5), Blue: (8, 10)')

util.visualize_centroids([(2, 5), (8, 10)], lines=True, title='Iteration 1, Step 2: Assign each point to the nearest centroid<br>Red:(2, 5), Blue: (8, 10); <b>Inertia = Sum(squared distances) = 156.25</b>')

util.visualize_centroids([(3.6, 6.8), (9.5, 7.125)], lines=True, assignments=[0] * 5 + [1] * 4, title='Iteration 1, Step 3: Move each centroid to the center of its group<br>Red:(3.6, 6.8), Blue: (9.5, 7.125); <b>Inertia = 85.1875</b>')

util.visualize_centroids([(3.6, 6.8), (9.5, 7.125)], assignments=[0] * 5 + [1] * 4, title='Iteration 1, Step 3: Move each centroid to the center of its group<br>Red:(3.6, 6.8), Blue: (9.5, 7.125); <b>Inertia = 85.1875</b>')

util.visualize_centroids([(3.6, 6.8), (9.5, 7.125)], title='Iteration 2, Step 2: Assign each point to the nearest centroid<br>Red:(3.6, 6.8), Blue: (9.5, 7.125); <b>Inertia = 70.653125</b>')

util.visualize_centroids([(2.5, 7.75), (9.2, 6.3)], title='Iteration 2, Step 3: Move each centroid to the center of its group<br>Red:(2.5, 7.75), Blue: (9.2, 6.3); <b>Inertia = 58.35</b>')

util.visualize_centroids([(2.5, 7.75), (9.2, 6.3)], title='Iteration 3, Step 2: Assign each point to the nearest centroid<br>No change, so algorithm terminates!')

util.show_ratings()

util.show_elbow()

world_bank = pd.read_csv('data/world_bank_data.csv').set_index('country').fillna(0)
world_bank

Index(['Age dependency ratio (% of working-age population)',
       'Age dependency ratio, old (% of working-age population)',
       'Age dependency ratio, young (% of working-age population)',
       'Bird species, threatened',
       'Business extent of disclosure index (0=less disclosure to 10=more disclosure)',
       'Contributing family workers, female (% of female employment) (modeled ILO estimate)',
       'Contributing family workers, male (% of male employment) (modeled ILO estimate)',
       'Contributing family workers, total (% of total employment) (modeled ILO estimate)',
       'Cost of business start-up procedures (% of GNI per capita)',
       'Cost of business start-up procedures, female (% of GNI per capita)',
       ...
       'Unemployment, youth total (% of total labor force ages 15-24) (modeled ILO estimate)',
       'Urban population', 'Urban population (% of total population)',
       'Urban population growth (annual %)',
       'Vulnerable employment, female (% of female employment) (modeled ILO estimate)',
       'Vulnerable employment, male (% of male employment) (modeled ILO estimate)',
       'Vulnerable employment, total (% of total employment) (modeled ILO estimate)',
       'Wage and salaried workers, female (% of female employment) (modeled ILO estimate)',
       'Wage and salaried workers, male (% of male employment) (modeled ILO estimate)',
       'Wage and salaried workers, total (% of total employment) (modeled ILO estimate)'],
      dtype='object', length=209)

KMeans(n_clusters=6, random_state=15)

KMeans(n_clusters=6, random_state=15)

array([4], dtype=int32)

array([5], dtype=int32)

Cluster 0: Algeria, Afghanistan, Albania, American Samoa, Andorra, Angola, Antigua and Barbuda, Armenia, Aruba, Austria, Azerbaijan, Bahamas, The, Bahrain, Bangladesh, Barbados, Belarus, Belgium, Belize, Benin, Bermuda, Bhutan, Bolivia, Bosnia and Herzegovina, Botswana, British Virgin Islands, Brunei Darussalam, Bulgaria, Burkina Faso, Burundi, Cabo Verde, Cambodia, Cameroon, Cayman Islands, Central African Republic, Chad, Channel Islands, Chile, Colombia, Comoros, Congo, Dem. Rep., Congo, Rep., Costa Rica, Cote d'Ivoire, Croatia, Cuba, Curacao, Cyprus, Czech Republic, Denmark, Djibouti, Dominica, Dominican Republic, Ecuador, El Salvador, Equatorial Guinea, Eritrea, Estonia, Eswatini, Ethiopia, Faroe Islands, Fiji, Finland, French Polynesia, Gabon, Gambia, The, Georgia, Ghana, Gibraltar, Greece, Greenland, Grenada, Guam, Guatemala, Guinea, Guinea-Bissau, Guyana, Haiti, Honduras, Hong Kong SAR, China, Hungary, Iceland, Iran, Islamic Rep., Iraq, Ireland, Isle of Man, Israel, Jamaica, Jordan, Kazakhstan, Kenya, Kiribati, Korea, Dem. People’s Rep., Kosovo, Kuwait, Kyrgyz Republic, Lao PDR, Latvia, Lebanon, Lesotho, Liberia, Libya, Liechtenstein, Lithuania, Luxembourg, Macao SAR, China, Madagascar, Malawi, Maldives, Mali, Malta, Marshall Islands, Mauritania, Mauritius, Micronesia, Fed. Sts., Moldova, Monaco, Mongolia, Montenegro, Morocco, Mozambique, Myanmar, Namibia, Nauru, Nepal, New Caledonia, New Zealand, Nicaragua, Niger, North Macedonia, Northern Mariana Islands, Norway, Oman, Palau, Panama, Papua New Guinea, Paraguay, Peru, Portugal, Puerto Rico, Qatar, Romania, Rwanda, Samoa, San Marino, Sao Tome and Principe, Senegal, Serbia, Seychelles, Sierra Leone, Singapore, Sint Maarten (Dutch part), Slovak Republic, Slovenia, Solomon Islands, Somalia, South Africa, South Sudan, Sri Lanka, St. Kitts and Nevis, St. Lucia, St. Martin (French part), St. Vincent and the Grenadines, Sudan, Suriname, Sweden, Syrian Arab Republic, Tajikistan, Tanzania, Timor-Leste, Togo, Tonga, Trinidad and Tobago, Tunisia, Turkmenistan, Turks and Caicos Islands, Tuvalu, Uganda, Ukraine, United Arab Emirates, Uruguay, Uzbekistan, Vanuatu, Venezuela, RB, Vietnam, Virgin Islands (U.S.), West Bank and Gaza, Yemen, Rep., Zambia, Zimbabwe

Cluster 1: China

Cluster 2: Germany, India, Japan

Cluster 3: Brazil, France, Indonesia, Italy, Russian Federation, United Kingdom

Cluster 4: United States

Cluster 5: Argentina, Australia, Canada, Egypt, Arab Rep., Korea, Rep., Malaysia, Mexico, Netherlands, Nigeria, Pakistan, Philippines, Poland, Saudi Arabia, Spain, Switzerland, Thailand, Turkey

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('kmeans', KMeans(n_clusters=6, random_state=15))])

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('kmeans', KMeans(n_clusters=6, random_state=15))])

StandardScaler()

KMeans(n_clusters=6, random_state=15)

world_bank = pd.read_csv('data/world_bank_data.csv').set_index('country').fillna(0)
world_bank

world_bank.columns

Index(['Age dependency ratio (% of working-age population)',
       'Age dependency ratio, old (% of working-age population)',
       'Age dependency ratio, young (% of working-age population)',
       'Bird species, threatened',
       'Business extent of disclosure index (0=less disclosure to 10=more disclosure)',
       'Contributing family workers, female (% of female employment) (modeled ILO estimate)',
       'Contributing family workers, male (% of male employment) (modeled ILO estimate)',
       'Contributing family workers, total (% of total employment) (modeled ILO estimate)',
       'Cost of business start-up procedures (% of GNI per capita)',
       'Cost of business start-up procedures, female (% of GNI per capita)',
       ...
       'Unemployment, youth total (% of total labor force ages 15-24) (modeled ILO estimate)',
       'Urban population', 'Urban population (% of total population)',
       'Urban population growth (annual %)',
       'Vulnerable employment, female (% of female employment) (modeled ILO estimate)',
       'Vulnerable employment, male (% of male employment) (modeled ILO estimate)',
       'Vulnerable employment, total (% of total employment) (modeled ILO estimate)',
       'Wage and salaried workers, female (% of female employment) (modeled ILO estimate)',
       'Wage and salaried workers, male (% of male employment) (modeled ILO estimate)',
       'Wage and salaried workers, total (% of total employment) (modeled ILO estimate)'],
      dtype='object', length=209)

util.show_elbow_world_bank(world_bank)

from sklearn.cluster import KMeans

# The default value of k is 8; we should generally specify another value.
# We fix a random_state for reproducibility; remember the centroids are generally initialized randomly.    
model = KMeans(n_clusters=6, random_state=15)
model.fit(world_bank)

KMeans(n_clusters=6, random_state=15)

KMeans(n_clusters=6, random_state=15)

model.predict(world_bank.loc[['United States']])

array([4], dtype=int32)

# It seems that the US and Canada are assigned to different clusters!
model.predict(world_bank.loc[['Canada']])

array([5], dtype=int32)

countries_and_clusters = pd.Series(model.labels_, index=world_bank.index)
util.list_countries_by_cluster(countries_and_clusters)

Cluster 0: Algeria, Afghanistan, Albania, American Samoa, Andorra, Angola, Antigua and Barbuda, Armenia, Aruba, Austria, Azerbaijan, Bahamas, The, Bahrain, Bangladesh, Barbados, Belarus, Belgium, Belize, Benin, Bermuda, Bhutan, Bolivia, Bosnia and Herzegovina, Botswana, British Virgin Islands, Brunei Darussalam, Bulgaria, Burkina Faso, Burundi, Cabo Verde, Cambodia, Cameroon, Cayman Islands, Central African Republic, Chad, Channel Islands, Chile, Colombia, Comoros, Congo, Dem. Rep., Congo, Rep., Costa Rica, Cote d'Ivoire, Croatia, Cuba, Curacao, Cyprus, Czech Republic, Denmark, Djibouti, Dominica, Dominican Republic, Ecuador, El Salvador, Equatorial Guinea, Eritrea, Estonia, Eswatini, Ethiopia, Faroe Islands, Fiji, Finland, French Polynesia, Gabon, Gambia, The, Georgia, Ghana, Gibraltar, Greece, Greenland, Grenada, Guam, Guatemala, Guinea, Guinea-Bissau, Guyana, Haiti, Honduras, Hong Kong SAR, China, Hungary, Iceland, Iran, Islamic Rep., Iraq, Ireland, Isle of Man, Israel, Jamaica, Jordan, Kazakhstan, Kenya, Kiribati, Korea, Dem. People’s Rep., Kosovo, Kuwait, Kyrgyz Republic, Lao PDR, Latvia, Lebanon, Lesotho, Liberia, Libya, Liechtenstein, Lithuania, Luxembourg, Macao SAR, China, Madagascar, Malawi, Maldives, Mali, Malta, Marshall Islands, Mauritania, Mauritius, Micronesia, Fed. Sts., Moldova, Monaco, Mongolia, Montenegro, Morocco, Mozambique, Myanmar, Namibia, Nauru, Nepal, New Caledonia, New Zealand, Nicaragua, Niger, North Macedonia, Northern Mariana Islands, Norway, Oman, Palau, Panama, Papua New Guinea, Paraguay, Peru, Portugal, Puerto Rico, Qatar, Romania, Rwanda, Samoa, San Marino, Sao Tome and Principe, Senegal, Serbia, Seychelles, Sierra Leone, Singapore, Sint Maarten (Dutch part), Slovak Republic, Slovenia, Solomon Islands, Somalia, South Africa, South Sudan, Sri Lanka, St. Kitts and Nevis, St. Lucia, St. Martin (French part), St. Vincent and the Grenadines, Sudan, Suriname, Sweden, Syrian Arab Republic, Tajikistan, Tanzania, Timor-Leste, Togo, Tonga, Trinidad and Tobago, Tunisia, Turkmenistan, Turks and Caicos Islands, Tuvalu, Uganda, Ukraine, United Arab Emirates, Uruguay, Uzbekistan, Vanuatu, Venezuela, RB, Vietnam, Virgin Islands (U.S.), West Bank and Gaza, Yemen, Rep., Zambia, Zimbabwe

Cluster 1: China

Cluster 2: Germany, India, Japan

Cluster 3: Brazil, France, Indonesia, Italy, Russian Federation, United Kingdom

Cluster 4: United States

Cluster 5: Argentina, Australia, Canada, Egypt, Arab Rep., Korea, Rep., Malaysia, Mexico, Netherlands, Nigeria, Pakistan, Philippines, Poland, Saudi Arabia, Spain, Switzerland, Thailand, Turkey

util.country_choropleth(countries_and_clusters)

world_bank.iloc[[1], -9:-5]

from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

model_std = make_pipeline(StandardScaler(), KMeans(n_clusters=6, random_state=15)) # We fix a random state for reproducibility.
model_std.fit(world_bank)

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('kmeans', KMeans(n_clusters=6, random_state=15))])

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('kmeans', KMeans(n_clusters=6, random_state=15))])

StandardScaler()

KMeans(n_clusters=6, random_state=15)

countries_and_clusters_std = pd.Series(model_std[-1].labels_, index=world_bank.index)
util.list_countries_by_cluster(countries_and_clusters_std)

Cluster 0: Algeria, Albania, Antigua and Barbuda, Argentina, Armenia, Azerbaijan, Bahamas, The, Bahrain, Belize, Bolivia, Botswana, Brazil, Brunei Darussalam, Cabo Verde, Chile, Colombia, Costa Rica, Dominican Republic, Ecuador, Egypt, Arab Rep., El Salvador, Eswatini, Fiji, French Polynesia, Gabon, Georgia, Grenada, Guam, Guatemala, Guyana, Honduras, Indonesia, Iran, Islamic Rep., Iraq, Jamaica, Jordan, Kazakhstan, Kiribati, Korea, Dem. People’s Rep., Kuwait, Kyrgyz Republic, Lebanon, Libya, Malaysia, Maldives, Mauritius, Mexico, Micronesia, Fed. Sts., Moldova, Mongolia, Morocco, Namibia, New Caledonia, Nicaragua, Oman, Panama, Paraguay, Peru, Philippines, Qatar, Samoa, Sao Tome and Principe, Saudi Arabia, Seychelles, South Africa, Sri Lanka, St. Lucia, St. Vincent and the Grenadines, Suriname, Syrian Arab Republic, Tajikistan, Thailand, Tonga, Trinidad and Tobago, Tunisia, Turkey, Turkmenistan, United Arab Emirates, Uzbekistan, Vietnam, West Bank and Gaza

Cluster 1: American Samoa, Andorra, Aruba, Bermuda, British Virgin Islands, Cayman Islands, Curacao, Dominica, Faroe Islands, Gibraltar, Greenland, Isle of Man, Kosovo, Liechtenstein, Marshall Islands, Monaco, Nauru, Northern Mariana Islands, Palau, San Marino, Sint Maarten (Dutch part), St. Kitts and Nevis, St. Martin (French part), Turks and Caicos Islands, Tuvalu

Cluster 2: Afghanistan, Angola, Bangladesh, Benin, Bhutan, Burkina Faso, Burundi, Cambodia, Cameroon, Central African Republic, Chad, Comoros, Congo, Dem. Rep., Congo, Rep., Cote d'Ivoire, Djibouti, Equatorial Guinea, Eritrea, Ethiopia, Gambia, The, Ghana, Guinea, Guinea-Bissau, Haiti, Kenya, Lao PDR, Lesotho, Liberia, Madagascar, Malawi, Mali, Mauritania, Mozambique, Myanmar, Nepal, Niger, Nigeria, Pakistan, Papua New Guinea, Rwanda, Senegal, Sierra Leone, Solomon Islands, Somalia, South Sudan, Sudan, Tanzania, Timor-Leste, Togo, Uganda, Vanuatu, Venezuela, RB, Yemen, Rep., Zambia, Zimbabwe

Cluster 3: Australia, Austria, Barbados, Belarus, Belgium, Bosnia and Herzegovina, Bulgaria, Canada, Channel Islands, Croatia, Cuba, Cyprus, Czech Republic, Denmark, Estonia, Finland, France, Germany, Greece, Hong Kong SAR, China, Hungary, Iceland, Ireland, Israel, Italy, Japan, Korea, Rep., Latvia, Lithuania, Luxembourg, Macao SAR, China, Malta, Montenegro, Netherlands, New Zealand, North Macedonia, Norway, Poland, Portugal, Puerto Rico, Romania, Russian Federation, Serbia, Singapore, Slovak Republic, Slovenia, Spain, Sweden, Switzerland, Ukraine, United Kingdom, Uruguay, Virgin Islands (U.S.)

Cluster 4: United States

Cluster 5: China, India

util.country_choropleth(countries_and_clusters_std)

util.show_ratings()

util.color_ratings(title='Iteration 0')

util.color_ratings(title='Iteration 1', labels=[0, 1, 2, 3, 4, 5, 6, 7, 7])

util.color_ratings(title='Iteration 2', labels=[0, 1, 2, 3, 4, 5, 5, 7, 7])

util.color_ratings(title='Iteration 2', labels=[0, 1, 2, 3, 4, 5, 5, 7, 7], width=500, height=400)

util.color_ratings(title='Iteration 2', show_distances=[(1, 3), (0, 2), (0, 1), (2, 3), (4, 5)], labels=[0, 1, 2, 3, 4, 5, 5, 7, 7])

util.color_ratings(title='Iteration 3', show_distances=[(0, 2), (2, 3)], labels=[0, 1, 2, 3, 5, 5, 5, 7, 7])

util.color_ratings(title='Iteration 4', show_distances=[(0, 2), (1, 2)], labels=[0, 1, 2, 2, 5, 5, 5, 7, 7])

util.color_ratings(title='Iteration 5', labels=[2, 1, 2, 2, 5, 5, 5, 7, 7])

util.show_scatter_comp()

util.show_scatter_comp_k_means(k=2)

util.show_scatter_comp_agg(k=2)

	Age dependency ratio (% of working-age population)	Age dependency ratio, old (% of working-age population)	Age dependency ratio, young (% of working-age population)	Bird species, threatened	...	Vulnerable employment, total (% of total employment) (modeled ILO estimate)	Wage and salaried workers, female (% of female employment) (modeled ILO estimate)	Wage and salaried workers, male (% of male employment) (modeled ILO estimate)	Wage and salaried workers, total (% of total employment) (modeled ILO estimate)
country
Algeria	57.51	10.02	47.49	15.0	...	26.76	73.73	68.16	69.06
Afghanistan	84.08	4.76	79.32	16.0	...	89.38	4.28	13.29	10.11
Albania	45.81	20.04	25.77	8.0	...	54.85	44.32	41.54	42.72
...	...	...	...	...	...	...	...	...	...
Yemen, Rep.	73.89	5.00	68.88	16.0	...	45.40	31.59	48.57	47.41
Zambia	88.81	3.96	84.84	20.0	...	77.78	11.98	31.14	21.92
Zimbabwe	82.95	5.38	77.57	19.0	...	65.65	24.14	43.18	33.87

Lecture 26¶

Clustering¶

EECS 398-003: Practical Data Science, Fall 2024¶

Announcements 📣¶

Please give us feedback! 🙏¶

Agenda¶

Question 🤔 (Answer at practicaldsc.org/q)

Clustering¶

The taxonomy of machine learning¶

Example: TV show ratings 📺¶

Clustering¶

Centroids¶

Reflections on choosing a centroid¶

Activity¶

$k$-means clustering¶

Minimizing inertia¶

$k$-means clustering (i.e. Lloyd's algorithm)¶

Why does $k$-means work?¶

Let's experiment!¶

In what sense is $k$-means optimal?¶

Choosing the number of clusters¶

Choosing $k$ in $k$-means clustering¶

The elbow method¶

Question 🤔 (Answer at practicaldsc.org/q)

Example: World Bank data 🌎¶

Loading the data¶

The elbow method, revisited¶

Clustering in `sklearn`¶

Inspecting clusters¶

Visualizing clusters¶

Standardize before clustering!¶

Visualizing clusters after standardizing¶

Agglomerative clustering¶

Overview of clustering methods¶

Agglomerative clustering¶

Linkage criteria¶

$k$-means vs. agglomerative clustering¶

Question 🤔 (Answer at practicaldsc.org/q)

Lecture 26¶

Clustering¶

EECS 398-003: Practical Data Science, Fall 2024¶

Announcements 📣¶

Please give us feedback! 🙏¶

Agenda¶

Question 🤔 (Answer at practicaldsc.org/q)

Clustering¶

The taxonomy of machine learning¶

Example: TV show ratings 📺¶

Clustering¶

Centroids¶

Reflections on choosing a centroid¶

Activity¶

$k$-means clustering¶

Minimizing inertia¶

$k$-means clustering (i.e. Lloyd's algorithm)¶

Why does $k$-means work?¶

Let's experiment!¶

In what sense is $k$-means optimal?¶

Choosing the number of clusters¶

Choosing $k$ in $k$-means clustering¶

The elbow method¶

Question 🤔 (Answer at practicaldsc.org/q)

Example: World Bank data 🌎¶

Loading the data¶

The elbow method, revisited¶

Clustering in sklearn¶

Inspecting clusters¶

Visualizing clusters¶

Standardize before clustering!¶

Visualizing clusters after standardizing¶

Agglomerative clustering¶

Overview of clustering methods¶

Agglomerative clustering¶

Linkage criteria¶

$k$-means vs. agglomerative clustering¶

Question 🤔 (Answer at practicaldsc.org/q)

Clustering in `sklearn`¶