Riješeno: dijagram raspršenosti više varijabli

Dat ću vam detaljno objašnjenje o kreiranju dijagrama raspršenja za više varijabli u Pythonu. Dijagrami raspršenosti su odličan način za vizualizaciju odnosa između više tačaka podataka. Oni nam pomažu da shvatimo kako su varijable povezane, kako su raspoređene i imaju li vanjske točke.

U Pythonu nam više biblioteka pruža funkcije spremne za korištenje za kreiranje dijagrama raspršenosti za više varijabli, kao što su Matplotlib i Seaborn. Mi ćemo se fokusirati na ove dvije biblioteke dok rješavamo naš problem dešifriranja odnosa između više tačaka podataka.

Uvod u matplotlib i seaborn

Matplotlib je jedna od najpopularnijih Python biblioteka za crtanje koja proizvodi kvalitetne figure u različitim formatima. Omogućava nam da generišemo dijagrame, histograme, spektre snage, trakaste grafikone, grafikone grešaka, dijagrame raspršenja, itd., sa samo nekoliko linija koda.

Seaborn je, s druge strane, baziran na Matplotlib-u i blisko integriran sa strukturama podataka panda. Pruža interfejs visokog nivoa za crtanje atraktivnih i informativnih statističkih grafika.

# Required Libraries
import matplotlib.pyplot as plt
import seaborn as sns

Problem i rješenje

Za potrebe ovog članka, pretpostavimo da imate skup podataka sa tri varijable, a, b i c. Želite da kreirate dijagrame raspršenja koji mogu pokazati odnose između ovih varijabli.

Rješenje je jednostavno, možemo koristiti funkciju scatterplot() u seaborn ili funkciju scatter() u matplotlib-u za kreiranje dijagrama raspršenja. Također ćemo morati dalje koristiti funkciju pairplot() da napravimo dijagram raspršenosti više varijabli.

Objašnjenje korak po korak

# Importing libraries
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Create a pandas DataFrame
df = pd.DataFrame({
'a': [1, 2, 3, 4, 5],
'b': [5, 4, 3, 2, 1],
'c': [1, 3, 5, 7, 9]
})

# Create a pair plot
sns.pairplot(df)
plt.show()

U gornjem kodu prvo uvozimo potrebne biblioteke. Zatim kreiramo DataFrame za čuvanje naših podataka. Konačno, pozivamo funkciju pairplot() iz seaborn biblioteke za kreiranje dijagrama raspršenja.

Funkcija sns.pairplot() kreira mrežu osi tako da će svaka varijabla u vašim podacima biti podijeljena na y osi u jednom redu i na osi x u jednoj koloni. U suštini, to je stvaranje dijagrama raspršenosti za svaki par varijabli za nas.

Dodatne biblioteke i funkcije

Pandas je još jedna biblioteka koja često ide ruku pod ruku sa Matplotlibom i Seabornom. To je alat za analizu i manipulaciju podataka otvorenog koda, izgrađen na vrhu Python-ove osnovne biblioteke za manipulaciju i analizu podataka.

On pruža strukture podataka i funkcije potrebne za manipulaciju strukturiranim podacima, uključujući funkcije za čitanje i pisanje podataka, rukovanje podacima koji nedostaju, filtriranje podataka i preoblikovanje podataka.

# Import library
import pandas as pd

# Create a DataFrame
data = pd.read_csv('filename.csv')

Funkcija pd.read_csv() čita CSV datoteku i pretvara je u pandas DataFrame, kojim se onda može manipulirati korištenjem različitih pandas funkcija. Ovaj okvir podataka može se nacrtati upotrebom funkcije scatterplot() ili funkcije pairplot() kao što je prikazano ranije.

Slični postovi:

Ostavite komentar