U ovom članku ćemo istražiti proces dodavanja nove kolone u Pandas DataFrame, popularnu biblioteku u Pythonu za manipulaciju i analizu podataka. Razgovarat ćemo o rješenju ovog problema, proći kroz objašnjenje koda korak po korak i pokriti neke povezane teme i funkcije u Pandas biblioteci. Pandas je široko korišćena biblioteka koja sadrži strukture podataka i alate visokog nivoa, savršene za efikasnu analizu podataka i rukovanje zadacima.
Za početak, pretpostavimo da imamo skup podataka u obliku Pandas DataFrame i želimo mu dodati novu kolonu. Ovo je uobičajeni zahtjev u fazi pripreme podataka, često potreban za inženjering karakteristika ili za generiranje dodatnih informacija na osnovu postojećih kolona. Uronimo u to kako se to može postići.
Dodavanje nove kolone u Pandas DataFrame
Počećemo uvozom potrebne biblioteke i kreiranjem uzorka DataFrame-a.
import pandas as pd
data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'],
'Age': [25, 28, 23, 22],
'City': ['NY', 'LA', 'SF', 'Chicago']}
df = pd.DataFrame(data)
Sada, dodajmo novu kolonu 'Country' u naš DataFrame sa zadanom vrijednošću, recimo 'USA'.
df['Country'] = 'USA'
Ova jednostavna linija koda će dodati novu kolonu pod nazivom 'Country' našem postojećem DataFrame-u 'df' sa vrijednošću 'USA' u svim svojim redovima. Naš ažurirani DataFrame bi izgledao ovako:
Name Age City Country 0 Alex 25 NY USA 1 Tom 28 LA USA 2 Nick 23 SF USA 3 Sam 22 Chicago USA
Objašnjenje koda korak po korak
Hajde da raskinemo kod i razumemo ga korak po korak.
1. Prvo uvozimo Pandas biblioteku koristeći standardni alias 'pd'. Ovo nam omogućava da pristupimo Pandas funkcijama i klasama koristeći prefiks 'pd'.
import pandas as pd
2. Zatim kreiramo rječnik 'podataka' koji sadrži neke uzorke podataka. Svaki ključ u rječniku predstavlja ime stupca, a njegova odgovarajuća vrijednost je lista vrijednosti za tu kolonu.
data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'],
'Age': [25, 28, 23, 22],
'City': ['NY', 'LA', 'SF', 'Chicago']}
3. Zatim pretvaramo ovaj rječnik u Pandas DataFrame objekt koristeći funkciju `pd.DataFrame()`.
df = pd.DataFrame(data)
4. Konačno, da bismo dodali novu kolonu, jednostavno koristimo operator dodjeljivanja “=” sa DataFrameom, dajući novo ime kolone unutar uglastih zagrada i specificirajući zadanu vrijednost. U našem slučaju, dodali smo kolonu 'Country' sa zadanom vrijednošću 'USA'.
df['Country'] = 'USA'
Pandas biblioteka i srodne funkcije
Pandas je moćna Python biblioteka, posebno pogodna za obradu podataka, čišćenje i analizu zadataka. Pruža dvije glavne strukture podataka: DataFrame i serija. DataFrame je dvodimenzionalna tabelarna struktura podataka sa označenim osovinama (redovi i kolone). Serija je, s druge strane, jednodimenzionalni označeni niz sposoban da sadrži podatke bilo kojeg tipa.
Neke uobičajene Pandas funkcije koje se odnose na dodavanje, modificiranje i brisanje stupaca u DataFrameu su sljedeće:
- umetnuti(): Da biste umetnuli kolonu na određenu poziciju.
- ispusti(): Da biste uklonili kolonu iz DataFrame-a.
- preimenuj(): Za preimenovanje stupca DataFrame-a.
- dodijeli(): Za kreiranje nove kolone na osnovu rezultata izraza.
Dakle, dodavanje nove kolone u Pandas DataFrame je jednostavno i efikasno. U ovom članku smo pokrili osnovnu metodu dodavanja nove kolone sa zadanom vrijednošću i pružili detaljna objašnjenja uključenih koraka. Također smo predstavili Pandas kao moćnu biblioteku za manipulaciju podacima i razgovarali o nekim srodnim funkcijama za upravljanje kolonama DataFrame. Savladavanjem ovih tehnika, bićete dobro opremljeni za rukovanje širokim spektrom zadataka obrade podataka u Pythonu.