Riješeno: dodati novu kolonu u pandas dataframe

Posljednje ažuriranje: 09/11/2023

U ovom članku ćemo istražiti proces dodavanja nove kolone u Pandas DataFrame, popularnu biblioteku u Pythonu za manipulaciju i analizu podataka. Razgovarat ćemo o rješenju ovog problema, proći kroz objašnjenje koda korak po korak i pokriti neke povezane teme i funkcije u Pandas biblioteci. Pandas je široko korišćena biblioteka koja sadrži strukture podataka i alate visokog nivoa, savršene za efikasnu analizu podataka i rukovanje zadacima.

Za početak, pretpostavimo da imamo skup podataka u obliku Pandas DataFrame i želimo mu dodati novu kolonu. Ovo je uobičajeni zahtjev u fazi pripreme podataka, često potreban za inženjering karakteristika ili za generiranje dodatnih informacija na osnovu postojećih kolona. Uronimo u to kako se to može postići.

Dodavanje nove kolone u Pandas DataFrame

Počećemo uvozom potrebne biblioteke i kreiranjem uzorka DataFrame-a.

import pandas as pd

data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'],
        'Age': [25, 28, 23, 22],
        'City': ['NY', 'LA', 'SF', 'Chicago']}

df = pd.DataFrame(data)

Sada, dodajmo novu kolonu 'Country' u naš DataFrame sa zadanom vrijednošću, recimo 'USA'.

df['Country'] = 'USA'

Ova jednostavna linija koda će dodati novu kolonu pod nazivom 'Country' našem postojećem DataFrame-u 'df' sa vrijednošću 'USA' u svim svojim redovima. Naš ažurirani DataFrame bi izgledao ovako:

  Name  Age     City Country
0  Alex   25      NY     USA
1   Tom   28      LA     USA
2  Nick   23      SF     USA
3   Sam   22  Chicago     USA

Objašnjenje koda korak po korak

Hajde da raskinemo kod i razumemo ga korak po korak.

1. Prvo uvozimo Pandas biblioteku koristeći standardni alias 'pd'. Ovo nam omogućava da pristupimo Pandas funkcijama i klasama koristeći prefiks 'pd'.

import pandas as pd

2. Zatim kreiramo rječnik 'podataka' koji sadrži neke uzorke podataka. Svaki ključ u rječniku predstavlja ime stupca, a njegova odgovarajuća vrijednost je lista vrijednosti za tu kolonu.

data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'],
        'Age': [25, 28, 23, 22],
        'City': ['NY', 'LA', 'SF', 'Chicago']}

3. Zatim pretvaramo ovaj rječnik u Pandas DataFrame objekt koristeći funkciju `pd.DataFrame()`.

df = pd.DataFrame(data)

4. Konačno, da bismo dodali novu kolonu, jednostavno koristimo operator dodjeljivanja “=” sa DataFrameom, dajući novo ime kolone unutar uglastih zagrada i specificirajući zadanu vrijednost. U našem slučaju, dodali smo kolonu 'Country' sa zadanom vrijednošću 'USA'.

df['Country'] = 'USA'

Pandas biblioteka i srodne funkcije

Pandas je moćna Python biblioteka, posebno pogodna za obradu podataka, čišćenje i analizu zadataka. Pruža dvije glavne strukture podataka: DataFrame i serija. DataFrame je dvodimenzionalna tabelarna struktura podataka sa označenim osovinama (redovi i kolone). Serija je, s druge strane, jednodimenzionalni označeni niz sposoban da sadrži podatke bilo kojeg tipa.

Neke uobičajene Pandas funkcije koje se odnose na dodavanje, modificiranje i brisanje stupaca u DataFrameu su sljedeće:

  • umetnuti(): Da biste umetnuli kolonu na određenu poziciju.
  • ispusti(): Da biste uklonili kolonu iz DataFrame-a.
  • preimenuj(): Za preimenovanje stupca DataFrame-a.
  • dodijeli(): Za kreiranje nove kolone na osnovu rezultata izraza.

Dakle, dodavanje nove kolone u Pandas DataFrame je jednostavno i efikasno. U ovom članku smo pokrili osnovnu metodu dodavanja nove kolone sa zadanom vrijednošću i pružili detaljna objašnjenja uključenih koraka. Također smo predstavili Pandas kao moćnu biblioteku za manipulaciju podacima i razgovarali o nekim srodnim funkcijama za upravljanje kolonama DataFrame. Savladavanjem ovih tehnika, bićete dobro opremljeni za rukovanje širokim spektrom zadataka obrade podataka u Pythonu.

Slični postovi: