U današnjem svijetu vođenom modom, rad s velikim skupovima podataka je prilično uobičajen, a pandas je popularna biblioteka u Pythonu koja pruža moćne alate za manipulaciju podacima lakim za korištenje. Među velikom raznolikošću formata podataka, Parket se naširoko koristi zbog svog efikasnog stupnog skladištenja i lagane sintakse. Amazon S3 je popularna opcija za skladištenje vaših datoteka, a njegova integracija sa pandama može značajno poboljšati vaš radni tok. U ovom članku ćemo istražiti kako čitati datoteke Parketa s Amazon S3 koristeći moćnu biblioteku panda.
Da biste riješili problem čitanja Parket datoteka sa S3, morate razumjeti ključne komponente i biblioteke uključene. Dvije glavne biblioteke koje ćemo koristiti su pandas i s3fs. Pande će se baviti obradom podataka, dok će s3fs omogućiti povezivanje s Amazonom S3.
import pandas as pd import s3fs
Pandas Library
Pandas je biblioteka otvorenog koda koja pruža moćne alate za manipulaciju podacima i analizu u Pythonu. Široko ga koristi zajednica nauke o podacima, zahvaljujući svojoj fleksibilnosti i sposobnosti rada s različitim formatima podataka, uključujući i parket datoteke. S pandama možete lako učitavati, analizirati i manipulirati podacima, što vam omogućava da brzo istražite i shvatite obrasce i trendove u vašim podacima.
S3fs biblioteka
S3fs je interfejs nalik Python fajlu za neprimetan pristup Amazon S3 objektima. Kombinira funkcionalnost Boto3 i FUSE (Filesystem in Userspace), što ga čini nevjerovatno lakim za rad sa S3 objektima kao da su lokalni fajlovi. Preko s3fs-a možete čitati i pisati fajlove sa S3, listati i brisati objekte i izvoditi druge operacije sa datotekama direktno sa Pythonom.
Sada kada ste razumjeli uključene biblioteke, prođimo kroz korak po korak objašnjenje čitanja datoteka Parketa sa S3 koristeći pandas i s3fs.
- Instalirajte pande i s3fs – Prvo, morate instalirati i pandas i s3fs biblioteke putem pip-a:
pip install pandas s3fs
- Uvezite biblioteke – Počnite uvozom i panda i s3fs biblioteka:
import pandas as pd import s3fs
- Postavite konfiguraciju – Postavite svoje Amazon S3 vjerodajnice tako što ćete ih proslijediti direktno na s3fs ili konfigurirati svoje okruženje pomoću AWS_ACCESS_KEY_ID i AWS_SECRET_ACCESS_KEY:
fs = s3fs.S3FileSystem( key='your_aws_access_key_id', secret='your_aws_secret_access_key' )
- Pročitajte Parket fajl sa S3 – Koristite pande i s3fs da pročitate svoj Parket fajl:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet' df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})
Nakon izvršenja ovih koraka, trebali ste uspješno pročitati svoj Parket fajl sa S3 i okvir podataka 'df' sada sadrži vaše S3 podatke u tabelarnom formatu.
U ovom članku smo vidjeli kako pristupiti i čitati Parket datoteke s Amazon S3 koristeći moćnu biblioteku pandas za manipulaciju podacima i s3fs za besprijekornu S3 povezanost. Ovi alati mogu uvelike poboljšati vaše radne tokove obrade podataka i omogućiti vam da se usredotočite na izvlačenje uvida i razumijevanje najnovijih trendova u svijetu mode. Od istraživanja različitih stilskih kombinacija do analize povijesti i evolucije trendova u odjeći, pandas olakšava otkrivanje skrivenih dragulja u vašim podacima.