PI - pitanja i odgovori

Objasnite ETL i njegovu važnost za skladišta podataka

ETL (Extract, Transform, Load) je proces koji se sastoji od tri ključna koraka: izdvajanja podataka iz različitih operativnih izvora, njihove transformacije (prilagodbe i čišćenja) te učitavanja u ciljno skladište podataka.

Važnost: ETL je ključan jer pretvara neobrađene, često "prljave" podatke iz različitih sustava u konzistentne, točne i integrirane informacije spremne za analizu. Bez ETL-a, skladište podataka bi sadržavalo duplikate, nekonzistentne formate i pogrešne informacije, što bi dovelo do donošenja pogrešnih poslovnih odluka. Omogućuje održavanje metapodataka, sumiranje podataka i restrukturiranje ključeva, čime se osigurava da podaci u skladištu budu "jedinstveni izvor istine".

Navedite i objasnite osnovne karakteristike skladišta podataka

Centraliziranost: Djeluje kao sveobuhvatno i centralizirano spremište koje integrira podatke iz cijele organizacije.
Predmetna orijentiranost: Podaci su organizirani oko ključnih poslovnih subjekata (npr. kupci, proizvodi, prodaja), a ne oko aplikacija.
Integriranost: Podaci iz različitih izvora moraju biti usklađeni (npr. ista definicija KPI-a za cijelo poduzeće).
Povijesna perspektiva: Skladišta čuvaju povijesne podatke ključne za praćenje trendova kroz vrijeme.
Nepromjenjivost: Jednom učitani, podaci se u pravilu ne mijenjaju (samo se dodaju novi), što osigurava stabilnost analiza.

Navedite najmanje 4 OLAP operatora i objasnite način na koji rade

Slice (Sečenje): Izdvajanje podskupa podataka tako da se zadrže samo određene vrijednosti za jednu ili više dimenzija.
Dice (Kocka): Selektovanje podskupa podataka, ali za razliku od sečenja, možete izabrati više od jedne vrijednosti za svaku dimenziju.
Pivot (Rotacija): Promjena orijentacije dimenzija u višedimenzionalnoj kocki podataka radi boljeg razumijevanja.
Roll-Up (Agregacija): Prikaz podataka na višem nivou hijerarhije, tako da se detaljni podaci "sabiraju" u općenitije prikaze (grad – država – regija).
Drill-Down (Dublje kopanje): Istraživanje podataka na nižem nivou hijerarhije dimenzija radi detaljnijih informacija.

Šta su izvori podataka za skladište podataka? Kako se mogu podijeliti

Prema porijeklu:

Interni izvori: ERP moduli, CRM sustavi, interni dokumenti, podaci senzora i pozivnih centara.
Eksterni izvori: Društveni mediji, službena statistika, vremenske prognoze, podaci poslovnih partnera i internet.

Prema strukturi:

Strukturirani: Relacijske baze podataka (npr. ERP, CRM).
Nestrukturirani/polustrukturirani: Dokumenti, slike, zvuk, video zapisi.

Objasnite zbog čega su metapodaci dobili na važnosti kod skladišta podataka (i šta je to)

Metapodaci su "podaci o podacima" koji opisuju sadržaj, strukturu, format, značenje i porijeklo drugih podataka.

Zašto su važni:

Omogućuju korisnicima da pronađu i razumiju podatke
Opisuju značenje podataka (data dictionary)
Omogućuju praćenje porijekla podataka (data lineage)
Pomažu u upravljanju ETL procesima i skladištem podataka
Osiguravaju konzistentnost i održivost skladišta podataka

Navedite i pojasnite 2 temeljna preduvjeta za data mining

Kvaliteta i količina digitalnih podataka: Za pouzdane zaključke potrebne su ogromne količine podataka koje su prethodno očišćene i integrirane, što se obično osigurava kroz skladište podataka.
Stručnost i poslovna kompetencija: Rezultati algoritama mogu biti besmisleni bez osobe koja ih zna interpretirati na smislen način i pretvoriti u vrijednu informaciju.

Šta je ovisni Data Mart i kada se obično koristi

Data Mart (DM) je manji podskup Data Warehouse, predmetno orijentirano skladište podataka namijenjeno specifičnim analitičkim potrebama određenog odjela (npr. prodaja, marketing).

Ovisni Data Mart: Podatke dobiva izravno iz centralnog skladišta podataka poduzeća (EDW).

Kada se koristi: Kada određena grupa korisnika treba brz pristup specifičnom podskupu podataka, bez potrebe za pretraživanjem cijelog EDW-a, čime se poboljšavaju performanse i olakšava analiza za taj poslovni segment.

Prednosti: Konzistentnost podataka (svi DM-ovi crpe iz jednog izvora istine), lakše održavanje, pouzdanost.

Zašto su podaci ključni u donošenju poslovnih odluka

Podaci su temelj za "data-driven" poslovanje. Oni omogućuju menadžmentu da dobije točnu sliku o najboljim kupcima, učinkovitosti marketinških kampanja i tržišnim trendovima. Bez kvalitetnih podataka, odluke se donose na temelju intuicije, što može dovesti do ulaganja budžeta u pogrešne segmente. Kvalitetno analizirani podaci omogućuju otkrivanje skrivenih obrazaca koji donose konkurentsku prednost.

Navedite i objasnite najmanje 3 problema (izazova) koja se odnose na upotrebu poslovne inteligencije

"Prljavi" podaci: Prisutnost duplikata, neaktivnih e-mailova i nedosljednih formata u izvornim sustavima (poput lošeg CRM-a) čini PI alat beskorisnim ili štetnim.
Tehnološka kašnjenja: Hardver ili softver koji ne može dovoljno brzo isporučiti informacije čini ih manje vrijednima jer su najvrjednije informacije dobivene "u trenutku".
Nerazumijevanje podataka: Ako su podaci slabo dokumentirani ili razasuti po mreži, korisnici ih ne mogu pronaći ili ne znaju kako ih ispravno koristiti, što dovodi do pogrešnih rezultata.

Navedite 5 slojeva arhitekture poslovne inteligencije. Koji sloj povezuje sve ostale u jednu cjelinu?

Izvor podataka — interni/eksterni podaci, ERP, cloud; ovdje se radi ETL
Skladište podataka (DWH) — centralizirani, čisti, integrirani historijski podaci
Sloj obrade — upiti, agregacije, izračun metrika
Sloj prezentacije — dashboardi, izvještaji, vizualizacije za krajnjeg korisnika
Sloj poslovne logike — pravila, filteri, kompleksni izračuni

Koji sloj povezuje sve? Metadata Layer (sloj metapodataka) — opisuje strukturu i značenje podataka u svim slojevima, omogućava integraciju cijele arhitekture u jednu cjelinu.

Šta su osnovni izazovi (problemi) kod stabala odlučivanja

Stabla odlučivanja su popularni DM alati jer rastavljaju probleme na diskretne skupove kroz čvorove i grananja. Glavni izazovi:

Kvaliteta ulaznih podataka: Problematični podaci (nedostajuće vrijednosti, netočne informacije) izravno utječu na preciznost stabla.
Pouzdanost zaključaka: Potrebne su velike količine podataka kako bi se izbjegao overfitting i osiguralo da su izvedena pravila primjenjiva na nove slučajeve.
Nestabilnost: Mala promjena u podacima može potpuno promijeniti strukturu stabla.

Navedite 2 temeljna koraka procesa klasifikacije i ukratko ih opišite

Izgradnja modela (učenje): Algoritam proučava temeljna pravila i osobine skupa podataka za obuku kako bi identificirao obrasce.
Primjena i provjera modela: Model se testira na neovisnom skupu podataka kako bi se utvrdila njegova preciznost i zatim se koristi za predviđanje kategorije novih, nepoznatih podataka.

Navedite i objasnite 3 osnovna tipa dimenzijskih modela

MOLAP (Višedimenzijski OLAP): Pohranjuje podatke u posebno dizajnirane višedimenzionalne "kocke". Pruža najbrže odgovore jer su agregacije unaprijed izračunate.
ROLAP (Relacijski OLAP): Podaci ostaju u relacijskim bazama podataka (tablicama). Upiti se izvode izravno nad bazom koristeći SQL, što je fleksibilnije, ali može biti sporije.
HOLAP (Hibridni OLAP): Kombinira oba pristupa; sumarni podaci su u višedimenzijskim strukturama radi brzine, a detaljni podaci u relacijskoj bazi.

Šta je to Data Mart i kada se obično koristi

Data Mart (DM) je manji podskup Data Warehouse, predmetno orijentirano skladište podataka namijenjeno specifičnim analitičkim potrebama određenog odjela (npr. prodaja, marketing).

Kada se koristi: Kada organizacija želi implementirati rješenje za specifičan poslovni problem (npr. samo za prodaju) bez čekanja na izgradnju cjelokupnog EDW-a, ili kada specifični timovi trebaju veću autonomiju i brže performanse nad svojim podacima.

Objasnite ukratko šta je dovelo do razvoja poslovne inteligencije

Do razvoja PI dovela je činjenica da su podaci postali razasuti po mrežama u previše verzija i nejasnih razlika, te da korisnici nisu mogli dobiti potrebne informacije bez pomoći eksperata. Postojao je jaz između ogromne količine podataka u operativnim sustavima i nemogućnosti njihove uporabe za strateško odlučivanje. Također, isti podaci su se različito izračunavali u različitim odjelima, što je zahtijevalo uvođenje jedinstvenog izvora istine.

Koji se sve tipovi podataka mogu koristiti u klaster analizi

Klaster analiza je metoda rudarenja podataka koja grupira objekte na osnovu njihove sličnosti. Može koristiti:

Strukturirane podatke o ponašanju korisnika, demografskim obilježjima i transakcijama.
Podatke iz skladišta podataka, koji su prošli proces integracije i čišćenja kako bi se osigurala kvalitetna analiza klastera.

Koje vrste tablica razlikuje dimenzijski model podataka? Objasnite razliku

Dimenzijski model (Star ili Snowflake shema) razlikuje:

Tablice činjenica (Fact tables): Sadrže numeričke mjere/metrike (npr. iznos prodaje, količina) povezane s poslovnim procesima. Obično su vrlo velike i nalaze se u središtu modela.
Tablice dimenzija (Dimension tables): Sadrže opisne atribute (npr. ime kupca, naziv proizvoda, datum) koji daju kontekst činjenicama. Omogućuju korisnicima da "filtriraju" i promatraju podatke iz različitih perspektiva.

U čemu je sličnost, a u čemu razlika između skladišta podataka i Data Marta

Sličnost: Oba su analitički sistemi koji služe podršci odlučivanju u poslovnoj inteligenciji. Oba integrišu podatke iz različitih izvora i optimizovana su za analizu i izvještavanje.

Razlika: Skladište podataka je centralizovan i sveobuhvatan sistem koji pokriva cijelu organizaciju, dok je Data Mart njegov manji podskup usmjeren na određeni odjel ili poslovnu oblast.

Koje su dvije osnovne promjene (pritisci) koje su dovele do razvoja poslovne inteligencije?

Eksplozija podataka (tehnološki pritisak): Pojava ogromnih količina neobrađenih podataka koje operativni sustavi nisu mogli analizirati.
Potreba za bržim i točnijim odlučivanjem (poslovni pritisak): Zahtjev menadžmenta za informacijama u realnom vremenu i povijesnom perspektivom radi konkurentske prednosti.

Navedite najmanje 5 dimenzija osobina Big Data

Volume (Volumen): Ogromna količina podataka (Terabajti, Petabajti).
Velocity (Brzina): Brzina kojom se novi podaci generiraju i trebaju obrađivati (npr. streaming integration).
Variety (Raznolikost): Podaci dolaze u strukturiranim, polustrukturiranim i nestrukturiranim oblicima.
Veracity (Vjerodostojnost): Kvaliteta i točnost podataka.
Value (Vrijednost): Sposobnost izvlačenja korisnih uvida iz podataka.

U čemu je razlika između klasifikacije i klasteriranja?

Klasifikacija: Nadzirano učenje gdje su kategorije (klase) unaprijed poznate, a cilj je dodijeliti nove podatke u te definirane grupe (npr. stabla odlučivanja).

Klasteriranje: Nenadzirano učenje gdje grupe nisu unaprijed definirane; algoritam sam pronalazi prirodne grupacije u podacima na temelju sličnosti (npr. klaster analiza).

Zašto organizacija treba poslovnu inteligenciju?

Pretvaranje sirovih podataka u strateško znanje.
Brže i preciznije donošenje odluka koje se temelje na činjenicama, a ne nagađanjima.
Otkrivanje skrivenih obrazaca kupovine i predviđanje budućih trendova.
Integracija svih podataka na jednom mjestu kako bi svaki odjel koristio iste, provjerene informacije.

Razlike između operativnih/primitivnih i izvedenih/DSS podataka?

Orijentacija: Operativni su aplikacijski orijentirani (podržavaju rad sustava), dok su DSS predmetno orijentirani (podržavaju analizu).
Detaljnost: Operativni su detaljni; DSS su sumarni i redefinirani.
Promjenjivost: Operativni se stalno mijenjaju; DSS su statični (nepromjenjivi nakon učitavanja).
Vrijeme: Operativni se odnose na kraći period (najčešće jednu godinu); DSS nemaju vremensko ograničenje i prate povijest.
Količina: Operativne obrade koriste manju količinu podataka; DSS obrade koriste ogromne količine.