Вялікія дадзеныя супраць сховішчаў дадзеных. У чым розніца?

Тэхналогія прагрэсуе тэмпамі, якія немагчыма ісці ў нагу, і старэючыя кіраўнікі тэхналогій хутка выявяць, што ўсе гэтыя студэнцкія класы хутка старэюць. Калі вы галоўны дырэктар па тэхналогіі (CTO) у буйной фірме, у вас няма тоны часу, каб даведацца пра новыя тэхналогіі, таму што вы занадта занятыя барацьбой з пажарамі і абавязкова выглядаеце добра на наступным пасяджэнні калегіі ў перад усімі іншымі людзьмі, якія спрабуюць зрабіць тое ж самае. У нейкі момант вы можаце спытаць: у чым розніца паміж вялікімі дадзенымі ў сховішчах дадзеных?

Любы спецыяліст па тэхналогіі будзе знаёмы з тым, што такое база дадзеных. Гэта проста збор дадзеных, які расце з цягам часу, і з якога вы даведаецеся цікавага з дапамогай запытаў. Тады ёсць паняцце сховішча дадзеных, з чаго вынікае назва. Давайце не будзем уступаць ва ўсю размову "Кімбол супраць Імона", і зрабіць гэта проста.

Склад дадзеных - гэта шэраг разрозненых баз дадзеных у арганізацыі, якія могуць быць злучаны агульным ключом. Напрыклад, мы можам падключаць запісы ў некалькіх базах дадзеных, выкарыстоўваючы унікальнае поле пад назвай CUSTOMER_ID. Вось базы дадзеных у розных аддзелах, дзе існуюць запісы, якія мы можам хацець звязаць з дапамогай CUSTOMER_ID:

Выкарыстоўваючы CUSTOMER_ID, вы зможаце лёгка раздрукаваць на адной старонцы спіс усіх фактур, якія не былі аплачаны, і спіс 10 самых апошніх запытаў на паслугі, якія прадаўца можа ўзяць з сабой на гандлёвую сустрэчу. Вядома, сёння мы проста выкарыстоўваем Salesforce для ўсяго гэтага, але гэты просты прыклад дае вам уяўленне пра тое, наколькі карысна можа падключаць розныя крыніцы дадзеных. Вось аб чым складаюцца сховішчы дадзеных, за выключэннем таго, што яны робяць крок наперад і выкарыстоўваюць злучаныя дадзеныя для прыняцця рашэнняў на вельмі высокім узроўні. Пры будаўніцтве сховішча дадзеных вы, як правіла, ведаеце, на якія пытанні вы хочаце адказаць, таму што чалавек на ўзроўні C просіць вызначыць пэўныя ключавыя паказчыкі эфектыўнасці (KPI). Вы не павінны проста ствараць сховішчы дадзеных для стварэння іх, таму што гэта дарагая задача. Зараз пагаворым пра "вялікія дадзеныя" і сховішчы дадзеных.

Першае, што нам трэба вызначыць, гэта тэрмін "вялікія дадзеныя", які ў значнай ступені вызначае сябе. Вы, напэўна, чулі часта цытаваную статыстыку, паводле якой 98% усіх дадзеных было створана за апошнія 2 гады. Гэта вялікія дадзеныя. Усе вялікія наборы выхлапных дадзеных, якія зараз ствараюцца, можна здабываць (памятаеце, здабыча дадзеных?) Для атрымання ідэй. У сучасным высокатэхналагічным свеце мы можам захацець атрымаць ідэю, якую мы не ведаем, што існуе. Дональд Рамсфельд спрытна назваў іх "невядомымі невядомымі", якія мы не ведаем, пра якія не ведаем. У свеце псіхалогіі гэтае паняцце называюць акном Ёхары. Вы ведаеце, што чалавек з продажаў, які не ведае пра тое, што іх простае існаванне прымушае ўсіх, хто вакол іх, хоча адарваць Пітэра Пэна ад бліжэйшага гмаху? Тое, што чалавек не ведае пра тое, як яны раздражняюць - і тое, што людзі вакол гэтага чалавека не могуць дакладна паставіць палец на тое, - гэта "невядомая невядомасць" у тым, што ніхто не ведае, чаму Роба ў продажах проста вялікая. , тлушч, агідны ўкол. Ва ўсякім разе, ісці далей.

Апублікавана на 7wData.be.