Защита на данните
За ВСУ "Черноризец Храбър"

Доц. д-р Галина Момчева инициатор и организатор на Националното състезание по извличане на данни QUERYADA: “Развитието на бизнеса е немислимо без поддържането и извличането на бази данни.”

Доц. д-р Галина Момчева е ръководител на катедра „Информатика и икономика“ във Варненския свободен университет „Черноризец Храбър“. Автор е на Концепцията за развитие на дигиталната компетентност на студентите от ВСУ. Води университетските курсове по C, C++, Java, Processing, Структури от данни и алгоритми, Проектиране на интерфейси, Социално мрежови анализи и други. Инициатор и ръководител на ScratchBG. Тя е ръководител на изследователски разработки в областта на компютърните науки на студенти и ученици и ръководител на отбори по състезателна информатика. Обучава ученици, учители и родители по визуално програмиране, инициира и провежда регионални и национални инициативи и изяви, свързани с компютърни науки. Носител е на множество награди за откриване и развиване на таланти в областта на информатиката. Днес се изправя пред ново предизвикателство като инициатор и организатор на Националното състезание по извличане на данни QUERYADA.

- Как се роди идеята за QUERYADA ? 

- Идеята за състезанието е моя. Тя се появи преди няколко години, заради необходимостта от разширяване на изявите за студенти, в отговор на предизвикателството за разширяване на професиите в областта на ИТ индустрията.  Не е тайна, че в следващите години ще се увеличи търсенето на специалисти като "Администратори на бази данни", "Анализатори на данни", "Визуализатори на данни", "Интегратори на данни" и др.

- Защо избрахте името “Queryada”?

- Queryada е комбинация от Query (заявка) и олимпиада, т.е. това е състезание за извличане на данни. Името го даде Евгени Андреев. Той е мой студент. С него направихме и регламента на състезанието. 

Евгени Андреев и Николай  Цанков са авторите на онлайн системата, в която участниците ще се състезават основно в Queryada, 2015. Това е техният дипломен проект, който ще защитят успешно в края на октомври, ако състезанието мине без проблеми.

- Каква е Вашата роля в състезанието?

- Моята роля е на инициатор и на организатор, но може би най-важният ми ангажимент в момента е на комуникатор между фирмите-партньори, учащите в страната и техните преподаватели.

Някои колеги ме поздравяват, други смятат, че тази изява е подходяща само за студенти, но аз искам да дадем възможност и на учениците да участват.

Добавянето в регламента на извличане на данни от нерелационни бази данни, работата със семантични данни е провокация и за нас авторите на състезанието, и за фирмите, а със сигурност ще бъде провокация и за участниците. Дано да се получи успешно от първия път. Провокацията да включим нови технологии като големи масиви от данни и семантични данни е важна, защото искам да насърчим учащите да обърнат внимание на тези технологии.

- Има ли Queryada аналог в България или в чужбина?

- Не. Има международно състезание по програмиране за ученици и отделно за студенти. Смятам, че имиджът на България в международните състезания по програмиране и успехите на българските състезатели ще дадат възможност лесно да намерим пътя за международен формат на QUERYADA.

В глобален мащаб се увеличава значително количеството данни, които се събират не само от потребители, а и от автоматизирани устройства/системи, от потребители в уеб или чрез смарт технологии. Съществуващото разнообразие от релационни бази данни, възникването на нови нерелационни такива и необходимостта да се интегрират е голяма провокация, която изисква специалисти със специфични познания.

Извличането на данни е вече както от структурирани, така и от неструктурирани данни, нещо повече има и възможност за използване на свързани данни, осигуряващо автоматизирането на съвместната работа без усилия за координация.

Всички нови  възможности в областта на ИТ и компютърните науки предизвикват нови въпроси по отношение на сигурността. 

- Какво представлява извличането на данни и защо е толкова важно днес ?

- Данните можем да си представим като реалните факти, които се представят обикновено във вид на числа, текст и са форматирани по специален начин. След обработка, организиране, представяне в някакъв контекст данните се превръщат в нещо смислено за нас, т.е. в информация.

Релационните бази данни организират данните във вид на таблици и поставят строги изисквания на принципи, които да бъдат спазени в тази организация.

Така, например SQL (Structured Query Language) представлява език за структурирани заявки в релационни бази данни.  Командите на SQL са познати като заявки и включват специални (ключови) думи, с които са кодирани операции за добавяне, селектиране, обновяване или изтриване на данни. Заявка наричаме и последователността от няколко SQL команди.

Популярен в последно време е терминът „големи масиви(обеми) от данни“. Това са данни, измервани в петабайти (1 petabyte = 1024 terabytes)  или екзабайти ( 1 exabyte = 1024 petabytes). Според някои дефиниции (Doug Laney) това са данни, които имат следните три характеристики: скорост (velocity), обем (volume) и разнообразие (variety).

Примери за организации, които разполагат и управляват големи масиви от данни са: Facebook, Yahoo, Twitter, eBay и др.

По отношение на начина, по който са организирани, данните могат да бъдат:

Структурирани - отнася се за данни, които имат определена дължина и формат.  Това са числа, дати, стрингове (текстове). Структурирани данни могат да се генерират от компютри или от хора. Тези генерирани от компютри данни са резултат от автоматизирани процеси и могат да бъдат получени от: сензори (RFID, GPS,...); регистриране на действия в интернет; продажби; финансови операции. Генерираните от хора данни са вследствие на: кликване на потребители в сайтове; въвеждане на данни от потребители данни, свързани с игри или действия на потребители, всяко от които се записва.

Неструктурирани данни - това са данни, които нямат определен формат. Ако 20% от данните в предприятията са структурирани, 80% са неструктурирани.  Машинно генерирани неструктурирани данни са: сателитни снимки - данни за времето (Google Earth); научни данни - снимки за сеизмична активност, данни за атмосферата и др.; снимки и видео - сигурност, наблюдения на обекти и видео на трафика съдържание в уеб - Flickr, YouTube и много други. 

Извличането на данни (data retrieval) означава претърсването на масиви от данни с определена цел и извличането на част от тях по определен критерий. Един от вариантите на извличане е чрез заявки. 

Важно понятие в областта на данните е Open Data (отворени - свободни за употреба данни). Съвременна тенденция в световен мащаб е отварянето на повече данни от правителства и организации, с което се цели използването на повече хора, включително доброволно за извличане на повече знание от достъпните данни.

- В какви области от ежедневието е приложимо?

- Всеки вид бизнес в днешно време използва бази данни за своята дейност. Най-често създаваме и поддържаме бази данни за фирмена дейност като производство, продажби, услуги, работим ежедневно с клиенти и искаме да правим справки за определени дейности, в определени периоди от време, по стойности за определен продавач или купувач, за счетоводни дейности, за да подобрим маркетинга и управлението на фирмата с цел вземането на по-успешни решения. 

Можем да организираме база данни и за лични цели, например да подобрим как управляваме времето си, което е част от уменията ни за учене. Тогава можем да записваме в продължение на определен период от време какъв вид дейности правим всеки ден и по колко време ни отнема това, за да направим впоследствие анализи и след което да вземем решение кое и как да правим по-оптимално, за да имаме повече лично време.

Разликата между писменото, електронното документиране и създаването на система за управление на база данни е в спазването на определени стандартизирани изисквания и формати на данните от една страна и ефективността на резултата от друга страна.

Друг пример е следният: след сливане/поглъщане/разделяне на две фирми, които са имали собствени бази данни е необходима нова такава, тогава се налага да се направи процес по интеграция на техните бази данни, което за разлика от извличането изисква повече знания и умения за данните.

Събирането на данни за по-големи периоди от време и отварянето на тези данни днес дава възможност на повече хора да правят анализи и да извличат необходимата информация, да предсказват – да правят прогнози за бизнес развитието си или да генерират ново знание.

- Как виждате бъдещето в тази област?

- Развитието и значимостта на технологиите за обработка и достъп до данни дава основание за активно развитие на ново специализирано направление в областта на компютърните науки: Data Science. Това е направлението готово да отговори на нарастващите нужди от анализи, предсказване на тенденции, визуализация и представяне при използването на големи масиви от данни и при осъществяването на съвременни интелигентни бизнес анализи.

Възникването на нови професии като „анализатор на данни“, „визуализатор на данни“, „интегратор на данни“ и  др. Очаквани умения на съвременният експерт в областта на Data Science включват: математика и особено по статистика, софтуерно инженерство, машинно самообучение, програмиране; критично мислене; креативност; комуникативност и съвместна работа.

Изискванията към работещите отварят нови възможности и за развитие на нови образователни продукти от университетите.  В момента катедра „Информатика и икономика“ на Варненския свободен университет подготвя нова магистърска програма Data Science, обучението в която ще бъде изцяло на английски език. 

- Към кого е насочено събитието – кой може да се включи в него?

- Към учащи - ученици и студенти. 

- Защо не може да се включат хора, работещи в ИТ бизнеса, които не са учащи в учебни заведения?

- Защото искаме да подкрепим учащите в системата на висшето и средното образование.

- Как ще протече състезанието?

- Заинтересованите могат да следят за подробности около състезанието на сайта: www.queryada.com.

- Какво, според Вас, мотивира младежите да се включат в състезанието?

- Желанието за изява е част от развитието на един професионалист в определена област. Не подкрепям ученето само чрез състезания, но не отричам, че и надпреварата е силно мотивиращ фактор, както за младите хора, така и за обучаващите ги.

Освен наградите, което засега ще оставим в тайна, най-провокиращото в едно състезание винаги е било срещата на живо на участниците - още повече - моите очаквания са в този формат да има участници и от двата пола. Тук предвиждаме и среща с бизнеса, групова и екипна работа.

За мен, а най-вероятно и за ИТ фирмите най-голямата провокация ще бъде ранг листата, която ще създадем и ще поддържаме. Искам да обърна внимание, че и регламентът и ранг листата ще бъдат отворени до 16-ти октомври за предложения от страна на ментори, участници и експерти. 

- Какви са Вашите очаквания за резултатите от провеждането на Queryada?

- Ангажирано участие на състезателите и техните ментори; повишаване на активността на ИТ компаниите и включване на още фирми през следващите години; подкрепа от страна на браншовите ИТ организации (асоциации, клъстери); интерес от международни браншови организации; предоставяне на финансиране за системна подготовка за тази изява; предложение от страна на различни бизнеси да създаваме нови изяви, свързани с тях, за да ги рекламираме и да подготвяме кадри със специфичен профил в областта на извличането на данни.

- Какво последно Ви провокира в областта на информационните технологии?

- Инфографика (Infographics), Естествени потребителски интерфейси (Natural User Interfaces) и разбира се нововъзникващата наука за данните (Data Science).

by ВСУ Черноризец Храбър

Галерия