• Главная <
  • Галерея
  • Карта сайта
  • Наши контакты
  • Обратная связь

Великі дані в хмарі

  1. Визначення великих даних
  2. Джерела великих даних
  3. Конструювання систем великих даних
  4. Великі дані в сфері громадської безпеки і охорони правопорядку
  5. Приклад: використання сценаріїв на мові R
  6. Малюнок 1. Двовимірний графік моделі Лоренца в електронній таблиці
  7. Малюнок 2. Імпорт пакета візуалізації в R для Windows
  8. Малюнок 3. Тривимірний графік рівнянь Лоренца, побудований за допомогою R
  9. Майбутнє великих даних
  10. Ресурси для скачування

Швидкість, обсяг, різноманітність і достовірність даних

У статті розглядаються функції, які залежать великі дані, а також основні концепції аналізу великих даних в поєднанні з додатками бізнес-аналітики (BI) і паралельними технологіями, такими як комп'ютерний зір (CV) і машинне навчання (див. Частину 3 серії хмарне масштабування ).

Аналіз великих даних відрізняється від аналізу відео різноманітністю типів оброблюваних даних та інструментами для інтерактивного аналізу та пошуку (порівняйте, наприклад, глибинний аналіз даних або методи MapReduce, більш витончені, але більш повільні, з сервісом Google BigQuery, якій використовує столбцовую пошук для стиснення і прискорення інтерактивних запитів до величезних обсягів неструктурованих даних). У документі Google "Погляд зсередини на Google BigQuery" (див. Розділ ресурси ) Стверджується, що BigQuery здатний виконати пошук регулярного текстового вираження у величезній таблиці журналирования (містить 35 мільярдів рядків і має розмір 20 ТБ) за кілька десятків секунд. Функціональність MapReduce цього інструменту працює набагато повільніше, але здатна виконувати складну обробку даних.

Скористатися сервісом BigQuery може будь-який власник облікового запису Google. Однак є більш швидкий спосіб випробувати пошук по великим даними - завантажити мою фотографію в Google Images . Ви повинні отримати всі сторінки з моїм зображенням (від IBM, Університету Колорадо в Боулдері і т.д.) і як мінімум один хибний результат. Я використовував цей спосіб, щоб перевірити атрибуцію моїх фотографій і переконатися, що вони знаходяться у відкритому доступі. Цей та інші наведені тут приклади дають уявлення про сенс великих даних: знайти голку в стозі сіна неструктурованих даних, а точніше - в мільйонах стогів.

Визначення великих даних

Великими даними зазвичай називають отримання, обробку та аналіз даних, що відрізняються від звичайних структурованих даних в реляційних базах; до них відносять неструктуровані файли, цифрове відео, зображення, дані датчиків, log-файли і взагалі будь-які дані, що не містять в записах спеціальних пошукових полів. Неструктуровані дані цікаві, але з них важко синтезувати бізнес-аналітику або зробити висновки, якщо вони не корелюють зі структурованими даними.

З'являються і нові джерела великих даних, такі як машинне генерування (наприклад, log-файли або дані сенсорних мереж), мобільні пристрої (відео, фотографії і текстові повідомлення) і системи машина-машина, коли "Інтернет речей" повідомляє про стан з метою планування обслуговування парку автомобілів або літаків або в цілях телеметричного моніторингу. Великі дані - це перш за все обсяг. За оцінками IBM, в даний час створюється 2.5 квінтильйони (2 500 000 000 000 000 000) байт даних щодня (див. Розділ ресурси ). По-друге, це швидкість передачі даних, що росте з ростом пропускної здатності мережі; в даний час це, як правило, гігабітні (а вже не мегабітні) швидкості (GigE, 10G, 40G, 100G). По-третє, це різноманітність типів неструктурованих даних, таких як цифрові відеопотоки, дані сенсорних мереж і log-файли. Нарешті, це достовірність даних - наскільки при прийнятті рішень можна довіряти даним, зібраним в таких великих обсягах на таких високих швидкостях. Важко бути впевненим, що дані не підроблені, не пошкоджені і надходять з очікуваного джерела, - якщо це, наприклад, дані від тисяч відеокамер, щогодини знімають багато тисяч відеокадрів ,. Давайте коротко обрисуємо деякі ключові аспекти великих даних, додатків і систем, щоб краще зрозуміти їх.

Джерела великих даних

Основною причиною появи великих даних є досягнення в області мобільних пристроїв, такі як цифрове відео, фотографії, аудіо, а також сучасні системи електронної пошти і обміну текстовими повідомленнями. Користувачі отримують дані в кількостях, які не можна було уявити десять років тому; при цьому з'являються нові додатки, такі як Google Translate, що надають функції сервера великих даних - переклад вимовлених або введених з мобільних пристроїв фраз. Корпорація IBM в звіті "Тенденції розвитку технологій в 2013 році" (див. Розділ ресурси ) Говорить в першу чергу про доступ до великих даними з мобільних пристроїв і характеризує великі дані за обсягом (volume), різноманітності (variety), швидкості (velocity) і достовірності (veracity). , Ці дані набагато менш структуровані, ніж записи в реляційних базах даних, але можуть бути прокорреліровани з ними. У статті докладно пояснюється, що представляють собою великі дані.

Можливо, найкращий спосіб зрозуміти великі дані - проаналізувати їх історію, як зробив журнал Forbes (див. Розділ ресурси ). Звичайно, за минулий з моменти виходу статті час зростання великих даних ще прискорився і на сьогодні становить понад 2.5 ексабайт в день. Цікаво, що більшість цих даних технічно неможливо проаналізувати силами людини (для цього кожен з 7 мільярдів жителів планети мав би переглядати більше 300 МБ інформації щодня). З урахуванням цієї проблеми єдиним логічним способом використовувати такий обсяг даних є системи машина-машина або інтелектуальні запити до великих даними. Крім того, якщо дані зберігаються тривалий час, як дізнатися, чи не були вони пошкоджені? Можна, звичайно, зберігати дайджести даних (наприклад, MD5 - одну з форм контрольної суми) і використати надлишковий масив незалежних дисків (RAID-віддзеркалення, XOR-парність або стирають коди для виявлення і відновлення пошкоджених даних), але існує можливість неотслежіваемих пошкодження даних ( см. розділ ресурси ).

Організація Internet Archive (Архів Інтернету), що виконує довгострокове зберігання даних, досліджувала цю проблему. В цілому достовірність великих даних є проблемою, але стирають коди і методи створення розширених дайджестів даних обіцяють її рішення. Традиційні методи, такі як XOR-парність або просте віддзеркалення (які забезпечують тільки захист від втрати даних при збої пристроїв зберігання і не працюють в сценаріях ушкоджень, викликаних помилками в програмному забезпеченні, помилками оператора датацентру або виходом носія з ладу з плином часу), в нині замінюються масивами RAID-6 і вдосконаленими кодами стирання. Концепція довговічності даних великих даних стала важливою проблемою; я займався дослідженням цієї теми за допомогою математичних моделей, працюючи в Intel і Amplidata. При такій кількості даних ідея перевірки їх достовірності людиною просто не реалізовується, а відсутні дані можуть залишитися невиявленими, поки до них не буде виконаний запит в далекому майбутньому.

Конструювання систем великих даних

Архітектури захисту даних в загальному випадку повинні забезпечувати захист від втрати, неотслежіваемих пошкодження, шкідливих програм і зловмисного зміни даних кіберзлочинцями або в результаті кібервійни. Дані є активами і все частіше використовуються урядами і діловими колами для прийняття ключових рішень, але якщо достовірність даних невідома, цінність їх знижується або навіть може бути втрачена, і що ще гірше - можуть бути прийняті погані рішення. Ця тема виходить за рамки даної статті, але захист від втрати, невиявленої зміни або пошкодження даних безсумнівно необхідна.

Щоб краще зрозуміти великі дані, уважніше подивіться на хмарні сайти, які мають достатні обсяг даних (зазвичай вимірюється в петабайт) і інструменти для запитів (зазвичай вимірюваних в терабайт). Ми звикли використовувати Google для повсякденних запитів, але Google також надає сервіс BigQuery, в якому застосовуються більш складне столбцовую зберігання і пошук (детально обговорюються в прикладі). Іншими добре відомими прикладами є Facebook (соціальні мережі), Wikipedia (енциклопедії), Internet Archive (цифрові архіви), DigitalGlobe (географічні інформаційні системи - ГІС), Microsoft® Virtual Earth (ГІС), Google Earth (ГІС) і численні нові постачальники сервісів великих даних.

Багато компаній мають великими даними у внутрішніх системах, а також розміщують їх в закритих хмарних системах. Багато системи великих даних виконують призначені для користувача запити в режимі тільки читання (отримуючи дані з згенерованих машиною джерел), а ось для оновлення баз даних або неструктурованих даних швидше за все буде потрібно сувора аутентифікація за допомогою кодових фраз, відправки з мобільного телефону текстових повідомлень з кодом підтвердження, використання графічних зображень для перевірки введення даних людиною і, можливо, більш широкого використання біометричної інформації в майбутньому.

Ідеї ​​революційних додатків на основі комп'ютерного зору і аналізу відео виникають постійно, але для реалізації багатьох з них, можливо, будуть потрібні роки через вимоги до обчислювальних ресурсів і вартості реалізації. Проте є цілий ряд цікавих варіантів:

  • Аналіз настроїв на фондовому ринку з використанням Google Trends показує, що вони добре корелюють зі зміною індексів в минулому, що, можливо, не дивно, але для нас цей сервіс цікавий як додаток для роботи з великими даними. У статті "Кількісна оцінка поведінки на фінансових ринках за допомогою Google Trends" (див. Розділ ресурси ) Наведені докази того, що довгі і короткі угоди купівлі-продажу акцій на основі аналізу настроїв можуть бути перспективніше довгострокового інвестування та інвестування в індексні фонди. Це дослідження, яке вимагає, безсумнівно, більш глибокого аналізу, є дуже цікавим. Цікаво подивитися, що станеться, коли поряд з існуючою програмної торгівлею цінними паперами з'являться системи машинної торгівлі, засновані на цьому принципі.
  • Програма для роботи з фотографіями Picasa, що надається Google, є корисним інструментом, який дозволяє користувачеві виконувати сортування, пошук і автоматичну ідентифікацію осіб, використовуючи методики комп'ютерного зору в поєднанні з машинним навчанням. Це відмінний спосіб отримати уявлення про значення сервісів і додатків для роботи з великими даними. Він дає зрозуміти, що для аналізу великих даних будуть потрібні передові методи, такі як комп'ютерне і машинний зір.
  • Рекомендаційні системи, такі як Pandora (музика), Netflix (фільми) і Amazon (книги та інші товари) використовують дані про клієнтів і кілька агентів в рамках підходу, відомого як спільна фільтрація. Подібний сервіс для роботи з великими даними був предметом глибоких досліджень в області машинного навчання і глибинного аналізу даних. Очевидно, що здатність робити хороші рекомендації дозволяє збільшити продажі і задоволеність клієнтів.
  • Аналіз клієнтської бази дозволяє отримувати аналітичну інформацію про настрої клієнтів на основі даних соціальних мереж (таких як Фейсбук або Твіттер) і пов'язувати ці текстові дані з бізнес-аналітикою, отриманої з традиційних транзакційних клієнтських записів. Аналіз настроїв дозволяє бізнесу знати, що думають клієнти про його товари, якими товарами цікавляться (його або конкурентів), що їм подобається і не подобається і т.д.
  • Згенеровані машинами дані сенсорних мереж (дані датчиків, вбудованих в великі системи, такі як міський транспорт, світлофори і загальна інфраструктура), систем машина-машина (дані датчиків або журнальні дані однієї машини, що працює, як правило, в польових умовах, які передаються в іншу машину) і журнальних файлів (дані, найчастіше використовувані ІТ-фахівцями для налагодження та управління системами в нештатних ситуаціях і ігноровані до тих пір, поки в них не виникне потреба при виконанні відновних або безперервних робіт).
  • Системи бронювання, які вдосконалюються шляхом включення переваг клієнтів, логістики та попередньої історії, надаючи корисні поради щодо вирішення незмінно складного завдання планування подорожі
  • Соціальні мережі розважального призначення беруть на себе соціальний аспект неофіційного обговорення телебачення і кіно, оскільки сьогодні цифрові медіа дозволяють кому завгодно дивитися що завгодно, де завгодно, коли завгодно і ділитися своєю думкою в соціальних мережах. Це робить споживання контенту більш приємним, а також дозволяє його творцям, сценаристам і акторам вивчити свою аудиторію краще, ніж коли б то не було.
  • Медична діагностика часто включає в себе засновані на правилах експертні системи підтримки прийняття рішень (decision support systems - DSS), які завдяки технологіям великих даних мають шанс вийти зі стадії досліджень і стати стандартними помічниками лікарів. Наприклад, дослідження нової DSS для психологічної оцінки пацієнтів з високим ризиком суїциду показало її перспективність (див. Розділ ресурси ). Частково дослідження ефективності подібних систем грунтується на порівнянні їх з ретроспективними даними: ці системи не замінять людини при прийнятті рішень, а будуть використовуватися в якості допоміжного інструменту.

Наведений список додатків для роботи з великими даними не є вичерпним; додаткову інформацію можна знайти в розділі ресурси . Застосування столбцових запитів, аналізу неструктурованих даних та інфраструктури MapReduce, а також візуалізація і осмислення великих даних тільки починаються.

Великі дані в сфері громадської безпеки і охорони правопорядку

Інтеграція аналітики великих даних з відкритою інформацією (або закритою, добровільно наданої зберігачу даних) дозволить виконувати швидкий пошук у великих обсягах даних (таких як відео, аудіо, дані датчиків і повідомлення електронної пошти) для підвищення громадської безпеки при ліквідації наслідків аварій, для запобігання терористичних загроз, а також для розуміння побоювань громадськості. Практично це можна вважати зворотним зв'язком у порівнянні з одностороннім зв'язком систем оповіщення про надзвичайні ситуації. Звичайно, існують певні побоювання, що великі дані і аналіз відео, аудіо та електронної пошти можуть бути використані для вторгнення в приватне життя. Подібні системи вимагають відповідального використання, повного розкриття інформації та аудиту даних, зібраних в громадських місцях і мережах.

Якщо компанії і урядові організації відповідально збирають, аналізують і використовують великі дані, цінність цих даних для громадськості буде очевидна. У разі зловживання можливостями аналізу великих даних буде втрачено довіру суспільства, а, отже, і цінність. Думка користувачів має висловлюватися добровільно, а цінність заснована на знанні відносини людей до того, з чим вони взаємодіють, де вони знаходяться або що вони читають. Якби у нас була можливість створити датчик для читання думок, ми опинилися б перед справжньою етичною дилемою. Поки ж при використанні відеозаписів, звукозаписів і аналізі даних електронної пошти необхідно уважно ставитися до конфіденційності, щоб зберегти довіру користувачів.

Якраз під час написання цієї статті виникли серйозні суперечки навколо бази метаданих телефонних з'єднань, створеної Агентством національної безпеки США для використання при виникненні загроз національній безпеці (див. Розділ ресурси ). Очевидно, значну частину цих суперечок належить врегулювати в суді, що говорить про необхідність ретельного проектування систем великих даних, щоб уникнути судових розглядів в майбутньому.

Приклад: використання сценаріїв на мові R

Набір програм R-project Toolkit в InfoSphere Streams

InfoSphere Streams - це передова обчислювальна платформа, яка дозволяє призначеним для користувача додатків швидко отримувати, аналізувати і зіставляти інформацію по мірі її надходження з тисяч джерел в режимі реального часу з дуже високою швидкістю передачі даних (мільйони подій або повідомлень в секунду). У версію 3.1 входить набір R-project Toolkit, який дозволяє застосовувати складні алгоритми глибинного аналізу для виявлення представляють інтерес зразків в потоках даних. Зустрітися з додатковою інформацією і завантажте ознайомчу версію .

Термін візуальній аналіз вікорістовується для Опису візуалізації великих Даних (Не плутай з аналізом відео и послідовності збережений, Який дозволяє зрозуміті, что в них містіться). У минулому візуалізація найчастіше використовувалася в області високопродуктивних обчислень, але зростання обсягів неструктурованих даних з мобільних пристроїв, соціальних мереж, систем машина-машина і сенсорних мереж викликав зростаючу потребу в просунутої візуалізації великих даних. Простих кругових діаграм, розподілів Парето, двовимірних графіків і гістограм, часто використовуваних при прийнятті бізнес-рішень, недостатньо для розуміння великих даних.

Щоб дослідити це питання, я реалізував рівняння Лоренца на C і мовою сценаріїв R (застосовується для аналізу великих даних). Використання C і Microsoft® Excel® для таких складних рівнянь обмежується відсутністю інтеграції із засобами моделювання і аналізу, а також тим, що електронні таблиці, як правило, не забезпечують складну багатовимірну візуалізацію. Використовуючи С і Excel, я зміг побудувати тільки двовимірні точкові графіки рівнянь Лоренца, що моделюють конвекцію в атмосфері (див. Малюнок 1). Можливо, існує кращий спосіб візуалізації цих даних в Excel, але ніяких очевидних способів досліджувати більше двох вимірів я не знайшов.

Малюнок 1. Двовимірний графік моделі Лоренца в електронній таблиці
Швидкість, обсяг, різноманітність і достовірність даних   У статті розглядаються функції, які залежать великі дані, а також основні концепції аналізу великих даних в поєднанні з додатками бізнес-аналітики (BI) і паралельними технологіями, такими як комп'ютерний зір (CV) і машинне навчання (див

Візуальний аналіз з використанням R

R, інтуїтивно зрозумілу мову сценаріїв, дозволяє імпортувати і використовувати велику кількість пакетів для аналізу і візуалізації. Для кращої візуалізації рівнянь Лоренца я імпортував пакет scatterplot3d (див. Рисунок 2), що дозволяє краще, ніж в електронній таблиці, представити ці тривимірні за своєю суттю рівняння. Для подібного заснованого на моделі аналізу можна також використовувати інші наукові інструменти візуалізації, такі як MATLAB або навіть Gnuplot, але R містить різні пакети, добре виконують багатовимірний аналіз наборів даних, які не є науковими за своєю природою (візуалізація бізнес-аналітики), приклади яких можна знайти в розділі ресурси . Приклад рівнянь Лоренца дозволяє відчути можливості R.

Малюнок 2. Імпорт пакета візуалізації в R для Windows

Інструменти, подібні MATLAB, надають середу інтерактивного наукового та інженерного аналізу для дослідження моделей і даних інженерам і вченим; R надає ті ж засоби бізнес-аналітикам і аналітикам великих даних всіх типів (див. Рисунок 3 і лістинг 1). Можливість інтерактивного дослідження великих даних за допомогою таких інструментів, як R і BigQuery, відрізняє аналіз великих даних від пакетного і глибинного аналізу даних, які часто виконуються за допомогою MapReduce. У будь-якому випадку метою є формування нових моделей і підтримка прийняття рішень з використанням великих даних.

Малюнок 3. Тривимірний графік рівнянь Лоренца, побудований за допомогою R
Лістинг 1. Приклади R-сценарію для побудови графіка рівняння Лоренца

library (scatterplot3d) library (gdata) getwd () [1] "C: / Users / ssiewert / Documents" mydata = read.csv ( "lorenz.csv") scatterplot3d (mydata, highlight.3d = TRUE, col.axis = "blue", col.grid = "lightblue", main = "Lorenz Equations", pch = 20)

Щоб краще зрозуміти і вивчити візуалізацію, завантажте приклад рівнянь Лоренца для C і Excel, а також для C і R. Щоб виконати поглиблене дослідження, використовуйте R для візуалізації даних, що повертаються з Google BigQuery.

Майбутнє великих даних

У статті наводяться аргументи на користь цінності великих даних (яка ставиться під сумнів, особливо коли достовірність даних не може бути підтверджена) і пропозиції щодо підвищення їх достовірності, а також пояснюються концепції обсягу, різноманітності і швидкості даних. Досвід показує, що горизонтальне масштабування, використання методів підвищення довговічності даних, включення застосування в кластерах високошвидкісних мереж, а також масштабування алгоритмів, таких як MapReduce і столбцовую пошук, є перспективними з точки зору ефективної роботи з великими даними. Деякі питання, які раніше навіть не розглядалися, тепер набувають гостроту, - наприклад, через збільшення обсягу, швидкості, і різноманітності даних новою проблемою стали неотслежіваемих пошкодження даних, які раніше не викликали такого занепокоєння, оскільки частота появи помилкових бітів на дисках і в мережах була набагато нижче, ніж кількість байтів, що проходять через них або зберігаються на них. Сьогодні архітектор великих даних повинен не тільки забезпечувати достовірність і цінність даних, але і проектувати сервіси, які роблять дані доступними і корисними, оскільки сучасні обсяги даних значно перевищують можливості перевірки людиною.

Ресурси для скачування

Схожі тими

  • Оригінал статті: Big data in the cloud (EN).
  • Додаткову інформацію можна знайти в серії статей хмарне масштабування (EN).
  • Відкрийте для себе історію "трьох V" великих даних, прочитавши статтю Управління даними в трьох вимірах: управління обсягом, швидкістю і різноманітністю даних (Gartner, лютий 2001 г.) (EN).
  • звіт IBM Тенденції розвитку технологій в 2013 році и книга IBM про великих даних дозволяють зрозуміти, як мобільні системи сприяли розвитку хмарних обчислень і великих даних. Інші компанії, що займаються хмарними обчисленнями і великими даними, теж можуть запропонувати цікаві технічні документи, що містять інформацію про системах і додатках: Інформаційна архітектура Oracle: керівництво архітектора великих даних , Аналіз великих даних: просунутий аналіз в базі даних Oracle , Погляд зсередини на Google BigQuery , Великі дані Amazon Web Services на AWS и Великі дані Intel (EN). Звичайно, безліч інших організацій (великих і маленьких) бере участь в роботі над великими даними. З усім спектром учасників цієї революції в обчислювальній техніці можна познайомитися на конференціях Cloud Computing and Big Data Expo и CloudCon 2013 .
  • Читайте Погляд зсередини на BigQuery Google для отримання додаткової інформації про інструменти Google для пошуку у великих даних (EN).
  • Зустрітіся з розробками IBM в області великих даних .
  • Стаття Коротка історія великих даних (Джил Прес (Gil Press), Forbes, травень 2013) (EN).
  • Стаття Кількісна оцінка поведінки на фінансових ринках за допомогою Google Trends (Тобіас Прейс (Tobias Preis), Елен Сюзанна Моут (Helen Susannah Moat) і Х. Юджин Стенлі (H. Eugene Stanley), Nature, 25 лютого 2013) (EN).
  • Неотслежіваемих пошкодження даних є цікавою проблемою великих даних, яка добре описана хранителями великих даних, такими як Internet Archive. Додаткову інформацію можна знайти в статтях Дослідження збоїв дисків в Internet Archive , Захист бітів: вирішена проблема? и Революційні методи вирішення проблем довговічності великих даних (EN).
  • Стаття про систему визначення ризику суїциду Аналіз передсмертних записок, який рятує життя (NPR, 16 травня 2013) (EN).
  • Прочитайте статтю в журналі Time 7 речей, які потрібно знати про секретної урядової бази даних телефонів (EN).
  • Рівняння Лоренца, що використовуються в прикладі C- і R-сценаріїв візуалізації, були запропоновані Едвардом Лоренцом для моделювання конвекції в атмосфері, чому присвячена сторінка Lorenz System в Вікіпедії . Мова сценаріїв R був обраний з метою демонстрації значимості R для візуалізації складних наборів даних в порівнянні з електронною таблицею, де багатовимірний аналіз скрутний. Освоюйте мистецтво візуального аналізу великих даних і багато іншого, вивчаючи роботу інших аналітиків, наприклад в офіційному блозі Visual Insights компанії Tom Sawyer Software.
  • Діліться досвідом і отримуйте цінну інформацію від розробників сервісів і додатків, що створюють проекти для розгортання в хмарному середовищі, в розділі developerWorks Cloud .
  • Дізнайтеся більше про проект R і завантажте R для Windows , для Mac OS X або для Linux® . Як і більшість інших мов R найкраще вивчати на прикладі шляхом емуляції конкретних варіантів візуалізації, що містяться в прикладі точкового графіка и документації . Часто буває необхідно імпортувати дані в R (в моєму випадку це модель, яка використовує С і Excel); в R це можна зробити за допомогою Data Import . Детальну інформацію можна знайти в повному керівництві по R .
  • Одним з варіантів платформи для створення хмарних сервісів і додатків для роботи з великими даними є OpenStack . IBM виступає платиновим спонсором цього хмарного ПО з відкритим вихідним кодом. Багато компаній, що працюють в області хмарного ПО, створили на базі OpenStack прекрасні продукти; ось кілька прикладів нових компаній, що спеціалізуються на пошуку у великих даних і OpenStack:
  • У всіх нас на домашніх комп'ютерах є великі обсяги неструктурованих даних у вигляді цифрових фотографій і відео. Можна завантажити на свою систему ПО Google Picasa і використовувати його в якості каталогу фотографій з функцією розпізнавання осіб і машинного навчання для розпізнавання осіб. Процес машинного навчання при розпізнаванні добре пояснений за допомогою кривої помилок (ROC-кривої) у статті Аналіз за допомогою операційної характеристики приймача: інструмент для кількісної оцінки систем спостереження за виконанням та формування зображень (EN).
  • Ресурси, які допоможуть розпочати роботу з InfoSphere BigInsights , Платформою IBM, яка розширює проект з відкритим вихідним кодом Hadoop такими можливостями як Big SQL, аналіз тексту і BigSheets.
  • завантажте програмне забезпечення InfoSphere BigInsights Quick Start Edition у вигляді настановної копії або образу VMware.
  • Ресурси, які допоможуть розпочати роботу з InfoSphere Streams , Створеної IBM високопродуктивної обчислювальної платформою, що дозволяє призначеним для користувача додатків швидко отримувати, аналізувати і зіставляти інформацію, що надходить з тисяч джерел в режимі реального часу.
  • Завантажте програмне забезпечення InfoSphere Streams у вигляді настановної копії або образу VMware.
  • використову InfoSphere в IBM SmartCloud Enterprise .

Підпишіть мене на повідомлення до коментарів

Крім того, якщо дані зберігаються тривалий час, як дізнатися, чи не були вони пошкоджені?
Новости