Від інформаційно-пошукових систем до корпоративного пошуку

Перетворення World Wide Web в універсальне джерело інформації і знань з неминучістю призводить до появи...
Чи існує інтелектуальний пошук?
Енциклопедії від античності до Wikipedia
Завдання корпоративного пошуку
Перспективи корпоративного пошуку
Інформатика

Перетворення World Wide Web в універсальне джерело інформації і знань з неминучістю призводить до появи нових технологій роботи з контентом, до конвергенції науки про інформацію з комп'ютерної наукою.
Використання пошукових машин найчастіше буває викликано необхідністю в отриманні інформації, що є відповіддю на конкретне питання, і набагато рідше стимулюється бажанням знайти певний документ, тобто дані. Якщо, скажімо, ви шукаєте розклад поїздів, то вас цікавить час відправлення або прибуття поїзда, а не розклад як таке. У цьому - суть відмінності між інформацією (або контентом) і даними як носієм цієї інформації.
У комп'ютерному світі до сих пір не приділялося достатньої уваги визначенню відмінностей між інформацією та даними. Більш того, теорія передачі сигналів Клода Шеннона сприймається як єдино правильна теорія інформації, хоча крім неї існують десятки теорій і сотні альтернативних визначень інформації. Обмеження Шенноновская підходу і всіх наступних побудов, на ньому базуються, полягає в тому, що в якості постачальника і споживача інформації розглядається машина, для якої дійсно немає відмінностей між даними та інформацією.

Інформаційно-пошукові системи

Років 40-50 тому англомовний термін Information Retrieval (IR) переводили на російську мову як «інформаційний пошук», а відповідно, системи цього класу називали інформаційно-пошуковими системами (Information Retrieval System, IRS). Зрозуміло, в ті далекі часи інформаційно-пошукові системи зазвичай будувалися без комп'ютерів, і в них використовувалися ручні процедури індексування документів, створення тезаурусів і дескрипторів. Але, що надзвичайно важливо, ці «античні» системи призначалися для виділення інформації (саме інформації і саме виділення) з різних паперових документів або, в кращому випадку, їх копій на мікроплівкою. «Виділення» - це більш точне значення слова retrieval.

В енциклопедіях IR визначається як мистецтво (!) І наука пошуку інформації в документах, пошуку власне документів і описують документи метаданих в базах даних (в тому числі мережевих). Підмножиною IR є виділення інформації в тексті (Text Retrieval, TR) і виділення інформації в документах (Document Retrieval, DR). Термін Information Retrieval був запропонований в кінці 40-х років американським вченим Кельвіном Муерсом, фахівцем в області теорії інформації та автором законів роботи з інформацією. Його закони (Mooers? Law) не слід плутати з більш відомими законами Мура, постулює монотонне подвоєння щільності транзисторів (Moore? S Law). Пізніше Муерс запропонував своєрідний мову програмування TRAC (for Text Reckoning And Compiling), спеціально призначений для роботи з текстами. Він не отримав широкого поширення, але був надзвичайно високо оцінений Тедом Нельсоном, автором сучасного підходу до гіпертексту.

Сьогодні перші системи IR представляються наївними спробами виділення інформації та знань з масивів даних на паперових носіях, що робилися при відсутності має апаратного і програмного забезпечення, а тому приреченими на вельми скромні успіхи. Як засіб автоматизації пошуку в окремих випадках застосовувалися громіздкі сортувальні механічні пристрої, які оперували спеціальними перфокартами, були дороги і малоефективні. Але, строго кажучи, спроби механізувати процес роботи з інформацією (ще раз підкреслимо - з інформацією, а не з даними) робилися ще раніше, років за п'ятнадцять-двадцять до появи IR. Деякі дослідники передбачали можливість реальної автоматизації методів роботи з інформацією.

З самих ранніх засобів автоматизації відомі проекти Пола Отле і Емануеля Гольдберга, виконані в період між Першою і Другою світовими війнами. Найбільшу популярність придбала гіпотетична машина Memex (Memory Extender), запропонована Ванневаром Бушем в 1945 році. Однак до появи сучасних комп'ютерів не було практичної можливості створити пристрої, що автоматизують доступ до даних. Перша в сучасному поданні інформаційно-пошукова система Intelligent Information Access Project була розроблена в дослідницькому центрі Xerox PARC - однією з колисок сучасних комп'ютерних систем. У цій системі вперше був реалізований принцип отримання результатів по введеному запиту (query in, results out, QIRO).

Ми нагадуємо про колись існували системах IRS лише для того, щоб підкреслити відмінність між пошуком як автоматизованої процедурою і виділенням необхідної інформації в знайдених документах. Суть полягає в наступному.

Виділення інформації - це діяльність людини, що використовує пошукову машину. Вона є інтерактивною, итерационной і пов'язана з іншими видами інтелектуальної діяльності людини.
Користувач шукає не документи як такі, а їх вміст для якихось власних цілей, навчання, прийняття рішень.
Користувач має потребу в доступі до різних джерел даних, щоб отримати всеосяжне уявлення про об'єкт пошуку.
Якими б досконалими не були апаратне і програмне забезпечення, що використовуються людиною, вони залишаються інструментами, а інтелект є атрибутом користувача.

Чи існує інтелектуальний пошук?

Уявіть собі, що ви прийшли в ресторан, де замість розторопного офіціанта, який повинен запропонувати меню з переліком страв і напоїв, вас чекає комп'ютер з пошуковою системою (назвемо її Booooble), а обслуговуючого персонал настільки тупий, що управляється тільки за допомогою миші. Швидше за все, такий спосіб обслуговування вас не задовольнить. Але ж саме так працюють мільйони користувачів Глобальної мережі, оскільки вміст World Wide Web складається стихійно, а для виявлення потрібних відомостей крім пошукових машин практично ніяких інструментів немає. Єдиною формою взаємодії людини з комп'ютером залишається віконний інтерфейс, винайдений 40 років тому, в поєднанні з його ровесницею мишею і майже 150-річної клавіатурою.

У ситуації, що склалася найбільш природним способом вирішення проблеми доступу стає підвищення якості роботи пошукових систем. В ідеалі, вони колись знайдуть розумність, а поки майбутня ідеальна форма пошуку отримала назву «інтелектуальний пошук». Правда, поки невідомо, як йти до цієї бажаної мети; неможливо навіть чітко сформулювати, що ж таке «інтелектуальний пошук». Наприклад, Ілен Славік, один з керівників компанії Cuadra Associates, що спеціалізується на засобах роботи з корпоративними даними, констатує: «Все використовують власні визначення інтелектуального пошуку».

На підтвердження цієї думки можна згадати жовтневий номер журналу Computer за 2005 рік, в якому опубліковано кілька статей, об'єднаних темою пошуку, в тому числі інтелектуального. Кожен з авторів тематичної добірки підійшов до проблеми з найбільш близьких йому позицій; а в результаті на сторінках шанованої журналу утворився конгламерат різнорідних думок, не пов'язаних між собою підходів до інтелектуального пошуку. Їх спектр починається з особливостей пошуку в ще не існуючої Семантичної Мережі (Semantic Web), а закінчується підходами на основі спільної (коллаборатівной) роботи користувачів, що дозволяє об'єднати їх інтелект. Навіть передмову редактора зводиться до перерахування «предметів» статей і не містить необхідного узагальнення від імені укладача. Поява подібного випуску авторитетного журналу свідчить, з одного боку, про актуальність проблеми, а з іншого про відсутність цілісного погляду на неї.

Обговорення проблеми інтелектуального пошуку російською мовою ускладнене тим, що у вітчизняній термінології, на превеликий жаль, відсутня життєво необхідне поділ областей знання на науки про інформацію (information science) і науки про обчисленнях (computer science). У нас домінує народжене в 80-і роки назва «інформатика». Варто нагадати, що в 50-е і 60-е роки в СРСР науки про інформацію, що іменувалися інформатикою, займали дуже гідне місце, хоча їх розвиток і було утруднено специфікою соціального устрою суспільства. Однак все зводилося, в кінцевому рахунку, до науково-технічної інформації. Стався в наступні роки розворот до роботи з даними і узурпація назви привели до того, що багато з накопиченого виявилося якщо не втраченим, то незатребуваним, а культура роботи з інформацією була загублена. Сьогодні для більшості користувачів важливіше споживання інформаційних сервісів, а не щоб забезпечити його технології, і, відповідно, безглуздість цього стає особливо очевидною.

Нарешті, є ще один підводний камінь глобального масштабу - нерозвиненість теорії інформації. Неможливо говорити про єдину теорію інформації, що зв'язує воєдино дані, інформацію та знання. Можна виявити десятки і сотні часом суперечать один одному визначень того, що є інформацією. Окремо існує прийнята в техніці теорія інформації, яку справедливо було б назвати «теорією передачі і (можливо) зберігання даних», є безліч підходів до інформації з філософських і кібернетичних позицій. Але жоден з них не використовується в якості теоретичної основи пошукових систем; теорія обмежується, насамперед, лінгвістикою і методами розкопки текстів (text mining).

В результаті випереджального розвитку технологій пошуку в порівнянні з методиками роботи з контентом утворився помітний розрив між технікою роботи з даними (пошуком) і здатністю працювати з контентом, закладеним в цих даних. В результаті існують два паралельні світи: один йде корінням в information science, а інший - в computer science, і між ними практично немає спільного кордону. Контент погано піддається структуризації, а тому незручний для пошуку. Навпаки, структуровані дані зручні для пошуку, але з них надзвичайно складно виділити інформацію. Спираючись на інтуїцію, експерти приходять до висновку про порочність нинішньої ситуації, але про який-небудь серйозного переосмислення проблем даних і контенту поки мова не йде. Показово висловлювання Сьюзан Фельдман, провідного аналітика IDC, що спеціалізується на технологіях роботи з контентом: «Сьогодні весь пошуковий ринок кинувся в область конвергенції контенту з даними, оскільки, в кінцевому рахунку, цінність має інформація».

Правда, в нинішніх пошукових машинах все ж виявляються окремі елементи інтелектуальності. До них відноситься можливість використання «зірочки» в запитах Google, яку пошукову систему замінює словом, відповідним контексту. Ще більшим інтелектом володіє спеціалізована машина, призначена для пошуку відповідають смаку користувача музичних або літературних творів Gnooks ( www.gnooks.com ). На підставі попередніх запитів вона визначає переваги і при наступних зверненнях робить найбільш адекватні пропозиції. Ще один підхід до підвищення ефектності пошуку реалізується в спеціалізованих пошукових машинах, налаштованих на пошук документів в певному підмножині Web. Як приклад можна вказати систему Scirus, орієнтовану на пошук наукової інформації ( www.scirus.com ).

Радикальним вирішенням багатьох - якщо не більшості - проблем інтелектуального пошуку може стати Semantic Web. Основні ідеї побудови нового покоління Web були висунуті в 1999 році Тімом Бернесом-Лі, розробником існуючої Всесвітньої Павутини. Одна з них полягає в тому, щоб за допомогою засобів розмітки на основі мови XML постачати документи описами - так званими «онтологіями». Вони повинні містити дайджест вмісту, адаптований для читання додатками, які тепер називають «інтелектуальними агентами». Хоча за минулий час були розроблені численні галузеві стандарти і мовні засоби, до практичної реалізації Semantic Web ще дуже далеко.

Енциклопедії від античності до Wikipedia

Систематизація інформації була необхідна завжди, і саме вона породила енциклопедії. Такий спосіб упорядкування знань, як енциклопедія, був запропонований ще в далекій давнині і залишається актуальним зараз.

Близьку роль можуть грати спеціалізовані портали, які також стають серйозними акумуляторами знань. Яскравий приклад - портал www.brint.com , Який ось уже понад десять років веде Йогеш Малхотра. Можна стверджувати, що сьогодні це - найкращий в світі концентратор в області технологій управління бізнесом і знаннями. Як приклад ще одного енциклопедичного порталу можна вказати «концентратор знань» StartLearning ( www.startlearningnow.com ).

Незважаючи на його грецьку етимологію термін «енциклопедія» з'явився тільки в XVI столітті і буквально перекладається як «коло знань». Втім, прообрази енциклопедій можна виявити в Стародавньому Єгипті і Стародавньому Китаї; в Європі вони з'явилися на початку минулого тисячоліття, але в сучасному поданні стали видаватися після винаходу друкарства в епоху Ренесансу. Поліграфія забезпечила перший серйозний технологічний прорив в справі упорядкування знань, і протягом багатьох років жодна серйозна (в тому числі домашня) бібліотека не обходилася без багатотомної енциклопедії. Але поступово паперові енциклопедії втрачають своє значення як довідкові видання; скоріше, вони перетворюються в збірники статей, подібні популярної дитячої енциклопедії «Аванта +». Зараз навіть великі енциклопедії, скажімо, Британська або Велика Російська, перетворюються на цифрову форму. Мало того, з'являються нові енциклопедії Encarta (Microsoft), Велика енциклопедія Кирила і Мефодія, портал «Рубрикон» і ін. Ці та інші подібні видання є традиційними по суті, але електронними за формою.

З точки зору пошуку інформації найцікавішим феноменом XXI століття стала Вікіпедія (Wikipedia) - багатомовна вільно поширювана енциклопедія, що базується на технології wiki ( http://wikipedia.org ). Проект, заснований фондом Wikimedia Foundation, стартував зовсім недавно, 15 січня 2001 року. Однак вже є версії більш ніж на 110 мовах, а в сукупності Вікіпедія містить 2 млн. Статей. Найбільш повний, природно, - англійський варіант (772 892 статей), другий за чисельністю - німецький (303 966), а далі в порядку убування ідуть французький (176 385), японський (147 833), польський (138 922) і італійська ( 114 414). У російській версії поки є тільки 35 265 статей, і вона займає тринадцяте місце.

За короткий, навіть за мірками Internet, період зусиллями незалежних добровільних редакторів був створений дивно зручний джерело знань, наявність в якому гіперпосилань робить його ефективним способом доступу до ресурсів Мережі. У багатьох випадках він забезпечує більш зручний доступ до потрібних джерел знань, ніж пошукові системи. Вікіпедія не може розглядатися як альтернатива пошуковим машинам, але вже в її нинішньому вигляді вона повноцінно їх доповнює.

Менш масштабний за кількістю учасників і менш популярний, але не менш значимий енциклопедичний проект «Бібліотека знань Сyc» розробляється компанією Cycorp під керівництвом Дага Лената (див. www.osp.ru/os/2002/11/018.htm ). Це - один з небагатьох продуктивних спадкоємців епохи захоплення штучним інтелектом. Ось уже майже два десятиліття проект реалізується силами всього 60 осіб, серед яких - фахівці в різних областях знань, математики, філософи, лінгвісти. Мета їх роботи полягає в створенні всеосяжної бази знань Cyc (за різними джерелами, від одного до двох мільйонів статей). На практиці Cycorp надає розробникам базис для створення інтелектуальних пошукових систем. Спочатку відбулося впровадження на сайті HotBot, а в 2002 році утворилася компанія 360 Powered, яка спеціалізується на постачанні пошукових систем для корпоративних додатків і також спирається на досягнення проекту Cyc.

Ліцензія на OpenCyc відповідає GNU Library General Public License або навіть має менші обмеження. Наступне за обсягом підмножина бібліотеки, ResearchCyc, може використовуватися виключно в дослідницьких цілях. У повному обсязі, для застосування в комерційних додатках, Cyc Knowledge Base може бути ліцензована, причому умови ліцензування носять індивідуальний характер.

Як би там не було, поки Cyc не можна розглядати з прагматичної точки зору. У березневому номері за 2005 рік вельми авторитетного журналу TechnologyReview.com (Видається Массачусетським технологічним інститутом) можна знайти наступне твердження: «Не виключено, що Cyc досягне високого рівня розвитку і стане основою незліченної кількості програмних додатків, але на це може знадобитися ще років двадцять».

Завдання корпоративного пошуку

За даними Forrester Research, такої ж думки дотримуються понад 80% керівників великих компаній. У звіті IDC «Розплата за неможливість виявити інформацію» (The High Cost of Not Finding Information, 2003) наведено такі дані. На середніх підприємствах прямі збитки, викликані втратою часу через незручності роботи з інформацією, в перерахунку на одного працюючого з інформацією (knowledge worker) оцінюються в 2,5-3,5 тис. Дол.

Втрата часу співробітників - не єдине джерело збитків. Будь-якому попрацювати з пошуковими машинами зрозуміло: є певна межа, після досягнення якого люди припиняють подальший пошук інформації і приходять до висновку, що вони вже достатньо поінформовані. Недостатня інформованість призводить до помилкових рішень, недооцінки або переоцінки ризиків. Непрямі збитки, що виникають через прийняття недостатньо обґрунтованих рішень, кількісній оцінці не підлягають, але інтуїтивно зрозуміло, що вони - на порядки значніше.

У зв'язку з цим виникає окрема проблема пошуку інформації в корпоративних ресурсах, яка отримала назву корпоративний пошук (enterprise search, ES). Її рішення розпадається на кілька завдань:

організація каталогізації контента;
забезпечення пошуку на зовнішньому Web-сайті, в Internet;
забезпечення пошуку на внутрішніх Web-сайтах, в інтранет-мережах;
забезпечення системи пошуку у внутрішніх документах організації, архівах електронних листів, базах даних і інших джерелах.

Поки рішення задач корпоративного пошуку в основному обмежена роботою з текстовими документами, але з часом вона може бути поширена на відео- і аудіофайли.

Корпоративний пошук помітно відрізняється від більш звичного пошуку в Internet за цілою низкою властивостей - перш за все, за критеріями оцінки якості результатів пошуку. У Глобальної мережі вибір здійснюється з величезного числа документів, так чи інакше задовольняють запит. Причому сам користувач віддає перевагу тим з них, які він вважає найбільш близькими до своїх вимог, тобто результат пошуку найчастіше має приблизний характер. Навпаки, при пошуку в корпоративної інтранет-мережі необхідний не якийсь «відповідний» відповідь, а цілком «точний», тобто він повинен повністю відповідати запиту. Деякі автори відзначають, що роботу з корпоративним контентом точніше визначає термін не пошук (search), а виявлення (finding).

Крім того, в Internet і інтранет-мережах по-різному формується контент. Internet відображає колективну творчість безлічі авторів, вільних в публікації контенту, а автори інтранет-мереж відображають у своїх публікаціях своє призначення. Інтранет-мережі більш «чутливі» до створення контенту, в них немає свободи публікації - тільки певні працівники мають на це право.

Нарешті, структура документів - зовсім інша. У інтранет-мережах великий відсоток даних, що зберігаються на поштових серверах, в базах даних, і вони найчастіше не пов'язані між собою гіперпосиланнями. Останні є не більше ніж у 10% документів, тому такі популярні алгоритми управління контентом, як PageRank або HITS, в даному випадку є малоефективними. З безлічі наявних на ринку пошукових машин лише мала частина може бути адаптована до умов роботи в корпоративних системах. Більшість пошукових машин не здатні працювати з усім розмаїттям корпоративних джерел інформації, в тому числі з СУБД, поштовими форматами і форматами зберігання документів, з дотриманням прийнятного рівня безпеки.

Таким чином, що для роботи в інтранет-мережах потрібні інші пошукові механізми, ніж для пошуку в Web.

Перспективи корпоративного пошуку

Сьогодні ще рано говорити про усталені тенденції в області корпоративного пошуку: ситуація дуже динамічна, і щороку народжуються нові рішення.

У 2003 році компанія Google запропонувала корпоративному сегменту ринку пошукову приставку Google Appliance. Аналогічні пристрої випускають компанії Thunderstone і Index Engines. Вони прості у використанні, але за своєю функціональністю не виходять за рамки звичайних пошукових машин для Web, тому їх застосування обмежене корпоративними сайтами. Їх можливості поки не можна порівнювати з продуктами компаніями, традиційно працюють на ринку корпоративного пошуку і входять в так звану «велику пошукову четвірку»: Autonomy, Convera, FAST Search & Transfer і Verity. Правда, за твердженням Google, яка готується до випуску приставка Appliance Version 5 наблизиться за функціональністю до систем перерахованих компаній.

У 2004 році на хвилі захоплення бізнес-процесами з'явилися пошукові продукти, націлені на пошук в певному спеціалізованому контенті (context-sensitive search). В цьому напрямку досягли успіху невеликі компанії Endeca і TrippleHot (остання в 2005 році була придбана корпорацією Oracle). Звуження області пошуку дозволяє підвищити його якість в заданому сегменті. Ще одну тенденцію корпоративного пошуку визначили XML і Web-сервіси. Під їх впливом стала стиратися перш жорстка межа між роботою зі структурованими даними, що зберігаються в базах даних, і неструктурованими (текстові документи, презентації в PowerPoint, електронні листи). В цьому напрямку успішно діють спеціалізується на технологіях XML компанія Diesel Point і відомі роботами в галузі управління знаннями Open Text і Hummingbird.

Найімовірніше, в майбутньому ключовим терміном стане розкопка текстів (text mining), іноді звана аналітикою текстів (text analytics) або розкопкою контенту (content mining). А значить, в перспективі ми станемо свідками конвергенції науки про інформацію та комп'ютерної науки.

Інформатика

Інформатика (information science) як наука про інформацію не є частиною або відгалуженням науки про комп'ютери (computer science). Її предметом є вивчення методів структурування, створення, маніпулювання, виділення, розподілу і поширення інформації між людьми, в організаціях і в інформаційних системах. На нинішньому витку технологічної еволюції основна увага інформатики зосереджено на взаємодії людини з комп'ютером (human computer interaction) і на те, як люди можуть генерувати, шукати і використовувати інформацію. Існують кілька образних визначень інформатики, в тому числі «мистецтво, наука і людські аспекти ІТ», «вивчення додатків і соціальних наслідків технологій», «вивчення структури, поведінки і взаємодії природних і створених обчислювальних систем».

Чи існує інтелектуальний пошук?
Mooers?
Moore?
Чи існує інтелектуальний пошук?