ЯК ВІДКРИВАТИ ДАНІ

Цей підрозділ є основною частиною опису нашого порталу, котрий присвячений принципам застосування Відкритих даних. Власники даних знайдуть тут конкретні, докладні рекомендації, як найкраще їх розкривати. Ми розглянемо основні питання, але не залишимо без уваги і підвідні камені. Нарешті, ми обговоримо більш специфічні (вузькі) питання, що також можуть у вас виникнути.

При відкритті даних ми рекомендуємо дотримуватися трьох основних правил:

  • Не ускладнюйте. Почніть з чого-небудь невеликого, простого і швидкого. Не обов'язково відкривати всі набори даних тут і зараз. Нічого страшного, якщо ви для початку відкриєте один набір даних чи навіть частину великого набору – хоча, конечно, чим більше ви відкриєте, тим краще.

Помнете, що мова йде про інновації. Рухайтеся так швидко, як можете – це дозволить вам накопичувати імпульс і учитися на власному досвіді. Невдачі так само характерні для інновацій, як і успіхи: не кожен набір даних виявиться корисним.

  • Взаємодійте раніше і частіше. Виходите на в'язок з тими, хто користається чи буде користатися вашими даними, будь то громадяни, бізнес чи розроблювачі, якомога раніше і якомога частіше. Так ви будете упевнені, що ваш сервіс буде залишатися настільки актуальним, наскільки можливо.

Важливо пам'ятати, що більшість даних приходять до кінцевого користувача не прямо, а через “інфопосередників”. Це ті люди, які беруть дані і перетворюють їх або створюють похідні, які й надають публіці. Нас, приміром, звичайно не цікавлять великі бази даних GPS-координат; ми вважали б за краще карту. Тому спочатку краще зв'язатися з інфопосередниками, котрі будуть здатні повторно використовувати зазначений вами матеріал і пристосовувати його до своїх цілей.

  • Розвіюйте страхи і непорозуміння. Це особливо важливо, якщо ви працюєте у великій організації на кшталт обласної державної адміністрації. Відкриваючи тут дані ви зштовхнетеся з безліччю питань і страхів. Важливо, по-перше, виділити найважливіші з них і, по-друге, якомога раніше їх роз'яснити.

Відкриття даних відбувається в чотири кроки, котрі детально обговорюються нижче. Порядок їх дуже приблизний і багато кроків можна робити одночасно.

  1. Виберіть набір(и) даних. Виберіть набір(и) даних, котрі плануєте відкрити. Врахуйте, що якщо пізніше у вас виникнуть складності, завжди можна (а часом і потрібно) повернутися до цього кроку.
  2. Застосуйте вільну ліцензію.
    1. Визначте, які є права “інтелектуальної власності” на ваші дані.
    2. Застосуйте підхожу “відкриту” ліцензію, що забезпечить усі ці права і буде підпадати під визначення відкритості з розділу “Що таке Відкриті Дані”
    3. Якщо ви не можете цього зробити, поверніться до кроку 1 і виберіть інший набір даних
  3. Зробіть дані доступними - у повному обсязі й у придатному форматі. Можливо, ви захочете розглянути й інші способи доступу – наприклад, через API.
  4. Зробіть так, щоб дані можна було знайти - розмістите дані в мережі і, по можливості, організуйте центральний каталог для ваших відкритих наборів даних.

Виберіть набір(и) даних

Насамперед виберіть набір(и) даних, які ви збираєтеся відкрити. Помнете, утім, що відкриття даних, це процес ітеративний і якщо виникнуть труднощі, то можна буде повторно повернутися до цього етапу.

Якщо ви вже точно знаєте набір(и) даних, котрі збираєтеся відкривати, можете відразу переходити до наступного розділу. Найчастіше, однак, - особливо у великих організаціях – буває непросто вибрати, на яких наборах даних потрібно зосередитися. Як поступати у таких випадках?

Перелік даних потрібно створити якнайшвидше, щоб визначити, з якими наборами даних необхідно почати роботу. Пізніше у вас буде час ретельніше перевірити, наскільки придатний кожний з цих наборів даних.

Немає ніякої необхідності складати повний список ваших наборів даних. Головне питання, на яке слід відповісти - чи можливо взагалі опублікувати ці дані (хоч відкритими, хоч ні).

Запитаєте співтовариство

Спочатку варто запитати співтовариство - тих, хто буде користуватися даними. Вони, швидше за все, непогано уявляють, які дані були б корисні.

  1. Підготуйте короткий список можливих наборів даних, на який ви б хотіли одержати відгук. Не так важливо, щоб цей список відбивав ваші чекання, головне – відчути попит. За основу можна взяти каталоги відкритих даних інших країн.
  2. Створіть запит на коментар
  3. Опублікуйте свій запит на веб-сторінці. Він повинний мати власний URL – тоді його легко буде поширити через соціальні мережі і легко знайти.
  4. Зробіть так, щоб коментувати цей запит було просто. Не вимагайте реєстрації – це зменшує число коментарів.
  5. Поширите свій запит (разом з посиланням на головну сторінку) через списки розсилання, форуми й окремих людей, що мають відношення до теми.
  6. Проведіть зустріч-консультацію. Виберіть зручний час, що підійде більшості підприємців, аналітиків і чиновників.
  7. Запропонуйте представнику від громадських організацій виступити від імені вашого відомства. Дуже ймовірно, що відкриті дані стануть частиною більш глобальної політики по розширенню доступу до державної інформації.

Цінові міркування

Скільки грошей відомства витрачають на збір і підтримку своїх даних? Якщо вони багато витрачають на якийсь набір даних, дуже імовірно, що він буде інтересний комусь ще.

Супротивникам “халяви” цей аргумент може не сподобатися. Вам доведеться відповісти на запитання “Навіщо безкоштовно віддавати таку дорогу інформацію?” Відповідь у тім, що держсектор витрачає ці гроші, щоб вирішувати свою конкретну задачу. Коли дані зібрані, відправити їх третій стороні практично нічого не коштує. А виходить, і плату за них стягувати не потрібно.

Легкість публікації

Іноді не варто вибирати найцінніші дані, а варто подивитися, які дані легше усього довести до громадськості. Невеликі, легко здійсненні кроки можуть стати каталізатором великих змін у поводженні організацій.

Утім, будьте обережні! Може так трапитися, що цінність цих невеликих публікацій буде настільки незначна, що ні в що більше вони не переростуть. Так можна підірвати віру в проект взагалі.

Взаємна перевірка

Рух за відкриті дані розширюється. Ймовірно, у вашій галузі є багато людей, що знають, що відбувається в інших галузях. Складайте список з урахуванням досвіду інших відомств.

Використовуйте Вільні Ліцензії (Юридична Відкритість)

Права “інтелектуальної власності” майже скрізь забороняють третім особам використовувати і поширювати дані без явного дозволу. Навіть коли існування таких прав не очевидно, потрібно використовувати ліцензію хоча б для ясності. Тож, якщо ви збираєтеся надати доступ до своїх даних, їх треба ліцензувати. Це тим більше важливо, коли ви хочете, щоб дані були відкритими.

Які можна використовувати ліцензії? Для відкритих даних використовуйте такі ліцензії, з якими сумісне визначення відкритості, і які відзначені як застосовні до даних. Їхній список (разом з інструкціями з застосування) можна знайти за адресою:

Коротка односторінкова інструкція про застосування ліцензії відкритих даних знаходиться на сайті Співтовариств відкритих даних:

Зробіть дані доступними (Технічна Відкритість)

Відкриті дані повинні бути відкриті не тільки юридично, але і технічно. Зокрема, дані повинні бути доступні в повному обсязі, а їх формат повинний бути машинозчитуваним.

Доступність за ціною (Available)

Дані повинні надаватися не дорожче розумної вартості відтворення; найкраще – безкоштовно через Інтернет. Ця цінова модель досяжна, оскільки ваше відомство не несе ніяких витрат, коли надає свої дані.

Можливість скачати дані оптом (In bulk)

Дані повинні бути доступні у виді повного набору. Якщо ви ведете реєстр на підставі закону, зробіть так, щоб його (набор) можна було скачати цілком. Веб-API чи подібний йому сервіс теж буде дуже до речі, але вони не замінять повного доступу.

Надання даних у відкритому, машино читаємому форматі (In an open, machine-readable format)

Повторне використання даних держсектора не повинне обмежуватися патентами. Однак ще важливіше надавати дані в машино читаємому форматі, що сприяє найбільш активному їх повторному використанню. Для приклада, уявіть собі статистичні дані, що опубліковані у форматі PDF (Portable Document Format), котрий часто використовують для високоякісного друку. Люди зможуть їх прочитати, але комп'ютерам будуть дуже важко такі дані використовувати. Це сильно обмежить можливість повторного використання даних.

От кілька стратегій, що можуть бути дуже корисні:

  • Не ускладнюйте,
  • Рухайтеся швидко
  • Будьте прагматичні.

Зокрема, краще видати необроблені дані сьогодні, ніж досконалий набір даних - через півроку.

Зробити дані доступними можна різними шляхами. Найбільш природний спосіб у століття інтернету – публікація онлайн. Є безліч варіантів цієї моделі. Найпростіший – коли відомства викладають свої дані на веб-сайти. Відвідувачі знаходять потрібне джерело даних через центральний каталог. Є, однак, і інші варіанти.

Коли підключення до мережі Internet обмежене або обсяг даних надзвичайно великий, може бути виправдане поширення даних в іншому форматі. У цьому розділі також обговорюються варіанти, які допоможуть значно знизити витрати на це.

Онлайнові методи

Через уже наявний сайт.

Самий звичний спосіб для команди, що займається вашим сайтом – викласти файли на сайт для скачування. Таким шляхом можна поширювати не тільки документи для обговорення, але і файли з даними.

Труднощі такого підходу полягає в тому, що людині з боку дуже важко зрозуміти, де знайти свіжу інформацію. Цей варіант створює додатковий тягар тим, хто буде створювати інструменти для роботи з вашими даними.

Через сторонні сайти

Є багато репозиторіїв, котрі стали центрами даних у визначених областях. Наприклад, Xively.com призначений для того, щоб зв'язувати розроблювачів додатків для мобільних пристроїв з користувачами цих додатків для формування більш якісних програмних продуктів і інформаційних послуг. На сайтах Infochimps.com і Talis.com державні установи можуть безкоштовно зберігати великі масиви даних.

Подібні сайти можуть бути дуже корисні. Головна причина в тім, що вони вже об'єднали співтовариство зацікавлених людей і інші набори даних. Коли ваші дані стають частиною такої платформи, виникає свого роду позитивний зворотний зв'язок.

У великих платформах даних уже є інфраструктура, котрої може виявитися досить. Часто вони також надають аналітику і статистику використання. Звичайно вони безкоштовні для державних установ.

Є, однак, дві проблеми. По-перше, незалежність. Потрібно, щоб ваше відомство могло делегувати управління на сторону. Часто це зв'язано з політичними, юридичними чи технічними труднощами. Друга проблема – відкритість. Переконаєтеся, що для обраної вами платформи даних всё одно, хто її користається.

Вчені і розробники програм користуються багатьма операційними системами, від смартфонів до суперкомп'ютерів. І всі вони повинні мати можливість отримати доступ до даних.

Через FTP-сервера

Менш модний метод надання доступу до файлів це протокол передачі файлів (FTP). Він підійде, якщо ваші споживачі – технарі, наприклад, розробники програм чи учені. FTP працює так само, як і HTTP, але розроблений спеціально для передачі файлів.

FTP утратив популярність. На відміну від Веб-сайту, перегляд FTP сервера більше схожий на пошук у папках на комп'ютері. Тому, хоч він і справляється із завданням, але надає набагато менше можливостей фірмам що займаються веб-розробкою заробити на додаткових програмах.

Через торренты

Система BitTorrent стала відома законодавцям у зв'язку з порушеннями копірайту. Принцип її роботи полягає в тому, що тягар поширення файлів лягає на усіх, хто ці файли скачує. Збільшення попиту приводить не до перевантаження серверів, а до збільшення пропозиції. Саме тому ця система успішно використовується для роздачі фільмів. Це неймовірно ефективний спосіб поширювати великі обсяги даних.

Через API

Дані можна публікувати через Інтерфейс програмування додатків (API). Такі інтерфейси останнім часом дуже популярні. Вони дозволяють програмістам вибирати задані порції даних, не завантажуючи всі дані одним великим файлом. API звичайно використовуються з базами даних, що обновляються в реальному часі. Завдяки цьому інформація, доступна через API, завжди є найсвіжішою.

Публікація всього обсягу “сирих” даних повинна бути основною задачею всіх ініціатив відкритих даних. Існує декілька проблем при створенні API:

  1. Ціна. Програмні додатки на базі API вимагають великих зусиль по їх розробці й експлуатації чим просто файли.
  2. Очікування. Щоб створити співтовариство користувачів системи, важливо забезпечити визначеність. Коли справи підуть не так, від вас будуть очікувати, що ви витратитеся на виправлення проблем.

Доступ до цілих масивів даних забезпечує наступне:

  • незалежність від первісного постачальника даних: ситуація може змінитися, через реструктуризацію чи перегляд бюджету, але дані будуть як і раніше доступні.
  • кожен може одержати копію і поширювати її. Це знижує ціну поширення для організації-джерела і виключає можливість відмовлення.
  • інші можуть розробляти свої власні сервіси на основі цих даних і, тому в них є впевненість, що дані в них не відберуть.

Надавши всі дані цілком, ви дозволите іншим використовувати їх за рамками первісних цілей. Приміром, їх можна конвертувати в інший формат, зв'язати з іншими ресурсами, чи помістити під контроль версій і архівувати у декількох місцях. Можна зробити саму свіжу версію даних доступної через API, але повні копії сирих даних повинні викладатися регулярно.

Наприклад, статистичний сервіс Eurostat має модуль для скачування цілком, пропонуючи більш 4000 файлів з даними. Він обновляється двічі в день і зберігає дані у форматі Значення, розділені табуляцією (TSV), включаючи як файли даних, так і документацію на модуль скачування.

Інший приклад – каталог Округу Колумбія, де є як потоки даних, так і можливість скачати дані у форматі CSV та XLS.

Зробіть дані придатними для пошуку та вивчення

Відкриті дані – ніщо без користувачів. Переконаєтеся, що люди можуть знайти вихідний матеріал. У даному розділі описані деякі можливі підходи.

Головне, що потрібно забезпечити – нейтральний простір, котрий може подолати, як міжвідомчі бар'єри, так і майбутні можливі перегляди витрат. Границі юрисдикцій – галузеві та державні – можуть ускладнити співробітництво. Однак, об'єднання зусиль приносить вагомі плоди. Чим легше людям з боку отримати дані, тим швидше будуть створені нові та корисні інструменти.

Існуючі інструменти

У мережі є безліч інструментів, спроектованих таким чином, щоб полегшити виявлення даних.

Найвідоміший – DataHub – каталог та сховище даних з усього світу. Завдяки цьому сайту люди та організації без труда публікують свої матеріали, а користувачі даних знаходять те, що їм потрібно.

Крім іншого, існують десятки спеціалізованих каталогів для різних галузей і місць. Багато наукових об'єднань створили системи каталогізації для власних областей знання, оскільки їм часто необхідні дані для публікацій.

Для органів державної влади

Досвід показує, що традиційна практика полягає в тому, що головне відомство створює каталог для державних даних, після чого намагається створити структуру, котра дозволить множині підрозділів без труда підтримувати свої дані в актуальному стані.

Поборіть спокусу написати програми для підтримки каталогу з нуля. Є безліч вільних рішень з відкритим вихідним кодом (приміром, CKAN), які використовують державні влади в десятках країн. Інвестувати ще в одну платформу — даремна витрата ресурсів. Наприклад, наш портал заснований на застосуванні такого механізму роботи з Відкритими даними, як DKAN на базі системи управління контентом Drupal.

Є кілька аспектів, яким більшість сайтів відкритих даних не приділяє належну увагу. Тому, ваш сайт за прикладом нашого порталу може:

  • Надавати механізми додавання Відкритих даних для громадських організацій, бізнес структур і приватних осіб. Варто подумати про ваш сайт, як про сховище Відкритих даних, характерних для регіону в цілому, а не як про сховище даних тільки від місцевих органів державної влади.
  • Заохочувати поліпшення даних, дозволивши занесення на сайт похідних наборів даних. Наприклад, хтось позначив адреси географічними координатами і хоче поділитися цими результатами з усіма. Якщо ви допускаєте тільки одну версію набору даних, то ці поліпшення так і залишаться схованими.
  • Відноситеся терпимо до того, що ваші дані з'являються десь ще. Тобто дані швидше за все будуть розмножені зацікавленими співтовариствами. Якщо ви надаєте дані про забруднення пляжів, то ваші дані можуть з'явитися, як на сайтах туристичних фірм, так і на сайтах екологів.
  • Стежите за тим, щоб доступ до даних був рівноправним. Не створюйте привілейованого рівня доступу для чиновників чи для окремих суспільних діячів – це викликає роздратування і в остаточному підсумку зашкодить досягненню ваших цілей.

Для громадянського суспільства:

Будьте готові на вашому сайті за прикладом нашого порталу створити додатковий каталог для громадських організацій.

Як правило, державні органи влади дуже рідко покладаються на неофіційні чи не авторитетні джерела від громадських організацій. Практика показує, що чиновники часом йшли на величезні витрати, щоб уникнути політичних казусів та інших неприємних наслідків неправильного використання чи зайвої залежності від даних.

Крім того, державні органи влади навряд чи захочуть підтримати зусилля по об'єднанню їхньої інформації з інформацією від громадськості і бізнесу: вони обґрунтовано скептично відносяться до корисливих мотивів. Отже, може знадобитися незалежний каталог для громадських об'єднань, бізнесу і т.д.