Открытые данные зачастую служат средством обмена информацией о действиях и финансовых операциях правительства. Они являются гарантом прозрачности работы и развития организации. В стране, чьи лозунги гласят «сделано людьми, для людей», открытые данные становятся полезны всем, а не только бизнесу и науке.
- Цифры
- Открытые данные и бизнес в США
- Для стартапов
- Почему открытые данные должны быть ориентированы на бизнес и исследования?
- Использование открытых данных в России
- Как на данный момент используются открытые данные в России
- Какие еще сервисы открытых данных доступны в РФ
- Заключение
- Неочевидное использование открытых данных
- Топливо для алгоритма
- Реконструкция справочников
- Геопривязка
- Пустые данные
- И многое другое
Цифры
Согласно данным на сайте Открытых Данных правительства США стоимость открытых данных оценивается в сотни миллиардов долларов. Они охватывают различные отрасли: здоровье, бизнес, климат, образование, потребительскую информацию, сельское хозяйство, энергетику, финансы, здравоохранение, местное самоуправление, производство, общественную безопасность, науку и исследования. В принципе, любая организация, относящаяся к органам власти, или напрямую подчинающаяся правительству США может иметь открытые данные.
Несмотря на то, что колоссальные усилия были предприняты для появления открытых данных, есть фундаментальные вопросы, которые заставляют некоторых обсуждать их эффективность. Прежде всего, это вопросы о том, сколько стоят открытые данные, кто будет за это платить, и каковы цели программ открытых данных. В настоящее время, в соответствии с распоряжением президента Обамы в 2009 году, утвержденным им в 2009 году и пересмотренным в 2015 году с третьим Национальным планом действий (NAP), рассмотрены некоторые из этих вопросов, но все равно требуется больше внимания для их решения.
Открытые данные и бизнес в США
Закрытая и запертая дверь только усиливает недоверие и подстегивает сторонников теории заговора, что мы и наблюдаем в данный момент в правительстве. Как будет меняться картина, зависит от толкования информации, которая становится доступной для общественности. Возможно, если данные открыты, то общественность будет иметь больший доступ к бизнес-процессам (на уровне данных), и соответсвенно осуществять надзор за этими процессами. Бизнес в этом случае будет более прозрачен и будет подвержен гораздо меньшей критике со стороны общественности в связи с тем что он «слишком скрыт» или неуловим в своей деятельности.
Не только потребители могут извлечь выгоду из открытых данных правительства. Руководители и управленцы могут использовать данные для повышения эффективности операций. Например: компании по энергоэффективности могут позволить потребителям отслеживать использование энергии. Уже сегодня можно наблюдать как такие предприятия как Zillow (компания, занимающаяся недвижимостью), используют открытые картографические данные для предоставления информации для покупателей. И хотя некоторые могут подумать, что открытые данные могут быть полезны только крупным предприятиям, это не так. Роял Холлоуэй из Лондонского университете, рассказывая об использовании открытых данных для цифрового бизнеса, утверждает, что стандартизация (например, сертификация ISO) может быть использована и малыми предприятиями. Кроме того, он заявил, что малые предприятия, которые используют открытые данные, обеспечивают большую интероперабельность между наборами данных и в конечном итоге расширяют свои возможности, объединяя эти наборы данных.
Для стартапов
Открытые данные являются важной частью любого стартапа. Стартапы, которые используют должную осмотрительность в исследовании рыночных данных, уже в некоторой степени используют доступ к открытым данным. Хотя маркетинговые данные и открытые данные это не одно и тоже, есть некоторые области, в которых можно объединить открытые данные и маркетинговые данные, например, в средних доходах домашних хозяйств, тенденциях в расходах в этой области и данных о продажах на конкурирующих рынках. Хотя эта информация не дает никакой информации о деятельности конкурента и не затрагивает данные о конкретных физических лицах в этом районе, она предоставляет данные определенного уровня для обеспечения надлежащей направленности продуктов и услуг, предлагаемых в этой области.
Почему открытые данные должны быть ориентированы на бизнес и исследования?
Независимо от того, добивается ли бизнес политического, образовательного или экономического успеха, общественность ожидает от организации предоставления информации, на основании которой общественность могла бы принимать решения о компании, ее товарах и услугах. Можно легко увидеть, что существует огромная реакция со стороны американской общественности, когда информация представлена (фиктивная или нет) организацией. И напротив, если информация утаивается, то общественность считает, что компании есть что скрывать. И хотя это может в корне неверный вывод, однако, именно так воспринимается открытость компании общественностью.
В рамках открытых данных нет места конфиденциальной или персональной информации. Вместо этого они представляют собой публичную информацию, необходимую для получения общую картину деятельности компании или бизнеса. Поскольку прозрачность бизнеса и исследований имеет жизненно важное значение для развития бизнес сообщества, но в то же время, конкурентная разведка имеет важное значение для выживания бизнеса в конкурентной среде, следует понимать, что открытые данные включают в себя обмен информацией, которая помогает оценке публичных фактов и информации, но не информацией, которая может нанести вред или как-то ограничить деятельность компании, бизнеса или правительства.
В мире, который ориентирован на факты, данные и прозрачность правительства, политиков, руководителей и владельцев бизнеса, единственный способ продвижения и развития — стандартизация, внедрение и использования парадигмы Открытых Данных.
Не секрет, что в России за последние годы, с одной стороны, стало больше открытых данных, с другой — накопилось немало критики.
Так неслучайно получилось, что тематика открытых данных — это то, чем я занимаюсь давно и знаю о большей части инициатив в этой области не по наслышке, а по собственному опыту участия. Здесь я постараюсь обойтись без ссылок на свои проекты, чтобы не нарушать правил сайта, их легко будет найти по их названиям в любом случае. Но постараюсь дать все ссылки на официальные ресурсы.
Поэтому, вместо предисловия, я представлюсь.
Меня зовут Иван Бегтин, я вот уже несколько лет продвигаю идею открытых данных в России, возглавляю небольшую некоммерческую организацию (Инфокультура) от лица которой и вместе с сотоварищами мы организуем соревнования, пропагандируем открытость данных среди госорганов.
Кроме всего прочего я вхожу в Совет по открытым данным при Правительственной комиссии по координации Открытого Правительства и ряд общественных и экспертных советов при органах власти и в курсе многих успешных (и провальных) государственных инициатив в этой области.
Ну и поскольку я, в том числе, в комментариях на Хабре читаю много вопросов, заданных явно или неявно, то на самые частые я отвечу в этой заметке, а также на те, что будут в комментариях.

Что сейчас происходит в России с открытыми данными?
Чтобы ответить на этот вопрос надо с самого начала разделить два понятия. Открытые данные — как открытую форму представления любых баз данных. Собранных ли активистами, подготовленных ли коммерческими компаниями или же опубликованных государственных органами. Открытые данные — это всеобъемлющий термин охватывающий все возможные источники появления данных, главное чтобы данные были доступны для свободного повторного использования и были машиночитаемыми (плюс соблюдение 8 принципов открытых данных о которых тут уже писалось.
А вот открытые государственные данные — это такой подвид открытых данных который производится изнутри государственной машины. Это может быть информация, как о самом государстве, так и то что госорганы собирают при выполнении их функций.
Исходя из этих определений можно сказать что то что в России происходит с открытыми данными вцелом — это на 100% зависит от нас самих, как мы собираем, публикуем, убеждаем и так далее публиковать данные, так это и происходит. Есть множество проектов которые существуют автономно от государства — это сообщество GIsLab, это наши проекты OpenGovData и Hubofdata и практически все краудпроекты на MediaWiki можно отнести к инициативам по открытым данным поскольку они предоставляют API для получения данных любым желающим.
А вот в том что касается открытых государственных данных, то здесь без самого государства не обойтись. В 2013 году был принят
Федеральный закон Российской Федерации от 7 июня 2013 г. N 112-ФЗ «О внесении изменений в Федеральный закон „Об информации, информационных технологиях и о защите информации“ и Федеральный закон „Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления“
Этот закон содержит набор поправок в федеральный закон от 9 февраля 2009 года N 8-ФЗ „Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления“ и в федеральный закон от 27 июля 2006 года N 149-ФЗ „Об информации, информационных технологиях и о защите информации“ о том что данные должны публиковаться в форматах открытых данных.
распоряжении Правительства Российской Федерации от 10 июля 2013 г. N 1187-р г.
был представлен перечень тех данных которые должны публиковаться в первую очередь.
Полный перечень законов, распоряжений и постановлений собран, например, на портале открытых данных г. Москвы в разделе „Документы“. Там множество документов, как федеральных, так и тех что приняты московской мэрией.
2. Кто в России отвечает за открытые государственные данные?
Можно было бы сказать что Правительство целиком, но это не совсем так. Утверждение планов открытости ведомств, в которые входят и работы по открытым данным, занимается Совет по открытым данным. Совет по открытым данным — это название рабочей группы при Правительственной комиссии по координации деятельности Открытого Правительства.
Я также вхожу в этот совет и могу сказать что несмотря на громкое название у Совета нет практически никаких полномочий. Да и не может быть в виду российской структуры государственного управления в которой все советы носят исключительно консультационную форму. Фактически единственный ресурс совета — это возможность донести до его председателя Министра Абызову ту или иную позицию.
С другой стороны, в виду того что закон об открытых данных, это были поправки в 8-ФЗ, то методическое сопровождение раскрытия данных и создание федерального портала открытых данных осуществляет
Здесь надо сделать небольшое отступление. В 2012-2013 годах, когда тема открытых данных в России только-только приобретала форму государственной инициативы, был ведомственный спор между Минкомсвязи и Минэкономразвития о том какое ведомство будет курировать эту тему. В итоге победило тогда Минэкономразвития и в дальнейшем именно оно было основным исполнителем усилий по открытости данных.
Результатом этого было множество последствий, главное из которых было в том что акцент на раскрытии данных сместился от государственных информационных систем как это хотело Минкомсвязи, на официальные сайты госорганов требования к которым всегда задавало Минэкономразвития.
3. На какие деньги существуют все эти инициативы?
Тема открытых данных практически начисто отсутствует во всех государственных программах включая программу „Информационное общество“. За последние несколько лет существенные инвестиции в то чтобы открытые данные были доступны проводило лишь Правительство Москвы которое создало московский портал открытых данных и вплоть до того что рекламировало его на улицах города.
На федеральном уровне ничего подобного не было. Все члены совета по открытым данным работают без какой-либо компенсации их усилий.
Да и расходы на создание федерального портала открытых данных невелики.
Аналогично со всеми субъектами федерации и муниципалитетами. Ни один из них денег на внедрение практики публикации открытых данных не получил, все усилия сводились к тому чтобы убедить их тратить собственные деньги на эти инициативы. Какие-то субъекты в этом продвинулись, а какие-то откровенно забили и просто саботировали раскрывая не данные, а их симуляцию.
4. Использует ли хоть кто-то в России открытые данные?
Если коротко, то да.
Да, данные используют и более чем активно. Используют активисты и бизнес, используют к коммерческих проектах, общественных и личных, используют для того чтобы улучшить существующие продукты, так и для того чтобы создать новые.
Есть несколько областей и наборов данных которые более чем востребованы. В первую очередь это такие данные как:
— База государственных и муниципальных закупок;
— Оперативные данные ЦБ РФ по валютам и открытые данные по банкам;
— База ФИАС (федеральная адресная информационная система);
— Данные по спутниковой группировке ГЛОНАСС
и многое другое.
Существует несколько десятков проектов по отслеживанию новых госмунзаказов (Закупки360, Бикотендер), по анализу контрагентов (Спарк. Интерфакс, Контур. Фокус, Коммерсант. Картотека) которые используют данные напрямую. Агрегируя данные о компаниях, о контрактах, закупках, лицензиях и прочем. Смешивая открытые данные и те которые они получают из коммерческих источников — они создают коммерческие продукты. В результате, на базе открытых данных существуют и развиваются состоявшиеся коммерческие продукты.
На основе базы ФИАС и до неё на основе базы КЛАДР работает значительное число сервисов по всей стране. Эта база, обычно, используется не для создания новых продуктов, а для улучшения удобства проверки адресов в многочисленных коммерческих информационных системах.
Данные ЦБ используются практически всеми сайтами показывающими официальные курсы валют и всеми сайтами по анализу банков и банковской системы вцелом.
Кроме этих данных есть много других — гораздо более узкоспециализированных и которые также активно используются, но чаще всего их пользователи себя не афишируют и малоизвестны.
5. И всё таки почему так мало примеров тех кто данные используют?
Главная причина в том основные пользователи данных — это коммерческие компании которые совершенно не заинтересованы, ни в том чтобы раскрывать свои доходы, ни в том чтобы рассказывать про свою бизнес модель. Да и вообще тратить на это время большинство из них не желает. Ко всему этому примешивается их опасение что рассказав о том как и сколько они зарабатывают на тех или иных данных у них сразу же начнутся проблемы и за те данные что они получают бесплатно им придется платить. Опасение не то чтобы небезосновательное, но и не то чтобы неоправданное.
По этой причине все те примеры что я называю — это примеры о которых я знаю и те примеры что на виду.
6. И всё равно полезных данных очень мало. Всё остальное это, либо бессмысленые наборы данных, либо с отвратным описанием
Полезных данных действительно мало. И я скажу больше, наиболее полезные и востребованные данные публиковались ещё до того как сам термин «открытые данные» появился в виде государственной инициативы.
ЦБ РФ — публикует данные уже с десяток лет в виде API через SOAP сервисы. База ФИАС появилась в виде открытых данных гораздо раньше. И данные по госконтрактам публикуются в машиночитаемом виде с 2008 года.
Все очень просто. Есть те данные которые госорганы публикуют в ответ на общественный или корпоративный запрос и те данные которые они публикуют
в обязаловку по разнорядке
Требования которые были сформулированы в законе об открытых данных и распоряжении правительства для большинства госорганов — это очередная назойливая муха. Они не понимают зачем это делать, они не понимают кому это нужно, они не понимают в чем польза от открытия данных и они не понимают какая им с этого выгода. Как результат мы получаем массу примеров «плохих данных» когда в разделах на сайтах органов власти данные публикуются без описания, без схем, с пустыми файлами данных или иными особенностями. Чаще всего такие данные публикуются представителями пресс-службы органов и те делают это всё по принципу
, бессодержательной публикации позволяющей поставить галочку в результатах.
7. Почему всё плохо?
Нельзя сказать что всё совсем плохо. У России не последние места в рейтингах открытости данных вроде Open Data Index и Open Data Barometer. Но причин радоваться, действительно мало, и причин у того что всё идет так тяжело множество.
Одна из причин в том что у открытых данных в России очень мало явно заявляющих свой интерес потребителей.
Дело в том что в мире основными потребителями открытых данных являются:
— некоммерческие организации и активисты (гражданское общество);
— журналисты;
— коммерческие компании;
— университеты.
С каждым из потребителей у нас в России есть свои проблемы.
Независимых некоммерческих организаций
теперь почти нет. Все что жили на зарубежные гранты теперь, либо закрываются, либо перестраиваются под госгранты, либо резко сворачивают свою активность. Наша некоммерческая организация существует исключительно по то причине что все учредители это люди занимающиеся бизнесом и у нас была и есть возможность тратить немножко средств на её поддержание и в том что самые большие проекты мы делали при поддержке Фонда Кудрина. Единственного, пожалуй, который из фондов в России поддерживает общественные проекты на открытых данных. Других возможностей фактически нет. Государственные грантооператоры не выделяют средств на подобные проекты, коммерческих спонсоров для проектов на открытых данных найти очень сложно ну а брать иностранные гранты теперь табу.
почти вся в России весьма далека от нейтральной подачи информации. Но даже провластные издания не взаимодействуют с госорганами на предмет открытости их данных для того чтобы их использовать в работе. Увы, за все эти годы направление журналистики данных так и не обрело заметных очертаний в нашей стране и до сих пор журналисты оказывают очень малое влияние на открытости государства в тех или иных вопросах. Пронзительные экономические аналитики, исследователи демографии, словоохотливые социологи — все они на страницах СМИ не формируют запроса к органам власти на открытость.
здесь всё просто — их очень мало. Коммерческие компании использующие открытые данные можно разделить на две категории. Первая группа — это тех кто живет за счет государственных заказов и данные им нужны чтобы показать свои компетенции в том чтобы больше заказов получить. И вторая группа живущая на информационном рынке крайне малочисленная и не желающая взаимодействовать с госорганами без острой необходимости. В основном по причинам глубокого недоверия государственной машине.
высшие учебные заведения
. Увы, запроса со стороны ВУЗов на то чтобы данные были доступны для исследований, для возможности студентов использовать актуальные данные в своей работе, этого запроса просто нет. Если в мире университеты формируют собственные базы данных по направлениям исследований и работы их факультетов, то в России это если и есть, то в весьма ограниченных формах.
8. Будет ли лучше?
До введения санкций, закона об иностранных агентах и прочего ухудшения внешней и внутренней политики я бы сказал что однозначно да. Когда всё начиналось Россия была в G8, подписывала G8 Open Data Chapter, претендовала на участие в Open Government Partnership. Сейчас развитие темы открытых данных происходит при высоком сопротивлении государственного аппарата. Наиболее востребованные данные раскрываются с большим трудом. Детальная образовательная, криминальная и иная муниципальная статистика крайне труднодоступна. Государственные геоданные по прежнему открываются тяжело. Но многое другое возможно. Это климатические, транспортные и иные данные востребованные на практике.
9. Почему лично я во всём этом участвую?
Причин много. Главная в том что я ввязался открытые данные еще в 2009 году со злости что во всем мире эта тема развивается, а в России ничего нет. Другая в том что устройство «государства», не только российского — это моё давнее хобби. При том что наибольшие усилий приходились и приходятся не только на то чтобы убеждать чиновников в открытости данных, а в том чтобы самостоятельно собирать данные из разных источников и превращать в открытые данные.
— К заметке прилагаю пару опросов и как и обещал, готов ответить на все вопросы по существу в комментариях.
Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Надо ли лоббировать открытость государственных данных?
Только если это не отнимает слишком много времени и ресурсов
Лучше потратить время на общественные проекты по созданию открытых данных
Ничего этого не нужно
Проголосовали 352 пользователя.
Воздержались 40 пользователей.
Как Вы оцениваете работу Совета по открытым данным?
Понять не могу что он вообще делает
Ничего о его работе не слышал и не читал
Проголосовали 324 пользователя.
Воздержались 49 пользователей.
Как Вы оцениваете работу Минэкономразвития России по открытым данным?
Проголосовали 324 пользователя.
Воздержались 48 пользователей.
Что важнее всего в будущем открытых данных?
Качество данных и качественное описание их структуры
Возможность общения с ответственными госорганами
Возможность запрашивать недостающие данные
API вместо файлов
Проголосовали 352 пользователя.
Воздержались 42 пользователя.
Использование открытых данных в России
9 апреля, 2018
В данной статье хотелось бы вкратце раскрыть понятие открытых данных, а также актуальность таких сведений для коммерческих и государственных структур в Российской Федерации. Будет рассмотрено текущее положение дел и варианты развития данного направления.
Для начала необходимо определиться, что же подразумевается под открытыми данными. По своей сути это совокупность всех общедоступных баз данных и сведений в открытом доступе, которыми можно пользоваться для различных целей. Использование типовых открытых данных в Российской Федерации регламентируется в соответствии с Федеральным законом за № 149-ФЗ «Об информации, информационных технологиях и о защите информации» от 27 июля 2006 г. и документом от 19 сентября 2016 г. № 6, утвержденным Правительственной комиссией по координации деятельности открытого правительства, под названием «Типовые условия использования общедоступной информации, размещаемой в информационно-телекоммуникационной сети «Интернет». Напомним также, что для открытых государственных данных предусматривается соблюдение законов от 7 июня 2013 г. N 112-ФЗ «О внесении изменений в Федеральный закон „Об информации, информационных технологиях и о защите информации“ и Федеральный закон „Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления“. Контроль открытых данных осуществляют правительственные органы и Совет по открытым данным.
Как на данный момент используются открытые данные в России
Открытые данные используются активно коммерческими структурами и физическими лицами. Основное их предназначение – улучшение продуктов, сервисов и создание новых полезных продуктов для личного и общественного пользования.
К самым востребованным областям относятся актуальные базы госмунзакупок, сводка ЦБ РФ по курсам валют и открытые сведения банков, федеральная адресно-информационная база России, сведения ГЛОНАСС и многие другие.
Сейчас на рынке порядка трех десятков сервисов по мониторингу тех же самых государственных и муниципальных заказов ( к примеру, Бикотендер или Закупки 360), проверке контрагентов ( Контур. Фокус, Спарк. Интерфакс, Коммерсант. Картотека), применяющие сведения напрямую. Собирая воедино данные и добавляя коммерческие сведения, они создают уникальные коммерческие продукты, которые используются многими людьми в личных и коммерческих целях. Также есть ряд узкоспециализированных проектов, которые не так известны и применяются ограниченным кругом лиц, не желающих себя раскрывать. Парадокс России: использование открытых данных взакрытую.
Государство все-таки также сделало попытку открыть свои данные, но судить о том, получилось или нет, вам. Вот несколько государственных проектов, которые претендуют на открытость данных:
К сожалению, данные на некоторых порталах представлены таким образом, что анализировать их и использовать зачастую крайне сложно. Над этой задачей государству еще предстоит поработать.
Какие еще сервисы открытых данных доступны в РФ
Причин тому несколько:
Заключение
Конечно, в плане использования открытых данных для решения задач на государственном и коммерческом уровне, Россия значительно отстает от других ведущих мировых стран. Однако в последнее время наблюдается явная тенденция к увеличению значимости открытых данных и их массовому использованию для различных целей. Примером может служить инициатива Ивана Бегтина по созданию некоммерческой организации, продвигающей идею открытости данных госорганов и повышения информационной культуре в стране вцелом. На самом деле, потенциал применения открытых данных огромен, и направлений использования гораздо больше, чем задействовано на данный момент. И, несмотря на тотальный государственный контроль к этой теме, развитие открытых данных в России не останавливается, хотя темпы оставляют желать лучшего. По-прежнему малодоступны данные о криминальной обстановке, статистика муниципалитетов и геоданные. Зато на практике востребованы данные о климате и транспортной обстановке, что дает надежду на будущее использование открытых данных в России.
Неочевидное использование открытых данных
Время на прочтение
Я думал стоит ли писать этот пост или нет, потом решил что всё таки стоит —
Еще до того как я занялся плотно открытыми данными, я довольно много лет занимался и занимаюсь сейчас различными задачами по классификации, анализу текстов, полуструктурированных данных, очистке и обогащению данных.
Например, довольно давно еще я сделал алгоритм автоматического разбора ФИО в любом написании, определения пола и, возможно, этноса. Это не самая сложная задача, я привожу её не как нечто выдающееся, а как нечто рутинное и типовое. Однако решение этой, довольно типовой задачи, Вопрос в том как решать это нечто типовое.
И вот тут то и пригодились открытые данные.
Однако начну с начала.
Топливо для алгоритма
Вот мы практически все знаем что данные с сайта госзакупок доступны всем — их можно выкачать в огромном объеме с FTP сервера, разобрать и использовать в разных полезных целях и задачах. Много проектов появилось с тех пор как эти данные чиновники стали публиковать. Да и я сам использовал их довольно давно — для анализа госзакупок, автоматического выявления нарушений, анализа рынков — да много задач!
И вот, какое-то время назад, у меня возникло желание сделать возможность для гендерного анализа по любой выборке данных. К примеру, анализируем список депутатов — и очень хочется проставлять им пол не вручную по списку, а напустить робота и получить список с пометками. А по списку потом можно визуализировать — сколько мужчин, сколько женщин, уровень активности по полу, уровень доходов и так далее.
Отчасти задача решается всякими списками наиболее популярных имен, хорошо решается через отчество и так далее. Такой подход хорошо работает когда входной поток ФИО хорошо структурирован, а вот когда они пишутся самым разным образом от «Иван Петров» до «Петров И. А.» и еще с десяток вариантов, вот тогда оказывается что совсем простых и лобовых способов решения недостаточно. Поэтому я задумался о том что нужна эталонная база имен, отчеств и фамилий, а также распознавание структуры поступившего потока ФИО.
Для того чтобы сделать такие справочники нужна структурированная база ФИО которую можно было бы использовать для этой цели.
Вопрос — как найти оптимальное решение?
Решение было неподалеку. Ф ИО персон есть во многих больших массивах открытых данных что открывают органы власти. В частности ФИО в виде контактных персон, ответственных персон и так далее есть в анонсах закупок, протоколах закупок и описаниях контрактов. А также в контактной информации карточек организаций!
Да, там многие дублируютcя, не миллионы персон, а только сотни тысяч, но данные структурированны и осталось только правильно расклассифицировать эту выборку изначально, разобрать на справочники и потом уже их использовать для распознавания имен, отчеств и фамилий. Что и позволяет понять и структуру попадающего в алгоритм описания ФИО и точно определить пол.
Сейчас это алгоритм использует справочник в 26 тысяч имен, 40 тысяч отчеств и около 300 тысяч фамилий. С его помощью мы, например, улучшали базу участковых и сейчас у нас есть база с пометками пола (там где его удалось определить) и там же есть анализ гендерной структуры участковых. Вот тут это всё — http://data.openpolice.ru/dataset/mvd-uchast
Я, конечно же, не хочу сказать что нет других источников и баз с ФИО, однако тех чтобы были практически подготовлены к быстрому использованию немного.
Реконструкция справочников
Есть такая особенность для многие открытых и не очень государственных данных в том что они публиковаться-публикуются, а вот описание их найти сложно и еще сложнее найти справочники которые внутри их используются. Чаще всего это происходило не со зла (со зла просто стараются данные не публиковать вовсе), а от непонимания потребностей потенциальных пользователей данных.
Приведу несколько примеров.
Бюджетные справочники
Минфин России регулярно публикует данные о государственном бюджете и его исполнении. Это большие простыни в формате Excel файлов на их сайте — вот тут в разделе «Бюджетная роспись».
В файлах много самых разных строк и их особенность в том что в каждой из них множество справочников упоминаются. Ряд строк верхнего уровеня определяют Главных распорядителей бюджетных средств (ГРБСов), другие — ФКР (функциональная классификация расходов), ЦСР (Целевые статьи расходов), КВР (код видов расходов) и многие другие.
Как получить эти справочники? Некоторые из них доступны в виде открытых данных их разных государственных систем, но найти актуализированные не всегда получается. Поэтому самым действенным способом получается реконструировать справочники из самого массива данных. Учитывая что описание бюджета устроено так что строки в нем являются именно названиями строк справочников в зависимости от детализации — эти справочники восстанавливаются довольно таки быстро.
Зачем вообще это нужно? Во-первых эти справочники нужны для визуализации непосредственно бюджета. Во-вторых они упоминаются без расшифровки во многих других системах раскрытия информации, например, в старых данных реестров контрактов. Эти данные сложно анализировать когда не знаешь справочников на которые ссылаются записи в реестре.
Геопривязка
Предположим у нас есть список организаций с телефонами и желание понять к каким городам и регионам они относятся. Задача более чем частая и нужная для множества задач. Как это сделать? Самый действенный способ — это наличие справочника телефонов городов и по префиксам этих справочников определить город. Такие справочники есть на нескольких сайтах, например, на сайте Ростелекома или на сайте Россвязи в разделе ABC нумерации.
Одна лишь проблема — там города и регионы, но не детальнее и безо всяких классификационных кодов типа ОКАТО или КЛАДР. И справочники надо приводить к ОКАТО чтобы добиваться точности. Но есть и другой способ. Среди данных уже упоминавшегося мной сайта госзакупок и в данных сайта госучреждений (bus.gov.ru) есть множество карточек организаций. Эти данные содержат — как коды геопривязки (КЛАДР и ОКАТО), так и телефоны. Отсюда и решение. Вначале на этих базах формируется справочник которые позволяет сопоставлять префиксы телефонных номеров и геопривязку, а потом уже достаточно только телефона организации чтобы определить её вероятное местоположение.
Пустые данные
Когда в 2011 году Всемирный банк проводил конкурс Apps4Development одним из поданных туда проектов был проект Blind Data («слепые данные») — его суть была в том чтобы найти дыры, пустоты, пропуски данных в том что публиковал Всемирный банк. Сейчас этот проект недоступен кроме как на сайте их конкурса, но когда он был там было видно отсутствие данных по многим ключевым вопросам из большого числа стран.
Другой пример — проект ClearSpending созданный в Sunlight Foundation. Их специалисты проанализировали строки бюджета и данные о расходах по базе госконтрактов и выявили «пустые пространства» — отсутствие отчетности по огромным объемам средств. А то есть даже не случаи коррупции, а случаи когда нет никакой публичной информации о том что же и как закупалось.
Эти примеры лишь два из многих. Есть множество других которые используются для гражданского контроля. Когда публикация данных используется для того чтобы найти то о чем данных не публикуется и не публиковалось ранее. Данные можно сопоставлять, сравнивать и выявлять вопиющие необычные случаи. Надо всего лишь переключиться с того что есть, на поиск того чего нет.
И многое другое
Перечисленным выше всё не исчерпывается. Открытые данные как пример наиболее доступных данных применимы, и для разработки алгоритмов, и для других задач. И подобное их применение нельзя сбрасывать со счетов, особенно если в будущем будут доступны и другие интересные массивы данных.
Например:
Всё что я хотел сказать этим постом — это то что результатом использования открытых данных могут быть не только сайты и мобильные приложения. Результатом могут быть алгоритмы и их совершенствование. А также применение данных для далеко не очевидных задач.




