?

Log in

Записи Френдолента Календарь Инфо Назад Назад Вперёд Вперёд
До чего дошёл прогресс - ДНЕВНИК ЭКОНОМИСТА
ksonin
ksonin
До чего дошёл прогресс
Одна из удивительных вещей в современной политической науке - это объём и качество данных, с которыми они работают. Ладно методы - статистическая работа с данными ничуть не хуже чем в биомедицинских или естественных науках, но сами данные!

В этом году я много хожу на семинары по конфликтологии, в основном эмпирической. У нашего факультета одна амбиция - быть самым сильным местом по политической экономике, а вторая, новая - стать мировым центром по эмпирической конфликтологии. Прошлой осенью мы получили 100 миллионов на создание такого центра и, соответственно, весь год занимались наймом - и действующих звёзд, и тех, кто только что закончил аспирантуру.

Насколько успешен наём звёзд, станет понятно в конце года - это трудно; сильных и активных учёных в эмпирической конфликтологии не так много и конкуренция между университетами очень сильная. А вот на "молодежном" рынке мы выступили успешно. Остин Райт - уже, только закончив аспирантуру, яркий учёный, занимающийся внутристрановыми конфликтами. Но я не про него лично хотел написать, потому что все современные конфликтологи чем-то таким занимаются. Но данные!

Только что он выступал у нас с работой, в которой он смотрит на эпизоды насилия в Афганистане в 2002-15 годах и данные у него об эпизодах - с точностью до пяти метров и получаса времени дня! GPS на груди коалиционных войск + разведчиков и т.п. Эпизоды классифицированы по более 100 категориями; есть стандартный формат электронного - в реальном времени - отчёта. Удивительны объём и покрытие; удивительно, что армия и ЦРУ эти данные рассекретили и передали учёным. (Это, впрочем, понятно - в армии и спецслужбах не может быть таких специалистов по работе с данными, как в частных фирмах типа Гугла или Амазона и в университетах - они слишком дороги.) Первая работа с использованием этих данных совсем маленькая, но следующая, которую Райт представлял у нас на пришлой неделе, скоро выйдет.



Каждая точка - эпизод насилия, с точностью до пяти метров и получаса времени, 2002-2015.
28 мнений // Ваше мнение?
Comments
ammosov From: ammosov Date: Апрель, 15, 2016 22:09 (UTC) (Ссылка)
Мой опыт работы с большими данными говорит, что самая сложная задача, в сравнение с которой все остальные по сложности и близко не лежат - раздобыть данные.

Примерно процентов 80% решения - наличие данных. Ну ладно, вру - 90%.
ksonin From: ksonin Date: Апрель, 15, 2016 22:18 (UTC) (Ссылка)
Что-то я сомневаюсь, что Вам доводилось серьёзно работать с данными (присылайте ссылку - всегда рад ошибиться). Иначе Вы бы этого не сказали. Более того, сама идея разделения на поиск и обработку - довольно странная. Вокруг гигабайты данных, но если у вас нет хорошей идентификации - никакой объём и точность не помогут.

Так, во всяком случае, я понимаю своих соавторов, которые серьёзно в этом разбираются :)
ammosov From: ammosov Date: Апрель, 15, 2016 22:23 (UTC) (Ссылка)
Ну, для начала, обработка данных двоякая бывает. Сперва нужно сырцы привести в единый читаемый вид. Затем уже их можно обсчитывать. Но это при условии что у вас есть данные. А те, у кого данные есть, их выдают даже под NDA крайне неохотно. В паблике только санированные выборки, которые с точки зрения отдающего ничего интересного содержать не могут.

А вот за ссылку на "гигабайты" я б сказал больше спасибо. Даже если это бесполезные гигабайты.
ammosov From: ammosov Date: Апрель, 15, 2016 22:33 (UTC) (Ссылка)
А это ссылка, которую вы просили.

http://data.gov.ru
ammosov From: ammosov Date: Апрель, 15, 2016 22:16 (UTC) (Ссылка)
"Это, впрочем, понятно - в армии и спецслужбах не может быть таких специалистов по работе с данными, как в частных фирмах типа Гугла или Амазона и в университетах - они слишком дороги."

Не проблема. Есть Палантир - где и специалисты есть, и кормят его не жалея денег. )
zhesh From: zhesh Date: Апрель, 15, 2016 22:36 (UTC) (Ссылка)
 Палантир, кстати, зарабатывает консалтингом на частных заказчиков, типа бирж и сетей супермаркетов. Конвертирует репутацию собственного агентства ЦРУ в мирных заказчиков.

Но, да, про "не может быть таких специалистов" я бы тоже не согласился.
ammosov From: ammosov Date: Апрель, 15, 2016 22:41 (UTC) (Ссылка)
Ну, скажем так, начинает. До 2014 г. его оборот на 100% делали трехбуквенные агентства. Когда я их продуктовые демо смотрю, меня всегда восхищает не то, как они с данными работают - там все довольно несложно - а то, что у них за данные. История звонков! Сессии мессенджеров! Платежи! Геолокация! И все это по сотням тысяч лиц минимум. И все ведь не ЦРУ, а от частных провайдеров - банки сдают, опсосы, изготовители телефонов... Что значит Patriot Act.

Edited at 2016-04-15 22:42 (UTC)
zhesh From: zhesh Date: Апрель, 15, 2016 23:14 (UTC) (Ссылка)
Я прошел через  insight data science, там разные-разные фирмы-наниматели рассказывали о своих  DS. Крупняки говорили либо намекали, что данные торгуются между ними втихую. Т.е. у какого-нибудь Macy's потенциально есть не только все Ваши платежи у них, а _вообще_ все которые не кешем. Те же сотни тысяч. Т.е. акт актом, но и без него дивный новый мир уже тут, не спецслужбами едиными.

У себя на работе, правда, такого не вижу, все супер-безопасно и никакой торговли на стороне...
ammosov From: ammosov Date: Апрель, 15, 2016 23:17 (UTC) (Ссылка)
Думаю, скорее у них есть некий общий ЦОД, куда все подключаются по общему API. Там полно вкусняшки, конечно.
0x8 From: 0x8 Date: Апрель, 16, 2016 03:05 (UTC) (Ссылка)
Да почему намекают. Вполне торгуют, но в основном только партнерам. Со стороны не купишь. :-(

Тот же Гуголь скупает частные базы данных, иногда вместе с владельцами.
ammosov From: ammosov Date: Апрель, 15, 2016 22:47 (UTC) (Ссылка)
agartman57 From: agartman57 Date: Апрель, 15, 2016 22:29 (UTC) (Ссылка)

Что видим?

Активность в приграничных областях с Пакистаном и пуштуны?
ammosov From: ammosov Date: Апрель, 15, 2016 22:32 (UTC) (Ссылка)

Re: Что видим?

И наркотрасса к Таджикистану. Все полностью соответствует публичным отчетам.
0x8 From: 0x8 Date: Апрель, 16, 2016 03:07 (UTC) (Ссылка)

Re: Что видим?

Выборка может быть нерепрезентативной. Это же только места которые военным а) интересны, б) удалось проникнуть. Надо еще знать где вояк не было.
ammosov From: ammosov Date: Апрель, 16, 2016 09:17 (UTC) (Ссылка)

Re: Что видим?

Ну вообще, объективно говоря, вояк не было там, где засветки нет. Как вариант, они там были, но из базы удалены, или с отключенными GPS (что маловероятно). Что верно, надо проверять.
ksonin From: ksonin Date: Апрель, 16, 2016 15:19 (UTC) (Ссылка)

Re: Что видим?

Ну, когда это наложено на карту местности, по-другому и быть не может. 90% это горы, на которых ничего не происходит (происходит на тропах, дорогах и в долинах).
ammosov From: ammosov Date: Апрель, 16, 2016 15:27 (UTC) (Ссылка)

Re: Что видим?

Это кагбе очевидно. А в этой статье есть что-нибудь интересное кроме визуализации? Выводы, скажем, какие?

Edited at 2016-04-16 15:27 (UTC)
fortran_only From: fortran_only Date: Апрель, 16, 2016 17:56 (UTC) (Ссылка)

Re: Что видим?

Ответ очевиден - в статье интересна только степень авторов, полученная в Принстоне, легко конвертируемая в пожизненную позицию в Чикаго.
viru From: viru Date: Апрель, 16, 2016 03:14 (UTC) (Ссылка)
The CIA is investing in firms that mine your tweets and instagram photos
https://theintercept.com/2016/04/14/in-undisclosed-cia-investments-social-media-mining-looms-large/
From: sotrudnic Date: Апрель, 16, 2016 03:47 (UTC) (Ссылка)
Наконец-то будет у меня прекрасная иллюстрация того, что такое "квантофрения".
vit_r From: vit_r Date: Апрель, 16, 2016 10:56 (UTC) (Ссылка)
А этот замечательный массив данных привязан к чему-нибудь из местных условий и событий?
ksonin From: ksonin Date: Апрель, 16, 2016 15:15 (UTC) (Ссылка)
Ко всему. Это не шутка - ко всем данным, которые хоть как-то и из каких-то источников известны про эти деревни и долины.
vit_r From: vit_r Date: Апрель, 16, 2016 16:09 (UTC) (Ссылка)
ЦРУ и военные дают другие данные с той же подробностью или приходится собирать из "открытых источников"? А то, видел как в ИТ подробнейшие данные связывают с "как-то и из каких-то" и получают гадание на кофейной гуще и фазах Луны.
lybica From: lybica Date: Апрель, 16, 2016 23:39 (UTC) (Ссылка)
Так что он получил-то? Да, да, пост не про него - но теперь ведь любопытно!
А вообще да, это везде так - время использования гигобайтов информации. В экологии у нас народ отходит от сбора своих данных и обрабатывает собранное кем-то еще на этой волне. Приводит это, как всегда, к разным последствиям. С одной стороны, дух захватывает от возможностей - с другой, появляются профессиональные биологи, которые ни разу живое животное не видели :)
k_150 From: k_150 Date: Апрель, 18, 2016 05:13 (UTC) (Ссылка)
Какая корреляция между насилием и высотой над уровнем моря?
ksonin From: ksonin Date: Апрель, 18, 2016 18:23 (UTC) (Ссылка)
В Афганистане, понятно, отрицательная. А вот вообще - не знаю :)
k_150 From: k_150 Date: Апрель, 18, 2016 21:16 (UTC) (Ссылка)
Если всё проконтролировать, плотность населения в том числе, то может и не такая отрицательная.
Есть как бы анекдотическая теория, что горцы более склонны к насилию.
rubenovich From: rubenovich Date: Апрель, 19, 2016 15:43 (UTC) (Ссылка)
На kaggle идет интересный конкурс по предсказанию категории преступления.
https://www.kaggle.com/c/sf-crime
Участники, к примеру, исследуют какие преступления чаще происходят на уличных перекрестках. Смотрят как преступная активность в Сан-Франциско менялась в течение нескольких лет.
28 мнений // Ваше мнение?