8 авг. 2018 г.

Ожидаемая продолжительность жизни: какова моя вероятность дожить до возраста X?

Ожидаемая продолжительность жизни: что это такое?

В бурных обсуждениях повышения пенсионного возраста часто фигурирует вроде бы понятное и в то же время странное понятие - "ожидаемая продолжительность жизни". Это стандартный и общепринятый демографический показатель, но который довольно сложно воспринимать и часто его воспринимают неправильно. К примеру, если ожидаемая продолжительность жизни для  российских мужчин составляет 67,5 лет, а возраст выхода на пенсию - 65 лет, то наивно можно предположить, что ожидаемое время жизни на пенсии равно 2,5 годам (67,5 - 65), но такой расчет будет неверным. Правильная цифра ожидаемой продолжительности жизни для мужчины 65 лет составит 13,9 лет. Честно признаюсь: до недавнего времени сам не до конца ясно понимал, как делаются подобные расчеты, сейчас разобрался и готов объяснить. Давайте сначала посмотрим на официальные данные Росстата по показателю ожидаемой продолжительности жизни. Все графики будем приводить отдельно для мужчин и для женщин, так как между ними существуют очень большие различия.
В 2017 году ожидаемая продолжительность жизни для мужчин, по данным Росстата, составляла 67,51 лет и для женщин - 77,64 года. Что это вообще означает и как рассчитывается? 

Все начинается со смертности

Это может показаться странным, но единственными исходными данными, которые необходимы для расчета ожидаемой продолжительности жизни являются так называемые "возрастные коэффициенты смертности". Фактически это таблица, в которой указана доля умерших (обычно - за год) от общего количества людей, которые находились в данной возрастной группе. Вот к примеру, возрастные коэффициенты смертности за 2016 год:
В самой левой части графики возрастной коэффициент для мужчин в возрасте "0" (то есть, родившихся) составляет 6,6 человек. Это означает, что в 2016 году на 1000 родившихся младенцев мужского пола в течение первого года жизни умерло 6,6 человек. Для младенцев женского пола показатель равен 5,4 человека. И так далее. К сожалению, Росстат в стандартном виде представляет данные не по единичным годам, а по пятилеткам - группа "5-10 лет", группа "10-14", группа "15-19" лет и так далее. Видно, что возрастные коэффициенты довольно низкие в возрасте с  1 года до примерно 30 лет, затем начинают постепенно увеличиваться. Причем во всех возрастных группах мужчин в среднем умирает больше, чем женщин. . Это интересный вопрос, почему такое наблюдается. Ученые считают, что помимо социальных (вредные привычки, рискованное поведение и проч.), существуют биологические причины, почему женщины живут дольше, чем мужчины.

Вероятность дожития

На основе коэффициентов смертности мы можем посчитать вероятность дожития -  вероятность того, что если человек вступил в определенную возрастную группу, то он доживет до ее границы. Если человек вступил в возрастную группу, то вероятность дожить до конца срока этой возрастной группы составляет (100% - коэффициент смертности).  Обратите внимание: мы предполагаем, что показатели смертности останутся неизменными в течение всего рассматриваемого период, хотя фактически берутся данные только за один определенный год. Рассмотрим пример. Для тех же младенцев мужского пола вероятность дожития с 0 до 1 года составляет 99,34% (100% - 6,6/1000), для женщин - 99,46% (100%- 5,4/100). Мы считаем, что общее количество родившихся равно 100%. Возьмем следующую возрастную группу - "1-4 год". Коэффициент смертности для мужчин равен 0,4, значит вероятность дожития в этой возрастной группе - 99,96% (100% - 0,4/1000). В данном случае мы считаем, что 100% - это те, младенцы, которые были живы к первому году жизни. Если необходимо посчитать вероятность вновь родившегося младенца дожить до 5 лет, то нам необходимо перемножить две вероятности дожития - "до 1 год" и "от 1 до 4%, то есть 99,34% * 99,96% = 99,30%. Так можно итеративно продолжать по следующим возрастным группам. Чтобы перейти в следующую возрастную группу, человеку необходимо дожить до возраста ее начала. Разумеется, если имеются данные коэффициентов смертности по отдельным годам, то аналогичным образом вероятность дожития можно посчитать точнее, чем если использовать 5-летние когорты. К счастью, Центр демографических исследований РЭШ предоставляет однолетние возрастные коэффициенты смертности, на основе которых мы рассчитаем накопленные вероятности дожития. . Первоисточником этих данных тоже является Росстат. Но сотрудники РЭШ "добыли" эти данные и предоставили их для анализа в удобном виде. 

  К примеру, на графике (можно навести на него мышкой, чтобы увидеть количественные значения) видно, что для младенцев мужского пола 2017 года рождения вероятность дожить до 65 лет составляет 62% (84% - для женского пола) при условии, что все возрастные коэффициенты смертности останутся на уровне 2017 года в течение жизни этого младенца. Ожидаемая продолжительность жизни - это некоторый статистический конструкт, который отражает просто текущие показатели смертности в одной цифре. Конечно можно было бы подсчитать подобные вероятности точно. Но для этого надо подождать лет 100 для того, чтобы дождаться пока, все (или почти все) люди 2017 года рождения не умрут. Так как этого сделать сейчас невозможно, то демографы используют подобные вычисления, основанные на допущениях. 
Конечно можно ожидать, что в будущем коэффициенты смертности будут снижаться, и это приведет к росту фактической средней продолжительности жизни. Однако для этого тоже надо делать допущения относительно того, как будут изменяться коэффициенты смертности в будущем. Эти допущения также будут субъективными. Поэтому оценки вероятность дожить до определенного возраста, рассчитанные на текущих коэффициентах смертности, представляют собой скорее нижнюю оценку вероятности. Если же мы сохраним подобные консервативные допущения ("в будущем коэффициенты смертности не улучшатся и останутся на уровне 2017 года"), то можно рассчитать вероятность дожития до возраста Y, начиная с любого возраста X, последовательно перемножая коэффициенты дожития. Ожидаемая же продолжительность жизни рассчитывается как произведение двух векторов: 1) разницы в накопленных вероятностях дожития по возрастам 2) вектор возрастов (в нашем случае от 0 до 100 лет). Для особо любопытных - ссылка на лист Excel, в котором показан расчет. Для примера я использовал данные РЭШ и рассчитал ожидаемую продолжительность жизни для мужчин в 2017 году. Получилось 67,80 лет. Это немного не совпадает с показателем Росстата (67,51), но достаточно точно. Исходя из процедуры расчета становится понятно, что не обязательно начинать расчет с 0 лет. Начинать можно с произвольного возраста X и рассчитать ожидаемую продолжительность жизни в возрасте X. Логика остается той же самой. Берем разницу накопленных векторов дожития и перемножаем с вектором лет (в данным случае вектор начинается с 0 в возрасте X). Таким образом мы получаем взвешенную по коэффициентам смертности последующих лет ожидаемую продолжительность жизни в возрасте X. 

Какова моя вероятность дожить до Y лет? Какова ожидаемая продолжительность жизни в возрасте X?

Возможно, все это звучит слишком сложно и технично. Чтобы было максимально понятно и интересно, мы сделали калькулятор, который позволяет рассчитать ожидаемую продолжительность жизни, начиная с любого возраста и вероятность дожить от возраста X до возраста Y. Мы использовали коэффициенты смертности, которые отличаются в зависимости от пола и региона проживания. Регион проживания также важен, так как существуют большие отличия в показателях смертности между субъектами РФ. Разница в ожидаемой продолжительности жизни между лучшими по этому показателями регионами (Северный Кавказ, Москва) и худшими (некоторые регионы Сибири и Дальнего Востока) достигает 12-15 лет.

Калькулятор ожидаемой продолжительности жизни и вероятности дожития доступен здесь или здесь (в полном экране)


К примеру, если вы мужчина в возрасте 35 лет, проживающий в Москве, то вероятность дожить до 65 лет (планируемый стандартный возраст выхода на пенсию) составляет 75,3% (для женщин - 89,1%). Ожидаемая продолжительность жизни в этом возрасте составляет 42,7 лет (для женщин - 47,8 лет). Можно посмотреть любые другие сочетание возрастов и регионов проживания.

22 февр. 2018 г.

Nowcast российского ВВП или как следить за тем, что происходит в экономике

ЧТО ТАКОЕ NOWCAST?

В современной экономической терминологии есть такое понятие, как nowcast (не уверен насчет адекватного перевода на русский). В чем отличие nowcast от прогноза (то есть, forecast)? Особенность экономической статистики заключается в том, что регулярно выходит множество данных. К примеру, ежемесячно выходят данные по промышленному производству, доходам населения или розничной торговле. В США еженедельно выходят данные по первичным обращениям за пособием по безработице и так далее. Есть показатели финансовых рынков, которые изменяются практически непрерывно и которые также влияют на экономику.

Агрегированные показатели - та же динамика ВВП - выходит с запаздыванием. К примеру, по состоянию на конец февраля мы не знаем, какая динамика российского ВВП была в IV квартале 2017 года, хотя прошло уже 2 месяца, так как эти данные еще не опубликованы Росстатом.

Для центральных банков бывает важно оценивать состояние экономике в реальном времени. К примеру, решения по процентной ставке необходимо принимать сегодня, а данные по ВВП выйдут лишь через какое-то время. Поэтому если мы хотим оценить текущее состояние экономике, то хорошо бы учитывать все эти кусочки данных и агрегировать их в некоторую общую картину. В этом и состоит задача nowcast - мы хотим оценить состояние экономике в недавнем прошлом, за которое еще не вышли точные данные (IV квартал 2017 года) и оценить самое ближайшее будущее (I квартал 2018) на основе той информация, которая доступна по состоянию "на сейчас". По сути это даже не прогноз, а оценка состояния дел в real time.

Существует различные подходы, как можно подходить к задаче nowcast ВВП. К примеру, есть известная модель GDPNow (https://www.frbatlanta.org/cqer/research/gdpnow.aspx) для экономики США, созданная экономистом ФРБ Атланты Пэтом Хиггинсом (Pat Higgins). В рамках этого подхода я явным образом реконструируется методология расчета квартального ВВП , а продвинутые статистические методы используются для того, чтобы заполнить "недостающие" точки. Соответственно, каждый новый месячный релиз может быть инкорпорирован в модель ВВП. Для России такой подход не очень подходит, так как методология расчета ВВП не слишком прозрачна и надежность получаемых оценок будет не очень высокой.

Есть подходы, которые в большей степени отталкиваются от статистических методов. К примеру, можно предположить, если взять множество различных экономических индикаторов и выделить их общую компоненту статистическими методами, то именно эта компонента характеризует состояние экономики или фазы делового цикла. Для России какое-то время назад существовал совместный проект Ренессанс Капитала /РЭШ, в рамках которого публиковался "упреждающий индикатор ВВП РенКап - РЭШ" (https://www.nes.ru/ru/projects/indicator). По сути, этот подход основывался на том, чтобы загнать «суп» из множества месячных показателей (108, если быть точным), выделить общую часть, регрессировать ее на данные ВВП и получать nowcast. К сожалению, с 2014 году публикация этих оценок прекратилась.

МЕТОДОЛОГИЯ НАШЕГО NOWCAST


Мы сделали свой nowcast для российского ВВП. Nowcast основывается на модели индикатора делового цикла, опубликованный в работе Arouba et al (2008). Эта работа лежит в основе известного дневного индикатора делового цикла (ADS - Aruoba-Diebold-Scotti business conditions index), который рассчитывается ФРБ Филадельфии.


В нашем случае мы используем несколько категорий входных данных:

дневные данные:
  • волатильность индекса ММВБ
  •  волатильность курса рубля, которая не объясняются изменением цен на нефть (условно, остаточная волатильность)
месячные данные:
  •  индекс предпринимательской уверенности по обрабатывающим производствам
  •  индекс потребительской уверенности
  •  индекс промышленного производства в обрабатывающей промышленности
  •  индекс промышленного производства в добывающей промышленности
  •  грузооборот транспорта
  • индекс динамики кредитов нефинансовому сектору
квартальные данные:
  •  индекс физического объема ВВП

Все эти показатели были выбраны не просто так, а после довольно длительной и кропотливой работы по тестированию и калибровки модели. На основе этих показателей рассчитывается индикатор делового цикла для российской экономики.


На следующем этапе рассчитывается «дневной показатель ВВП» на основе рассчитанного индикатора делового цикла. Буквально, это накопленный за последние 3 месяца фактор делового цикла, умноженный на оцененный коэффициент и прибавленный к лагированному значению дневного значению дневного ВВП (восстановленного на предыдущих итерациях), умноженному на другой коэффициент. Его последние доступные значения за каждый квартал (даже если он еще не закончен) интерпретируется как nowcast российского ВВП.


ТЕКУЩИЕ РЕЗУЛЬТАТЫ


Это если говорить коротко о методологии, какие же получаются текущие результаты? Последние месячные данные за январь 2018 года, а также дневные данные по конец февраля. Текущие результаты нашей nowcast модели: +0,2% г/г в IV квартале 2017 года и +0,1% в I квартале. Для сравнения в III квартале (последний квартал, за который доступны данные) это +1,8% г/г. Можно сказать, что экономический рост в России замедлился практически до нуля в конце прошлого года и пока остается таким в начале 2018 года.



Все текущие результаты оценок nowcast, которые будут обновляться ежедневные доступы по адресу http://models.fief.ru/shiny/dailybc/ в качестве интерактивного приложения. Так что, вы можете начинать свой день не с утренней чашки кофе, а с проверки того, как обстоят дела в экономике сегодня)
В приложении также доступны оценки важности используемых входных параметров (factor loadings), а также исходные значения всех используемых параметров.


Напишите, если возникнут вопросы или комментарии. Как обычно, все данные оценок модели можно экспортировать в форматах xls/csv для собственного потребления. Все интерактивные графики можно сохранять в виде картинок png/jpeg/pdf.

Arouba et al (2008). S. Boragan Aruoba, Francis X. Diebold, and Chiara Scotti. Real-time measurement of business conditions. Working Paper 14349, National Bureau of Economic Research, September 2008. URL (http://www.nber.org/papers/w14349)

25 янв. 2018 г.

Почему BEER - это не про пиво, а про "справедливый" курс валюты

Курс валюты и что с ним будет - один из немногих макроэкономических вопросов, которые волнуют практического каждого. "Что будет с рублем? Брать ли доллар сейчас или подождать пару месяцев" — все, наверняка, сталкивались, с подобными вопросами и размышляли по этому поводу. Это сложные вопросы - и как с ценами на нефть, курс также довольно сложно прогнозировать. Но можно делать это лучше, чем просто рандом.
Специально для вас мы опубликовали количественную модель, которая позволит облегчить размышления по этому поводу. Модель называется BEER - от Behavioral Equilibrium Exchange Rate. По сути это модель оценки равновесного курса рубля. О чем вообще идет речь?
Как вы знаете, на изменение курса валюты одновременно оказывает множества факторов. Некоторые из них имеют фундаментальный макроэкономический характер - к примеру, изменение спроса на на товары экспорта/импорта, изменение экспортных/импортных цен, разница в инфляции и процентных ставках. Другие факторы - разовые или не-экономические - приводят к временным отклонениям курса от "справедливого" уровня. Современные методы количественного анализа позволяют оценивать обменный курс, не подверженный этим временным факторам.

Равновесный курс - это такое значение курса, при котором счета текущих операций и операций с капиталом и финансовыми инструментами платежного баланса находятся на долгосрочных/среднесрочных устойчивых уровнях. Таким образом, мы оцениваем валютный курс, к которому должен стремиться наблюдаемый рыночный курс в отсутствии краткосрочных шоков спроса/предложения валюты. Модель основана на работе Clark, MacDonald (2000, IMF); Filtering the BEER: A Permanent and Transitory Decomposition, адаптированной для работы с месячными данными. Таким образом, в каждом месяце мы можем оценить, на сколько недооценен/переоценен по отношению к равновесному курсу (BEER). Соответственно, если рубль переоценен (то есть текущее значение выше, чем равновесный уровень), то можно ожидать, что на горизонте 6-9 месяцев рубль будет ослабляться (при аналогичных внешних условиях). И наоборот, если рубль недооценен - то можно ожидать укрепления рубля. Мы провели бектест за последние несколько лет и убедились, что модель имеет неплохую прогностическую силу.
Сейчас расчеты обновлены по декабрь 2017 года, когда среднемесячный курс доллара был около 59 рублей, а оценка равновесного курса - 58 рублей. Какого либо существенного отклонения рыночного курса от равновесного не было. В начале 2016 года совсем другая ситуация.
Сама модель доступна по адресу: http://models.fief.ru/shiny/beer/
Напишите, если возникнут вопросы или комментарии. Как обычно, все данные оценок можно экспортировать в форматах xls/csv для собственного потребления. Все интерактивные графики можно сохранять в виде картинок png/jpeg/pdf.

3 мар. 2017 г.

Почему нам кажется, что цены растут быстрее инфляции?

Росстат утверждает: за последний год цены в России в среднем выросли на 5% - на столько они оказались выше в январе 2017 года по сравнению с январем 2016-м. Похоже ли это на правду? Большинство россиян уверены, что нет. Данные ежемесячных опросов населения, проводимых по заказу Банка России, показывают, что «средний» россиянин систематически оценивает инфляцию в несколько раз выше. В том же январе 2017 года медианное значение инфляции по данным опроса - 14%. То есть половина опрошенных считают, что за последний год потребительские цены выросли больше, чем на 14%. В отдельные периоды этот разрыв становится еще заметнее. К примеру, в середине 2015 года почти 18% опрошенных предполагали, что цен за год выросли более чем на 50%, хотя официальная инфляция в этот периода составляла 15-16%.
Означает ли это, что Росстат измеряет совсем не ту инфляцию, которая актуальна для населения - что его методики неадекватны, а результаты бессмысленны? А ведь именно на этот показатель инфляции ориентируется вся политика Центробанка, ставя в прямую зависимость от него важнейший для экономики параметр ключевой ставки.

Показатели инфляции по Росстату (ИПЦ) и по опросам населения (медианное значение) 

Источник: Банк России, Росстат

Откуда нестыковки?

Причины такого расхождения росстатовского ИПЦ с впечатлениями людей об инфляции в магазинах условно можно разделить на три. Первая версия: Росстат лжет, «рисует» нужные цифры или намеренно использует неверные модели расчета в угоду финансовым властям. Это популярная точка зрения среди непрофессионалов. Но эту версию можно сразу отбросить: росстатовские методики расчета инфляции соответствуют очень подробным инструкциям Международного валютного фонда (руководству из 700 с лишним страниц). Попытки обнаружить в росстатовской модели серьезные искажения, как правило, сами грешат непониманием ее принципов. А первичная база данных, на основе которых Росстат определяет составляющие потребительской корзины, в анонимизированном виде выложена в общий доступ - так что каждый желающий может проверить точность расчетов.
Вторая причина - несовершенство самой идеи вместить в одну цифру информацию об изменении цен на все категории товаров и услуг, потребляемых всеми социальными слоями. По этой причине профессиональное сообщество нередко критикует власти, когда они трактуют низкую  инфляцию как рост всеобщего благосостояния населения. Итоговые 5% не означают, что все цены в магазинах изменились на 5% плюс-минус какую-то небольшую погрешность. Напротив - это средняя температура между подорожавшими и подешевевшими товарами, часть из которых для каждой конкретной семьи совершенно не актуальны.
Росстат, согласно международным рекомендациям, старается постоянно актуализировать набор товаров и услуг, попадающих в расчет. Это делается на основе данных о реальном потреблении 50 с лишним тысяч домохозяйств. В 2017 году в корзину ИПЦ входит 510 наименований, где самый дорогой товар - «Легковой автомобиль импортный новый» (1,13 млн рублей за штуку в январе 2017 года), а самый дешевый  – «Предоставление местного телефонного соединения при повременной системе оплаты услуг связи» (0,53 рубля за минуту). В этом году из списка убрали такие категории как «Отправка телеграммы обыкновенной внутренней, 15 слов», «Пошив женского платья», «Молоко сухое цельное», «Платок носовой», «Проигрыватель DVD» И добавили, среди прочего, «Поездку в Таиланд» и «Дополнительные занятия для детей дошкольного возраста».
В соответствии с этим списком сотрудники ведомства с 20 по 25 числа каждого месяца фиксируют цены на товары и услуги в примерно 50 тысячах «точек сбора первичный ценовой информации» и собирают свыше полумиллиона ценовых котировок. Вклад каждого товара и услуги в общий показатель при сведении всех цен воедино определяется тоже по данным о реальных расходах панели российских домохозяйств.
На этом возможности Росстата по актуализации корзины заканчиваются - общая цифра все равно будет отражать лишь среднюю температуру по больнице. Чтобы пятипроцентная инфляция в январе 2017-го была релевантна для вас, вы должны иметь доход в 24 тысяч рублей в месяц, тратить 38,1% денег на продовольственные товары, 35,7% – на непродовольственные, 26,3% – на услуги. Скорее всего, это не так. Если вы подписаны на Republic, вы уже выпадаете из «средней» модели, потому что средняя величина расходов «среднего домохозяйства» на СМИ в 2016 году - это 0,3% корзины ИПЦ или около тысячи рублей за весь год.

Искажения восприятия

Третья группа причин несовпадения официальной инфляции с нашими представлениями о ней - это наша склонность придавать большее значение отдельным деталям картины, не видя ее в целостности.
Во-первых, здесь работает эффект замещения. Если за год цены на говядину выросли на 25%, а на курицу – лишь на 10%, часть потребителей начинают чаще покупать курицу и реже говядину. Вместе с этим корректируется и корзина Росстата, ведь он даже не пытается оценивать наши упущенные возможности, он берет в расчет только то, что мы действительно покупаем. В итоге потребитель будет считать инфляцией в первую очередь сильный скачок цен на говядину, а Росстат его практически не учтет[СМ1] .
Во-вторых, для людей не так принципиальна разница между уровнем цен и изменением цен. Мы склонны оценивать инфляцию не саму по себе, а в соотношении с изменением наших доходов, Росстат же этот фактор не учитывает. Даже при небольшой инфляции, но при не-растущих доходах потребители чувствуют себя угнетенно и винят во всем высокую инфляцию.  В 2015-2016 годах эффект инфляционного скачка в России воспринимался более болезненно в том числе и из-за стагнации номинальных доходов.   
В-третьих, мы не способны на повседневном уровне отдавать себе отчет, сколько и на что мы тратим. Исследования психологов и экономистов, занимающихся потребительским поведением, показывают, что в оценке инфляции мы ориентируемся на простые индикаторы, не отражающие весь наш потребительский набор. Если мы каждую неделю покупаем хлеб или молоко и заправляемся на АЗС, то именно эти товары и формируют наше индивидуальное восприятие инфляции, даже если они составляют небольшую часть нашей потребительской корзины. А бытовая техника или мебель, которые покупаются редко и вносят большой вклад в траты, имеют гораздо меньше шансов повлиять на наше восприятие. В 2015 году продовольственные товары в России дорожали сильно быстрее, чем непродовольственные товары и услуги, и в итоге рост цен психологически казался больше, чем он был на самом деле.

Индекс потребительских цен (ИПЦ) – основные составляющие


Источник:  Росстат

В-четвертых, доказано, что мы обращаем больше внимания на рост цен, чем на их снижение. Это связано с присущим большинству людей «неприятием убытков» (loss aversion). Многочисленные исследования показывают, что люди воспринимают потерю 1 рубля острее, чем радуются выигрышу того же рубля. По тому же принципу мы ужасаемся ценам на гречку, выросшим в 2,5 раза за последние три года, но не обращаем внимания на цены на лук и свеклу, которые почти не изменились за это время, на то, что аренда квартир подешевела, а наш домашний интернет за это время стал быстрее в три раза  и на 20% дешевле.
Сторонникам теории «они нас обманывают» стоит знать, что феномен широкого недоверия к публикуемым официальным оценкам инфляции совсем не специфичен для России. В США вопрос корректного расчета инфляции в свое время был предметом специального расследования Сената и до сих пор остается мишенью ожесточенных политических дебатов. Причем одни аргументированно настаивают на том, что методика ИПЦ Bureau of Labor Statistics США занижает уровень «истинной» инфляции, а другие - что занижает. А согласно недавнему исследованию Европейской Комиссии, в Европе потребители считают, что инфляция в 2004-2015 годах была в 4 раза выше, чем официальный ИПЦ, рассчитываемый Евростатом.
Поэтому вопрос, как правильно рассчитывать инфляцию, будет вечным. Но главное при этом, чтобы обе стороны - и потребители, и экономически власти - сознавали ограниченность любых таких расчетов и не пытались выдать частное за всеобщее, а желаемое за действительное.





1 дек. 2016 г.

Восемь лет без ОПЕК. Почему картель решил вернуться?

статья для Republic


Заседание ОПЕК 30 ноября 2016 года называли одним из важнейших для организации событий за десятилетия. Картель должен был подтвердить необходимость своего существования или сдаться, расписавшись в собственной недееспособности.

Ровно два года назад, в ноябре 2014 года, ОПЕК не стала сокращать квоты и фактически отказалась от попыток влиять на цену нефти. Это решение начало новый этап для мирового рынка – период самоустранения нефтяного картеля от своей основной функции. Тогда рынок потерял привычные ориентиры – в результате цены снизились c $75–80 за баррель в конце ноября 2014 года до $45–50 в январе 2015-го. Спустя год страны ОПЕК вновь подтвердили приверженность новой стратегии и отказались в принципе от формального механизма квотирования. Теперь каждая страна могла решать сама, сколько нефти добывать и почем ее продавать. Рынок, решивший, что ОПЕК теперь уже можно списывать со счетов, сделал свои выводы. Неверие в способность картеля стабилизировать мировой рынок стало одной из причин, почему цены на нефть в начале 2016 года опустились ниже $30 за баррель.
Если подвести итоги этих двух лет, то несложно сделать вывод: новая политика ОПЕК приводила к последовательному снижению цен даже не потому, что страны-участники не могли сократить добычу, а потому, что они ее бурно наращивали. 

С конца 2014 года суммарная добыча стран ОПЕК выросла примерно на 2,5–3,0 млн баррелей в сутки – с 31 млн до 33,6–34,0 млн баррелей в октябре 2016 года. За то же время мировые цены на нефть упали почти в два раза. Парадокс заключается в том, что текущий дисбаланс на рынке, понимаемый как превышение текущего предложения над текущим спросом, оценивается американским Управлением энергетической информации (EIA) в 0,5–1,0 млн баррелей в сутки. Получается, что если бы ОПЕК сохранила добычу на уровне конца 2014 года, то мировой рынок нефти уже давно находился бы в дефиците и мы сейчас наблюдали бы другой уровень цен.
Основная предполагаемая мишень новой политики ОПЕК – американская нефтедобыча – при этом пострадала не так уж сильно и сократилась примерно на 1 млн баррелей в сутки. В остатке получается, что прирост добычи ОПЕК за последние два года (2,5–3,0 млн баррелей в день) более чем в два раза превысил сокращение добычи в США (1 млн баррелей в день). В результате новой политики предложение на мировом рынке выросло, а цены снизились.
В полном соответствии с «дилеммой заключенного» из теории игр каждый производитель нефти, действуя из своих собственных интересов, всеми силами наращивал добычу, чтобы максимизировать свою выручку, и тем самым обрушивал цены, ухудшая свое положение.
Однако в конце сентября 2016 года на неофициальной встрече ОПЕК в Алжире неожиданно для многих страны-участницы договорились о потенциальном сокращении добычи на 0,6–1,2 млн баррелей в сутки – впервые за восемь лет. Однако распределение квот по странам не было установлено – достичь договоренностей планировали как раз к заседанию 30 ноября.
Важнейшей причиной, почему встреча в Алжире принесла хоть какие-то результаты, стало изменение позиций Саудовской Аравии. Если раньше Саудовская Аравия как крупнейший производитель и неофициальный лидер картеля придерживалась мнения «давайте дадим рынку самому устанавливать справедливый уровень цен, а неэффективные производители пусть уходят с рынка», то теперь эта позиция изменилась. Саудовская Аравия в лице нового министра энергетики Халида аль-Фалиха дала понять, что в принципе договоренность о сокращении добычи возможна. Королевство не будет выступать против при одном условии – все участники должны внести свой посильный вклад в общее дело.

На мой взгляд, смена позиции Саудовской Аравии была связана в первую очередь с нарастающими проблемами в экономике страны на фоне низких цен на нефть. К примеру, в 2015 году дефицит государственного бюджета Саудовской Аравии достиг 15% ВВП. Несмотря на бюджетную консолидацию, в 2016 году дефицит составит 10–12% ВВП. Такой уровень дефицита не является устойчивым даже на горизонте пяти лет. Королевству требовалось либо резко сократить уровень госрасходов, в первую очередь за счет сокращения занятости (60–80% занятости в стране приходится на бюджетный сектор), либо девальвировать фиксированный к доллару США реал. Оба варианты чреваты непредсказуемыми социально-политическими последствиями. Поэтому оставался другой путь – повысить нефтяные доходы.

Свою роль в изменении позиции Саудовской Аравии сыграло и то, что сейчас в принципе благоприятное время для подобной договоренности – мировой рынок нефти постепенно балансируется, рост запасов замедлился, опасения по поводу замедления мировой экономики уменьшились.
Однако формализация алжирского соглашения давалась с большим трудом. В последние два месяца даже привычно волатильный нефтяной рынок лихорадило больше обычного. Настроения еженедельно менялись из крайности в крайность – от «растущего оптимизма» по поводу будущей договоренности до полного неверия рынка в способность ОПЕК договориться о чем-либо вообще, и обратно. Как обычно, страсти подогревали противоречащие друг другу заявления министров, утечки информации из анонимных источников и какофония всевозможных аналитических мнений. Стабильности не добавило то, что отдельные страны перед встречей решили по максимуму нарастить собственную добычу, с тем чтобы усилить переговорную позицию и договариваться о сокращении с более высокой базы.
Еще 29 ноября, накануне заседания, консенсус рынка заключался в том, что сделки не будет. Однако, как это ни удивительно, ОПЕК все же смогла извлечь уроки из опыта предыдущих двух лет и договорилась о сокращении добычи на 1,2 млн баррелей в сутки. Обязательства вступают в силу с января 2017 года. Утвержденные сейчас 1,2 млн баррелей в день – это верхняя граница сентябрьских договоренностей, то есть максимум, на что можно было рассчитывать. Еще до итоговой пресс-конференции заседания цены на нефть выросли примерно на 8% – на $4 за баррель. Таковой оказалась цена способности участников договориться.

ОПЕК выучила еще один важный урок – для воздействия на рынок надо уметь превышать его ожидания. Таким «превышением» стали новости о координации ОПЕК с другими крупными производителями. Как было заявлено на итоговой пресс-конференции, страны, не входящие в ОПЕК, взяли обязательство дополнительно сократить добычу на 600 тысяч баррелей в сутки. Россия обещала сократить добычу на 300 тысяч баррелей в сутки (в октябре добыча нефти в стране обновила постсоветский рекорд и составила 11,2 млн баррелей в сутки). Эта информация не учитывалась в ценах и стала неожиданной для рынка. Члены ОПЕК также попытались развеять опасения по поводу собственной низкой дисциплинированности и договорились о создании специального комитета, который будет мониторить соблюдение обязательств. Разумеется, долгосрочность текущего скачка нефтяных цен будет зависеть от того, насколько достигнутые договоренности будут фактически соблюдаться. Однако это первый шаг к восстановлению контроля над рынком.

30 ноября ОПЕК смогла доказать, что слухи о смерти картеля все же преувеличены. С другой стороны, это решение указывает на то, что политика последних двух лет была ошибочной. И ОПЕК наконец признала это.

25 апр. 2016 г.

Нефть после Дохи: восхождение или откат?

Провал переговоров в Дохе неделю назад сулил нерадостные перспективы для нефтяных цен. На протяжении последних месяцев именно переговорный процесс крупнейших производителей нефти создавал информационный фон, который способствовал повышению цен. Хотя само соглашение о «заморозке» добычи на уровнях января 2016 года не могло повлиять непосредственно на текущий баланс на мировом рынке нефти, оно могло стать свидетельством возможности сотрудничества стран-производителей, чтобы воздействовать на мировой рынок.
Однако Доха завершилась провалом. Стороны не только не смогли договориться об анонсированной ранее  «заморозке», но даже согласовать общее заявление.  В этом смысле провал был похож на декабрьскую встречу ОПЕК – тогда финальные переговоры также сильно затянулись, ни о чем договориться не удалось, а итоговая пресс-конференция произвела удручающее впечатление. После декабрьской встречи ОПЕК начался новый раунд снижения цен на нефть, в ходе которого цены упали более чем на 50%. Итоги Дохи вновь показали, что не-нефтяные интересы участников чересчур противоречат друг другу. Саудовская Аравия, поддержавшая ранее «заморозку» добычи, оказалась не готова присоединяться к соглашениям, которые создают какие-либо выгоды для Ирана. Политика оказалась важнее экономики.
Абсолютное большинство аналитиков и экспертов предполагало, что провал в Дохе является сильным «медвежьим» сигналом для рынка, так как увеличивает вероятность сохранения ценовой войны между производителями и роста дисбаланса на рынке. Действительно при открытии торгов в понедельник, 18 апреля, нефтяные котировки снизились на 6-8% «на Дохе». Однако за последующие дни нефтяные цены более чем компенсировали провал этот  – за прошлую неделю котировки Brent выросли на 5%, WTI – почти на 9%. Новости о завершении забастовки работников нефтяной промышленности в Кувейте никак не повлияли на царящий, на рынке оптимизм.
Важным вопросом с точки зрения понимания происходящего на рынке нефти представление о том, почему провал в Дохе привел к противоположному результату с точки зрения реакции нефтяных цен.  Здесь возможны два варианта.
Первый вариант. Повышение цен на нефть в последние два месяца не было связано с Дохой, а просто совпало с ней во времени. Есть несколько факторов, которые также способствовали росту цен. Панический настрой финансовых рынков, который царил в январе-феврале, изменился на противоположный – сверхоптимистичный. Этому способствовало меры по дальнейшему ослаблению денежно-кредитной политики в развитых странах (отрицательные ставки в еврозоне и Японии), а также начало очередного раунда стимулирующей политики в Китае.  Скоординированные действия денежных властей смогли остановить панику. Поток экономической статистики последнего времени хотя и не дает оснований для большого оптимизма, указывает на что, что пугавшая всех рецессия в американской экономике в начале 2016 года не началась. В США сохраняется сильная динамика спроса на бензин при устойчивом снижении количества задействованных буровых установок (опережающий показатель будущей добычи). Это дает основания предполагать, что потребность американской экономики в импортной нефти будет увеличиваться и это позволит сократить профицит на мировом рынке. 
Второй вариант. Фактор Дохи отразится на нефтяных ценах после того, как будут понятны стратегии Саудовской Аравии и Ирана на рынке физической нефти.  Основной риск провала переговоров заключается в том, что на рынке начнется очередной раунд ценовой войны между основными производителями. Саудовская Аравия имеет возможности нарастить добычу с текущих уровней еще на 0,5-1,0 млн баррелей в сутки. Королевство к июню планирует завершить к июню расширение мощностей на месторождении и начало осуществлять поставки на спотовом рынке.  Освободившийся от большей части наложенных на него санкций Иран продемонстрировал, что способен достаточно быстро восстанавливать «потерянную» добычу. В настоящее время также довольно большой объем незапланированного сокращения  добычи – аварии в Нигерии, Ираке, простой Кувейта. По данным Bloomberg, объем незапланированных перебоев в добыче на мировом рынке составляет около 2,5 млн баррелей в сутки. Однако, скорее всего, эти перебои носят временный характер и в ближайшие месяцы могут быть возобновлены. Если все эти производители увеличат добычу и начнут ценовую конкуренцию за спотовых покупателей на физическом рынке – это неизбежно отразится на ценах.
Ситуация весны 2016 года опасным образом напоминает прошлый год. В первом полугодии так же  произошел значительный рост нефтяных цен, которые к маю 2015 года превышали $65/баррель и казалось, что худшее – уже позади. Однако опасения по поводу устойчивости китайской экономики, триггером для которых стала девальвация юаня, привели к провалу цен в августе 2015, а потом – в январе 2016.  Добыча в США оказалась гораздо более устойчивой к низким ценам, чем это прогнозировали сами американские власти в лице Управления по энергетической информации (EIA). ОПЕК снова показал неспособность повлиять на рынок и наращивал добычу. Результатом всего этого стали цены ниже $30 баррель – минимальные за последние 15 лет значения.
Прогнозировать нефтяные цены – сложно, систематически точно – невозможно. Тем не менее, как  представляется, пресловутое «дно» на рынке уже пройдено. Потребуется новое сочетание нескольких сильных негативных шоков , чтобы «вернуть» цены ниже $30/баррель – к границе текущих операционных затрат правой части кривой себестоимости предложения на мировом рынке (добыча Северного моря, трудноизвлекаемая нефть и проч.). Причем в условиях сезонного роста во 2-3 кварталах это становится более сложным.
Однако фундаментальных факторов, которые обосновывали возможность дальнейшего существенного роста котировок тоже не просматривается. Риски ценовой войны между основными производителями остаются высокими. Запасы нефти в хранилищах все еще увеличиваются, хотя и более медленными темпами.  Способность центральных банков  неопределенно долго противостоять структурным экономическим изменениям, таким как замедление экономики Китая, также вызывает вопросы. 

Наиболее вероятным сценарием видится «плоский» рынок в ближайшие несколько месяцев. За это время прояснится, каковы стратегии Саудовской Аравии и Ирана на рынке физической нефти. Станет понятно ли обоснованы ли ожидания сильного сокращения добычи в США. После того, как рынок найдет ответы на эти вопросы, последует очередное сильное движение –  в одну из сторон. 

26 июн. 2014 г.

Обзор книг по R


Давно уже хотел свести и систематизировать книги по R (языку программирования для статистических вычислений), которые прочел/просмотрел за последние 2 года. Возможно, это кому-то покажется полезным. По R выходит действительно огромное количество книг, наверно, больше чему по любым другим подобным продуктам (STATA, eViews, SPSS и другие) вместе взятым. Многие специальные книги по отдельным вопросам статистики приводят примеры, написанные именно на R. Единственная проблема заключается в том, что все книги - на английском языке. Российскими авторами написана пока только одна, насколько я знаю, оригинальная книга по R - я ее не читал и ничего не могу сказать. Но в целом, учите английский язык - это крайне полезно.  

Общие книги по R


1. R Cookbook. Paul Teeetor (2011).  Хорошая и удобная в использовании книга в стиле cookbook - сборника рецептов на разные случаи жизни. Особенно будет полезна первых порах, когда возникает множество вопросов в стиле "Как же сделать ХXX?". Одновременно дает представление о многих базовых вещах - основных командах, структурах данных и проч. Каждый рецепт дается в форме "Problem" - "Solution" - "Discussion". Часть Solution содержит непосредственно код, который решает данную проблему. Часть Disccussion, как следует из названия, содержит дополнительную информацию и обсуждение используемого подхода. Книга написана очень простым и понятным языком. Рекомендуется всем начинающим знакомиться с R, а также как дополнительное подспорье для опытных пользователей, чтобы быстро вспомнить подзабытые или редко используемые вещи. R Cookbook ориентирована на практические аспекты работы в R и не претендует на глубокое осмысление статистических вопросов, хотя в книге есть главы по расчеты основных статистик и линейной регрессии. Наверно, единственный существенный недостаток это то, что издатель/автор не выложили напрямую, используемый в книге код - это является уже общепринятым делом.

2. R Book Michael J Crawley (2012, 2 ed).
Огромное фундаментальное руководство по R объемом свыше 1000 страниц (если точное 1076 страниц в печатной версии!), написанное биологом - профессором экологии и теории эволюции в Imperial College London -  Майклом Кроули. Это уже второе издание монументального труда, первое издание вышло еще в 2007 году.  Сложно описать "вкратце" такую книгу, поэтому отмечу только некоторые моменты.
Первые главы посвящены "азам" работы в R - установка, типы данных, создание собственных функций и так далее.
Однако в отличие от первой книги, R Book рассматривает и практические аспекты использования R и статистические вопросы использования различных подходов, методов и так далее. Охват по статистическим вопросам очень широкий, начиная от простых тестов и линейной регрессии, до байесовких методов и нейронных сетей. Есть отдельные главы по анализу временных рядов (на уровне введения в тему) и анализу гео-данных. В целом, книга хороша, чтобы понимать, как можно использовать те или иные статистические методы в R. Так как автор - эколог, то практически все используемые в книги примеры имеют отношение к биологии/экологии. Не ждите примеров из экономики, к примеру :) С другой стороны, хорошо видно, что автор - практик, поэтому он довольно много времени уделяет обсуждений допущений различных методов, ограничений полученных результатов, альтернативным интрепретациям полученных результатов - это очень интересно.
Книгу удобно использовать как руководство, так как в ней содержится хороший индекс.
Автор предоставляет доступ к исходному коду и примерами с данными, которые используется в книге. Правда код не слишком удобно организован. В архиве выложено почти 300 текстовых файлов, не сгруппированных по главам книги (!). Для книги, которая стоит более $60, наверно, можно было бы сделать лучшую организацию, используемого в примерах кода.



3. R in a Nutshell. Joseph Adler (2012, 2 ed). Еще один фундаментальный труд (объемом в 700 страниц), претендующий на звание "руководства по R". Написан специалистом-практиком по data mining, сейчас работающем в LinkedIn. Мне R in a Nutshell понравилась очень подробным и емким обсуждением различных "технических" аспектов работы в R - к примеру, подключение в качестве источников входных данных баз данных с помощью пакетов RODBC или DBI. Вторая часть книг посвящена использованию различных методов в R, в основном с ориентацией на data mining и machine learning. В принципе, все основные методы из этого арсенала вкратце описаны. Удобно то, что для сложных функций, реализующих методы (типа lm или lda) приводится базовая табличка, описывающая все аргументы и их значения "по умолчанию". Очень подробно описаны различные аспекты трансформирования данных и приведения их в нужный вид.
Я правда не очень разобрался, где можно взять исходный код. На CRAN есть отдельный пакет для книги, содержащий наборы данных, есть также исходные коды для первого издания книги, а для второго - я не нашел.


4. R in Action. Robert Kabacoff (2011).
Еще одна из книг-учебников, которые начинаются со знакомства с R и постепенно двигают вас дальше. R in Action несколько проще R Book или R in Nutshell, поэтому возможно больше подойдет именно для первого знакомства. Когда хочется познакомиться, но пока не слишком понятно, зачем это необходимо. Книга хорошо очень продуманной структурой. Все главы делятся на 4 группы:

  1. Getting Started
  2. Basic Methods 
  3. Intermediate Methods 
  4. Advanced Methods. 
В каждой главе, особенно в третьем-четвертом разделах, приводится один достаточно большой пример, который подробно разбирается в течение всей главы. Автор также подробно останавливается на том, как интерпретировать таблицы с полученными результатами и что они вообще означают. Оказывается, книга R in Action вышла на русском языке, что можно только приветствовать. 

Резюме. Мне кажется, имеет смысл начинать знакомиться с R c помощью R Cookbook и R in Action. Если вам уже стала все более или менее понятным, то можно продвигаться дальше. Если вы занимаетесь статистикой/эконометрикой, то лучше подойдет R Book, если machine learning - то R in a Nuthshell. 


Книги по графическим возможностям R 

Одной из сильных сторон R является богатство возможностей по созданию сложных графиков и любых других форм визуального представления информации. Много чего можно сделать с помощью базовых возможностей, которые дополняются отдельными графическими пакетами. Так как все это богатство довольно разнообразно, но есть отдельные книги, целиком и полностью посвященные графическим возможностям R.

R Graph Cookbook. Mittal Hrishi (2011). Еще одна книга в стиле "кукбук" - на этот раз только графическим возможностям - но от издательства Packt, а не O'Rilley. В целом, неплохая книга в качестве "введения" в тему и дает общее представление о том, как устроены графические возможности R и что можно с ними делать. Мне, к примеру, больше всего были полезны примеры из 4 главы "Creating Line Graphs and Line Series Charts". Охват тем достаточно широкий - от базовых графиков до рисования карт и 3d-изображений. Примеры построены в основном на базовой графике, хотя есть немного ggplot2 и других пакетов. Есть важные вещи, связанные с подготовкой и экспортом графики. К сожалению, книга уже достаточно старая, поэтому в ней нет разделов, посвященных интерактивной графике - тем же пакетам rCharts или ультра-новому ggvis. Также книга достаточно базовая, поэтому "продвинутые" вещи или тонкости не обсуждаются - для этого все равно придется использовать StackOverflow и прочие источники "мудрости".

R Graphics Cookbook. Winston Chang (2012).   
Еще одна "книга рецептов" от издательства O'Rilley, написанная одним из разработчиков RStudio, наиболее популярной среды разработки для R. Хотя книга формально посвящена "R графике", на самом деле это только ggplot2. Поэтому никаких примеров на базовой графике или других графических пакетах нет. Эту книгу можно рассматривать как очень хорошее справочное пособие по ggplot2, написанное понятное и доступным языком. К книге прилагается специальный пакет  с используемыми датасетами. Весь приведенный в книге код выложен отдельно на сайте издательства и отсортирован по главам книги. Поэтому проблем с воспроизведением кода при изучении материала возникнуть не должно.
ggplot2. Elegant Graphics for Data Analysis. Hadley Wickam (2009). Довольная старая, по меркам "технической" литературы, книга от легендарного в мире R человека - Hadley Wickham, профессора статистики из Rice University и создателя кучи пакетов, без которых не обходится ни один пользователь R. Книга посвящена популярному графическому пакету ggplot2. Книга интересна сейчас первыми главами, в которых автор рассуждает про "грамматику графику"  ("grammar of graphics") и рассказывает про идеи, стоящие за ggplot2. Приведенный в книге код сейчас может быть неработоспособным в текущей версии ggplot2. Поэтому использовать эту книгу как учебник по ggplot2 вряд ли получится. С другой стороны, Хэдли поддерживает документацию в настолько идеальном состоянии, что все вопросы по текущим возможностям, аргументам функций и примерам использования можно решать без помощи специальной литературы. 


Резюме по "графическим" книгам. Если вас интересуют возможности базовой графики - читайте R Graph Cookbook, если интересует ggplot2 - читайте R Graphics Cookbook. Две книги покрывают достаточно широкий спектр того, чтобы доступно в R для графики, по крайней мере, на первом этапе.

Как я уже говорил, выходит достаточно большое книг, посвященное отдельным "специальным" темам в R. В следующий раз я напишу про книги, которые посвящены R в эконометрике/финансах, machine learning и GIS. 

21 июн. 2014 г.

"Потому что на десять девчонок по статистике девять ребят" - так ли это на самом деле?




Для меня ключевой фразой в популярной песне является - "по статистике". Поразбираться с этим вопросом, натолкнул вот этот  пост в популярном (хотя и уж очень претенциозном) ЖЖ bespridanitsa под названием "Ситуация с женихами в регионах". Сообразительная девушка решила посмотреть на данные Росстата по численности населения по разным возрастным группам в Ярославской области. И пришла к выводу о том, что общепринятые представления о гендерных соотношениях могут быть не такими уж и однозначными.
Я решил пойти дальше и посмотреть данные не только по соотношению численности мужчин/женщин - ожидаемо, что женщин больше. С точки зрения "mate selection" важно не просто соотношение численности мужчин и женщин в соответствующих возрастных когортах, но и их брачный статус. По сути нас интересует соотношение между мужчинами и женщинами, которые не состоят в браке, то есть условно "свободны" для отношений.
Если существует дисбаланс между такими мужчинами и женщинами , то поиск партнера, на "брачном рынке", по всей видимости, осложняется. Вероятность встретить подходящего партнера - это в том числе и функция от их общего количества, которые находятся более или менее рядом, в том числе и в географическом смысле. Поэтому интересна картина отдельным регионам, а не только по стране в целом.

Небольшое отступление. Термин "брачный рынок" может показаться несколько странным, но это общепринятый в настоящее время экономический термин, введенный работами Ричарда Познера и Гэри Беккера (лауреат Нобелевской премии по экономике 1992 года, недавно скончавшийся). "Брачным рынком" называют процесс поиска индивидами партнеров для брака для создания домохозяйства. С точки зрения экономиста экономические агенты всегда максимизируют собственную полезность (utility). В рамках этого подхода человек вступает в брак, когда ожидаемая полезность семейной жизни превосходит ожидаемую полезность холостой жизни или дополнительные издержки, возникающие при продолжении поиска более подходящей пары. На этих допущениях обычно строятся различные модели family economics. Подробнее про теорию вопроса можно посмотреть в [4]. Про российский "брачный рынок" можно посмотреть любопытную работу экономистов ВШЭ 2006 года [2]. 


Немного про данные и расчеты

Единственным источником такого рода полных данных является последняя Всероссийская перепись населения 2010 года, а именно ее второй том - "Возрастно-половой состав и состояние в браке" (таблица 2.5. "Население по возрастным группам, полу и состоянию в браке по субъектам Российской Федерации") [1]. Более актуальных цифр, к сожалению, нет.
В лучших традициях предоставления полезной информации от государственных органов искомая таблица организована крайне неудобно для какого, сколь бы то ни было серьезного анализа (как и вообще все результаты переписи, содержащей множество уникальной информации). Поэтому ее пришлось приводить в "нормальный вид" средствами Excel + R.

Перепись дает следующую разбивку состояния в браке:
  • Состоящие в зарегестрированном браке 
  • Состоящие в незарегестрированном браке 
  • Никогда не состоявшие в браке 
  • Разведенные официально 
  • Разошедшиеся 
  • Вдовые 
  • Не указавшие состояние в брак
В принципе, все понятно. Единственный неясный аспект - разница между "разведенные официально" и "разошедшимися". Так вот, разошедшиеся - это те, кто состоял в незарегестрированном браке, но на дату переписи разошелся, а также те, кто разошелся с официальным мужем/женой, но еще не оформил развод в ЗАГСе.

Нас интересуют все категории, которые указывают на не-состояние в браке. Я использовал такое агрегирование:
"Свободные" = "Никогда не состоявшие в браке" + "Разведенные официально" + "Разошедшиеся" + "Вдовые".
Разумеется, отдельно для мужчин и отдельно для женщин.
Посмотрим сначала на общероссийский результат. Получается, что в стране 30,2 млн "свободных" женщин и всего лишь 19,2 млн "свободных" мужчин. Разница - в 11 млн человек. Соотношение - 3 к 2. Это ли не повод для уныния незамужним девушкам?
Однако посмотрим на эти же результаты  по возрастным группам.



Легко видеть, что превышение количества женщин над количеством мужчин идет после 35 лет и нарастает с возрастом. В группе 70+ женщин почти 8 раз больше чем мужчин той же возрастной категории! Очевидная причина - разные показатели смертности. Так как женщины в среднем живут дольше чем мужчины, то в старших возрастных категориях становится совсем мало мужчин и много, как правило, одиноких женщин.
В то же время в возрастных категориях от 20 до 30 лет есть довольно устойчивое превышение "свободных" мужчин над количеством "свободных" женщин той же возрастной категории.
К примеру, в возрасте от 18 до 39 лет в 2010 году было 12,0 млн "свободных" мужчин и 10,3 млн "свободных" женщин. Получается, что как раз по статистике на на десять девчонок 11,6 ребят!

Разумеется, речь идет именно о статистике и формальном соотношении мужчин и женщин по брачному статусу, а не об сравнительной легкости найти подходящего партнера на "брачном рынке". Можно подумать по каким причинам, могут выходить подобные расхождения между статистикой и общепринятыми представлениями. Мне на ум приходят следующие вещи.

Различия в среднем возрасте заключения брака. Социальные и культурные обычаи таковы, что "нормальным" считается, что в паре мужчина должен быть несколько старше, чем женщина. Поэтому значительное превышение "свободных" мужчин над количеством "свободных" женщин в возрастной категории от 20 до 24 лет может быть связано с тем, что достаточно большое количество девушек к этому возрасту уже выходят замуж, в то время как парни из той же возрастной категории будут жениться несколько позже, через несколько лет, попадая в следующую возрастную когорту.
К сожалению, хороших данных по возрасту заключения брака не собирается. Данные Росстата публикуются лишь по крупным возрастным когортам и не разделяют между первым и повторными браками.
Вот процентное распределение заключенных браков по возрасту жениха:

Вот аналогичное распределение по возрасту невесты:


Я специально выделил возрастную когорту 18-24 года: в 2013 году из общего количества заключенных браков (1,2 млн) 24,5% были заключены женихами в этом возрасте, но для невест - это уже 38%. Видно также, что за последние 40 лет возрасты заключения брака сильно увеличились. И еще одно интересное наблюдение - всплеск ранних браков (невеста - до 18 лет) в начале 90-х годов - в 1992 году на подобные браки приходилось почти 7% от общего количества!
Согласно более аккуратным расчетам демографов [5], средний возраст первого брака составлял в 2011 году 27,38 лет для мужчин и 24,97 лет для женщин. Разница - в 2,41 год. В целом, она не очень большая и, по всей видимости, эффект от различий в возрасте заключения брака между мужчинами и женщинами не слишком влияет на наши результаты.

"Свободных" мужчин на "брачном рынке" может быть в действительности меньше. К примеру, в 2010 году (год проведения переписи), почти 700 тыс. человек находились в местах лишения свободы, из них 93-94% - это мужчины.

Разумеется, среди них есть и женатые (данных по брачному статусу заключенных я не знаю), но к примеру, около 23-24% заключенных (почти 161 тыс. человек в 2010 году) находились в возрасте от 18 до 25 лет и в большинстве своем, видимо, не состоят в браке. Подобные соображения можно привести и в части количества наркоманов или ВИЧ-инфицированных - хотя я не знаю доступные данные о гендерных соотношениях в этой части.

Различия в "качестве" между мужчинами и женщинами.
Одним из результатов исследований экономистами брачных отношений, подтвержденных эмпирически, заключаются в том, что мужчины и женщины более "высокого качества" вступают в отношения с себе подобными, когда эти качества являются взаимодополняющими (образование, раса, культурный уровень). Женщина "высокого качества" повышает производительность мужчины "высокого качества" и - наоборот. "Качество" - это некий условный термин, отражающий общую характеристику индивидов.
Однако такая склонность может ограничить количество "эффективных" потенциальных партнеров, если есть существенные различия в "качестве" и "качество" выступают ограничивающим критерием. Так как "качество" само по себе субъективно, его сложно оценивать. Некоторым аппроксимирующим показателям "качества" может быть уровень образования. По данным той же переписи в возрастной категории от 20 до  39 лет на 5,2 млн мужчин с высшим образованием приходится 7,5 млн женщин с высшим. Соотношение 3 к 2. Причем именно в возрастных категориях от 25 до 35 лет различия в уровнях образования между мужчинами и женщинами максимальны.


Региональная картина

При всей условности этих оценок и ограничений на данные, которые мы используем, все же интересно посмотреть на региональное распределение и соотношения количества "свободных" мужчин и женщин. Речь идет о том же самом соотношение "свободных" мужчин и женщин в возрасте от 18 до 39 лет по субъектам РФ. Если посмотреть абсолютные количества, то данные выглядят вот так вот. Имейте в виду, что отрицательные значения указывают на то, что в регионе больше "свободных" мужчин, чем женщин. Почти по всех регионах "свободных" мужчин оказывается больше (в Москве -45 тыс. человек, в Московской области - на 125 тыс. человек). Исключением (то есть там, где "свободных" женщин больше) являются "окраинные" регионы - Тыва, Алтай, Хакассия, Оренбургская область и некоторые другие (закрашены синим на карте, карта интерактивная - если навести мышкой на регион, будут появляться подсказка с данными и названием региона).


Однако абсолютные значения сильно зависят от "размера" региона в смысле численности населения. Поэтому если взять процентное соотношение (разница между количеством женщин и мужчин, поделенная на количество женщин), то картина получается немного другая.



Наиболее "привлекательными" для женщин (в том смысле, что там сильное превышение "свободных" мужчин) являются Мурманская область и Камчатский край, а также почти все регионы Дальнего Востока - делайте выводы :). Для мужчин наиболее "привлекательны" в аналогичным смысле некоторые регионы Северного Кавказа (Ингушетия, Кабардино-Балкария), Алтай, Омская область, Тыва и Мордовия!. В Москве картина в целом достаточно сбалансированная - мужчин больше на 4,5%.


Список использованных источников

  1. "Итоги всероссийской переписи населения. Том 2. Возрастно-половой состав и состояние в браке". Ссылка.
  2. Рощина Я.М., Рощин С.Ю. Брачный рынок в России: выбор партнера и факторы ус­пеха. Препринт WP4/2006/04. — М.: ГУ ВШЭ, 2006. Ссылка.
  3. Р. Познер. Экономический анализ права. СПб.Экономическая школа. / Пер. с англ. под ред. В.Л. Тамбовцева, 2004, в 2-х т. Глава 5 "Семейное право и регулирование сексуальных отношений". Ссылка
  4. Becker, Gary S. 1993. A treatise on the family. Cambridge, Mass: Harvard University Press. Ссылка.
  5. С. Захаров "Куда движется супружество в России?". ДЕМОСКОП Weekly №545-546. 4-17 марта 2013. Ссылка

18 июн. 2014 г.

Как закрасить площадь между двумя линиями на графике в Excel?

Я уже рассматривал некоторые хитрости построения графиков в Excel - график с двумя осями Y и прочие довольно простые вещи. Можно поговорить о чуть более сложных вещах.
Возьмем стандартный график с линиями (line chart). Зачем нужно закрашивать площадь между этими линиями? Часто площадь закрашивают для того, чтобы акцентировать внимание читателя на различии/расстоянии между двумя линиями. Другой вариант, который встречается в моей деятельности - построение совмещенных графиков показателей, имеющих сильные сезонные колебания.
К примеру, вот такой вот график. На нем изображены недельные данные по объемам хранимого в подземных хранилищах  природного газа (ПХГ) в США. Показатель имеет сильную сезонность, поэтому в таком представлении сложно понять, что происходит на "конце" графика и соотнести последние точки с предыдущими периодами.

В совмещенном же виде график будет выглядеть вот таким вот образом. По оси Х отображен только один год - 52 недели для недельных данных. Данные по разным годам совмещены в линиях - в данном представлении показывается только текущий (2014), серой линией обозначен среднее значение за пятилетний период, светло-серым закрашенным участком выделен диапазон между минимальным и максимальным значением за соответствующий период.

Рассмотрим только построение закрашенной светло-серой площади, которая показывает диапазон. Сначала строим обычный линейный график для максимума и минимума - предполагается, что исходные данные (обычный временной ряд) уже преобразованы для такого представления и у нас есть ряд Max и Min.

Сначала нужно закрасить площадь между двумя линиями. "Трюк" состоит в том, чтобы добавить на графику гистограмму с накоплением, которая будет состоять из двух частей. Верхняя часть гистограммы будет соответствовать расстоянию между графиками и будет видимой. Нижняя часть будет занимать площадь от линии Min до 0 и будет невидимой на графике.
Для этого нужно в расчетной таблице добавить два дополнительных расчетных столбца к двум имеющимся (Max и Min).
Нижняя часть = Min
Разница = Max - Min.



Теперь нужно выделить полностью два дополнительных столбца -> Копировать. Перейти на уже имеющийся график с линиями и нажать Ctrl-V. Две дополнительных линии появятся на графике.

Выглядит правда все еще не очень похоже. Теперь нужно изменить вид диаграммы на гистограмму с накоплением. Соответственно выбираем сначала ряд "Разница" -> "Изменить тип диаграммы для ряда" -> "С областями и накоплением" (если выбрать просто гистограмму с накоплением, то будут "зубцы"). Тоже самое делается для для ряда "Нижняя часть".
Обратите внимание, что два ряда "Min" и "Нижняя часть" имеют одинаковые значения и наложены друг на друга. Удостоверьтесь, что вы выбираете нужный ряд. После этих манипуляций должно стать понятнее, что происходит. Фактически на графике совмещены две диаграммы.


В дальнейшем остается только доработать все "напильником", чтобы получить желаемый результат.
- Установить "Нет заливки" для нижней части гистограммы с накоплением. Это приведет к тому, что нижняя часть гистограммы станет невидимой.
- Поменять цвет для верхней части области на нужный.
Можно убрать сами линии Max и Min, чтобы они не отвлекали внимание, добавить дополнительные ряды ("2014" и "Среднее за 2009-2013"), чтобы получился итоговый результат (второй график) - но это уже дело вкуса и итоговый целей представления данных.
Единственное, что плохо с моей точки зрения - площадь получается с "зубцами", я пока не нашел способа, как можно обеспечивать"сглаживание" для такого графика. Если знаете - расскажите!

Дополнительная тонкость - чтобы убрать из легенды ненужные элементы (Нижняя часть, Разница), можно просто выделять их и нажимать Del - только нужно убедиться, чтобы вы выделили не всю легенду, а отдельный ее элемент (тогда отдельный элементы будет в выделенном треугольнике.
Вот ссылка на файл с данными и итоговым графиком.