29 июн. 2012 г.

Национальный состав субъектов РФ по переписи 2010 года

Источник данных: доклад "Об итогах данных Всероссийской переписи населения 2010 года", единственный полный источник о том, сколько людей разных национальностей проживает в том или ином регионе.
Некоторые собственные выводы из данных:
  • около 81% населения РФ - русские. Самый "русский" регион - Вологодская область (97.3% населения - русские). Наименее "русские" регионы - Дагестан, Чечня, Ингушетия. Доля русского населения в этих регионах не превышает нескольких процентов. 
  • Вторая по численности национальность в России - татары (5.5 млн. человек). Но в Татарстане живет только 2 млн из них. Остальные татары проживают в других регионах. 
  •  В Башкирии башкиры составляют лишь около 30% населения, русских там 36%, а татар - 25%. Это, наверно, наименее "национальная" из национальных республик в смысле доли коренного населения. 
  • Чеченцы - шестая по численность национальность в стране (1.5 млн человек), из них около 200 тыс. живет за пределами Чечни и соседних республик.
На графиках можно посмотреть национальный состав любого российского региона по данным переписи.
 Я перестроил структуру исходных данных, чтобы удобнее было их анализировать. Планирую еще сравнить с национальным составом по переписи 2002 года и последней советской переписи 1989 года.

8 июн. 2012 г.

Популярность facebook в разных странах в начале 2012 года

изучая построение Google Charts, построил карту, которая показывает количество пользователей facebook в % от общего населения страны. Больше всего фейсбук популярен в Исландии - 67,6% населения страны пользуется этой социальной сетью!

Источник: Internet World Stats


Данные - по состоянию начало 2012 года.

7 июн. 2012 г.

Кто в G-20 всех слабее?

Многие люди, которые не слишком хорошо знакомы с экономической статистикой, часто неправильно интерпретируют цифры по ВВП, которые сообщаются в СМИ. Один из примеров, который может ввести в заблуждение. В газете/интернете пишут, что "ВВП за 1 квартал 2012 году страны Х вырос на 2%". Эти 2% могут означать довольно разные вещи. К примеру, это может означать "к предыдущему периоду, сезонно сглаженные данные" или "к соответствующему периоду прошлого года, не сглаженные данные" или что-то другое. В результате, цифры за тот же период страны Y напрямую не сопоставимы с тем, что нам известно по стране Х. Сначала их нужно привести к общему виду с тем, чтобы сравнивать друг с другом.
 Другой вопрос, который часто обсуждает в интернетах - сравнение того, на сколько разные страны пострадали в результате кризиса и насколько они восстановились или восстанавливаются  в терминах реального ВВП.  Достигнут ли предкризисный максимум или нет? Как Россия смотрится на фоне других странах, к примеру, из G-20? Чтобы ответить на эти вопросы, нужно довольно корректно собрать и обработать исходные данные. Что я сделал.

Исходные данные: квартальный ВВП стран G-20 за период со 2 квартала 2008 года по 4 квартал 2011 года. Индекс - базисный,  предполагается, что во 2 квартале 2008 года был достигнутый предкризисный максимум, принятый за 0. Соответственно, значение 10 в 4 квартале 2011 года будет означать, что уровень ВВП на выше 10% уровня, который был во втором квартале 2008 года.

Источник информации: база данных МВФ International Financial Statistics (IFS) К сожалению, эта база данных недоступна бесплатно, за исключением небольшого набора показателей. Я использовал показатели "Gross Domestic Product,  Real" на квартальном уровне. В принципе, можно собрать данные по квартальному ВВП и с национальных статичестических комитетов, но это довольно муторно. Надо разбираться с используемой размерностью и прочими вещами, поэтому я решил положиться на МВФ.

Описание расчета. Для подобного расчета необходимо использовать именно квартальные данные - кризис начался с 3 квартала 2008 года. Если брать  годовые цифры, то получается "смешанная" картина - полгода бума, полгода обвала. Но в связи с этим возникает дополнительная сложность - сезонность. Как правило, показатели ВВП отличаются довольно сильной сезонностью. Некоторые статистические ведомства самостоятельно рассчитывают и предоставляют сезонно сглаженные данные для квартальных данных. Некоторые - не делают этого. Поэтому в IFS индекс квартального  ВВП для некоторых стран (Австралия, Канада, Еврозона, Франция, Германия, Италия, Мексика, ЮАР, Великобритания, США) дается в сезонно сглаженном виде ("Index, 2005=100, Seasonally Adjusted). Для всех остальных я сам провел сезонную очистку в пакете Demetra методом Tramo/Seats. Вот пример исходных и сглаженных в Demetre данных для Кореи:

Как видно из графики, убирать сезонность имеет смысл.

Я решил построить интерактивный график Google Motion Chart для иллюстирации итоговых данных. Такой вид график был популяризирован Гансом Рослингом и является фирменной "фишкой" Gapminder.  Они бывают полезны, когда на графике находится много объектов, и традиционные линии или полосы накладываются друг на друга и делают график нечитаемым. Анимация, показывающая динамику во времени, тоже может быть вполне иллюстративна. Заодно я хотел научиться их строить. Вот результат:


Примечания: вместо ЕС использовались данные по еврозоне. Данных по Саудовской Аравии нет, так они не предоставляют квартальный ВВП.  Добавленые данные по всему миру, развитым и развиващимся странам всего. 


У графики три вкладки:
  1. "С пузырями". На оси Х нужно выбрать время, и запустить анимацию во времени. Если напротив стран справа, поставить галочки, то они будут оставлять след во время анимации. 
  2. "С полосками". Можно посмотреть сортировку по уровню ВВП за каждый квартал. 
  3. "С линиями". Традиционное графическое предоставление. Можно выбрать несколько стран, тогда они будут "подсвечены". 
Какие выводы можно сделать из графика? 
  • В смысле "максимального" провала Россия не является лидером. Мексика и Турция упали быстрее и сильнее, чем Россия. Но разница между этими тремя странами не слишком велика. Они все относятся к круппе стран,  экономика которых за 3-4 квартала сократилась на 10% и более. 
  • Посткризисное восстановление в России происходило гораздо медленее, чем во всех крупных развивающихся странах. Россия вышла на уровень второго квартала 2008 лишь к концу 2011 года, то есть спустя 3,5 года. Если посмотреть 4 квартал 2011 года на второй вкладке, то видно насколько ушли вперед другие экономики, те же Мексика и Турция. 
Вкратце: обвал российской экономики был одним из наиболее сильных среди стран G-20, но не самым сильным. Восстановление экономики происходило медленнее, чем любой разивающейся страны из G-20.