Олимпиада в Токио

Автор LRV_75, 25.07.2021 07:24:14

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

cross-track

Цитата: Сергей  Хижняк от 04.08.2021 12:56:56
Спасибо!
А как вы практически строили графики, какие данные загружали? Что  в таблице, по которой строился график (какие данные по оси Х и по оси У)?
Не все у нас еще хорошо, кое-что - просто замечательно!

Сергей Хижняк

Исходные данные - отсюда.
https://olympics.com/tokyo-2020/olympic-games/en/results/all-sports/medal-standings.htm?utm_campaign=dp_google
По оси X - натуральный логарифм ранга, по оси Y - натуральный логарифм числа медалей (хотя можно было логарифм по любому основанию). Графики построены через точечную диаграмму с добавлением линии тренда (формат линии тренда - "Линейная"). Стат.обработка справа от графиков - регрессионный анализ, входящий в Пакет анализа Excel. Вообще-то я предпочитаю StatSoft STATISTICA (у меня сейчас версия 8.0, англоязычная, палёная), но для простых задач Excel в ряде случаев удобнее. :)

Главная заморочка - при копипасте с сайта (вставка через "Вставить значения") немножко едут строки, приходится тратить сколько-то времени на исправление.

Сергей Хижняк

#62
P.S.
Насколько знаю из слов и монографии того биофизика-матмоделиста, а такж из беглого изучения матчасти, данное распределение справедливо всегда и везде, где есть свободная конкуренция за ограниченный ресурс. При этом безразлично, кто (или что) и за что конкурирует.

Вот, например, в своё время ради любопытства построил распределение пещер на Баджейском участке.

Особенности участка в том, что
- он хорошо изучен
- расположен в общем известняковом блоке с одним главным дренирующим водотоком
Пещеры там конкурируют за атмосферные осадки (чем больше осадков поглощает пещера, тем быстрее она растёт), причём конкурируют честно. :)

Упс. Там оси X и Y поменяны местами, только сейчас заметил. Впрочем, прямая остаётся прямой вне зависимости от смены осей.

Ещё раз упс. Там только названия осей поменяны местами.

cross-track

О, спасибо!
У меня были вопросы, чтО такое ранг. Правильно ли я понимаю, что ранг в данном случае определяется местом страны в общемедальном зачете?
Не все у нас еще хорошо, кое-что - просто замечательно!

Сергей Хижняк

Цитата: cross-track от 04.08.2021 13:41:01Правильно ли я понимаю, что ранг в данном случае определяется местом страны в общемедальном зачете?
Да, там где Gold - это место по золоту, там где Total - место в общемедальном зачёте.

cross-track

Цитата: Сергей Хижняк от 04.08.2021 13:23:27Главная заморочка - при копипасте с сайта (вставка через "Вставить значения") немножко едут строки, приходится тратить сколько-то времени на исправление.
Попробуйте выделить нужные данные (например, первые 6 строк), затем жмите правую клавишу мыши, и в поле Paste Options выбирайте вторую иконку. Мне помогло; а без этого действительно балаган)
Не все у нас еще хорошо, кое-что - просто замечательно!

Сергей Хижняк

Цитата: cross-track от 04.08.2021 13:50:47Попробуйте выделить нужные данные (например, первые 6 строк), затем жмите правую клавишу мыши, и в поле Paste Options выбирайте вторую иконку. Мне помогло; а без этого действительно балаган)
Спасибо, попробую. :)

cross-track

А обязательно логарифмировать данные? Ведь если логарифмировать и Х и У одновременно, то линейная зависимость будет как с логарифмами, так и без. Или это требование стат.обработки?
Не все у нас еще хорошо, кое-что - просто замечательно!

cross-track

Цитата: Сергей  Хижняк от 04.08.2021 12:56:56

Это на текущий момент. Правда, пока я строил графики и делал регрессионный анализ, цифры слегка поменялись - пришлось переделывать. :D
Книгу сохранил, графики тоже сохранил - так что теперь актуализация графиков под новые данные будет делаться быстро. :)
Я построил график тоже на текущий момент (данные внизу графика). Что-то наши графики отличаются...
Не все у нас еще хорошо, кое-что - просто замечательно!

Сергей Хижняк

Цитата: cross-track от 04.08.2021 14:29:33Я построил график тоже на текущий момент (данные внизу графика). Что-то наши графики отличаются...
А как у Вас получилось, что у первого места по золоту (32 медали) Rank=2? А у 6-го места по золоту (13 медалей) Rank=3?

Rank в точности соответствует месту в медальном зачёте. В Вашем примере (Золото) ранги должны идти так
1 - 32
2 - 25
3 - 20
4 - 15
5 - 14
6 - 13
:)

Сергей Хижняк

Цитата: cross-track от 04.08.2021 13:56:35А обязательно логарифмировать данные? Ведь если логарифмировать и Х и У одновременно, то линейная зависимость будет как с логарифмами, так и без.
Без логарифмов будет степенная. сейчас прикреплю скрин. Тоже можно, но в логарифмах (на получившейся прямой) нагляднее отклонения. Поэтому, скажем, при анализе момента перехода микробной популяции от экспоненциального роста к линейному обычно логарифмируют. Там сразу видно.

cross-track

Цитата: Сергей  Хижняк от 04.08.2021 15:44:09
Цитата: cross-track от 04.08.2021 14:29:33Я построил график тоже на текущий момент (данные внизу графика). Что-то наши графики отличаются...
А как у Вас получилось, что у первого места по золоту (32 медали) Rank=2? А у 6-го места по золоту (13 медалей) Rank=3?

Rank в точности соответствует месту в медальном зачёте. В Вашем примере (Золото) ранги должны идти так
1 - 32
2 - 25
3 - 20
4 - 15
5 - 14
6 - 13
:)
Я же раньше спрашивал насчет ранга, и вы дали ответ :

ЦитироватьДа, там где Gold - это место по золоту, там где Total - место в общемедальном зачёте.
Если Rank в точности соответствует месту в медальном зачёте, то это же общемедальный зачет, а не место в золотом зачете?
Не все у нас еще хорошо, кое-что - просто замечательно!

Сергей Хижняк

Цитата: cross-track от 04.08.2021 15:52:43Если Rank в точности соответствует месту в медальном зачёте, то это же общемедальный зачет, а не место в золотом зачете?
Нет, Вы не поняли, или я нечётко выразился. Если мы смотрим по золоту, то Rank - это место именно по золоту. А если смотрим сумму медалей, то Rank - это место по сумме медалей.
Цитата: Сергей Хижняк от 04.08.2021 15:50:19Без логарифмов будет степенная. сейчас прикреплю скрин.
Вот без логарифмирования, тот же график по золоту, который я давал в логарифмах. Зависимость теперь не линейная, а степенная.

Тоже можно статистически обрабатывать, но, например, в Пакете анализа Excel регрессионный анализ - только для линейных зависимостей. А перегонять ради этого в Статистику - лишние хлопоты.

cross-track

Теперь понятно.
Я попробовал построить аналогичную таблицу и график для серебра, там оказалось похуже. Кстати, по серебру здесь уже спрашивали, что как-то странно выглядят медали у Японии и Австралии.


Правда, я взял снова первые 6 команд, отсортированные по золоту, и внутри этой шестерки сделал ранжирование по серебру. Не знаю, насколько это корректно.
Не все у нас еще хорошо, кое-что - просто замечательно!

Сергей Хижняк

Цитата: cross-track от 04.08.2021 16:19:05Теперь понятно. 
Я попробовал построить аналогичную таблицу и график для серебра, там оказалось похуже. Кстати, по серебру здесь уже спрашивали, что как-то странно выглядят медали у Японии и Австралии.
К слову, да. По опыту анализа прошлых олимпиад прямые в логарифмах получались для золота и для общего числа медалей. Если только не было явного подсуживания одной из команд (как уже писал, помнится, это было только однажды, вроде, в Пекине, и там действительно жаловались на предвзятое судейство). Отдельно для серебра и отдельно для бронзы всегда получалось хуже. Может, потому, что команды бьются либо за золото, либо - за общее число медалей, а не за бронзу и серебро? Фиг его знает.

Сергей Хижняк

Цитата: Сергей Хижняк от 04.08.2021 16:24:26По опыту анализа прошлых олимпиад
Обновил данные. По состоянию на 23-00 по красноярскому времени распределение несколько ухудшилось. По золоту коэффициент детерминации (далее - R2) стал 0.968, по общему числу медалей 0.945. По общемедальному зачёту уже просматривается тенденция гнобления 1-го места в пользу 2-го места.

В общемедальном зачёте (нижний график) стрелками показано, где должны находиться точки при абсолютно честной конкуренции.

P.S.
На уровне моих знаний матчасти данного распределения:

1. Это распределение работает всегда и везде при наличии честной конкуренции за некий ресурс. "Честной" - это значит, что в распределение не вмешиваются некие внешние факторы. Пример честной конкуренции - рост кристаллов в банке с раствором медного купороса. Кристаллы конкурируют за ограниченное количество вещества, экспериментатор не вмешивается. Размер кристаллов будет соответствовать идеальному распределению Парето (прямая в логарифмических координатах). Пример нечестной конкуренции применительно к тем же кристаллам - экспериментатор в процессе кристаллизации время от времени будет вытаскивать самые быстрорастущие кристаллы из раствора, чтобы дать дополнительный шанс мелким. Пример честной конкуренции применительно к спорту - судьям абсолютно по-барабану личность и национальная принадлежность спортсмена. Пример нечестной конкуренции применительно к тому же спорту - судьям небезразлична личность или национальная принадлежность спортсмена.

2. Сначала это распределение было обнаружено экспериментально, причём применительно к самым разным несвязанным между собой областям (от роста кристаллов в растворе - до распределения глаголов в произведениях Шекспира, распределения городов по числу жителей и распределения богатства между гражданами). Гораздо позже крутыми математиками (один из них - российско-советский, фамилия на слуху, но не помню, кто-то типа Колмогорова-Ляпунова) в разных странах независимо друг от друга и разными способами было показано, что так оно и должно быть.

3. Есть много продвинутых математических способов проверки честности судейства и/или выборов. Но этот - самый простой, и обычно очень надёжный. Хотя именно в силу простоты его при желании (если фальсификаторы о нём знают) можно и обмануть.

Сергей Хижняк

Цитата: Сергей Хижняк от 04.08.2021 18:38:08Хотя именно в силу простоты его при желании (если фальсификаторы о нём знают) можно и обмануть.
Походу, не заморачиваются. ;D
Для интереса проанализировал состав Госдумы нынешнего (VII) созыва. Включил только лидеров (4 партии, в сумме 447 мест из 450). Данные из Википедии, отсюда Государственная дума Федерального собрания Российской Федерации VII созыва. Вот результат. Обратите особое внимание на название партии-победительницы (это реально из Википедии, только что отскринил). :D


Судя по графику, у КПРФ отобрали, а, гм, Е(...) России прибавили.

cross-track

Цитата: Сергей  Хижняк от 04.08.2021 15:59:56Без логарифмов будет степенная. сейчас прикреплю скрин.
Вот без логарифмирования, тот же график по золоту, который я давал в логарифмах. Зависимость теперь не линейная, а степенная.

Тоже можно статистически обрабатывать, но, например, в Пакете анализа Excel регрессионный анализ - только для линейных зависимостей. А перегонять ради этого в Статистику - лишние хлопоты.
Интересно, что R-квадрат имеет на верхнем нелинейном графике (без логарифмирования) точно то же значение, что и R-квадрат с логарифмированием, т.е. 0.973. Наверное, это не случайно.
Не все у нас еще хорошо, кое-что - просто замечательно!

Сергей Хижняк

Цитата: cross-track от 04.08.2021 21:00:25Наверное, это не случайно.
Не случайно. :)

Вот искусственные данные (сделал степенную функцию и внёс небольшую погрешность, чтобы R2 был меньше 1). Верхняя диаграмма - исходные данные с аппроксимацией степенной функцией, нижняя - логарифмированные с линейной аппроксимацией. R2 и там, и там одинаков.

cross-track

Цитата: Сергей  Хижняк от 04.08.2021 21:56:43
Цитата: cross-track от 04.08.2021 21:00:25Наверное, это не случайно.
Не случайно. :)

Вот искусственные данные (сделал степенную функцию и внёс небольшую погрешность, чтобы R2 был меньше 1). Верхняя диаграмма - исходные данные с аппроксимацией степенной функцией, нижняя - логарифмированные с линейной аппроксимацией. R2 и там, и там одинаков.
Я тоже немного поигрался.
Вот для золотых медалей:


Если прологарифмировать уравнение на степенном графике, то, естественно, получится линейное уравнение (левый график), со всеми совпадающими коэффициентами. Не удивительно, что и R-квадрат тот же самый)

А если на полиномиальном графике повысить степень полинома, то вообще R-квадрат будет практически 1! Чудеса, и только! :D
Не все у нас еще хорошо, кое-что - просто замечательно!