Konstantin S. Uvarin (lodin) wrote,
Konstantin S. Uvarin
lodin

Categories:

Мат. статистика: куды бечь?



А вот скажите мне, люди, работающие с данными и сочувствующие. Нужна ли в эпоху big data кому-то вообще одномерная статистика, как то: квартили-перцентили, гистограммки, матожидания-дисперсии всякие? А может, кому-то нужны, а они и не в курсе и на калькуляторе среднее лопатят?

Есть инструмент на языке Perl, которые умеет делать приблизительный статистический анализ без загрузки всей выборки в память. (Используются логарифмические интервалы + линейные вблизи 0). Хочется как-то его улучшить. А надо ли?

И куда двигаться дальше? Пока есть варианты:
* порт на плюсы (и, соответственно, во все прочие языки);
* многомерные данные (хотя бы двумерные);
* доверительные интервалы, проверка гипотез и вот это вот всё;
* Интерактивный GUI (предположительно html/javascript или Qt).

UPDATE: Я понимаю, что есть сириоус бизнес вроде R для тех, кому реально надо проанализировать данные. А вот существует ли ситуация, когда быстренько поковырять и переслать "слепок" выборки по сети критично, а ошибка на % или меньше - нет?

На графике: распределение репутации пользователей http://stackoverflow.com, исключены точки ниже 101 и верхние 1%. Цветом отмечены квартили, крестиком - матожидание и дисперсия. Данные получены SQL-запросом к базе, ответ занимает приблизительно 20кб.
Tags: comp, my
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 12 comments