Cas, Кажется как-то так надо делать:
1) Доказать что жители города Б такие же как в других городах, просто делают покупки чаще. Т.е. они покупают объекты в такой же пропорции что и в других городах. Это даст основание сравнивать жителей. Для каждого города считаем вероятность покупки без объекта А. Если объект А продается в городе Б и у нас есть эти данные - то как бы и считать нечего
Если характер покупок в городах разный - допстим в городе "Б" покупают только машины, а в городе "В" - только пряники - то сорян, их сравнивать нельзя. Чем больше разница в характере - тем больше будет ошибка при прогнозе. Можно попробовать в множестве городов найти максимально похожий на "Б".
2) Разные объекты, покупаются с разной частотой. Т.е. имеет место быть разная вероятность их приобретения. Не нужно ориентироваться на среднее значение, если есть статистика по продаже конкретного объекта. По крайней мере я не увидел в задаче необходимость смешивать со средним (что всегда даст худший результат, особенно если значения далеки от средних).
3) Если нам нужен прогноз - с какой вероятностью данный объект будет продаваться в конкретном городе, то:
Вариант1 - сказать что в городе Б покупают в 1.5 раза чаще чем в среднем. поэтому 7,5% вероятности покупки домножаем на 1.5 и получим 11.25%
Этот вариант - можно использовать для малых чисел. Даст большую ошибку вплоть до 146% при больших цифрах потому что на самом деле мы сделали допущение что объект будут покупать в столько же раз чаще нежели в среднем, даже если объект очень популярный. Но это не так. При значениях 25-30% я бы от такого варианта точно отказывался.
Другой вариант - Считаем вероятность НЕ_покупки (ВНП)
ВНП = ВНП_объекта_А * (ВНП_города_Б/ВНП_городов), тогда получим: ВНП = 0,925*(0,925/0,95) = 0,9. т.е. вероятность купить = 10%
(ВНП_города_Б/ВНП_городов) - физический смысл "на сколько чаще в городе Б НЕ_ПОКУПАЮТ объект по сравнению с другими городами". Т.е. если кэф меньше единицы - значит чаще покупают, если больше - реже.
Как видим - результат получился ниже. Этот метод так же дурит, но с другой стороны - если в городе очень плохо покупают относительно среднего и если объект очень не популярный.
Если прям совсем правильно делать - то надо сильно упороться.
Для этого нужно взять города с разной вероятностью покупки, разместить их по оси Х, и для каждого объекта прочертить линию вероятности покупки данного объекта в конкретном городе. Полученную картинку как то усреднить (ну типа среднее квадратичное, наверно) и далее полученную линию использовать как образец, условно у тебя будут данные "для городов в которых вероятность покупки такая-то, надо брать вот такие значения вероятности покупки объекта".
сложно написал чот :) Кароч по сути речь идет о том, чтобы посчитать все варианты разных вероятностей городов/объектов и использовать их как таблицу коэффициентов.
Немного затупляю, как правильно подойти к решению прикладной задачи.
Нужно оценить увеличение вероятности покупки клиентом при определенных условиях.
Мы из накопленной статистики знаем, что объект "А" продается в 1,5 раза лучше, чем "средний по больнице".
Мы знаем, что если клиент из города "Б", то вероятность покупки тоже в 1,5 раза выше, чем "в среднем по больнице".
Зашел лид по объекту "А", клиент из города "Б".
Если бы эти два события (объект/клиент) были бы независимыми, то можно было бы просто перемножить вероятности, получилось бы 2,25.
Но как быть, если эти два множества пересекаются? Например, среди всех лидов по объекту "А" 90% из города "Б"?
Ясно видится, что такое обилие клиентов из города "Б" уже частично учтено в этих 1,5. И просто перемножить тут нельзя.
Здравый смысл подсказывает, что вероятность будет лишь чуть выше, чем 1,5.
Какие формулы тут можно применить? Что посоветуете почитать по данному вопросу?
Заранее благодарен.