{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Efectos Fijos\n",
"\n",
"> I’m a traveler of both time and space \n",
"> to be where I have been \n",
"> To sit with elders of a gentle race \n",
"> the world has seldom seen. \n",
"> - _Led Zeppelin_\n",
"\n",
"_Elaborado en el ejercicio del año sabático UJED_\n",
"\n",
"La regresión lineal es un modelo muy importante porque permite establecer controles en nuestros datos. El problema es que depende de un supuesto clave: inconfundibilidad condicional:\n",
"\n",
"$(Y_0,Y_1) \\bot T | X$\n",
"\n",
"En otras palabras, requiere que todas las variables de confusión sean conocidas y medidas. De tal manera que podamos incluirlas en el modelo y hacer que el grupo de tratamiento se comporte como si hubiera sido fruto de una asignación aleatoria. Pero, a pesar de que no siempre tenemos el lujo de que nuestras variables sean observables, siempre podemos agruparlos con características en común.\n",
"\n",
"Ese es el problema que resuelven los modelos de datos en panel\n",
"\n",
"## Cómo se ven los datos en panel\n",
"\n",
"Imagina que estamos estudiando el efecto que hay entre el gasto en publicidad y los ingresos que nos genera.\n",
"\n",
"Para ser mas claros, estamos haciendo una campaña para incrementar las ventas de una e-commerce por tres canales de venta. La primera es por anuncios de Google, el segundo con anuncios en Meta (que incluye Facebook e Instagram) y el tercero es por mail marketing.\n",
"\n",
"Comencemos cargando nuestra base de datos en panel."
]
},
{
"cell_type": "code",
"execution_count": 14,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Medio
\n",
"
Año
\n",
"
Ad cost
\n",
"
Sales
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
Google Ads
\n",
"
2020
\n",
"
1.25
\n",
"
3.4
\n",
"
\n",
"
\n",
"
1
\n",
"
Google Ads
\n",
"
2021
\n",
"
2.00
\n",
"
10.0
\n",
"
\n",
"
\n",
"
2
\n",
"
Google Ads
\n",
"
2022
\n",
"
6.00
\n",
"
13.5
\n",
"
\n",
"
\n",
"
3
\n",
"
Google Ads
\n",
"
2023
\n",
"
5.00
\n",
"
8.0
\n",
"
\n",
"
\n",
"
4
\n",
"
Google Ads
\n",
"
2024
\n",
"
6.00
\n",
"
11.0
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Medio Año Ad cost Sales\n",
"0 Google Ads 2020 1.25 3.4\n",
"1 Google Ads 2021 2.00 10.0\n",
"2 Google Ads 2022 6.00 13.5\n",
"3 Google Ads 2023 5.00 8.0\n",
"4 Google Ads 2024 6.00 11.0"
]
},
"execution_count": 14,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"import pandas as pd\n",
"import statsmodels.formula.api as sm\n",
"\n",
"df = pd.read_csv(\"../../../data/Panel/sales-panel.csv\")\n",
"df.head()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Algunas observaciones sobre los datos:\n",
"\n",
"- Estamos agrupando los datos por el medio en el que se hace la publicidad (Anuncios de Google, Anuncios de Facebook y una campaña de email marketing).\n",
"- El supuesto clave en estos datos es que los clientes que obtenemos a partir de medios diferentes son distintos entre sí. Este supuesto tiene sentido, simplemente porque se interactúa diferente en diferentes medios.\n",
"- Es un ejemplo simple, pero en realidad un análisis de panel como este podría ser muy útil para analizar campañas distintas que corren en paralelo.\n",
"\n",
"Hagamos un diagrama de dispersión para analizar los datos.\n",
"\n",
"Lo que deseamos conocer es el efecto que hay entre el costo de la publicidad y las ventas de esa campaña particular."
]
},
{
"cell_type": "code",
"execution_count": 24,
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
":20: FutureWarning: Support for multi-dimensional indexing (e.g. `obj[:, None]`) is deprecated and will be removed in a future version. Convert to a numpy array before indexing instead.\n",
" X = df['Ad cost'][:, np.newaxis] # X necesita ser 2D para np.polyfit\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import pandas as pd\n",
"import seaborn as sns\n",
"import numpy as np\n",
"\n",
"# Configurar el estilo de Seaborn\n",
"sns.set(style=\"whitegrid\")\n",
"\n",
"# Crear un diagrama de dispersión con diferentes colores para cada medio\n",
"colors = {\n",
" 'Google Ads': 'blue',\n",
" 'Facebook Ads': 'orange',\n",
" 'Email Marketing': 'green'\n",
"}\n",
"for medio in df['Medio'].unique():\n",
" subset = df[df['Medio'] == medio]\n",
" plt.scatter(subset['Ad cost'], subset['Sales'], s=100, label=medio, color=colors[medio])\n",
"\n",
"# Calcular y trazar la línea de regresión\n",
"# Combinar todos los puntos sin importar el 'Medio' para la línea de regresión\n",
"X = df['Ad cost'][:, np.newaxis] # X necesita ser 2D para np.polyfit\n",
"Y = df['Sales']\n",
"model = np.polyfit(X.flatten(), Y, 1)\n",
"predicted = np.polyval(model, X.flatten())\n",
"plt.plot(X.flatten(), predicted, color='red')\n",
"\n",
"# Configurar el título y las etiquetas del gráfico\n",
"plt.title('Diagrama de dispersión del costo de publicidad vs ventas')\n",
"plt.xlabel('Costos de publicidad')\n",
"plt.ylabel('Ventas')\n",
"plt.legend()\n",
"plt.grid(True)\n",
"plt.show()\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Le puse colores para que notes a simple vista: una regresión simple no es lo que deseamos hacer.\n",
"\n",
"Si hiciéramos una regresión lineal simple tendríamos que nuestro gasto en publicidad no está aumentando las ventas. Al contrario, ¡Las está haciendo caer! Pero al separarlos por medio nos podemos dar cuenta de que no es así: cada una de las campañas de manera individual tiene un efecto positivo claro en las ventas.\n",
"\n",
"Esto se ve más claro en el diagrama de dispersión."
]
},
{
"cell_type": "code",
"execution_count": 22,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Identificar los medios únicos para asegurarnos de asignar un marcador único para cada uno\n",
"unique_media = df['Medio'].unique()\n",
"\n",
"# Crear un diagrama de dispersión con diferentes marcadores para cada medio y líneas de regresión separadas\n",
"sns.lmplot(x='Ad cost', y='Sales', data=df, hue='Medio', markers=['o', 's', 'D', '^'][:len(unique_media)], height=6, aspect=1.6, ci=None)\n",
"\n",
"# Configurar el título y las etiquetas del gráfico\n",
"plt.title('Diagrama de dispersión del costo de publicidad vs ventas con líneas de regresión separadas por medio')\n",
"plt.xlabel('Costos de publicidad')\n",
"plt.ylabel('Ventas')\n",
"plt.show()\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Los efectos fijos son sólo una aglomeración de variables de control en una sola\n",
"\n",
"La clave de los efectos fijos es que:\n",
"\n",
"- Podemos incluir el efecto del tiempo en nuestro modelo, pero el tiempo en si mismo no es una variable.\n",
"- Lo que importa es que estamos capturando todas las características intrínsecas de nuestro medio y estamos asumiendo que son “fijas”.\n",
"\n",
"El modelo de efectos fijos se define en términos generales como\n",
"\n",
"$$\n",
"Y_{it} = \\beta X_{it} + \\gamma U_i + \\varepsilon_{it}\n",
"$$\n",
"\n",
"donde $Y_{it}$ es el resultado que tiene el individuo $i$ en el tiempo $t$, que puede medirse en meses, años, trimestres o lo que sea que tenga sentido. Nuevamente, $X_{it}$ es el vector de variables para el individuo $i$ en el tiempo $t$.\n",
"\n",
"Nota que ahora incluimos una variable $U_i$.\n",
"\n",
"Esta representa el conjunto de inobservables del individuo $i$ (la u es porque en inglés se dice *unobservables*). Nota que este elemento no tiene subíndice $t$, porque asumimos que estos inobservables no cambian en el tiempo. Por ejemplo, en una campaña de anuncios de google podemos asumir que el algoritmo que subasta un término de búsqueda es el mismo para todas las observaciones que hacemos.\n",
"\n",
"## Variación dentro del individuo\n",
"\n",
"En teoría, los efectos fijos funcionan igual que si usáramos una variable dummy para cada uno de los individuos (menos uno).\n",
"\n",
"El problema es que no es raro que nuestro panel se componga de más de 3 variables como en el ejemplo. Imaginemos que estamos tratando de hacer un panel para una campaña gigantesca ultrasegmentada de contenido con facebook ads. Una campaña así funcionaría haciendo un anuncio para cada pieza de contenido que hacemos, pautando (haciendo publicidad) y dejando que el algoritmo de meta encuentre a los consumidores ideales de ese contenido. Lo que obtenemos es una campaña para cada pieza de contenido que corren en paralelo. Esto puede hacer que el tamaño de nuestra base de datos aumente muy rápido.\n",
"\n",
"Por eso hacemos un pequeño truco que nos permite obtener el mismo resultado que si usaramos variables dummy, pero con un conjunto más manejable de datos.\n",
"\n",
"El primer paso es obtener las medias de nuestras variables. Así las vemos visualmente."
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# Calculando el promedio y la desviación estándar del costo de anuncios y las ventas para cada medio\n",
"media_stats = df.groupby('Medio').agg({'Ad cost': ['mean', 'std'], 'Sales': ['mean', 'std']}).reset_index()\n",
"\n",
"# Creando el gráfico\n",
"plt.figure(figsize=(10, 6))\n",
"sns.scatterplot(x='Ad cost', y='Sales', data=df, hue='Medio', style='Medio', markers=['o', 's', 'D'][:len(unique_media)])\n",
"\n",
"# Añadiendo las líneas para representar el promedio ± una desviación estándar\n",
"for _, row in media_stats.iterrows():\n",
" medio = row['Medio']\n",
" ad_cost_mean = row[('Ad cost', 'mean')]\n",
" ad_cost_std = row[('Ad cost', 'std')]\n",
" sales_mean = row[('Sales', 'mean')]\n",
" sales_std = row[('Sales', 'std')]\n",
" \n",
" # Dibujando líneas para el costo de anuncios\n",
" plt.plot([ad_cost_mean - ad_cost_std, ad_cost_mean + ad_cost_std], [sales_mean, sales_mean], \n",
" color='black', linestyle='-', linewidth=1)\n",
" \n",
" # Dibujando líneas para las ventas\n",
" plt.plot([ad_cost_mean, ad_cost_mean], [sales_mean - sales_std, sales_mean + sales_std], \n",
" color='black', linestyle='-', linewidth=1)\n",
"\n",
"plt.title('Diagrama de Dispersión de Costo de Anuncio vs. Ventas con Promedios y Desviaciones Estándar')\n",
"plt.xlabel('Costo de Anuncio')\n",
"plt.ylabel('Ventas')\n",
"plt.legend(title='Medio')\n",
"plt.grid(True)\n",
"plt.show()\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"El siguiente paso es restar estas medias de nuestros individuos.\n",
"\n",
"$$\n",
"\\ddot{Y}_{it} = Y_{it} - \\bar{Y}_{i} \\\\ \\ddot{X}_{it} = X_{it} - \\bar{X}_{i}\n",
"$$\n",
"\n",
"Visualmente lo que esto logra es como si “empalmaramos” las cruces que se formaron en el gráfico anterior.\n",
"\n",
"Ahora sólo tenemos que hacer una regresión de $\\ddot Y_{it}$ contra $\\ddot X_{it}$, o bien\n",
"\n",
"$$\n",
"(Y_{it} - \\bar Y_i) = \\beta(X_{it} - \\bar X_{i}) + (\\varepsilon_{it} - \\bar \\varepsilon_{i}) \\\\ \\ddot Y_{it} = \\beta \\ddot X_{it} + \\ddot\\varepsilon_{it}\n",
"$$\n",
"\n",
"Nota que el término de elementos inobservables desaparece. Esto es porque $U_i = \\bar U_i$, por su propia definición. Es una operación que elimina todos los términos constantes en el tiempo.\n",
"\n",
"Visualmente, la regresión sería esta."
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Medio
\n",
"
Año
\n",
"
Ad cost
\n",
"
Sales
\n",
"
Within Ad cost
\n",
"
Sales Within
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
Google Ads
\n",
"
2020
\n",
"
1.25
\n",
"
3.4
\n",
"
-2.625
\n",
"
-6.416667
\n",
"
\n",
"
\n",
"
1
\n",
"
Google Ads
\n",
"
2021
\n",
"
2.00
\n",
"
10.0
\n",
"
-1.875
\n",
"
0.183333
\n",
"
\n",
"
\n",
"
2
\n",
"
Google Ads
\n",
"
2022
\n",
"
6.00
\n",
"
13.5
\n",
"
2.125
\n",
"
3.683333
\n",
"
\n",
"
\n",
"
3
\n",
"
Google Ads
\n",
"
2023
\n",
"
5.00
\n",
"
8.0
\n",
"
1.125
\n",
"
-1.816667
\n",
"
\n",
"
\n",
"
4
\n",
"
Google Ads
\n",
"
2024
\n",
"
6.00
\n",
"
11.0
\n",
"
2.125
\n",
"
1.183333
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Medio Año Ad cost Sales Within Ad cost Sales Within\n",
"0 Google Ads 2020 1.25 3.4 -2.625 -6.416667\n",
"1 Google Ads 2021 2.00 10.0 -1.875 0.183333\n",
"2 Google Ads 2022 6.00 13.5 2.125 3.683333\n",
"3 Google Ads 2023 5.00 8.0 1.125 -1.816667\n",
"4 Google Ads 2024 6.00 11.0 2.125 1.183333"
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df['Within Ad cost'] = df.groupby('Medio')['Ad cost'].transform(lambda x: x - x.mean())\n",
"df['Sales Within'] = df.groupby('Medio')['Sales'].transform(lambda x: x - x.mean())\n",
"df.head()"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# Calculando las estadísticas necesarias para los cruces en el gráfico\n",
"media_within_stats = df.groupby('Medio').agg({'Within Ad cost': ['mean', 'std'], 'Sales Within': ['mean', 'std']}).reset_index()\n",
"\n",
"# Creando el gráfico con las variables \"Within\"\n",
"plt.figure(figsize=(10, 6))\n",
"\n",
"# Usando scatterplot para los puntos con color, pero sin añadir la línea de regresión aquí\n",
"sns.scatterplot(x='Within Ad cost', y='Sales Within', data=df, hue='Medio', style='Medio', markers=['o', 's', 'D'][:len(df['Medio'].unique())])\n",
"\n",
"# Añadiendo la línea de regresión con regplot\n",
"sns.regplot(x='Within Ad cost', y='Sales Within', data=df, scatter=False, color='gray')\n",
"\n",
"# Añadiendo las cruces que representan la media ± una desviación estándar para las variables within\n",
"for _, row in media_within_stats.iterrows():\n",
" medio = row['Medio']\n",
" within_ad_cost_mean = row[('Within Ad cost', 'mean')]\n",
" within_ad_cost_std = row[('Within Ad cost', 'std')]\n",
" sales_within_mean = row[('Sales Within', 'mean')]\n",
" sales_within_std = row[('Sales Within', 'std')]\n",
" \n",
" # Dibujando líneas para Within Ad cost\n",
" plt.plot([within_ad_cost_mean - within_ad_cost_std, within_ad_cost_mean + within_ad_cost_std], [sales_within_mean, sales_within_mean], \n",
" color='black', linestyle='-', linewidth=1)\n",
" \n",
" # Dibujando líneas para Sales Within\n",
" plt.plot([within_ad_cost_mean, within_ad_cost_mean], [sales_within_mean - sales_within_std, sales_within_mean + sales_within_std], \n",
" color='black', linestyle='-', linewidth=1)\n",
"\n",
"plt.title('Diagrama de Dispersión de Within Ad Cost vs. Sales Within con Cruces y Única Línea de Regresión')\n",
"plt.xlabel('Within Ad Cost')\n",
"plt.ylabel('Sales Within')\n",
"plt.legend(title='Medio')\n",
"plt.grid(True)\n",
"plt.show()\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Nota cómo ahora las medias están en cero en los dos ejes. \n",
"\n",
"Ahora todos los datos están en un punto comparable. A esto se le llama “absorber” los efectos fijos.\n",
"\n",
"Naturalmente, ahora podemos aplicar una regresión lineal simple a nuestros datos."
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"/Users/mario/anaconda3/lib/python3.8/site-packages/scipy/stats/stats.py:1603: UserWarning: kurtosistest only valid for n>=20 ... continuing anyway, n=18\n",
" warnings.warn(\"kurtosistest only valid for n>=20 ... continuing \"\n"
]
},
{
"data": {
"text/html": [
"
\n",
"
OLS Regression Results
\n",
"
\n",
"
Dep. Variable:
Q(\"Sales Within\")
R-squared:
0.483
\n",
"
\n",
"
\n",
"
Model:
OLS
Adj. R-squared:
0.451
\n",
"
\n",
"
\n",
"
Method:
Least Squares
F-statistic:
14.96
\n",
"
\n",
"
\n",
"
Date:
Wed, 29 May 2024
Prob (F-statistic):
0.00136
\n",
"
\n",
"
\n",
"
Time:
09:07:24
Log-Likelihood:
-38.610
\n",
"
\n",
"
\n",
"
No. Observations:
18
AIC:
81.22
\n",
"
\n",
"
\n",
"
Df Residuals:
16
BIC:
83.00
\n",
"
\n",
"
\n",
"
Df Model:
1
\n",
"
\n",
"
\n",
"
Covariance Type:
nonrobust
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
coef
std err
t
P>|t|
[0.025
0.975]
\n",
"
\n",
"
\n",
"
Intercept
0
0.517
0
1.000
-1.095
1.095
\n",
"
\n",
"
\n",
"
Q(\"Within Ad cost\")
0.8283
0.214
3.868
0.001
0.374
1.282
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Omnibus:
0.334
Durbin-Watson:
2.169
\n",
"
\n",
"
\n",
"
Prob(Omnibus):
0.846
Jarque-Bera (JB):
0.487
\n",
"
\n",
"
\n",
"
Skew:
-0.177
Prob(JB):
0.784
\n",
"
\n",
"
\n",
"
Kurtosis:
2.275
Cond. No.
2.41
\n",
"
\n",
"
Notes: [1] Standard Errors assume that the covariance matrix of the errors is correctly specified."
],
"text/plain": [
"\n",
"\"\"\"\n",
" OLS Regression Results \n",
"==============================================================================\n",
"Dep. Variable: Q(\"Sales Within\") R-squared: 0.483\n",
"Model: OLS Adj. R-squared: 0.451\n",
"Method: Least Squares F-statistic: 14.96\n",
"Date: Wed, 29 May 2024 Prob (F-statistic): 0.00136\n",
"Time: 09:07:24 Log-Likelihood: -38.610\n",
"No. Observations: 18 AIC: 81.22\n",
"Df Residuals: 16 BIC: 83.00\n",
"Df Model: 1 \n",
"Covariance Type: nonrobust \n",
"=======================================================================================\n",
" coef std err t P>|t| [0.025 0.975]\n",
"---------------------------------------------------------------------------------------\n",
"Intercept 0 0.517 0 1.000 -1.095 1.095\n",
"Q(\"Within Ad cost\") 0.8283 0.214 3.868 0.001 0.374 1.282\n",
"==============================================================================\n",
"Omnibus: 0.334 Durbin-Watson: 2.169\n",
"Prob(Omnibus): 0.846 Jarque-Bera (JB): 0.487\n",
"Skew: -0.177 Prob(JB): 0.784\n",
"Kurtosis: 2.275 Cond. No. 2.41\n",
"==============================================================================\n",
"\n",
"Notes:\n",
"[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.\n",
"\"\"\""
]
},
"execution_count": 12,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"import statsmodels.api as sm\n",
"import statsmodels.formula.api as smf\n",
"\n",
"# Define the formula for the fixed effects model using the demeaned variables\n",
"formula = 'Q(\"Sales Within\") ~ Q(\"Within Ad cost\")'\n",
"\n",
"# Fit the fixed effects model\n",
"model = smf.ols(formula, data=df).fit()\n",
"\n",
"# Display the summary of the regression results\n",
"model.summary()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Y listo.\n",
"\n",
"La regresión sobre nuestros datos centrados es una regresión lineal simple. Podemos observar que la relación entre la publicidad y las ventas es positiva.\n",
"\n",
"Este es un modelo sencillo con sólo dos variables. En modelos más complejos, querrás usar paquetería especializada para el manejo de datos en panel.\n",
"\n",
"Este es el código usando `PanelOLS`, del módulo `linearmodels`."
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"
PanelOLS Estimation Summary
\n",
"
\n",
"
Dep. Variable:
Sales
R-squared:
0.4832
\n",
"
\n",
"
\n",
"
Estimator:
PanelOLS
R-squared (Between):
0.6666
\n",
"
\n",
"
\n",
"
No. Observations:
18
R-squared (Within):
0.4832
\n",
"
\n",
"
\n",
"
Date:
Wed, May 29 2024
R-squared (Overall):
0.6431
\n",
"
\n",
"
\n",
"
Time:
09:07:29
Log-likelihood
-38.610
\n",
"
\n",
"
\n",
"
Cov. Estimator:
Unadjusted
\n",
"
\n",
"
\n",
"
F-statistic:
13.092
\n",
"
\n",
"
\n",
"
Entities:
3
P-value
0.0028
\n",
"
\n",
"
\n",
"
Avg Obs:
6.0000
Distribution:
F(1,14)
\n",
"
\n",
"
\n",
"
Min Obs:
6.0000
\n",
"
\n",
"
\n",
"
Max Obs:
6.0000
F-statistic (robust):
13.092
\n",
"
\n",
"
\n",
"
P-value
0.0028
\n",
"
\n",
"
\n",
"
Time periods:
6
Distribution:
F(1,14)
\n",
"
\n",
"
\n",
"
Avg Obs:
3.0000
\n",
"
\n",
"
\n",
"
Min Obs:
3.0000
\n",
"
\n",
"
\n",
"
Max Obs:
3.0000
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Parameter Estimates
\n",
"
\n",
"
Parameter
Std. Err.
T-stat
P-value
Lower CI
Upper CI
\n",
"
\n",
"
\n",
"
Q('Ad cost')
0.8283
0.2289
3.6183
0.0028
0.3373
1.3194
\n",
"
\n",
"
F-test for Poolability: 13.450 P-value: 0.0006 Distribution: F(2,14)
Included effects: Entity"
],
"text/plain": [
"\n",
"\"\"\"\n",
" PanelOLS Estimation Summary \n",
"================================================================================\n",
"Dep. Variable: Sales R-squared: 0.4832\n",
"Estimator: PanelOLS R-squared (Between): 0.6666\n",
"No. Observations: 18 R-squared (Within): 0.4832\n",
"Date: Wed, May 29 2024 R-squared (Overall): 0.6431\n",
"Time: 09:07:29 Log-likelihood -38.610\n",
"Cov. Estimator: Unadjusted \n",
" F-statistic: 13.092\n",
"Entities: 3 P-value 0.0028\n",
"Avg Obs: 6.0000 Distribution: F(1,14)\n",
"Min Obs: 6.0000 \n",
"Max Obs: 6.0000 F-statistic (robust): 13.092\n",
" P-value 0.0028\n",
"Time periods: 6 Distribution: F(1,14)\n",
"Avg Obs: 3.0000 \n",
"Min Obs: 3.0000 \n",
"Max Obs: 3.0000 \n",
" \n",
" Parameter Estimates \n",
"================================================================================\n",
" Parameter Std. Err. T-stat P-value Lower CI Upper CI\n",
"--------------------------------------------------------------------------------\n",
"Q('Ad cost') 0.8283 0.2289 3.6183 0.0028 0.3373 1.3194\n",
"================================================================================\n",
"\n",
"F-test for Poolability: 13.450\n",
"P-value: 0.0006\n",
"Distribution: F(2,14)\n",
"\n",
"Included effects: Entity\n",
"\"\"\""
]
},
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"from linearmodels.panel import PanelOLS\n",
"\n",
"# Preparing the data: Setting 'Medio' and 'Año' as index\n",
"df_panel = df.set_index(['Medio', 'Año'])\n",
"\n",
"# Specifying and fitting the model with entity effects (fixed effects)\n",
"panel_model = PanelOLS.from_formula('Sales ~ Q(\"Ad cost\") + EntityEffects', data=df_panel)\n",
"\n",
"# Fitting the model\n",
"panel_results = panel_model.fit()\n",
"\n",
"# Displaying the results\n",
"panel_results.summary"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## El efecto fijo de dos vías\n",
"\n",
"Digamos que queremos hacer lo mismo no sólo para los individuos, sino también para el tiempo.\n",
"\n",
"El resultado sería un modelo como este:\n",
"\n",
"$$\n",
"Y_{it} = U_i + U_t + \\beta X_{it} + \\varepsilon_{it}\n",
"$$\n",
"\n",
"Lo que este modelo nos da es una estimación que permite comparar la variación *entre individuos* al mismo tiempo que *entre años*.\n",
"\n",
"Por ejemplo, nota que en los datos anteriores, las ventas del año 2020 son relativamente más bajas que las demás. Es un recordatorio de la época de pandemia, en la que cerraron todos los negocios y las ventas de muchas cosas bajaron, a menos de que vendas cubrebocas. En el caso de las ventas por Facebook, 3.4 es muy bajo para lo que estamos acostumbrados a vender por ese medio, pero no es un nivel de ventas tan fuera de lo normal para el marketing por e-mail.\n",
"\n",
"Usa este código para hacer una regresión de panel por dos vías."
]
},
{
"cell_type": "code",
"execution_count": 27,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
" PanelOLS Estimation Summary \n",
"================================================================================\n",
"Dep. Variable: Sales R-squared: 0.0084\n",
"Estimator: PanelOLS R-squared (Between): -0.1419\n",
"No. Observations: 18 R-squared (Within): -0.1093\n",
"Date: Tue, Apr 02 2024 R-squared (Overall): -0.1377\n",
"Time: 18:57:54 Log-likelihood -25.865\n",
"Cov. Estimator: Unadjusted \n",
" F-statistic: 0.0763\n",
"Entities: 3 P-value 0.7886\n",
"Avg Obs: 6.0000 Distribution: F(1,9)\n",
"Min Obs: 6.0000 \n",
"Max Obs: 6.0000 F-statistic (robust): 0.0763\n",
" P-value 0.7886\n",
"Time periods: 6 Distribution: F(1,9)\n",
"Avg Obs: 3.0000 \n",
"Min Obs: 3.0000 \n",
"Max Obs: 3.0000 \n",
" \n",
" Parameter Estimates \n",
"================================================================================\n",
" Parameter Std. Err. T-stat P-value Lower CI Upper CI\n",
"--------------------------------------------------------------------------------\n",
"Q('Ad cost') -0.0889 0.3217 -0.2763 0.7886 -0.8166 0.6389\n",
"================================================================================\n",
"\n",
"F-test for Poolability: 14.193\n",
"P-value: 0.0003\n",
"Distribution: F(7,9)\n",
"\n",
"Included effects: Entity, Time\n"
]
}
],
"source": [
"from linearmodels.panel import PanelOLS\n",
"\n",
"# Efectos fijos de dos vias\n",
"model = PanelOLS.from_formula('Sales ~ Q(\"Ad cost\") + EntityEffects + TimeEffects', data=df_panel)\n",
"results = model.fit()\n",
"print(results.summary)\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Referencias\n",
"Cunningham, S. (2021). _Causal Inference: The Mixtape_.\n",
"Huntington-Klein, N. (2022). _The Effect: An Introduction to Research Design and Causality_.\n",
"Facure Alves, M. (2022). _Causal Inference for the Brave and True_.\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Como citar este libro\n",
"\n",
"Cita en APA (7a edición)\n",
"\n",
"```\n",
"García Meza, M. A. (2024). *Inferencia causal para negocios: Una guía práctica con Python*. https://inferenciacausal.com\n",
"```\n",
"\n",
"Cita en MLA (9a edición)\n",
"\n",
"```\n",
"García Meza, Mario A. *Inferencia Causal para Negocios: Una Guía Práctica con Python*. Durango, México, 2024. https://inferenciacausal.com.\n",
"```\n",
"\n",
"Cita en Chicago\n",
"\n",
"```\n",
"García Meza, Mario A. I*nferencia Causal para Negocios: Una Guía Práctica con Python*. Durango, México, 2024. https://inferenciacausal.com.\n",
"```\n",
"\n",
"\n",
"_Espero que este libro te resulte útil._\n",
"\n",
"_Si eres economista y deseas escribir tu primer paper de economía, hice este curso gratis por correo justo para tí._\n",
"\n",
"_En este curso aprenderás a:_\n",
"\n",
"* _Crear objetivos de investigación que tienen sentido, que ningún juez te podrá \"tumbar\"._\n",
"* _Usar causalidad en tus modelos y no sólo seguir una receta de cocina para trabajar con datos._\n",
"* _Apoyarte de otras personas y la tecnología para escribir al menos dos papers al año, todos los años, consistentemente y para siempre._\n",
"\n",
"