Post Destacado

¿Buscas trabajo y no has certificado en Excel? 🤔

Hoy quiero hablarte sobre un tema que puede cambiar tu vida profesional: la certificación oficial de Excel MO-200. Puede que te estés preguntando, ¿por qué debería importarme obtener esta certificación? Pues, sigue leyendo y descubrirás las ventajas que puede ofrecerte. ¿Qué es la Certificación MO-200? La certificación MO-200, también conocida como "Microsoft Office Specialist: Excel Associate (Excel and Excel 2019)", es una credencial oficial otorgada por Microsoft . Este examen valida tus habilidades en Excel, asegurando que eres capaz de manejar eficientemente una amplia gama de tareas dentro de esta poderosa herramienta. Básicamente, todo el mundo agrega en sus CV la frase " Dominio de Excel ", pero casi nadie se preocupa por demostrarlo oficialmente. Esta es tu oportunidad para ser el candidato preferido en tu próxima búsqueda. ¿Por Qué Deberías Considerarla? 1. Mejora tu Currículum:    Tener una certificación oficial en tu currículum te diferencia de otros can

Domina la Regresión Lineal paso a paso en Excel

 


¿Alguna vez te has preguntado cómo predecir tendencias o patrones en tus datos? La regresión lineal es una herramienta poderosa y versátil que te permitirá hacer exactamente eso, y lo mejor de todo, es que puedes realizarla fácilmente en Excel. En este artículo, te guiaremos a través de los conceptos básicos de la regresión lineal simple y múltiple, y te mostraremos cómo habilitar los complementos necesarios en Excel para realizar estos análisis de forma rápida y sencilla. 

Prepárate para descubrir cómo dominar estas habilidades en Excel y dar un salto adelante en tus proyectos de análisis de datos.

¿Qué es la Regresión Lineal?

La regresión lineal es un método estadístico que nos permite estudiar la relación entre dos o más variables. En una regresión lineal simple, analizamos la relación entre dos variables, mientras que en una regresión lineal múltiple, estudiamos la relación entre una variable dependiente y múltiples variables independientes. El objetivo es poder predecir el valor que asumirá una variable, en función de los valores que toma otra.

Algunos ejemplos de aplicación de la regresión lineal son:

  1. Pronóstico de ventas: Si tienes un negocio y deseas prever tus ingresos futuros, la regresión lineal te permitirá analizar la relación entre el tiempo y las ventas históricas, para estimar cómo se comportarán tus ventas en el futuro.
  2. Evaluación del impacto de la publicidad: La regresión lineal múltiple puede ayudarte a medir el efecto de diferentes canales de publicidad (como anuncios en redes sociales, televisión o radio) en las ventas de un producto o servicio. Con esta información, podrás optimizar tus inversiones en marketing y maximizar tus resultados.
  3. Estimación del valor de propiedades: En el mercado inmobiliario, la regresión lineal múltiple puede utilizarse para predecir el valor de una propiedad en función de características como el tamaño, la ubicación y la antigüedad de la construcción. Esto puede ser de gran utilidad para tasadores, agentes inmobiliarios y compradores. Como comprador, podría interesarte utilizar un modelo de estas características para detectar propiedades que representen buenas oportunidades de compra por tener un valor debajo del mercado de acuerdo con sus características.
  4. Investigación en ciencias sociales: Los investigadores en ciencias sociales a menudo utilizan la regresión lineal para estudiar la relación entre variables, como la relación entre el nivel educativo y los ingresos, o el efecto de diferentes políticas públicas en indicadores de bienestar.
  5. Medicina y epidemiología: La regresión lineal puede emplearse para analizar la relación entre variables de salud, como la relación entre la edad y la presión arterial, o la efectividad de diferentes tratamientos médicos en la mejora de ciertas condiciones.

Ahora que conoces ejemplos de esta técnica, muy probablemente estés pensando en ejemplos de tu trabajo o estudios donde esta técnica puede serte de utilidad. Afortunadamente, es muy sencillo realizarla en Excel.

Preparación de Complementos

Para realizar un análisis de regresión en Excel, primero debemos habilitar el complemento "Herramientas de análisis". Sigue estos pasos para hacerlo:

  1. Dentro de Excel, dirígete a la pestaña "Archivo".
  2. Haz clic en "Opciones" en la parte inferior izquierda de la ventana.
  3. Selecciona "Complementos" en la columna de la izquierda.
  4. En el menú desplegable "Administrar" en la parte inferior de la ventana, elige "Complementos de Excel" y haz clic en "Ir...".
  5. Marca la casilla junto a "Herramientas para análisis" y haz clic en "Aceptar".



Desarrollo de un modelo de Regresión Lineal en Excel

Una vez habilitado el complemento, puedes realizar una regresión lineal simple o múltiple siguiendo los siguientes pasos. Necesitarás una tabla que contenga al menos dos columnas:

1. Una variable independiente (X), que explica la variación de la 

2. variable dependiente (Y)

Volviendo a nuestro ejemplo de las propiedades, una variable independiente podría ser la superficie de una casa, y la variable dependiente, el precio de la misma. O bien podríamos tener varias variables independientes, como por ejemplo, la cantidad de habitaciones, la cantidad de baños, la superficie y la antigüedad. Con todas estas variables independientes, se buscará estudiar la relación que las mismas guardan con la variable dependiente, que es el precio, y así poder predecir eventualmente el precio de una propiedad basado en estas características, ya sea para tasarla, o comprobar si su precio es justo. Es importante que las columnas que contienen las variables sean numéricas, y que las variables independientes se encuentren contiguas entre sí.

Puedes descargar este libro de datos para acompañar los siguientes pasos del ejercicio.

  1. Ve a la pestaña "Datos" en la cinta de Excel.
  2. Haz clic en "Análisis de datos" en el grupo "Análisis".
  3. Selecciona "Regresión" en la lista de herramientas disponibles y haz clic en "Aceptar".
  4. En el cuadro de diálogo "Regresión", selecciona el rango de celdas que contiene tus datos de la variable dependiente (Y) en "Rango Y" y el rango de celdas que contiene tus datos de las variables independientes (X) en "Rango X". La variable dependiente es aquella que te interesa predecir a partir de la variable independiente, suponiendo que exista relación entre ambas.
  5. Elige dónde deseas que se muestren los resultados del análisis (una nueva hoja de cálculo, una hoja de cálculo existente o en la misma hoja de cálculo).
  6. Marca las casillas que correspondan a tus preferencias (en este caso, tildamos "Rótulos", porque nuestros datos tienen encabezados, esto hará los resultados más interpretables).
  7. Haz clic en "Aceptar".

Entendiendo los parámetros de la regresión lineal en Excel

Una vez que hayas realizado la regresión lineal en Excel, obtendrás una serie de parámetros que te ayudarán a interpretar los resultados y evaluar la calidad del modelo ajustado. A continuación, explicamos el significado de los parámetros más relevantes:
  • Coeficiente de determinación (R^2): El coeficiente de determinación, también conocido como R cuadrado, es un valor que varía entre 0 y 1 y nos indica qué proporción de la variabilidad total en la variable dependiente (Y) es explicada por la variabilidad en las variables independientes (X). Cuanto más cercano esté R^2 al valor de 1, mejor será el ajuste del modelo a los datos.
  • R^2 ajustado: A medida que se agregan más variables independientes a un modelo de regresión múltiple, es posible que el R^2 aumente, incluso si estas variables no tienen un efecto real en la variable dependiente. El R^2 ajustado corrige este problema, tomando en cuenta el número de variables independientes y el tamaño de la muestra. En general, es preferible utilizar el R^2 ajustado cuando se comparan modelos con diferentes números de variables independientes.
  • Valor crítico de F: el valor crítico de F estima la probabilidad de que los valores de Y en la muestra se hayan obtenido por azar, es decir, la probabilidad de que las variables independientes (Xi) no tengan relación alguna con la variable dependiente (Y) que se desea estimar. Deseamos que este valor sea lo más cercano a 0 posible, lo que indicaría que las variables X realmente están influyendo en la variable Y. Aunque está estrechamente relacionado con el coeficiente de determinación (R2), es posible obtener valores críticos de F razonables incluso con R2 no tan altos. Por lo general, se considera que el valor crítico de F es bueno si es menor a 0.2 o menor a 0.1.
  • Coeficientes: Los coeficientes en una regresión lineal representan la relación entre las variables independientes y la variable dependiente. Para una regresión lineal simple, se obtendrán dos coeficientes: la pendiente (también llamada coeficiente de regresión) y la ordenada al origen (o intercepción). En una regresión lineal múltiple, se obtendrá un coeficiente para cada variable independiente. Estos coeficientes indican cuánto cambia la variable dependiente en promedio cuando una variable independiente cambia en una unidad, manteniendo constantes las demás variables independientes.
  • Probabilidad (p-valor): El p-valor es un indicador de la significancia estadística de cada coeficiente en el modelo. Un p-valor pequeño (generalmente menor a 0.05) sugiere que el coeficiente es estadísticamente significativo y que la variable independiente correspondiente tiene un efecto real en la variable dependiente. Un p-valor grande indica que no hay evidencia suficiente para afirmar que la variable independiente afecta la variable dependiente. Su interpretación es parecida a la del valor crítico de F, pero aplicado a cada variable independientemente. Resulta conveniente eliminar las variables insignificantes para nuestro modelo para mejorar su funcionamiento.
Comprender estos parámetros te permitirá evaluar la calidad y relevancia de tu modelo de regresión lineal, y te ayudará a tomar decisiones informadas basadas en los resultados del análisis en Excel.



De nuestro ejemplo, obtenemos que este modelo explica a través de las variables X (independientes), el 47% de la variabilidad de la variable dependiente Y. Si bien es un valor no demasiado elevado, para la complejidad que involucra tasar una propiedad, podemos decir que una porción significativa del precio de la misma está explicado a través de las variables que tenemos en nuestra tabla. Otras variables podrían ser la ubicación geográfica, seguridad, superficie descubierta en el terreno, piscina, etc., que no están incluidas en este modelo, y que en ocasiones pueden resultar costosas o difíciles de obtener. Para nuestro modelo, lo consideramos un buen valor.

El valor crítico de F (en notación científica) es ínfimo, muy cercano a cero, con lo cual tenemos la pauta de que las variables empleadas son relevantes. 

Luego, tenemos los coeficientes, que nos explican cuánto varía el precio con cada unidad de variación de los valores de estas variables. Vemos que el precio se incrementa con la superficie y la cantidad de habitaciones que tenga una propiedad, y disminuye con la antigüedad, como es lógico suponer. Sorpresivamente, la cantidad de baños afecta negativamente al precio de la propiedad, pero si analizamos su probabilidad, vemos que tiene el valor más alto de todos, y por lo tanto, menor significancia (menor certeza). Los valores más relevantes parecen ser la superficie de la propiedad, y su antigüedad.

Utilizando la Regresión Lineal para predecir el precio de una propiedad

Para estimar el valor de una propiedad a partir de los datos suministrados, debemos multiplicar el valor de cada variable independiente para una propiedad cualquiera, por el coeficiente correspondiente, sumarlos todos junto con el valor de la intercepción.

Por ejemplo, una propiedad de:
  • 200 m2
  • 2 baños
  • 3 habitaciones
  • 5 años de antigüedad
podría tener un precio estimado de:

= 193,36 * 200 + (-3814,47) * 2 + 3974,31 * 3 + (-6191,72) * 5 + 77798,85

Es decir:

= $ 89.807

Puedes ver el modelo desarrollado, aquí.

Finalmente, entrará en juego el criterio del analista, pero este modelo sin duda nos proporciona una forma más que interesante y rápida de estimar, estudiar, y predecir variables a partir de inferir las relaciones que existen entre ellas. ¿Te animas a seguir probando?