Arquitectura on-premises con SQL Server y Pentaho Data Integration para Windows 11.
Simple, robusta y costo 0
La siguiente arquitectura de datos es simple pero poderosa, recomendada para proyectos personales e incluso pequeñas empresas cuyos datos sean relacionales, que consta de la versión express de SQL Server, que servirá como un Data Warehouse y la community edition del Pentaho Data Integration, que será útil para la carga de datos desde varias fuentes y la transformación de los mismos con ANSI SQL o transformaciones predefinidas. Esta combinación de herramientas no conlleva ningún costo y hace posible la creación de procesos ETL para generar valor con los datos.
En este paso a paso completo y detallado repasaremos la instalación de cada herramienta y la conexión entre ellas, que es lo que permite sacar el máximo provecho de esta arquitectura.
1. Instalación de SQL Server Express.
Ir al siguiente link: SQL Server Express y descargar la opción Express.
Al abrir el instalador, seleccionar el tipo de instalación básica, instalar en la ruta de preferencia o en la ruta por defecto.
Cuando termine la instalación, hacer click en “Instalar SSMS”
Se va a abrir un link en el navegador, hacer click en la opción “Download SSMS“, esto llevará a este vínculo para descargar la versión más reciente, ahí lo podrás descargar e instalar con las opciones por defecto.
Al terminar la instalación, se busca la aplicación como SSMS y aparecerá como “SQL Server Management Studio”
Al abrir, se accede con las credenciales por defecto y se crea la base de datos haciendo click derecho en “Databases” → “New Database”
Listo, el SQL Server Express está instalado y listo para usar
2. Descarga e Instalación del Java JDK
Como prerrequisito para instalar el Pentaho Data Integration, hay que tener Java instalado en el equipo, descargar e instalar desde el siguiente link: Java JDK, elegir la opción según el sistema operativo
3. Instalación de Pentaho Data Integration
Ir al siguiente link para descargar el programa: Pentaho Data Integration
Al dar click en el botón de descarga, va a aparecer una ventana emergente para aceptar las licencias correspondientes y después va a aparecer esta lista de herramientas, descargar el .zip indicado en la imagen.
Al descargarlo, descomprimir la carpeta data-integration en la ruta de preferencia.
En la carpeta data-integration descomprimida, ejecutar el programa desde el ejecutable Spoon.bat, puede que al principio necesite ser ejecutado como administrador.
4. Conexión entre SQL Server y Pentaho
Para realizar la conexión entre el Pentaho y el SQL Server, necesitamos descargar el driver (zip) para SQL Server, en el siguiente link: JDBC Driver
Al descomprimir la carpeta, entrar a la ruta enu -> jars, copiar el jar mssql-jdbc-12.4.2.jre8 o el mssql-jdbc-12.4.2.jre11, dependiendo de la instalación del Java
Pegar el jar en la carpeta data-integration de Pentaho, dentro de la carpeta “lib”
Luego, abrir el SQL Server Management Studio, ingresar con las credenciales por defecto y abrir las Server Properties, haciendo click derecho en el nombre de la instancia SQL y haciendo click en “Properties”
Ir al apartado de “Security” , seleccionar “SQL Server and Windows authentication mode” y “OK” para cerrar la ventana emergente.
Desplegar la carpeta “Security” → “Logins” y abrir las propiedades del usuario “sa” y en el apartado “General”, establecer una contraseña y anotarla.
En la misma ventana emergente, ir al apartado “Status” y activar los permisos para conectarse a la base de datos y el Login.
Luego, hay que abrir el SQL Server Configuration Manager
Ahí, desplegar el apartado de “SQL Server Network Confifguration” y hacer click en “Protocols for SQLEXPRESS” y asegurarse de que los items “Shared Memory” y “TCP/IP” estén habilitados, en caso contrario, habilitarlos haciendo click derecho → “Enable”.
Después, abrir “TCP/IP” y asegurarse de configurarlo como en el siguiente ejemplo, para que el Pentaho pueda conectarse al SQL Server por medio del puerto 1433
En este punto la configuración ya está lista para conectar las dos aplicaciones y empezar a construir procesos ETL, pero es neccesario reinicial el servicio del SQL Server para que funcione inmediatamente, para esto hay que buscar “Servicios” en el buscador del sistema y acceder
Al hacerlo, buscar el servicio de SQL Server (SQLEXPRESS) y reiniciar el servicio.
Listo, ahora las aplicaciones están correctamente instaladas en el sistema y conectadas entre si.