"easyMahout" es un proyecto que tiene como objetivo hacer fácil lo difícil. Nos referimos a la utilización de algoritmos de minería de datos a través de Apache Mahout y Apache Hadoop. Hasta este momento, para utilizar las herramientas que nos ofrecían tanto Mahout como Hadoop necesitábamos de un conocimiento alto en lo referente al sistema operativo GNU/Linux, al uso de comando Shell y una gran inversión de tiempo en aprendizaje y configuración.udEl objetivo de este proyecto es ofrecer al usuario una interfaz gráfica fácil, simple y sencilla, es decir, intuitiva. Aunque a primera vista podría parecer una interfaz demasiado simple, easyMahout esconde en sus entrañas una completísima funcionalidad y configuración de sus algoritmos, permitiéndonos hacer fácilmente, lo que hasta ahora era una serie interminable de comandos para construir sistemas de recomendación, agrupamiento o clasificación. El modo de empleo es directo, el usuario ofrecerá los datos de entrada a la aplicación, así como una serie de parámetros necesarios para la correcta ejecución de los mismos, y obtendrá los resultados. El usuario podrá cambiar ciertos parámetros desde la interfaz, ajustando los algoritmos a sus necesidades y podrá observar la variación de los resultados hasta encontrar la configuración óptima para sus datos.udLa aplicación tiene la posibilidad de generar sistemas de recomendación, clustering y clasificación de datos genéricos de cualquier tipo, siempre y cuando tengan una estructura homogénea. El software “easyMahout” está dirigido a usuarios con cierto conocimiento en el uso de estos algoritmos de minería de datos, pudiendo así explotar el 100% de la funcionalidad que ofrece nuestra aplicación. Sin embargo, el funcionamiento es tan sencillo que cualquier persona será capaz de utilizarla con la ayuda de la lectura de esta memoria.udUna vez entendida la utilidad de la aplicación, también es importante explicar el ámbito en el que se encuentra. Hasta ahora, el lector podría pensar que no ofrecemos nada nuevo con respecto a otras aplicaciones de minería de datos. Esto es porque todavía no hemos introducido Apache Hadoop, ni el concepto de Big Data.udApache Hadoop es un framework para trabajar con aplicaciones altamente distribuidas, es decir, trabajar con miles de nodos y petabytes de datos usando un relativamente nuevo paradigma de programación: MapReduce. ¿Qué ofrece nuestra aplicación que no ofrece ninguna otra? La posibilidad de ejecutar estos algoritmos escritos en MapReduce, con todos los beneficios que ello conlleva, a través de una aplicación fácil como la propuesta en este proyecto.
展开▼