Ir Arriba Ir abajo


Bienvenidos en chino
Mobbing-acoso laboral-IRG

Machine Learning Aplicado a la Ingeniería

Clic en la imagen


El aprendizaje automático o aprendizaje automatizado o aprendizaje de máquinas (del inglés, machine learning) es el subcampo de las ciencias de la computación y una rama de la inteligencia artificial, cuyo objetivo es desarrollar técnicas que permitan que las computadoras aprendan. Se dice que un agente aprende cuando su desempeño mejora con la experiencia y mediante el uso de datos; es decir, cuando la habilidad no estaba presente en su genotipo o rasgos de nacimiento. "En el aprendizaje de máquinas un computador observa datos, construye un modelo basado en esos datos y utiliza ese modelo a la vez como una hipótesis acerca del mundo y una pieza de software que puede resolver problemas".

En muchas ocasiones el campo de actuación del aprendizaje automático se solapa con el de la estadística inferencial, ya que las dos disciplinas se basan en el análisis de datos. Sin embargo, el aprendizaje automático incorpora las preocupaciones de la complejidad computacional de los problemas. Muchos problemas son de clase NP-hard, por lo que gran parte de la investigación realizada en aprendizaje automático está enfocada al diseño de soluciones factibles a esos problemas. El aprendizaje automático también está estrechamente relacionado con el reconocimiento de patrones. El aprendizaje automático puede ser visto como un intento de automatizar algunas partes del método científico mediante métodos matemáticos. Por lo tanto es un proceso de inducción del conocimiento.

El aprendizaje automático tiene una amplia gama de aplicaciones, incluyendo motores de búsqueda, diagnósticos médicos, detección de fraude en el uso de tarjetas de crédito, análisis del mercado de valores, clasificación de secuencias de ADN, reconocimiento del habla y del lenguaje escrito, juegos y robótica.

Fuente: Video | Texto

¿Cómo es el día a día de un Data Scientist? ¡Conviértete en Data Scientist por un día!

Clic en la imagen


¿Qué es la "ciencia de datos"?
Esta "ciencia de los datos", nacida del método científico, es la evolución de lo que hasta ahora se conocía como Analista de datos, pero a diferencia de éste que sólo se dedicaba a analizar fuentes de datos de una única fuente, el Data Scientist debe explorar y analizar datos de múltiples fuentes, a menudo inmensas (conocidas como Big Data), y que pueden tener formatos muy diferentes. Además, debe tener una fuerte visión de negocio para ser capaz de extraer y transmitir recomendaciones a los responsables de negocio de su empresa.

Estos conjuntos de datos pueden provenir de los datos generados por todo tipo de dispositivos electrónicos (como un móvil, todo tipo de sensores, secuenciadores de genoma, ...), redes sociales, datos médicos, páginas web, ... y afectan de manera muy significativa la investigación actual en muchos campos como las ciencias biológicas, la informática médica, la salud, las ciencias sociales, por citar sólo algunos.

¿Qué proceso sigue un Data scientist?
El proceso que sigue un Data Scientist para responder a las cuestiones que se le plantean se pueden resumir en estos 5 pasos:
  • Extraer los datos, independientemente de su fuente (webs, csv, logs, APIs, etc.) y de su volumen (Big Data o Small Data)
  • Limpiar los datos, para eliminar lo que distorsiona a los mismos
  • Procesar los datos usando diferentes métodos estadísticos (inferencia estadística, modelos de regresión, pruebas de hipótesis, etc.)
  • Diseñar nuevos tests o experimentos en caso necesario
  • Visualizar y presentar gráficamente los datos.
¿Qué se espera de un Data Scientist?
Lo que se espera de un Data Scientist es que no sólo sea capaz de abordar un problema de explotación de datos desde el punto de vista de análisis, sino que también tenga las aptitudes necesarias para cubrir la etapa de gestión de datos. Así, el objetivo de un perfil de este tipo es acercar dos mundos (el de gestión y análisis de datos), que hasta ahora habían podido existir separados, pero que debido a los nuevos requisitos de volumen, de variedad de datos y de velocidad en la explotación de estas (ie, las tres V's de la definición estándar del término Big Data), se ha vuelto imprescindible llevar a cabo esta explotación a través de un perfil combinado, y que además, también entienda el negocio para dirigir esta explotación hacia resultados que puedan ser de interés para la compañía...

Fuente: Texto | Video

¿Qué es el BLOCKCHAIN? Explicado por un INGENIERO INFORMÁTICO

Clic en la imagen

Una cadena de bloques, conocida en inglés como blockchain, es una estructura de datos cuya información se agrupa en conjuntos (bloques) a los que se les añade metainformaciones relativas a otro bloque de la cadena anterior en una línea temporal. De esta forma, gracias a técnicas criptográficas, la información contenida en un bloque solo puede ser repudiada o editada modificando todos los bloques posteriores. Esta propiedad permite su aplicación en un entorno distribuido de manera que la estructura de datos blockchain puede ejercer de base de datos pública no relacional que contenga un histórico irrefutable de información. En la práctica ha permitido, gracias a la criptografía asimétrica y las funciones de resumen o hash, la implementación de un registro contable (ledger) distribuido que permite soportar y garantizar la seguridad de dinero digital.

Siguiendo un protocolo apropiado para todas las operaciones efectuadas sobre la blockchain, es posible alcanzar un consenso sobre la integridad de sus datos por parte de todos los participantes de la red sin necesidad de recurrir a una entidad de confianza que centralice la información. Por ello se considera una tecnología en la que la "verdad" (estado confiable del sistema) es construida, alcanzada y fortalecida por los propios miembros; incluso en un entorno en el que exista una minoría de nodos en la red con comportamiento malicioso (nodos sybil) dado que, en teoría, para comprometer los datos, un atacante requeriría de una mayor potencia de cómputo y presencia en la red que el resultante de la suma de todos los restantes nodos combinados. Por las razones anteriores, la tecnología blockchain es especialmente adecuada para escenarios en los que se requiera almacenar de forma creciente datos ordenados en el tiempo, sin posibilidad de modificación ni revisión y cuya confianza pretenda ser distribuida en lugar de residir en una entidad certificadora. Este enfoque tiene diferentes aspectos:
  • Almacenamiento de datos: se logra mediante la replicación de la información de la cadena de bloques
  • Transmisión de datos: se logra mediante redes de pares
  • Confirmación de datos: se logra mediante un proceso de consenso entre los nodos participantes. El tipo de algoritmo de consenso más utilizado es el de prueba de trabajo en el que hay un proceso abierto competitivo y transparente de validación de las nuevas entradas llamada minería
El concepto de cadena de bloque fue aplicado por primera vez en 2009 como parte de Bitcoin.

Los datos almacenados en la cadena de bloques normalmente suelen ser transacciones (p. ej. financieras) por eso es frecuente llamar a los datos transacciones. Sin embargo, no es necesario que lo sean. Realmente podríamos considerar que lo que se registran son cambios atómicos del estado del sistema. Por ejemplo una cadena de bloques puede ser usada para estampillar documentos y asegurarlos frente a alteraciones.

Fuente: Texto | Video-Dot CSV

Curso Python para Principiantes

Clic en la imagen

Python es uno de los lenguajes de programación más importantes actualmente, siendo un lenguaje de propósito general puedes llegar a crear con el aplicaciones web, aplicaciones de escritorio, aprende Hacking e Inteligencia Artificial, y mucho más. En este curso voy a darte las bases de lenguaje para que puedas iniciar con el y luego continuar aprendiendo algún framework o bibliotecas que te permitan crear estas aplicaciones.

Fuente: Fazt

R para análisis de datos Capacitación para principiantes

Clic en la imagen
R es un entorno y lenguaje de programación con un enfoque al análisis estadístico.
R nació como una reimplementación de software libre del lenguaje S, adicionado con soporte para ámbito estático. Se trata de uno de los lenguajes de programación más utilizados en investigación científica, siendo además muy popular en los campos de aprendizaje automático (machine learning), minería de datos, investigación biomédica, bioinformática y matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con funcionalidades de cálculo y graficación. R es parte del sistema GNU y se distribuye bajo la licencia GNU GPL. Está disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux.