{"id":519,"date":"2021-05-19T15:27:02","date_gmt":"2021-05-19T15:27:02","guid":{"rendered":"https:\/\/ceupe.com.ar\/blog\/?p=1107"},"modified":"2023-03-27T12:45:26","modified_gmt":"2023-03-27T12:45:26","slug":"datasets-dataframes-y-spark-sql-en-big-data","status":"publish","type":"post","link":"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/","title":{"rendered":"Datasets, dataframes y Spark SQL en Big Data"},"content":{"rendered":"\n<p><strong>El procesamiento de datos masivos o <a href=\"https:\/\/ceupelatam.com\/master-en-big-data-analytics-cesuma\/\" target=\"_blank\" rel=\"noreferrer noopener\">Big Data<\/a> se sirve de m\u00faltiples herramientas<\/strong> que facilitan los procesos de captaci\u00f3n, almacenamiento, procesamiento y entrega de datos e informaci\u00f3n. De tal manera que la integridad de los mismos no se vea afectada y que se procesen en alta velocidad, independientemente del tama\u00f1o.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">\u00bfQu\u00e9 es un dataset?<\/h2>\n\n\n\n<p>Este t\u00e9rmino no tiene equivalente en el espa\u00f1ol, as\u00ed que puede traducirse aproximadamente como \u201cconjunto de datos\u201d, los cuales son generalmente, datos tabulados. Lo que quiere decir que estos datos se almacenan solo una tabla de una base datos determinada. Tambi\u00e9n pueden encontrarse en una matriz de datos estad\u00edsticos.<\/p>\n\n\n\n<p>En este caso, cada columna de una tabla representa una variable determinada y cada fila representa una pieza de los datos que se est\u00e1n tratando. Por ello, en un dataset se pueden encontrar todos y cada uno de los valores que las variables pueden tener, las cuales corresponden a cada pieza del conjunto de datos propiamente dicho.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">\u00bfC\u00f3mo se aplica al Big Data?<\/h2>\n\n\n\n<p>En el contexto del <strong>Big Data<\/strong>, un dataset son conjuntos de datos masivos que, al ser muy grandes, los programas de procesamiento est\u00e1ndares no pueden procesarlos eficientemente. De esta forma, los datasets son representaciones de datos que residen en una memoria, los cuales tienen una programaci\u00f3n coherente que permita procesar la informaci\u00f3n independientemente del origen de la misma.<\/p>\n\n\n\n<p>La caracter\u00edstica m\u00e1s resaltante de los datasets en el <strong>Big Data <\/strong>es que ya no tienen una estructura definida. Esto los diferencia de los datos desestructurados o RDD, los cuales est\u00e1n definidos como modelos tolerantes a fallos y que son capaces de actuar en paralelo.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">\u00bfQu\u00e9 se entiende por dataframe?<\/h2>\n\n\n\n<p>Se trata de una clase de objetos especiales en lenguajes de programaci\u00f3n, como el R, por ejemplo. Esta clase de organizaci\u00f3n de datos se usa cuando se hacen estudios de \u00edndole estad\u00edstica sobre los objetos que contiene una muestra espec\u00edfica. Por esta raz\u00f3n, se organizan en una hoja de datos, en los que cada columna corresponde a una variable dada y una fila corresponde a un objeto.<\/p>\n\n\n\n<p>Su arquitectura es parecida a una matriz, pero en esta \u00faltima solo pueden almacenarse datos de \u00edndole num\u00e9rica. Mientras que en el dataframe se incluyen otros tipos de datos, adem\u00e1s de n\u00fameros.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Aplicaciones de dataframes en el Big Data<\/h2>\n\n\n\n<p>Al utilizar datos estad\u00edsticos, los dataframes pueden ordenar este tipo de informaci\u00f3n si es masivo. <strong>El Big Data puede perder efectividad con el uso de herramientas convencionales, pero gracias a los dataframes, se almacenan grandes cantidades de datos organizados<\/strong> en variables y objetos, seg\u00fan como est\u00e9 configurado dicho dataframe.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Diferencias entre datasets y dataframes<\/h3>\n\n\n\n<p>En primer lugar, los datasets son conjuntos de datos organizados estructuralmente en forma de tabla y almacenan los mismos en filas y columnas con variables correspondientes a objetos. Por otro lado, los dataframes al estar organizados como matrices, pueden tener distintos tipos de datos, adem\u00e1s de n\u00fameros.<\/p>\n\n\n\n<p>Por ello, las organizaciones que gestionan el <strong>Big Data<\/strong> tienen estas 2 opciones para poder procesar la informaci\u00f3n. De tal manera que se pueda consultar, transformar y modificar el conjunto de datos que se obtengan en los contenedores que se organizan all\u00ed.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">La utilizaci\u00f3n de Spark SQL en el procesamiento de datos<\/h2>\n\n\n\n<p>Spark SQL consiste en un m\u00f3dulo para procesar datos estructurados. De tal manera que proporciona un dataframe y un motor de consulta de SQL totalmente distribuido. Adem\u00e1s, forma parte de un ecosistema, tambi\u00e9n llamado Spark que se integra favorablemente a \u00e9l.<\/p>\n\n\n\n<p>Entre las funciones de Spark, se encuentran las de planear, establecer y monitorear diversas aplicaciones multitareas para procesar grandes cantidades de datos o <strong>Big Data<\/strong>. Todo ello sobre ordenadores o distintas m\u00e1quinas del cl\u00faster que se encargan de ejecutar estas m\u00faltiples tareas.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Ventajas de utilizar Spark SQL en Big Data<\/h2>\n\n\n\n<p>Al tratarse de un sistema de c\u00f3digo abierto para el procesamiento y an\u00e1lisis de cantidades masivas de datos, muchas empresas tecnol\u00f3gicas como eBay, Netflix, entre otras, han adoptado el sistema Spark SQL por presentar m\u00faltiples ventajas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">La velocidad de procesamiento es mayor<\/h3>\n\n\n\n<p>La arquitectura del sistema Spark SQL est\u00e1 enfocada en la optimizaci\u00f3n y el rendimiento en el procesamiento del <strong>Big Data<\/strong>. Se especializa principalmente en el procesamiento en memoria y en la optimizaci\u00f3n en general. Por si no lo sab\u00edas, este sistema ha conseguido el r\u00e9cord mundial de clasificaci\u00f3n de datos masivos almacenados en disco.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">El uso de la herramienta es sencillo<\/h3>\n\n\n\n<p><strong>La plataforma Spark SQL dispone de interfaces de programaci\u00f3n de aplicaciones que son f\u00e1ciles de implementar y de usar, todo ello para trabajar de lleno en la gesti\u00f3n del Big Data<\/strong>. Por ello, esta herramienta tiene m\u00e1s de un centenar de operadores para transformar dichos datos y manipularlos cuando est\u00e9n estructurados.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">EL motor de procesamiento es unificado<\/h3>\n\n\n\n<p>El conjunto de bibliotecas de Spark SQL son de nivel superior cuyo motor de consultas de SQL es el m\u00e1s avanzado hasta ahora. Adem\u00e1s, incluye soporte optimizado para transmisiones de datos, procesamiento de gr\u00e1ficos y aprendizaje autom\u00e1tico.<\/p>\n\n\n\n<p>De tal forma que estas bibliotecas aumentan la productividad en cuanto a la programaci\u00f3n y se pueden combinar entre s\u00ed. Todo ello para que se creen flujos de trabajo complejos y procesen la informaci\u00f3n masiva como es debido. El <strong><a href=\"https:\/\/ceupelatam.com\/master-en-big-data-analytics-cesuma\/\" target=\"_blank\" rel=\"noreferrer noopener\">M\u00e1ster en Big Data Analyics<\/a><\/strong><a href=\"https:\/\/ceupelatam.com\/master-master-bigdata-analytics\/\" target=\"_blank\" rel=\"noreferrer noopener\"> <\/a>te brindar\u00e1 la oportunidad de estar en contacto con la tecnolog\u00eda de punta que se encarga de procesar cantidades masivas de informaci\u00f3n. De tal manera que puedas estar al tanto y obtener los conocimientos necesarios para la ejecuci\u00f3n de herramientas destinadas a facilitar el procesamiento de Big Data.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>El procesamiento de datos masivos o Big Data se sirve de m\u00faltiples herramientas que facilitan los procesos de captaci\u00f3n, almacenamiento, procesamiento y entrega de datos e informaci\u00f3n. De tal manera que la integridad de los mismos no se vea afectada y que se procesen en alta velocidad, independientemente del tama\u00f1o. \u00bfQu\u00e9 es un dataset? Este [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":520,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6],"tags":[],"wf_post_folders":[],"class_list":{"0":"post-519","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-big-data"},"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v22.6 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Datasets, dataframes y Spark SQL en Big Data - Maestr\u00edas Online<\/title>\n<meta name=\"description\" content=\"Algunas aplicaciones para Big Data permiten la realizaci\u00f3n de procesos que facilitan el uso adecuado de los datos en las empresas.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Datasets, dataframes y Spark SQL en Big Data - Maestr\u00edas Online\" \/>\n<meta property=\"og:description\" content=\"Algunas aplicaciones para Big Data permiten la realizaci\u00f3n de procesos que facilitan el uso adecuado de los datos en las empresas.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/\" \/>\n<meta property=\"og:site_name\" content=\"Maestr\u00edas Online\" \/>\n<meta property=\"article:published_time\" content=\"2021-05-19T15:27:02+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-03-27T12:45:26+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/ceupe.com.ar\/blog\/wp-content\/uploads\/2021\/05\/01-132.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1000\" \/>\n\t<meta property=\"og:image:height\" content=\"470\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"admin\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"admin\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"5 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/\",\"url\":\"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/\",\"name\":\"Datasets, dataframes y Spark SQL en Big Data - Maestr\u00edas Online\",\"isPartOf\":{\"@id\":\"https:\/\/ceupe.com.ar\/blog\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/ceupe.com.ar\/blog\/wp-content\/uploads\/2021\/05\/01-132.jpg\",\"datePublished\":\"2021-05-19T15:27:02+00:00\",\"dateModified\":\"2023-03-27T12:45:26+00:00\",\"author\":{\"@id\":\"https:\/\/ceupe.com.ar\/blog\/#\/schema\/person\/c80ad0d710ec7f4dbd658262a8eeb9f5\"},\"description\":\"Algunas aplicaciones para Big Data permiten la realizaci\u00f3n de procesos que facilitan el uso adecuado de los datos en las empresas.\",\"breadcrumb\":{\"@id\":\"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/#primaryimage\",\"url\":\"https:\/\/ceupe.com.ar\/blog\/wp-content\/uploads\/2021\/05\/01-132.jpg\",\"contentUrl\":\"https:\/\/ceupe.com.ar\/blog\/wp-content\/uploads\/2021\/05\/01-132.jpg\",\"width\":1000,\"height\":470},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Portada\",\"item\":\"https:\/\/ceupe.com.ar\/blog\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Datasets, dataframes y Spark SQL en Big Data\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/ceupe.com.ar\/blog\/#website\",\"url\":\"https:\/\/ceupe.com.ar\/blog\/\",\"name\":\"Maestr\u00edas Online\",\"description\":\"Programas de Estudios Superiores Online a Distancia de Cursos, Maestr\u00edas y MBA\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/ceupe.com.ar\/blog\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"es\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/ceupe.com.ar\/blog\/#\/schema\/person\/c80ad0d710ec7f4dbd658262a8eeb9f5\",\"name\":\"admin\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/ceupe.com.ar\/blog\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/4d1e87bfdf3d3e06a908188637649f32101f5b498a8bb5c59d01eabedeaad1b2?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/4d1e87bfdf3d3e06a908188637649f32101f5b498a8bb5c59d01eabedeaad1b2?s=96&d=mm&r=g\",\"caption\":\"admin\"},\"sameAs\":[\"https:\/\/ceupe.com.ar\/blog\"],\"url\":\"https:\/\/ceupe.com.ar\/blog\/author\/admin\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Datasets, dataframes y Spark SQL en Big Data - Maestr\u00edas Online","description":"Algunas aplicaciones para Big Data permiten la realizaci\u00f3n de procesos que facilitan el uso adecuado de los datos en las empresas.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/","og_locale":"es_ES","og_type":"article","og_title":"Datasets, dataframes y Spark SQL en Big Data - Maestr\u00edas Online","og_description":"Algunas aplicaciones para Big Data permiten la realizaci\u00f3n de procesos que facilitan el uso adecuado de los datos en las empresas.","og_url":"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/","og_site_name":"Maestr\u00edas Online","article_published_time":"2021-05-19T15:27:02+00:00","article_modified_time":"2023-03-27T12:45:26+00:00","og_image":[{"width":1000,"height":470,"url":"https:\/\/ceupe.com.ar\/blog\/wp-content\/uploads\/2021\/05\/01-132.jpg","type":"image\/jpeg"}],"author":"admin","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"admin","Tiempo de lectura":"5 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/","url":"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/","name":"Datasets, dataframes y Spark SQL en Big Data - Maestr\u00edas Online","isPartOf":{"@id":"https:\/\/ceupe.com.ar\/blog\/#website"},"primaryImageOfPage":{"@id":"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/#primaryimage"},"image":{"@id":"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/#primaryimage"},"thumbnailUrl":"https:\/\/ceupe.com.ar\/blog\/wp-content\/uploads\/2021\/05\/01-132.jpg","datePublished":"2021-05-19T15:27:02+00:00","dateModified":"2023-03-27T12:45:26+00:00","author":{"@id":"https:\/\/ceupe.com.ar\/blog\/#\/schema\/person\/c80ad0d710ec7f4dbd658262a8eeb9f5"},"description":"Algunas aplicaciones para Big Data permiten la realizaci\u00f3n de procesos que facilitan el uso adecuado de los datos en las empresas.","breadcrumb":{"@id":"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/"]}]},{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/#primaryimage","url":"https:\/\/ceupe.com.ar\/blog\/wp-content\/uploads\/2021\/05\/01-132.jpg","contentUrl":"https:\/\/ceupe.com.ar\/blog\/wp-content\/uploads\/2021\/05\/01-132.jpg","width":1000,"height":470},{"@type":"BreadcrumbList","@id":"https:\/\/ceupe.com.ar\/blog\/datasets-dataframes-y-spark-sql-en-big-data\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Portada","item":"https:\/\/ceupe.com.ar\/blog\/"},{"@type":"ListItem","position":2,"name":"Datasets, dataframes y Spark SQL en Big Data"}]},{"@type":"WebSite","@id":"https:\/\/ceupe.com.ar\/blog\/#website","url":"https:\/\/ceupe.com.ar\/blog\/","name":"Maestr\u00edas Online","description":"Programas de Estudios Superiores Online a Distancia de Cursos, Maestr\u00edas y MBA","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/ceupe.com.ar\/blog\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"es"},{"@type":"Person","@id":"https:\/\/ceupe.com.ar\/blog\/#\/schema\/person\/c80ad0d710ec7f4dbd658262a8eeb9f5","name":"admin","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/ceupe.com.ar\/blog\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/4d1e87bfdf3d3e06a908188637649f32101f5b498a8bb5c59d01eabedeaad1b2?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/4d1e87bfdf3d3e06a908188637649f32101f5b498a8bb5c59d01eabedeaad1b2?s=96&d=mm&r=g","caption":"admin"},"sameAs":["https:\/\/ceupe.com.ar\/blog"],"url":"https:\/\/ceupe.com.ar\/blog\/author\/admin\/"}]}},"_links":{"self":[{"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/posts\/519","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/comments?post=519"}],"version-history":[{"count":1,"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/posts\/519\/revisions"}],"predecessor-version":[{"id":1614,"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/posts\/519\/revisions\/1614"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/media\/520"}],"wp:attachment":[{"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/media?parent=519"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/categories?post=519"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/tags?post=519"},{"taxonomy":"wf_post_folders","embeddable":true,"href":"https:\/\/ceupe.com.ar\/blog\/wp-json\/wp\/v2\/wf_post_folders?post=519"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}