Geoestadistica
Geoestadistica gy marianytranklin I Acka6pR 03, 2010 | Al pagos INTRODUCCION A LA GEOESTADISTICA 7 30′ W MAR CARIBE Boca de la Barra 300 C. Clarín 280 260 240 220 R. sevilla C. Grande 200 180 160 R. Ar ac at ac a PACE to View nut*ge 140 1045′ N 120 R. Fundacion Teoría y Aplicación UNIVERSIDAD NACIONAL DE COLOMBIA sede Bogotá Facultad de Ciencias Departamento de Estadística. 4. 45. Indicador 4. 4. 6. LogNormal y Multigaussiano. Aplicaciones. 4. 5. 5. Temas Especiales. 5. 1. 5. 2. 5. 3. 5. 4. 5. 5. Cokriging Ordinario Kriging sobre Ejes Factoriales Diseño de Redes de Muestreo.
Simulación Aplicaciones. . Apéndice 6. 1. 6. 2. 6. 3. 6. 4. Indicador IGCi(P) Álgebra de Matrices Conceptos de Probabilidad Revisión de Algunos Métodos Estadísticos. 7. Referencias. 4 Prefacio La necesidad de acudir a herramientas estadísticas para el análisis de datos en todas las áreas del conocimiento, ha hecho que aparezcan con el correr de los años nuevas metodologías que, no obstante se centran en fundamentos probabilistlcos comunes, son específicas para cada una de las diversas disciplinas del saber.
Algunos ejemplos son, entre otros, la econometría, psicometría o la bioestadística. La gran relevancia que tiene ctualmente a nivel mundial
Dentro de esta última, los métodos geoestadísticos juegan un papel preponderante. El presente documento tiene como propósito servir de consulta a geólogos, biólogos, ecólogos, agrónomos, ingenieros, meteorólogos y todos aqu nales que se encargan 31 el estudio de información orreferenciada. Se base para las aplicaciones información de variables fisicoquímicas y biológicas medidas en un estuario ubicado en la costa norte de Colombia.
La razón fundamental para lo anterior, es que este escrito es uno de los resultados centrales de un proyecto de investigación 1, cuyo objetivo fundamental fue el de evaluar la aplicabilidad de algunos procedimientos estadísticos en el análisis de datos medidos en este tipo de ecosistemas. El documento tiene un enfoque teórico-práctico. Para el seguimiento completo de la teoría descrita se requiere tener conocimientos básicos de ?lgebra de matrices y de estadística matemática.
Sin embargo aquellas personas que estén poco familiarizadas con estos temas, podrán obviar la lectura de algunas secciones en las que se hacen desarrollos teóricos y centrar su atención en la filosofía de los métodos presentados y en las aplicaciones mostradas en cada uno de los capltulos del documento. una resumen no exhaustivo de conceptos de álgebra lineal y de estadística es hecho al final en el apéndice.
No obstante en el escrito se cubren diversos temas geoestadísticos y se hacen aplicaciones de métodos recientes, s necesario acudir a la lectura de artículos científicos y textos avanzados para lograr un buen dominio de esta metodología. Un libro formal desde el punto de vista matemático con aplicaciones en diversas dlsciplinas es Cressle (1993). Otras referencias pueden ser tomadas de la bibliografía.
Proyecto «Análisis y aplicación de técnicas geoestadísticas en la modelación de procesos estocásticos relacionados con variables ecológicas en ambientes estuarinos» ecológicas en ambientes estuarinos», cofinanciado por INVEMARy COLCIENCIAS. 5 Introducción El estudio de fenómenos con correlación espacial, por medio de étodos geoestadísticos, surgió a partir de los años sesenta, especialmente con el propósito de predecir valores de las variables en sitios no muestreados.
Como antecedentes suelen citarse trabajos de Sichel (1 947; 1949) y Krige (1951 El primero observó la naturaleza asimétrica de la distribución del contenido de oro en las minas surafricanas, la equiparó a una distribución de probabilidad lognormal y desarrolló las fórmulas básicas para esta distribución. Ello permitió una primera estimación de las reservas, pero bajo el supuesto de que las mediciones eran independientes, en clara contradicción con la experiencia de que xisten «zonas» mas ricas que otras. Una primera aproximación a la solución de este problema fue dada por geólogo G.
Krige que propuso una variante del método de medias móviles, el cual puede considerarse como el equivalente al krigeado simple que, como se verá más adelante, es uno de los métodos de estimación lineal en el espacio con mayores cualidades teóricas. La formulación rigurosa y la solución al problema de predicción (estimación en muchos textos geoestadísticos) vino de la mano de Matheron (1962) en la escuela de minas de París. En los años sucesivos la teoría se fue depurando, ampliando su campo e validez y reduciendo las hipótesis necesarias (Samper y Carrera, 1990).
De la minería las técnicas geoestadísticas, se han «exportado» a muchos 4 31 (Samper y Carrera, 1990). De la minería las técnicas geoestadísticas, se han «exportado» a muchos otros campos como hidrología, física del suelo, ciencias de la tierra y más recientemente al monitoreo ambiental y al procesamiento de imágenes de satélite. Aunque la aplicación de la herramienta geoestadística es bastante reciente, son innumerables los ejemplos en los que se ha utilizado esta técnica en estudios ambientales con el ánimo de predecir fenómenos espaciales Robertson, 1987; cressie y Majure, 1995; Diggle et al. 1995). La columna vertebral del análisis geoestadístico es la determinación de la estructura de autocorrelación entre los datos y su uso en la predicción a través de las técnicas conocidas como kriging y cokriging. Otros temas importantes dentro del estud10 de información georreferenciada son el diseño de redes de muestreo (McBratney et al. , 1981), la geoestadistica multivariada (Wackernagel, 1995) y la simulación (Deutsh y Journel, 1992). La geoestadística es solo una las áreas del análisis de datos espaciales.
Es importante reconocer cuando la información eorreferenciada es susceptible de ser analizada por medio de dicha metodología. Por ello en el documento se hace inicialmente una definición global de estadística espacial y se describen las características especiales que enmarcan cada una de sus áreas. En el estudio de información georreferenciada, de forma análoga a como se procede en la aplicación de muchos procedimientos estadísticos, la primera etapa que se debe cumplir es la del análisis exploratorio de datos (AED).
Esta busca identificar localización, varia s 1 cumplir es la del análisis exploratorio de datos (AED). Esta busca dentificar localización, variabilidad, forma y observaciones extremas. Por ello en el primer capítulo del escrito se hace una revisión de métodos empleados en el AED y se describen algunos particularmente útiles en el contexto del análisis de información georreferenciada. Posteriormente en el segundo capitulo, entrando en materia, se hace definición de conceptos básicos dentro de la teoría geoestadistica. En el tercer capitulo se describen los procedimientos empleados para identificar de manera experimental (con base en datos muestrales) la estructura de autocorrelación espaclal, para lgunas distancias dadas, de un conjunto de datos de una variable. Se muestra también como generalizar dicha estructura para cualquier distancia entre los sitios de observación. Una vez detectada la autocorrelación espacial, el siguiente paso es la predicción en sitios de la región de estudio donde no se ha hecho medición de la variable de interés.
Esto es llevado a cabo por medio de alguno de los procedimientos kriging que son descritos en el capítulo cuatro. Por último, en el capítulo cinco, se hace referencia a temas especiales dentro del anállsls geoestadístico como cokriging, componentes principales regionalizados, iseño de redes de muestreo y simulación. En cada sección del documento, después de que han sido expuestos los aspectos teóricos esenciales de cada técnica, se muestran aplicaciones practicas. Capítulo uno Datos Espaciales y Análisis Exploratorio En las secciones 1 . 1 y 1. 2 se define estadística espacia 6 1 Espaciales y Análisis Exploratorio En las secciones 1. 1 y 1. 2 se define estadística espacial y se mencionan sus subdivisiones. Lo anterior se hace con el propósito único de que el lector identifique el alcance del tema considerado dentro del escrito. Por ello a partir de la sección de este capítulo y en los capítulos siguientes se consideran sólo temas referentes a geoestad[stica 1 . 1. Estadística Espacial.
Estadística espacial es la reunión de un conjunto de metodologías apropiadas para el análisis de datos que corresponden a la medición de variables aleatorias en diversos sitios (puntos del espacio o agregaciones espaciales) de una región. De manera más formal se puede decir que la estadística espacial trata con el análisis de realizaciones de un proceso estocástico {Z ( s) : s G D}, en el que se R d representa una ubicación en el espacio uclidiano ddimensional, Z(s) es una variable aleatoria en la ubicación sy s varía sobre un conjunto de índices DC R d . . 2. Areas de la Estadística Espacial. La estadística espacial se subdivide en tres grandes áreas. La pertinencia de cada una de ellas está asociada a las características del conjunto D de índices del proceso estocástico de interés. A continuación se mencionan dichas áreas y se describen las propiedades de D en cada una de éstas. Geoestadística: Las ubicaciones s provienen de un conjunto D continuo y son seleccionadas a juicio del investigador (D fijo).
Algunos ejemplos de datos que pueden ser tratados con esta metodología son: Niveles de un contaminante en diferentes sitios de una parcela, contenidos auríferos de una mina de un contaminante en diferentes sitios de una parcela, contenidos auriferos de una mina, valores de precipitación en Colombia medida en las diferentes estaciones meteorológicas en un mes dado o los niveles piezométricos de un acuífero. En los ejemplos anteriores es claro que hay continuidad espacial, puesto que en cualquier sitio de la parcela, de la mina, de Colombia o del acuífero pueden ser medias las correspondientes variables.
Es mportante resaltar que en geoestadística el propósito esencial es la interpolación y si no hay continuidad espacial pueden hacerse predicciones carentes de sentido. Por ejemplo si la variable medida es producción de café en las fincas cafeteras del departamento del Quindío, hacer interpolación espacial y realizar un mapa de distribución de la producción cafetera puede ser carente de sentido porque podrían hacerse predicciones sobre áreas urbanas o no cultivadas con café.
Además de lo anterior las mediciones, no obstante sean georreferenciadas, corresponden a una agregación espacial (finca) más que a un punto del spacio. En la parte de arriba, al comienzo de este párrafo, se mencionó que D debía ser fijo. A este respecto cabe aclarar que el investigador puede hacer selección de puntos del espacio a conveniencia o puede seleccionar los sitios bajo algún esquema de muestreo probabilístico. 8 • Lattices (enmallados): Las ubicaciones s pertenecen a un conjunto D discreto y son seleccionadas por el investigador (D fijo).
Estas pueden estar regular o irregularmente espaciadas. Algunos ejemplos de datos en Iattices son los siguientes: Tasa de morbilidad 31 irregularmente espaciadas. Algunos ejemplos de datos en lattices on los siguientes: Tasa de morbilidad de hepatitis en Colombia medida por departamentos, tasa de accidentalidad en sitios de una ciudad, producción de caña de azúcar en el departamento del Valle del Cauca según municipio, colores de los pixeles en interpretación de imágenes de satélite.
En los ejemplos anteriores se observa que el conjunto de ubicaciones de interés es discreto y que estas corresponden a agregaciones espaciales más que a un conjunto de puntos del espacio. Es obvio que la interpolación espacial puede ser carente de sentido con este tipo de datos. • Patrones Espaciales: las ubicaciones pertenecen a un conjunto D que puede ser discreto o continuo y su selección no depende del investigador (D aleatorio).
Ejemplos de datos dentro de esta área son: Localización de nidos de pájaros en una región dada, puntos de imperfectos dentro de una placa metálica, ubicación de los sitios de terremoto en Colombia o cuadrantes de una región con presencia de una especie particular. Debe notarse que en los ejemplos anteriores hay aleatoriedad en la selección de los sitios, puesto que la ubicación de los nidos de los pájaros, de los imperfectos dentro de la placa metálica, de los sitios de erremoto o de los cuadrantes con presencia de la especie, no dependen del criterio del investigador. na vez se ha hecho la selección de sitios es posible hacer medidas de variables aleatorias en cada uno de ellos. por ejemplo si en primera instancia se establece la ubicación de árboles de pino dentro de un bosque, es posible que sea d establece la ubicación de árboles de pino dentro de un bosque, es posible que sea de interés medir en cada uno de los árboles el diámetro o la altura. En general el propósito de análisis en estos casos es el de determinar si la distrlbución de los individuos entro de la región es aleatoria, agregada o uniforme. 1. 3.
Datos Georrferenciados Las mediciones de las características de interés en un estudio regionalizado tienen implícitamente asociadas las coordenadas de los sitios en donde estas fueron tomadas. Cuando el área de estudio es considerablemente grande se usa un geoposicionador para establecer dichas coordenadas. En otros casos, por ejemplo en diseños experimentales con parcelas, es suficiente con hacer asignaciones segun planos cartesianos. Un esquema general de datos georreferenciados es el siguiente: Sito 1234.. . n Latitud Norte Longitud Este XI XI 1 x21 x31 x41 . l X2 x12 x22 x32 x42 . xn2 XI p x2p x3p x4p . xnp En la tabla anterior n es el número de sitios muestreados y p el de variables medidas en cada uno de ellos. Cada xij corresponde a la medida de la variable Xj(j- 1, p) en el sitio 1, n), que puede ser cuantitativa o categórica. Algunas de las variables pueden estar más intensamente muestreadas que las otras (xij faltantes). Las coordenadas pueden ser planas, geográficas (grados, minutos y segundos) o cartesianas. Sin embargo la posible utilización de unas u otras depende del software empleado para los análisis. 1. 4. Justi