CLASIFICACIÓN DE MARIHUANA EN NACIONAL Y EXTRANJERA EMPLEANDO CROMATOGRAFÍA GASEOSA Y TÉCNICAS DE RECONOCIMIENTO DE PATRONES. CLASIFICATION OF MARIHUANA IN NATIONAL AND FOREIGNER USING GAS CHROMATOGRAPHY AND PATTERN RECOGNITION TECHNIQUES. MSc. Ariel Martínez Calvo1. MSc. Danny Rodríguez González1, DrC. Isneri Talavera Bustamante1
[email protected] 1
Laboratorio Central de Criminalística
2
Centro de Aplicaciones de Tecnologías de Avanzada (CENATAV), Habana.
1
RESUMEN El trabajo presenta un método rápido y eficaz para clasificar en nacional o extranjera muestras de marihuana de origen desconocido, empleando la Cromatografía Gaseosa y Técnicas de Reconocimiento de Patrones. Para el estudio se emplearon 54 muestras procedentes de recalos y 25 de siembras incautadas en territorio nacional. Se utilizó como material herbario las hojas de la planta, las cuales fueron sometidas a un proceso de secado, trituración, extracción y purificación para la obtención de los extractos. Se obtuvieron los perfiles cromatográficos empleando la cromatografía gaseosa y el Cannabidiol como estándar externo. Se demostró la linealidad del detector FID y la precisión del método. Los cromatogramas fueron alineados y normalizados para eliminar el error de inyección. Para la exploración de los datos se aplicó el Método de los Componentes Principales, previo preprocesamiento de los mismos, con técnicas de normalización y centrado en la media. Con dos componentes principales se logró explicar más del 90 % de la variabilidad de la nube de datos y se demuestra la factibilidad de una diferenciación entre los dos tipos de marihuana. Para la selección del modelo óptimo de clasificación fueron probados nueve clasificadores sobre el conjunto de entrenamiento, resultando el método de los K-Vecinos más Cercanos conocido como K-NN; el de mejores resultados con un 1.39 % de error total en el entrenamiento y 3.9% en la validación con muestras externas, índices adecuados para la clasificación de muestras complejas. Palabras Clave: Marihuana, Cromatografía Gaseosa, Análisis de Componentes Principales, Clasificación, K-Vecinos más cercanos ABSTRACT The paper presents a fast and efficacious method to classify in National or Foreigner, marihuana of unknown origin using Gas Chromatography and Pattern Recognition Techniques. For the study were used 54 foreigner samples of marihuana and 25 samples from plantings confiscated in national territory. The leaves of the plant were used like herbal materials which were submitted to process of drying, triturating, extraction and purification in order to obtain the extracts. The chromatographic profiles were obtained using gas chromatography and Cannabidiol was used as external standard. The linearity of the FID detector was demonstrated and also the precision of the method. Chromatograms were aligned and normalized to eliminate the error from injection.
2
Principal Component Analysis was applied for the exploration of the data set, which was previously normalized and medium center. Two principal components explained more than 90% of the data variability, and also it gets confirmed the feasibility for the discrimination between the two types of marihuana. For the selection of the optimal classification model, nine classifiers on the training set were proven. The K- nearest neighbor classifier was the best, with only 1.39% of total error in the training step and 3.2 % error in the validation step with external samples, which is a very good performance in this type of complex samples. Keywords: Marihuana, Gas Chromatography, Principal Component Analysis, KNearest Neighbors
INTRODUCCIÓN. La droga que con más frecuencia es objeto de uso indebido, sigue siendo la Cannabis o Marihuana, como vulgarmente se conoce. La planta de Cannabis contiene alrededor de 400 sustancias químicas diferentes, siendo los cannabinoides presentes los que le confieren las propiedades psicoactivas, de los cuales se conocen alrededor de setenta /1/. Los cannabinoides son sustancias que tienen una estructura carbocíclica de 21 átomos de carbono, formados generalmente por tres anillos: ciclohexano, tetrahidropirano y benceno /2-3/. La cannabis y sus derivados están sometidos a control según las Listas I y IV de Sustancias Estupefacientes y Sicotrópicas de las Convenciones de 1961 y 1971 de la Junta Internacional de Fiscalización de Estupefacientes (JIFE). El Estado Cubano, conjuntamente con el Ministerio del Interior, le confiere gran prioridad al enfrentamiento a las drogas en toda su dimensión, logrando con éxito abortar las actividades de narcotráfico que se producen cerca de nuestras costas y el tráfico interno. Para lograr estos objetivos es de vital importancia poder determinar el origen de una muestra de marihuana de procedencia desconocida asi como correlacionar evidencias vegetales de este tipo; lo que facilita el descubrimiento de poseedores y distribuidores y permite direccionar mejor los esfuerzos de las investigaciones. 3
FUNDAMENTACION TEÓRICA. Actualmente se encuentran disponibles una serie de métodos químicos para el análisis cualitativo y cuantitativo de extractos de cannabis y su utilización en la comparación de muestras, que comprenden diferentes técnicas cromatográficas como CCD, CG y HPLC, entre otras /4/. Existen reportes con estudios de la variación en la composición química de extractos de cannabis de diferentes variedades y países /5/ y en particular para establecer a través del análisis químico de los cannabinoides, una relación con el país de origen /6/, o establecer el proveedor /7/. En el caso del análisis de muestras de marihuana que no son ricas en cannabinoides como: semillas, trazas de marihuana, pequeños fragmentos de raíces comienzan a emplearse técnicas de ADN /8 y 9/. La Quimiometría, rama aplicada de la Química Analítica y la Estadística, es una herramienta valiosísima para procesar datos, proporcionar respuestas y colocarlos en el contexto adecuado para convertirlos en información útil. Además proporciona información química de calidad. En el tema de la comparación de marihuana encontramos referencias de la aplicación del Análisis de Agrupamiento Jerárquico (HCA) y del Análisis del Discriminante Lineal (LDA) para establecer un mapa territorial de producción de marihuana del Brasil /10/, así como, la aplicación del HCA para determinar la relación entre individuos vinculados al tráfico de marihuana /11/. Por otra parte existe un reporte de un estudio realizado para diferenciar muestras de marihuana o hachís de Estados Unidos con otras procedentes de cinco regiones o países del mundo, a partir de una base de datos creada de muestras conocidas, empleando cromatografía gaseosa acoplada a la espectroscopía de masas y el método de clasificación de KNN-1 /12/. A partir las posibilidades reales que ofrece la cromatografía gaseosa como demuestra la literatura, asi como contar en los laboratorios de la institución con esta técnica de análisis y la plataforma automatizada de herramientas quimiométricas para el análisis multivariante de datos y la construcción de modelos de clasificación es que consideramos factible acometer el presente trabajo. MÉTODOS Y CONDICIONES EXPERIMENTALES. 2.1 Reactivos. Patrones empleados: Cannabidiol, certificado por las Naciones Unidas. 4
Disolventes orgánicos: Metanol (p.a Sigma-Aldrich Stainheim, Alemania). Otros reactivos: Carbón activado reactivo (BDH). 2.2 Materiales. Cristalería general de laboratorio (beakers, pipetas, embudos, erlenmeyers con tapas esmeriladas, espátulas, matraces aforados, probetas), papel de filtro de análisis cuantitativo de 25 mm, Filter-Lab (España). 2.3 Equipos. Cromatógrafo gaseoso 7890A, Agilent (Estados Unidos), inyector split/ splitless, detector FID, acoplado a un generador de hidrógeno H2PEM-100 AWF 100, Parker acoplado a una computadora HP Compaq, con el programa de adquisición de datos ChemStation. Columna HP-5, J & W Scientific (Estados Unidos), 30 m de longitud, 0.25 mm de diámetro interior, y 0.25 µm de capa interior (Estados Unidos). Jeringuilla Agilent (Estados Unidos) de 10 µl. Balanza analítica de precisión 0.1 mg, Explorer, Ohaus (Suiza). Baño ultrasónico Tuttnauer (Estados Unidos). Vórtex GENIE2. Centrífuga HETICH EBA 21. 2.4 Programas para el tratamiento de datos. Statgraphics Versión 5.1, para el tratamiento estadístico de datos y desarrollo del análisis de agrupamiento jerárquico (HCA). Microsoft Excel 2007, para el preprocesamiento de los datos y la realización de los gráficos. PLS_Toolbox, Eigenvector Research Inc. USA, Matlab, para el desarrollo del alineamiento de los cromatogramas. Toolbox, dd_tools, versión 1.5.0, 2006, Eigenvector Research Inc. USA, Matlab, diseñado por D.M. J. Tax, para la selección del clasificador y cálculo de errores de clasificación. 5
Quimiometrix, versión 1.0, CENATAV, Cuba, para el desarrollo del método de los componentes principales (PCA) y selección de la medida de disimilitud y cálculo de errores en el método de KNN vecinos más cercanos. 2.5 Cromatografía de gases. 2.5.1 Condiciones cromatográficas. Columna HP-5, J & W Scientific (Estados Unidos), 30 m de longitud, 0.32 mm de diámetro interior, y 0.25 µm de capa interior. Detector de ionización por llama Ajustar la velocidad de los gases de la siguiente forma: Velocidad de los gases: Gas portador: Hidrógeno 2 mL/ min (Presión=56.493 Kpa). Gases en el detector de ionización por llama: Hidrógeno: 30 mL/ min. Aire: 300 mL/ min. Temperatura del inyector: 250 ˚C. Temperatura del detector: 310 ˚C. Programa de temperatura de la columna: 190 ˚C, una rampa de calentamiento hasta 300 ˚C a 12 ˚C/ min y permanecer a 290 ˚C por 0.8335 minutos, con un tiempo total de 10 minutos. Volumen de Inyección de 1 µL. Modo de inyección: Con división de caudal de 20:1, con una presión de impulso de 200 KPa. Adquirir y exportar los cromatogramas en formato .xls, empleando el programa ChemStation acoplado al cromatógrafo. 2.6 Preparación de las muestras de picadura vegetal de marihuana.
6
Se trabajaron un total de 79 muestras provenientes de las provincias de La Habana, Camagüey, Tunas, Holguín y Granma; de las cuales 54 fueron muestras extranjeras procedentes de recalos e incautaciones realizadas en la frontera aérea y 25 procedentes de siembras incautadas en el territorio nacional, cada una por triplicadas. Preparación de las muestras: Se seca el material vegetal (hojas) en una estufa a 40 ˚C durante 2 h, se tritura en un mortero hasta lograr partículas finamente divididas, se pesan 50 mg, se añaden 600 μL de metanol y se colocan en un baño ultrasónico por 15 minutos. Transcurrido dicho tiempo, se adicionan 40 mg de carbón activado y se agita por 30 s en Vortex. Se centrifuga durante 7 min a 6 000 min-1 y se extrae el sobrenadante. Esta solución es la que se usa para el análisis cromatográfico por GC. 3. RESULTADOS Y DISCUSIÓN 3.1 Determinación de las condiciones de trabajo en cromatografía de gases. 3.1.1 Estudio de la linealidad del detector FID. Se empleó el Cannabidiol (CBD) como estándar externo. En la tabla 1 se resumen las pruebas estadísticas que demuestran que el modelo es lineal en las condiciones estudiadas, cumpliéndose los test de linealidad y proporcionalidad para un 95 % de confianza. Tabla 1. Resultados fundamentales del análisis estadístico del modelo que explica la respuesta lineal del detector para el CBD. Test Estadístico Test
Teo - Exp
Resultado
Adecuacidad
0.05> 0.000
Se rechaza H0. El modelo es adecuado
R2= 99.73
El modelo explica el 99.63 % de la variabilidad de la conc. de CBD
Valor de R
Linealidad
ANOVA
t Student 0.05> 0.000
Se rechaza H0. La pendiente es significativa. Proporcionalidad t Student 0.050< 0.052 Se acepta H0. Solo existen errores aleatorios. 3.1.2 Estudios de precisión para el método de preparación propuesto. 3.1.2.1 Repetibilidad instrumental del perfil cromatográfico. 7
La Tabla 2 muestra los valores obtenidos para cinco inyecciones de una muestra de origen nacional (M18A) y una extranjera (M62) y su comparación con toda la base de datos, y con los dos grupos estudiados. Tabla 2. Valores de la media, desviación estándar y coeficiente de variación para el estudio de repetibilidad instrumental de los perfiles cromatográficos. Muestras M18A (Nacional) M62 (Extranjera) Grupo Nacional Grupo Extranjera Base de Datos total
Media Total 0.2396 0.0455 0.2011 0.0570 0.1064
S Total 0.0110 0.0018 0.1377 0.0234 0.1055
CV Total (%) 4.67 3.90 69.60 40.00 99.19
Los coeficientes de variación son inferiores al 5 %. Estos valores de los Cv fueron comparados con el valor de la variabilidad de los perfiles cromatográficos de toda la base de datos y un valor inferior al 5 % de esta variabilidad se debe a la repetibilidad instrumental. Teniendo en cuenta que se trata de la variación de todo el cromatograma se consideraron estos valores como adecuados. 3.1.2.2 Repetibilidad a diferentes niveles de intensidades de los perfiles cromatográficos. La Tabla 3 muestra los valores obtenidos para tres muestras con una réplica, que fueron inyectadas cinco veces en el cromatógrafo y su comparación con toda la base de datos. Tabla 3. Valores de la media, desviación estándar y coeficiente de variación para el estudio de repetibilidad a diferentes niveles de intensidades de los perfiles cromatográficos.
Muestras
Media Total
S Total
CV (%)
Total
Intensidad Baja
0.0701
0.0063
8.97
Intensidad Media
0.1654
0.0110
6.63
Intensidad Alta Toda la Base de Datos
0.0318 0.1064
0.0019 0.1056
5.86 99.19
Los valores de los coeficientes de variación son superiores a los obtenidos en el estudio de repetibilidad instrumental, pues se estudian las muestras con su 8
réplica. Además, también se obtuvo que la repetibilidad disminuye al disminuir la intensidad de la señal, ya que los errores crecen al disminuir la señal. Al comparar estos CV con los experimentados por toda la base de datos, representan menos del 9 %, por lo que se consideró que la repetibilidad en toda la escala de intensidades de los perfiles cromatográficos estudiados es adecuada. 3.2 Análisis de las muestras empleando técnicas de reconocimiento de patrones. 3.2.1 Alineamiento de los cromatogramas. El alineamiento es esencial cuando se trata de comparar cromatogramas, pues cada variable corresponde con un tiempo de retención, los pequeños corrimientos característicos en la técnica de CG-FID pueden producir resultados erróneos aún cuando las muestras sean muy similares. Para el alineamiento se aplicó el algoritmo de correlación optimizada de deformación (COW) seleccionándose primeramente el cromatograma de referencia. 3.2.2 Selección del cromatograma de referencia. El cromatograma de referencia óptimo debe ser aquel que incluye todos los picos cromatográficos. Esto es poco frecuente, la mejor alternativa es encontrar el más apropiado de un conjunto de datos determinado. En este trabajo se selecciona aquel cromatograma más similar a los demás, a partir del mayor valor del producto de los coeficientes de correlación. En la figura 1 se muestra que el objeto 34 de la base de datos (Muestra M23b) es el que posee el valor mayor coeficiente de correlación.
Fig 1. Valor del grado del coeficiente de correlación vs el número de muestra. La muestra M23b (No.34) es la que posee un valor máximo. 9
3.2.3 Optimización de los parámetros para el alineamiento. El algoritmo COW se basa en encontrar el valor de efecto de deformación óptimo maximizando el valor de simplicidad y factor del pico. Se obtuvo como mejor par (tamaño de área de descuido, longitud de segmento) el de (80,9) con un valor de 1.7428. 3.2.4 Método de los componentes principales (PCA). La exploración de datos es un paso muy importante en el análisis multivariante de datos pues permite descubrir y visualizar tendencias, agrupamientos asi como correlacionar las variables que más inciden en este comportamiento. En el caso que nos ocupa se quiere descubrir la posibilidad de separar las muestras en dos grupos de acuerdo a su origen: Nacional o Extranjera. Los mejores resultados se obtienen con la técnica de exploración por el Análisis de Componentes Principales conocido como PCA por sus siglas en inglés. Al conjunto de entrenamiento fue necesario normalizado por la intensidad máxima y centrarlo en la media en función de lograr la corrección de los efectos de inyección y además la visualización de los gráficos de exploración. Se seleccionaron dos componentes principales a partir del analisis de la varianza y el error después de la crosvalidación, ya que con estos dos componentes se explica más del 90% de la variabilidad de la nube de datos. Se comprobó además la no existencia de datos anómalos. En la figura 2 se muestra el gráfico de los SCORES conocido asi en inglés y que expresa la posición de las muestras en el nuevo sistema de coordenadas que no son más que los componentes principales. Como puede verse el factor 1 o componente principal 1 permite una clara frontera irregular de separación entre los dos tipos de mariguana, hacia la izquierda las extranjeras y hacia la derecha las nacionales.
Figura 2. Gráfico de coordenadas de las muestras en los dos componentes principales. La línea irregular establece una frontera de separación. 10
Un estudio más profundo de los picos característicos para cada tipicidad utilizando Espectrometría de masa sería recomendable en próximos trabajos para conocer cuales son las sustancias discriminantes entre ambas clases y darle una mayor interpretabilidad química al análisis exploratorio. 3.3 Clasificación de las muestras de acuerdo a su origen. La clasificación de la marihuana de acuerdo a su origen se trató como un problema de clasificación de una clase. Se tomó como clase objetivo las de origen extranjero, por poseer mayor cantidad de muestras con mayor representatividad y como anómala la marihuana de origen nacional. 3.3.1 Selección del clasificador óptimo. Se estudiaron nueve clasificadores. En la tabla 4 y en la Figura 3 se muestran los resultados de errores de Tipo I (Falsos negativos), errores de tipo II (falsos positivos), precisión, relación de verdaderos positivos y el área debajo de la curva ROC para los nueve clasificadores. El mejor clasificador resultó ser el KNN con un vecino más cercano con menores errores de tipo I y II, y mayores valores de precisión, relación de verdaderos positivos y área debajo de la curva. Tabla 4. Selección del mejor clasificador. Clasificado r Gauss
Error Tipo I Error Tipo II
Precisión
0.0526
0.1020
0.9474
Rel VP Área ROC 0.9474 0.9736
Parzen
0.0526
0.0612
0.9677
0.9474
0.9716
PCA-dd
0.0526
0.0204
0.9890
0.9474
0.9970
Kmeans-3
0.0526
0.0816
0.9574
0.9474
0.9652
MOG
0.0526
0.0816
0.9574
0.9474
0.9725
Kcenter-2 MST
0.0526 0
0.0816 0.1224
0.9574 0.9406
0.9474 1.0000
0.9661 1.000
Nndd Knn-1
0 0
0.2449 0.0612
0.8879 0.9694
1.0000 1.0000
1.000 1.000
11
Clasificador óptimo
Figura 3. Gráfico de selección del clasificador óptimo 3.3.2 Selección de la medida de disimilitud a emplear. Para la selección de la medida de disimilitud para el método de K-NN vecinos más cercanos se estudiaron la distancia euclidiana cuadrada, euclidiana, euclidiana cuadrada, Mahalanobis, Manhattan y Minkowski de orden 3. En la Tabla 5 se ilustra que la medida de disimilitud con la cual se cometen menos errores en la clasificación es la distancia Manhatan o rectilínea con un 1.39 % de error total los errores de clasificación. Tabla 5. Cantidad de errores totales y % de error para cada medida de disimilitud. Medida disimilitud Euclideana Euclideana Cuadrada Mahalanobis Manhattan Minkowski p=3
de Errores Totales 7 7 13 2 8
Error (%) 4.86 4.86 9.03 1.39 5.56
3.4 Aplicación del clasificador KNN-1 al conjunto de validación. El conjunto de validación estuvo compuesto por sesenta y una muestras seleccionadas de forma aleatoria (cuarenta de origen extranjero y veintiuna nacionales). A pesar de que la medida de disimilitud Manhattan fue la que mejores resultados brindó en el conjunto de entrenamiento, las euclidianas y de 12
Minkowski de orden 3 no fueron desechadas. Los mejores resultados se obtuvieron sobre el conjunto de validación con la distancia de Minkowski de orden 3. Con vistas a seleccionar la mejor distancia se computaron los errores totales por clase uniendo el conjunto de entrenamiento y el de validación obteniéndose que con el clasificador KNN-1 empleando como medida de disimilitud la distancia de Manhattan aplicada a los perfiles cromatográficos entre 3.0 y 8.6 minutos, normalizados por la amplitud máxima, de los extractos de marihuana se logró la diferenciación con un error absoluto de 3.41 %, de las muestras de acuerdo a su origen, en nacional y extranjeras.
4. CONCLUSIONES. El método analítico cromatográfico empleado es adecuado demostrándose la linealidad del detector FID y la precisión del método con el Cannabidiol (CBD) como estándar externo. Para la selección de las variables predictoras fue necesario alinear los cromatogramas con el algoritmo de correlación optimizada de deformación (COW), normalizar los perfiles cromatográficos para eliminar el error de inyección Se comprobó que el preprocesamiento más adecuado para la aplicación del PCA fue la normalización por la intensidad máxima y centrado en la media. Se seleccionaron dos componentes principales. El primer componente PC1 explica el 90 % de la variabilidad de la nube de datos, asociado a la diferenciación de las muestras de acuerdo a su origen. El clasificador que mejores resultados ofrece fue el de vecinos más cercanos, con un vecino más cercano (KNN-1), empleando como medida de disimilitud la distancia de Manhattan aplicada a los perfiles cromatográficos entre 3.0 y 8.6 minutos, normalizados por la amplitud máxima con un error absoluto de 1.39% para el entrenamiento y un 3.42 % en la validación.
5. BIBLIOGRAFIA.
Turner CE, Elsohly MA, Boeren EG. Constituent of Cannabis Sativa L. A review 13
of the natural constituent. J. Nat. Prod 1980, 43, 169-234. Masoud AN, Doorenbos NJ. Mississippi-grown Cannabis sativa L. III: Cannabinoid and cannabinoid acid content. Journal of Pharmaceutical Sciences 1973, 62 (2), 313-315. Kimura M, Okamoto K. Distribution of tetrahydrocannabinolic acid in fresh wild Cannabis. Experientia 1970, 26, 819-820. Cole MD. The Analysis of Controlled Substances 2003, 49-72. Toffoli UF, Ciranni ES. Bulletin on Narcotics 1968, 20 (1), 55. Grlic L. Bulletin on Narcotics 1968, 20 (3), 25. Okuyama S, Mitsui T. Discrimination of Marihuana using Cluster Analysis. J. Chem. Software 1995, 2 (4). Germano-Presby J, Miller Coyle H, Palmbach T, Pagliaro E, Ladd C, Harper A, Lee HC. Development of a nationwide AFLP DNA database for marijuana (Cannabis sativa). Proceedings of the American Academy of Forensic Sciences Annual Meeting: Chicago (IL), 2003, 17-22. Miller H, Palmbach T, Juliano N, Ladd C, Lee HC. An overview of DNA Methods for the identification and individualitation of Marihuana. Croatian Medical Journal 2003, 44 (3), 315. Shibuyaa EK, Souza JE, Negrini O, Moreirac Z, Victoriac R L. Sourcing Brazilian marijuana by applying IRMS analysis to seized samples. Forensic Science International 2007, 160 (1), 35-43. Okuyama S, Mitsui T. Discrimination of Marihuana using Cluster Analysis. J. Chem. Software 1995, 2 (4). Elsohly MA, Stanford DF, Murphy TP. Chemical Fingerprinting of Cannabis as a Means of Source Identification. Forensic Science and Medicine. Marijuana and the Cannabinoids 2007, 51-66
14
LISTA DE NOMINACION DE ABREVIATURAS Y SIMBOLOS.
FID: Detector de Ionización por Llama. THC: Tetrahidrocannabinol. CBD: Cannabidiol. CCD: Cromatografía de Capa Delgada. CG: Cromatografía de Gases. HPLC: Cromatografía Líquida de Alta Resolución. ADN: Ácido Desoxiribonucléico. KNN-1: Vecinos más cercanos, con un vecino más cercano. HCA: Analisis de Agrupamiento Jerárquico o de Clusters. LDA: Análisis del Discriminante Lineal. PCA: Análisis de Componentes Principales. COW: Algoritmo de Correlación Optimizada de Deformación. MSC: Corrección Multiplicativa de la Dispersión. ROC: Área debajo de la curva. MOG: Clasificador por la Mezcla Gaussiana. Nndd: Método Simple del vecino más Cercano.
15