Aplicación de Análisis Lineal Discriminante en la Búsqueda de Drogas Antiepileptogénicas

Latin American Journal of Pharmacy (formerly Acta Farmacéutica Bonaerense) Trabajos originales Recibido el 23 de octubre de 2006 Aceptado el 23 de di

Author: Francisco Javier Robles Molina

1 downloads 129 Views 188KB Size

Report

DOWNLOAD PDF

Recommend Stories

ANALISIS DISCRIMINANTE: INTRODUCCION

Drogas en la historia

Control de la velocidad lineal

DISCRIMINANTE O HESSIANO

DISCRIMINANTE O HESSIANO Para encontrar máximos, mínimos y puntos de silla en funciones de varias variables. El presente documento expone de manera de

Drogas: Consumo en la provincia de Albacete

DUALIDAD EN PROGRAMACION LINEAL

La cadena de las drogas

Errores frecuentes en la interpretación del coeficiente de determinación lineal

11 ELENA MARTINEZ 28/3/05 18:00 Página 315 Anuario Jurídico y Económico Escurialense, XXXVIII (2005) 315-332 / I S S N: 1133-3677 Errores frecuen

Drogas en los adolescentes

EL CONSUMO DE DROGAS EN LA LEGISLACIÓN DE TRÁFICO*

MARÍA LUISA ROCA FERNÁNDEZ-CASTANYS Doctora en Derecho Profesora de Derecho Administrativo de la Universidad de Almería EL CONSUMO DE DROGAS EN LA LE

Story Transcript

Latin American Journal of Pharmacy (formerly Acta Farmacéutica Bonaerense)

Trabajos originales Recibido el 23 de octubre de 2006 Aceptado el 23 de diciembre de 2006

Lat. Am. J. Pharm. 26 (2): 244-52 (2007)

Aplicación de Análisis Lineal Discriminante en la Búsqueda de Drogas Antiepileptogénicas Carolina L. BELLERA 1, Alan TALEVI 1,2 & Luis E. BRUNO-BLANCH 1* 1

Cátedra de Química Medicinal, Departamento de Ciencias Biológicas, Facultad de Ciencias Exactas, Universidad Nacional de La Plata. Calle 47 y 115 (B1900AVV). La Plata, Buenos Aires, Argentina. 2 Instituto de Investigaciones Fisicoquímicas Teóricas y Aplicadas (INIFTA), Departamento de Química, Facultad de Ciencias Exactas, Universidad Nacional de La Plata. La Plata, Buenos Aires, Argentina.

RESUMEN. El tratamiento farmacológico tradicional de la epilepsia está orientado al control de las convulsiones que caracterizan las crisis epilépticas. En contraste, las investigaciones más recientes ponen énfasis en la comprensión de los mecanismos de epileptogénesis, a fin de lograr el desarrollo de fármacos que inhiban la progresión de la enfermedad en pacientes epilépticos y prevengan la probabilidad de adquirir epilepsia en grupos considerados en riesgo de desarrollar la enfermedad. En el presente trabajo se aplicó el Análisis Lineal Discriminante para generar una función discriminante basada en descriptores constitucionales y topológicos y capaz de distinguir fármacos con y sin actividad antiepileptogénica. La función discriminante elegida en base a parámetros estadísticos (F de Snedecor, U de Wilk, % global de buenas clasificaciones) fue validada en forma interna y externa. Posteriormente, fue aplicada en la selección de compuestos potencialmente antiepileptogénicos a partir de una base de datos de 250.000 estructuras químicas. La regla de cinco de Lipinski y el valor óptimo del coeficiente de reparto octanol-agua para fármacos que actúan a nivel del sistema nervioso central fueron utilizados como filtros secundarios, seleccionándose 677 compuestos con potencial antiepileptogénico. SUMMARY. “Application of Linear Discriminant Analysis in the Search of Antiepileptogenic Drugs”. Traditional pharmacologic treatment of epilepsy is aimed to the control of convulsions that characterize epilepsy crisis. In contrast, the latest research in the epilepsy field points towards the understanding of the mechanism involved in epileptogenesis, in order to achieve the discovery of drugs that inhibit the disease progression, minimizing the probability of developing epilepsy in those patients considered at risk. In the present work we have applied linear discriminant analysis to generate a discriminant function based on constitutional and topological descriptors and capable of differentiating drugs with and without antiepileptogenic activity. The discriminating function that was chosen on the basis of statistical parameters (Snedecor’s F, Wilk’s U and global percentage of good classifications) was validated internally and externally. Afterwards, it was applied in the selection of potentially antiepileptogenic compounds from a database of 250,000 chemical structures. Lipinski’s rule of five and the optimal value of octanol-water partition coefficient for drugs acting at the central nervous system were applied as secondary filters, selecting 677 compounds with antiepileptogenic potential.

INTRODUCCION La epilepsia es el desorden neurológico crónico de mayor prevalencia y la segunda afección más común del sistema nervioso central, luego del derrame cerebral. La enfermedad se caracteriza por crisis epilépticas cuyas manifestaciones pueden ir desde un breve lapso de pérdida de conciencia hasta ataques crónicos con convulsiones severas. Alrededor del 1% de la

población mundial padece esta patología, siendo los niños, adolescentes y ancianos los grupos más afectados. En los países en vía de desarrollo la prevalencia de la enfermedad es mayor que en países desarrollados (80 % de la población mundial de pacientes epilépticos habita en el hemisferio sur) y alrededor de un 75% de los pacientes no reciben el tratamiento farmacológico adecuado 1.

PALABRAS CLAVE: Análisis lineal discriminante, encedido por PTZ, epileptogénesis, modelos crónicos de epilepsia, “screening” virtual. KEY WORDS: Chronic models of epilepsy, Epileptogenesis, Linear discriminant analysis, PTZ kindling, Virtual Screening *

244

Autor a quien la correspondencia deber ser dirigida. E-mail: [email protected]

ISSN 0326-2383

Latin American Journal of Pharmacy - 26 (2) - 2007

El arsenal terapéutico actualmente disponible no proporciona el control adecuado de los ataques epilépticos en cerca de la mitad de los pacientes y tampoco inhibe la progresión de la enfermedad, siendo común que los síntomas reaparezcan si se suspende la administración del fármaco en aquellos pacientes en los cuales la farmacoterapia es efectiva 2. Por otro lado, aún los fármacos antiepilépticos (FAEs) de última generación causan importantes efectos adversos, entre ellos ataxia, diplopía, mareo, dolor de cabeza, nausea, sedación, alergias, enfermedades de la sangre y hepatotoxicidad 3. Las investigaciones más recientes plantean dos objetivos fundamentales 4,5. En primer lugar, lograr una mejor comprensión de los mecanismos involucrados en el desarrollo de la epilepsia (epileptogénesis). En segundo lugar, desarrollar tratamientos capaces de inhibir la progresión de la enfermedad en pacientes epilépticos y prevenir el desarrollo de epilepsia en pacientes en riesgo. En esta última categoría se incluyen, entre otros, víctimas de derrame cerebral, pacientes que han sido sometidos a cirugía del encéfalo, neonatos con encefalopatía hipóxica y pacientes con tumor cerebral 4,6. El presente trabajo se enmarca dentro de las tendencias modernas en la búsqueda de nuevos FAEs: desarrollar agentes antiepilépticos no sólo eficientes en el control de la sintomatología (farmacoterapia tradicional), sino también en la prevención e inhibición del desarrollo de la enfermedad. El screening virtual (SV) consiste en una metodología de búsqueda racional de nuevos fármacos y se define como el conjunto de técnicas computacionales que permiten seleccionar, a partir de grandes colecciones virtuales de compuestos químicos, aquellos con alguna actividad o propiedad determinada 7. El SV no busca reemplazar los ensayos in vitro e in vivo sino aumentar la probabilidad de éxito en dichas instancias, disminuyendo costos y tiempo asociados al bioensayo de nuevos fármacos. Esta metodología puede ser aplicada a partir del conocimiento del receptor o blanco molecular. Para ello es requisito conocer la estructura de la proteína blanco y del complejo ligando-proteína (información que no siempre está disponible). El SV basado en el receptor implica por otro lado un alto costo computacional, siendo el modelado del blanco molecular especialmente complejo cuando el sitio específico de acción del fármaco involucra canales iónicos, como es justamente el caso de algunos de los blancos moleculares conocidos de los FAEs disponibles. Una alternativa es el SV basado en el ligan-

do, que toma como punto de partida las características estructurales de los distintos fármacos ya conocidos que interactúan con el receptor de interés. Puede hacerse de dos formas: por superposición de las moléculas de la base de datos con los fármacos de referencia o mediante el uso de descriptores moleculares. En la superposición se prioriza el alineamiento de grupos químicos implicados en interacciones de corto alcance, como puentes de hidrógeno. Este procedimiento requiere la identificación de la conformación activa de los fármacos de referencia, para luego forzar a cada molécula evaluada a adquirir dicha conformación y calcular finalmente, para cada estructura, la diferencia de energía entre la conformación de mínima energía y la conformación activa definida. La superposición implica, por lo tanto, un alto costo computacional y la definición de criterios para alinear cada molécula de la base de datos con la molécula de referencia, y no es el método de elección para realizar el SV en grandes bibliotecas de compuestos. La otra opción mencionada consiste en utilizar descriptores que permitan generar un modelo QSAR (Relación Cuantitativa Estructura-Actividad) que identificará características estructurales no evidentes favorables y desfavorables a la actividad de interés y que luego será empleado en el SV. Cuando los descriptores utilizados son de cálculo sencillo, el costo computacional es bajo y es factible analizar grandes bases de datos en tiempos relativamente cortos. En el presente trabajo se eligió este último enfoque para aplicar el SV en la búsqueda de nuevos fármacos antiepileptogénicos sobre 250.000 estructuras, empleando descriptores 0D, 1D, 2D, todos ellos de bajo costo computacional. El SV se llevó a cabo mediante aplicación de una función encontrada por análisis lineal discriminante (ALD), que consiste en la generación de un algoritmo (la función discriminante - FD) capaz de clasificar entre dos o más categorías a los elementos de un conjunto 8. En este caso, el conjunto de elementos que se desea clasificar está compuesto por las 250.000 estructuras químicas de la base de datos empleada, mientras que las posibles categorías definidas son moléculas con actividad antiepileptogénica y moléculas sin actividad antiepileptogénica. El ALD ha sido exitosamente utilizado en la búsqueda racional de nuevos fármacos, principalmente por los grupos de Valencia y Las Villas 9-11. Nuestro grupo de investigación también lo ha aplicado, con buenos resultados, en la búsqueda de nuevos agentes contra el mal de Chagas y de fárma245

BELLERA C.L., TALEVI A. & BRUNO-BLANCH L.E.

cos activos en modelos agudos de epilepsia 12-14. La FD obtenida se ha aplicado en combinación con filtros ADME/Tox generales: la regla del cinco de Lipinski y el valor óptimo del coeficiente de reparto octanol-agua (log P) para que un compuesto difunda pasivamente a través de la barrera hematoencefálica 15. La regla establece, empíricamente, que para que un compuesto sea biodisponible por vía oral debe cumplir con al menos 3 de las siguientes 4 condiciones: 1) poseer un peso molecular por debajo de 500, 2) no tener más de 5 átomos donores de enlaces de hidrógeno, 3) no tener más de 10 átomos aceptores de enlaces de hidrógeno y 4) poseer un valor de log P incluido en el intervalo entre -5,0 y 5,0 (equivalente a log P de Moriguchi entre -4,15 y 4,15). Si dos o más de estos parámetros están fuera de rango, es muy probable que el compuesto presente una escasa solubilidad (cuando supera los valores críticos de log P o peso molecular) o una pobre absorción (cuando supera los valores críticos de los números de donores o aceptores de hidrógeno). Esta regla expresa matemáticamente el hecho conocido de que la biodisponibilidad oral está dada por un balance entre la solubilidad acuosa del compuesto activo y su habilidad para atravesar las membranas biológicas. Finalmente, el pasaje a través de la barrera hematoencefálica es un paso crítico para el desarrollo de la acción terapéutica de las drogas anticonvulsivantes. El “principio de mínima hidrofobicidad” propone que la penetración pasiva de compuestos orgánicos a través de la barrera hematoencefálica es alta cuando el valor del coeficiente de partición octanol-agua (logP) es aproximadamente 2 16,17. Hemos utilizado dicho valor como filtro adicional para seleccionar estructuras con buena biodisponibilidad a nivel del SNC, reteniendo sólo aquellas estructuras con valor de log P de Moriguchi (mlog P) en el intervalo entre 1 y 3. Teniendo en cuenta que la lipofilia está asociada a mayores tiempos de retención de la droga en el organismo y a una mayor metabolización hepática previa a la eliminación del fármaco (vinculada ésta a un incremento de la probabilidad de generación de metabolitos tóxicos), este último filtro constituye simultáneamente un criterio indirecto para la selección de sustancias seguras. De esta manera han sido seleccionados mediante SV compuestos no sólo potencialmente antiepileptogénicos sino también compuestos con alta probabilidad de poseer buena biodisponibilidad oral y baja toxicidad.

246

MATERIALES Y MÉTODOS Construcción del Training Set El training set o conjunto de entrenamiento debe estar formado por moléculas estructuralmente heterogéneas si se desea obtener un modelo de aplicación general (es decir, válido para avaluar compuestos químicos de gran diversidad estructural, que es lo que uno espera encontrar en grandes bibliotecas o bases de datos virtuales). En el caso particular de que el modelo que se desea generar sea una función discriminante, el training set debe incluir tanto moléculas que posean la actividad de interés como compuestos con otras actividades biológicas 18. En nuestro caso el training set está definido por 20 moléculas con actividad probada en el ensayo de PTZ kindling (encendido por pentilenetetrazol, PTZ) y 30 moléculas con otras actividades biológicas (antiinflamatorios, vasodilatadores, antineoplásicos, antivirales, estrógenos, antipsicóticos, herbicidas, insecticidas y otras). El fenómeno de encendido fue originalmente descrito como un proceso por el que un estímulo eléctrico o químico subconvulsivo, mediante su administración repetida, es capaz de provocar estados epilépticos completamente desarrollados 19. El PTZ kindling es un modelo animal crónico de epilepsia que simula la disfunción cerebral propia del paciente epiléptico, a diferencia de los modelos animales tradicionales, que son modelos agudos o reactivos en los que se induce la convulsión artificialmente mediante aplicación de un shock eléctrico (MES test) o de agentes convulsivantes químicos (pentilentetrazol, bicuculina, estricnina y otros) 20. La técnica de PTZ Kindling consiste en inyectar al animal dosis subconvulsivas de PTZ (pentilentetrazol) durante un período de tiempo que va de una a dos semanas para generar en el animal el estado epiléptico. Al momento de evaluar la actividad antiepileptogénica de una droga se administra la misma, concomitante al PTZ, durante el período de encendido, evaluando si el fármaco es capaz de prevenir los cambios en la neuroquímica del ratón producidos por a la administración periódica de PTZ, los cuales disminuyen el umbral convulsivo y favorecen el desarrollo de convulsiones recurrentes 21. En las Figuras 1 y 2 se presentan, respectivamente, los 20 compuestos activos frente al PTZ kindling y los 30 compuestos con otras actividades biológicas que componen el training set. Puede observarse la diversidad estructural en ambas categorías.

Latin American Journal of Pharmacy - 26 (2) - 2007

Figura 1. Estructuras de los 20 compuestos con pro-

Figura 2. Estructuras de los 30 compuestos con activi-

bada actividad antiepileptogénica incluidos en el training set (categoría ACTIVOS).

dades biológicas distintas de la antiepileptogénesis incluidos en el training set (categoría INACTIVOS).

Cálculo de Descriptores El programa Dragon 22 en su versión Academic 4.0 fue utilizado para el cálculo de descriptores moleculares. El término descriptores moleculares se refiere a números que codifican información de distinta naturaleza respecto a la estructura de la molécula. El software permite calcular más de 1600 descriptores de distinta complejidad que pueden ser clasificados según su dimensionalidad en descriptores 0D, 1D, 2D y 3D. Dragon es utilizado extensamente en la actualidad en estudios QSAR 23, 24.

múltiple se generaron funciones de la forma general:

Análisis Lineal Discriminante Las 20 moléculas con probada actividad antiepileptogénica del training set fueron definidas como ACTIVAS, mientras que las 30 con otras actividades biológicas fueron definidas como INACTIVAS. Se definió una variable binaria arbitraria de valor 1 para las moléculas activas y valor -1 para inactivas. Mediante regresión lineal

Función Discriminante = a1 D1 + a2 D2 + ... + an Dn + a0 [1] donde Di simboliza a los descriptores incorporados en la ecuación (variables independientes), ai se refiere a los coeficientes de regresión que acompañan a cada descriptor y que, normalizados, definen el peso que cada descriptor tiene en la clasificación de las categorías consideradas (ACTIVO - INACTIVO) y a0 simboliza al término independiente. El signo de cada término determina si el mismo es favorable (signo positivo) o desfavorable (signo negativo) a la actividad antiepileptogénica. La ecuación fue obtenida utilizando el programa de bioestadística BMDP 25. Los criterios empleados para seleccionar la mejor FD fueron los siguientes: 1) el Estadístico U de Wilk debe tener un bajo valor (U = 0 significa que la fun-

247

BELLERA C.L., TALEVI A. & BRUNO-BLANCH L.E.

ción discriminante permite una perfecta separación entre las dos clases consideradas; U = 1 quiere decir que tiene capacidad de separación nula), 2) el porcentaje global de buenas clasificaciones tanto en el training set como en el test set es evaluado para poder elegir funciones con menor porcentaje de falsos positivos en el test set, ya que un falso positivo implica que un compuesto inactivo sea adquirido, sintetizado o aislado y posteriormente ensayado biológicamente con la consecuente pérdida de tiempo y recursos, y 3) entre dos funciones con similares características se optará por la más sencilla, es decir aquella que contenga menor número de descriptores, de acuerdo con el principio de parsimonia. Diagrama de Distribución Farmacológica El Diagrama de Distribución Farmacológica 26 del training set consiste en representar la expectativa de encontrar un compuesto activo e inactivo para cada intervalo de valores de la FD. Este tipo de representación puede usarse para encontrar un intervalo de valores de la FD en donde el porcentaje de falsos positivos sea mínimo. Las expectativas se calculan según: Expectativa de activos = (% de activos en el intervalo considerado)/(% de [2] inactivos + 100) Expectativa de inactivos = (% de inactivos en el intervalo considerado)/(% de activos + 100)

[3]

Validacion de la Funcion Discriminante Para evaluar la robustez y la capacidad predictiva de la FD generada se emplean dos tipos de validaciones: validación interna y validación externa 27,28. La validación interna se realiza para determinar la robustez del modelo y para asegurar de que la correlación entre la variable que codifica las clases y los descriptores moleculares no haya sido aleatoria. Dentro de las técnicas de validación interna utilizadas en este trabajo se encuentran la validación cruzada (cross-validation) y el test de randomización 27. La validación cruzada consiste en remover uno (Leave-one-out, LOO) o varios (Leavegroup-out, LGO) de los compuestos del training set de manera aleatoria o sistemática. Luego se recalcula la FD con las moléculas remanentes y con la nueva FD se predice la clase de las moléculas excluidas. Se utilizó la técnica de validación cruzada LGO extrayendo 5 moléculas por ronda de validación; dicho proceso se repitió 10 veces.

248

La técnica de randomización consiste en reconstruir n veces la FD (n = número de estructuras que componen el training set) con los mismos descriptores del modelo original seleccionado, pero asignándole valores aleatorios a la variable binaria que define la clasificación de las moléculas (es decir, se “mezclan” los valores de la variable binaria entre las moléculas que componen el training set, esperando obtener un modelo con baja capacidad discriminante y sin valor estadístico). La validación externa es el paso más importante para evaluar la calidad predictiva y la generalidad del modelo generado. Consiste en predecir la actividad de compuestos cuya clase sea conocida (actividad antiepileptogénica probada experimentalmente y compuestos con otras actividades biológicas) que no hayan sido utilizados en la generación de la FD. Para la validación externa de la función obtenida se utilizaron cuarenta compuestos: 10 de ellos con actividad antiepileptogénica y 30 con otras actividades (antiinflamatorios, ativirales, antibacterianos, antiparasitarios, antihipertensivos, antiácidos, insecticidas y otros). Aplicación de la FD y los Filtros Adme/Tox en el SV Se aplicó la FD en el SV de 250.000 moléculas. Para ello se computó el valor de los descriptores utilizados en el modelo para las 250.000 estructuras químicas de la biblioteca virtual y se calculó el valor de la FD de cada molécula para predecir la actividad. Se calcularon asimismo los parámetros de la “regla de cinco” de Lipinski, encontrándose que casi la totalidad de las 250.000 estructuras utilizadas cumplen con las cuatro condiciones de la regla, por lo que puede afirmarse que las mismas presentan alta probabilidad de manifestar buena biodisponibilidad oral. Se ha utilizado el valor óptimo de log P para compuestos de acción en SNC como filtro adicional para seleccionar estructuras con buena difusión pasiva a través de la barrera hematoencefálica, reteniendo sólo aquellas estructuras con valor de log P de Moriguchi (mlog P) en el intervalo entre 1 y 3. RESULTADOS Funcion Discriminante Fueron derivadas varias FDs entre las que se eligió aquella que cumplía con los criterios de selección de FD ya mencionados. La FD seleccionada y los parámetros estadísticos obtenidos fueron los siguientes:

Latin American Journal of Pharmacy - 26 (2) - 2007

Compuesto

FD

Abecarnil 0,50 Alfaxolone 0,05 AMPA 0,03 Carbamacepina 0,53 CFM-2 0,63 Clonazepam 0,56 Diazepam 0,79 Dizocilpina 2,44 Enadolina 0,01 Etosuximida 0,89 Flumazenil 0,64 Ganaxolone 0,57 Ilepcimide 0,23 *Levetiracetam -0,08 Medazepam 0,92 Melatonina 0,22 Pentobarbital 0,44

Prob (Act) %

93,1 56,8 53,5 94,1 96,5 95,0 98,4 100,0 51,5 99,1 96,6 95,2 76,7 39,9 99,2 75,9 90,9

Compuesto

*Phenobarbital Talampanel Zonisamida Carisoprodol Carmustina Ácido crotónico Cianazina Cimoxanil Diclobenil Dimetenamida Dimetirimol Equilina Etinamato Etirimol Fenbufeno Fenoxapropetil Fenpiclonil

FD

Prob (Act) %

-0,09 38,6 1,49 100,0 0,08 60,2 -0,99 0,5 -0,71 2,3 -1,26 0,1 -1,07 0,4 -0,34 14,3 -0,81 1,4 -0,69 2,6 -0,63 3,5 0,61 96,1 -0,66 3,0 -0,84 1,2 -0,42 10,0 -0,38 11,7 -0,89 0,9

Compuesto

Flufenacet Ácido flufenámico Flumioxazin Fluspirileno Himexazol Idoxuridine Imazapyr Imazaquin Kellina Lenacil Linuron Metomil Ftalazina Ácido pícrico Pirimicarb Thionazin

DF

Prob (Act) %

-1,06 -0,82 -0,52 -0,55 -1,01 -1,22 0,00 -0,78 -0,74 -0,05 -0,67 -0,80 -1,07 -1,13 -0,55 -0,81

0.4 1.4 6.1 5,3 0,5 0,2 49,8 1,7 2,0 43,0 2,9 1,5 0,4 0,3 5,4 1,4

Tabla 1. Valores de la FD para los compuestos del training set, y probabilidades de presentar actividad de cada

compuesto. En itálica figuran los compuestos inactivos del training set; con asterisco se indican los compuestos mal clasificados. Puede observarse el buen desempeño de la FD seleccionada. Sólo 2 compuestos del training set se clasifican equivocadamente.

DF = -6.72594-0.11789*AMW+16.15981*JGI2+ 0.60860*ESpm07r+0.87769*nR09-0.84403*GGI4 +1.78001*nR07 N = 50 F(4.43) = 11.63 U de Wilk: 0.38% de buenas clasificaciones training set: 94% En la ecuación se mantiene para los descriptores la nomenclatura utilizada en el software DRAGON 22. Las variables que aparecen en la ecuación evalúan el peso molecular promedio (AMW, peso molecular del compuesto dividido por el número de átomos que lo integran), el número de anillos de 7 átomos (incluyendo ciclos fusionados nR07), el número de anillos 9 átomos (incluyendo ciclos fusionados, nR09, las distribuciones de carga de la molécula (índices topológicos de carga de Gálvez JGI2 y GGI4) y el momento espectral derivado de la matriz de adyacencia (ESpm07r). Los descriptores AMW, nR07 y nR09 pertenecen a la categoría de descriptores constitucionales (0D) mientras que JGI2, GGI4 y ESpm07 son clasificados como descriptores topológicos (2D). La FD obtenida presenta una alta significancia estadística y un nivel de descripción adecuado con pocos descriptores (se utilizaron solo 6 decriptores para derivar un modelo a partir de 50 moléculas, cuando el criterio general sostiene que se aceptan relaciones [número de moléculas del training set/número de descriptores del modelo] mayores a 5). Esta el caso del modelo se-

leccionado la relación mencionada es mayor a 8, por lo que se minimizan las chances de overfitting, esto es, obtención de una FD demasiado optimista que clasifica excesivamente bien los compuestos del training set pero falla en predecir la clase de otras moléculas. El valor obtenido del estadístico de Wilk (0,38), lejano a uno, indica que la función seleccionada puede discriminar entre compuestos activos e inactivos. Los resultados de la clasificación de compuestos se muestran en la Tabla 1. El modelo clasifica correctamente 94% de los compuestos del training set. Validación de la Función Discriminante En la Tabla 2 se presentan los resultados de la validación cruzada por la técnica LGO; puede observarse que la remoción de compuestos activos e inactivos del training set no afecta la significancia estadística del modelo ni la capacidad clasificatoria de la FD. Los modelos obtenidos en cada paso de la técnica LGO presentan un desempeño similar a la del modelo real. El estudio de Randomización se repitió 50 veces; se verificó luego que los modelos generados mediante randomización fueran estadísticamente menos significativos que el modelo original. De esta manera se minimiza la posibilidad de que la FD haya sido generada de una correlación al azar entre la variable que codifica los compuestos y los descriptores incorporados al

249

BELLERA C.L., TALEVI A. & BRUNO-BLANCH L.E.

Moléculas removidas

N

U de Wilk

Ninguna (modelo original) Carisoprodol, cyanazina, flumioxazina, alfaxolone, gabaxolone Etinamato, metomil, pirimicarb, etosuximida, talampanel Idoxuridina, Imazaquina, linuron, fenobarbital, zonisamida Lenacil, ácido pícrico, pidimicarb, medazepam, melatonina Carbustina, dimetirimol, fenbufeno, clonazepam, leviteracepam Ácido flufenámico, fluspirileno, himexazol, abecarnil, AMPA Ftalazina, tionazina, fenpiclonil, dizocilpina, ilepcimida Cimoxanil, lmazapir, kelina, carbamacepina, CFM-2 Diclobenil, dimetenamida, equilina, flumazenil, pentobarbital Ácido crotónico, fenpiclonil, linuron, diazepam, eladolina

50 45 45 45 45 45 45 45 45 45 45

0,38 0,38 0,41 0,36 0,38 0,38 0,38 0,34 0,37 0,34 0,39

% aciertos training set

% aciertos test set

11,63 10,4 9,2 11,1 10,3 10,4 10,1 12,0 10,7 12,1 9,8

94 89 93 91 91 93 89 91 98 91 89

Tabla 2. Resultados de la validación cruzada LGO. Se aprecia la buena robustez de la FD. Estudio de Randomización

Compuesto

Figura. 3. Resultados del estudio de randomización.

El modelo real es superior a aquellos generados por randomización de la variable define las clases ACTIVOS-INACTIVOS, descartándose de este modo correlaciones azarosas entre la misma y los descriptores seleccionados.

modelo. En la Figura 3 se pueden observar los resultados de los estudios de Randomización. En el extremo inferior del gráfico se observan los puntos correspondientes a las randomizaciones, separados del punto correspondiente al modelo auténtico - original, que presenta clara superioridad estadística. Por último la validación externa dio un % total de buenas clasificaciones del test set del 85% (90% de buenas clasificaciones en la categoría INACTIVA y 80% de buenas clasificaciones en la categoría ACTIVA del test set). Los resultados de la validación externa se muestran en la Tabla 3. Obsérvese que se ha demostrado la gene-

250

FD

3-aminocyclobutane -1-carboxylic acid 1,13 *Amiloride -0,86 Topiramate 0,77 Oxcarbazepine 0,32 Gaboxadol 0,55 Imidazenil 0,40 Indorenato 0,34 LY300164 1,48 *Naproxen -0,77 Phencyclidine 0,31 Abacavir 0,00 Acebutolol -0,94 Acyclovir -0,14 Alclofenac -1,26 Alfentanil -0,69 Aminitrozole -1,48 Amprenavir -1,31 *Atevirdine 0,03 Azidamfenicol -0,70 Benznidazole -1,10

Compuesto

FD

*Biapenem 0,01 Bucetin -1,09 Candesartan -0,48 Cephalexin -0,97 Chlortetracycline -3,32 Clindamycin -1,25 Clometacine -0,65 Delapril -0,40 *Dihydrocodeine 1,63 Dipipanone -0,39 Enalapril -0,86 Hydroxystilbamidine -0,61 Lansoprazole -0,38 Metronidazole -0,50 Misoprostol -0,20 Nizatidine -1,47 Ranitidine -1,38 Trithiozine -0,98 Gossypol -3,68 Acetamiprid -0,88

Tabla 3 . Resultados de la validación externa. Los compuestos que definen la categoría INACTIVA del

test set se presentan en itálica. Los compuestos mal clasificados se indican con asterisco. El 85% de los compuestos son correctamente clasificados.

ralidad del modelo obtenido (dada su capacidad para clasificar correctamente compuestos no incluidos en el training set pertenecientes a diversas categorías terapéuticas). La probabilidad de error en la clasificación de los compuestos sometidos al SV puede considerarse menor, ya que tomando como base el diagrama de distribución farmacológica se ha acotado el intervalo de valores de la FD correspondiente a compuestos promisorios, eligiendo una zona de mínima superposición de las curvas representadas en el diagrama. Interesa particularmente el hecho de

Latin American Journal of Pharmacy - 26 (2) - 2007

que la cantidad de falsos positivos en el test set (moléculas INACTIVAS del test set clasificadas con valores de FD mayores a 0) es baja. De los resultados de la validación externa surge que menos de uno de cada diez compuestos seleccionados mediante el SV resultarán inactivos en los ensayos biológicos, optimizándose de esta manera el empleo del tiempo y los recursos humanos y materiales. Screening Virtual Luego de observar el diagrama de distribución farmacológica para los compuestos que forman el training set (Figura 4); fue empleado el rango 1,0 a 1,5 (zona en la que existe poca superposición entre las clases activos/inactivos) para los valores de FD como criterio para decidir si un compuesto era o no promisorio como posible droga antiepileptogénica. Al mismo tiempo en el DDF se observa la capacidad clasificatoria de la FD elegida. El valor de mlog P fue empleado como segundo criterio de filtración (filtro ADME/tox), dando prioridad a los compuestos con el mlog P entre 1,0 y 3,0. Se realizó el screening sobre una base de datos de 250.000 moléculas (ver sección Aplicación de la FD y los Filtros Adme/Tox en el SV) encontrándose 677 estructuras activas (lo cual representa un 0,27 % del total de la base de datos empleada). En la Figura 5 se presentan 10 de las estructuras activas con mayor FD en el intervalo elegido a partir del diagrama de distribución. CONCLUSIÓN Se ha generado y validado una función discriminante capaz de diferenciar compuestos con y sin actividad antiepileptogénica. La misma, en combinación con filtros ADME/Tox, fue aplicada a la selección de compuestos promisorios a partir de una colección de 250.000 estructuras químicas, encontrándose 677 estructuras potencialmente antiepileptogénicas. Este trabajo se enmarca en el enfoque más moderno del desarrollo de nuevos fármacos antiepilépticos, que se centra en el descubrimiento de agentes terapéuticos que sirvan para la prevención del desarrollo de epilepsia en individuos en riesgo y como inhibidores de la progresión de la epilepsia. La metodología racional empleada, permite con bajo costo maximizar probabilidades de éxito en los ensayos in vivo e in vitro. En un futuro cercano se comenzarán los estudios in vivo para concluir la validación de la metodología empleada apoyando el trabajo teórico presentado.

Distribución de Categorías A - I según valores de Función Discriminante (Training set)

Figura 4. Diagrama de Distribución Farmacológica

utilizada para seleccionar el intervalo de FD con menor probabilidad de falsos positivos.

Figura 5. Estructuras de las 10 moléculas con mayor valor de FD de entre las seleccionadas mediante SV. Puede considerarse que las mismas tienen altas probabilidades de presentar actividad antiepileptogénica y alta biodisponibilidad oral.

251

BELLERA C.L., TALEVI A. & BRUNO-BLANCH L.E.

Agradecimientos. A la Agencia Nacional de Promoción Científica y Tecnológica (PICT 06-11985/2004) y a la Universidad Nacional de La Plata por los fondos que permitieron la realización de este trabajo. Alan Talevi es becario de posgrado de CONICET. REFERENCIAS BIBLIOGRÁFICAS

1. World Health Organization (2001) Fact sheet nº 165: “Epilepsy: a etiology, epidemiology and prognosis”. Disponible en http://www. who.int. 2. Gasior, M., J.T. Ungard, M. Beekman, R.B. Carter & J.M. Witkin (2000) Neuropharmacology 39: 1184-96. 3. Bialer, M., S.I. Johannessen, H.J. Kupferberg, R.H. Levy, P. Loiseau & E. Perucca (2002) Epilepsy Res. 51: 31-71. 4. Loscher, W. (2002) Epilepsy Res. 50: 105-23. 5. Herman, S. T. (2006) Epilepsy Res. 68: 35-8. 6. Schmidt, D. & M. A. Rogawski (2002) Epilepsy Res. 50: 71-8. 7. Lengauer, T., C. Lemmen, M. Rarey & M. Zimmermann (2004) Drug Discov. Today 9: 1-60. 8. StatSoft Inc. (2004) Electronic Statistics Textbook. Tulsa, Disponible en http://www.statsoft.com/textbook/stathome.html. Acceso: 0406-2006. 9. Estrada, E., E. Uriarte, A. Montero, M. Teijeira, L. Santana & E. De Clercq (2000) J. Med. Chem. 43: 1975-85. 10. Mahmoudi, N., J.V. de Julián-Ortiz, L. Cicerón, J. Gálvez, D. Mazier, M. Danis, F. Derouin & R. Garcia-Domenech (2006) J. Antimicrob. Chemother. 57: 489-97. 11. García-García, A., J. Gálvez, J.V. de Julián-Ortiz, R. García-Domenech, C. Muñoz, R. Guna & R. Borrás (2004) J. Antimicrob. Chemother. 53: 65-73. 12. Bruno-Blanch, L.E., J. Gálvez & R. García Doménech (2003) Bioorg. Med. Chem. Lett. 13: 2749-54.

252

13. Prieto J.J., A. Talevi & L.E. Bruno-Blanch (2006) Mol. Divers. DOI: 10.1007/s11030-0069044-2. 14 Talevi, A., C.L. Bellera, E.A. Castro & L.E. Bruno-Blanch (2006) Drug Fut. 31 (Suppl. A): 188. 15. Lipinski, C.A., F. Lombardo, B.W. Dominy & P.J. Feeney (2001) Adv. Drug Deliver. Rev. 46: 3-26. 16. Begley, D.J (2004) Pharmacol. Ther. 104: 2945. 17. Moriguchi, I., S. Hirono, I. Nakagome & H. Hirano (1994) Chem. Pharm. Bull. 42: 976-8. 18. Sheridan, R.P., B.P. Feuston, V.N. Maiorov & S. K. Kearsley (2004) J. Chem. Inf. Comput. Sci. 44: 1912-28. 19. Goddard, G.V., D.C. McIntyre & C.K. Leech (1969) Exp. Neurol. 25: 295-330. 20. Morimoto, K., M. Fahnestock & R.J. Racine (2004) Prog. Neurobiol. 73: 1-60. 21. Hansen, S.L., B.B. Sperling & C. Sánchez (2004) Prog. Neuro-Psychoph. 28: 105-13. 22. Todeschini, R., V. Cononni & M. Pavan (2003) Dragon Academic v. 4.0, http://www.talete.mi. it/dragon_exp.htm. 23. Fengping, L., L. Yizeng & C. Chenzhong (2006) Chemometr. Intell. Lab. 81:120-6 24. González, M.P., C. Terán, M. Teijeira & M.J. González-Moa (2005) Eur. J. Med. Chem. 40: 1080-6. 25. Dixon, W.J. (2001) BMDP - Biomedical Computer Programs. Los Ángeles, California v. 2.0. 26. Gálvez J., R. García-Domenech, C. de Gregorio Alapont, J.V. de Julián-Ortiz & L. Popa (1996) J. Mol. Graph. 14: 272-6. 27. Yasri, A. & D. Hartsough (2001) J. Chem. Inf. Comput. Sci. 41: 1218-27. 28. Hawkins, D.M., S.C. Basak & D. Mills (2003) J. Chem. Inf. Comput. Sci. 43: 579-86.