Story Transcript
Pruebas diagnósticas y decisiones médicas: introducción C. Diana Nicoll, MD, PhD, MPA, Michael Pignone, MD, MPH y Chuanyi Mark Lu, MD, PhD
e2
La principal tarea del médico es tomar decisiones razonadas en relación con la atención del paciente, tanto si la información es incompleta como si los resultados clínicos suscitan cierta incertidumbre. Aunque los datos obtenidos del interrogatorio y la exploración física son a menudo suficientes para establecer un diagnóstico o definir el tratamiento, tal vez se requiera más información. En tales situaciones, el clínico recurre con frecuencia a las pruebas diagnósticas.
RENTABILIDAD Y RIESGOS Cuando se utilizan en forma apropiada, las pruebas diagnósticas pueden ser de gran ayuda para el médico y también útiles para el procedimiento de detección, por ejemplo, para identificar factores de riesgo y descubrir alguna enfermedad oculta en personas asintomáticas. El reconocimiento de los factores de riesgo posibilita una intervención temprana que previene la aparición de un trastorno; asimismo, la detección oportuna de una enfermedad oculta puede disminuir la morbilidad y mortalidad del padecimiento por la instauración oportuna del tratamiento. Las pruebas de detección recomendadas para la atención preventiva en adultos asintomáticos de bajo riesgo incluyen medición de la presión arterial y lípidos séricos. También está indicado solicitarlas para los cánceres mamario, cervicouterino y colónico, pero la detección para cáncer prostático y pulmonar todavía es causa de controversia (cap. 1, Promoción y prevención a la salud). Los estudios de detección ideales deben satisfacer los criterios enumerados en el cuadro e2-1.
Cuadro e2-1. Criterios para utilizar los procedimientos de detección Características de la población 1. Prevalencia de la enfermedad suficientemente elevada. 2. Probabilidad de cumplir las pruebas y tratamientos subsiguientes. Características de la enfermedad 1. Morbilidad y mortalidad significativas. 2. Tratamiento disponible efectivo y aceptable. 3. Periodo preclínico detectable. 4. Mejor resultado con el tratamiento temprano. Características de la prueba 1. Sensibilidad y especificidad adecuadas. 2. Costo y riesgo bajos. 3. Prueba confirmatoria disponible y práctica. Copyright © The McGraw-Hill Companies. Derechos reservados. Nota de privacidad. Cualquier uso está sujeto a los Términos de Uso y Aviso.
Las pruebas también pueden ser útiles con fines diagnósticos, es decir, para establecer o descartar la presencia de una afección en personas sintomáticas. Algunas pruebas favorecen el diagnóstico temprano después del inicio de los signos y síntomas, otras permiten delinear el diagnóstico diferencial, y otras más contribuyen a definir la etapa o actividad del trastorno. Las pruebas tienen utilidad para la atención del paciente, ya que ayudan a: 1) valorar la gravedad del padecimiento; 2) precisar el pronóstico; 3) vigilar la evolución de la enfermedad (progresión, estabilidad o resolución); 4) detectar la recurrencia de la anomalía, y 5) seleccionar fármacos y adecuar el tratamiento. Al solicitar los estudios, el clínico debe comparar los beneficios potenciales respecto de los costos potenciales y los efectos secundarios. Algunos de estos procedimientos conllevan riesgo de morbilidad o mortalidad, como la angiografía cerebral, que ocasiona apoplejía en 0.5% de los casos. Las molestias vinculadas con las pruebas, como la colonoscopia, disuaden a algunos pacientes de completar el estudio diagnóstico. Es posible que el resultado de una prueba diagnóstica obligue a solicitar estudios adicionales o seguimientos frecuentes; por ejemplo, un sujeto con resultado positivo en la prueba de sangre oculta en heces debe enfrentar el costo significativo, la molestia y el riesgo de la colonoscopia de seguimiento. Además, el resultado falso positivo en una prueba puede propiciar un diagnóstico incorrecto o pruebas adicionales innecesarias. Considerar a un individuo sano como enfermo a partir de una prueba diagnóstica con resultado falso positivo puede ocasionar estrés psicológico y exposición a riesgos innecesarios o tratamientos inapropiados. Una prueba diagnóstica o de detección puede revelar un trastorno que no se hubiera identificado de otra manera y no habría ocasionado molestias a la persona. Un ejemplo es el descubrimiento de un cáncer prostático de grado bajo en etapa temprana mediante antígeno prostático específico en un varón de 84 años con insuficiencia cardiaca congestiva grave diagnosticada; en este caso, lo más probable es que el individuo no muestre síntomas ni requiera tratamiento para el tumor en lo que le resta de vida. Asimismo, es importante conocer y tomar en consideración los costos de las pruebas diagnósticas. Algunas veces éstos son muy elevados o poco rentables. Incluso los estudios relativamente baratos pueden ser poco rentables cuando suministran escasos beneficios clínicos. Dos factores repercuten de manera negativa sobre la rentabilidad de los estudios diagnósticos: 1) las pruebas paralelas o perfiles (p. ej., solicitar cierto número de análisis en el mismo momento para reconocer rápidamente alguna anormalidad en cualquier estudio para establecer el diagnóstico); 2) pruebas excesivas; esto es, utilizar varias pruebas para vigilar la misma respuesta (progresión de una enfermedad o la respuesta al tratamiento), solicitar estudios con más frecuencia de la necesaria o indicar estudios sólo para documentar el expediente. La pregunta pertinente al solicitar un análisis es: “¿el resultado del análisis repercutirá en el tratamiento del paciente?” Si la respuesta es negativa, no se justifica el análisis. Los análisis innecesarios generan trabajo, reactivos, costos de equipo y provocan un gasto sanitario mayor. La disponibilidad de pruebas genéticas y moleculares es cada vez mayor, pero es preciso examinar con cuidado su rentabilidad y beneficios para la salud. La prueba genética diagnóstica basada en síntomas (p. ej., la prueba para el cromosoma X frágil en un niño con retraso mental) difiere de otras pruebas genéticas predictivas (p. ej., valoración de una persona sana con antecedente familiar de enfermedad de Huntington) y de pruebas genéticas de predisposición, las cuales indican la sensibilidad relativa a ciertos trastornos (p. ej., prueba de BRCA-1 o HER-2 para el cáncer mamario). Todavía no se confirman los beneficios de muchas pruebas farmacogenéticas nuevas en estudios clínicos prospectivos; por ejemplo, aún no hay evidencia suficiente de que las pruebas genotípicas para establecer la dosis de warfarina conduzcan a resultados superiores al uso de los algoritmos convencionales para la dosificación, en términos de la reducción del intervalo de acuerdo al Índice Normalizado Internacional. Otras pruebas (p. ej., búsqueda de causas de trombofilia, como factor V de Leiden, mutación en la protrombina, etc.) sólo tienen valor limitado en el tratamiento de los pacientes, ya que el saber que un sujeto tiene una trombofilia hereditaria casi nunca cambia la intensidad ni la duración del tratamiento anticoagulante. Las pruebas de portador (p. ej., fibrosis quística) y los estudios fetales prenatales (p. ej., identificación del síndrome de Down) a menudo requieren asesoría para los pacientes para que comprendan las consecuencias clínicas, sociales, éticas y, en ocasiones, legales de los resultados. Los médicos solicitan e interpretan numerosos análisis todos los días y la complejidad de estas pruebas no ha dejado de aumentar. La creciente variedad de análisis ha creado una serie de retos para los médicos, por ejemplo, seleccionar el análisis correcto e interpretarlo con propiedad. Muchas veces los médicos se equivocan al seleccionar o interpretar el estudio, pero esto es difícil de detectar. Sin embargo, el uso de algunos algoritmos diagnósticos basados en evidencia que guían la selección de los estudios en determinadas enfermedades y permiten que un experto interprete el resultado (p. ej., interpretaciones y comentarios a la interpretación por parte de un patólogo clínico) ayuda a reducir estos errores, mejorar la oportunidad y precisión del diagnóstico.
Bailey DB et al. Ethical, legal, and social concerns about expanded newborn screening: Fragile X syndrome as a prototype for emerging issues. Pediatrics. 2008 Mar; 121(3):e693–704. [PMID: 18310190] Elder NC et al. Quality and safety in outpatient laboratory testing. Clin Lab Med. 2008 Jun;28(2):295–303. [PMID: 18436072] Flockhart DA et al. Pharmacogenetic testing of CYP2C9 and VKORC1 alleles for warfarin. Genet Med. 2008 Feb;10(2):139–50. [PMID: 18281922] Lamberts SW et al. Genetic testing in clinical practice. Annu Rev Med. 2009;60:431–42. [PMID: 18947300] Laposata M et al. “Pre-pre” and “Post-post” analytical error: high-incidence patient safety hazard involving the clinical laboratory. Clin Chem Lab Med. 2007;45(6):712–19. [PMID: 17579522] Nelson HD et al. Screening for breast cancer: an update for the U.S. Preventive Services Task Force. Ann Intern Med. 2009 Nov;151(10):727–37. [PMID: 19920273] Twombly R. Preventive Services Task Force recommends against PSA screening after age 75. J Natl Cancer Inst. 2008 Nov;100(22):1571–3. [PMID: 19001606] Van Den Bruel A et al. The evaluation of diagnostic tests: evidence on technical and diagnostic accuracy, impact on patient outcome and cost-effectiveness is needed. J Clin Epidemiol. 2007 Nov;60(11):1116–22. [PMID: 17938052]
PRUEBAS DIAGNÓSTICAS Preparación de la prueba Los factores que afectan al paciente y la muestra son importantes. El elemento determinante en una prueba de laboratorio bien realizada es la obtención de una muestra apropiada.
Preparación del paciente La preparación del individuo es esencial para ciertas pruebas; por ejemplo, es necesario el estado de ayuno para obtener mediciones óptimas de glucosa y triglicéridos; la postura y el consumo de sodio deben controlarse en forma estricta cuando se cuantifican las concentraciones de renina y aldosterona; y debe evitarse el ejercicio vigoroso antes de la obtención de muestras para cuantificar cinasa de creatina, ya que la actividad muscular intensa puede inducir resultados anormales falsos.
Recolección de la muestra Es importante conceder especial atención a la identificación del paciente y rotulación de la muestra (p. ej., deben utilizarse dos rótulos: nombre y fecha de nacimiento del individuo o nombre y clave única de la institución). Algunas veces es importante conocer el momento en que se tomó la muestra. Por ejemplo, para interpretar de manera correcta las cifras de aminoglucósidos es preciso saber si la muestra se tomó justo antes (concentración “farmacológica mínima”) o después (concentración “farmacológica máxima”) de administrar el medicamento. Las concentraciones farmacológicas no pueden interpretarse si la muestra se obtiene durante la fase de distribución del compuesto (p. ej., los niveles de digoxina cuantificados en las 6 h siguientes a una dosis oral). La interpretación de sustancias que tienen variación circadiana (p. ej., cortisol) sólo puede efectuarse en el contexto de la hora del día en que se recogió la muestra. Deben recordarse asimismo otros principios durante la recolección de muestras. Éstas no deben obtenerse por arriba del catéter, puesto que se contaminan con líquidos intravenosos y fármacos (p. ej., heparina). La permanencia de un torniquete por un tiempo excesivo produce hemoconcentración e incrementa la concentración de sustancias unidas a proteínas, como el calcio. La lisis celular durante la recolección de una muestra sanguínea produce valores séricos altos falsos de sustancias concentradas en las células (p. ej., deshidrogenasa láctica y potasio). Algunas muestras necesitan una manipulación o almacenamiento especiales (p. ej., muestras para gases arteriales y crioglobulina sérica). El retraso en la entrega de muestras al laboratorio da lugar a que el metabolismo celular prosiga, lo que produce resultados falsos en algunos estudios (p. ej., glucosa sérica baja). Lippi G et al. Haemolysis: an overview of the leading cause of unsuitable specimens in clinical laboratories. Clin Chem Lab Med. 2008;46(6):764–72. [PMID: 18601596] Wagar EA et al. Specimen labeling errors: a Q-probes analysis of 147 clinical laboratories. Arch Pathol Lab Med. 2008 Oct;132(10):1617–22. [PMID: 18834220]
CARACTERÍSTICAS DE LAS PRUEBAS En el cuadro e2-2 se presentan las características generales de las pruebas diagnósticas útiles. La mayor parte de los principios detallados a continuación se aplica no sólo a las pruebas de laboratorio y radiográficas, sino también a elementos del interrogatorio y la exploración física. Para el médico es muy útil conocer estas características al solicitar e interpretar los estudios.
Cuadro e2-2. Propiedades de las pruebas diagnósticas útiles 1. La metodología de la prueba se ha descrito de manera detallada, por lo que puede reproducirse en forma exacta y confiable. 2. Se han confirmado la exactitud y la precisión de la prueba. 3. El intervalo de referencia está bien establecido. 4. La sensibilidad y especificidad se determinaron de forma confiable mediante la comparación con un método de referencia. La valoración se realizó en diversos pacientes, incluidos los que padecen trastornos diferentes, pero que a menudo se confunden, y otros con espectro patológico de leve a grave, con y sin tratamiento. El proceso de selección de los individuos está bien descrito, de modo que los resultados no se generalizan en forma inapropiada. 5. Está confirmada la contribución independiente del desempeño general de un panel de pruebas, si la prueba se propone como parte de un panel de pruebas. Copyright © The McGraw-Hill Companies. Derechos reservados. Nota de privacidad. Cualquier uso está sujeto a los Términos de Uso y Aviso.
Exactitud La precisión de un análisis es su correspondencia con el valor verdadero. Una prueba inexacta es aquella en la que el resultado difiere del valor verdadero, aunque los resultados sean reproducibles (fig. e2-1A), también se llama error sistémico (o sesgo). Por ejemplo, la creatinina sérica se mide por lo general mediante el método cinético de Jaffe, que tiene un error sistémico hasta de 0.23 mg/100 ml, en comparación con la espectrometría de masa con dilución de isótopos y cromatografía de gases (GC-IDMS), que se considera la prueba de referencia. En el laboratorio, la exactitud de los análisis se incrementa tras calibrar el equipo con material de referencia y participar en programas externos de control de calidad.
A
B
C
Fig. e2-1. Relación entre la exactitud y la precisión de las pruebas diagnósticas. El centro del blanco representa el valor verdadero de la sustancia de prueba. A: prueba diagnóstica precisa, pero inexacta; con la medición repetida, la prueba produce resultados muy similares, pero todos están lejos del valor real. B: prueba imprecisa e inexacta; la medición repetida suministra resultados muy diferentes y éstos están lejos del valor real. C: una prueba ideal es precisa y exacta.
Precisión La precisión es una medida de la reproducibilidad de una prueba cuando se repite en la misma muestra. Si ésta se analiza varias veces, se anticipa cierta variación en los resultados (error aleatorio); esta variabilidad se expresa como coeficientes de variación (CV: desviación estándar dividida entre la media, que a menudo se expresa como porcentaje). Por ejemplo, cuando el laboratorio informa un CV de 5% para la creatinina sérica y acepta resultados dentro de ± 2 desviaciones estándar significa que, para una muestra con una creatinina
Número de individuos valorados
Promedio
Anormal (2.5%)
Normal Anormal (95%) (2.5%) Resultados de la prueba (porcentaje de población)
Fig. e2-2. El intervalo de referencia suele definirse como el delimitado por dos desviaciones estándar del resultado promedio de la prueba (se muestra como –2 y 2) en una pequeña población de voluntarios sanos. Obsérvese que en este ejemplo los resultados de la prueba tienen una distribución normal, pero muchas sustancias biológicas poseen distribuciones sesgadas.
sérica de 1.0 mg/100 ml, el laboratorio podría informar resultado de 0.90 a 1.10 mg/100 ml al medir en diversas ocasiones la misma muestra. Una prueba poco precisa es aquella que genera resultados muy variables en mediciones repetidas (fig. e2-1B). La precisión de los estudios diagnósticos, que se vigila en los laboratorios clínicos con material testigo, debe ser suficiente para distinguir entre los cambios de relevancia clínica en el estado del paciente y la variabilidad analítica (imprecisión) de la prueba. Por ejemplo, la cuenta diferencial manual de leucocitos periféricos no es lo bastante precisa para identificar cambios relevantes en la distribución de los tipos celulares, puesto que se calcula por medio de la valoración subjetiva de una pequeña muestra (100 células). Las mediciones repetidas en la misma muestra por parte de distintos técnicos arrojan resultados muy diferentes. Los recuentos diferenciales automáticos son más precisos porque se obtienen con aparatos que utilizan características físicas objetivas para clasificar una muestra mucho mayor (10 000 células).
Intervalo de referencia Los resultados de algunas pruebas diagnósticas se presentan como positivos o negativos, pero muchos se informan de manera cuantitativa. El uso de intervalos de referencia es una técnica para interpretar estos últimos resultados. Los intervalos de referencia son específicos para cada método y laboratorio. En la práctica, muchas veces representan los resultados de la prueba encontrados en 95% de una pequeña población que se presupone sana; por definición, 5% de los pacientes sanos tiene resultados anormales en la prueba (fig. e2-2). Los resultados ligeramente anormales deben interpretarse en forma crítica, ya que pueden ser anormales verdaderos o falsos. En términos estadísticos, la probabilidad de que una persona sana tenga dos resultados distintos de una prueba dentro del intervalo de referencia es de 0.95 × 0.95 = 0.9025 o 90.25%; para cinco pruebas es de 77.4%; para 10 pruebas de 59.9% y para 20 pruebas de 35.8%. Cuanto mayor sea el número de estudios solicitados, mayor será la probabilidad de que uno o más de los resultados se encuentren por fuera del intervalo de referencia (cuadro e2-3). Por el contrario, es factible que valores
Cuadro e2-3. Relación entre el número de pruebas y la probabilidad de que una persona sana tenga uno o más resultados anormales Número de pruebas
Probabilidad de que uno o más resultados sean anormales
1
5%
6
26%
12
46%
20
64%
Copyright © The McGraw-Hill Companies. Derechos reservados. Nota de privacidad. Cualquier uso está sujeto a los Términos de Uso y Aviso.
dentro del intervalo de referencia no descarten la presencia real de una enfermedad, ya que dicho intervalo no establece la distribución de resultados en pacientes con la afección. Por esa razón, los intervalos de referencia deben usarse dentro del contexto del conocimiento médico sobre el trastorno en duda. Es importante considerar también si los intervalos de referencia publicados son apropiados para el individuo en estudio, dado que algunos intervalos dependen de la edad, sexo, peso, dieta, hora del día, nivel de actividad, postura, e incluso la época del año. La variabilidad biológica se presenta tanto entre individuos como en el mismo sujeto. Por ejemplo, el nivel de estrógeno sérico en las mujeres varía día a día, de acuerdo con el ciclo menstrual; el cortisol sérico muestra variación diurna (en la mañana es mayor y decrece en el transcurso del día), y la vitamina D experimenta una variación estacional con valores menores en invierno. El cuadro 2 del Apéndice detalla los intervalos de referencia para las pruebas comunes de química sanguínea y hematológicas. Más adelante se describen las características de desempeño de la prueba, como sensibilidad y especificidad, que son necesarias para interpretar los resultados. Jung B et al. Clinical laboratory reference intervals in pediatrics: the CALIPER initiative. Clin Biochem. 2009 Nov;42(16–17):1589–95. [PMID: 19591815]
Factores de interferencia Los resultados de las pruebas diagnósticas pueden alterarse por factores externos, como ingestión de fármacos, e internos, como estados fisiológicos anormales. Estos factores contribuyen a la variabilidad biológica y deben tomarse en consideración al interpretar los resultados. Las interferencias externas influyen en los resultados de las pruebas in vivo o in vitro. In vivo, el alcohol incrementa la concentración de transpeptidasa de glutamilo γ, y los diuréticos modifican las concentraciones de sodio y potasio. El tabaquismo induce enzimas hepáticas, lo que reduce los niveles de sustancias como la teofilina, que se metabolizan en el hígado. In vitro, las cefalosporinas pueden suscitar niveles falsos de creatinina sérica por la interferencia con el método de análisis habitual de los laboratorios. Las interferencias internas derivan de estados fisiológicos anormales que influyen en la medición. Por ejemplo, en sujetos con lipemia notable puede obtenerse un resultado bajo falso de sodio sérico, si la metodología de la prueba incluye un paso en que se diluya el suero antes de medir el sodio, y en personas con anticuerpos endógenos (p. ej., anticuerpos humanos anti-ratón) es posible obtener resultados falsos, elevados o bajos, en inmunoensayos automáticos. En virtud de la posibilidad de interferencia con la prueba, los médicos deben ser cautos ante los resultados inesperados e investigar razones distintas a la enfermedad que expliquen los resultados anormales, incluidos los errores del laboratorio previos y durante la prueba. Ismail AA. Interference from endogenous antibodies in automated immunoassays: what laboratorians need to know. J Clin Pathol. 2009 Aug;62(8):673–8. [PMID: 19638536] Smellie WS. What is a significant difference between sequential laboratory results? J Clin Pathol. 2008 Apr;61(4):419–25. [PMID: 17938161]
Sensibilidad y especificidad Los clínicos deben usar mediciones del desempeño de las pruebas, como su sensibilidad y especificidad, con el propósito de juzgar la calidad de un método diagnóstico para una enfermedad específica. La sensibilidad de una prueba es su capacidad para detectar la enfermedad y se expresa como el porcentaje de pacientes con la afección en que la prueba es positiva. En consecuencia, una prueba con 90% de sensibilidad proporciona resultados positivos en el mismo porcentaje de pacientes enfermos y resultados negativos en 10% de los sujetos con la enfermedad (falsos negativos). Por lo general, una prueba con alta sensibilidad ayuda a descartar un diagnóstico, dado que arroja pocos resultados negativos falsos. Por ejemplo, para descartar infección por el virus que causa el sida, un médico podría elegir un estudio muy sensible, como el de anticuerpo contra el virus de inmunodeficiencia humana (VIH). La especificidad de una prueba es su capacidad para detectar ausencia de enfermedad, y se expresa como el porcentaje de pacientes sin la enfermedad en que la prueba es negativa. Por consiguiente, una prueba con 90% de especificidad suministra resultados negativos en el mismo porcentaje de sujetos sin enfermedad y resultados positivos en 10% de individuos no enfermos (falsos positivos). Una prueba con alta especificidad contribuye a confirmar el diagnóstico, ya que tiene pocos resultados positivos falsos. Por ejemplo, para establecer el diagnóstico de artritis gotosa, un médico puede elegir una prueba muy específica, como la presencia de cristales en forma de aguja con birrefringencia negativa dentro de los leucocitos en el estudio microscópico del líquido sinovial. Para determinar la sensibilidad y especificidad de una prueba para una enfermedad particular, la técnica debe compararse con una “prueba de referencia” independiente o criterio diagnóstico estándar establecido que
defina el estado real de afectación del individuo. Por ejemplo, la sensibilidad y especificidad de la prueba de detección rápida de antígenos para diagnosticar faringitis por el estreptococo hemolítico β del grupo A se obtienen mediante la comparación de sus resultados con los de la prueba de referencia para este trastorno, que es el cultivo de exudado faríngeo. La aplicación de la prueba de referencia a los pacientes con prueba positiva para la demostración rápida de antígenos establece la especificidad. Cuando no se aplica esta prueba después de la detección rápida negativa, puede haber sobrestimación de la sensibilidad, ya que no se identifican los falsos negativos. Sin embargo, en muchas enfermedades (p. ej., pancreatitis) no hay prueba de referencia o su aplicación es muy difícil o costosa; en tales casos es difícil obtener estimaciones confiables de la sensibilidad y especificidad de la misma. La población de la cual derivan los valores también puede afectar la sensibilidad y la especificidad; en consecuencia, muchos procedimientos diagnósticos se valoran primero en personas con la forma grave de la enfermedad y en grupos testigo jóvenes y sanos. En comparación con la población general, este grupo de estudio presenta más resultados positivos verdaderos (porque los individuos sufren enfermedad más avanzada) y más resultados negativos reales (porque el grupo testigo es sano); por lo tanto, la sensibilidad y la especificidad de la prueba son más altas de lo que se espera en la población general, dado que en ésta hay un espectro más amplio de salud y enfermedad. Los médicos deben estar conscientes de este sesgo de espectro al extrapolar los resultados publicados de las pruebas a su práctica particular. A fin de minimizar el sesgo de espectro, el grupo testigo debe incluir personas que tienen enfermedades relacionadas con la que se estudia, pero que carezcan de este padecimiento principal. Por ejemplo, para establecer la sensibilidad y especificidad de la prueba del péptido citrulinado anticíclico (CCP) en la artritis reumatoide, el grupo testigo debe incluir pacientes con enfermedades reumáticas distintas a la artritis reumatoide. Otros sesgos, entre ellos la composición del espectro, el reclutamiento de población y el estándar de referencia inexistente o inadecuado, así como el sesgo de verificación, se explican en las referencias.
Número de individuos valorados
Es importante recordar que la sensibilidad y la especificidad informadas de la prueba dependen del nivel del compuesto analizado (umbral) utilizado para distinguir un resultado normal de otro anormal. Si se reduce el umbral, la sensibilidad aumenta a expensas de una menor especificidad; si se incrementa, la sensibilidad disminuye al tiempo que aumenta la especificidad (fig. e2-3).
Sin enfermedad
Enfermedad
A B C Resultados de la prueba
Fig. e2-3. Distribución hipotética de resultados en pruebas para individuos sanos y enfermos. La posición del “punto límite” entre los resultados “normal” y “anormal” (o “negativo” y “positivo”) determina la sensibilidad y la especificidad de la prueba. Si A es el punto límite, la prueba tendría sensibilidad de 100%, pero especificidad baja. Si el punto límite es C, la prueba tendría una especificidad de 100%, pero sensibilidad baja. En muchas pruebas, el punto límite se determina por el intervalo de referencia, es decir, el intervalo de resultados que esté a menos de dos desviaciones estándar del resultado promedio para individuos sanos (punto B). En algunas situaciones, el límite se altera para incrementar la sensibilidad o especificidad.
La figura e2-4 muestra la forma en que pueden calcularse la sensibilidad y la especificidad con los resultados de la prueba en pacientes clasificados en forma previa como enfermos o no enfermos, con base en la prueba de referencia. Puede compararse el desempeño de dos pruebas diferentes mediante la diagramación de las curvas de característica del operador (ROC) en diversos valores límite de los intervalos de referencia. Las curvas resultantes, que se obtienen al diagramar la sensibilidad contra (1-especificidad) para cada prueba, muestran a menudo cuál es la mejor técnica; la curva ROC de la prueba superior queda siempre arriba y a la izquierda de la curva de una prueba inferior. En general, mientras mejor sea la técnica, mayor será el área bajo la curva ROC. Por ejemplo, la ilustración de la figura e2-5 muestra las curvas ROC para el antígeno prostático específico (PSA) y la fosfatasa ácida prostática (PAP) en el diagnóstico del cáncer prostático. La prueba de PSA es superior porque tiene mayor sensibilidad y especificidad para todos los valores límite.
Prueba
Enfermedad Presente
Ausente
Positiva
TP
FP
Negativa
FN
TN
Sensibilidad =
Especificidad =
TP = (Sensibilidad)(Probabilidad anterior a la prueba) FP = (1 – Especificidad)(1 – Probabilidad anterior a la prueba) FN = (1 – Sensibilidad)(Probabilidad anterior a la prueba) TN = (Especificidad)(1 – Probabilidad anterior a la prueba)
Número de pacientes enfermos con prueba positiva
TP
=
Número de pacientes enfermos
TP + FN
Número de pacientes no enfermos con prueba negativa
TN
=
TN + FP
Número de pacientes no enfermos
Probabilidad posterior a la prueba después = Probabilidad de enfermedad si la prueba es positiva = de prueba positiva
TP TP + FP
(Sensibilidad)(Probabilidad anterior a la prueba)
=
(Sensibilidad)(Probabilidad anterior a la prueba) + (1 – Especificidad)(1 – Probabilidad anterior a la prueba)
Fig. e2-4. Cálculo de sensibilidad, especificidad y probabilidad de enfermedad después de una prueba positiva (probabilidad posterior a la prueba). TP, positivo verdadero; FP, positivo falso; FN, negativo falso; TN, negativo verdadero.
1 .9 .8
1
2
4
0.2
6
Sensibilidad
.7 .6
10
0.3
.5
0.4
.4
20
.3
0.6 0.8 1.2
.2
PSA μg/L PAP U/L
.1 0
.1
.2
.3
.4
.5
.6
.7
.8
1 – Especificidad
Fig. e2-5. Curvas de eficacia diagnóstica (ROC) para el antígeno prostático específico (PSA) y la fosfatasa ácida prostática (PAP) en el diagnóstico de cáncer prostático. Para todos los valores límite, el PSA tiene mayor sensibilidad y especificidad; por lo tanto, es una mejor prueba con base en estas características de eficacia. (Modificada y reproducida con autorización de Nicoll D et al. Routine acid phosphatase testing for screening and monitoring prostate cancer no longer justified. Clin Chem. 1993 Dec; 39(12):2540-1.)
Es importante señalar que, para un análisis determinado, la curva ROC también hace posible identificar el umbral que reduce al mínimo los resultados falsos positivos y falsos negativos y que se ubica en el punto más cercano a la esquina superior izquierda de la curva. Sin embargo, el valor umbral clínico óptimo depende
de la anomalía a identificar y la importancia relativa de los resultados falsos positivos respecto de los falsos negativos. Bossuyt X. Clinical performance characteristics of a laboratory test. A practical approach in the autoimmune laboratory. Autoimmun Rev. 2009 Jun;8(7):543–8. [PMID: 19200856] Christenson RH et al. Committee on Evidence Based Laboratory Medicine of the International Federation for Clinical Chemistry Laboratory Medicine. Evidence-based laboratory medicine - a guide for critical evaluation of in vitro laboratory testing. Ann Clin Biochem. 2007 Mar:44(Pt 2):111–30. [PMID: 17362577] Hicks DG et al. HER2+ breast cancer: review of biologic relevance and optimal use of diagnostic tools. Am J Clin Pathol. 2008 Feb; 129(2):263–73. [PMID: 18208807]
USO DE LAS PRUEBAS EN EL DIAGNÓSTICO Y EL TRATAMIENTO La utilidad de un estudio en determinada situación clínica depende no sólo de sus características (p. ej., sensibilidad y especificidad), sino también de la probabilidad de que el paciente padezca la afección antes de conocer el resultado (probabilidad anterior a la prueba). Los resultados de una prueba útil modifican en forma sustancial la probabilidad de que el individuo padezca la anomalía (probabilidad posterior a la prueba). La figura e2-4 muestra la forma en que puede calcularse la probabilidad posterior a la prueba a partir de la sensibilidad y especificidad conocidas y de la probabilidad calculada del trastorno anterior a la prueba (o prevalencia de la enfermedad), según el teorema de Bayes. La probabilidad anterior a la prueba, o prevalencia de una enfermedad, repercute en grado notable en la probabilidad posterior a la prueba para ese trastorno. Como se demuestra en el cuadro e2-4, cuando se emplea una prueba con sensibilidad y especificidad de 90%, la probabilidad posterior a la prueba puede variar de 8 a 99%, de acuerdo con la probabilidad anterior a la prueba de la enfermedad. Además, conforme decrece la probabilidad anterior a la prueba, más probable es que un resultado positivo sea falso.
Cuadro e2-4. Influencia de la probabilidad anterior a la prueba sobre la probabilidad de enfermedad posterior a la prueba cuando se utiliza una técnica con sensibilidad de 90% y especificidad de 90% Probabilidad anterior a la prueba
Probabilidad posterior a la prueba
0.01
0.08
0.50
0.90
0.99
0.999
Copyright © The McGraw-Hill Companies. Derechos reservados. Nota de privacidad. Cualquier uso está sujeto a los Términos de Uso y Aviso.
A manera de ejemplo, un médico desea calcular la probabilidad posterior a la prueba de cáncer prostático mediante la cuantificación de PSA y un valor límite de 4 μg/L. A partir de los datos mostrados en la figura e2-5, la sensibilidad es de 90% y la especificidad de 60%. El médico determina la probabilidad anterior a la prueba de la enfermedad con base en toda la evidencia y luego calcula la probabilidad posterior a la prueba mediante el procedimiento que se muestra en la figura e2-4. La probabilidad anterior a la prueba de que un varón de 50 años de edad, por lo demás sano, tenga cáncer prostático, es igual a la prevalencia del cáncer prostático en ese grupo de edad (probabilidad = 10%), y la probabilidad posterior a la prueba después de un resultado positivo es sólo de 20%; esto significa que, aunque la prueba sea positiva, todavía hay una probabilidad de 80% de que el sujeto no tenga cáncer prostático (fig. e2-6A). Si el médico encuentra un nódulo prostático durante la exploración rectal, la probabilidad anterior a la prueba de cáncer prostático se incrementa 50% y la probabilidad posterior a la prueba con la misma prueba es de 69% (fig. e2-6B). Por último, si el médico prevé que la probabilidad anterior a la prueba es de 98% con base en un nódulo prostático, dolor óseo y lesiones líticas en las radiografías de columna, la probabilidad posterior a la prueba con PSA es de 99% (fig. e2-6C). Este ejemplo ilustra que la probabilidad anterior a la prueba tiene un efecto profundo en la probabilidad posterior a la prueba y que las pruebas suministran más información cuando el diagnóstico es muy incierto (probabilidad anterior a la prueba cercana a 50%) en comparación con un diagnóstico improbable o casi seguro. Bossuyt X. Clinical performance characteristics of a laboratory test. A practical approach in the autoimmune laboratory. Autoimmun Rev. 2009 Jun;8(7):543–8. [PMID: 19200856]
A
Probabilidad anterior a la prueba Probabilidad posterior a la prueba Prueba positiva
0
.1
.2
Probabilidad anterior a la prueba
B
1
.5 Probabilidad de enfermedad Probabilidad posterior a la prueba
Prueba positiva
1
.5 .69 Probabilidad de enfermedad
0
Probabilidad Probabilidad anterior a la posterior a la prueba prueba C
.5 Probabilidad de enfermedad
0
.98 1 .99
Fig. e2-6. Efecto de la probabilidad anterior a la prueba y de la sensibilidad y especificidad de ésta en la probabilidad de enfermedad posterior a la prueba. (Véase la explicación en el texto.)
Hargett CW et al. Clinical probability and D-dimer testing: how should we use them in clinical practice. Semin Respir Crit Care Med. 2008 Feb;29(1):15–24. [PMID: 18302083] Scott IA et al. Cautionary tales in the clinical interpretation of studies of diagnostic tests. Intern Med J. 2008 Feb;38(2):120–9. [PMID: 17645501] Van Randen A et al. Acute appendicitis: meta-analysis of diagnostic performance of CT and graded compression US related to prevalence of disease. Radiology. 2008 Oct;249(1):97–106. [PMID: 18682583]
PROBABILIDAD DE MOMIOS Otra forma de calcular la probabilidad de enfermedad posterior a la prueba consiste en recurrir a la probabilidad de momios. Se combinan la sensibilidad y la especificidad en una entidad llamada índice de probabilidad (LR): LR =
Probabilidad del resultado en personas enfermas Probabilidad del resultado en personas no enfermas
Cuando los resultados se dividen en dos, toda prueba tiene dos índices de probabilidad, uno correspondiente a un resultado positivo (LR+) y otro a uno negativo (LR–):
LR+ =
Probabilidad de que la prueba sea positiva en personas enfermas Probabilidad de que la prueba sea positiva en personas no enfermas =
LR– =
=
Sensibilidad 1 – Especificidad
Probabilidad de que la prueba sea negativa en personas enfermas Probabilidad de que la prueba sea negativa en personas no enfermas 1 – Sensibilidad Especificidad
Para las mediciones continuas pueden definirse múltiples índices de probabilidad que correspondan a los intervalos de resultados. (Véase un ejemplo en el cuadro e2-5.)
Cuadro e2-5. Índices de probabilidad de la ferritina sérica en el diagnóstico de la anemia ferropénica Ferritina sérica (μg/L)
LR para anemia ferropénica
≥100
0.08
45-99
0.54
35-44
1.83
25-34
2.54
15-24
8.83
≤15
51.85
Datos tomados de Guyatt G et al. Laboratory diagnosis of iron deficiency anemia. J Gen Intern Med. 1992 Mar-Apr;7(2):145-53. Copyright © The McGraw-Hill Companies. Derechos reservados. Nota de privacidad. Cualquier uso está sujeto a los Términos de Uso y Aviso.
Los índices de probabilidad pueden calcularse con las fórmulas previas. También pueden encontrarse en algunos libros de texto, artículos de revistas y programas en línea (véase el cuadro e2-6, que incluye valores de muestra). Los índices de probabilidad proporcionan una estimación sobre si habrá un cambio significativo en la probabilidad previa a la prueba o en la posterior a la prueba de una enfermedad con base en el
Cuadro e2-6. Ejemplos de índices de probabilidad (LR) Enfermedad
Prueba
LR+
LR–
Absceso
Tomografía computarizada de abdomen
9.5
0.06
Coronariopatía
Electrocardiograma de esfuerzo (depresión de 1 mm)
3.5
0.45
Cáncer de pulmón
Radiografía torácica
15
0.42
Hipertrofia ventricular izquierda
Ecocardiografía
18.4
0.08
Infarto miocárdico
Troponina I
24
0.01
Cáncer de próstata
Valoración rectal digital
21.3
0.37
Copyright © The McGraw-Hill Companies. Derechos reservados. Nota de privacidad. Cualquier uso está sujeto a los Términos de Uso y Aviso.
resultado de la misma, por lo que pueden usarse para hacer cálculos rápidos sobre la utilidad de las pruebas diagnósticas contempladas en situaciones particulares. Un índice de probabilidad de 1 implica que no habrá diferencia entre las probabilidades previa y posterior a la prueba. Los índices de probabilidad >10 o