Descripción de las pruebas médicas y los resultados de las pruebas

PorBrian F. Mandell, MD, PhD, Cleveland Clinic Lerner College of Medicine at Case Western Reserve University

Reviewed ByMichael R. Wasserman, MD, California Association of Long Term Care Medicine

Revisado/Modificado jul 2024 | Modificado nov 2024

v1123930_es

Vista para pacientes

Definición de un resultado positivo de la prueba|
Características de la prueba|
Pruebas dicotómicas|
Pruebas continuas|
Teorema de Bayes|
Estudios complementarios secuenciales|
Pruebas de cribado|
Umbrales para realizar estudios complementarios|

Los resultados de las prueba pueden ayudar a realizar un diagnóstico en pacientes sintomáticos (pruebas diagnósticas) o identificar una enfermedad oculta en los asintomáticos (cribado). Si las pruebas se indican en forma adecuada sobre la base de la presentación clínica, cualquier resultado debe ayudar a descartar posibles diagnósticos. Los resultados de las pruebas pueden interferir con el proceso de decisión clínica si la prueba no distingue bien entre los pacientes con o sin la(s) enfermedad(es) sospechada(s) o si el resultado de la prueba no parece coincidir con el contexto clínico.

Las pruebas de laboratorio son imperfectas y pueden identificar erróneamente algunas personas sanas como si tuvieran la enfermedad (resultado falso positivo) o una persona enferma como si fuera sana (resultado falso negativo). La capacidad de la prueba para identificar correctamente los pacientes con la enfermedad depende de la probabilidad que tiene una persona de sufrir una enfermedad (probabilidad previa) y de las características de funcionamiento intrínseco de la prueba (1).

Aunque las pruebas diagnósticas suelen contribuir de modo fundamental en la toma de decisiones médicas precisas, pueden tener consecuencias indeseadas o no planeadas. Las pruebas deberán ser hechas con deliberación y propósito y con la expectativa de que los resultados obtenidos reducirán la ambigüedad que rodea los problemas de los pacientes y contribuirán a su salud. Además del riesgo de proporcionar información incorrecta (y con ello, retrasar el inicio del tratamiento o inducir un tratamiento innecesario), las pruebas de laboratorio consumen recursos limitados y pueden tener por sí efectos adversos (p. ej., neumotórax causado al realizar la biopsia pulmonar) o pueden solicitarse pruebas adicionales estrés del paciente. innecesarios.

Los resultados de una prueba de cribado o de diagnóstico deben interpretarse en la situación clínica específica y en el contexto de las pruebas basales previas.

Referencia

1. Armstrong KA, Metlay JP: Annals Clinical Decision Making: Using a Diagnostic Test. Ann Intern Med. 2020;172(9):604-609. doi:10.7326/M19-1940

Definición de un resultado positivo de la prueba

Entre las pruebas más comunes están las que ofrecen resultados a lo largo de una escala continua, cuantitativa (p. ej., glucosa, recuento de leucocitos). Estas pruebas pueden proporcionar información clínica útil a lo largo de sus límites, pero los médicos a menudo las utilizan para diagnosticar una enfermedad al exigir que el resultado se clasifique como positivo o negativo (es decir, enfermedades presentes o ausentes) sobre la base de la comparación con algún criterio establecido o valor de corte. En general, estos valores de corte se seleccionan por análisis estadístico y conceptual que intenta equilibrar la tasa de resultados falsos positivos (que determinan tratamientos o exámenes innecesarios, costosos y tal vez peligrosos) y de resultados falsos negativos (no diagnostican una enfermedad tratable). La identificación del valor de corte también depende de disponer de un método de referencia para identificar la enfermedad en cuestión.

Típicamente, estos resultados cuantitativos de las pruebas (p. ej., recuento de leucocitos en casos de sospecha de neumonía bacteriana) siguen algún tipo de curva de distribución (no necesariamente una curva normal, aunque se suele representar de ese modo). La distribución de los resultados de la prueba para los pacientes con enfermedad se centra en un punto diferente que para aquellos sin enfermedad. Algunos pacientes con enfermedad tendrán un resultado muy alto o muy bajo, pero la mayoría tiene un resultado centrado en una media. Por el contrario, algunos pacientes sin enfermedad tienen un resultado muy alto o muy bajo, pero la mayoría tiene un resultado centrado en una media diferente de la de los pacientes con enfermedad. Para la mayoría de las pruebas, las distribuciones se superponen de modo tal que muchos de los posibles resultados ocurren en pacientes con enfermedad y sin ella; estos resultados se ilustran con mayor claridad cuando las curvas se representan en el mismo gráfico (véase figura Distribuciones de los resultados de la prueba). Algunos pacientes ubicados por encima y por debajo del valor de corte seleccionado se caracterizarán en forma incorrecta. Si se ajusta un valor de corte para identificar a más pacientes con enfermedad (aumento de la sensibilidad de la prueba), también aumenta el número de falsos positivos (mala especificidad) y si se desplaza el valor de corte, la otra forma de evitar que los pacientes reciban diagnósticos falsos como que tienen la enfermedad, aumenta el número de falsos negativos. Cada valor de corte se asocia con una probabilidad específica de resultados verdaderos positivos y falsos positivos.

Distribuciones de los resultados de la prueba

Los pacientes con enfermedad aparecen en la distribución superior; los pacientes sin enfermedad aparecen en la distribución inferior. Para los pacientes con la enfermedad, la región debajo de la distribución de los resultados que se encuentra a la derecha (arriba) del criterio del valor de corte corresponde a la tasa de verdaderos positivos de la prueba (es decir, su sensibilidad); la región que se encuentra a la izquierda (abajo) del criterio corresponde a la tasa de falsos negativos. Para los pacientes sin enfermedad, la región a la derecha del criterio de valor de corte corresponde a la tasa de falsos positivos, y la región a la izquierda corresponde a la tasa de verdaderos negativos (es decir, su especificidad). En las dos distribuciones que se superponen (p. ej., pacientes con enfermedad y sin ella), al desplazar el criterio del valor de corte se afecta la sensibilidad y la especificidad, pero en direcciones opuestas; si se cambia el criterio del valor de corte de 1 a 2, disminuye el número de falsos negativos (aumenta sensibilidad), pero también aumenta el número de falsos positivos (disminuye la especificidad).

Curvas de las características operativas del receptor (ROC; receiver operating characteristic)

La representación gráfica de la fracción de resultados verdaderos positivos (número de verdaderos positivos/número con enfermedad) contra la fracción de resultados falsos positivos (número de falsos positivos/número sin enfermedad) para una serie de valores de corte genera lo que se conoce como curva ROC. La curva ROC representa gráficamente el equilibrio entre la sensibilidad y la especificidad cuando se ajusta el valor de corte (véase figura Curva ROC [receiver operating characteristic] típica). Por convención, la fracción de verdaderos positivos se coloca en el eje y, y la fracción de falsos positivos en el eje x. Cuanto mayor sea el área bajo la curva ROC, mejor será la prueba para discriminar entre pacientes con enfermedad o sin ella.

Las curvas ROC permiten comparar las pruebas en una variedad de valores de corte. En el ejemplo, el desempeño de la prueba A es mejor que el de la prueba B en todos los rangos. Las curvas ROC también ayudan en la selección del valor de corte diseñado para maximizar la utilidad de la prueba. Si una prueba está diseñada para confirmar una enfermedad, se selecciona un valor de corte con mayor especificidad y menor sensibilidad. Si una prueba está diseñada para detectar enfermedad oculta, se selecciona un valor de corte con una mayor sensibilidad y especificidad inferior.

Curva ROC (receiver operating characteristic) típica

Características de la prueba

Algunas variables clínicas tienen sólo 2 resultados posibles (p. ej., vivo/muerto, embarazada/no embarazada); estas variables se denominan categóricas y dicotómicas. Otros resultados categóricos pueden tener muchos valores diferenciados (p. ej., grupo sanguíneo, Escala de Coma de Glasgow) y se denominan nominales u ordinales. Las variables nominales, como el grupo sanguíneo, no tienen ningún orden particular. Las variables ordinales, como la Escala de Coma de Glasgow, tienen valores separados que se organizan en un orden determinado. Otras variables clínicas, como sucede en muchas pruebas diagnósticas típicas, son continuas y tienen un número infinito de resultados posibles (p. ej., recuento de leucocitos, concentración de glucosa en sangre). Muchos médicos seleccionan un valor de corte que puede causar una variable continua a ser tratada como una variable dicotómica (p. ej., se considera que los pacientes con un valor de la glucemia en ayuno > 126 mg/dL [7,0 mmol/L] tienen diabetes). Otras pruebas diagnósticas continuas brindan utilidad diagnóstica cuando tienen múltiples valores de corte o cuando los rangos de los resultados tienen valor diagnóstico diferente.

Cuando los resultados de la prueba pueden definirse como positivos o negativos, todos los resultados posibles pueden grabarse en un simple tabla de 2 × 2 (véase tabla Distribución de resultados hipotéticos de la prueba) a partir de la cual es posible calcular características discriminatorias importantes de la prueba, como sensibilidad, especificidad, valor predictivo positivo y negativo y razón de verosimilitud (RV) (véase tabla Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%).

Tabla

Distribución de resultados hipotéticos de la prueba

Tabla

Distribución de resultados hipotéticos de la prueba

Resultados	Enfermedad presente	Enfermedad ausente
Prueba positiva	Verdadera positiva	Falsa positiva
Prueba negativa	Falsa negativa	Verdadera negativa
Total de pacientes	Todos los pacientes con enfermedad	Todos los pacientes sin enfermedad

Sensibilidad, especificidad y valores predictivos

La sensibilidad, la especificidad normalmente se consideran características de la prueba en sí misma, independientes de la población de pacientes.

Sensibilidad es la probabilidad de que los pacientes con la enfermedad tengan un resultado positivo (tasa verdadera-positiva)

En consecuencia, una prueba que es positiva en 8 de 10 pacientes con una enfermedad tiene una sensibilidad de 0,8 (también expresada como 80%). La sensibilidad representa cuán bien una prueba detecta la enfermedad; una prueba con baja sensibilidad no identifica a muchos pacientes con enfermedad y una prueba de alta sensibilidad es útil para descartar un diagnóstico cuando los resultados son negativos. La sensibilidad es el complemento de la tasa de falsos negativos (es decir, la tasa de falsos negativos más la sensibilidad = 100%).

La especificidad es la probabilidad de que los pacientes tengan un resultado negativo (tasa de verdaderos negativos)

Una prueba que es negativa en 9 de 10 pacientes sin enfermedad tiene una especificidad de 0,9 (o 90%). La especificidad representa cuán bien una prueba identifica correctamente a los pacientes con enfermedad porque las pruebas con alta especificidad tienen una baja tasa de falsos positivos. Una prueba con baja especificidad diagnostica a muchos pacientes sin enfermedad como que tienen la enfermedad. Es el complemento de la tasa de falsos positivos.

Los valores predictivos describen el comportamiento de la prueba en una población dada de pacientes que no saben si tienen la enfermedad. Para una prueba dada, los valores predictivos varían según la prevalencia de la enfermedad en la población de pacientes evaluados.

El valor predictivo positivo (VPP) es la proporción de pacientes con una prueba positiva que realmente tiene la enfermedad

Por lo tanto, si 9 de 10 resultados positivos son correctos (verdadero positivo), el VPP es del 90%. Dado que todos los resultados positivos tienen cierto número de verdaderos positivos y algunos falsos positivos, el VPP describe cuán probable es que un resultado positivo en una población determinada de pacientes represente un verdadero positivo.

El valor predictivo negativo (VPN) es la proporción de pacientes con un resultado negativo que realmente no tiene la enfermedad.

Sensibilidad, especificidad y valores predictivos

VPN = valor predictivo negativo; VPP = valor predictivo positivo.

Por lo tanto, si 8 de los 10 resultados negativos de la prueba son correctos (verdadero negativo), el VPN es del 80%. Dado que no todos los resultados negativos son verdaderos negativos, algunos pacientes con un resultado negativo tienen realmente la enfermedad. El VPN describe cuán probable es que un resultado negativo en una población determinada de pacientes represente un verdadero negativo.

Calculadora clínica

Sensibilidad de una prueba

Calculadora clínica

Especificidad de una prueba

Calculadora clínica

Valor predictivo positivo a partir de datos brutos

Calculadora clínica

Valor predictivo positivo de una prueba

Calculadora clínica

Valor predictivo negativo a partir de datos brutos

Calculadora clínica

Valor predictivo negativo de una prueba

Razones o relaciones de verosimilitud (RV, likelihood ratios)

A diferencia de la sensibilidad y la especificidad, que no se aplican a probabilidades de pacientes determinados, la RV permite que los médicos interpreten los resultados de las pruebas en un paciente específico siempre que exista una probabilidad preprueba de enfermedad conocida (aunque a menudo es estimada).

La RV describe el cambio en la probabilidad preprueba de enfermedad cuando se conoce el resultado de la prueba y responde a la pregunta

¿Cuánto se modifica la probabilidad posprueba de la probabilidad preprueba una vez conocido el resultado de la prueba?

Muchas pruebas clínicas son dicotómicas; esto significa que están por encima del punto de corte (positivo) o por debajo del punto de corte (negativo) y solo hay 2 resultados posibles. Otras pruebas brindan resultados que son continuos o aparecen en un rango donde se seleccionan varios valores de corte. La probabilidad posprueba real depende de la magnitud de la RV (que depende de las características operativas de la prueba) y la estimación de la probabilidad preprueba de enfermedad. Cuando la prueba es dicotómica y el resultado es positivo o negativo, la sensibilidad y la especificidad pueden utilizarse para calcular la RV positiva (RV+) o RV negativa (RV-).

RV+: la razón de la probabilidad entre un resultado positivo que se produce en pacientes con la enfermedad (verdadero positivo) y la probabilidad de un resultado positivo en pacientes sin la enfermedad (falso positivo)
RV-: la razón de la probabilidad entre un resultado negativo en pacientes con la enfermedad (falso negativo) y la probabilidad de un resultado negativo en pacientes sin la enfermedad (verdadero negativo)

Cuando el resultado es continuo o tiene varios valores de corte, se utiliza la curva ROC, no la sensibilidad y la especificidad, para calcular una RV que ya no se describe como RV+ o RV-.

Dado que la RV es una relación de acontecimientos mutuamente excluyentes, en lugar de una proporción de un total, representa las posibilidades en lugar de la probabilidad. Para una prueba determinada, la RV es diferente para los resultados positivos y negativos.

Por ejemplo, dado un resultado positivo, una RV de 2,0 indica que las posibilidades son 2:1 (verdaderos positivos:falsos positivos) de que un resultado positivo de la prueba represente a un paciente con enfermedad. De 3 pruebas positivas, 2 se producirían en pacientes con enfermedad (verdadero positivo) y 1 en un paciente sin enfermedad (falso positivo). Como los verdaderos positivos y los falsos positivos son componentes de los cálculos de la especificidad y la sensibilidad, la RV+ puede también calcularse como sensibilidad/(1 − especificidad). Cuanto mayor sea la RV+, más información proporciona un resultado positivo; un resultado positivo en una prueba con una RV+ > 10 se considera evidencia fuerte a favor de un diagnóstico. En otras palabras, la estimación de la probabilidad preprueba se desplaza fuertemente hacia el 100% cuando una prueba positiva tiene una RV+ alta.

En el caso de un resultado negativo, una RV- de 0,25 indica que las probabilidades son de 1:4 (falsos negativos:verdaderos negativos) de que el resultado negativo de la prueba represente a un paciente con enfermedad. De 5 resultados negativos, 1 se produciría en un paciente con enfermedad (falso negativo) y 4 en pacientes sin enfermedad (verdadero negativo). La RV- puede también calcularse como (1 − sensibilidad)/especificidad. Cuanto menor sea la RV-, más información proporciona un resultado negativo; un resultado negativo en una prueba con una RV < 0,1 se considera evidencia fuerte contra un diagnóstico. En otras palabras, la estimación de la probabilidad preprueba se desplaza fuertemente hacia la probabilidad de 0% cuando una prueba negativa tiene una RV- baja.

Los resultados de la prueba con RV de 1,0 no proporcionan ninguna información y no pueden afectar la probabilidad posprueba de la enfermedad.

Las RV son convenientes para comparar las pruebas y también se utilizan en análisis de Bayes para interpretar los resultados de la prueba. Así como la sensibilidad y la especificidad cambian cuando se modifican los valores de corte, también lo hacen las RV. Como ejemplo hipotético, un límite superior para el recuento de leucocitos (p. ej., 30.000/mcL) en un posible caso de apendicitis aguda con perforación es más específico y tendría no sólo una RV+ alta sino también una RV- alta (y, por lo tanto, no es muy informativo); elegir un valor de corte mucho menor y muy sensible (p. ej., 12.000/mcL) tendría no sólo una RV - baja, sino también una RV+ baja.

Calculadora clínica

Multicalculadora del cociente de probabilidad (likelihood ratio, LR)

Calculadora clínica

Cociente de probabilidad (likelihood ratio, LR) de negativo a partir de datos sin procesar

Calculadora clínica

Cociente de probabilidad (likelihood ratio, LR) de positivo a partir de datos sin procesar

Pruebas dicotómicas

Una prueba dicotómica ideal no debería tener falsos positivos ni falsos negativos; todos los pacientes con un resultado positivo tendrían la enfermedad (VPP del 100%) y todos aquellos con un resultado negativo no la tendrían (VRN del 100%).

En realidad, todas las pruebas tienen falsos positivos y falsos negativos, algunas pruebas más que otras. Para ilustrar las consecuencias de la sensibilidad y la especificidad imperfectas en los resultados de las pruebas, considérense los resultados hipotéticos (véase tabla Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%) de la esterasa de leucocitos en las pruebas de tiras reactivas de orina en un grupo de 1.000 mujeres, 300 de las cuales (30%) tienen una infección urinaria (según lo determinado por una prueba de referencia como el urocultivo). Este escenario asume para fines ilustrativos que la prueba con tira reactiva tiene una sensibilidad del 71% y una especificidad del 85%.

La sensibilidad del 71% significa que sólo 213 mujeres (71% de 300) con infección urinaria tendrían un resultado positivo. Las 87 restantes tendrían un resultado negativo. La especificidad del 85% significa que 595 mujeres (85% de 700) sin infección urinaria tendrían un resultado negativo. Los restantes 105 tendría un resultado positivo. Por lo tanto, de los 213 + 115 = 318 resultados positivos de la prueba, sólo 213 serían correctos (213/318 = 67% de VPP); un resultado positivo indica que el diagnóstico de infección urinaria es más probable a que no lo sea, pero no lo confirma. También habría 87 + 595 = 682 pruebas negativas, de las cuales 595 serían correctas (595/682 = 87% de VPN), lo que hace que el diagnóstico de infección urinaria sea mucho menos probable, pero posible todavía; el 13% de las pacientes con un resultado negativo en realidad tendría una infección urinaria.

Tabla

Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%

Tabla

Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%

Resultados	Enfermedad presente	Enfermedad ausente	Total de pacientes
Prueba positiva	Verdadera positiva (VP) 213 pacientes (71% de 300)	Falsa positiva (FP) 105 pacientes (700 − 595)	318 pacientes con una prueba positiva
Prueba negativa	Falsa negativa (FN) 87 pacientes (300 − 213)	Verdadera negativa (VN) 595 pacientes (85% de 700)	682 pacientes con una prueba negativa
Total de pacientes	300 pacientes con infección urinaria (supuesta)	700 pacientes sin infección urinaria (supuesta)	1000 pacientes
Valor predictivo positivo (VPP) = VP/(todas las pacientes con una prueba positiva) = VP/(VP + FP) = 213/(213 + 105) = 67%. Valor predictivo negativo (VPN) = VN/(todas las pacientes con una prueba negativa) = VN/(VN + FN) = 595/(595 + 87) = 87%. Razón de verosimilitud positiva (RV+) = sensibilidad/(1 − especificidad) = 0,71/(1 − 0,85) = 4,73. Razón de verosimilitud negativa (RV-) = (1 − sensibilidad)/especificidad = (1 − 0,71)/0,85 = 0,34.

Sin embargo, los VPP y los VPN derivadas en esta cohorte de pacientes no pueden utilizarse para interpretar los resultados de la misma prueba cuando la incidencia subyacente de la enfermedad (probabilidad preprueba o previa) es diferente. Note los efectos de cambiar la incidencia de la enfermedad al 5% (véase tabla Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 5%). Ahora, la mayoría de los resultados de la prueba son falsos positivos y el VPP es sólo del 20%; lo más probable es que una paciente con un resultado positivo realmente no tenga infección urinaria. Sin embargo, el VPN ahora es muy alto (98%); en esencia, un resultado negativo descarta la infección urinaria.

Tabla

Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 5%

Tabla

Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 5%

Resultados	Enfermedad presente	Enfermedad ausente	Total de pacientes
Prueba positiva	Verdadera positiva (VP) 36 pacientes (71% de 50)	Falsa positiva (FP) 144 pacientes (950 − 806)	180 pacientes con una prueba positiva
Prueba negativa	Falsa negativa (FN) 14 pacientes (50−36)	Verdadera negativa (VN) 806 pacientes (85% de 950)	820 pacientes con una prueba negativa
Total de pacientes	50 pacientes con infección urinaria (supuesta)	950 pacientes sin infección urinaria (supuesta)	1000 pacientes
Valor predictivo positivo (VPP) = VP/(todas las pacientes con una prueba positiva) = VP/(VP + FP) = 36/(36 + 144) = 20%. Valor predictivo negativo (VPN) = VN/(todas las pacientes con una prueba negativa) = VN/(VN + FN) = 806/(806 + 14) = 98%. Razón de verosimilitud positiva (RV+) = sensibilidad/(1 − especificidad) = 0,71/(1 − 0,85) = 4,73. Razón de verosimilitud negativa (RV-) = (1 − sensibilidad)/especificidad = (1 − 0,71)/0,85 = 0,34.

Obsérvese que en ambos grupos de pacientes, a pesar de que el VPP y el VPN son muy diferentes, las RV no cambian porque estas últimas están determinadas únicamente por la sensibilidad y la especificidad de la prueba.

Es claro que el resultado de una prueba no proporciona un diagnóstico definitivo, sino sólo estimaciones de la probabilidad de que una enfermedad esté presente o ausente, y esta probabilidad posprueba (probabilidad de que la enfermedad brinde un resultado específico) varía enormemente en función de la probabilidad preprueba de la enfermedad así como de la sensibilidad y la especificidad de la prueba (y, por lo tanto, su RV).

Calculadora clínica

Índice de falsos negativos a partir de sensibilidad y prevalencia

Calculadora clínica

Índice de falsos positivos a partir de especificidad y prevalencia

Probabilidad preprueba

La probabilidad preprueba no es una medición precisa; se basa en el criterio clínico de cómo los signos y síntomas sugieren fuertemente que la enfermedad esté presente, qué factores en los antecedentes del paciente apoyan el diagnóstico y cuán frecuente es la enfermedad en una población representativa. Muchos sistemas de puntuación clínica están diseñados para estimar la probabilidad preprueba; el agregado de puntos para distintas características clínicas facilita el cálculo de una puntuación. Estos ejemplos ilustran la importancia de la estimación precisa previa a la prueba de la prevalencia porque la prevalencia de la enfermedad en la población considerada influye drásticamente sobre la utilidad de la prueba. Siempre que sea posible se deben utilizar herramientas validadas publicadas para estimar la prevalencia. Por ejemplo, hay criterios para predecir la probabilidad preprueba de la embolia pulmonar. Cuanto mayores son las puntuaciones calculadas, mayores son las probabilidades estimadas. En la práctica, la determinación de la probabilidad antes de la prueba se ve facilitada por la información objetiva, pero también puede estar influenciada por la habilidad y la experiencia del médico.

Pruebas continuas

Muchos resultados de pruebas son continuos y pueden proporcionar información clínica útil sobre una amplia gama de resultados. A menudo, los médicos seleccionan un determinado valor de corte para maximizar la utilidad de la prueba. Por ejemplo, un recuento de leucocitos > 15.000/mcL puede caracterizarse como positivo; valores < 15.000/mcL, como negativos. Cuando una prueba brinda resultados continuos pero se selecciona un determinado valor de corte, la prueba funciona como unadicotómica. También pueden seleccionarse varios valores de corte. La sensibilidad, la especificidad, el VPP, el VPN, la RV+ y la RV- pueden calcularse para uno o varios valores de corte. En la tabla Efecto de cambiar el valor de corte del recuento de leucocitos en pacientes en los que se sospecha apendicitis se ilustra el efecto de cambiar el valor de corte del recuento de leucocitos en pacientes en los que se sospecha apendicitis.

Tabla

Efecto de cambiar el valor de corte del recuento de leucocitos en pacientes en los que se sospecha apendicitis

Tabla

Efecto de cambiar el valor de corte del recuento de leucocitos en pacientes en los que se sospecha apendicitis

Valor de corte del recuento de leucocitos*	Sensibilidad	Especificidad	RV+	RV-
> 10,500	84%	53,13%	1,79	0,3
> 11,500	78%	62,5%	2,13	0,32
> 12,850	68%	75%	2,72	0,43
> 13,400	61,33%	78,12%	2,86	0,45
> 14,300	56,67%	81,25%	3,2	0,49
*Se seleccionan varios valores de corte para una variable continua como el recuento de leucocitos; los resultados por encima del valor de corte se consideran positivos y aquellos por debajo del valor de corte, como negativos. Los valores indicados son por microlitro de sangre.
RV = razón de verosimilitud.
Adapted from Keskek M, Tez M, Yoldas O, et al: Receiver operating characteristic analysis of leukocyte counts in operations for suspected appendicitis. American Journal of Emergency Medicine 26:769–772, 2008.

De modo alternativo, puede ser útil agrupar los resultados continuos en niveles. En este caso, los resultados no se caracterizan como positivos o negativos porque hay varios resultados posibles, por lo que aunque un RV puede determinarse para cada nivel de resultados, ya no hay una RV+ o una RV- separada. Por ejemplo, en la tabla Utilización de grupos de recuentos de leucocitos para determinar la razón de verosimilitud de bacteriemia en niños febriles se ilustra la relación entre el recuento de leucocitos y la bacteriemia en niños febriles. Dado que la RV es la probabilidad de un resultado determinado en pacientes con enfermedad dividida por la probabilidad de ese resultado en pacientes sin la enfermedad, la RV para cada agrupación de recuento de leucocitos es la probabilidad de bacteriemia en ese grupo dividido por la probabilidad de ausencia de bacteriemia.

Tabla

Utilización de grupos de recuentos de leucocitos para determinar la razón de verosimilitud de bacteriemia en niños febriles*

Tabla

Utilización de grupos de recuentos de leucocitos para determinar la razón de verosimilitud de bacteriemia en niños febriles*

Recuento de leucocitos	Números de niños con bacteriemia, n = 127 (%)	Números de niños sin bacteriemia, N = 8.629 (%)	RV (% con bacteriemia/% sin bacteriemia)
0–5000	0 (0,0%)	543 (6,3%)	0,00
5.001–10.000	3 (2,4%)	3291 (38,1%)	0,06
10.001–15.000	15 (11,8%)	2767 (32,1%)	0,37
15.001–20.000	48 (37,8%)	1337 (15,5%)	2,4
20.001–25.000	34 (26,8%)	469 (5,4%)	4,9
25.001–30.000	12 (9,4%)	155 (1,8%)	5,3
> 30.001	15 (11,8%)	67 (0,8%)	15,2
*Incidencia de bacteriemia en 8756 niños febriles agrupados posrecuento de leucocitos (los valores enumerados son por microlitro de sangre). La RV para cada grupo se calcula al dividir la probabilidad de bacteriemia por la probabilidad de ausencia de bacteriemia.
RV = razón de verosimilitud.
Adapted from Lee GM, Harper MB: Risk of bacteremia for febrile young children in the post-Haemophilus influenzae type b era. Archives of Pediatric and Adolescent Medicine 152:624–628, 1998.

La agrupación de variables continuas permite un uso mucho mayor del resultado de la prueba que cuando se establece un único valor de corte. Usando análisis bayesianos, se puede aplicar el cociente de probabilidad en la tabla Uso de grupos de recuento de glóbulos blancos para determinar el cociente de probabilidad de bacteriemia en niños febriles para calcular la probabilidad posterior a la prueba.

En el caso de los resultados continuos, si se conoce la curva ROC no deben realizarse los cálculos como se muestran en la tabla; las RV pueden encontrarse en varios puntos en el rango de resultados que utilizan la pendiente de la curva ROC en el punto deseado.

Teorema de Bayes

El proceso de usar la probabilidad preprueba de la enfermedad y las características de la prueba para calcular la probabilidad posprueba se denomina teorema de Bayes o revisión bayesiana. Para el uso clínico habitual, la metodología bayesiana adopta varias formas:

Formulación posibilidad-probabilidad (cálculo o nomograma)
Método tabular

Cálculos posibilidades-probabilidad

Si la probabilidad preprueba de la enfermedad se expresa como sus posibilidades (odds) y porque la RV de la prueba representa las posibilidades, el producto de los 2 representa las posibilidades posprueba de la enfermedad (análogo a multiplicar las 2 probabilidades para calcular la probabilidad de ocurrencia simultánea de 2 acontecimientos):

Posibilidades preprueba × RV = posibilidades posprueba

Dado que los médicos suelen pensar en términos de probabilidades más que de posibilidades, la probabilidad puede convertirse en posibilidades (y viceversa) con estas fórmulas:

Posibilidades = probabilidad/1 − probabilidad

Probabilidad = posibilidades/posibilidades + 1

Considérese el ejemplo de la infección urinaria que figura en la tabla Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%, en el que la probabilidad preprueba de infección urinaria es de 0,3 y la prueba que se utiliza tiene una RV+ de 4,73 y una RV- de 0,34. Una probabilidad preprueba de 0,3 corresponde a las posibilidades de 0,3/(1 − 0,3) = 0,43. Por lo tanto, las posibilidades posprueba de que una infección urinaria esté presente en un paciente con un resultado positivo es igual al producto de las posibilidades preprueba y la RV+; 4,73 × 0,43 = 2,03, que representa una probabilidad posprueba de 2,03/(1 + 2,03) = 0,67. Por lo tanto, los cálculos bayesianos muestran que un resultado positivo de la prueba aumenta la probabilidad preprueba del 30 al 67%, el mismo resultado obtenido en el cálculo de VPP de la tabla.

Un cálculo similar se realiza para un resultado negativo; las posibilidades posprueba = 0,34 × 0,43 = 0,15, correspondiente a una probabilidad de 0,15/(1 + 0,15) = 0,13. Por lo tanto, un resultado negativo disminuye la probabilidad preprueba del 30 al 13%, otra vez el mismo resultado obtenido en el cálculo del VPN de la tabla.

Se cuenta con muchos programas médicos de calculadora que se ejecutan en dispositivos portátiles para estimar la probabilidad posprueba a partir de la probabilidad preprueba y las RV.

Calculadora clínica

Posibilidades (Odds) a partir de probabilidad

Calculadora clínica

Probabilidad a partir de posibilidades (Odds)

Calculadora clínica

MultiCalc® de estadísticas bayesianas I

Calculadora clínica

Multicalculadora de estadística bayesiana II

Nomograma de posibilidades-probabilidad

La utilización de un nomograma es de particular conveniencia porque evita la necesidad de convertir entre posibilidades y probabilidades o de crear tablas de 2×2.

Para utilizar el nomograma de Fagan, se dibuja una línea desde la probabilidad preprueba a través de la RV. La probabilidad posprueba es el punto en el que esta línea se cruza con la línea de probabilidad posprueba. La líneas de muestras en la figura se crearon a partir de los datos de las pruebas en infección urinaria en la tabla Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1000 mujeres con una prevalencia supuesta de infección urinaria del 30%. La línea A representa un resultado positivo; se obtiene a partir de la probabilidad preprueba de 0,3 que pasa por la RV+ de 4,73 y da un valor posprueba ligeramente < 0,7, similar a la probabilidad calculada de 0,67. La línea B representa un resultado negativo; se obtiene a partir de la probabilidad preprueba de 0,3 que pasa por el valor de RV- de 0,34 y da un valor posprueba ligeramente > 0,1, similar a la probabilidad calculada del 13%.

Aunque el nomograma parece menos preciso que los cálculos, los valores típicos de probabilidad preprueba a menudo son estimaciones, por lo que la precisión aparente de los cálculos suele ser engañosa.

Nomograma de Fagan

La líneas ilustrativas se crearon a partir de los datos de las pruebas en infección urinaria de la tabla Distribución de los resultados de la prueba hipotética de esterasa leucocitaria en una cohorte de 1000 mujeres con una prevalencia supuesta de infección urinaria del 30%. La línea A representa un resultado positivo, obtenida a partir de la probabilidad preprueba de 0,3 que pasa por la RV+ de 4,73 y da un valor posprueba ligeramente < 0,7, similar a la probabilidad calculada de 0,67. La línea B representa un resultado negativo, obtenida a partir de la probabilidad preprueba de 0,3 que pasa por el valor de RV- de 0,34 y da un valor posprueba ligeramente > 0,1, similar a la probabilidad calculada del 13%.

RV+ = razón de verosimilitud para un resultado positivo; RV- = RV para un resultado negativo.

Adapted from Fagan TJ. Letter: Nomogram for Bayes theorem. New England Journal of Medicine 293:257, 1975.

Método tabular

A menudo, las RV de una prueba no se conocen, pero sí la sensibilidad y la especificidad, y puede estimarse la probabilidad preprueba. En este caso, se puede aplicar el método bayesiano con una tabla de 2 × 2 que se ilustra en la tabla Interpretación de un resultado hipotético de una prueba de leucocito esterasa (LE) a partir del ejemplo de la tabla Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1000 mujeres con una prevalencia supuesta de infección urinaria en UCI del 30%. Obsérvese que este método muestra que un resultado positivo aumenta la probabilidad de una infección urinaria al 67% y un resultado negativo la reduce al 13%, el mismo resultado obtenido mediante el cálculo que utiliza las RV.

Tabla

Interpretación del resultado de una prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres que asume una prevalencia del 30% de infección urinaria (probabilidad preprueba), una sensibilidad de la prueba del 71% y una especificidad del 85%*

Tabla

Interpretación del resultado de una prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres que asume una prevalencia del 30% de infección urinaria (probabilidad preprueba), una sensibilidad de la prueba del 71% y una especificidad del 85%*

Resultados	Infección urinaria presente	Infección urinaria ausente
Resultados	300 pacientes con Infección urinaria	700 pacientes sin Infección urinaria
Prueba de esterasa de leucocitos positiva	213 pacientes (VP)	105 pacientes (FP)
Prueba de esterasa de leucocitos negativa	87 pacientes (FN)	595 pacientes (VN)
*El teorema de Bayes se puede simplificar para permitir el cálculo de la probabilidad posterior a la prueba cuando se conoce la probabilidad previa a la prueba: Probabilidad posprueba cuando la prueba es positiva = VP/(todos los pacientes con una prueba positiva) = VP/(VP + FP) = 213/(213 + 105) = 67%. Probabilidad posevaluación cuando la prueba es negativa = TN/(todas las pacientes con una prueba negativa) = FN/(FN + TN) = 87/(87 + 595) = 13%.
FN = falso negativo; FP = falso positivo; VN = verdadero negativo; VP = verdadero positivo; IU = infección urinaria.

Estudios complementarios secuenciales

Los médicos suelen hacer pruebas en forma secuencial durante muchas evaluaciones diagnósticas. Si se conocen las posibilidades preprueba antes de los estudios complementarios secuenciales y la RV para cada una de las pruebas secuenciales, pueden calcularse las posibilidades posprueba mediante la siguiente fórmula:

Posibilidades preprueba × RV1 × RV2 × RV3 = posibilidades posprueba

Este método está limitado por el supuesto importante de que cada una de las pruebas es condicionalmente independiente de las otras.

Pruebas de cribado

A menudo, los pacientes deben considerar si se someten a la detección sistemática de una enfermedad oculta. Las premisas de un programa de cribado exitoso son que la detección temprana mejore un resultado clínicamente significativo en pacientes con enfermedad oculta y que los resultados falsos positivos que puedan ocurrir en el cribado no generen una carga (p. ej., costos y efectos adversos de las pruebas confirmatorias, tratamiento injustificado) que supere este beneficio. Para minimizar estas posibles cargas, los médicos deben elegir la prueba de cribado adecuada. El cribado puede no ser apropiado cuando los tratamientos o las medidas preventivas son ineficaces, a menos que el diagnóstico pueda afectar las decisiones sobre la vida futura del paciente o su familia. Si la enfermedad es muy infrecuente, a menos que pueda identificarse una subpoblación en la que la prevalencia es más alta, el cribado puede no ser rentable; hay excepciones, como en varios trastornos genéticos que pueden diagnosticarse y tratarse en el recién nacido.

En teoría, la mejor prueba tanto para la detección sistemática como para el diagnóstico es aquella que tenga mayor sensibilidad y especificidad. Sin embargo, las pruebas muy exactas suelen ser complejas, costosas e invasivas (p. ej., una angiografía coronaria) y, por lo tanto, no son prácticas para el cribado de grandes cantidades de personas asintomáticas. Por lo general, debe sacrificarse algo de sensibilidad, especificidad o ambas cuando se selecciona una prueba de cribado.

Si un médico elige una prueba que optimice la sensibilidad o la especificidad, depende de las consecuencias de un resultado falso positivo o falso negativo, así como de la probabilidad preprueba de enfermedad. Una prueba de cribado ideal es aquella que siempre es positiva en casi todos los pacientes con enfermedad de modo que un resultado negativo excluye la enfermedad con seguridad en pacientes sanos. Por ejemplo, en las pruebas para una enfermedad grave para la que existe un tratamiento eficaz (p. ej., coronariopatía), los médicos estarían dispuestos a tolerar más falsos positivos que falsos negativos (menor especificidad y alta sensibilidad). Aunque la alta sensibilidad es un atributo muy importante para las pruebas de detección sistemática, la especificidad también lo es en ciertas estrategias de cribado. Entre poblaciones con una mayor prevalencia de la enfermedad, el VPP de una prueba de cribado aumenta; a medida que la prevalencia disminuye, la probabilidad posprueba o posterior de un resultado positivo también decrece. Por consiguiente, cuando se realiza el cribado de la enfermedad en poblaciones de alto riesgo, se prefieren las pruebas con mayor sensibilidad sobre aquellas con mayor especificidad, porque son mejores para descartar la enfermedad (menos falsos negativos). Por otro lado, en poblaciones de bajo riesgo o para las enfermedades infrecuentes para las cuales los beneficios son menores o el riesgo es mayor, se prefieren las pruebas con mayor especificidad.

Pruebas de cribado múltiples

Con la creciente gama de pruebas de cribado disponibles, los médicos deben considerar las implicaciones de un panel de estas pruebas. Por ejemplo, cuando un paciente es admitido en el hospital o es examinado por primera vez por un médico nuevo, a menudo se realizan paneles que contienen 8, 12 o a veces 20 pruebas sanguíneas. Aunque este tipo de pruebas puede ser útil en la detección sistemática de pacientes para ciertas enfermedades, la utilización de un gran panel de pruebas tiene posibles consecuencias negativas. Por definición, una prueba con una especificidad del 95% da resultados falsos positivos en el 5% de los pacientes sanos y normales. Si se realizan dos pruebas diferentes con estas características, cada una para una enfermedad oculta diferente, en un paciente que en realidad no tienen ninguna de estas enfermedades, la posibilidad de que ambas pruebas sean negativas es de 95% × 95%, o alrededor del 90%; así, hay un 10% de probabilidad de que al menos un resultado sea falso positivo. En el caso de tres pruebas, la posibilidad de que las 3 sean negativas es 95% × 95% × 95%, u 86%, que corresponde a un 14% de probabilidad de que al menos una dé un resultado falso positivo. Si se realizan 12 pruebas diferentes para 12 enfermedades distintas, la posibilidad de obtener al menos un resultado falso positivo es del 46%. Esta alta probabilidad subraya la necesidad de tener precaución al decidir hacer un panel de pruebas de cribado y en el momento de interpretar sus resultados.

El mismo principio se aplica cuando se solicitan múltiples pruebas sensibles pero inespecíficas (p. ej., "serologías autoinmunitarias" que incluyen anticuerpos antinucleares, ribonucleoproteína antinuclear [anti-RNP], factor reumatoide) para la evaluación de pacientes con síntomas inespecíficos de larga data, como fatiga y dolor generalizado en ausencia de hallazgos en el examen físico o características históricas que sugieran un diagnóstico reumatológico más específico.

Umbrales para realizar estudios complementarios

Una prueba de laboratorio debe hacerse sólo si sus resultados afectarán el tratamiento; de lo contrario, el gasto y el riesgo para el paciente son en vano. Los médicos a veces pueden tomar la determinación del momento en el cual realizar la prueba al comparar las estimaciones de la probabilidad preprueba y posprueba con ciertos umbrales. Por encima de un cierto umbral de probabilidad, los beneficios del tratamiento son mayores que los riesgos (que incluye el riesgo de tratar de manera errónea a un paciente sin enfermedad), y está indicado el tratamiento. Este punto se denomina umbral de tratamiento y se determina como se describe en Estrategias para la toma de decisiones médicas: estimaciones de probabilidad y el umbral de tratamiento. Por definición, la prueba es innecesaria cuando la probabilidad preprueba está ya por encima del umbral de tratamiento. Pero la prueba está indicada si la probabilidad preprueba está por debajo del umbral de tratamiento, mientras que un resultado positivo puede elevar la probabilidad posprueba por encima del umbral de tratamiento. La menor probabilidad preprueba en la que esto pueda suceder depende de las características de la prueba (p. ej., RV+) y se denomina umbral de la prueba.

Conceptualmente, si la mejor prueba para un trastorno grave tiene una RV+ baja y el umbral de tratamiento es alto, es comprensible que un resultado positivo no puede desplazar la probabilidad posprueba por encima del umbral de tratamiento en un paciente con una probabilidad preprueba baja pero preocupante (p. ej., quizá un 10 o 20%).

Como ilustración numérica, considérese el caso descrito antes de un posible infarto agudo de miocardio en el que el equilibrio entre el riesgo y el beneficio determinó un umbral de tratamiento del 25%. Cuando la probabilidad del IAM supera el 25%, se administra tratamiento trombolítico. ¿Cuándo debe realizarse un ecocardiograma antes de comenzar el tratamiento trombolítico? Si se asume una sensibilidad hipotética del 60% y una especificidad del 70% para la ecocardiografía en el diagnóstico de IAM, estos porcentajes corresponden a una RV+ de 60/(100 − 70) = 2 y una RV- de (100 − 60)/70 = 0,57.

La cuestión puede abordarse en forma matemática (posibilidades preprueba × RV = posibilidades posprueba) o en forma más automática y gráfica mediante el nomograma de Fagan. En el nomograma, una línea que une el umbral de tratamiento (25%) en la línea de probabilidad posprueba que pasa por la RV+ (2,0) en la línea media de la RV produce la intersección en la línea de probabilidad preprueba en alrededor de 0,14. Claramente, una prueba positiva en un paciente con cualquier probabilidad preprueba < 14% todavía resultaría en una probabilidad posprueba menor que el umbral de tratamiento. En este caso, la ecocardiografía sería inútil porque incluso un resultado positivo no llevaría a una decisión para tratar; por lo tanto, la probabilidad preprueba de 14% es el umbral de la prueba para esta prueba en particular (véase figura Representación de los umbrales de prueba y de tratamiento). Otra prueba con RV+ diferente tendría un umbral de prueba distinto.

Nomograma de Fagan usado para determinar la necesidad de realizar la prueba

En este ejemplo, se asume que un paciente tiene un umbral de tratamiento (UT) del 25% para el infarto agudo de miocardio (IAM). Cuando la probabilidad del IAM supera el 25%, se administra tratamiento trombolítico. Los médicos pueden utilizar el nomograma de Fagan para determinar con cuánta rapidez debe realizarse la ecocardiografía antes de administrar el tratamiento trombolítico. Si se asume que la ecocardiografía tiene una sensibilidad hipotética del 60% y una especificidad del 70% para un IAM nuevo, estos porcentajes corresponden a una razón de verosimilitud (RV) de un resultado positivo (RV+) de 60/(100 − 70) = 2. Una línea que une un umbral de tratamiento del 25% en la línea de probabilidad posprueba con RV+ (2,0) en la línea media de la RV produce la intersección en la línea de probabilidad preprueba en alrededor de 0,14. Un resultado positivo en un paciente con una probabilidad preprueba < 14% todavía resultaría en una probabilidad posprueba menor que el umbral de tratamiento.

Adapted from Fagan TJ. Letter: Nomogram for Bayes theorem. New England Journal of Medicine 293:257, 1975.

Representación de los umbrales de prueba y de tratamiento

La línea horizontal representa la probabilidad posprueba.

Como el 14% todavía representa un riesgo significativo de IAM, es evidente que una probabilidad de enfermedad por debajo del umbral de prueba (p. ej., un 10% probabilidad preprueba) no necesariamente significa que se descarta la enfermedad, sólo que un resultado positivo en una prueba particular en cuestión no cambiaría el tratamiento y, por consiguiente, esa prueba no está indicada. En esta situación, el médico debe observar al paciente a fin de obtener más hallazgos que pueden elevar la probabilidad preprueba por encima del umbral de la prueba. En la práctica, dado que a menudo se dispone de varias pruebas para una determinada enfermedad, pueden utilizarse varias de estas pruebas en forma secuencial.

En este ejemplo se considera una prueba que por sí misma no supone ningún riesgo para el paciente. Si una prueba tiene serios riesgos (p. ej., cateterismo cardíaco), el umbral de la prueba debe ser superior; pueden hacerse cálculos cuantitativos, pero son complejos. Por lo tanto, la disminución de la sensibilidad y la especificidad de una prueba o el aumento de su riesgo reducen el rango de probabilidades de enfermedad para la cual realizar la prueba representa la mejor estrategia. Al mejorar la capacidad de la prueba para discriminar o al disminuir su riesgo, se amplía el rango de probabilidades de enfermedad para la cual realizar la prueba representa la mejor estrategia.

Una posible excepción para proscribir la realización de una prueba cuando la probabilidad preprueba está por debajo del umbral de prueba (pero aún es preocupante) puede ser si un resultado negativo reduce la probabilidad posprueba por debajo del punto en el que puede considerarse descartada la enfermedad. Esta determinación requiere un juicio subjetivo del grado de certeza necesario para decir que se descarta una enfermedad y, dado que están implicadas probabilidades bajas, debe prestarse particular atención a los riesgos de la prueba.

Test your KnowledgeTake a Quiz!

¡Descargue la aplicación de los Manuales MSD!