Guia

Como Comparamos 1.942 Questões com a Prova Real: Juiz de IA, Embeddings e Blueprint

A metodologia aberta por trás do confronto 74/100: score de juiz de IA, proximidade semântica por embeddings e sobreposição textual, par a par.

Por Dr. Matheus Ferreira, CRM-SP 206.304

Atualizado em 02 de julho de 2026

Publicado em 02 de julho de 202613 min de leitura

Para chegar ao resultado de 74 questões com equivalente direto no banco SPR Med entre as 100 aplicadas no REVALIDA 2026.1, cada uma das questões reais foi confrontada, uma a uma, com 1.942 questões inéditas dos 22 simulados aplicados no ano. A comparação combinou três métricas independentes: um score de juiz de IA de 0 a 100, a proximidade semântica por embeddings (similaridade de cosseno) e a sobreposição textual literal entre enunciados e alternativas. Nenhuma das três métricas foi usada isoladamente: um par só foi classificado como equivalente quando as três convergiram, o que resultou em 203 pares fortes distribuídos em três graus de proximidade. Este artigo abre a metodologia completa, para que estudantes, coordenadores e o próprio mercado possam auditar como o número 74/100 foi produzido.

O que significa comparar 100 questões reais com 1.942 questões de simulado?

Significa rodar um pipeline de análise par a par, no qual cada uma das 100 questões do REVALIDA 2026.1 é testada contra cada uma das 1.942 questões inéditas aplicadas nos 22 simulados do ano, gerando um universo de comparações que é depois filtrado por três camadas de similaridade. O objetivo não é encontrar cópias, mas medir aderência de blueprint: até que ponto o banco SPR Med, tagueado na Matriz Pedagógica 7D e calibrado por TRI, já havia colocado o aluno diante do mesmo caso clínico, da mesma conduta ou do mesmo conceito que o INEP escolheu cobrar.

Essa comparação só é possível porque as questões da prova real são públicas, divulgadas pelo INEP após a aplicação, dentro das regras do próprio exame. Não há acesso prévio, não há vazamento, não há cópia de gabarito. O que existe é engenharia reversa de padrão: quando 1.942 questões nascem da mesma matriz de referência que organiza a prova (Portaria INEP 478/2025), a probabilidade de encontrar pares conceitualmente próximos deixa de ser acaso e passa a ser consequência direta de desenho curricular. É esse o sentido da frase que resume o método: não é coincidência, é blueprint.

Por que usar três métricas e não apenas uma nota de similaridade?

Porque cada métrica isolada tem um ponto cego que as outras duas cobrem, e usar uma só produziria falsos positivos ou falsos negativos sistemáticos. A tabela abaixo resume o papel de cada camada:

Métrica	O que mede	Ponto forte	Limitação isolada
Score de juiz de IA (0-100)	Julgamento contextual do par (mesmo raciocínio clínico, mesma conduta esperada)	Captura equivalência de sentido mesmo com redação totalmente diferente	Pode ser sensível a viés de modelo se usado sozinho
Embeddings (similaridade de cosseno)	Proximidade semântica vetorial entre enunciados e alternativas	Detecta parafraseamento e sinônimos técnicos	Pode confundir tópicos próximos mas com conduta diferente
Sobreposição textual (fuzzy matching)	Repetição literal de termos, siglas, valores e condutas	Evidencia uso do mesmo jargão técnico e dos mesmos parâmetros (idade, dose, achado de exame)	Não capta equivalência quando a redação é reescrita

O score de juiz de IA funciona como um leitor treinado que avalia se o caso clínico, a pergunta e a conduta correta são substancialmente os mesmos, mesmo quando a superfície textual muda por completo. Os embeddings, por sua vez, colocam cada questão em um espaço vetorial de significado e medem a distância entre elas, o que é útil para capturar sinônimos técnicos (por exemplo, "hipertensão arterial sistêmica não controlada" e "HAS em crise") sem depender de repetição de palavras. Já a sobreposição textual funciona como um filtro de precisão: verifica se termos, siglas, faixas etárias, doses e condutas específicas aparecem em ambos os enunciados, o que ajuda a confirmar que a equivalência semântica não é coincidência de tema amplo, mas de caso específico.

A combinação das três camadas é o que permite classificar cada par em um dos seis graus de proximidade, do idêntico ao completamente diferente, com margem de erro reduzida. Um par só entra na contagem de equivalência forte quando o juiz de IA aponta convergência de conduta, o embedding confirma proximidade semântica acima do limiar estabelecido e a sobreposição textual evidencia termos e condutas em comum, grifados manualmente par a par para auditoria.

Pipeline de comparação em três camadas

Ponto de partida

100

questões reais do REVALIDA 2026.1

↓

Camada 01

Score de juiz de IA

Avalia se a conduta e o raciocínio clínico convergem entre o par de questões, sem depender de repetição de palavras.

Camada 02

Vetor de embeddings

Mede proximidade semântica entre enunciados como "pré-eclâmpsia grave" e "HAS em crise" acima de um limiar estabelecido.

Camada 03

Mapa de sobreposição textual

Confirma se termos, siglas, faixas etárias, doses e condutas específicas aparecem nos dois enunciados, grifados par a par.

↓

Selo final: grau de proximidade (escala 1 a 6)

Quase idêntica

n = 3

Mesmo caso clínico

n = 27

Mesmo conceito

n = 173

Tema relacionado

exclui

Área em comum

exclui

Sem relação

exclui

Pares fortes (graus 1 a 3): 203 pares sustentam equivalência em 74 das 100 questões da prova real

Como funcionam os 6 graus de proximidade entre os pares?

Os 6 graus formam uma escala ordinal que vai de "questão quase idêntica" até "questão sem relação de conteúdo", permitindo que a equipe classifique cada um dos 1.942 x 100 pares potenciais sem recorrer a um julgamento binário de "igual ou diferente". No caso do REVALIDA 2026.1, a distribuição encontrada nos pares fortes foi: 3 quase idênticas, 27 do mesmo caso clínico e 173 do mesmo conceito, totalizando 203 pares fortes que sustentam a equivalência em 74 das 100 questões da prova (uma mesma questão real pode ter mais de um par equivalente no banco, o que explica a diferença entre 203 pares e 74 questões cobertas).

A tabela a seguir detalha o que caracteriza cada extremo da escala e o volume observado nos graus mais fortes:

Grau	Definição	Volume observado (REVALIDA 2026.1)
Quase idêntica	Mesmo caso clínico, mesma conduta, mesma pergunta, variação mínima de redação	3 pares
Mesmo caso clínico	Mesmo cenário, dados demográficos e achados semelhantes, pergunta com o mesmo objetivo de conduta	27 pares
Mesmo conceito	Caso diferente, mas testa a mesma competência, domínio e conduta esperada da matriz	173 pares
Tema relacionado	Mesma área de conhecimento, mas conduta ou nível cognitivo distintos	Não contabilizado como equivalência forte
Correlação fraca	Apenas vocabulário técnico em comum, sem convergência de conduta	Não contabilizado como equivalência forte
Sem relação	Nenhuma convergência relevante nas três métricas	Descartado

Vale destacar que "mesmo conceito" não significa questão fácil de prever, e sim que o aluno que treinou aquele conceito no banco SPR Med chegou à prova real já tendo exercitado o raciocínio clínico e a conduta cobrados, ainda que o caso apresentado fosse outro paciente, outra idade, outro contexto de atendimento. É esse tipo de equivalência, mais estrutural do que literal, que domina a amostra: 173 dos 203 pares fortes, ou 85% deles, são desse grau.

O que é o Blueprint e por que ele explica a equivalência sem falar em vazamento?

O Blueprint é a aderência estrutural entre o banco de questões SPR Med e a Matriz de Referência Comum definida pela Portaria INEP 478/2025, medida em seis dimensões: 7 áreas de formação, 15 competências, 21 domínios, eixo cognitivo, nível cognitivo e cenários do SUS. No confronto direto com o REVALIDA 2026.1, essa aderência foi de 89% nas áreas, 86% nas competências, 77% nos domínios, 93% no eixo cognitivo, 95% no nível cognitivo e 91% nos cenários do SUS, conforme detalhado na tabela abaixo.

Dimensão da matriz	Aderência do blueprint SPR Med × REVALIDA 2026.1
7 áreas de formação	89%
15 competências	86%
21 domínios	77%
Eixo cognitivo	93%
Nível cognitivo	95%
Cenários do SUS	91%

Esses números explicam, em linguagem de engenharia curricular, por que 74 das 100 questões encontraram equivalente: quando um banco de 266.177 questões é tagueado na mesma Matriz Pedagógica 7D e alimentado por 17 edições de provas anteriores do INEP (ENARE 2021 a 2026 e REVALIDA-INEP 2020 a 2026), a superfície de conteúdo passa a se sobrepor de forma estatisticamente esperada com qualquer nova edição do mesmo exame. Não é necessário, e nunca é o caso, ter acesso prévio à prova. Basta que o banco reproduza fielmente a lógica de construção do exame, área por área, domínio por domínio, nível cognitivo por nível cognitivo.

É esse mesmo princípio de blueprint que sustenta o motor de predição de temas M.A.E.S.T.R.O, responsável por apontar, antes da aplicação, quais assuntos têm maior probabilidade de cair. No REVALIDA 2026.1, o radar de 365 temas monitorados pelo motor continha 100% dos 72 temas que efetivamente caíram na prova, e 15 dos 20 temas apontados como mais prováveis se confirmaram, respondendo por 28 das 100 questões aplicadas. É importante não confundir essa predição de temas, que usa metodologia Empirical Bayes sobre 17 edições e alcança de 80% a 80 a 90% de acerto no top 10 por edição em backtest out-of-sample, com a predição de conceito do curso, que é outro modelo, com outra base e outra acurácia (94%), tratada em detalhe no artigo sobre a nova régua da formação médica.

O que NÃO conta como equivalência nesta metodologia?

Não conta como equivalência qualquer par em que a convergência apareça em apenas uma das três métricas isoladamente, sem confirmação cruzada das outras duas, e essa é a primeira e mais importante limitação declarada do método. Um enunciado que compartilha vocabulário técnico com a prova real, mas testa uma conduta diferente, cai na categoria de correlação fraca e é descartado da contagem de pares fortes. Da mesma forma, um caso clínico semelhante que exige um nível cognitivo distinto (por exemplo, memorização de definição versus tomada de decisão terapêutica) não é tratado como par equivalente, mesmo que o tema geral seja o mesmo.

A segunda limitação diz respeito ao próprio conceito de "mesma questão". Em nenhum grau da escala de 6 pontos existe uma categoria de "questão idêntica com certeza de origem comum", porque isso pressuporia acesso à prova antes da aplicação, o que nunca ocorre. O grau mais alto, "quase idêntica", descreve apenas semelhança estrutural de redação e conduta, compatível com o fato de que ambos os bancos (o do INEP e o da SPR Med) derivam de uma mesma matriz pública e de um mesmo universo finito de condutas-padrão em medicina baseada em evidências. Quando duas provas, elaboradas por instituições diferentes, cobram a conduta correta diante de uma dor torácica típica em paciente com fatores de risco cardiovascular, a coincidência de redação é esperada, não suspeita.

A terceira limitação é metodológica: as 26 questões do REVALIDA 2026.1 sem equivalente forte no banco não significam falha de cobertura, e sim que aquele recorte específico (um domínio menos frequente, uma competência de baixa incidência histórica) não havia sido priorizado nos 22 simulados do ciclo em análise. A leitura correta desse resíduo é que nenhum banco, por maior que seja, cobre 100% do universo possível de uma matriz com 21 domínios e 7 áreas de formação, e é exatamente por isso que a métrica de aderência de blueprint é reportada em percentuais por dimensão, e não como um número único e absoluto.

Por que essa transparência metodológica importa para quem decide sobre um curso de medicina?

Importa porque decisões de coordenação de curso, hoje, envolvem risco regulatório direto: as Portarias 72, 73 e 74 de 17 de março de 2026 colocaram 99 cursos sob supervisão do Seres/MEC, sendo 8 com suspensão de ingresso, 13 com corte de 50% das vagas, 33 com corte de 25% e 45 impedidos de ampliar vagas. Nesse cenário, a escolha de uma metodologia de simulado não pode se apoiar em promessas vagas de "cair na prova"; precisa vir acompanhada de evidência auditável, com metodologia aberta, dados par a par e limitações declaradas, exatamente como este artigo descreve.

O caso da UNIMAR ilustra o que essa transparência viabiliza na prática: com conceito 2 no ENAMED 2025, a instituição projetou, sob acompanhamento da Profa. Fernanda Serva e do Dr. Carlos Bueno, evolução para conceito 4 a 5 na aplicação de setembro de 2026, apoiada em diagnóstico, prescrição, controle e mentoria orientados por dados, e não por intuição. Já o Grupo Integrado, com mais de 250 alunos, saiu de aproximadamente 50% de proficientes para 100%, com engajamento de 92%, sob coordenação do Dr. Heber Amilcar Martins, resultado que embasou inclusive a expansão da metodologia para a unidade de Macapá.

Como uma coordenação pode verificar se o simulado da própria IES usa metodologia equivalente?

Uma coordenação pode verificar isso pedindo três evidências objetivas: a matriz de tagueamento usada nas questões (comparada item a item com a Portaria INEP 478/2025), o histórico de backtest do modelo preditivo em edições anteriores (não apenas a promessa de acerto futuro) e a existência de métricas cruzadas de similaridade, como as três descritas neste artigo, aplicadas de forma documentada e não apenas alegada em material comercial. Um simulado que não abre sua metodologia de comparação com provas reais anteriores oferece menos garantia de aderência de blueprint do que um sistema que publica, par a par, como chegou aos seus números.

Essa auditabilidade é também o que sustenta, do ponto de vista técnico, a arquitetura de diagnóstico, prescrição, controle e mentoria da SPR Med, construída por médicos e operada sobre um banco de 266.177 questões tagueadas na Matriz Pedagógica 7D, com mais de 3 milhões de respostas registradas e cerca de 600 mil questões respondidas por mês pelas 8 IES parceiras. É esse volume de dados, calibrado por TRI (modelo de Rasch de 1 parâmetro), que alimenta tanto o motor de predição de temas M.A.E.S.T.R.O quanto a estimativa de nota final na escala INEP, classificação de proficiência e nível de confiança de cada estudante, com 94% de acurácia na predição de conceito do curso, métrica distinta e complementar à predição de temas discutida neste artigo.

Perguntas frequentes

O que significa dizer que 74 das 100 questões do REVALIDA 2026.1 tinham equivalente no banco SPR Med?

Significa que, ao comparar cada uma das 100 questões reais com as 1.942 questões inéditas aplicadas nos 22 simulados do ano, 74 delas encontraram ao menos um par classificado como quase idêntico, do mesmo caso clínico ou do mesmo conceito, segundo a convergência das três métricas (juiz de IA, embeddings e sobreposição textual). Ao todo, foram identificados 203 pares fortes: 3 quase idênticos, 27 do mesmo caso clínico e 173 do mesmo conceito.

Isso significa que houve acesso prévio à prova ou vazamento de questões?

Não. A comparação é feita depois da aplicação, usando as questões públicas divulgadas pelo INEP, e o que se mede é a aderência de blueprint: o quanto o banco SPR Med, construído sobre a mesma Matriz de Referência Comum (Portaria INEP 478/2025), reproduz a lógica de construção do exame em áreas, competências, domínios e níveis cognitivos. A frase que resume esse princípio é: não é coincidência, é blueprint.

Qual é a diferença entre predição de temas e predição de conceito?

A predição de temas usa o motor M.A.E.S.T.R.O com metodologia Empirical Bayes sobre 17 edições anteriores do INEP e acerta de 80% a 90% dos temas no top 10 por edição, em backtest out-of-sample. Já a predição de conceito do curso é um modelo diferente, baseado em desempenho agregado dos estudantes na escala TRI, com acurácia de 94%. São métricas complementares, mas não devem ser somadas ou confundidas.

Por que usar três métricas de comparação em vez de uma nota única de similaridade?

Porque cada métrica cobre o ponto cego da outra: o juiz de IA capta equivalência de raciocínio clínico mesmo com redação diferente, os embeddings capturam proximidade semântica vetorial e sinônimos técnicos, e a sobreposição textual confirma repetição literal de termos e condutas. Um par só é classificado como equivalência forte quando as três métricas convergem, o que reduz falsos positivos e falsos negativos.

O que NÃO é considerado equivalência nessa metodologia?

Não são consideradas equivalência forte as questões que compartilham apenas vocabulário técnico sem convergência de conduta, as que testam o mesmo tema geral mas com nível cognitivo diferente, e qualquer par em que apenas uma das três métricas indique proximidade sem confirmação das outras duas. Essas limitações são declaradas explicitamente para evitar leitura equivocada dos resultados.

Onde posso ver a análise completa da prova do REVALIDA 2026.1 por área e tema?

A análise detalhada, questão por questão e área por área, está disponível no artigo Leia tambémREVALIDA 2026.1: Análise Completa da Prova por Área e Tema →, que complementa a metodologia aqui descrita com o detalhamento de cada tema cobrado na prova.

Escrito por

Dr. Matheus Ferreira

CEO e Co-Fundador do SPR Med · CRM-SP 206.304

Médico, MBA em HealthTech (FIAP) e Gestão em Saúde (FGV). Publicado em Scientific Reports (Nature Portfolio). Liderou conteúdo médico para mais de 145.000 alunos antes de fundar o SPR Med.

Próximo passo

Quer conversar com os fundadores?

45 minutos com Dr. Matheus Ferreira e Dr. Vinícius Côgo Destefani. Sem compromisso comercial.

Conheça a plataforma SPR Med

Como Comparamos 1.942 Questões com a Prova Real: Juiz de IA, Embeddings e Blueprint

O que significa comparar 100 questões reais com 1.942 questões de simulado?

Por que usar três métricas e não apenas uma nota de similaridade?

Como funcionam os 6 graus de proximidade entre os pares?

O que é o Blueprint e por que ele explica a equivalência sem falar em vazamento?

O que NÃO conta como equivalência nesta metodologia?

Por que essa transparência metodológica importa para quem decide sobre um curso de medicina?

Como uma coordenação pode verificar se o simulado da própria IES usa metodologia equivalente?

Perguntas frequentes

O que significa dizer que 74 das 100 questões do REVALIDA 2026.1 tinham equivalente no banco SPR Med?

Isso significa que houve acesso prévio à prova ou vazamento de questões?

Qual é a diferença entre predição de temas e predição de conceito?

Por que usar três métricas de comparação em vez de uma nota única de similaridade?

O que NÃO é considerado equivalência nessa metodologia?

Onde posso ver a análise completa da prova do REVALIDA 2026.1 por área e tema?

Quer conversar com os fundadores?

Artigos Relacionados

ENAMED de 13 de Setembro de 2026: Os Temas Mais Prováveis

13 Mil Futuros Médicos Abaixo do Corte: o Número que Redefine 2026

Por Que % de Acerto Engana: θ, Rasch e a Fórmula da Nota Final