Methodology · v1.1

측정 기준을 먼저 공개합니다.

238 Trend의 리포트는 측정 대상, 질문 조건, 실행 시점, 오차 범위, 한계를 함께 공개합니다.
이 문서는 산업별 Issue와 커스텀 리포트에 공통으로 적용하는 v1.1 방법론입니다.

Version
v1.1
Effective
2026.04.28
Last Review
2026.04.28
Chapter · 01

Principles.

방법론은 모든 리포트의 기준입니다. 다음 다섯 원칙은 측정 설계, 데이터 검증, 리포트 발간에 공통으로 적용됩니다.

01 · Reproducibility
동일 방법론 · 동일 시점 · 동일 시드를 사용할 경우 동일 결과가 재현 가능해야 합니다.
02 · Transparency
표본 · 질의 · 시점 · 시드 · 엔진 버전 · 프롬프트를 모두 공개합니다.
03 · Independence
측정 대상 브랜드로부터 광고 · 후원을 받지 않습니다.
04 · Comparability
산업 간 · 시점 간 비교가 가능한 정규화 지표를 우선 사용합니다.
05 · 한계 공개
측정은 AI 답변의 한 시점에 대한 관측입니다. 오차와 한계를 먼저 밝힙니다.
Chapter · 02

LLM Engines.

238 Trend는 6개 LLM을 같은 가중치로 측정합니다. ChatGPT · Claude · Perplexity · Gemini · Grok · Google AI Overview 글로벌 6종이 그 대상입니다.

Engine
Model
Version Snap
Weight
ChatGPT
GPT-5 mini
2026.01
1.0
Claude
Claude 4.7 Sonnet
2026.02
1.0
Perplexity
sonar
2026.03
1.0
Gemini
Gemini 2.5 Pro
2026.03
1.0
Grok
grok-4
2026.03
1.0
Google AI Overview
AI Overview
2026.03
1.0
엔진 버전은 월별 스냅샷으로 고정하며, 버전 전환 시 전후 30일 중첩 측정 기간을 둡니다.
Chapter · 03

Query Design.

각 Issue는 산업별 측정 항목과 응답 조건을 먼저 설계합니다. 추천형 · 순위 · 가격 · 후기 · 전문성 · 안전성 6 유형 질문을 같은 비율로 구성하고, 성별 · 연령대 조건과 동일한 반복 기준으로 측정합니다.

산업별 측정 항목
피부과
시술
성형외과
수술 항목
법률
사안
B2B SaaS
제품 카테고리
금융
상품군
N
항목
×
2
성별
×
5
연령대
×
6
유형
×
6
반복
×
6
LLM

항목 수 N은 산업 · Issue 별로 달라집니다. 성별 · 연령대 · 유형 · 반복 · LLM 조건은 모든 Issue에 동일하게 적용합니다.

01추천형
일반 추천 탐색

"강남에서 [시술] 잘하는 피부과 추천해줘"

02순위 / 리스트형
다수 비교 · TOP N

"강남 [시술] 잘하는 피부과 TOP 5"

03가격형
비용 기준 의사결정

"강남에서 [시술] 가격 합리적인 곳"

04후기 / 평판형
사용자 검증 기반

"강남에서 [시술] 후기 좋은 피부과"

05전문성 / 효과형
의료진 · 시술 노하우

"강남에서 [시술] 효과 좋은 / 전문 피부과"

06안전성 / 부작용형
위험 회피

"강남에서 [시술] 부작용 없이 안전한 곳"

발간 시점 기준 측정
한 Issue 는 발간 시점에 한 번 측정되고 그 데이터는 영구 스냅샷으로 보존됩니다. 동일 Issue 는 갱신하지 않으며, 다음 Issue 는 새 산업 · 새 측정 셋으로 시작합니다.
Chapter · 04

Response Conditions.

같은 질문이라도 응답 조건에 따라 LLM이 제시하는 브랜드가 달라질 수 있습니다. 238 Trend는 성별·연령대 조건을 분리해 응답을 수집하고, 조건별 브랜드 인용률을 비교합니다.

성별 조건
남성 · 여성 조건을 구분해 응답률 차이를 확인합니다.
연령대 조건
주요 소비 연령대를 기준으로 응답률 차이를 확인합니다.
교차 조건
성별 × 연령대 조합별로 브랜드 인용률과 LLM별 편차를 분석합니다.
Chapter · 05

Citation Universe.

238 Trend는 사전에 브랜드 목록을 정해 놓고 추적하지 않습니다.LLM 응답에 실제로 등장한 브랜드·기관·기업을 모아 인용 모집단으로 정의합니다.

측정은 사전에 설계한 질문 조건에서 시작합니다. 이후 LLM 응답을 집계하고, 응답 안에서 자연스럽게 등장한 브랜드를 기준으로 인용률을 계산합니다.

01
Input · 사전 설계
측정 조건
N개 측정 항목 × 60개 조건 (6 유형 × 5 연령 × 2 성별) 을 사전에 정의합니다.
02
Run · 측정 실행
LLM 응답 수집
6개 LLM에 같은 질문 조건을 반복 적용해 응답을 수집합니다.
03
Observed · 사후 정의
인용 모집단
응답에 등장한 브랜드·기관·기업의 합집합을 인용 모집단으로 정의합니다.
사전 설계
측정 조건
  • 권역 한정: 입력 쿼리가 특정 권역을 지칭하는 경우, 그 권역을 명시한 쿼리만 측정. 응답에 등장한 엔티티의 실제 행정구역은 측정 대상이 아님
  • 측정 항목 셋: Issue 당 N 측정 항목 (산업에 따라 시술 · 사안 · 제품 카테고리 등으로 정의)
  • 조건 셋: 항목당 60 조건 (6 유형 × 5 연령 × 2 성별)
  • 실행: 조건당 6회 반복 × 6 LLM = 항목당 2,160 호출 / Issue 당 N × 2,160 호출
응답 기반 정의
인용 모집단
  • 모집단 = 추출된 모든 브랜드·기관·기업 이름의 합집합
  • 크기는 사전에 정해지지 않음: Issue마다 등장 브랜드 수가 달라질 수 있음 (수십 ~ 수백 단위)
  • 사전 제외 없음: 응답에 등장한 이상 매출 · 규모 · 인지도와 무관하게 모집단에 포함 — "LLM 응답에 등장한 모든 브랜드" 가 측정 대상

즉, 238 Trend는 표본을 먼저 고른 뒤 순위를 매기지 않습니다. LLM 응답에 등장한 브랜드를 기준으로 모집단을 만들고, 그 안에서 인용률과 격차, 맥락을 계산합니다.

Chapter · 06

Measurement.

각 LLM 응답에서 브랜드가 등장했는지, 어디에 등장했는지, 어떤 맥락으로 언급됐는지를 측정합니다. 리포트에는 인용률, 맥락 분류, LLM별 편차를 주요 지표로 사용합니다.

Metric
정의
단위
citation_share
전체 응답 중 해당 브랜드가 인용된 비율입니다. 리포트에서는 인용률로 표시합니다.
%
context_quality
브랜드가 긍정 · 중립 · 부정 중 어떤 맥락으로 언급됐는지 분류합니다.
%
engine_gap
6개 LLM 사이의 인용률 차이를 나타냅니다. 리포트에서는 LLM 편차로 표시합니다.
%p
Chapter · 07

Error Range.

LLM 응답은 같은 질문에도 달라질 수 있습니다. 238 Trend는 반복 측정과 표준편차를 함께 보고해 이 변동성을 측정에 포함합니다.

반복 측정
각 질문 조건은 LLM별로 6회 반복 측정합니다. 리포트에는 평균값과 표준편차를 함께 표시합니다.
실행 조건 고정
API 호출은 temperature 0.3과 seed를 고정해 실행합니다. UI 기반 측정은 동일 세션에서 연속 실행합니다.
신뢰구간
조건당 6회 반복 기준 95% 신뢰구간은 ±0.8%p입니다. 범위를 벗어나면 재측정합니다.
Chapter · 08

Limits.

측정은 AI 답변의 한 시점에 대한 관측입니다.
238 Trend는 리포트가 설명할 수 있는 범위와 설명할 수 없는 범위를 함께 공개합니다.

01
단일 Issue의 범위
한 Issue는 단일 산업 또는 단일 권역을 기준으로 측정합니다. 산업·권역 간 비교가 필요한 경우 별도 Issue로 분리해 측정합니다.
02
한국어 응답 기준
현재 방법론은 한국어 응답을 기준으로 설계되어 있습니다. 다국어 비교는 별도 프로젝트로 분리합니다.
03
6개 LLM 기준
ChatGPT · Claude · Perplexity · Gemini · Grok · Google AI Overview를 기준으로 분석합니다. 그 외 도구는 방법론 업데이트 시 별도로 검토합니다.
04
LLM 버전 변화
LLM의 모델 또는 검색 방식이 바뀌면 전후 비교가 제한될 수 있습니다. 주요 변경이 확인되면 리포트에 별도로 표기합니다.
05
응답에 등장하지 않은 브랜드
LLM 응답에 등장하지 않은 브랜드는 인용률 0으로 처리합니다. 이는 실제 품질이나 시장 지위를 평가하는 의미가 아니라, 해당 측정 조건에서 인용되지 않았다는 뜻입니다.
06
품질 평가 아님
238 Trend는 브랜드가 얼마나 자주 인용되는지를 측정합니다. 브랜드의 실제 품질, 역량, 우열을 판정하지 않습니다.