LifeSciBench 소개
출처: OpenAI Blog
에이전트 AI 시스템은 과학적 작업을 수행하는 능력이 점점 커지고 있습니다. 그러나 이들의 유용성은 실제 연구의 복잡성을 얼마나 잘 처리하느냐에 달려 있습니다. 이 작업은 보통 단일 사실 회상 질문이나 청결한 예측 문제와는 닮지 않습니다. 연구자들은 불완전한 증거를 해석하고, 충돌하는 결과를 조율하고, 어려운 실험을 설계하며, 시험을 디버깅하고, 번역적 위험을 평가하고, 불확실성 하에서 다음 행동을 결정합니다.
현재 벤치마크는 이러한 능력을 완전히 포착하지 못합니다. 많은 생명의학 평가는 좁은 분야나 독립적인 기술에 집중하여 구조화된 질문 형식과 깔끔한 참고 답변을 생성합니다. 이러한 접근법은 가치가 있지만, 모델이 보다 넓은 연구 수준 작업에 기여할 수 있는지를 실제로 평가하는 데 부족합니다.
우리는 이 격차를 메우기 위해 LifeSciBench를 설계했습니다. 모든 작업은 약물 발견 프로그램에 직접적인 경험을 가지고 있는 Ph.D. 수준의 훈련을 받은 실생활 과학자들의 판단을 바탕으로 grounded(근거 기반)입니다.
LifeSciBench는 750개의 전문가 작성된 과제를 포함하고 있으며, 이는 일곱 가지 워크플로와 일곱 가지 생물학적 도메인을 아우릅니다.
1,062 Task artifacts
173 Scientist contributors
19,020 Rubric criteria
453 Expert reviewers
LifeSciBench가 측정하는 내용
LifeSciBench는 AI 시스템이 실제 생명의학 연구 작업을 지원할 수 있는지를 측정하며, 단순히 생물학 질문에 답하는 것에 그치지 않습니다. 벤치마크 분류를 정의하기 위해, 적용 연구 환경에서 가장 자주 사용하는 워크플로에 대해 실생활 과학자들을 설문했습니다. 그 후, 그들의 응답을 일곱 가지 반복 카테고리로 그룹화했습니다: 증거 처리, 분석, 설계 및 최적화, 과학적 추론, 검증 및 운영, 번역, 그리고 과학적 커뮤니케이션.
각 작업은 과학적 프롬프트, 관련 컨텍스트 또는 아티팩트, 그리고 자유형 답변으로 구성되어, 지식 있는 협력자에게 요청하는 과학자 요청과 유사합니다. 전문가 작성된 룰브릭은 모델이 특정 문제에 대한 올바른 답을 생성할 수 있는지 평가하며, 필요한 상세 수준, 정당화, 한계, 그리고 과학자가 기대하는 서식 등을 고려합니다.
데이터셋 구성
LifeSciBench는 과학적 추론과 실제 세계 적용에 필요한 덜 명확하지만 실용적인 기술을 동시에 평가합니다. 그 작업은 모델이 현실적인 연구 문제를 해결하도록 요구합니다: 증거를 해석하고, 도메인 기반 판단을 내리며, 전문 검토자에게 유용한 결론을 전달하는 것입니다. 많은 작업은 모델이 프롬프트 텍스트에만 의존하지 않고 보조 데이터 파일을 기반으로 불확실성을 다루고 추론하도록 요구합니다.
이 벤치마크는 생명의학 작업의 복잡성을 반영하도록 설계되었습니다. 전체적으로 79%의 작업은 여러 단계의 추론 또는 의사 결정을 필요로 하며, 평균 4단계 per 작업입니다. LifeSciBench에는 figuren, PDFs, 표, 서열 파일, 구조 또는 화학 파일, 웹 참조 등 1,062개의 부착 아티팩트가 포함되어 있습니다. 53% 이상의 작업은 최소한 하나의 아티팩트에서 정보를 해석하거나 종합하도록 요구합니다.
작업은 다양한 생명의학 분야의 173명의 전문 과학자들에 의해 작성되었습니다. 각 과학자는 Ph.D.-레벨 훈련을 받았으며 바이오테크놀로지 또는 제약 산업 경험이 있습니다. 작업은 수용되기 전까지 필요한 만큼의 회전 사이클을 거칠 수 있으며, 고정된 상한선이 없습니다. 수용된 작업은 평균 6개의 자동 검토 사이클을 거쳤고, 최소 두 번의 전문 검토를 완료했습니다. 검토는 검증 가능한 정답 또는 해당 분야에서 강력한 전문가 합의를 기반으로 진행되었으며, 관련 분야 검토자 간 최소 90% 동의율을 보였습니다. 이 과정을 통해 수용된 작업이 과학적으로 근거를 두고 명확하며 채점하기에 충분히 구체적이고 실제 연구를 대표한다는 점을 확보했습니다.
채점 및 룰브릭 세분
LifeSciBench 작업은 상세하고 과제별로 구성된 룰브릭을 통해 채점됩니다. 이 룰브릭은 예상되는 답변을 구체적인 과학적 주장, 계산, 결정, 정당화 등으로 세분화합니다. 전체적으로 전문가들이 개발한 룰브릭에는 19,020개의 기준이 포함되어 있으며, 작업당 평균 25개 기준을 차지해 과학적 정확성과 연구 결정을 위한 유용성을 모두 평가합니다.
이 설계는 실제 과학적 작업 평가 방식과 일치합니다: 많은 생명의학 작업은 최종 답변만으로 채점할 수 없습니다. 모델이 고수준 결론에 도달했을지라도, 예를 들어 핵심 시험 제한을 간과하거나 중요한 생물학적 측면을 사전에 제시하지 못하면 불완전하게 판단될 수 있습니다. 반대로, 부분적인 답변이라도 고품질의 추론을 포함하고 있다면 전체 작업을 완전히 해결하지 못해도 점수를 받을 수 있습니다.
세부 룰브릭은 이러한 뉘앙스를 포착합니다. LifeSciBench는 최종 답변 정확성뿐만 아니라 모델이 과학적으로 타당하고 실질적으로 유용한 방식으로 답변을 도출하는지를 평가합니다.
논문, 도표, 표, 실험 기록에서 과학적 증거를 추출하고 조율하며 검증합니다.
요약: 발표된 대로 이 패키지는 마이크로-디스트로핀 발현을 가속 승인에 충분히 강력하지 않아, 임상적 이익을 예측할 가능성이 높은 대체 종단점으로 사용하기에는 부족합니다. 비판적인 FDA 검토자는 생물지표, 기능, 내구성, 안전성 및 일반화 증거가 충분히 뒷받침되지 않았다고 볼 가능성이 높습니다.
패키지 항목
주요 실패 모드
필요한 사항
-
서던 블롯 정량
MANEX1A는 N‑말단 에피토프를 공유하는 전체 길이 정상 디스트로핀과 미크로-디스트로핀 트랜스제넌트와 결합하여, 이 assay는 트랜제넌트와 잔여/재발성 디스트로핀을 명확히 구분하지 못합니다. 138 kDa 미크로-디스트로핀을 건강한 전체 길이 디스트로핀 표준과 정량화하는 것도 무효입니다.
필요한 사항: 재조합 미크로-디스트로핀 표준을 사용하고, 트랜제넌트와 엔도젠 디스트로핀을 구분할 수 있는 비동형 방법(예: 타겟된 질량 스펙트럼 측정 또는 트랜제넌트‑특정/에피토프‑특정 assay)을 채택하십시오. -
면역 플루оре스센스
C‑말단 다항체 항체가 부적합한 이유는 138 kDa construct이 C‑말단 도메인을 갖추지 못하기 때문입니다. 많은 DMD 환자는 재발성 섬유를 가지고 있으며, 재발성 디스트로핀은 C‑말단 에피토프를 유지할 수 있습니다. 재발성 섬유는 나이와 함께 클론성으로 확대될 수 있어, 특히 노년 boys에게서 IF 신호가 편향될 수 있습니다.
필요한 사항: 트랜제넌트에 존재하는 항체(재발성 디스트로핀에 없는 항체)를 사용하여 면역 플루оре스센스를 반복하고, 트랜제넌트‑양성 섬유와 재발성 섬유를 별도로 정량화하십시오. -
대체 종단점 타당성
패키지는 단백질 양과 임상 기능을 동일시합니다. “건강한 대조군 단백질 질량의 38%”는 미크로-디스트로핀이 구조적으로 절삭되어 있기 때문에 정상 디스트로핀 기능의 38%를 의미하지 않습니다.
필요한 사항: 대체 종단자로서 발현을 인정하기 전에 미크로-디스트로핀 질량 비율, 사르코멤브란국 위치, 하류 기능 회복 및 임상 이익 간의 관계를 실험적으로 검증하십시오. -
조직 설계
전·후 치료 contralateralvastus lateralis 조직은 좌우 차이와 근육 내 공간적 변이를 도입합니다. 질병 진행 및 섬유‑지방 대체는 총 단백질 정규화 신호에도 영향을 미칠 수 있습니다.
필요한 사항: 일관된 해부학적 표지점을 사용해 조직 위치를 표준화하고, 근육‑특정 단백질로 정규화하며, 섬유‑지방 구성도 병행 측정하십시오. -
NSAA 비교/통계
외부 자연사 코호트는 무작위 대조군과 같지 않습니다. 시험 자격, 지원적 치료, 참여 효과, 기초 NSAA, 스테로이드 요법, 나이, 엑손 클래스 등은 비교에 편향을 줄 수 있습니다. 단일 그룹 t‑테스트만으로는 충분하지 않습니다.
필요한 사항: 무작위 대조군-대조 임상시험을 실시하거나 최소한 기초 NSAA, 나이, 스테로이드 요법, 엑손 클래스 및 기타 혼동 변수를 고려한 조정된 분석을 사용하십시오. -
연령 구간 혼동
4~7세 남아는 발달 창(w)에 위치한다.
후보 답변