클로드를 화학자로 만들다

발행: (2026년 6월 14일 AM 11:55 GMT+9)
13 분 소요

출처: 해커 뉴스

우리는 세계적인 합성, 계산, 분석 화학자와 협력하여 Claude가 화학에 더 능숙하도록 만들고 있습니다. 이번 포스트에서는 이 노력의 일환으로 Anthropic 화학자 David Kamber가 Claude가 가장 흔히 사용하는 분석 입력인 NMR 스펙트럼에서 어떻게 수행하는지 살펴봅니다.

분자를 다룰 때 화학자는 흰판에 손으로 그린 구조, 기기 출력, 데이터베이스 쿼리 문자열, 특허와 논문의 기술 표기 등 다양한 형태를 오가곤 합니다. 이 모든 표현은 같은 기본 화학을 인코딩하지만, 각각 다른 수준의 유창성을 요구합니다.

카페인 스케치를 예시로 들면, 화학자는 그 구조가 아데노신(몸의 졸음 신호)과 유사함을 파악하고, 수용체를 차단함으로써 우리를 깨어있게 한다는 것을 예측할 수 있습니다. 그러나 동일한 스케치는 다른 비슷해 보이는 분자와 구별하는 데 도움이 되지 않습니다.

화학자가 어떤 분자를 다루고 있는지 이해하는 것은 매우 중요합니다. 화학은 우리가 섭취하는 음식과 약물, 로션, 페인트, 플라스틱 등 모든 것을 뒷받침합니다. 같은 원자 집합에 몇 개의 결합을 바꾸면 포도당이 프럭토스(포뮬라는 동일하지만 대사 경로가 완전히 다름)가 되고, 분자를 거울 이미지로 뒤집으면 진정제가 테라토젠(선천성 기형 유발 물질)이 되는 경우가 있습니다. 이는 탈리도미드 사태와 같습니다.

화학자의 일상 업무는 주어진 작업에 맞는 적절한 표현에서 이러한 신호를 정확히 읽는 데 달려 있습니다.

이러한 표현들 간 전환(도표에서 구조를 찾아내기, 제안된 제품과 기기 출력 비교, 올바른 표기법으로 데이터베이스 쿼리하기)은 시간 소모적이고 대규모에서는 감당하기 불가능합니다—CAS는 세계 최대의 화학 등록소로 2억9천만 건 이상의 공개 물질을 등록하고 있으며 매일 약 15,000건씩 증가하고 있습니다.

AI는 이 연구 부담을 수행할 수 있는 위치에 있지만, 아직 화학 분야에서는 largely가 aspirational(비현실적)이다. 머신러닝 도구들은 retrosynthesis(목표 분자로부터 더 단순한 전구체로 역방향으로 이동하여 이를 구축하는 과정), 반응 예측, 특성 추정 등 혁신적인 역할을 수년째 기대받아 왔지만, 필요한 데이터는 어려웠습니다—부정적 결과가 부족하고 형식이 일관되지 않으며 구독형 저널(및 비구조화된 보조 자료) 뒤에 가려져 있었습니다. retrosynthesis는 좋은 예시입니다—능력 있는 AI 도구는 이미 수년 전부터 존재했지만, 채택은 고르지 않고 평균 학술 연구자나 소규모 실험실 화학자는 아직 사용하지 않습니다.

그럼에도 AI는 마침내 화학 분야에 도달하고 있습니다. 오늘날의 최첨단 모델은 다중 모달이며 명시적인 추론이 가능합니다. 이들은 저널 그림이나 손으로 그린 스케치에서 직접 화학적 구조를 읽을 수 있고, 사전 구축된 분자 데이터베이스에 의존하지 않습니다. 또한 méthodes 섹션이나 보조 자료의 실험 세부 사항을 실제 출판 형식 그대로 읽을 수 있습니다. 또한 단계별 추론 과정을 보여줄 수 있어, 화학자는 출력을 검토할 수 있습니다.

이 모든 것이 몇 년 동안 지적해 온 데이터 문제를 없애지는 않지만, 그 한계에도 불구하고 해결 가능한 문제의 범위를 바꿉니다.

결국 우리의 주장은 modest(소박한) 하나다: Claude는 일상적인 번역, 회상, 통합 작업을 시작하여 화학자의 판단을 보완하고 있다. 오늘 우리는 이 노력을 가속화하기 위한 첫 번째 백서を発表한다. 이 논문은 화학자가 가장 흔히 사용하는 분석 입력인 NMR 스펙트럼을 다룬다.

Claude vs. ChemDraw의 NMR 예측 및 구조 규명

전체 버전은 여기

약물, 살균제, 색소, 향료, 고분자, DNA 또는 단백질 서브유닛, 그리고 기능적인 무기체나 고체 상태 물질 등 거의 모든 소형 분자는 화학자가 구조를 결정했기 때문에 존재합니다. 이러한 분자들은 현미경으로 볼 수 없으므로 화학자는 빛, 라디오 파동, 혹은 자기장을 이용해 물질을 조사하는 스펙트럼 분석에 의존해야 합니다. 특정 분자가 이 에너지를 흡수, 방출하거나 편향시키는 방식은 chemists가 구조를 규명할 수 있는 패턴(스펙트럼)을 제공합니다.

핵자기공명(NMR) 스펙트럼은 화학자가 구조를 규명하는 데 가장 기본적으로 사용하는 기술 중 하나이며, 합성화학에서 가장 시간 소모적인 단계 중 하나입니다. 모든 화합물에 대해 화학자는 각 피크를 제안된 구조 안의 원자와 수동으로 매칭해야 합니다.

이 백서에서는 Claude가 현재 화학자들이 사용하는 전용 NMR 소프트웨어와 어떻게 비교되는지 테스트했습니다. 우리는 모델 학습 이후(모델의 훈련 종료 시점 이후) 발표된 합성화학 preprints에서 20개의 화합물을 추출하고, ChemDraw와 MestReNova에 대해 각각 평가했습니다.

ChemDraw와 MestReNova는 모두 포워드 예측을 수행합니다(그림을 그려 구조를 입력해 NMR 스펙트럼이 어떻게 출력될지 시뮬레이션). 포워드 예측 외에도 Claude가 다른 방향—실험적 스펙트럼에서 구조를 추론하는 능력—도 가질 수 있는지 확인하고자 했습니다. 이는 더 어려운 작업이며, 현재 존재하는 소프트웨어는 이를 화학자에게 맡겨 둡니다.

평가를 위해 우리는 모델 학습 이후 발표된 ChemRxiv preprints에서 20개의 화합물을 선택했으며, 각 논문에서 처음 완전히 특성화된 새로운 분자를 사용했습니다. 이 20개는 네 가지 구조적 가족으로 구성되어 각각 다섯 개씩이며, 각_family_는 NMR 도전 과정이 다른 범주에 해당하도록 선택되었습니다.

각 도구에는 화학자가 소프트웨어에 분자를 입력할 때 사용하는 SMILES 문자열(문자열 형태의 구조)가 제공되었고, 모든 수소와 탄소 피크가 1D NMR 스펙트럼(화학적 이동을 ppm 단위로 측정하는 가로 축)에서 어느 위치에 있을지 예측하도록 지시했습니다. NMR 시료는 액체에 용해되어 있으며, 용매(클로로폼, DMSO 등)가 선택되면 피크 위치가 약간 변합니다. 따라서 각 도구는 논문에서 화학자가 사용한 용매와 동일한 조건으로 스펙트럼을 예측하도록 했습니다.

그림 1. 포워드‑예측 평가를 위한 네 가지 스캐프olding 클래스. 각각 NMR 도전 과정이 다른 범주를 다룹니다. P1 클로로피리다진은 DMSO‑d₆에서 aminopyridazine의 느린 교환 NH를 가집니다; P2 Boc‑N‑aryl 말레이미드와 N‑Boc ynamides는 α‑비닐 이미드 카보닐과 드물게 나타나는 ynamide α/β‑탄소 쌍을 다루며; P3 스피로케톤은 페난실 또는 아세틸 부착물과 디아스테오틱 CH₂를 가진 스피로사이클 케톤이며; P4 α‑실릴 메탄술폰아마이드는 실ikon‑α 탄소를 차단합니다.

언어 모델의 출력은 실행마다 달라지므로, 각 Claude 모델은 화합물당 세 번씩 문의하고 평균을 내었습니다. ChemDraw와 MestReNova는 매번 동일한 답변을 반환하므로 한 번만 실행했습니다. 이후 각 예측 피크를 실험값과 짝지어 ppm 차이를 측정했습니다. 이 값들은 화학자가 올바르게 판단하는 범위(수소 ±0.20 ppm, 탄소 ±1.0 ppm) 안에 들어 있었습니다.

그림 2. 도구별 MAE(더 어두운 음영)와 RMSE(밝은 음영)는 20개 화합물에 대한 포워드 예측 시 ¹H(왼쪽) 및 ¹³C(오른쪽) 이동 오차를 보여줍니다. 각 도구 아래에 커버age가 표시되어 있습니다. Claude 막대: 세 복제본 평균값(최소–최대 범위)과 겹쳐진 복제점. 클래식 도구: 단일 점 예측(범위가 없음).

수소에 대해서는 Opus 4.7가 가장 정확했으며, 평균 e

0 조회
Back to Blog

관련 글

더 보기 »

위브: 언어 구조 기반 병합

weavehttps://ataraxy-labs.github.io/weave/index.html Entity-level semantic merge driver for Git. Two agents edit different functions in the same file? Clean mer...