인류의 모든 요리를 2메가바이트에 압축
출처: Hacker News
초록
우리는 다국어 레시피 코퍼스를 기반으로 처음부터 다시 학습한 세 가지 형제 skip‑gram 재료 임베딩 패밀리인 Epicure를 제시한다. 영어, 중국어, 러시아어, 베트남어, 스페인어, 터키어, 인도네시아어, 독일어, 인도‑영어 등 일곱 언어에 걸친 11개 출처의 레시피 4.14 M개를 집계하고, LLM‑보강 파이프라인을 통해 원시 재료 문자열을 1,790개의 정규화된 항목으로 정제하였다. 203,508개의 엣지를 갖는 재료‑재료 NPMI 그래프와 80,019개의 엣지를 갖는 타입화된 FlavorDB 재료‑화합물 그래프(15개 카테고리, 2,247개의 타입화된 화합물 노드)를 기반으로, 구조와 하이퍼파라미터는 동일하고 무작위 워크 스키마만 다른 세 가지 Metapath2Vec 변형을 시드한다: Cooc는 공출현 그래프만을 순회하고, Chem은 타입화된 화합물 메타패스를 전용으로 순회하며, Core는 제어된 혼합을 통해 삽입된 재료‑재료 워크를 결합한다. 이로써 각 모델은 화학‑대‑레시피‑컨텍스트 스펙트럼 상에서 서로 다른 위치에 배치된다.
분야
- 인공지능 (cs.AI)
- 컴퓨테이션 및 언어 (cs.CL)
- 컴퓨터와 사회 (cs.CY)
인용
Cite as: arXiv:2605.22391 (cs.AI)
또는
arXiv:2605.22391v1 (cs.AI) – 이 버전.
DOI
https://doi.org/10.48550/arXiv.2605.22391
DataCite를 통한 arXiv‑발행 DOI (등록 대기 중)
제출 이력
제출자: Josef Liyanjun Chen
버전: v1
날짜: 2026년 5월 21일 목요일 12:23:38 UTC (6,566 KB)