Azure Synapse의 Apache Spark 풀에 Python 패키지 설치 방법
Source: Dev.to

Azure Synapse Analytics에서 Python 패키지를 효율적으로 설치하기
Azure Synapse 노트북에서 %pip 명령(예: %pip install pandas)을 코드 셀에 사용하여 패키지를 설치할 수 있습니다. 그러나 이 방법은 일시적이며, 현재 노트북 세션에만 패키지가 설치되고 세션이 시작될 때마다 다시 설치해야 합니다. 이러한 반복은 노트북 실행에 큰 지연을 초래하고, 자주 실행되는 작업에 비효율적입니다.
보다 영구적이고 효율적인 해결책은 Apache Spark 풀에 직접 패키지를 설치하는 것입니다. 이 방법을 사용하면 라이브러리가 사전 설치되어 해당 풀에 연결된 모든 세션에서 자동으로 사용할 수 있습니다.
Spark 풀 수준에서 패키지 설치하기
이 방법은 필요한 패키지와 버전을 지정한 requirements.txt 파일을 업로드하는 방식입니다.
- Azure 포털에서 Azure Synapse 작업 영역으로 이동합니다.
- 왼쪽 메뉴에서 Manage 섹션을 선택합니다.
- Analytics pools 섹션 아래의 Apache Spark pools를 클릭합니다.
- 패키지를 설치하려는 Spark 풀을 선택합니다.
- Spark 풀 오른쪽에 있는 세 점 아이콘을 클릭하고 Packages를 선택합니다.
- 설치하려는 패키지 목록이 들어 있는
requirements.txt파일을 업로드합니다. - Apply를 클릭하여 변경 사항을 저장합니다.

Spark 풀이 업데이트되며 지정된 패키지를 자동으로 설치합니다. 이 과정은 몇 분 정도 소요될 수 있습니다. 완료되면 이 풀에 연결된 모든 노트북에서 기본적으로 해당 라이브러리를 사용할 수 있게 됩니다.
requirements.txt 파일 생성 방법
requirements.txt 파일은 설치할 패키지를 나열한 간단한 텍스트 파일입니다. 로컬 Python 환경에서 쉽게 생성할 수 있습니다.
pip freeze > requirements.txt
이 명령은 현재 환경에 설치된 모든 패키지와 정확한 버전을 캡처하여 requirements.txt라는 파일에 저장합니다. 이 파일을 업로드하면 Synapse 환경에 정확히 동일한 패키지 버전이 설치되어 일관성을 유지하고 의존성 충돌을 방지할 수 있습니다.