① 비정형 데이터 전처리 및 파이프라인 구축
•다양한 포맷(PDF, HWP, HTML, 이미지 등)의 원천 문서에서 텍스트 추출 및 파싱
•복잡한 구조의 문서(표, 이미지 등)에 대한 평문화 및 데이터 구조화
•데이터 특성 및 검색 시스템 요구사항에 맞는 청킹(Chunking) 전략 수립 및 적용
•대용량 데이터 처리를 위한 분산/배치 작업 스크립트 작성 및 자동화 파이프라인 구축
② 고품질 데이터셋 구축 및 관리
•LLM 파인튜닝 및 RAG 성능 평가를 위한 질의응답(Q&A) 데이터셋과 평가 기준
GT(Ground Truth) 데이터 기획, 생성 및 품질 검증
•자사 인덱싱 위자드(GUI) 및 스크립트를 활용한 대용량 데이터 색인(Indexing)
및 메타 데이터(Custom Field) 설계·관리
③ 데이터 기반 RAG 성능 평가 및 최적화
•MLflow 등 평가 도구를 활용하여 구축된 데이터 기반의 RAG 파이프라인 성능 평가 지표(정확도, 재현율 등)
산출 및 분석
•평가 결과를 바탕으로 데이터 정제, 전처리 로직 수정, 청킹 전략 고도화 등 지속적인 데이터 품질 개선 수행
*경력: 데이터 엔지니어링 또는 자연어 처리(NLP) 관련 실무 경력 3년 이상
*업무 지식
- Python 기반의 코드를 이해하고 수정할 수 있으며, 데이터 처리 라이브러리(Pandas, Regex 등) 활용에 익숙하신 분
- 다양한 형태의 비정형 데이터(텍스트, 이미지, 표 등) 전처리 및 파싱 경험이 있으신 분
- 정규 표현식(Regular Expression)을 활용한 복잡한 텍스트 패턴 추출 및 가공 역량을 보유하신 분
- RDBMS(Oracle, Postgres 등) 및 NoSQL 환경에서의 데이터 추출 및 가공 경험.
*핵심 역량
- LLM/RAG 시스템의 작동 원리 및 데이터 품질이 모델 검색 성능에 미치는 영향에 대한 깊은 이해
- 다양한 산업 분야 및 고객사의 문서 구조 파악 능력 및 데이터 특성에 맞는 청킹 전략 수립·적용 역량
- RAG 성능 평가 지표에 대한 이해 및 정량적 분석 능력
- 문제 해결을 위한 논리적 사고 및 타 부서(개발, 기획 등)와의 원활한 커뮤니케이션 능력
- LLM(거대언어모델) 파인튜닝용 학습 데이터셋 구축 실무 경험 보유자
- 검색 엔진(Elasticsearch, OpenSearch 등), 벡터 DB 연동 및 활용 실무 경험 보유자
- 대규모 분산 처리 시스템(Spark, Hadoop) 활용 경험 보유자
- MLflow 등 머신러닝 파이프라인/데이터 로깅 관리 도구 사용 경험이 있으신 분
(필요시 일부 절차는 생략될 수 있습니다)
① 비정형 데이터 전처리 및 파이프라인 구축
•다양한 포맷(PDF, HWP, HTML, 이미지 등)의 원천 문서에서 텍스트 추출 및 파싱
•복잡한 구조의 문서(표, 이미지 등)에 대한 평문화 및 데이터 구조화
•데이터 특성 및 검색 시스템 요구사항에 맞는 청킹(Chunking) 전략 수립 및 적용
•대용량 데이터 처리를 위한 분산/배치 작업 스크립트 작성 및 자동화 파이프라인 구축
② 고품질 데이터셋 구축 및 관리
•LLM 파인튜닝 및 RAG 성능 평가를 위한 질의응답(Q&A) 데이터셋과 평가 기준
GT(Ground Truth) 데이터 기획, 생성 및 품질 검증
•자사 인덱싱 위자드(GUI) 및 스크립트를 활용한 대용량 데이터 색인(Indexing)
및 메타 데이터(Custom Field) 설계·관리
③ 데이터 기반 RAG 성능 평가 및 최적화
•MLflow 등 평가 도구를 활용하여 구축된 데이터 기반의 RAG 파이프라인 성능 평가 지표(정확도, 재현율 등)
산출 및 분석
•평가 결과를 바탕으로 데이터 정제, 전처리 로직 수정, 청킹 전략 고도화 등 지속적인 데이터 품질 개선 수행
*경력: 데이터 엔지니어링 또는 자연어 처리(NLP) 관련 실무 경력 3년 이상
*업무 지식
- Python 기반의 코드를 이해하고 수정할 수 있으며, 데이터 처리 라이브러리(Pandas, Regex 등) 활용에 익숙하신 분
- 다양한 형태의 비정형 데이터(텍스트, 이미지, 표 등) 전처리 및 파싱 경험이 있으신 분
- 정규 표현식(Regular Expression)을 활용한 복잡한 텍스트 패턴 추출 및 가공 역량을 보유하신 분
- RDBMS(Oracle, Postgres 등) 및 NoSQL 환경에서의 데이터 추출 및 가공 경험.
*핵심 역량
- LLM/RAG 시스템의 작동 원리 및 데이터 품질이 모델 검색 성능에 미치는 영향에 대한 깊은 이해
- 다양한 산업 분야 및 고객사의 문서 구조 파악 능력 및 데이터 특성에 맞는 청킹 전략 수립·적용 역량
- RAG 성능 평가 지표에 대한 이해 및 정량적 분석 능력
- 문제 해결을 위한 논리적 사고 및 타 부서(개발, 기획 등)와의 원활한 커뮤니케이션 능력
- LLM(거대언어모델) 파인튜닝용 학습 데이터셋 구축 실무 경험 보유자
- 검색 엔진(Elasticsearch, OpenSearch 등), 벡터 DB 연동 및 활용 실무 경험 보유자
- 대규모 분산 처리 시스템(Spark, Hadoop) 활용 경험 보유자
- MLflow 등 머신러닝 파이프라인/데이터 로깅 관리 도구 사용 경험이 있으신 분
(필요시 일부 절차는 생략될 수 있습니다)