AI 데이터 엔지니어 (AI사업부문)
경력사항
경력 3~7년
고용형태
정규직
근무지
코난테크놀로지대한민국 서울특별시 서초구 강남대로 327, 9층

주요 ​업무


① 비정형 데이터 전처리 및 파이프라인 구축

•다양한 포맷(PDF, HWP, HTML, 이미지 등)의 원천 문서에서 텍스트 추출 및 파싱

•복잡한 구조의 문서(표, 이미지 등)에 대한 평문화 및 데이터 구조화

•데이터 특성 및 검색 시스템 요구사항에 맞는 청킹(Chunking) 전략 수립 및 적용

•대용량 데이터 처리를 위한 분산/배치 작업 스크립트 작성 및 자동화 파이프라인 구축


② 고품질 데이터셋 구축 및 관리

•LLM 파인튜닝 및 RAG 성능 평가를 위한 질의응답(Q&A) 데이터셋과 평가 기준

​ ​GT(Ground Truth) 데이터 기획, 생성 및 품질 검증

•자사 인덱싱 위자드(GUI) 및 스크립트를 활용한 대용량 데이터 색인(Indexing) 

​및 메타 데이터(Custom Field) 설계·관리


③ 데이터 기반 RAG 성능 평가 및 최적화

•MLflow 등 평가 도구를 활용하여 구축된 데이터 기반의 RAG 파이프라인 성능 평가 지표(정확도, 재현율 등) 

​산출 및 분석

•평가 결과를 바탕으로 데이터 정제, 전처리 로직 수정, 청킹 전략 고도화 등 지속적인 데이터 품질 개선 수행



자격 요건

*경력: 데이터 ​엔지니어링 또는 자연어 ​처리(NLP) 관련 ​실무 ​경력 3년 ​이상


*업무 ​지식

- Python ​기반의 코드를 이해하고 ​수정할 ​수 있으며, 데이터 ​처리 ​라이브러리(Pandas, ​Regex 등) 활용에 ​익숙하신 분

- 다양한 ​형태의 ​비정형 데이터(텍스트, ​이미지, 표 ​등) ​전처리 및 파싱 ​경험이 있으신 ​분

- 정규 표현식(Regular Expression)을 활용한 복잡한 텍스트 패턴 추출 및 가공 역량을 보유하신 분

- RDBMS(Oracle, Postgres 등) 및 NoSQL 환경에서의 데이터 추출 및 가공 경험.


*핵심 역량

- LLM/RAG 시스템의 작동 원리 및 데이터 품질이 모델 검색 성능에 미치는 영향에 대한 깊은 이해

- 다양한 산업 분야 및 고객사의 문서 구조 파악 능력 및 데이터 특성에 맞는 청킹 전략 수립·적용 역량

- RAG 성능 평가 지표에 대한 이해 및 정량적 분석 능력

- 문제 해결을 위한 논리적 사고 및 타 부서(개발, 기획 등)와의 원활한 커뮤니케이션 능력



우대 사항

- LLM(거대언어모델) 파인튜닝용 학습 데이터셋 구축 실무 경험 보유자

- 검색 엔진(Elasticsearch, OpenSearch 등), 벡터 DB 연동 및 활용 실무 경험 보유자

- 대규모 분산 처리 시스템(Spark, Hadoop) 활용 경험 보유자

- MLflow 등 머신러닝 파이프라인/데이터 로깅 관리 도구 사용 경험이 있으신 분



채용 절차

  • 서류 코딩테스트 실무진 면접 임원 면접 처우 협의 및 최종 합격

(필요시 일부 절차는 생략될 수 있습니다)

공유하기
AI 데이터 엔지니어 (AI사업부문)

주요 ​업무


① 비정형 데이터 전처리 및 파이프라인 구축

•다양한 포맷(PDF, HWP, HTML, 이미지 등)의 원천 문서에서 텍스트 추출 및 파싱

•복잡한 구조의 문서(표, 이미지 등)에 대한 평문화 및 데이터 구조화

•데이터 특성 및 검색 시스템 요구사항에 맞는 청킹(Chunking) 전략 수립 및 적용

•대용량 데이터 처리를 위한 분산/배치 작업 스크립트 작성 및 자동화 파이프라인 구축


② 고품질 데이터셋 구축 및 관리

•LLM 파인튜닝 및 RAG 성능 평가를 위한 질의응답(Q&A) 데이터셋과 평가 기준

​ ​GT(Ground Truth) 데이터 기획, 생성 및 품질 검증

•자사 인덱싱 위자드(GUI) 및 스크립트를 활용한 대용량 데이터 색인(Indexing) 

​및 메타 데이터(Custom Field) 설계·관리


③ 데이터 기반 RAG 성능 평가 및 최적화

•MLflow 등 평가 도구를 활용하여 구축된 데이터 기반의 RAG 파이프라인 성능 평가 지표(정확도, 재현율 등) 

​산출 및 분석

•평가 결과를 바탕으로 데이터 정제, 전처리 로직 수정, 청킹 전략 고도화 등 지속적인 데이터 품질 개선 수행



자격 요건

*경력: 데이터 ​엔지니어링 또는 자연어 ​처리(NLP) 관련 ​실무 ​경력 3년 ​이상


*업무 ​지식

- Python ​기반의 코드를 이해하고 ​수정할 ​수 있으며, 데이터 ​처리 ​라이브러리(Pandas, ​Regex 등) 활용에 ​익숙하신 분

- 다양한 ​형태의 ​비정형 데이터(텍스트, ​이미지, 표 ​등) ​전처리 및 파싱 ​경험이 있으신 ​분

- 정규 표현식(Regular Expression)을 활용한 복잡한 텍스트 패턴 추출 및 가공 역량을 보유하신 분

- RDBMS(Oracle, Postgres 등) 및 NoSQL 환경에서의 데이터 추출 및 가공 경험.


*핵심 역량

- LLM/RAG 시스템의 작동 원리 및 데이터 품질이 모델 검색 성능에 미치는 영향에 대한 깊은 이해

- 다양한 산업 분야 및 고객사의 문서 구조 파악 능력 및 데이터 특성에 맞는 청킹 전략 수립·적용 역량

- RAG 성능 평가 지표에 대한 이해 및 정량적 분석 능력

- 문제 해결을 위한 논리적 사고 및 타 부서(개발, 기획 등)와의 원활한 커뮤니케이션 능력



우대 사항

- LLM(거대언어모델) 파인튜닝용 학습 데이터셋 구축 실무 경험 보유자

- 검색 엔진(Elasticsearch, OpenSearch 등), 벡터 DB 연동 및 활용 실무 경험 보유자

- 대규모 분산 처리 시스템(Spark, Hadoop) 활용 경험 보유자

- MLflow 등 머신러닝 파이프라인/데이터 로깅 관리 도구 사용 경험이 있으신 분



채용 절차

  • 서류 코딩테스트 실무진 면접 임원 면접 처우 협의 및 최종 합격

(필요시 일부 절차는 생략될 수 있습니다)