코난테크놀로지

AI 데이터 엔지니어 (AI사업부문)

경력사항

경력 3~7년

고용형태

정규직

근무지

코난테크놀로지대한민국 서울특별시 서초구 강남대로 327, 9층

❖ 주요 업무

① 비정형 데이터 전처리 및 파이프라인 구축

•다양한 포맷(PDF, HWP, HTML, 이미지 등)의 원천 문서에서 텍스트 추출 및 파싱

•복잡한 구조의 문서(표, 이미지 등)에 대한 평문화 및 데이터 구조화

•데이터 특성 및 검색 시스템 요구사항에 맞는 청킹(Chunking) 전략 수립 및 적용

•대용량 데이터 처리를 위한 분산/배치 작업 스크립트 작성 및 자동화 파이프라인 구축

② 고품질 데이터셋 구축 및 관리

•LLM 파인튜닝 및 RAG 성능 평가를 위한 질의응답(Q&A) 데이터셋과 평가 기준

GT(Ground Truth) 데이터 기획, 생성 및 품질 검증

•자사 인덱싱 위자드(GUI) 및 스크립트를 활용한 대용량 데이터 색인(Indexing)

및 메타 데이터(Custom Field) 설계·관리

③ 데이터 기반 RAG 성능 평가 및 최적화

•MLflow 등 평가 도구를 활용하여 구축된 데이터 기반의 RAG 파이프라인 성능 평가 지표(정확도, 재현율 등)

산출 및 분석

•평가 결과를 바탕으로 데이터 정제, 전처리 로직 수정, 청킹 전략 고도화 등 지속적인 데이터 품질 개선 수행

❖ 자격 요건

*경력: 데이터 엔지니어링 또는 자연어 처리(NLP) 관련 실무 경력 3년 이상

*업무 지식

- Python 기반의 코드를 이해하고 수정할 수 있으며, 데이터 처리 라이브러리(Pandas, Regex 등) 활용에 익숙하신 분

- 다양한 형태의 비정형 데이터(텍스트, 이미지, 표 등) 전처리 및 파싱 경험이 있으신 분

- 정규 표현식(Regular Expression)을 활용한 복잡한 텍스트 패턴 추출 및 가공 역량을 보유하신 분

- RDBMS(Oracle, Postgres 등) 및 NoSQL 환경에서의 데이터 추출 및 가공 경험.

*핵심 역량

- LLM/RAG 시스템의 작동 원리 및 데이터 품질이 모델 검색 성능에 미치는 영향에 대한 깊은 이해

- 다양한 산업 분야 및 고객사의 문서 구조 파악 능력 및 데이터 특성에 맞는 청킹 전략 수립·적용 역량

- RAG 성능 평가 지표에 대한 이해 및 정량적 분석 능력

- 문제 해결을 위한 논리적 사고 및 타 부서(개발, 기획 등)와의 원활한 커뮤니케이션 능력

❖ 우대 사항

- LLM(거대언어모델) 파인튜닝용 학습 데이터셋 구축 실무 경험 보유자

- 검색 엔진(Elasticsearch, OpenSearch 등), 벡터 DB 연동 및 활용 실무 경험 보유자

- 대규모 분산 처리 시스템(Spark, Hadoop) 활용 경험 보유자

- MLflow 등 머신러닝 파이프라인/데이터 로깅 관리 도구 사용 경험이 있으신 분

❖ 채용 절차

서류 → 코딩테스트 → 실무진 면접 → 임원 면접 → 처우 협의 및 최종 합격

(필요시 일부 절차는 생략될 수 있습니다)

AI 데이터 엔지니어 (AI사업부문)

❖ 주요 업무

① 비정형 데이터 전처리 및 파이프라인 구축

•다양한 포맷(PDF, HWP, HTML, 이미지 등)의 원천 문서에서 텍스트 추출 및 파싱

•복잡한 구조의 문서(표, 이미지 등)에 대한 평문화 및 데이터 구조화

•데이터 특성 및 검색 시스템 요구사항에 맞는 청킹(Chunking) 전략 수립 및 적용

•대용량 데이터 처리를 위한 분산/배치 작업 스크립트 작성 및 자동화 파이프라인 구축

② 고품질 데이터셋 구축 및 관리

•LLM 파인튜닝 및 RAG 성능 평가를 위한 질의응답(Q&A) 데이터셋과 평가 기준

GT(Ground Truth) 데이터 기획, 생성 및 품질 검증

•자사 인덱싱 위자드(GUI) 및 스크립트를 활용한 대용량 데이터 색인(Indexing)

및 메타 데이터(Custom Field) 설계·관리

③ 데이터 기반 RAG 성능 평가 및 최적화

•MLflow 등 평가 도구를 활용하여 구축된 데이터 기반의 RAG 파이프라인 성능 평가 지표(정확도, 재현율 등)

산출 및 분석

•평가 결과를 바탕으로 데이터 정제, 전처리 로직 수정, 청킹 전략 고도화 등 지속적인 데이터 품질 개선 수행

❖ 자격 요건

*경력: 데이터 엔지니어링 또는 자연어 처리(NLP) 관련 실무 경력 3년 이상

*업무 지식

- Python 기반의 코드를 이해하고 수정할 수 있으며, 데이터 처리 라이브러리(Pandas, Regex 등) 활용에 익숙하신 분

- 다양한 형태의 비정형 데이터(텍스트, 이미지, 표 등) 전처리 및 파싱 경험이 있으신 분

- 정규 표현식(Regular Expression)을 활용한 복잡한 텍스트 패턴 추출 및 가공 역량을 보유하신 분

- RDBMS(Oracle, Postgres 등) 및 NoSQL 환경에서의 데이터 추출 및 가공 경험.

*핵심 역량

- LLM/RAG 시스템의 작동 원리 및 데이터 품질이 모델 검색 성능에 미치는 영향에 대한 깊은 이해

- 다양한 산업 분야 및 고객사의 문서 구조 파악 능력 및 데이터 특성에 맞는 청킹 전략 수립·적용 역량

- RAG 성능 평가 지표에 대한 이해 및 정량적 분석 능력

- 문제 해결을 위한 논리적 사고 및 타 부서(개발, 기획 등)와의 원활한 커뮤니케이션 능력

❖ 우대 사항

- LLM(거대언어모델) 파인튜닝용 학습 데이터셋 구축 실무 경험 보유자

- 검색 엔진(Elasticsearch, OpenSearch 등), 벡터 DB 연동 및 활용 실무 경험 보유자

- 대규모 분산 처리 시스템(Spark, Hadoop) 활용 경험 보유자

- MLflow 등 머신러닝 파이프라인/데이터 로깅 관리 도구 사용 경험이 있으신 분

❖ 채용 절차

서류 → 코딩테스트 → 실무진 면접 → 임원 면접 → 처우 협의 및 최종 합격

(필요시 일부 절차는 생략될 수 있습니다)

❖ 주요 ​업무

❖ ​자격 요건

❖ 우대 사항

❖ 채용 절차

❖ 주요 ​업무

❖ ​자격 요건

❖ 우대 사항

❖ 채용 절차

❖ 주요 업무

❖ 자격 요건

❖ 주요 업무

❖ 자격 요건