Textsplitter

안녕하세요. 이번에는 LangChain을 활용해서 문서를 분할 할 수 있는 여러가지 TextSplitter에 대해 살펴보겠습니다. 현 포스팅 이후에 업데이트되어 새로 추가되는 내용들은 댓글에 남겨주시면 감사하겠습니다 :) 텍스트 분할기는 종종 문장에 해당하는 의미론적 의미를 지닌 작은 조각으로 텍스트를 나누는 도구입니다. 이 텍스트 분할기가 중요한 이유는 LLM모델마다 max token의 수가 다르기 때문입니다. 그래서 텍스트 분할기를 통해 모델에 들어가는 토큰수를 제한해주어야하는데 이때 TextSplitter가 중요한 역할을 합니다. chatGPT 3.5 API의 최대 토큰수는 4096이기 때문에 chunk 크기를 4000으로 잘라줘도 되지만, 그렇게되면 효율적이지 못하기 때문에 2000정도로 잘라주게..
리미에오
'Textsplitter' 태그의 글 목록