LLM/LangChain

안녕하세요. 이번에는 LangChain을 활용해서 문서를 분할 할 수 있는 여러가지 TextSplitter에 대해 살펴보겠습니다. 현 포스팅 이후에 업데이트되어 새로 추가되는 내용들은 댓글에 남겨주시면 감사하겠습니다 :) 텍스트 분할기는 종종 문장에 해당하는 의미론적 의미를 지닌 작은 조각으로 텍스트를 나누는 도구입니다. 이 텍스트 분할기가 중요한 이유는 LLM모델마다 max token의 수가 다르기 때문입니다. 그래서 텍스트 분할기를 통해 모델에 들어가는 토큰수를 제한해주어야하는데 이때 TextSplitter가 중요한 역할을 합니다. chatGPT 3.5 API의 최대 토큰수는 4096이기 때문에 chunk 크기를 4000으로 잘라줘도 되지만, 그렇게되면 효율적이지 못하기 때문에 2000정도로 잘라주게..
안녕하세요. 현재 chatGPT의 뛰어난 성능으로 LLM, LangChain, RAG등 여러 요소들이 주목받기 시작했습니다. 사실 RAG는 chatGPT가 주목받기 전부터 자연어처리분야에서 종종 쓰이던 기술이였는데요. RAG는 자연어처리 분야에서도 QA, MRC분야 특히 ODQA분야에서 주목을 받던 기술입니다. RAG의 풀 네임은 Retrieval Augmented Generation인데요. 2020년 NeurlPs에 Accept이 되면서 주목을 받기 시작했습니다. 사실 RAG는 2021년 모 부트캠프에서 MRC에 대한 논문 흐름을 이야기하는 세미나를 했었는데요. MRC흐름을 공부하느라 RAG를 언급하고 공부했던 기억이 나는데, 다시금 2023년에 엄청난 주목을 받으니 새삼 신기하더라구요. RAG의 구조..
리미에오
'LLM/LangChain' 카테고리의 글 목록