Bits, Bytes & Neural Networks
A Data Scientist's Digital Playground
-
From Local to Global: A Graph RAG Approach to Query-Focused Summarization
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM)의 발전에도 불구하고, 방대한 문서 컬렉션에 대한 포괄적인 이해와 의미 파악은 여전히 도전적인 과제로 남아있습니다. 기존의 검색 증강 생성(RAG) 시스템들은 지역적 문맥만을 고려하여 “데이터셋의 주요 주제는 무엇인가요?”와 같은 전체적인 이해를 요구하는 질문에 효과적으로 대응하지 못했습니다. 또한 기존의 쿼리 중심 요약(QFS)...
-
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 최근 코드 생성과 이해를 위한 대규모 언어 모델의 발전이 가속화되고 있으나, 대부분의 강력한 코드 생성 모델들이 비공개로 운영되어 연구와 발전이 제한되어 왔습니다. 특히 OpenAI의 Codex나 GPT 시리즈와 같은 비공개 모델들은 뛰어난 성능을 보여주지만, 연구 커뮤니티가 접근하기 어려운 상황이었습니다. 이러한 한계를 극복하고 코드...
-
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 오픈소스 대규모 언어 모델(LLMs)의 발전이 가속화되면서, 모델의 효과적인 확장 방법에 대한 불확실성이 대두되었습니다. 기존 연구에서 제시된 스케일링 법칙들이 서로 다른 결론을 보여주었고, 하이퍼파라미터 설정에 대한 명확한 지침이 부족했습니다. 특히 컴퓨팅 예산 증가에 따른 모델과 데이터의 최적 스케일링 비율에 대한 체계적인 연구가 필요했습니다....
-
Llama 2: Open Foundation and Fine-Tuned Chat Models
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM)의 발전에도 불구하고, 오픈소스 모델들은 상용 비공개 모델들과 비교했을 때 성능과 안전성 측면에서 여전히 격차가 존재했습니다. 특히 ChatGPT와 같은 대화형 AI 시스템의 성공으로 인해, 연구 커뮤니티에서 활용할 수 있는 고성능 오픈소스 대화 모델의 필요성이 더욱 증가했습니다. 메타는 이러한 격차를 해소하고...
-
LLaMA: Open and Efficient Foundation Language Models
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLMs)은 텍스트 기반 과제에서 놀라운 성능을 보여주고 있지만, 대부분의 최신 모델들이 비공개 데이터셋에 의존하고 있어 연구 커뮤니티의 접근과 검증이 제한되는 문제가 있었습니다. 또한 기존 모델들은 대부분 매우 큰 규모의 파라미터를 필요로 하여 실제 응용에 제약이 있었습니다. Meta AI 연구진은 이러한...