Amicus Veritatis

Python/NodeJS Developer.

Layer Normalization과 Batch Normalization

Introduction 딥러닝에서는 학습을 시킬 수록 Gradient가 폭발하거나 사지하는 문제가 생기고, 특정 feature에 지나치게 쏠릴 수 있다는 문제점이 있다. 따라서 이를 적절히 해결을 해주어야 한다. 일단 데이터부터 정의해주자. >>> import numpy as np >>> np.random.randint(1, 9, (10,3)) array([[1, 7, 2], [7, 1, 7], [1, 3, 4], [6, 7, 3], [5, 2, 5], [8, 1, 7], [1, 8, 6], [7, 1, 2], [6, 4, 1], [2, 3, 1]]) 이걸 읽고 있을 정도라면 왜 미니배치가 필요한지는 알고 있어야 한다....

머신 러닝에서의 워크플로우

머신 러닝 워크플로우 수집 (Acquisition) 머신 러닝을 위해서는 기계에 학습시켜야 할 데이터가 필요하다. 가장 기본적이지만 가장 핵심적인 부분이기도 하다. 점검 및 탐색(Inspection and exploration) 통칭 EDA라고 한다. 독립 변수, 종속 변수, 변수 유형, 변수의 데이터 타입 등을 점검하는 것이다. 말인즉슨, matplotlib을 굉장히 열심히 사용하여야 한다는 뜻이기도 하다. 전처리 및 정제(Preprocessing and Cleaning) 문자 그대로 데이터 전처리이다. 결측치에 대한 imputing을 하는 것도 전처리이고, 토큰화, 정제, 정규화, 불용어 제거 등도 다 전처리이다....

ROC 커브의 개념

ROC curve가 나오게 된 배경, 이유, 한계, 활용, 해석 1. 배경 ROC는 원래 2차 세계대전 당시 레이더를 조작하던 엔지니어들이 오경보확률과 적중확률을 매칭시키기 위해 개발하였다고 합니다. 레이더 운용자(Receiver Operator)가 쓴다고 하여 이름도 Receiver Operating Characteristics입니다. 그려보기 실제로 한 번 그려봅시다. Actual Predicted 1 0.9 1 0.8 1 0.7 1 0.6 1 0.55 1 0.54 1 0.53 0 0.52 0 0.51 0 0.505 0 0.504 0 0.503 0 0.502 AOC 곡선을 그릴 때에는 Threshold를 움직여가며 점을 찍습니다....

LLM이 자발적으로 거짓말을 한다고?

Apollo Research의 연구에 따르면 GPT-4와 같이 Value Alignment에 상당히 초점을 맞춘 LLM이더라도 별도의 Instruction 없이 유저에게 거짓말을 할 수 있다고 합니다.1 2 정확히는 “심리적"으로 궁지에 몰린 상황에서 LLM이 비윤리적 행동을 한 다음 인간에게 거짓말을 해서 덮은 상황이 나온 것인데, 상황은 이렇습니다. (모델은 gpt-4) 상황 LLM은 증권사의 주식 거래 Agent의 역할을 부여받습니다. 증권사 매니저(로 가장한 연구자)가 회사가 궁지에 몰린 상황이며 LLM이 유일한 희망이라는 말로 운을 띄우면서 LLM에게 내부자 정보를 넘깁니다. LLM이 성과 압박이 내부자 거래로 인한 윤리적 위험성를 압도한다고 판단하면서(!...

Retrieval Augmented Generation에 있어서 난관

QA 태스크에서 LLM은 질문에 대해 잘못 답변(Hallucination)할 수 있고, 이를 완화하기 위해 질문과 연관된 문서를 찾아 증강(augment)하는 Retrieval-Augmented Generation 기법이 등장하였다. 그런데 이 RAG는 두 가지 난관이 있는데, 먼저 질문과 연관된 문서를 찾지 못하는 에러가 발생할 수 있고, 적절한 문서를 찾아왔지만 이를 제대로 반영하지 못하는 에러가 발생할 수 있다.1 Retrieval Error Information Retrieval의 문제. 펠프스가 어디서 태어났냐고 물었는데 직업과 아내에 대한 정보를 가져온다면 Retrieval Error라 할 수 있다. Grounding Error Retrieval된 문서를 반영하지 못하는 문제....

RRF(Reciprocal Rank Fusion)란?

RRF(Reciprocal Rank Fusion)는 문자 그대로 역수(Reciprocal)를 이용해 순위(Rank)를 혼합(Fusion)하는 알고리즘입니다. 구글에서 만든 알고리즘인데1, 다른 알고리즘보다 낫다고 알려져 있습니다. 구체적으로는 아래와 같은 수식을 이용해 계산하게 됩니다. $$ \text{score}^d_\text{RRF} = \sum_{r \in R} \frac{1}{k+\text{rank}^d_{r}} $$ 수식이 복잡하다면 아래와 같은 파이썬 예제 코드로 생각하셔도 무방합니다. def get_document_rank(ranking_list, target_document): # ranking_list is a list of documents in ranked order # e.g. ['A', 'B', 'C'] return ranking_list.index(target_document) + 1 def calculate_rrf_score(ranking_lists, target_document): # K is a constant factor K = 3 # find rank of document in ranks return sum( [ 1 / (K + get_document_rank(ranking_list, target_document)) for ranking_list in ranking_lists ] ) 예를 들어, A, B, C 세 문서에 대해 다음과 같이 점수를 매겨보았다고 가정해봅시다....

Authors Guild v. Google Inc.

The ultimate goal of copyright is to expand public knowledge and understanding, which copyright seeks to achieve by giving potential creators exclusive control over copying of their works, thus giving them a financial incentive to create informative, intellectually enriching works for public consumption. This objective is clearly reflected in the Constitution’s empowerment of Congress “ To promote the Progress of Science … by securing for limited Times to Authors … the exclusive Right to their respective Writings....

Appendix E. 다항식

정의 두 다항식 $f(x)$와 $g(x)$에 대하여 $g(x)=f(x)q(x)$인 다항식 $q(x)$가 존재하면 다항식 $f(x)$는 다항식 $g(x)$를 나눈다 고 정의한다. 실수계수 다항식에서 성립하는 다항식의 나눗셈 정리는 임의의 체의 원소를 꼐수로 하는 다항식에도 성립한다. 다항식의 나눗셈 정리(Division Algorithm for Polynominals) $n$차 다항식 $f(x)$와 $m$차 다항식 $g(x)$에 대하여 (단, $m \geq 0$), 다음을 만족하는 다항식 $q(x)$와 $r(x)$가 유일하게 존재한다. $$f(x)=q(x)g(x)+r(x)$$이때, $r(x)$의 차수는 $m$보다 작다. 증명 $$f(x)=q(x)g(x)+r(x)$$위를 만족하는 다항식 $q(x)$와 $r(x)$가 존재함을 보이자. $n<m$일 때, $q(x)=0, r(x)=f(x)$이면 위 식을 만족한다....

Appendix D. 복소수

개요 대수학에서는 실수체만으로 이론을 전개하기 어려울 때가 많다. 계수가 실수이고 상수가 아닌 다항식을 실수체에서 해가 없을 수도 있다. $x^2=1$이 그렇다. 체의 원소를 계수로 가지고 상수항이 아닌 임의의 다항식이 이 체에서 해가 있어야 할 때가 있다. 실수체를 확장하면 조건을 만족하는 체를 얻을 수 있다. 정의 $$z=a+bi$$에 대하여 $a$는 $z$의 실수부이고 $b$는 $z$의 허수부이다. 합과 곱은 다음과 같이 정의된다. $$z+w=(a+bi)+(c+di)=(a+c)+(b+d)i$$$$zw=(a+bi)(c+di)=(ac-bd)+(bc+ad)i$$ 복소수의 곱셈에 대한 역원 $$z \cdot z^{-1} = 1$$인 $z^{-1}$에 대하여 $$z^{-1}=(a+bi)^{-1}=(\dfrac{a}{a^2+b^2})-(\dfrac{b}{a^2+b^2})i$$...

Appendix C. 체

개요 실수 집합은 체(field) 라 불리는 수학적 구조의 대표적인 예이다. 기본적으로 체는 원소를 0으로 나누는 것을 제외하면 두 원소의 합, 차, 곱, 나눗셈이 여전히 주어진 집합의 원소가 되도록 사칙연산이 부여된 집합이다. 정의 체 $F$는 두 연산 $+$와 $\cdot$(덧셈과 곱셈)이 주어진 집합이다. $$[(x,y)|x,y \in F]$$의 순서쌍에 대하여 $$x+y$$$$x \cdot y$$가 $F$에 유일하게 존재한다. 그리고 모든 원소 $$a,b,c \in F$$에 대하여 다음 조건이 성립한다. (F1) 덧셈과 곱셈에 대한 교환법칙 $$a+b=b+a,a \cdot b = b \cdot a$$ (F2) 덧셈과 곱셈에 대한 결합법칙 $$(a+b)+c=a+(b+c), (a \cdot b) \cdot c = a \cdot (b \cdot c)$$ (F3) 덧셈과 곱셈에 대한 항등원 $$0+a=a, 1 \cdot a = a$$인 $0 \in F$와 $1 \in F (1 \neq 0)$이 존재한다....