Introduction to SQL


1. Overview of the SQL Query Language


  • 역사와 발전
    • IBM의 System R 프로젝트에서 Sequel로 시작
    • ANSI/ISO 표준: SQL-86, SQL-89, SQL-92, SQL:1999, SQL:2003, SQL:2006, SQL:2008 등

  • SQL의 구성 요소
    • `DDL: 테이블, 스키마, 무결성 제약, 인덱스, 보안 및 물리적 저장구조 정의
    • DML: 데이터 검색, 삽입, 삭제, 갱신
    • 기타: 트랜잭션 제어, 뷰 정의, 임베디드/동적 SQL, 권한 부여

2. SQL Data Definition


  • 테이블 생성 및 스키마 정의

    • CREATE TABLE 명령으로 테이블 생성
    • 각 속성은 자료형과 선택적 제약조건을 가짐
    • 예시:
      create table department (
        dept_name varchar(20),
        building varchar(15),
        budget numeric(12,2),
        primary key (dept_name)
      );
  • 기본 자료형

    • 문자열: char(n) (고정 길이), varchar(n) (가변 길이), nvarchar (유니코드 지원)
    • 숫자형: int, smallint, numeric(p,d), real, double precision, float(n)
    • NULL 값: 존재하지만 값이 없음을 의미하며, 각 자료형은 NULL을 가질 수 있음
  • 무결성 제약

    • Primary Key: 고유하며 NULL 불가
    • Foreign Key: 다른 테이블의 기본키와 연계하여 참조 무결성 유지
    • Not Null: 속성에 NULL 값이 들어가지 않도록 강제

3. Basic Structure of SQL Queries


단일 테이블


  • 모든 부서의 이름을 출력한다면
    select dept_name
    from instructor;
  • 중복 제거는 DISTINCT 사용

    select distinct dept_name
    from instructor;
    

다중 테이블


  • SELECT : 출력할 속성 또는 표현식 지정
  • FROM : 검색할 테이블(들)을 지정하며, 기본적으로 Cartesian product(데카르트 곱)를 생성
  • WHERE : 튜플을 선택하기 위한 조건을 지정

  • 여러 테이블의 데카르트 곱을 생성하므로, 반드시 WHERE 조건으로 원하는 튜플만 선택해야 함
    select name, course_id
    from instructor, teaches
    where instructor.ID = teaches.ID;
    

<br>

### Natural Join

<br>

- 두 테이블 간 동일한 이름의 속성에 대해 자동으로 조인
- 아래 두 SQL문은 같은 결과를 출력한다

```sql
select name, course_id
from instructor natural join teaches;
select name, course_id
from instructor, teaches
where instructor.ID = teaches.ID;

Join ... USING


  • 특정 속성만으로 조인하도록 지정
  • 아래 두 SQL문은 같은 결과를 출력한다
select name, title
from (instructor natural join teaches) join course using (course_id);
select name, title
from instructor natural join teaches, course
where teaches.course_id = course.course_id;

4. Additional Basic Operations


Rename 또는 별칭 사용


  • 속성 및 테이블 별칭: AS 를 사용하여 이름을 재정의
select T.name as instructor_name, S.course_id
from instructor as T, teaches as S
where T.ID = S.ID;

  • SELF JOIN: 같은 테이블을 두 번 사용 시 별칭 필수
select distinct T.name
from instructor as T, instructor as S
where T.salary > S.salary and S.dept_name = 'Biology';

문자열 연산 및 패턴 매칭


  • 문자열 표기: '로 감싸서 표현, 내부의 작은 따옴표라면 두 번 사용('')
  • 문자열 함수: upper(), lower(), trim()
  • 패턴 매칭: LIKE 연산자와 % , _
select dept_name
from department
where building like '%Watson%';

  • 이스케이프 문자: 특수문자는 일반 문자로 인식하기 위해 escape 키워드 사용

작성중입니다 .. . 쓸 게 굉장히 많네요 미친건가 .. . . .

📡 ICMP: 인터넷 제어 메시지 프로토콜 (Internet Control Message Protocol)

 

인터넷에서 호스트와 라우터가 서로 네트워크 계층 정보를 교환할 때 ICMP(Internet Control Message Protocol) 가 사용됩니다.
ICMP는 네트워크 오류 보고, 진단 및 제어 메시지를 전송하는 역할을 하며, RFC 792에 정의되어 있습니다.

이번 포스팅에서는 ICMP의 개념, 동작 원리, 주요 메시지 유형 및 Traceroute와의 관계에 대해 자세히 알아보겠습니다.

 


 

🧐 ICMP란?

ICMP(Internet Control Message Protocol) 는 네트워크 계층에서 네트워크 문제를 감지하고 보고하는 프로토콜입니다.
일반적으로 라우터와 호스트가 네트워크 오류를 알리거나, 진단 메시지를 주고받을 때 사용됩니다.

 

ex) 웹사이트에 접속할 때의 "Destination network unreachable" 오류

→ 네트워크에서 목적지를 찾을 수 없을 때, 라우터가 ICMP 메시지를 생성하여 오류를 보고

 

🛠 ICMP의 주요 특징

  • IP 프로토콜과 밀접한 관계
    • ICMP 메시지는 IP 패킷 내에서 전송되며, IP 프로토콜 상위 계층에서 동작합니다.
    • TCP/UDP와 마찬가지로 IP 페이로드로 전송됩니다.
  • 비연결형 프로토콜
    • ICMP는 상태를 유지하지 않는 비연결형 프로토콜(connectionless protocol) 입니다.
  • 오류 감지 및 보고
    • 네트워크 오류가 발생하면, 해당 오류를 원래 송신자에게 알리는 역할을 합니다.

 

📜 ICMP 메시지 구조 및 유형

ICMP 메시지는 특정 타입과 코드로 분류됩니다.
각 메시지는 IP 헤더와 문제를 일으킨 원본 IP 패킷의 처음 8바이트를 포함합니다.
이 정보를 바탕으로 송신자는 오류 원인을 분석할 수 있습니다.

 

🔹 주요 ICMP 메시지 유형

메시지 유형(Type) 코드(Code) 설명
0 0 Echo Reply (ping 응답)
3 다양한 코드 Destination Unreachable (목적지 도달 불가)
5 0~1 Redirect (경로 변경 요청)
8 0 Echo Request (ping 요청)
11 0~1 Time Exceeded (TTL 초과)

 

📡 Ping 명령어와 ICMP Echo 메시지

 

📌 Ping이란?

ping 명령어는 네트워크 연결 상태를 테스트하는 데 사용됩니다.
ping을 실행하면 ICMP Echo Request(Type 8, Code 0) 메시지를 전송하고, 상대 호스트가 응답하면 ICMP Echo Reply(Type 0, Code 0) 메시지를 반환합니다.

 

🏓 Ping 동작 방식

  1. 송신자는 대상 IP 주소로 ICMP Echo Request(Type 8, Code 0) 메시지를 전송
  2. 대상 호스트는 수신 후 ICMP Echo Reply(Type 0, Code 0) 메시지를 응답
  3. RTT(Round Trip Time) 측정하여 네트워크 상태 분석 가능

 

🔍 Traceroute와 ICMP Time Exceeded 메시지

 

📌 Traceroute란?

Traceroute는 네트워크 경로를 추적하는 도구입니다.
네트워크 패킷이 목적지까지 가는 모든 라우터를 확인하고, 각 구간의 지연 시간(RTT)을 측정하는 역할을 합니다.

 

🛠 Traceroute의 동작 원리

  1. Traceroute는 UDP 패킷을 전송하지만, TTL(Time To Live) 값을 1부터 증가시키며 전송합니다.
  2. 각 라우터는 TTL이 0이 되면, ICMP Time Exceeded(Type 11, Code 0) 메시지를 반환합니다.
  3. 이를 통해 Traceroute는 각 경로의 라우터 IP 주소와 응답 시간을 확인합니다.
  4. 마지막 패킷이 목적지에 도착하면, ICMP Destination Unreachable(Type 3, Code 3) 메시지를 반환하여 탐색을 종료합니다.


 

🚨 ICMP와 혼잡 제어: Source Quench 메시지

과거에는 혼잡 제어를 위해 ICMP Source Quench 메시지(더 이상 사용되지 않음)를 활용했습니다.

  • 혼잡 발생 시, 라우터가 송신자에게 ICMP Source Quench 메시지를 보내 전송 속도를 줄이도록 유도
  • 하지만, TCP 자체적인 혼잡 제어 메커니즘(예: 슬로우 스타트, AIMD)이 발전하면서 ICMP Source Quench 메시지는 더 이상 사용되지 않음

 

🌍 ICMPv6: IPv6에서의 확장

IPv6에서는 기존 ICMP 메시지를 정리하고, 새로운 기능을 추가한 ICMPv6 (RFC 4443) 가 정의되었습니다.

 

🆕 ICMPv6에서 추가된 주요 기능

  • Packet Too Big: IPv6는 패킷 분할(fragmentation)을 지원하지 않기 때문에, 패킷 크기가 너무 클 경우 "Packet Too Big" 메시지를 전송
  • Neighbor Discovery: ARP(Address Resolution Protocol)를 대체하여 IPv6 주소를 MAC 주소로 변환
  • Router Solicitation & Advertisement: 동적 라우터 설정을 지원

 

TCP 혼잡 제어(TCP Congestion Control)

인터넷 환경에서 데이터 전송 시 네트워크의 혼잡을 효과적으로 관리하는 것은 매우 중요합니다. 특히 여러 장치가 동시에 데이터를 주고받는 상황에서는 네트워크 혼잡이 발생하기 쉽습니다. 이때 TCP 혼잡 제어(TCP Congestion Control) 메커니즘이 중요한 역할을 합니다.

이번 포스팅에서는 TCP 혼잡 제어의 개념, 동작 원리, 주요 알고리즘에 대해 자세히 알아보겠습니다.


📦 TCP 혼잡 제어란?

TCP 혼잡 제어(Congestion Control) 는 네트워크의 혼잡 상태를 감지하고, 이에 따라 데이터 전송 속도를 조절하여 네트워크의 안정성을 유지하는 메커니즘입니다.

✅ TCP 혼잡 제어의 필요성

  • 네트워크 과부하 방지: 과도한 트래픽으로 인한 패킷 손실 방지
  • 효율적인 대역폭 사용: 가용한 대역폭을 최대한 활용하면서도 안정적인 전송 유지
  • 신뢰성 보장: 데이터가 안정적으로 전송되도록 손실과 재전송을 최소화

⚙️ TCP 혼잡 제어의 핵심 요소

TCP는 네트워크 혼잡을 감지하고 전송 속도를 조절하기 위해 다음과 같은 요소를 활용합니다.

1️⃣ 혼잡 윈도우 (Congestion Window, cwnd)

  • 송신자가 네트워크로 보낼 수 있는 최대 데이터 양을 결정하는 변수입니다.
  • cwnd 값이 커지면 전송 속도가 증가하고, 작아지면 전송 속도가 감소합니다.

2️⃣ 혼잡 신호 감지 방법

  • 패킷 손실: 타임아웃 발생 또는 3중 중복 ACK(Duplicate ACK) 수신 시 혼잡 발생으로 간주
  • ACK 수신 속도: ACK가 느리게 도착하면 혼잡 가능성으로 해석

3️⃣ 혼잡 제어 단계

TCP 혼잡 제어는 Slow Start → Congestion Avoidance → Fast Recovery 단계를 반복하며 혼잡 상태에 대응합니다.


🚀 TCP 혼잡 제어 알고리즘

TCP 혼잡 제어는 다음과 같은 3가지 주요 알고리즘으로 구성됩니다.

📈 1. 슬로우 스타트 (Slow Start)

  • 초기 연결 시 또는 혼잡 발생 후 전송 속도를 빠르게 증가시키는 단계입니다.
  • cwnd1 MSS(Maximum Segment Size)로 시작하고, ACK를 받을 때마다 1 MSS씩 증가합니다.
  • 매 RTT마다 전송 속도가 2배로 증가지수적 성장 (Exponential Growth)

동작 예시

  1. cwnd = 1 MSS로 시작 → 첫 번째 패킷 전송
  2. ACK 수신 → cwnd = 2 MSS로 증가
  3. 2개의 패킷 전송 → 각각 ACK 수신 시 cwnd = 4 MSS로 증가
  4. 이러한 과정이 계속되어 빠르게 전송 속도가 증가합니다.

슬로우 스타트 종료 조건:

  • cwndssthresh(slow start threshold) 에 도달하면 혼잡 회피(Congestion Avoidance)로 전환
  • 패킷 손실이 발생하면 다시 cwnd = 1 MSS로 초기화

📉 2. 혼잡 회피 (Congestion Avoidance)

  • 슬로우 스타트 단계 이후 안정적인 전송 속도 유지를 목표로 합니다.
  • cwnd선형적으로 증가(Additive Increase) 합니다:
    • 매 RTT마다 cwnd1 MSS씩 증가시켜 대역폭을 탐색
  • 혼잡이 감지되면 cwnd절반으로 감소(Multiplicative Decrease) 합니다.

동작 예시

  1. cwnd = 16 MSS일 때 패킷 손실 발생 → cwnd = 8 MSS로 감소
  2. 이후 매 RTT마다 cwnd를 1 MSS씩 증가시켜 혼잡 여부를 탐색
  3. 다시 혼잡 발생 시 cwnd를 절반으로 감소

이 방식은 AIMD(Additive Increase, Multiplicative Decrease) 원칙을 기반으로 합니다.


⚡ 3. 빠른 회복 (Fast Recovery)

  • 3중 중복 ACK(Triple Duplicate ACK) 를 수신하면, 패킷 손실을 감지하고 빠르게 복구하는 단계입니다.
  • 타임아웃 없이 즉시 손실된 패킷을 재전송하여 성능 저하를 최소화합니다.

동작 방식

  1. 패킷 손실 감지(3중 중복 ACK 수신) → cwnd절반으로 감소
  2. 손실된 패킷을 빠르게 재전송(Fast Retransmit)
  3. 새로운 ACK가 도착하면 혼잡 회피(Congestion Avoidance) 단계로 전환

🔄 TCP 혼잡 제어의 전체 흐름

1️⃣ 연결 초기화
      ↓
2️⃣ Slow Start (지수적 증가)
      ↓ (cwnd ≥ ssthresh 또는 패킷 손실 발생)
3️⃣ Congestion Avoidance (선형적 증가)
      ↓ (패킷 손실 감지 시)
4️⃣ Fast Recovery (빠른 재전송 및 복구)
      ↓ (복구 완료)
5️⃣ 다시 Congestion Avoidance로 복귀

📊 AIMD: TCP 혼잡 제어의 핵심 원칙

TCP 혼잡 제어는 AIMD (Additive Increase, Multiplicative Decrease) 원칙에 기반합니다.

⚡ AIMD의 구성 요소

  • Additive Increase (선형 증가):
    혼잡이 발생하지 않으면 cwnd를 매 RTT마다 1 MSS씩 선형적으로 증가합니다.
    → 네트워크의 여유 대역폭을 탐색하며 서서히 전송 속도를 높이는 방식입니다.
  • Multiplicative Decrease (배수 감소):
    혼잡이 발생(예: 패킷 손실)하면 cwnd즉시 절반으로 감소하여 전송 속도를 급격히 줄입니다.
    → 네트워크 혼잡을 빠르게 완화하기 위한 대응입니다.

🚀 AIMD의 효과

  • 혼잡 방지:
    혼잡 발생 시 즉각적인 속도 감소로 네트워크 과부하 방지
  • 대역폭 최적화:
    여유 대역폭을 최대한 활용하기 위해 선형적으로 전송 속도 증가
  • 공정성(Fairness):
    여러 TCP 연결이 병목 구간을 공유할 때 공평한 대역폭 분배 보장
  • 안정성(Stability):
    급격한 혼잡 발생에도 빠르게 복구하고, 네트워크 안정성 유지

IP와 TCP

  • IP(Internet Protocol)
    • 인터넷에서 데이터를 전송하기 위한 기본 프로토콜
    • 데이터를 작은 조각인 패킷으로 나누어 네트워크를 통해 전송
    • 특징:
      • 비신뢰적(Unreliable): 데이터가 손실되거나 순서가 뒤바뀔 수 있다.
      • 최선의 노력(Best-Effort): 데이터를 가능한 빨리 전송하지만, 성공 보장 X.
      • 경로 설정: 패킷이 목적지까지 도달할 최적 경로를 찾음.
  • TCP(Transmission Control Protocol)
    • IP 위에서 동작하는 프로토콜
    • 신뢰적인 데이터 전송 서비스 제공
    • 특징:
      • 데이터 손실 방지: 손실된 데이터를 재전송합니다.
      • 데이터 순서 보장: 원래 순서대로 데이터를 정렬합니다.
      • 무결성 확인: 데이터가 손상되지 않았는지 확인합니다.

예를 들면,

IP가 배달원이라면 TCP는 매니저 역할이다.

  • IP는 "주소만 보고" 패킷(데이터 조각)을 전달 → 잘못된 경로로 가거나 손실될 수 있음.
  • TCP는 패킷이 제대로 도착했는지 확인, 문제가 생기면 수정. 모든 패킷을 순서대로 정리하여 완전한 데이터로 조립.

TCP가 신뢰적인 데이터 전송을 제공하는 방법

  • 기다리는 순서 번호를 가진 순서에 맞는 세그먼트의 도착. 그 이전 순서까지의 모든 데이터들은 이미 확인 응답 된 상태라면?
    • 지연 ACK. 추가 세그먼트를 위해 대기. 만약 다른 세그먼트가 오지 않는다면 ACK 보냄. 온다면 두개를 합쳐서 ACK 보냄.
  • 순서에 맞는 세그먼트의 도착. 이미 하나의 순서에 맞는 세그먼트가 있다면?
    • 하나의 누적된 ACK를 보냄
  • 지연 ACK:
    • ACK 전송을 최대 500ms까지 지연하여 추가 데이터를 기다리는 것.
    • TCP에서는 네트워크 트래픽을 줄이기 위해 지연 ACK 메커니즘을 사용한다.

예시

  • 송신자가 100바이트 크기의 데이터를 두 번에 나누어 보낸다고 가정하자
    • 첫 번째 세그먼트(Sequence Number = 1~100) 도착.
    • 두 번째 세그먼트(Sequence Number = 101~200) 아직 도착하지 않음.
  • TCP Receiver의 행동:
    • 첫 번째 세그먼트에 대해 즉시 ACK를 보내지 않음.
    • 대신 500ms 동안 대기하며, 두 번째 세그먼트가 도착하는지 확인한다.
      • 두 번째 세그먼트가 500ms 내에 도착: 두 세그먼트에 대해 한 번의 ACK를 보냄.
      • 두 번째 세그먼트가 500ms 내에 도착하지 않음: 첫 번째 세그먼트에 대해 ACK를 보냄.

TCP와 GBN 프로토콜, SR 프로토콜

  • Go-Back-N(GBN)의 특징
    • 누적 ACK:
      • 송신자는 수신자로부터 가장 최근에 성공적으로 수신된 순서대로 된 데이터에 대한 ACK만 받음.
      • 예:
        • 세그먼트 1, 2, 3, 4, 5를 보냈을 때, 세그먼트 3까지 성공적으로 수신되었으면, 수신자는 "세그먼트 3까지 잘 받았음"이라는 ACK를 보낸다.
        • 송신자는 ACK 3을 기준으로 4, 5 이후의 데이터를 전송 상태로 간주.
    • 손실 시 전체 재전송:
      • 만약 세그먼트 4가 손실되었다면, 세그먼트 4 이후의 모든 데이터를 재전송. (비효율적)
  • Selective Repeat(SR)의 특징
    • 개별 ACK:
      • 수신자는 각 세그먼트마다 별도의 ACK를 보냄.
      • 예:
        • 세그먼트 1, 2, 3, 4, 5 중 세그먼트 4가 손실되었을 때, 수신자는 1, 2, 3, 5에 대해 ACK를 보낸다.
        • 송신자는 손실된 세그먼트(4)만 재전송.
    • 손실된 데이터만 재전송:
      • 개별 ACK 덕분에 손실된 데이터만 재전송 가능하며, 네트워크 리소스를 절약할 수 있음.

TCP에서의 혼합 동작

TCP는 위의 두 방식에서 효율적인 요소를 가져와 혼합하여 동작한다.

 

TCP의 기본 동작 (GBN 기반)

  • TCP는 기본적으로 누적 ACK를 사용.
    • 수신자는 순서대로 도착한 가장 마지막 세그먼트에 대한 ACK만 송신자에게 보냄
    • 순서가 틀린 세그먼트가 도착하면, 즉시 중복 ACK(Duplicate ACK) 전송(다음에 기대하는 데이터의 순서 번호가 포함됨)

TCP의 효율화 (SR 요소 추가)

  • TCP는 일부 구현에서 순서가 틀린 데이터도 임시로 저장 가능.
    • 송신자는 손실된 데이터만 재전송 → 효율 개선.

Selective Acknowledgment (SACK) 옵션

  • 수신자는 누락된 데이터 외에도, 어떤 데이터가 성공적으로 수신되었는지 세부적으로 표시
  • 송신자는 이 정보를 기반으로 손실된 데이터만 재전송

HTTP와 비지속적 연결

특징)

  • 각 요청-응답 쌍을 개별 TCP 연결에서 처리.
  • 요청된 객체를 서버가 전송한 후 연결이 종료됨.
  • HTML 파일, 이미지 등 여러 객체를 다운로드하려면 객체마다 새로운 TCP 연결을 생성.

예시)

  1. HTTP 클라이언트 프로세스가 서버80번 포트로 TCP 연결
  2. 소켓을 통해 경로를 포함한 HTTP 요청 메시지를 서버로 전달
  3. HTTP 서버 프로세스가 메시지 수신, 경로를 HTTP 응답 메시지에 캡슐화하여 클라이언트로 전송
  4. 클라이언트가 응답 메시지 수신
  5. TCP 연결 종료

 

  • 만약 웹사이트가 1개의 html과 10개의 이미지로 구성되어 있다면, 총 11개의 TCP 연결 생성 → 각 TCP 연결은 한 번의 요청과 응답만 처리함.

 

장단점)

  • 장점: 구현이 간단하며, 요청-응답이 독립적이라 연결 관리를 최소화.
  • 단점:
    • 각 객체마다 새로운 TCP 연결을 설정해야 하므로 추가적인 오버헤드 발생.
    • RTT(왕복 시간)가 객체마다 2번씩 필요하므로 성능이 저하됨.
    • 서버와 클라이언트 모두에서 TCP 버퍼와 변수 관리에 부담.

 

 

HTTP와 지속적 연결

특징)

  • 하나의 TCP 연결을 여러 요청-응답 쌍에서 재사용.
    • 기존 비지속적 연결에서 11개의 TCP 연결을 생성했던 것과 달리, 하나의 연결에서 연속적으로 전송(파이프라이닝).
  • 연결이 일정 시간 동안 유지되며, 동일한 서버에서 여러 객체를 전송 가능.
  • HTTP 1.1의 기본 설정.

장단점)

  • 장점:
    • TCP 연결 설정/종료에 소요되는 오버헤드 감소.
    • 객체마다 2 RTT 대신 전체 페이지에 대해 최소 2 RTT로 처리 가능.
    • 서버와 클라이언트의 자원 사용 감소.
  • 단점:
    • 장시간 연결 유지로 인해 연결 타임아웃 설정이 필요.
    • 잘못된 연결로 인해 여러 요청이 실패할 가능성.

 

HTTP 메시지 포맷

보통 HTTP 요청 메시지의 형식은 다음과 같다.

GET /somedir/page.html HTTP/1.1
Host: www.someschool.edu
Connection: close
User-agent: Mozilla/5.0
Accept-language: fr

 

요청 라인(Request Line): HTTP 요청 메시지 내 첫번째 줄

  • 메서드(보통 GET), url, http 버전으로 구성돼있음.

 

헤더 라인(Header Lines): HTTP 요청 메시지 내 요청 라인을 제외한 나머지

Web proxy caches 때문에 꼭 필요함.

  • Host: 요청 객체가 위치한 서버의 호스트 이름 지정.
  • Connection: 연결 유지 여부 (예: close는 비지속적 연결 요청).
  • User-agent: 요청을 보낸 브라우저 정보
  • Accept-language: 사용자 선호 언어 설정

 

 

 

 

 

오래된 Unix 파일 시스템

슈퍼블럭(S): 볼륨 크기, 아이노드 개수, 포인터 등

 

장점

  • 단순함.

 

단점

 

  • 낮은 성능
  • 디스크를 RAM처럼 사용: 데이터를 임의의 위치에 저장하여 잦은 헤드 이동 발생
  • 512바이트의 작은 블록 크기
  • 단편화: 빈 공간 관리가 효율적이지 못해 디스크 공간이 조각나고, 파일이 여러 조각으로 나뉘어 저장.

이러한 데이트 블럭 영역에서 B와 D를 삭제하면

 

이런 상태가 된다.

데이터가 삭제되어도 연속된 청크가 아닌 두 블럭으로 단편화되어, 후 네 블럭으로 구성된 파일 E가 들어와도

 

이런 형태를 유지하기에, 파일 E를 읽을 때 포인터의 위치를 변경해줘야하는 번거로움을 겪는다.

 

 

FFS의 핵심 아이디어: 디스크에 대한 이해

  • 디스크의 물리적인 특성을 고려하여 파일 시스템의 성능 개선.
  • 기존 오래된 Unix 파일 시스템 인터페이스와 호환성을 유지함.

 

 

FFS의 주요 개선 사항

  • 실린더 그룹
    • 디스크를 실린더 그룹으로 나누어 데이터와 메타데이터를 지역적으로 저장.
    • 동일한 디렉터리에 속한 파일을 가깝게 배치하여 디스크 헤드 이동 최소화.
  • 관련 데이터의 근접 배치
    • 디렉터리와 해당 파일은 동일한 실린더 그룹에 배치.
    • 관련 없는 파일은 서로 다른 실린더 그룹에 배치.
  • 슈퍼블록 복제
    • 각 실린더 그룹에 슈퍼블록 복제본을 저장하여 데이터 손실 방지.
  • 비트맵 사용
    • 아이노드와 데이터 블록의 할당 상태를 추적하여 단편화 감소.
  • 대용량 파일 예외 처리
    • 큰 파일을 여러 그룹에 분산 저장하여 지역성 유지 및 성능 저하 완화.
  • 서브 블록
    • 작은 파일을 저장할 때 4KB 블록 전체를 낭비하지 않고 필요한 만큼의 서브 블록만 할당.
  • 매개화된 배치
    • 디스크의 성능 매개변수를 검출하여 최적의 배치 간격을 결정하는 매개화 기법 사용.

 

FFS의 성능 원칙

  • 지역성
    • 관련 데이터가 디스크 상에서 물리적으로 가까운 위치에 배치되어야 성능이 향상.
    • 디렉터리 트리 상의 파일 접근 패턴을 분석하여 지역성을 확인.
  • 할당 정책의 합리성
    • 디렉터리 내 파일 접근의 지역성이 실제로 높음.
    • 디렉터리와 파일 간의 물리적 근접성이 성능에 기여.

페이징, 왜 느려질까?

운영체제에서 가상 메모리를 구현하는 대표적인 방식은 페이징(Paging) 이다.

 

페이징: 프로세스의 주소 공간을 일정 크기(페이지 단위)로 나누어 물리 메모리에 매핑하는 기법

문제점: 매번 가상 주소 → 물리 주소 변환 시 페이지 테이블을 참조해야 하고, 그때마다 메모리를 추가로 읽게 되므로 성능 저하가 발생

예) 모든 메모리 접근(load/store)마다 ‘페이지 테이블’을 찾아봐야 한다면? CPU 성능이 아무리 좋아도 속도가 크게 느려질 수밖에 없습니다.


TLB(Translation Lookaside Buffer)의 등장

이에, 느려지는 페이징 주소 변환 문제를 해결하기 위해 등장한 것이 바로 TLB다.

  • TLB: CPU 내부에 있는 작은 하드웨어 캐시
    • 자주 참조되는 ‘가상 주소 ↔ 물리 주소 변환 정보’를 저장
    • 일종의 ‘주소 변환 캐시’ 역할
  • TLB 히트: 원하는 변환 정보가 TLB에 이미 있다면, 페이지 테이블을 거치지 않아도 바로 물리 주소를 얻어낼 수 있어 빠른 접근이 가능
  • TLB 미스: TLB에 변환 정보가 없으면(=미스), CPU나 운영체제가 페이지 테이블을 다시 참조하고 TLB에 정보를 추가(갱신)해야 하므로 느려짐

따라서 TLB가 자주 히트할수록 주소 변환 속도가 빨라지고, 페이징의 성능이 크게 향상된다.

예시: 배열 순차 접근

  1. 연속된 배열이 가상 메모리 상에서 ‘한 페이지’에 여러 원소가 담겨 있음
  2. 배열의 첫 원소를 참조할 때에는 TLB 미스가 발생 → 페이지 테이블 접근 후 TLB 갱신
  3. 같은 페이지 안에 있는 나머지 원소들을 계속 참조하면 TLB 히트가 연이어 발생
    • 공간 지역성(spatial locality): 배열 원소들이 페이지 내에서 인접하므로, 한 번 주소 변환 정보를 TLB에 가져오면 그 페이지 안의 다음 번지는 빠르게 접근 가능

결과적으로, 배열 전체 접근 시 처음 몇 번만 미스가 발생하고 대부분은 히트를 기록하여 성능이 크게 개선됨.


TLB 미스 처리: 하드웨어 vs 소프트웨어

TLB 미스가 발생하면 처리하는 데 크게 하드웨어소프트웨어(운영체제) 방식이 있다.

  1. 하드웨어 관리(예: CISC, x86 등)
    • CPU 내부에서 페이지 테이블 위치를 알고 있어, 미스 발생 시 직접 페이지 테이블을 참조해 TLB를 업데이트
    • 이후 명령어를 재실행해 TLB 히트를 유도
  2. 소프트웨어 관리(예: RISC 계열, MIPS 등)
    • TLB 미스가 발생하면 ‘예외(Trap)’를 발생시켜 운영체제(커널 모드) 코드가 페이지 테이블을 확인 후 TLB를 갱신
    • TLB 업데이트가 끝나면 다시 해당 명령어를 재실행하여 TLB 히트를 발생시킴

어느 방식이든 최종 결과는 같지만, 하드웨어 관리 방식은 프로세서가 직접 처리하고, 소프트웨어 관리 방식은 운영체제 트랩 핸들러가 담당한다.


문맥 교환 (Context Switch) 과 TLB

멀티프로그램 환경에서 운영체제가 문맥 교환을 할 때도 TLB 문제가 발생한다.

  • 다른 프로세스로 전환되면, 이전 프로세스의 가상 주소 ↔ 물리 주소 변환 정보가 더 이상 유효하지 않을 수 있음
  • 해결 방법:
    1. 문맥 전환 시 TLB를 전부 비워(모든 valid 비트를 0으로) 새 프로세스가 TLB를 새로 채우도록 함
    2. ASID(Address Space ID)를 TLB 엔트리에 추가하여, 프로세스 식별자(혹은 유사한 ID)와 매핑 정보를 함께 저장. 이렇게 하면 프로세스 간 TLB 항목을 구분할 수 있음

TLB 교체 정책

TLB도 한정된 크기의 캐시이므로, 새 항목을 넣어야 할 때 어느 항목을 제거할지 결정해야 한다.

  • LRU(Least Recently Used): 가장 오래 안 쓰인 항목을 제거
  • Random: 무작위로 항목을 교체 (오히려 어떤 패턴에서는 더 좋은 경우가 있음)

목표는 TLB 미스를 최소화하여 성능을 높이는 것이며, 실제 구현에서는 하드웨어 복잡성이나 응용 프로그램 특성에 따라 달라진다.


 

마무리

  • TLB는 가상 메모리 체계를 지원하는 현대 CPU 구조에서 필수적인 장치
  • 페이징의 ‘추가 메모리 접근 비용’을 억제하여 가상 메모리를 사실상 “매우 빠른” 방식으로 사용할 수 있도록 해줌
  • 프로그램 특성(지역성)과 TLB 정책이 잘 맞으면 페이징 성능이 비약적으로 향상
  • 하지만 한 번에 너무 많은 페이지를 건드리거나(TLB 범위를 넘는 경우), 문맥 교환이 잦으면 TLB 미스 오버헤드가 늘어나므로 주의가 필요

멀티프로세서 스케줄링(Multiprocessor Scheduling)


 

멀티프로세서 스케줄링(Multiprocessor Scheduling)은 여러 개의 CPU가 동시에 있는 컴퓨터에서 CPU 시간을 어떻게 효율적으로 분배하는 것에 대한 문제다. 단일 CPU만 있던 시절에는 한 번에 하나의 프로그램만 CPU를 차지할 수 있었기 때문에, 프로그램들이 차례로 CPU를 쓰도록 스케줄링하는 것이 주된 고민이었다. 하지만 요즘은 컴퓨터 안에 여러 개의 CPU 코어가 들어 있기 때문에, 동시에 여러 프로그램을 처리할 수 있다. 이때, 어떤 CPU에 어떤 프로그램을 할당할지 결정하는 것이 바로 “멀티프로세서 스케줄링” 문제다.


과거에는 데스크톱이나 노트북 컴퓨터에 CPU가 1개뿐이었고, 멀티프로세서 시스템은 서버나 슈퍼컴퓨터처럼 특수한 곳에나 있었다. 하지만 이제는 우리가 쓰는 대부분의 PC에도 여러 코어가 들어 있다. “듀얼코어”, “쿼드코어”라는 단어를 들어본 적 있을 것이다. 이는 한 CPU 칩 안에 여러 개의 처리 장치가 있어서 동시에 여러 작업을 처리할 수 있다는 뜻이다.

 

싱글코어 CPU 속도를 높이는 데 한계가 오면서, CPU 제조사들은 한 칩에 코어를 여러 개 넣는 전략을 택했다. 그 결과, 프로그램을 더 빨리 실행하고 싶다면 이제는 단순히 CPU 클록 속도를 높이기보다, 여러 코어를 활용하도록 프로그램을 만들어야 한다. 즉, “동시에 여러 일을 할 수 있는 프로그램”을 작성하는 일이 중요해졌다.


멀티프로세서 시스템에서 발생하는 문제들

    1. 캐시 일관성 문제(Cache Coherence)
      각 CPU는 빠른 처리를 위해 “캐시”라는 작은 저장소를 갖고 있다. 프로그램이 메모리 데이터를 자주 읽거나 쓸 때, 매번 느린 메모리에서 가져오지 않고 이 캐시에 올려두면 더 빠르게 처리할 수 있다.
      하지만 CPU가 여러 개일 때 문제가 생긴다. 예를 들어, CPU1이 어떤 데이터(A)를 캐시에 올린 뒤 그 값을 변경했다고 해보자. 아직 메인 메모리는 업데이트되지 않았을 수 있다. 그 시점에서 CPU2가 같은 데이터(A)를 필요로 하여 메인 메모리에서 읽어오면, CPU2는 업데이트 전 옛날 값을 가져올 수 있다. 이 문제를 해결하기 위해 하드웨어 수준의 “캐시 일관성 프로토콜”이 동작한다. 모든 CPU의 캐시가 서로 모니터링해서, 한 CPU에서 데이터가 바뀌면 다른 CPU들도 그 사실을 알도록 하고, 낡은 데이터를 쓰지 않도록 한다.

    2. 동기화(Synchronization)의 필요성
      여러 CPU가 동시에 같은 자료구조에 접근한다면, 서로 충돌해서 데이터가 꼬일 수 있다. 이를 막기 위해 락(lock)이라는 장치를 사용한다. 한 CPU가 리스트를 수정할 때는 “잠금”을 걸어두고, 다른 CPU는 그 작업이 끝날 때까지 기다린다. 그래야 리스트가 꼬이거나 같은 데이터를 두 번 삭제하는 일이 없다.

    3. 캐시 친화성(Cache Affinity)
      각 프로그램(또는 스레드)이 실행되는 동안, 해당 CPU의 캐시에 데이터가 쌓인다. 프로그램이 매번 다른 CPU에서 실행되면 캐시를 매번 새로 채워야 하는데, 이것은 시간 낭비다. 하지만 다음에 이 프로그램을 다시 실행할 때 같은 CPU에서 실행하면 캐시를 재사용할 수 있어 속도가 빨라진다. 이를 “캐시 친화성”이라고 한다. 즉, 프로그램을 가능한 한 이전에 실행되던 CPU에 다시 올리는 것이 유리하다.

멀티프로세서 스케줄링 기법

  1. 단일 큐 멀티프로세서 스케줄링(SQMS)
    : 모든 작업을 하나의 대기열(queue)에 넣어두고, 여러 CPU가 그 큐에서 작업을 하나씩 꺼내서 실행하는 방법
    • 장점: 구현이 비교적 쉽다. 원래 단일 CPU용 스케줄러에서 거의 바꾸지 않고도 여러 CPU에 적용할 수 있다.
    • 단점: 한 큐를 모든 CPU가 공유하기 때문에 “락” 경쟁이 심해진다. 프로그램이 어느 CPU에서 실행될지 매번 바뀌어 캐시 친화성도 떨어진다.
  2. 멀티 큐 멀티프로세서 스케줄링(MQMS)
    : CPU마다 자신의 큐를 하나씩 두는 방법.(CPU0는 큐0, CPU1은 큐1) 작업이 들어오면 어떤 큐에 넣을지 정하고, 그 큐의 CPU에서만 작업을 처리한다.
    • 장점: 각 CPU가 자신의 큐를 독립적으로 관리하므로 락 경쟁이 적어지고, 캐시 친화성도 좋아진다(같은 CPU에서 계속 실행)
    • 단점: 워크로드(작업량) 균형 문제
      → 작업 이주(migration): 바쁜 CPU의 큐에서 일이 많은 작업을 하나 덜어내어 한가한 CPU 큐로 옮김.(작업 훔치기(work stealing))

 

+ Recent posts