Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
49 changes: 49 additions & 0 deletions site/_projects/2025-05-19-IP-ReVersion-paper.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,49 @@
---
title: IP-ReVersion: 이미지-텍스트 교차양식 적응 기반 관계 개념 학습 개선
subtitle: Generative AI, Multimodal Learning
summary: "IP-Adapter와 ReVersion을 융합한 관계 개념 중심 멀티모달 생성 모델, 멀티미디어학회논문지(KMMS) 게재"
tools: 1. IP-Adapter, 2. ReVersion, 3. Stable Diffusion, 4. Cross-Modal Learning
date: 2025-05-19 16:07:11 +0300
image: "/assets/images/projects/project-IP-ReVersion.png"
---

## 📰 텍스트와 이미지를 함께 이해하는 AI, 관계 개념도 정교하게 학습한다
> 제주한라대학교 문재현, 멀티미디어학회논문지(KMMS) 2025년 4월호 논문 게재

이미지를 생성하는 인공지능은 이제 텍스트만 이해하는 것으로는 부족하다.
"소년이 강아지를 안고 있다"와 "강아지가 소년 위에 앉아 있다"는 단어는 거의 같지만, 완전히 다른 장면을 요구한다.
이처럼 **텍스트와 이미지 사이의 ‘관계 개념’을 어떻게 정확히 파악하고 반영할 것인가**는 멀티모달 생성 모델이 직면한 중요한 문제다.

제주한라대학교 인공지능공학과 문재현 학생연구원은 이러한 관계 개념 학습의 한계를 해결하기 위해 **IP-ReVersion**이라는 새로운 모델을 제안했고, 이 연구는 『멀티미디어학회논문지(KMMS)』 2025년 4월호에 논문으로 게재되었다.
논문 제목은 *「IP-ReVersion: 이미지-텍스트 교차양식 적응을 통한 관계 개념 학습 개선 기법」*이다.

기존의 ReVersion은 Stable Diffusion 기반의 멀티모달 생성 구조로, 텍스트를 이미지로 바꾸는 데는 탁월했지만, 이미지와 텍스트 간 **상호관계 구조(관계성 개념)**를 학습하는 데에는 한계가 있었다.
IP-ReVersion은 여기에 **IP-Adapter**를 통합해, 이미지와 텍스트 양쪽에서 동시에 관계를 학습할 수 있는 **교차양식 적응(Cross-Modal Adaptation)** 구조를 구성했다.

이 방식은 텍스트 임베딩과 이미지 피처를 개별 처리하지 않고, 중첩된 의미와 관계를 함께 통합한 표현 공간에서 학습을 수행한다.
이를 통해 기존 모델이 처리하지 못하던 **상대적 위치, 객체 간 상호작용, 맥락에 따른 의미 변화** 등을 반영할 수 있다.
실제로 IP-ReVersion은 관계 기반 이미지 생성 테스트에서 원본 캡션의 관계적 의미를 더 정확하게 시각화했으며, 사용자 평가와 관계 정합성 평가에서 유의미한 향상을 보였다.

문재현 연구원은 “단순히 ‘사람’과 ‘사과’라는 단어를 이해하는 것과, ‘사람이 사과를 던진다’는 장면을 정확히 그리는 건 전혀 다른 문제”라며,
“IP-ReVersion은 이러한 **행동적·위치적 관계 개념을 모델이 실제로 배울 수 있도록 구조를 근본적으로 재설계한 시도**”라고 밝혔다.
또한 “이 연구는 **교육부와 한국연구재단이 주관한 ‘첨단분야 혁신융합대학 지원사업’(Convergence and Open Sharing System)**의 지원으로 이뤄졌으며, 실제 실험 인프라와 멀티모달 학습 환경을 구축할 수 있었던 것이 큰 도움이 되었다”고 말했다.

본 논문은 제주한라대학교 장나겸, 최홍원 학생연구원과 김성진 교수가 공동저자로 참여하였으며, 관계 중심 생성 모델에 특화된 후속 실험도 이어질 예정이다.

---

### 📑 논문 정보

- **논문 제목**: IP-ReVersion: 이미지-텍스트 교차양식 적응을 통한 관계 개념 학습 개선 기법
- **영문 제목**: IP-ReVersion: Cross-Modal Adaptation of Image-Text for Enhanced Relational Concept Learning
- **게재지**: 멀티미디어학회논문지 (KMMS) | Vol.28 No.4 | 2025년 4월 | pp.569–578
- **저자**: 문재현, 장나겸, 최홍원, 김성진 (제주한라대학교)
- **지원**:
*Following are results of a study on the “Convergence and Open Sharing System” Project, supported by the Ministry of Education and National Research Foundation of Korea.*

---

### ✍️ 작성자 정보

- **작성자**: 제주한라대학교 인공지능공학과 학생연구원 22학번 이규범
- **연락처**: [[email protected]](mailto:[email protected])
52 changes: 52 additions & 0 deletions site/_projects/2025-05-19-LQE-net-paper.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,52 @@
---
title: LQE-Net: 저조도 및 저화질 CCTV 영상 개선을 위한 하이브리드 딥 네트워크
subtitle: AI, CCTV, 영상처리
summary: "Zero-DCE, GFPGAN, SRGAN을 융합한 LQE-Net 모델, 공공 감시 시스템의 인식 성능을 획기적으로 향상"
tools: 1. Zero-DCE, 2. GFPGAN, 3. SRGAN, 4. PyTorch, 5. OpenCV
date: 2025-05-19 16:08:27 +0300
image: "/assets/images/projects/project-LQE-Net-CCTV.png"
---

## 📰 흐릿한 CCTV 영상, AI가 복원합니다 — LQE-Net으로 구현한 실시간 인식 개선 기술
> 제주한라대학교 이규범, 멀티미디어학회논문지(KMMS) 논문 게재

도심의 골목길, 밤늦은 시간의 주차장, 어두운 지하철역.
이러한 환경에서 설치된 CCTV 영상은 종종 조도가 낮고 화질도 떨어지기 때문에, **범죄 예방이나 사건 분석에 있어 결정적인 장면을 식별하기 어려운 경우**가 많다.

제주한라대학교 인공지능공학과 이규범 학생연구원이 발표한 **LQE-Net**은 이러한 문제를 해결하기 위해 고안된 **실시간 CCTV 영상 복원 AI 모델**이다.
해당 연구는 *「LQE-Net: 저조도 및 저화질 CCTV 영상 개선을 위한 하이브리드 딥 네트워크」*라는 제목으로, 『멀티미디어학회논문지(KMMS)』 2024년 12월호에 정식 게재되었다.

LQE-Net은 기존 영상 복원 방식의 한계를 넘어, **세 가지 특화된 딥러닝 기술을 융합한 구조**로 구성된다.
우선 **Zero-DCE** 알고리즘이 영상의 전반적인 밝기를 조정해 **저조도 문제를 개선**하고, 이어서 **GFPGAN**이 사람의 얼굴 영역을 인식하여 **디테일을 복원**한다. 마지막으로 **SRGAN**이 차량 번호판이나 기타 작은 텍스트 영역을 **초해상도(super-resolution)**로 재구성해준다.

이 모델의 특징은 각 개선 모듈을 **단순히 직렬로 연결한 것이 아니라, CCTV 환경에서 발생하는 여러 문제들을 병렬적으로 분리하고 독립적으로 최적화할 수 있도록 설계했다**는 점이다.
이러한 구조는 실제 다양한 CCTV 장면에서도 모델의 반응성과 일관된 품질 향상을 이끌어낸다.

실험 결과, LQE-Net은 **차량 번호판 문자 인식 정확도(OCR) 98.26%**를 달성했으며, PSNR, SSIM, LPIPS 등 객관적 화질 지표에서도 기존 모델 대비 **확연한 우위를 보였다**.
특히 영상 속 인물의 얼굴이 어둡고 흐릿한 상황에서도 인식 가능한 수준까지 복원할 수 있었으며, 조명 왜곡이 심한 실외 CCTV 환경에서도 강건한 성능을 유지했다.

이규범 연구원은 이번 연구를 통해 “기존 CCTV 인프라를 그대로 유지하면서도 소프트웨어만으로 인식률을 크게 높일 수 있다는 가능성”을 입증하고자 했다고 말한다.
또한 “이 프로젝트는 지역사회와 도시 보안의 실질적인 문제를 인공지능 기술로 해결하고자 한 시도였으며, 교육부와 한국연구재단의 **지역혁신중심 R&D 지원사업(RIS)** 덕분에 연구를 구체화하고 실험할 수 있는 환경을 마련할 수 있었다”고 덧붙였다.

모델은 **PyTorch 기반**으로 구현되었으며, 실제 CCTV 상황을 반영한 **저조도/저화질 영상 데이터셋**을 자체 구축해 학습에 활용했다.
연구에는 김재은, 박은성 연구원(제주한라대학교), 고혁수 책임연구원((주)아인스에스엔씨)이 공동 참여했으며, 지도교수는 김성진 교수다.

이번 LQE-Net 연구는 **AI 기반 공공 안전 기술의 실용성**을 증명하는 사례로, 향후 스마트시티, 교통 통제, 범죄 분석 시스템 등 다양한 분야에서의 활용 가능성이 기대된다.

---

### 📑 논문 정보

- **논문 제목**: LQE-Net: 저조도 및 저화질 CCTV 영상 개선을 위한 하이브리드 딥 네트워크
- **영문 제목**: LQE-Net: Hybrid Deep Network for Enhancing Low-Light and Low-Quality CCTV Footage
- **게재지**: 멀티미디어학회논문지 (KMMS) | Vol.27 No.12 | 2024년 12월 | pp.1425–1434
- **저자**: 이규범, 김재은, 박은성 (제주한라대학교), 고혁수 (㈜아인스에스엔씨), 김성진 (제주한라대학교)
- **지원**: 본 연구는 교육부의 재원으로 한국연구재단 **지역혁신중심 연구개발 지원사업(RIS)**의 지원을 받아 수행됨
*(과제번호: 2023RIS-009)*

---

### ✍️ 작성자 정보

- **작성자**: 제주한라대학교 인공지능공학과 학생연구원 22학번 이규범
- **연락처**: [[email protected]](mailto:[email protected])
47 changes: 47 additions & 0 deletions site/_projects/2025-05-19-ResNet-paper.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,47 @@
---
title: 키보드 소리만 듣고 문자를 예측하는 인공지능 모델, ResNet 기반 연구 논문 게재
subtitle: AI, Acoustic Intelligence
summary: "ResNet과 멀티헤드 어텐션 기반 타이핑 소리 문자 예측 모델, 정보보호학회논문지(JKIISC)에 KCI 등재"
tools: 1. FFT, 2. ResNet, 3. Multi-Head Attention, 4. Acoustic Deep Learning
date: 2025-05-19 16:09:55 +0300
image: "/assets/images/projects/project-TypingSound-AI.png"
---

## 📰 키보드 소리만 듣고도 문자를 맞히는 인공지능 모델 등장
> 제주한라대학교 이규범, 정보보호학회논문지(JKIISC) 2025년 4월호 논문 게재

타이핑 소리만으로 입력한 문자를 예측할 수 있다면, 인공지능은 인간과의 상호작용 방식에 또 한 걸음 더 가까워질 수 있다.
제주한라대학교 인공지능공학과 이규범 학생연구원이 제안한 이 새로운 모델은, **타이핑 소리의 패턴만으로 문자를 예측**하는 딥러닝 기반 시스템이다.

이 연구는 *「ResNet과 멀티헤드 어텐션을 활용한 타이핑 소리 기반 문자 예측」*이라는 제목으로, 2025년 4월 『정보보호학회논문지(JKIISC)』에 게재되었으며, **소리 기반 입력 인식의 새로운 가능성을 제시**하고 있다.

핵심 아이디어는 간단하다. 사람이 키를 누를 때 발생하는 음향은 키 위치, 힘, 누르는 시간 등에 따라 고유한 주파수 패턴을 가진다. 이 소리를 **FFT(Fast Fourier Transform)**를 통해 스펙트로그램으로 변환하고, 이를 **ResNet**으로 분석해 주요 음향 특징을 추출한다. 그 뒤 **멀티헤드 어텐션** 모듈이 시간 흐름 속에서의 연관성을 포착하여 최종적으로 어떤 문자가 입력되었는지를 예측하는 구조다.

이 모델은 단순한 CNN이나 RNN 기반 접근보다 **미세한 타이밍과 음색의 차이**까지 반영할 수 있도록 설계되었으며, 실제 테스트에서 96.81%의 정확도를 기록해 기존 구조(96.66%)보다 성능을 향상시켰다. 특히 공공장소에서 녹음된 데이터나 마이크 품질이 낮은 경우에도 **학습 안정성과 예측 일관성이 높게 유지**된 것이 주요 성과다.

모델 구현은 다양한 실험과 수정을 거쳐 완성됐다. 연구자는 상용 타건 녹음 장비가 아닌 **일반 스마트폰 마이크**를 활용해 음향 데이터를 직접 수집했고, 소음을 필터링한 뒤 분류에 적합하도록 정규화 및 증강을 적용해 모델에 학습시켰다. 학습과 실험은 **커스텀 오디오 파이프라인과 CNN-Attention 조합 기반 아키텍처**를 통해 구성되었으며, 단어 간 유사한 소리를 구분하는 데 중점을 두었다.

이규범 학생연구원은 “AI가 눈으로 보는 것뿐 아니라, **귀로 듣고 이해할 수 있는 세계**에 도전한 프로젝트였다”며 “연구를 진행하며 실생활에서의 입력 시스템, 사이버 보안 인증, 장애인 보조 인터페이스 등 다양한 확장 가능성을 떠올릴 수 있었다”고 밝혔다.
또한, “이 연구는 **2024년도 정부(교육부)의 재원으로 한국연구재단의 첨단분야 혁신융합대학사업의 지원**을 받아 실험 인프라와 연구 환경을 안정적으로 확보할 수 있었기에 가능했다”고 덧붙였다.

공동저자로는 제주한라대학교 홍성관 교수(교신저자), 김성진 교수가 참여했으며, 실제 응용 측면에서도 후속 연구가 이어질 예정이다.

---

### 📑 논문 정보

- **논문 제목**: ResNet과 멀티헤드 어텐션을 활용한 타이핑 소리 기반 문자 예측
- **영문 제목**: Typing Sound-Based Character Prediction Using ResNet and Multi-Head Attention
- **게재지**: 정보보호학회논문지 (JKIISC) | Vol.35 No.2 | 2025년 4월 | pp.253–264
- **게재일**: Received 2025.03.04 / Accepted 2025.04.03
- **저자**: 이규범†, 홍성관‡, 김성진 (제주한라대학교)
- **사사**:
이 논문은 2024년도 정부(교육부)의 재원으로 한국연구재단 **첨단분야 혁신융합대학사업**의 지원을 받아 수행된 연구임 *(B0080702001168)*
*This research was supported by Convergence and Open Sharing System through the National Research Foundation of Korea (NRF) funded by the Ministry of Education (B0080702001168).*

---

### ✍️ 작성자 정보

- **작성자**: 제주한라대학교 인공지능공과 학생연구원 22학번 이규범
- **연락처**: [[email protected]](mailto:[email protected])
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.