智能居家監控
與物品管理系統

結合電腦視覺、語音 AI 與藍牙感測，打造會思考、會提醒、會說話的智慧家庭助理。東西再也不會找不到，出門也不會忘東忘西。

電腦視覺語音 AI 藍牙雷達定位 ESP32

83%

尋物時間縮短

<1.5s

緊急警示反應

$20

硬體成本（美元）

TEYI 世界青少年發明展台灣選拔賽・銀牌 GSIC Global Sustainability Innovation Competition・金牌 Global Future Innovation Special Award 第二屆生成式 AI 智慧居家照護虛擬代理人創新應用競賽・第三名

壹動機目的

研究動機

傳統監控遺漏了什麼？

你有沒有出門後才想起鑰匙不知道放哪裡？忘記帶藥、走到門口才發現外面下雨？這些場景幾乎每個人每天都在發生。傳統監視器能錄下畫面，卻完全無法主動提醒你、回答你問題、替你分析風險。

對於有記憶困難的長者、家中有幼兒的家庭、或是日常生活忙碌的現代人，這個問題更加明顯。科技應該主動融入日常，而不是等人去操作它。

傳統監控的問題

✕只會錄影，無法主動提醒

✕東西亂放後找不回來

✕出門忘帶東西才發現

✕危險情境無法即時阻止

本系統的解法

✓AI 即時辨識物品位置

✓出門前自動核對攜帶清單

✓語音詢問、語音即時回答

✓異常行為即時警示通知

研究目的

讓科技主動融入日常生活

本系統的目標是打造一個能主動觀察、主動提醒、主動回應的智慧家庭助理。系統在背景默默運作，使用者不需要改變任何習慣——鑰匙放錯地方，它會提醒；出門前漏帶東西，它會告訴你；有人觸碰危險區域，它會即時警示。

貳系統功能

系統設計了五種主要模式，對應日常生活中最常遇到的居家管理問題，可依情境自由切換，各模式可同時運作、彼此不干擾。

五大操作模式

模式 1 🔍

尋找物品模式

當你找不到某件東西時，可以使用該模式來尋找遺失物品。系統會同時調用多個 YOLO 模型掃描所有攝影機畫面，鎖定鑰匙、錢包、藥盒、充電器等目標物品，並顯示其最後出現的位置截圖。系統會持續錄製各鏡頭畫面，當物品從畫面中消失時，自動保留消失前數秒的影片片段，供使用者回放確認物品去向。

若物品附有藍牙追蹤器，藍牙雷達模組會同步啟動：伺服馬達帶動掃描器旋轉 270°，偵測訊號最強的方向，並在介面上以極坐標圖即時標示物品的方位角與距離，無需逐一翻找即可快速定位。

模式 2 🚪

出門提醒模式

攝影機偵測到使用者臉孔出現在門口附近時，系統自動判定「準備出門」，隨即比對事先設定好的隨身清單（鑰匙、錢包、藥物、證件等），語音告知哪些物品尚未偵測到。

同時查詢即時天氣 API，若當日有降雨機率，系統主動語音提醒攜帶雨具。提醒內容同步透過 LINE 推播通知，確保出門前不遺漏任何重要物品。

模式 3 🚨

開櫃警示模式

持續監控指定櫃子（如藥櫃、儲藏室）的開關狀態。搭載年齡辨識功能，系統能即時判斷接近者的年齡，若偵測到未授權的人嘗試接觸或開啟，立即觸發聲音警示。

警示同步透過 LINE 傳送附圖通知，即使人不在現場，也能在第一時間收到提醒並掌握現場畫面。

模式 4 🔒

安全監控模式

追蹤手部與危險物品、禁止區域之間的接近距離。採用遲滯計數機制，需連續多幀超過閾值才觸發，有效過濾偶發性誤動作、避免頻繁誤報。

警示啟動後同步語音提醒，並透過 LINE 發送附圖通知，特別適合保護家中幼兒，防止誤觸危險物品或進入禁止區域。

模式 5 🧠

智慧助理模式

說出喚醒詞「智慧助理」即可開啟對話。系統以 Faster-Whisper 進行中文語音辨識，再由 Gemini AI 解析自然語言意圖，自動調用對應功能並以流暢的語音即時回應，全程免觸碰裝置。

可詢問的問題包括：「我的鑰匙在哪裡？」、「出門要帶什麼？」、「我最近常忘帶什麼？」。系統後端以 SQLite 長期記錄物品攜帶行為，透過物品共現分析學習使用者習慣（例如發現「帶鑰匙就會帶錢包」的規律），並結合損失預測模型，在你出門前主動提示最可能遺忘的物品。

通報與互動

所有警示皆可透過 Telegram 即時發送圖文通知給訂閱的使用者，不在家也能掌握動態。語音功能支援中文自然語言，說出問題即可獲得回應，無需觸碰任何按鈕。

參技術應用

系統架設在 ESP32 上，搭配多個攝影機同時運作，整合了視覺辨識、AI 分析、藍牙感測與語音互動等核心技術。

系統架構流程

📷 攝影機擷取

→

👁 視覺辨識

→

🤖 AI 分析

→

⚡ 警示決策

→

📱 通知發送

核心技術模組

👁 視覺辨識

多模型 YOLO26n 架構

採用多個 YOLO26n 模型協同偵測，各模型負責不同類別的物品，整體辨識準確率優於單一模型。人臉識別整合傳統特徵過濾與深度學習兩種方法。

🤖 AI 場景分析

Google Gemini 多模態

負責高層次場景理解，判斷物品是否放在合理位置，以及解析使用者的語音意圖並觸發對應的系統動作。

📡 藍牙雷達定位

270° RSSI 掃描

搭載藍牙掃描模組，透過伺服馬達旋轉 270° 掃描，尋找訊號最強方向。即時以極坐標圖顯示目標物品的角度與距離。

🗣 語音互動

喚醒詞 + 語音合成

支援喚醒詞啟動，語音辨識後由 AI 解析意圖，使用自然流暢的中文語音合成即時回應，無需接觸裝置。

技術棧

YOLO26n 物件偵測 Google Gemini AI MediaPipe 姿態追蹤 Dlib 人臉識別藍牙 RSSI 掃描 ESP32 Gradio 網頁介面語音合成 / 辨識 Telegram Bot SQLite 行為分析 Flask REST API OpenCV 影像處理

肆設計理念

系統的核心目標不是「功能最多」，而是讓家裡的每個人都能真正受益。設計時從不同家庭成員的實際需求出發，確保系統是幫助人的，而不是增加麻煩的。

👴

長者友善

記憶困難的長輩不需要學習複雜操作，系統主動提醒、主動報告物品位置，完全被動使用即可。

👶

兒童安全

安全監控模式為家中幼兒提供額外保護，避免接觸危險物品或禁止進入的區域。

😮‍💨

減輕焦慮

出門提醒與天氣整合，解決「出門才發現忘了什麼」的日常焦慮，讓出門更從容。

📈

越用越聰明

系統長期記錄行為習慣，隨時間學習使用者模式，推薦與提醒越來越貼近個人需求。

社會影響與 SDG 3

UN SDG 3 良好健康與福祉

以約 $20 美元（NT$600）的硬體成本，讓科技照護不再是少數家庭的專利。研究邀請 80 名受訪者進行問卷調查，結果確認本系統符合聯合國永續發展目標 SDG 3「良好健康與福祉」的精神，讓每個家庭都能負擔得起高品質的居家安全防護。

89.5%

受訪者認為 AI 提醒能提升長輩自主尊嚴

100%

受訪者支持低成本硬體架構

100%

受訪者預期使用後焦慮感減少

除此之外，大多數的 AI 推論在本地端執行，僅必要時呼叫外部 API，確保使用者的隱私安全，也讓系統能在沒有穩定網路的環境下持續運作。

伍未來展望

系統目前已能在本地端穩定運作，支援多攝影機、多使用者與多種警示情境。以下是未來希望持續改進的方向：

模型輕量化

優化模型體積，讓辨識速度更快、更省電，降低對硬體規格的要求，使系統更容易部署在低成本裝置上。

擴充物品類別

增加可追蹤的物品種類，覆蓋更多日常生活場景，並支援使用者自行新增客製化物品。

更精準的雷達定位

整合更多感測器資料，結合 AI 優化藍牙訊號處理演算法，讓目標物品的方向與距離判斷更加精準可靠。

普及化部署

探索更低成本的硬體組合與部署流程，讓這套系統更容易進入一般家庭，讓更多人受惠。

智能居家監控與物品管理系統