Automatyzacja, bezpieczeństwo i precyzja – nowoczesne narzędzie do konwersji mowy na tekst
W FireNet ruszyliśmy z pracami nad nowym rozwiązaniem, które ma szansę znacząco usprawnić pracę organów ścigania, biegłych i analityków danych: aplikacją do automatycznej transkrypcji plików audio i nagrań głosowych do formatu edytowalnego Word i Excel.
To narzędzie stworzone z myślą o środowiskach odizolowanych od sieci Internet, w tym również tych funkcjonujących pod klauzulą poufności. Dzięki wykorzystaniu sztucznej inteligencji możliwe będzie szybkie i bezpieczne przekształcanie materiałów dźwiękowych na dokumenty tekstowe, bez konieczności ręcznego przepisywania.
🧩 Założenia projektu
Celem systemu jest pełna automatyzacja transkrypcji mowy z różnych źródeł dźwięku:
- nagrań audio w formatach popularnych (WAV, MP3, FLAC),
- mikrofonu podłączonego bezpośrednio do urządzenia,
- zapisów z przesłuchań, monitoringów i rejestratorów terenowych.
Opracowywana aplikacja będzie umożliwiać:
- szybką konwersję mowy do dokumentu edytowalnego (.docx, .xlsx),
- działanie w trybie offline, bez dostępu do Internetu,
- instalację w środowiskach odseparowanych (air-gapped) – zgodnie z wymaganiami bezpieczeństwa IT,
- obsługę języka polskiego z wysoką dokładnością, także w kontekście specjalistycznego słownictwa (np. prawniczego lub technicznego).
🔐 Bezpieczeństwo przede wszystkim
Z uwagi na specyfikę klientów FireNet – jednostki śledcze, instytucje publiczne i sektor administracji – cały projekt od początku projektowany jest z myślą o pełnej zgodności z politykami bezpieczeństwa, takimi jak:
- brak połączenia z Internetem,
- brak zewnętrznego przetwarzania danych,
- pełna kontrola nad środowiskiem pracy (systemy objęte klauzulą poufności),
- możliwość instalacji lokalnej na zabezpieczonym sprzęcie klienta.
🚧 Obecny etap: planowanie i budowa prototypu
Projekt znajduje się obecnie w fazie początkowej. Zespół programistów i specjalistów AI opracowuje architekturę systemu, przygotowuje środowisko testowe i analizuje dostępne modele językowe, które będą mogły działać lokalnie – bez konieczności wysyłania danych poza system.
Równolegle pracujemy nad interfejsem użytkownika, który umożliwi:
- łatwe dodawanie plików dźwiękowych,
- edytowanie i formatowanie transkryptu,
- eksport danych do wybranego formatu (Word, Excel),
- oznaczanie kluczowych fragmentów wypowiedzi (np. w śledztwach).
🔜 Co dalej?
W kolejnych miesiącach planujemy:
- stworzenie działającego prototypu do testów wewnętrznych,
- kalibrację dokładności rozpoznawania mowy w warunkach śledczych,
- rozszerzenie obsługi o rozpoznawanie różnych głosów (wielomówcy),
- konsultacje z partnerami instytucjonalnymi co do wymagań operacyjnych.
💬 Transkrypcja to czasochłonny proces, który może pochłaniać godziny pracy funkcjonariuszy czy biegłych. Dzięki nowemu narzędziu FireNet, ta praca będzie szybsza, bezpieczniejsza i w pełni zautomatyzowana – bez kompromisów w zakresie poufności danych.
Jeśli Twoja instytucja jest zainteresowana udziałem w fazie testowej lub chcesz dowiedzieć się więcej – zapraszamy do kontaktu.
(autor: mgr inż. Waldemar Chodasiewicz)
(autor: mgr inż. Waldemar Chodasiewicz)
Marzec 2025