MoviesSemanticSearchTesting

Paused

App Files Files Community

opex792 commited on Jan 8

Commit

efb7248

verified ·

1 Parent(s): bbf6f5b

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -17

app.py CHANGED Viewed

@@ -12,6 +12,11 @@ import logging
 from sklearn.preprocessing import normalize
 from concurrent.futures import ThreadPoolExecutor
 import requests
 # Настройка логирования
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
@@ -70,6 +75,9 @@ batch_size = 32
 # Количество потоков для параллельной обработки
 num_threads = 5
 def get_db_connection():
     """Устанавливает соединение с базой данных."""
     try:
@@ -354,9 +362,9 @@ def rerank_with_api(query, results, top_k):
     except requests.exceptions.RequestException as e:
         logging.error(f"Ошибка при запросе к API реранжировщика: {e}")
         return []
-def search_movies(query, top_k=25):
-    """Выполняет поиск фильмов по запросу."""
     global search_in_progress
     search_in_progress = True
     start_time = time.time()
@@ -364,7 +372,7 @@ def search_movies(query, top_k=25):
     try:
         conn = get_db_connection()
         if conn is None:
-            return "<p>Ошибка подключения к базе данных</p>"
         query_crc32 = calculate_crc32(query)
         query_embedding = get_embedding_from_db(conn, query_cache_table, "query_crc32", query_crc32, model_name)
@@ -416,34 +424,65 @@ def search_movies(query, top_k=25):
         movie_data_dict = get_movie_data_from_db(conn, movie_ids)
         conn.close()
-        output = ""
         for movie_id, score in reranked_results:
             # Находим данные фильма
             movie_data, _ = movie_data_dict.get(movie_id, (None, None))
             if movie_data:
-                output += f"<h3>{movie_data['name']} ({movie_data['year']})</h3>\n"
-                output += f"<p><strong>Жанры:</strong> {', '.join([genre['name'] for genre in movie_data['genres']])}</p>\n"
-                output += f"<p><strong>Описание:</strong> {movie_data.get('description', '')}</p>\n"
-                output += f"<p><strong>Релевантность (reranker score):</strong> {score:.4f}</p>\n"
-                output += "<hr>\n"
             else:
                 logging.warning(f"Данные для фильма с ID {movie_id} не найдены в БД.")
         search_time = time.time() - start_time
         logging.info(f"Поиск выполнен за {search_time:.2f} секунд.")
-        return f"<p>Время поиска: {search_time:.2f} сек</p>{output}"
     except Exception as e:
         logging.error(f"Ошибка при выполнении поиска: {e}")
-        return "<p>Произошла ошибка при выполнении поиска.</p>"
     finally:
         search_in_progress = False
-# Запускаем обработку фильмов в отдельном потоке
-processing_thread = threading.Thread(target=process_movies)
-processing_thread.start()
 # Создаем интерфейс Gradio
 iface = gr.Interface(
@@ -454,5 +493,14 @@ iface = gr.Interface(
     description="Введите описание фильма, который вы ищете, и система найдет наиболее похожие фильмы."
 )
-# Запускаем интерфейс
-iface.launch()

 from sklearn.preprocessing import normalize
 from concurrent.futures import ThreadPoolExecutor
 import requests
+from fastapi import FastAPI, HTTPException, Query
+from typing import List
+import uvicorn
+from starlette.requests import Request
+from starlette.responses import HTMLResponse
 # Настройка логирования
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 # Количество потоков для параллельной обработки
 num_threads = 5
+# FastAPI приложение
+app = FastAPI()
 def get_db_connection():
     """Устанавливает соединение с базой данных."""
     try:
     except requests.exceptions.RequestException as e:
         logging.error(f"Ошибка при запросе к API реранжировщика: {e}")
         return []
+def search_movies_internal(query: str, top_k: int = 25):
+    """Внутренняя функция для поиска фильмов по запросу (используется и в Gradio, и в API)."""
     global search_in_progress
     search_in_progress = True
     start_time = time.time()
     try:
         conn = get_db_connection()
         if conn is None:
+            raise Exception("Ошибка подключения к базе данных")
         query_crc32 = calculate_crc32(query)
         query_embedding = get_embedding_from_db(conn, query_cache_table, "query_crc32", query_crc32, model_name)
         movie_data_dict = get_movie_data_from_db(conn, movie_ids)
         conn.close()
+        formatted_results = []
         for movie_id, score in reranked_results:
             # Находим данные фильма
             movie_data, _ = movie_data_dict.get(movie_id, (None, None))
             if movie_data:
+                formatted_results.append({
+                    "movie_id": movie_id,
+                    "name": movie_data['name'],
+                    "year": movie_data['year'],
+                    "genres": [genre['name'] for genre in movie_data['genres']],
+                    "description": movie_data.get('description', ''),
+                    "relevance_score": score
+                })
             else:
                 logging.warning(f"Данные для фильма с ID {movie_id} не найдены в БД.")
         search_time = time.time() - start_time
         logging.info(f"Поиск выполнен за {search_time:.2f} секунд.")
+        return formatted_results, search_time
     except Exception as e:
         logging.error(f"Ошибка при выполнении поиска: {e}")
+        raise
     finally:
         search_in_progress = False
+def search_movies(query, top_k=25):
+    """Функция поиска фильмов для Gradio интерфейса."""
+    try:
+        results, search_time = search_movies_internal(query, top_k)
+        output = f"<p>Время поиска: {search_time:.2f} сек</p>"
+        for result in results:
+            output += f"<h3>{result['name']} ({result['year']})</h3>\n"
+            output += f"<p><strong>Жанры:</strong> {', '.join(result['genres'])}</p>\n"
+            output += f"<p><strong>Описание:</strong> {result['description']}</p>\n"
+            output += f"<p><strong>Релевантность (reranker score):</strong> {result['relevance_score']:.4f}</p>\n"
+            output += "<hr>\n"
+        return output
+    except Exception as e:
+        return f"<p>Произошла ошибка при выполнении поиска: {e}</p>"
+@app.get("/search/", response_model=List[dict])
+async def api_search_movies(query: str = Query(..., description="Поисковый ��апрос"), top_k: int = Query(25, description="Количество возвращаемых результатов")):
+    """API endpoint для поиска фильмов."""
+    try:
+        results, _ = search_movies_internal(query, top_k)
+        return results
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+# Запускаем обработку фильмов в отдельном потоке (если ещё не запущена)
+if not 'processing_thread' in globals():
+    processing_thread = threading.Thread(target=process_movies)
+    processing_thread.start()
+elif not processing_thread.is_alive():
+    processing_thread = threading.Thread(target=process_movies)
+    processing_thread.start()
 # Создаем интерфейс Gradio
 iface = gr.Interface(
     description="Введите описание фильма, который вы ищете, и система найдет наиболее похожие фильмы."
 )
+# Встраиваем Gradio в FastAPI
+app = gr.mount_gradio_app(app, iface, path="/")
+# Рут-эндпоинт для демонстрации, что FastAPI работает
+@app.get("/api")
+async def root():
+    return {"message": "FastAPI is running. Access the API documentation at /docs"}
+# Запускаем FastAPI
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=7860)