728x90
Table: Logins
+----------------+----------+
| Column Name | Type |
+----------------+----------+
| user_id | int |
| time_stamp | datetime |
+----------------+----------+
(user_id, time_stamp)은 이 테이블의 기본 키(고유한 값을 가진 열의 조합)입니다. 각 행은 user_id를 가진 사용자의 로그인 시간에 대한 정보를 포함합니다.
문제
2020년에 로그인한 모든 사용자의 최신 로그인 정보를 보고하는 솔루션을 작성하세요. 2020년에 로그인하지 않은 사용자는 포함하지 마세요.
결과 테이블은 어떤 순서로든 반환할 수 있습니다.
결과 형식은 다음 예시와 같습니다.
Example 1:
Input:
Logins table:
+---------+---------------------+
| user_id | time_stamp |
+---------+---------------------+
| 6 | 2020-06-30 15:06:07 |
| 6 | 2021-04-21 14:06:06 |
| 6 | 2019-03-07 00:18:15 |
| 8 | 2020-02-01 05:10:53 |
| 8 | 2020-12-30 00:46:50 |
| 2 | 2020-01-16 02:49:50 |
| 2 | 2019-08-25 07:59:08 |
| 14 | 2019-07-14 09:00:00 |
| 14 | 2021-01-06 11:59:59 |
+---------+---------------------+
Output:
+---------+---------------------+
| user_id | last_stamp |
+---------+---------------------+
| 6 | 2020-06-30 15:06:07 |
| 8 | 2020-12-30 00:46:50 |
| 2 | 2020-01-16 02:49:50 |
+---------+---------------------+
설명 : 사용자 6은 계정에 3번 로그인했지만 2020년에는 한 번만 로그인했으므로, 이 로그인 정보를 결과 테이블에 포함시킵니다. 사용자 8은 2020년에 2번 로그인했으며, 한 번은 2월에, 또 한 번은 12월에 로그인했습니다. 결과 테이블에는 최신 로그인(12월)만 포함시킵니다. 사용자 2는 계정에 2번 로그인했지만 2020년에는 한 번만 로그인했으므로, 이 로그인 정보를 결과 테이블에 포함시킵니다. 사용자 14는 2020년에 로그인하지 않았으므로, 결과 테이블에 포함하지 않습니다.
✏️ 풀이
import pandas as pd
def latest_login(logins: pd.DataFrame) -> pd.DataFrame:
df = logins[logins['time_stamp'].dt.year == 2020]
return df.groupby('user_id')['time_stamp'].max().reset_index(name='last_stamp')
📚 개념정리
groupby ? 데이터를 그룹화하여 연산하는 메서드
max() ? 행/열 의 최댓값을 구하는 메서드